跳转至

JRSSB — Vol 87 Issue 3 · 2026-06-20

  • 共 15 篇 · Journal of the Royal Statistical Society Series B
  • 目录核对 ✅ 15 篇全部抓到(对照 OpenAlex 16 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

JRSSB 第87卷第3期的15篇论文主要围绕三条主线展开:因果推断中的识别与估计(中介分析、替代标记、流行病学干预效应)、高维与迁移学习(混合专家模型的预测集、基于角度的迁移学习)、以及非参数与半参数方法(个体变量重要性、函数型数据分析、分布回归外推、时空效应检测、动态系统建模等)。此外,还有假设检验(带噪声标签的自适应共形推断)、计算方法(RWM的可扩展耦合)和极值建模等独立工作。

因果推断主线上,三篇论文从不同角度推进稳健估计。Causal mediation analysis 处理高维中介变量与未观测混杂,将混淆函数视为 nuisance 并用数据自适应方法估计,基于自适应 lasso 框架同时实现变量选择与效应估计,并推导 oracle 性质。Robust evaluation of longitudinal surrogate markers 将替代标记评估从单点推广到纵向轨迹,在双重删失下用 IPW 与 Kaplan-Meier 型加权构建稳健估计量,无需参数化分布假设。Frequentist inference for semi-mechanistic epidemic models 采用频率学派路径估计干预效应,通过 model-free shrinkage 跨区域借力,避免了贝叶斯先验设定,并给出高维 debiasing 下的正确覆盖置信区间。三者共同关注因果效应对模型误设的稳健性,并在高维或删失等复杂数据结构下保持推断有效性。

非参数与半参数方法是数量最庞大的主线,涉及多个新目标与新工具。Moving beyond population variable importance 提出个体层面的变量重要性,参数为两个条件均方误差之比,采用全非参数估计并建立渐近正态性,其 influence function 与效率界可直接关联半参数理论。Engression 通过神经网络拟合全条件分布,在 preadditive noise 模型下给出外推能力的理论保证,拓展了分布回归的外推边界。Spatial effect detection regression 利用时空相关性将维数灾难转化为维数祝福,通过 0-1 回归系数与惩罚自动识别空间效应边界,并建立收敛速率与选择一致性。Adaptive functional principal components analysis 为 FPCA 的特征元素估计提供自适应的带宽选择规则,推导显式二次风险上界并给出最优收敛速率。Dynamic modelling of sparse longitudinal data with SDE 绕过协方差估计,将潜在过程建模为随机微分方程,从稀疏短窗数据恢复个体轨迹,其收敛速率证明可用于纵向因果推断。α-separability 引入度量族以联合建模幅度与相位,证明 Fréchet 均值的相合性,为非参数函数型推断提供可识别性工具。这些方法虽主题各异,但共享非参数或半参数框架下的新参数定义、结构光滑性利用与渐近理论推导。

与因果推断方向最贴近的可优先阅读 Causal mediation analysis、Robust evaluation of longitudinal surrogate markers 和 Frequentist inference for semi-mechanistic epidemic models;关注半参数效率与 influence function 的读者可关注 Moving beyond population variable importance 和 Robustness, model checking, and hierarchical models;高维方向推荐 Robust angle-based transfer learning 和 Prediction sets for high-dimensional mixture of experts。

因果推断 (causal_inference, 2 篇)

1. 10.1093/jrsssb/qkae109 · arXiv — Causal mediation analysis: selection with asymptotically valid inference

  • 作者: Jeremiah Jones, Ashkan Ertefaie, Robert L Strawderman
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 678-700
  • 相关性 9/10 · novelty: new_method
  • 摘要: 该文关注因果中介分析中的变量选择与推断问题,目标参数为自然直接效应和间接效应,设定中存在高维中介变量和潜在未观测混杂。现有惩罚中介分析方法常忽略重要中介或假设线性混杂控制,该文将混淆函数视为 nuisance 参数,使用数据自适应方法(如非参数或机器学习)进行估计。提出一种新的正则化方法应用于目标函数,以同时识别重要中介变量并估计因果效应,该方法基于自适应 lasso 框架但允许非参数混淆控制。作者推导了所提估计量的渐近性质,证明了在特定假设下的 oracle 性质(变量选择和效应估计的一致性)。进一步在局部设定下与标准自适应 lasso 对比,展示了方法优势。提出一种扰动 bootstrap 技术,用于在变量选择后对中介效应进行渐近有效的推断。仿真研究验证了该方法在有限样本下的良好性能。该工作直接对接您 causal inference 中的中介分析兴趣,其非参数混淆处理与 oracle 性质值得关注。
  • 关键技术: penalized mediation analysis, confounding functions as nuisance parameters, data-adaptive estimation, adaptive lasso with oracle property, perturbation bootstrap for post-selection inference
  • 为什么对您有用: 该文直接聚焦因果推断中的中介分析,属于您的 primary interest 子方向。文中将混淆函数视为 nuisance 并用数据自适应方法估计,这一设定可纳入 semiparametric 框架,您可以用 estimation theory in causal inference(very_familiar)中的渐近工具验证其推断理论,并用 semiparametric theory(moderately_familiar)中的 influence function 视角评估效率。立即可做:您已有的理论工具足以深入理解并可能扩展该方法至更复杂的中介设定。

2. 10.1093/jrsssb/qkae119 · arXiv — Robust evaluation of longitudinal surrogate markers with censored data

  • 作者: Denis Agniel, Layla Parast
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 891-907
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在纵向替代标记与删失时间-to-event 终点的设定下,本文目标是定义并估计由纵向替代标记解释的处理效应比例(PTE)。核心 estimand 将替代标记扩展为直至时间 t0 的纵向轨迹,同时处理终点与替代标记的双重删失。估计方法基于 IPW 与 Kaplan-Meier 型加权构建 robust estimator,无需参数化分布假设,并在模拟中展示有限样本性质。实证分析使用糖尿病预防项目数据,以重复测量的空腹血糖作为糖尿病诊断的纵向替代标记。对您有用:本文将替代标记评估从单点推广到纵向轨迹,属于 longitudinal causal inference 的估计理论范畴。
  • 关键技术: proportion of treatment effect explained (PTE), inverse probability weighting (IPW), Kaplan-Meier censoring adjustment, longitudinal surrogate marker, time-to-event outcome
  • 为什么对您有用: 本文直接连接 longitudinal causal inference 的估计问题,处理纵向替代标记与删失终点的 PTE estimand。用 technical_arsenal 中 estimation theory in causal inference 可分析其 IPW estimator 的 semiparametric efficiency bound 与 influence function,判断是否达到 n^{-1/2}-CAN。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以推导该 PTE estimand 的 efficient influence function 并构造 one-step / TMLE 估计量。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)

1. 10.1093/jrsssb/qkae111 · arXiv — Robust angle-based transfer learning in high dimensions

  • 作者: Tian Gu, Yi Han, Rui Duan
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 723-745
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本研究聚焦于高维回归中的迁移学习问题,目标是在目标数据稀缺且仅能获取源模型参数估计(而非个体级数据)的情形下提升目标模型性能。提出了一种新颖的基于角度的迁移学习(angleTL)方法,利用源模型与目标模型参数的夹角(concordance)来加权适应目标信号的强度,统一了若干现有基准方法并减轻了当群体异质性较大时可能发生的负迁移。该方法可自然地扩展至多源模型场景,并针对不同源的相关性进行自适应加权。在高维渐近框架下,作者推导了角度相似度与迁移增益之间的解析关系,给出了源模型何时能有效改善目标模型的理论阈值,并证明了angleTL相较于传统方法的优势。模拟实验和跨生物库的遗传风险评分迁移应用验证了方法的有效性。对于关注高维统计与迁移学习的研究者,本文提供了一种可直接使用的估计策略,其角度适应机制与高维渐近分析便于利用熟悉的高维工具进行深入理解和扩展。
  • 关键技术: angle-based transfer learning, concordance measure between source and target parameters, high-dimensional asymptotic analysis, multi-source model aggregation, negative transfer mitigation, genetic risk prediction transfer
  • 为什么对您有用: 本文直接切入高维统计中的迁移学习问题(primary interest),且其高维渐近分析与信号适应机制可用您非常熟悉的高维渐近工具(very_familiar: high-dimensional asymptotics)进行检验或扩展,例如验证所提阈值是否紧致。立即可做:利用您已有的高维渐近理论素养,可复现其理论结果并进一步探索角度TL在因果推断中介模型或IV设定下的推广;不需要额外工具即可动手。

非参数 / 半参数 (nonparam_semipara, 7 篇)

1. 10.1093/jrsssb/qkae115 — Moving beyond population variable importance: concept, theory and applications of individual variable importance

  • 作者: Guorong Dai, Lingxuan Shao, Jinbo Chen
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 机构: Fudan University · University of Pennsylvania
  • 分类: vol 87 · issue 3 · pp 816-832
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在非参数回归设定下,本文提出"个体变量重要性"(individual variable importance)概念,旨在评估特定特征子群下某协变量对结局变量的关联强度,目标参数为两个条件均方误差之比。估计策略采用全非参数方法(基于核/sieve的条件均值估计),并建立估计量的渐近性质(n^{-1/2}-CAN 与渐近正态)。模拟与真实数据(体形与收缩压的年龄异质性关联)表明该方法对模型误设具有鲁棒性,能捕捉传统参数交互分析无法刻画的复杂关系。对您可能有用:该 ratio parameter 的非参数估计与推断涉及条件均值的高维非参数回归,其效率界与 influence function 可与您的 semiparametric efficiency / HOIF 视角直接对接。
  • ⚠️ 摘要不完整,待重跑(python -m research_news.rerun
  • 关键技术: nonparametric regression, conditional mean squared error ratio, kernel / sieve estimation, asymptotic normality, individual variable importance
  • 为什么对您有用: 直接连接 semiparametric & nonparametric theory 子方向:该 ratio estimand 的非参数估计涉及条件期望的嵌套估计,是典型的 semiparametric efficiency bound 与 HOIF 可切入的口子——可用 minimax bound 检验其非参数收敛率是否紧,或用 HOIF 构造更高阶的 debiased 估计以改善条件均值估计的偏差项。立即可做:用 very_familiar 的 minimax bounds 工具分析该 ratio 参数在光滑条件下的最优收敛率,并判断当前核估计是否达到 minimax optimal。

2. 10.1093/jrsssb/qkae106 · arXiv — Adaptive functional principal components analysis

  • 作者: Sunny G W Wang, Valentin Patilea, Nicolas Klutchnikoff
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 机构: Centre de Recherche en Économie et Statistique · Université Rennes 2 · Institut de recherche mathématique de Rennes · Université de Rennes
  • 分类: vol 87 · issue 3 · pp 603-631
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在函数型数据分析中,由于离散观测和测量误差,曲线平滑是FPCA的前置步骤,但平滑参数的选择缺乏兼顾信息共享与计算效率的数据驱动方法。本文针对FPCA的特征元素(特征函数、特征值)估计,提出了一种自适应的核平滑带宽选择方法。作者推导了特征元素估计的显式二次风险上界,并基于该风险上界的最小化,为每个特征元素分别给出计算高效的带宽规则,同时适用于共同设计(common design)和独立设计(independent design)两种观测模式。进一步,给出了对应估计量的收敛速率。通过大量模拟和真实数据应用验证了方法的有效性,表明该方法在保持计算可行性的同时改善了估计精度。对您而言,这是一篇非参数统计中自适应平滑的扎实方法论文章,其风险界推导与带宽优化思想可直接与您熟悉的非参数极小极大理论对话。
  • 关键技术: kernel smoothing, functional principal components analysis, risk bound minimization, adaptive bandwidth selection, eigen-element estimation
  • 为什么对您有用: (1)连接非参数统计中函数型数据分析的自适应平滑问题,与您的 primary interest 中 'nonparametric statistics' 直接对应;(2)您非常熟悉的 'minimax bounds for estimation problems' 可直接用于检验本文收敛速率的紧性,而 'nonparametric statistics' 工具可对风险上界的证明细节进行推敲;(3)立即可做——非参数理论属于您的 very_familiar 武器,无需额外准备即可评估其贡献。

3. 10.1093/jrsssb/qkae108 · arXiv — Engression: extrapolation through the lens of distributional regression

  • 作者: Xinwei Shen, Nicolai Meinshausen
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 653-677
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文提出一种基于神经网络的分布回归方法“engression”,旨在估计目标变量在给定协变量下的全条件分布。传统分布回归方法(如分位数回归)多用于线性或树集成模型,而engression通过生成式方式拟合条件分布,且适用于高维输出。方法的核心机制是:建模条件分布可在训练支持之外约束拟合函数,从而在非线性回归的外推问题中展现优势。对于“preadditive noise”模型(协变量先加噪声再经非线性变换),在单调性等假设下,engression能成功外推,而最小二乘或分位数回归则失败。理论部分给出了外推能力的假设性保证,模拟和真实数据实验验证了有效性。本文对非参数条件分布估计和外推理论有明确贡献,同时高维输出场景与你对高维统计的兴趣一致。
  • 关键技术: distributional regression, neural network, generative modeling, extrapolation, preadditive noise model, conditional distribution estimation
  • 为什么对您有用: 本文直接连接你的非参数统计兴趣,具体是条件分布估计与外推。你武器库中的‘nonparametric statistics’(如minimax率分析)可用于评估engression分布估计的最优性;‘high-dimensional asymptotics’可用于检验方法在高维输出下的收敛行为。对此方法你可立即可做:用非参数理论分析其外推误差界,或与现有回归方法进行minimax比较。

4. 10.1093/jrsssb/qkae118 — Spatial effect detection regression for large-scale spatio-temporal covariates

  • 作者: Chenlin Zhang, Ling Zhou, Bin Guo, Huazhen Lin
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 机构: Southwestern University of Finance and Economics · Statistical Research (United States)
  • 分类: vol 87 · issue 3 · pp 872-890
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文提出时空效应检测回归(SEDR)模型,用于处理高维时空协变量对标量结果的非线性、非规则影响。模型将成分函数和系数函数设为位置与时间的未知光滑函数,借助时空相关性将“维数灾难”转化为“维数祝福”,并在理论上确认了这一点。引入一组0-1回归系数并通过新颖的惩罚实现空间效应边界的自动识别,采用每步有闭合形式的迭代算法并证明其收敛性。分别针对维度与效应空间的不同场景,建立了估计量的收敛速率和选择一致性。模拟评价表明方法在偏差和经验效率方面优于现有方法。环境监测与ADNI数据集的应用显示更小的预测误差和有趣发现。对于您的高维非参数理论兴趣,本文展示了如何利用结构光滑性实现有效降维,其收敛率证明思路可能迁移至您熟悉的非参数最小最大框架。
  • 关键技术: penalized variable selection, spatial smoothing, blessing of dimensionality, iterative algorithm with closed form, selection consistency, rate of convergence
  • 为什么对您有用: 直接连接您的非参数理论兴趣(高维非参数回归的结构化利用)。您熟悉的非参数统计与高维渐近性可以直接用于评估其收敛率证明的置信度或改进边界;该文还展示了如何用简单迭代算法处理高维非参数问题,与您的统计计算兴趣互补。后续可中期发展:将该空间效应检测框架的思想引入因果推断中的时空协变量处理,但需要先在“identification theory in causal inference”上发力(当前无因果目标)。

5. 10.1093/jrsssb/qkae107 — Robustness, model checking, and hierarchical models

  • 作者: Rafael Cabral, David Bolin, Håvard Rue
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 机构: King Abdullah University of Science and Technology
  • 分类: vol 87 · issue 3 · pp 632-652
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在 latent Gaussian model (LGM) 这类层级模型设定下,本文研究如何对难以直接观测的 latent 参数假设进行 model checking 与 robustness 分析。核心机制是:(a) 构造一个放松原假设的 alternative model(如放松 latent Gaussianity);(b) 从 alternative model 导出对该偏离最敏感的 diagnostic statistic(基于 directional sensitivity / most powerful test logic)。作者进一步提出将 model checking 与后续 robustness analysis 结合的 workflow,从而量化假设偏离对推断结果的影响。理论层面,diagnostic statistic 的构造实质上利用了参数空间中的 directional perturbation 与对应的 influence function / sensitivity measure;实证上,通过 Stan 与 R-INLA 展示了放松 latent Gaussianity 假设的具体操作。对您可能有用:本文的 directional sensitivity 思路与 semiparametric efficiency / influence function 理论中的最敏感方向有深层对应,可作为 hierarchical model 下 sensitivity analysis 的入门参考。
  • 关键技术: latent Gaussian models, directional sensitivity diagnostic, hierarchical model checking, alternative model construction, R-INLA, Stan
  • 为什么对您有用: 本文直接连接 causal inference / semiparametric theory 中的 sensitivity analysis 子方向:其 directional sensitivity diagnostic 的构造逻辑与您熟悉的 influence function / semiparametric efficiency bound 中寻找最敏感方向的技术同源。用您 very_familiar 的 minimax bounds 与 moderately_familiar 的 semiparametric theory / HOIF,可以审视本文 diagnostic statistic 是否达到了某种 directional minimax optimality,或将其 alternative model 扩展到 proximal CI / IV 设定下做 latent confounder 的 model checking。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将 directional sensitivity 与 HOIF 的 higher-order influence function 结合,以刻画更高阶的 model deviation。

6. 10.1093/jrsssb/qkae116 · arXiv — Dynamic modelling of sparse longitudinal data and functional snippets with stochastic differential equations

  • 作者: Yidong Zhou, Hans-Georg Müller
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 833-849
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在加速纵向研究(functional snippets)设定下,目标是从稀疏、仅覆盖短时间窗的纵向数据中恢复个体轨迹;核心难点是协方差远对角区域信息缺失,传统非参数协方差估计不可行。本文绕过协方差估计,将潜在过程建模为数据驱动的随机微分方程(SDE)的解,利用 Gauss 过程与线性 SDE 的等价性,通过估计漂移与扩散系数重构过程的动态分布。提出的数据驱动 SDE 解的存在唯一性得到严格证明,并给出了漂移/扩散系数非参数估计的收敛速率。实证显示该方法可在个体层面一致地向前预测样本路径,优于依赖协方差估计的传统方法。对您有用:该框架为纵向因果推断中处理稀疏轨迹提供了新的半参数建模工具,且其收敛速率分析可直接与 minimax 理论对接。
  • 关键技术: stochastic differential equation, functional snippets, Gauss process-SDE equivalence, drift-diffusion nonparametric estimation, covariance bypass, convergence rate
  • 为什么对您有用: 直接连接 longitudinal causal inference 中稀疏轨迹的建模难题,functional snippets 的协方差缺失是实际应用瓶颈;您熟悉的 minimax bounds for estimation 与 nonparametric statistics 可用于审视本文漂移/扩散估计的收敛速率是否达到 minimax 下界。立即可做:用 very_familiar 的 minimax 理论验证其速率紧性,并探索该 SDE 模型在 longitudinal treatment effect 估计中的 semiparametric efficiency bound。

7. 10.1093/jrsssb/qkae112α-separability and adjustable combination of amplitude and phase model for functional data

  • 作者: Tian Wang, Jimin Ding
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 机构: Columbia University · Washington University in St. Louis
  • 分类: vol 87 · issue 3 · pp 746-771
  • 相关性 2/10 · novelty: new_method
  • 摘要: 该文针对函数型数据中幅度与相位变化的可分离与联合建模问题,引入α-可分性概念,通过构造α索引度量族来量化垂直与水平特征的权重,克服了可识别性困难。文中建立了α-可分性与Fréchet均值唯一性之间的联系,并基于此提出幅度与相位的可调组合模型,参数α允许用户灵活调节建模重点。理论方面,证明了样本Fréchet均值、方差以及所提出估计量的相合性,为非参数函数型数据推断提供了新视角。模拟和COVID-19感染率数据验证了方法的实用性。该文的核心技术思路(Fréchet均值的相合性证明、度量族构造)直接与非参数统计理论中的一致性和可识别性分析相关,可借助您熟悉的非参数工具(如经验过程、minimax分析)来理解或拓展其理论性质。
  • 关键技术: Fréchet mean, α-separability, amplitude and phase variation, consistency
  • 为什么对您有用: 本文属于非参数统计理论方向,直接连接到您的主要兴趣。其α-可分性框架和Fréchet均值相合性证明,可用您非常熟悉的非参数统计工具(如经验过程、minimax论证)进行理论评估或推广到其他函数型数据设定。follow-up判断:立即可做——您的非参数统计知识足以深入理解和批判该文的理论贡献,并可能将其α-可分性思想用于更一般的估计问题。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1093/jrsssb/qkae117 · arXiv — Prediction sets for high-dimensional mixture of experts models

  • 作者: Adel Javanmard, Simeng Shao, Jacob Bien
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 850-871
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维 mixture-of-experts (MoE) 模型下,目标是构造响应变量具有有限样本覆盖保证的 prediction set;模型设定为特征依赖的混合权重与多个高维线性回归子模型,关键假设为稀疏性。核心方法先对 ℓ1-penalized MoE 估计做 debiasing 以消除惩罚引入的偏差,再提出 novel strategy 将各 expert 分支的 debiased interval 组合为 mixture 下的 prediction set。理论证明在 debiasing 与 mixture 组合后,所得 prediction set 满足渐近覆盖保证;高维 debiasing 步骤依赖 nodewise regression 构造残差以校正 ℓ1 偏差。仿真与超导材料临界温度预测实证表明方法覆盖可靠。对您可能有用:本文将 debiased ML 从单一高维线性推广至 mixture 设定,为高维异质性因果模型的 debiased inference 提供新路径。
  • 关键技术: debiased Lasso, mixture of experts, prediction set, nodewise regression, ℓ1-penalization, coverage guarantee
  • 为什么对您有用: 本文直接连接 efficiency_dml / debiased ML 子方向,将高维 debiasing 推进到 mixture-of-experts 设定,突破了单一线性模型的局限。您可用 very_familiar 的高维渐近理论工具审视其 debiasing 步骤的渐近展开是否紧,或用 moderately_familiar 的 M-estimation 理论分析 MoE 估计量的局部渐近性质。Follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以将此 debiased MoE 框架迁移到高维因果推断的异质性 treatment effect 设定中。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)

1. 10.1093/jrsssb/qkae114 · arXiv — Adaptive conformal classification with noisy labels

  • 作者: Matteo Sesia, Y X Rachel Wang, Xin Tong
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 796-815
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在 conformal classification 框架下,研究 calibration sample 存在随机标签污染(label contamination)时如何保持有效 coverage 的问题,目标 estimand 为条件/边际预测集的覆盖率。文章首先精确刻画了标准 conformal inference 在标签污染下的 coverage 膨胀/收缩偏差,给出了偏差随污染比例变化的定量关系;随后基于该理论提出一种自适应校准算法,利用 contamination process 的不同建模假设(如随机翻转模型)进行修正,且无需知晓数据分布或分类器内部结构。理论证明修正后的预测集在有限样本下维持 valid coverage,实证(模拟与 CIFAR-10H)显示其比标准方法更 informative 且 coverage 更准确。对您可能有用:该文对分布无关推断(conformal)在数据质量缺陷下的 robustness 分析,与您在 semiparametric efficiency 及假设检验中对有限样本 coverage 保证的关注有直接对接。
  • 关键技术: conformal prediction, label contamination model, coverage inflation characterization, adaptive calibration algorithm, distribution-free inference
  • 为什么对您有用: 本文连接到您 primary interest 中的 hypothesis testing / semiparametric theory——conformal inference 本质上是分布无关的 finite-sample coverage 保证,与经典 semiparametric efficiency bound 的 asymptotic 体系形成对照,其 coverage 偏差的精确刻画可视为一种非参数 sensitivity analysis。您武器库中 very_familiar 的 minimax bounds 与 nonparametric statistics 可直接用来审视该文声称的 coverage 修正是否 minimax optimal,或是否可进一步用 HOIF 做高阶修正——这是立即可做的 follow-up。

统计计算 / 算法 (stat_computing, 1 篇)

1. 10.1093/jrsssb/qkae113 · arXiv — Scalable couplings for the random walk Metropolis algorithm

  • 作者: Tamás P Papp, Chris Sherlock
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 772-795
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对随机游走 Metropolis (RWM) 算法设计可扩展的耦合方法,目标是在高维目标分布下实现有效的收敛诊断和无偏估计。方法上,提出一种低秩修改的同步耦合(low-rank modified synchronous coupling),并在标准高维渐近框架下证明其收缩率最优。同时指出现有反射耦合(reflection coupling)在高维下的缺陷,并给出一种修正方案缓解该问题。理论分析连接了最优缩放(optimal scaling)文献,建立了耦合的渐近最优性框架。数值实验展示了所提耦合的实用性及扩展潜力。对于统计计算研究者,本文提供了 MCMC 耦合的高维理论,可直接利用高维渐近武器评估其最优性,并借助软件开发经验实现算法。
  • 关键技术: random walk Metropolis, low-rank synchronous coupling, reflection coupling, optimal scaling, high-dimensional asymptotics, diffusion approximation
  • 为什么对您有用: 本文属于统计计算核心方向,直接对应您 primary interest 中的『statistical computing』,且高维渐近分析为您的『high-dimensional asymptotics』武器提供了具体应用场景——您可以用 minimax 视角评判其收缩率最优性是否紧。同时,本文的耦合方法可借助您的『software development』经验直接复现或扩展为实用工具(如结合 U 统计量计算中的 einsum 结构)。判断:立即可做——您熟悉的高维渐近工具足以理解理论核心,软件开发背景可支持算法实现。

流行病学 (epidemiology, 1 篇)

1. 10.1093/jrsssb/qkae110 · arXiv — Frequentist inference for semi-mechanistic epidemic models with interventions

  • 作者: Heejong Bong, Valérie Ventura, Larry Wasserman
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 701-722
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在半机制(semi-mechanistic)流行病学模型设定下,目标是估计公共卫生干预对疫情轨迹的因果效应,避免贝叶斯方法需指定先验的局限。核心估计策略采用 frequentist 路径,结合 model-free shrinkage 方法跨地理区域借力,无需构建层级模型即可获得正确覆盖率的置信区间。理论性质依赖于高维 shrinkage 估计的 debiasing 与置信区间构造技术,保证跨区域参数估计的频率学派有效性。实证以 Covid-19 数据展示干预效应估计与预测区间,半机制模型相比传统 compartmental 模型更易处理。对您可能有用:本文为流行病学应用中的干预效应估计提供了纯频率学派框架,其 shrinkage + debiased CI 的思路可迁移至您在因果推断效率理论中的多参数借力估计问题。
  • 关键技术: semi-mechanistic epidemic model, frequentist confidence intervals, model-free shrinkage estimation, borrowing strength across regions, intervention effect estimation
  • 为什么对您有用: 本文直接连接流行病学(secondary interest)中的干预因果效应估计,采用频率学派 shrinkage + debiased CI 替代贝叶斯层级模型,与您 primary interest 中的效率理论(semiparametric efficiency bounds, debiased ML)高度同构。您可用 very_familiar 的高维渐近理论与 minimax bound 验证其 shrinkage estimator 的率是否达到最优,或用 moderately_familiar 的 semiparametric theory 探究该半机制模型下干预效应的 efficient influence function。立即可做:用现有武器库中的 debiased ML / minimax 工具即可复现并改进其理论分析。

其他 (other, 1 篇)

1. 10.1093/jrsssb/qkae105 · arXiv — X-vine models for multivariate extremes

  • 作者: Anna Kiriliouk, Jeongjin Lee, Johan Segers
  • 期刊/来源: Journal of the Royal Statistical Society Series B
  • 分类: vol 87 · issue 3 · pp 579-602
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对多元极值分布的建模问题,提出X-vine模型,利用regular vine序列分解和构造多元极值分布的exponent measure密度(或等价地尾部copula密度)。尽管这些密度因无限质量而带来理论挑战,但其齐次性简化了构建。X-vine模型将任意二元极值copula组合成高维模型,通过递归公式计算模型组件。论文还开发了基于X-vine的多元Pareto分布模拟算法,以及基于阈值超出的参数估计和模型选择方法。蒙特卡洛实验和美国航班延误数据案例展示了方法有效性。对于您,本文提供了一种新的高维非参数/半参数极值建模策略,但其核心极值理论背景与您当前研究兴趣交集有限,需额外领域知识才能深入利用。
  • 关键技术: regular vine, exponent measure density, tail copula density, recursive computation, threshold exceedance, multivariate Pareto distribution
  • 为什么对您有用: 本文主题与您的主要兴趣(因果推断、高维U-统计、计算权衡)无直接关联,但可视为非参数copula建模的拓展。您的武器库中“非参数统计”和“软件工具开发”可用于理解其递归计算结构,但极值理论基础(如正则变换、点过程)目前未覆盖,属于暂不可做方向。作为方法学参考文章,可了解vine类模型在高维依赖性建模中的最新进展,但不建议投入时间深读。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论