JRSSB — Vol 87 Issue 2 · 2026-06-20¶
- 共 11 篇 · Journal of the Royal Statistical Society Series B
- 目录核对 ✅ 11 篇全部抓到(对照 OpenAlex 11 篇)
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期内容主要围绕三条方法论主线展开:一是因果推断中的识别与效率问题,涉及长期效应、双向因果、无应答调整及代理变量辅助估计;二是非参数与半参数方法的边界突破,包括利用梯度信息克服维数诅咒、局部化共形预测以及多尺度扫描中的干扰参数处理;三是高维与计算统计的交叉,涵盖随机矩阵理论在混合模型先验与集成估计修正中的应用、概率化数值外推,以及超高维纵向数据的稳健模型平均。
在因果推断与效率主线中,本期多篇论文聚焦于非标准设定下的识别策略与半参数效率界。针对长期因果推断中的持续混杂,长期效应一文结合短期实验与长期观测数据,利用时序结构提出三种非参数识别策略及双稳健估计;无应答调整一文则利用随访数据提出“稳定性抵抗”假设以实现识别,并推导出有效影响函数与双稳健估计;代理变量一文放弃强代理假设,推导了结合有限目标结果与丰富代理观测时ATE的半参数效率界差异。此外,双向因果一文在孟德尔随机化框架下,通过筛选子集遗传变异重构单向IV,将双向检验解耦为两个单向问题。
非参数与高维计算主线则分别从估计收敛率、分布自由推断与模型选择机制推进。非参数估计一文在SS-ANOVA框架下引入偏导数(梯度)信息,证明其可使加性模型达到参数率,并使全交互模型免疫于部分维数诅咒;局部化共形预测一文通过引入随机化扰动构造局部权重,在协变量偏移下实现了松弛的局部覆盖保证;多尺度扫描一文指出plug-in估计会破坏扫描统计量的渐近控制,提出在最大尺度估计干扰参数并在较小尺度扫描的两阶段策略。计算与高维方面,混合模型一文利用随机矩阵特征值联合分布构造闭式可得的Gibbs排斥先验以分离簇;修正GCV一文证明有限集成下标准GCV不一致,引入基于随机矩阵理论的额外标量修正;概率Richardson外推一文基于高斯过程将未知收敛阶视为随机量,实现多保真度建模与外推加速;超高维纵向一文则用基于秩的损失筛选结合修正Cholesky分解进行稳健模型平均预测。
对因果推断与半参数效率方向最贴的是长期效应、无应答调整与代理变量三篇,均涉及非标准缺失或混杂下的识别与双稳健/效率界推导;高维与随机矩阵方向优先看混合模型排斥先验与修正GCV两篇,前者是RMT直接构造先验的实例,后者借RMT修正模型选择;非参数方向则首推偏导数估计与局部化共形预测,分别从收敛率与条件覆盖突破传统局限。
因果推断 (causal_inference, 3 篇)¶
1. 10.1093/jrsssb/qkae101 — A focusing framework for testing bi-directional causal effects in Mendelian randomization¶
- 作者: Sai Li, Ting Ye
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 机构: Renmin University of China · University of Washington
- 分类: vol 87 · issue 2 · pp 529-548
- 相关性 8/10 · novelty:
new_method - 摘要: 在 Mendelian randomization (MR) 框架下,目标是推断双向因果关系(X→Y 与 Y→X)及因果方向,核心难点在于遗传变异作为 IV 时常面临多效性(pleiotropy)且双向关系使经典 MR 的排除限制假设过强甚至不可满足。本文提出 focusing framework:通过筛选特定子集遗传变异以重构满足单向 IV 条件的工具变量集,从而将双向因果检验解耦为两个单向 MR 问题,并可耦合现有 MR 方法(如 MR-Egger, IVW)执行。理论部分给出了 focusing 步骤下因果效应估计的 identification 条件与渐近保证,模拟与真实数据验证了该方法在多效性存在时对双向效应与因果方向的检验功效。对您可能有用:本文直接推进了 IV 方法在双向因果与多效性设定下的 identification 与 testing 理论。
- 关键技术:
Mendelian randomization,instrumental variable with pleiotropy,bi-directional causal testing,focusing framework for IV selection,identification under bidirectional setting - 为什么对您有用: 本文直接连接 causal inference 中 IV 与 identification 子方向,处理了双向因果下排除限制假设失效这一核心理论痛点。用您 very_familiar 的 identification theory in causal inference 可直接审视其 focusing 步骤的 identification 条件是否完备,并用 moderately_familiar 的 M-estimation theory 检验其耦合 MR estimator 的渐近性质。判断:立即可做——现有武器库足以展开对其 identification 逻辑与 estimator 渐近保证的严格审查与潜在改进。
2. 10.1093/jrsssb/qkae095 · arXiv — Long-term causal inference under persistent confounding via data combination¶
- 作者: Guido Imbens, Nathan Kallus, Xiaojie Mao, Yuhao Wang
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 362-388
- 相关性 8/10 · novelty:
new_method - 摘要: 本文研究长期治疗效应的因果推断问题,设定为短期随机实验数据与长期观测数据结合,但存在持续混杂(persistent confounding)—即未观测混杂因子同时影响治疗、短期结果和长期结果。传统方法因持续混杂而失效,作者利用多个短期结果的时序结构,提出三种新的非参数识别策略(基于逐期条件均值、逆概率加权和倍差法变体),并给出对应的半参数估计量及其渐近正态性。理论部分建立了EIF(高效影响函数)和对应的双稳健估计框架,证明估计量可达到n^{-1/2}收敛率。通过半合成数据模拟Job Training Partnership Act项目对长期就业的效果,验证方法在有限样本下的表现。该工作直接回应了因果推断中长期效应识别的核心难题,并为结合实验与观测数据提供了严格的理论基础,对您的因果推断研究(尤其是数据融合和长期效应方向)具有直接参考价值。
- 关键技术:
data combination,long-term treatment effect,persistent confounding,sequential identification,efficient influence function,doubly robust estimation - 为什么对您有用: 本文核心问题属于您primary interest中的因果推断(长期效应与数据融合),尤其聚焦于persistent confounding这一复杂但常见的设定。您的technical arsenal中'identification theory in causal inference'(moderately familiar)可直接用于理解其识别条件,而'nonparametric statistics'和'estimation theory in causal inference'(very familiar)可助力复现和扩展其估计方法。粗判:立即可做——利用非常熟悉的非参数和因果推断工具可快速掌握方法并可尝试应用到类似纵向数据场景。
3. 10.1093/jrsssb/qkae097 · arXiv — A stableness of resistance model for nonresponse adjustment with callback data¶
- 作者: Wang Miao, Xinyu Li, Ping Zhang, Baoluo Sun
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 433-456
- 相关性 4/10 · novelty:
new_theory - 摘要: 本文关注调查数据中的无应答偏差调整问题,利用随访(callback)数据来改进估计。在非随机缺失的框架下,提出了一种新的“稳定性抵抗(stableness of resistance)”假设,该假设刻画了无应答倾向在多次呼叫中的稳定性模式。基于此假设,建立了目标参数的识别性和半参数效率界,并推导了有效影响函数。进一步,提出了包括双重稳健(doubly robust)估计在内的一套半参数估计方法,允许使用机器学习模型灵活估计倾向得分和结果回归,并通过交叉拟合(cross-fitting)实现n^{-1/2}-相合性。将该方法应用于美国消费者支出调查(CEX)数据,发现高住房支出与无应答存在关联。对于您的因果推断研究,该工作提供了一种利用辅助随访信息进行敏感性分析的新思路,与proximal causal inference中利用负对照控制混淆的思路有相通之处,且双重稳健估计框架可直接迁移。
- 关键技术:
doubly robust estimation,semiparametric efficiency bounds,stableness of resistance assumption,callback data analysis,cross-fitting,influence function - 为什么对您有用: 本文直接链接到您的主要兴趣:因果推断中缺失数据的识别与估计(特别是非随机缺失的敏感性分析)。技术层面,您的武器库中“非参数统计”和“因果推断中的估计理论”可以立即用于理解其双重稳健估计器的构造和效率理论,而“因果推断中的识别理论”(moderately_familiar)则可用于剖析其新假设的识别强度。结论:立即可做——您已具备消化并可能拓展该框架所需的全部核心工具(半参效率、DR估计、交叉拟合)。
高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)¶
1. 10.1093/jrsssb/qkae096 · arXiv — Repulsion, chaos, and equilibrium in mixture models¶
- 作者: Andrea Cremaschi, Timothy M Wertz, Maria De Iorio
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 389-432
- 相关性 5/10 · novelty:
new_method - 摘要: 该论文针对混合模型在贝叶斯框架下簇可解释性不足的问题,提出一类基于随机矩阵特征值联合分布(Gibbs测度)的新型排斥先验。传统排斥先验因归一化常数不可计算而难以应用,作者利用随机矩阵理论中特征值分布与统计力学的联系,构造了归一化常数闭式可得的Gibbs型先验。该方法通过引入矩阵系综的排斥特性(如Wigner半圆律、Marchenko-Pastur分布对应的能量函数),迫使混合成分位置远离,从而生成分离清晰的簇。理论部分推导了该先验的后验一致性、聚类误差界,并展示了在模拟与真实数据上相比现有方法(如Dunson & Yang)的改进。对您而言,本文提供了随机矩阵理论在建模中直接应用的一个实例,可能启发您在高维统计或谱分析中寻找新的先验/正则化方式。
- 关键技术:
Gibbs measures for eigenvalue ensembles,repulsive prior via random matrix theory,closed-form normalizing constant,Wigner semicircle law / Marchenko-Pastur distribution,posterior consistency for mixture models - 为什么对您有用: 该论文将随机矩阵理论(RMT)直接用于混合模型先验构造,与您高维统计中RMT的爱好直接对接。您的‘高维渐近’知识可用于分析该先验在数据维度增长时的行为(例如特征值分布的收敛速度),而‘高阶U统计量’的树宽视角暂时用不上,因为后验计算依赖MCMC而非显式多项式。暂不可做:核心机器(贝叶斯模型、归一化常数分析、MCMC采样)不在您当前武器库中,需先补贝叶斯非参数基础才能深入。
非参数 / 半参数 (nonparam_semipara, 2 篇)¶
1. 10.1093/jrsssb/qkae093 · arXiv — Nonparametric estimation via partial derivatives¶
- 作者: Xiaowu Dai
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 319-336
- 相关性 9/10 · novelty:
new_method - 摘要: 传统非参数估计在大维度下收敛速度慢,所需样本量不切实际。本文提出基于偏导数(可观测或估计)的非参数估计方法,在张量积空间和SS-ANOVA框架下,利用梯度信息显著提升收敛速度。对d维全交互模型,若观测到p个协变量的梯度,最优率与不含梯度时的(d−p)交互模型相同,即免疫于交互诅咒。对加性模型,利用梯度信息可实现参数率(n^{-1/2})。方法通过模拟和真实数据验证。该技术为克服非参数估计的维数诅咒提供了一条新路径,与您熟悉的非参数统计和高维渐近分析直接对接,可尝试将梯度信息引入现有估计器设计。
- 关键技术:
smoothing spline ANOVA,tensor product spaces,gradient information,optimal convergence rates,curse of interaction,partial derivative estimation - 为什么对您有用: 直接关联您的primary interest中的非参数统计理论和高维统计问题:文章提出了利用偏导数信息在张量积模型中打破交互诅咒的新策略,这是非参数效率提升的经典方向。您武器库中的非参数统计和minimax bounds技术可立即用于验证其最优率是否紧,并可尝试将梯度信息融入因果推断中的非参数估计(如ATE的估计),属于立即可做的方向。
2. 10.1093/jrsssb/qkae103 — Conformal prediction with local weights: randomization enables robust guarantees¶
- 作者: Rohan Hore, Rina Foygel Barber
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 机构: University of Chicago
- 分类: vol 87 · issue 2 · pp 549-578
- 相关性 5/10 · novelty:
new_method - 摘要: 本文在分布自由预测区间框架下,研究如何在有限样本中实现条件覆盖保证而非仅边际覆盖。由于点态局部覆盖已被证明不可能,作者提出随机局部化共形预测(RLCP),通过引入随机权重并结合加权共形预测与局部化技术。该方法的核心机制是:对每个测试点的特征进行随机扰动,构造基于局部权重的预测区间,借由随机化获得松弛的局部覆盖保证。理论方面,RLCP不仅保持边际有效性,还证明了在松弛的局部覆盖定义下覆盖概率的下界,并在协变量偏移下保持有效性。通过模拟和真实数据实验,作者验证了RLCP相比其他局部共形预测方法具有更好的局部覆盖性质。对您而言,本文方法属于非参数分布自由推断的重要进展,与您熟悉的非参数统计和假设检验方向直接相关,有助于扩展您在高维预测区间不确定性量化方面的工具箱。
- 关键技术:
Conformal prediction,local coverage,randomization,weighted conformal prediction,distribution-free inference,covariate shift - 为什么对您有用: 本文属于非参数分布自由预测区间的前沿方法,直接关联您primary interest中的nonparametric theory和hypothesis testing(共形预测与假设检验存在等价关系)。您非常熟悉的nonparametric statistics工具(如经验过程、分位数估计)可用于理解本文的理论保证和方法性质。立即可做:您可以直接复现并扩展其软件实现(基于您对software development的熟悉),或将其局部覆盖思想应用于您关注的高维预测问题中。
效率理论 / Debiased ML (efficiency_dml, 1 篇)¶
1. 10.1093/jrsssb/qkae099 · arXiv — On the role of surrogates in the efficient estimation of treatment effects with limited outcome data¶
- 作者: Nathan Kallus, Xiaojie Mao
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 480-509
- 相关性 8/10 · novelty:
new_theory - 摘要: 在 unconfounded treatment assignment 与 missingness 假设及对应 overlap 条件下,研究如何利用仅观测到 surrogate outcome 的大量单元来提升 ATE 估计精度,目标 estimand 为 ATE。本文拒绝强 surrogacy 假设(即 surrogate 完美替代 target),转而将有限的 target outcome 观测与丰富的 surrogate 观测结合。核心贡献是推导了有无 surrogate 时 ATE 的 semiparametric efficiency bounds 差值,分别在 missing 占主导或可比比例下量化精度增益。基于此,开发了实现该效率增益的 robust ATE 估计与推断方法(one-step / DR 估计器)。实证以 job training 对长期收入的影响展示增益。对您有用:本文直接推进了 efficiency theory 与 causal estimation 的交叉,其 efficiency bound 差值推导与 robust estimator 构造为处理 limited outcome data 的 semiparametric 问题提供了新模板。
- 关键技术:
semiparametric efficiency bounds,unconfoundedness with missing outcomes,surrogate outcomes without strong surrogacy,one-step estimation,doubly robust estimation,overlap conditions - 为什么对您有用: 本文直接连接 efficiency theory(primary interest)与 causal inference 的 estimation 问题,在弱 surrogacy 假设下推导 efficiency bound 差值,是 semiparametric efficiency bound 计算的典型范例。您可用 very_familiar 的 minimax bounds / estimation theory in causal inference 直接审视其 bound 差值是否紧,或用 moderately_familiar 的 semiparametric theory / M-estimation theory 检查其 DR estimator 的局部稳健性。Follow-up 判断:立即可做——用 very_familiar 武器即可复现 bound 推导并探索将 surrogate 结构嵌入您已有的 HOIF 框架以获得更高阶效率增益的可能性。
数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶
1. 10.1093/jrsssb/qkae100 · arXiv — Multiscale scanning with nuisance parameters¶
- 作者: Claudia König, Axel Munk, Frank Werner
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 510-528
- 相关性 6/10 · novelty:
new_method - 摘要: 本文针对 d 维随机场中异常区域的多尺度扫描问题,在存在基线水平或方差等 nuisance 参数(需从数据中估计)的设定下展开研究。作者论证,直接使用 plug-in 估计量替换 nuisance 参数会破坏多尺度扫描统计量的渐近控制,即 naive 方法无法得到正确的临界值。他们提出一种两阶段策略:在最大尺度上估计 nuisance 参数,然后仅在较小尺度上进行多尺度扫描以控制相依性。核心理论贡献是证明调整后的多尺度统计量满足一个 uniform invariance principle,从而可以通过模拟得到渐近正确的临界值,该原理对多种 nuisance 参数结构均适用。通过仿真实验和 real data example(超分辨 STED 显微镜图像)展示了方法在控制族系错误率(FWER)下的实际表现。本文方法学贡献在于将多尺度扫描从已知参数情形推广到 nuisance 参数未知且需估计的更现实场景。对您而言,该工作直接连接 hypothesis testing 兴趣线,其中处理 nuisance 参数的思路可能在因果推断的敏感性分析中也有借鉴价值。
- 关键技术:
Multiscale scanning,Uniform invariance principle,Plug-in estimation for nuisance parameters,Asymptotically correct critical values via simulation,Family-wise error rate control,Random fields - 为什么对您有用: 本文直接回应 researcher 对 hypothesis testing 的核心兴趣,特别是多尺度扫描在处理 nuisance 参数时的渐近理论。技术点上,uniform invariance principle 的论证与非参数统计、高维渐近的工具(均在非常熟悉武器库中)高度兼容,可用于理解模拟临界值的计算成本。中期可做方向:将该扫描框架扩展到高维相依数据(如功能磁共振成像),或与因果推断中调节变量的多尺度检验结合,需先在 moderately_familiar 的 semiparametric theory 上熟悉 Influence Function 处理 nuisance 参数的方法。
统计计算 / 算法 (stat_computing, 2 篇)¶
1. 10.1093/jrsssb/qkae098 · arXiv — Probabilistic Richardson extrapolation¶
- 作者: Chris J Oates, Toni Karvonen, Aretha L Teckentrup, Marina Strocchi, Steven A Niederer
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 457-479
- 相关性 6/10 · novelty:
new_method - 摘要: 针对经典Richardson外推法在处理现代多连续离散化和未知收敛阶时的局限性,本文提出概率化视角,统一经典外推与多保真度建模。方法基于高斯过程构建Gauss–Richardson Extrapolation (GRE),将未知收敛阶视为随机量进行贝叶斯估计,并通过条件均值实现外推。建立理论条件,证明GRE可实现多项式甚至指数级加速相比原数值方法。利用概率框架进一步将保真度选择转化为连续优化问题,实现实验设计。在计算心脏模型案例中,GRE显著提升精度。该方法为数值算法的不确定性量化与加速提供新范式,对您的统计计算(数值算法)兴趣直接相关。
- 关键技术:
Gaussian process regression,Richardson extrapolation,Multi-fidelity modeling,Probabilistic numerics,Experimental design,Convergence acceleration - 为什么对您有用: 本文直接对应您的 primary_interests 中的 statistical computing (numerical methods, algorithm),属于概率数值方法的前沿。您 very_familiar 中的 nonparametric statistics 和 software development 可立即用于分析 GRE 的高斯过程核心(核函数选择、收敛条件)以及复现和扩展算法,立即可做:基于现有 einsum/树宽工具可评估外推中多保真度模型的计算图复杂度,或在心脏数据上实现 GRE。
2. 10.1093/jrsssb/qkae092 · arXiv — Corrected generalized cross-validation for finite ensembles of penalized estimators¶
- 作者: Pierre C Bellec, Jin-Hong Du, Takuya Koriyama, Pratik Patil, Kai Tan
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 87 · issue 2 · pp 289-318
- 相关性 6/10 · novelty:
new_method - 摘要: 本文研究有限集成惩罚最小二乘估计器的预测风险估计问题。标准广义交叉验证(GCV)通过标量自由度调整训练误差来估计风险,但作者证明对于任何大小大于1的有限集成,GCV是不一致的。为修复此缺陷,提出修正GCV(CGCV),在加法意义上引入基于各组件自由度调整训练误差的额外标量修正。CGCV无需样本分割、模型重拟合或袋外风险估计,保留GCV的计算优势。在凸惩罚估计器集成下给出非渐近分析,并在岭回归特例中利用随机矩阵理论将分析推广到一般特征和响应分布,建立CGCV的模型无关一致收敛性。本文对统计计算中的模型选择方法提供了重要修正,其中随机矩阵理论部分直接关联您的高维渐近兴趣。
- 关键技术:
generalized cross-validation (GCV),corrected GCV (CGCV),ensemble risk decomposition,penalized least squares,random matrix theory (ridge regression),non-asymptotic analysis - 为什么对您有用: 本文直接命中您统计计算(numerical methods)这一主兴趣,且岭回归部分的随机矩阵理论分析可视为高维渐近在交叉验证中的经典应用。您最熟悉的高维渐近和逆问题工具可直接用于验证或扩展文中的非渐近界,例如通过更精细的谱分析检验CGCV在更宽近邻设置下的紧性——这属于立即可做的延伸。
其他 (other, 1 篇)¶
1. 10.1093/jrsssb/qkae094 — Robust model averaging prediction of longitudinal response with ultrahigh-dimensional covariates¶
- 作者: Binyan Jiang, Jing Lv, Jialiang Li, Ming−Yen Cheng
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 机构: Hong Kong Polytechnic University · Southwest University · National University of Singapore · Hong Kong Baptist University
- 分类: vol 87 · issue 2 · pp 337-361
- 相关性 6/10 · novelty:
new_method - 摘要: 针对超高维协变量的纵向数据,提出一个两阶段稳健模型平均预测方法。第一阶段利用基于秩的损失函数进行变量筛选,以减弱异常值和重尾误差的影响;第二阶段对筛选后的模型进行模型平均,并通过修正Cholesky分解对纵向相关性建模以提高效率。在理论上证明了变量筛选的一致性以及模型平均预测的收敛性,且同时考虑了筛选步骤和模型集选择的不确定性。模拟结果显示该方法在筛选和预测上均显著优于现有竞争者。文章还将该框架应用于人类微生物组数据集,展示了其在大规模代谢物预测中的稳健性。该方法对您可能有用:纵向数据中的高维变量筛选与预测是因果推断中处理混杂或工具变量选择的基础,且研究者对稳健统计和模型平均也有兴趣。
- 关键技术:
rank-based loss,modified Cholesky decomposition,sure independence screening,model averaging,longitudinal data,ultrahigh-dimensional covariates - 为什么对您有用: 本文直接关联到您对 longitudinal causal inference 和 high-dimensional statistics 的兴趣——超高维变量筛选是因果推断中处理高维协变量的关键预处理步骤。您的技术武库中“high-dimensional asymptotics”可直接用于评估其 screening 一致性的证明逻辑,而“higher-order U-statistics”视角可用于分析秩估计函数的 U-统计量性质(秩统计量是 U-统计量的特例)。follow-up 判断:立即可做——您可以基于对高维渐近理论和稳健统计的熟悉,在理论层面复现并批评其假设条件。
Maintained by 陈星宇 · Homepage · Source on GitHub