JRSSB — Vol 86 Issue 4 · 2026-06-20¶
- 共 9 篇 · Journal of the Royal Statistical Society Series B
- 目录核对 ✅ 9 篇全部抓到(对照 OpenAlex 23 篇)
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期JRSSB聚焦三条主线:因果识别中弱工具变量与无效工具变量的联合处理、高维及多约束假设检验的理论与方法、以及半参数效率工具向预测集校准等新问题的延伸。其余论文涉及非参数混合模型成分选择与功能数据流形域分类,可归入非参/半参方法主题。
因果推断线出现两篇工具变量论文,均针对多弱且可能无效的IV场景。《On the instrumental variable estimation with many weak and invalid instruments》基于“sparsest rule”(等价于plurality rule)进行identification,非凸惩罚估计器在弱IV强度下实现selection consistency与oracle结构,并引入与identification条件对齐的surrogate稀疏罚。《GENIUS-MAWII》则利用暴露变量的异方差性识别处理效应,绕过排他性限制,通过影响函数构造连续更新估计量,在“多弱无效IV”渐近框架下建立半参数理论,并提供弱识别度量与诊断工具。两篇对同一问题的不同识别策略形成互补。
假设检验线包含四篇,其中三篇直接处理高维或多约束场景。《Testing many constraints in possibly irregular models using incomplete U-statistics》针对约束数目与样本量同阶甚至更大的问题,通过不完全U-统计量结合高斯乘子自助法,在“混合退化”条件下控制第一类错误,适用于U-可估参数的多项式约束。《Simultaneous false discovery proportion bounds via knockoffs and closed testing》在knockoff框架下构造任意子集FDP的同时上界,通过引入closed testing与multi-weighted-sum局部检验实现一致改进并开发计算shortcut。《Testing high-dimensional multinomials with applications to text analysis》检验K组高维多项分布是否相等,提出基于标准化频率差平方和的统计量,证明其在整个参数空间达到minimax最优检测边界。此外,《Root and community inference on the latent growth process of a network》虽属假设检验,但聚焦网络增长过程的根节点推断,通过Gibbs sampling结合PA树结构先验构造后验置信集,可拓展至百万节点规模。半参数效率线唯一一篇《Doubly robust calibration of prediction sets under covariate shift》将协变量偏移类比为MAR假设,基于高效影响函数构建双稳健预测区域,当倾向性得分或条件结果模型之一正确时覆盖率达渐近有效,并推导了半参数效率界——该工作将您熟悉的半参数效率工具直接应用到不确定性量化领域。
因果推断方向优先看两篇IV论文与半参数效率线的prediction sets校准;高维假设检验方向可关注incomplete U-statistics、knockoff FDP bounds与high-dim multinomial;半参数效率方向则重点关注doubly robust calibration。
因果推断 (causal_inference, 2 篇)¶
1. 10.1093/jrsssb/qkae025 · arXiv — On the instrumental variable estimation with many weak and invalid instruments¶
- 作者: Yiqi Lin, Frank Windmeijer, Xinyuan Song, Qingliang Fan
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 1068-1088
- 相关性 9/10 · novelty:
new_method - 摘要: 在含未知有效性的线性 IV 模型中,本文研究 identification 与估计问题,核心假设为等价于 plurality rule 的 'sparsest rule'。作者证明非凸惩罚方法在 selection consistency 与容纳个体弱 IV 方面优于两步选择类 IV 估计器。进一步提出与 identification 条件对齐的 surrogate sparse penalty,可同时给出 oracle sparse structure。在比既往文献更弱的 IV strength 条件下,推导了所提估计器的优良理论性质(selection consistency 与 oracle 估计),并以 BMI 对血压影响的实证展示方法。对您有用:本文直接推进了 IV 估计中 invalid/weak IV 的 selection 与 identification 理论,是因果推断 IV 子方向的重要进展。
- 关键技术:
invalid instrumental variables,sparsest rule identification,non-convex penalized regression,selection consistency,weak instruments accommodation,surrogate sparse penalty - 为什么对您有用: 直接连接到因果推断 IV 子方向中 invalid/weak IV 的 identification 与 estimation 问题。用您 very_familiar 的 M-estimation theory 可以分析其非凸惩罚估计器的 asymptotics,用 moderately_familiar 的 identification theory 可以审视其 sparsest rule 假设的完备性。立即可做:用 M-estimation 理论框架验证其声称的更弱 IV strength 条件下的 oracle property 是否紧。
2. 10.1093/jrsssb/qkae024 · arXiv — GENIUS-MAWII: for robust Mendelian randomization with many weak invalid instruments¶
- 作者: Ting Ye, Zhonghua Liu, Baoluo Sun, Eric Tchetgen Tchetgen
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 1045-1067
- 相关性 9/10 · novelty:
new_method - 摘要: 论文提出GENIUS-MAWII方法,用于孟德尔随机化中同时处理多弱工具变量和广泛水平多效性两大挑战。利用暴露变量的异方差性识别处理效应,无需传统的排他性限制。导出处理效应的影响函数,并基于此构造连续更新估计量。在“多弱无效工具变量”渐近框架下,通过发展新的半参数理论证明估计量的渐近性质。提供弱识别度量、过度识别检验和图形诊断工具。该方法对因果推断中工具变量方法有直接贡献,尤其适用于遗传流行病学中的因果效应估计。
- 关键技术:
influence function,continuous updating estimator,many weak instruments asymptotics,heteroscedasticity-based identification,overidentification test - 为什么对您有用: 直接连接因果推断中工具变量方法,特别是孟德尔随机化的弱工具变量和多效性问题。研究者非常熟悉估计理论与影响函数方法,可利用半参数理论工具分析该方法在不同假设下的稳健性。立即可做:用现有IV理论框架验证其弱识别度量与过度识别检验的有限样本性质。
非参数 / 半参数 (nonparam_semipara, 2 篇)¶
1. 10.1093/jrsssb/qkae002 · arXiv — Full-model estimation for non-parametric multivariate finite mixture models¶
- 作者: Marie Du Roy de Chaumaray, Matthieu Marbac
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 896-921
- 相关性 7/10 · novelty:
new_method - 摘要: 在非参数多元有限混合模型设定下,目标是同时估计混合成分数与判别变量子集(即各成分间分布不同的变量),允许成分数上界随样本量增长。方法通过对每个变量离散化为 B 个 bin 并对相应 log-likelihood 施加惩罚,构成 penalized sieve M-estimator。当 bin 数 B 随 n 趋向无穷且惩罚项选取适当时,证明了成分数与判别变量子集的估计具有一致性,本质上利用了 sieve 空间的逼近与 penalization 控制模型复杂度。理论结果未给出收敛速率,仅停留在一致性层面。对您可能有用:该文的 sieve + penalization 框架可作为非参数模型变量选择的一致性参考,但其缺乏速率与效率分析,与您关注的 semiparametric efficiency bound / minimax rate 方向距离较远。
- 关键技术:
nonparametric finite mixture model,penalized sieve M-estimation,variable selection for clustering,model selection consistency,discretization-based likelihood - 为什么对您有用: 本文属于非参数估计与模型选择交叉,与您 primary interest 中的 nonparametric / semiparametric theory 相邻,但仅证一致性而无速率/效率结果,技术深度有限。您武器库中 minimax bounds for estimation problems 可直接攻其缺口:验证该 sieve 离散化逼近下的 minimax rate 是否可达,或用 HOIF / semiparametric efficiency bound 刻画该非参数混合模型参数的效率下界。follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉,推导该混合模型参数部分的 efficient influence function 与速率,当前 paper 本身仅适合快速扫读其 sieve 构造思路。
2. 10.1093/jrsssb/qkae023 · arXiv — Interpretable discriminant analysis for functional data supported on random nonlinear domains with an application to Alzheimer’s disease¶
- 作者: Eardi Lila, Wenbo Zhang, Swati Rane Levendovszky, Alzheimer’s Disease Neuroimaging Initiative, Michael W Weiner, Paul Aisen et al.
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 机构: University of Washington · University of California, Irvine
- 分类: vol 86 · issue 4 · pp 1013-1044
- 相关性 4/10 · novelty:
new_method - 摘要: 在流形域(如随机非线性脑皮层表面)上支撑的功能数据分类设定下,目标是估计最具判别性的方向并控制样本外预测误差。作者将分类问题重构为带微分正则化的多元功能线性回归模型,直接估计判别方向而无需预先估计功能预测变量的协方差结构(后者在脑影像应用中计算代价极高)。理论部分给出了out-of-sample预测误差的收敛分析;仿真与ADNI/PPMI合并数据实证表明,所提取的皮层几何与厚度判别方向与神经科学文献一致。对您可能有用:本文的流形域功能数据模型与微分正则化框架,为非参数/半参数理论在复杂域上的M-estimation提供了一个具体实例。
- 关键技术:
functional linear regression on manifolds,differential regularization,out-of-sample prediction error bound,cortical surface manifold modeling,regularized discriminant analysis - 为什么对您有用: 本文连接到非参数/半参数理论中流形域上的M-estimation与正则化收敛分析,属于您moderately_familiar的M-estimation理论范畴。您可以用very_familiar的minimax bounds工具审视其预测误差界是否可达最优率,或用moderately_familiar的M-estimation理论推导其估计量的渐近分布。中期可做:需先在moderately_familiar的M-estimation理论(特别是流形域上的微分算子正则化收敛率)上长肌肉,才能深入其理论证明细节。
效率理论 / Debiased ML (efficiency_dml, 1 篇)¶
1. 10.1093/jrsssb/qkae009 · arXiv — Doubly robust calibration of prediction sets under covariate shift¶
- 作者: Yachong Yang, Arun Kumar Kuchibhotla, Eric Tchetgen Tchetgen
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 943-965
- 相关性 8/10 · novelty:
new_method - 摘要: 本文考虑协变量偏移(covariate shift)下预测集的校准问题,目标是在训练与测试分布不同的情况下构造覆盖率达标的预测区域。作者将协变量偏移类比为缺失数据中的完全随机缺失(MAR)假设,并从半参数效率理论出发,提出基于高效影响函数(Efficient Influence Function)的一般性框架。该方法具有双稳健性质:只要倾向性得分或条件结果模型之一正确,预测集即可达到渐近有效覆盖。理论层面推导了校准量的半参数效率界,并构造了渐进正态的指标。实验表明所提方法在有限样本下优于现有重加权或回归调整方法。对您而言,该工作将您熟悉的半参数效率工具(EIF)拓展到不确定性量化领域,可直接应用于因果推断中的反事实预测区间构建。
- 关键技术:
efficient influence function,doubly robust,conformal prediction,covariate shift,missing at random,asymptotic coverage - 为什么对您有用: 与您primary interest中的效率理论紧密相关,该方法展示了如何用高效影响函数在非标准设定(协变量偏移)下实现预测集的校准,并证明了双稳健性和半参数效率最优性。您的arsenal中'moderately_familiar/semiparametric theory'可直接对应本文的核心工具,而'very_familiar/estimation theory in causal inference'中的双稳健思想也能无缝迁移。follow-up判断:立即可做——您可以用本文的EIF框架为因果推断中的ATE预测区间提供更高效的校准方案。
数理统计 / 假设检验 (hypothesis_testing, 4 篇)¶
1. 10.1093/jrsssb/qkae022 · arXiv — Testing many constraints in possibly irregular models using incomplete U-statistics¶
- 作者: Nils Sturma, Mathias Drton, Dennis Leung
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 987-1012
- 相关性 9/10 · novelty:
new_method - 摘要: 本文考虑在可能不规则的统计模型中,检验由等式和不等式约束定义的原假设,且约束数目可与样本量同阶甚至更大。作者提出使用不完全 U-统计量(incomplete U-statistics)来估计这些约束,并通过高斯乘子自助法(Gaussian multiplier bootstrap)推导临界值。核心理论结果是:当内核满足所谓“混合退化”(mixed degenerate)条件,且用于计算不完全 U-统计量的组合数与样本量同阶时,自助法近似是有效的。这一结果保证了即使在不规则设定下,检验也能控制第一类错误,并且适用于高维场景(约束数远大于样本量)。方法特别适用于约束是 U-可估参数的多元多项式的情形,文中以潜变量树模型的拟合优度检验作为应用示例。该工作直接连接您对假设检验和高阶 U-统计量的研究兴趣,其中关于不完全 U-统计量的 bootstrap 理论为处理大规模约束检验提供了通用框架。
- 关键技术:
Incomplete U-statistics,Gaussian multiplier bootstrap,Mixed degenerate kernel,High-dimensional hypothesis testing,Latent-tree goodness-of-fit - 为什么对您有用: 本文直接对应您对假设检验和高阶 U-统计量的主要研究兴趣:它将 U-统计量技术扩展到有大量约束的不规则检验问题。您熟悉的树宽/张量收缩计算(higher-order U-statistic computation)可以用于分析不完全 U-统计量组合选择的计算成本,甚至设计更优的子集策略。此外,您在高维渐近理论方面的背景适合验证文中 bootstrap 结论的紧性。综合来看,这是一个立即可做的方向——利用现有武器就能评估其算法扩展或计算优化。
2. 10.1093/jrsssb/qkae012 · arXiv — Simultaneous false discovery proportion bounds via knockoffs and closed testing¶
- 作者: Jinzhou Li, Marloes H Maathuis, Jelle J Goeman
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 966-986
- 相关性 8/10 · novelty:
new_method - 摘要: 在 knockoff 框架下,研究如何为选出的特征集构造 simultaneous false discovery proportion (FDP) 的置信上界,目标 estimand 是任意子集的 FDP。文章先基于 Janson–Su 的 k-FWER 控制与插值方法给出初步 bound;随后通过考虑一组 k 值的集合进行推广,证明 Katsevich–Ramdas 的 bound 是其特例且可被一致改进。进一步,引入 closed testing 框架并配合 multi-weighted-sum 局部检验统计量,实现更广泛的一致改进与泛化,同时开发了计算 shortcut 以高效实现该 closed testing 程序。模拟与 UK Biobank 实际数据验证了新 bound 的更紧性。对您有用:该工作将 closed testing 与 knockoff 结合,为多重检验中的 FDP bound 提供更紧的理论结果,直接推进 hypothesis testing 与高维 inference 的交叉方向。
- 关键技术:
Model-X knockoffs,closed testing procedure,simultaneous FDP bounds,k-familywise error rate,multi-weighted-sum local test,shortcut for closed testing - 为什么对您有用: 本文直接推进 hypothesis testing 子方向,在高维 knockoff 框架下给出更紧的 simultaneous FDP bound。您可用 very_familiar 中的 minimax bounds / high-dimensional asymptotics 视角审视其 bound 的紧性是否可达理论极限,或用 moderately_familiar 的 M-estimation theory 探究 multi-weighted-sum 局部检验的最优权重选择。follow-up 判断:立即可做——用熟悉的高维与检验工具即可着手复现 bound 并尝试在更一般依赖结构下改进。
3. 10.1093/jrsssb/qkae003 · arXiv — Testing high-dimensional multinomials with applications to text analysis¶
- 作者: T Tony Cai, Zheng T Ke, Paxton Turner
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 922-942
- 相关性 7/10 · novelty:
new_theory - 摘要: 在 K 组高维多项分布设定下,检验各组概率质量函数是否相等,目标 estimand 为全局零假设 H0: p1=...=pK,不要求各组参数相同或样本量相等。提出基于标准化频率差平方和的检验统计量,证明其在零假设下渐近标准正态,无需参数估计或调整。建立了该检验问题的最优检测边界(detection boundary),并证明所提检验在整个参数空间上达到该 minimax 最优检测边界。模拟与实证(Amazon 评论、统计论文摘要)验证了方法的有效性。对您有用:该文将 minimax 检测边界与高维离散分布检验结合,直接对接 hypothesis testing 与 high-dimensional statistics 两个 primary interest。
- 关键技术:
minimax detection boundary,high-dimensional multinomial testing,asymptotic normality without identical parameters,two-sample closeness testing,global testing for topic models - 为什么对您有用: 直接对接 primary interest 中的 hypothesis testing 与 high-dimensional statistics,在高维离散分布上建立 minimax detection boundary 并构造 rate-optimal 检验。用 very_familiar 的 minimax bounds for estimation problems 可直接审视其 detection boundary 的紧性;该检验统计量本质是低阶 U-统计量形式,可用 moderately_familiar 的 higher-order U-statistics 理论审视其投影与方差逼近。follow-up 判断:立即可做——用 minimax 工具验证边界紧性,或用 U-统计量视角分析其高阶渐近展开。
4. 10.1093/jrsssb/qkad102 · arXiv — Root and community inference on the latent growth process of a network¶
- 作者: Harry Crane, Min Xu
- 期刊/来源: Journal of the Royal Statistical Society Series B
- 分类: vol 86 · issue 4 · pp 825-865
- 相关性 2/10 · novelty:
new_method - 摘要: 在 PA+ER 随机图模型下,给定最终网络的单次快照 G,目标是未观测增长过程的根节点(如感染网络中的 patient zero)的 identification 与置信集构造;模型设定为 G 是 PA 树 T 与 ER 噪声边的并集,关键假设是 ER 噪声水平不过大。核心方法是基于 Gibbs sampling 的推断算法,利用 PA 树的结构先验计算根节点的后验分布,算法可扩展至百万节点规模。理论结果表明,当 ER 噪声边比例受控时,置信集的大小可保持较小(近乎常数或缓慢增长),并证明了算法的 consistency。此外,将模型推广至多增长过程同时发生的设定,提出了一种基于根节点推断的新社区检测方法。对您可能有用:该工作将随机图增长过程的根推断转化为严格的统计推断(置信集)问题,与您在 hypothesis testing 和 minimax bounds 上的兴趣直接相连。
- 关键技术:
preferential attachment model,Erdos-Renyi noise,Gibbs sampling inference,confidence set construction,root node identification,community detection via multiple growth processes - 为什么对您有用: 本文直接连接到 hypothesis testing 子方向——将网络增长过程的根推断从纯算法问题提升为具有置信集的统计推断问题,且理论给出了置信集大小的显式界。用您 very_familiar 的 minimax bounds for estimation problems 可以尝试分析根推断的 minimax risk 下界,验证当前置信集大小是否紧;当前模型假设 ER 噪声不过大,可用 moderately_familiar 的 M-estimation theory 探索噪声临界阈值的更精细刻画。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将当前 consistency 结果推进到更精确的 rate 与 minimax optimality 分析。
Maintained by 陈星宇 · Homepage · Source on GitHub