跳转至

Biometrika — Vol 111 Issue 1 · 2026-06-20

  • 共 20 篇 · Biometrika
  • 目录核对 ✅ 20 篇全部抓到(对照 OpenAlex 24 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

这一期共有20篇论文,整体覆盖因果推断、统计计算、半参数/非参理论、假设检验和高维分析等多个方向,其中因果推断是绝对主线,数量超过三分之一。方法层面,多篇论文聚焦于因果识别与估计效率的拓展——包括对非标准处理效应(自然随机策略、处理效应分位数)、网络干扰下的暴露映射、个体化治疗规则跨人群泛化、有限总体条件推断、DAG结构学习、rerandomization以及后验漂移下的迁移学习等新设定;另有若干工作涉及协变量调整的“无害性”推广和生存分析中竞争风险因果绝对风险的联合推断。统计计算方面,在线推断、可扩展子抽样和MALA收敛性构成一组“大规模MCMC/流式计算”方法论;半参数/非参则出现从M-估计统一刻画到MMD鲁棒回归再到标记特异性分位数回归的理论推进。假设检验有一篇针对模型选择后的一致推断,高维有一篇关于插值分类器的理论分析。

因果推断脉络中至少可划出三条子线:一是针对非标准处理效应及弱重叠问题的半参数效率理论——Efficient evaluation of natural stochastic policies推导倾斜/修正治疗策略的效率界并提出部分双鲁棒估计量;Treatment effect quantiles将随机化推断扩展至分位数,用多选择背包问题实现精确p值;No-harm calibration证明了广义Oaxaca–Blinder估计量经校准后渐近不劣于未调整均值。二是网络/干扰与结构学习——Causal inference with misspecified exposure mappings提出将暴露映射的定义角色与假设角色分离,放宽识别条件;Bayesian learning of network structures给出干预数据下DAG后验一致性。三是泛化/外推——Robust sample weighting用RKHS协变量平衡实现ITR向目标人群的稳健泛化;Tailored inference for finite populations提出有限总体条件有效推断及跨分布转移程序;A linear adjustment-based approach to posterior drift在logit尺度上建模源-目标域线性调整,适用于分类与死亡率预测。此外,One-step targeted maximum likelihood estimation针对竞争风险下生存曲线同时推断,是效率理论与实际应用的结合。

统计计算线中,Online inference with debiased stochastic gradient descent将去偏Lasso与在线SGD结合,实现高维稀疏数据的流式推断;Scalable subsampling用非随机子样本来替代Bootstrap聚合,降低计算成本;On geometric convergence for the Metropolis-adjusted Langevin algorithm给出了MALA几何收敛的简洁充分条件,并显式刻画步长影响。半参数/非参线上,Characterizing M-estimators将预测评估中的一致损失函数与M-估计理论连接,提供统一刻画;Universal robust regression via maximum mean discrepancy利用核嵌入构造对Huber和对抗性污染均稳健的非参数回归;A mark-specific quantile regression model将分位数回归扩展至连续标记的竞争风险数据。

若按专题优先阅读,因果推断方向建议关注:Efficient evaluation of natural stochastic policies、Treatment effect quantiles、Causal inference with misspecified exposure mappings、Robust sample weighting、Tailored inference for finite populations、Bayesian learning of network structures、A linear adjustment-based approach to posterior drift以及One-step targeted maximum likelihood estimation;半参数效率方向可看Characterizing M-estimators和No-harm calibration;高维与计算方法方向可看Online inference with debiased stochastic gradient descent和Interpolating discriminant functions。

因果推断 (causal_inference, 9 篇)

1. 10.1093/biomet/asad059 — Efficient evaluation of natural stochastic policies in off-line reinforcement learning

  • 作者: Nathan Kallus, Masatoshi Uehara
  • 期刊/来源: Biometrika
  • 机构: Cornell University
  • 分类: vol 111 · issue 1 · pp 51-69
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 本文研究离线强化学习中自然随机策略(natural stochastic policies)的高效离策略评估问题。自然随机策略定义为对未知行为策略的某种偏离,例如倾斜策略(tilting policies)和修正治疗策略(modified treatment policies),这类策略在缓解弱重叠问题、提升实际可实施性方面具有优势。与预设评估策略的经典设定不同,由于评估策略本身未知,效率界(efficiency bound)会被膨胀。作者推导了这两类自然随机策略的半参数效率界,并提出了高效非参数估计量,该估计量在宽松条件下达到效率界,且具有部分双鲁棒性(partial double robustness)。理论贡献包括效率界的显式表达和最优估计量的构造。对您而言,该工作直接连接因果推断中的离策略评估与半参数效率理论,您可以用熟悉的极小化极大界或HOIF工具进一步分析其估计量的有限样本表现。
  • 关键技术: off-policy evaluation, efficiency bound, semiparametric estimation, double robustness, natural stochastic policies
  • 为什么对您有用: 本文直接切入因果推断中的离策略评估子领域,特别关注自然随机策略的效率界与高效估计,这与您对因果推断和效率理论(半参数效率界)的强烈兴趣高度吻合。从技术角度看,您可用 moderately_familiar 中的半参数理论(如影响函数构造)来验证其估计量的双鲁棒性证明是否严密,也可用 very_familiar 中的极小化极大界来测试其效率界是否紧致。属于中期可做:需要先在 moderately_familiar 的semiparametric theory上进一步巩固,即可复现或扩展其理论结果。

2. 10.1093/biomet/asad030 · arXiv — Treatment effect quantiles in stratified randomized experiments and matched observational studies

  • 作者: Yongchang Su, Xinran Li
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 235-254
  • 相关性 9/10 · novelty: new_method
  • 摘要: 该论文在分层随机实验和匹配观察研究的框架下,关注个体处理效应的分位数(如中位数、分位数)而非平均处理效应,以应对个体效应重尾或存在异常值时的稳健性问题。传统基于均值的方法可能因大样本近似失效而产生偏差,而分位数则更稳健。作者提出纯随机化推断方法,不依赖任何分布假设,通过将计算有效p值的问题转化为多选择背包问题(multiple-choice knapsack problem),可精确或轻微保守地高效求解。该方法进一步扩展到匹配观察研究,并提供了对未测量混杂的敏感性分析,允许研究者评估结论对潜在混杂的稳健性。此外,该推断对所有分位数同时有效,且当关注最大值或最小值时,退化为常效假设下的经典分析。对您而言,该工作为因果推断中的个体异质性分析提供了新的推断工具,可直接应用于您感兴趣的分层实验和观察性研究中的个体处理效应分布推断。
  • 关键技术: randomization test, quantile of individual treatment effects, multiple-choice knapsack problem, matched observational studies, sensitivity analysis, stratified randomized experiments
  • 为什么对您有用: 该论文直接对应您 causal inference 兴趣中的个体处理效应分布(分位数)推断,尤其适用于分层随机实验和匹配观察研究。其核心方法——将 p 值计算转化为多选择背包问题——属于非参数统计中的组合优化,而您 very_familiar 的 nonparametric statistics 和 estimation theory in causal inference 完全覆盖了理解该方法的理论基础,无需额外学习即可复现或扩展(如应用于您关注的纵向数据或敏感性分析)。中期来看,如果您想将这种分位数推断推广到更复杂的识别框架(如 proximal CI),则需加强 moderately_familiar 的 identification theory,但目前立即可做:在您的软件项目中实现该背包算法作为除平均效应外的默认报告。

3. 10.1093/biomet/asad019 · arXiv — Causal inference with misspecified exposure mappings: separating definitions and assumptions

  • 作者: F Sävje
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 1-15
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 本文研究网络实验中暴露映射(exposure mapping)的双重角色问题:传统方法用同一暴露映射既定义因果效应又施加干扰结构假设,但实践中两者常不一致。作者主张将定义角色与假设角色分离,允许暴露映射在错误指定的情况下仍能用于定义感兴趣的效应。论文给出了在暴露映射被错误指定时仍能精确估计暴露效应的一组条件,并指出该框架在实际实验中的可行性。该方法避免了迫使实验者接受暴露映射正确这一强假设,扩展了网络实验因果推断的适用范围。作者还讨论了若干未解决问题,为后续研究提供了方向。对您而言,该工作直接涉及因果推断中干扰(interference)这一重要子领域,尤其适合您对识别理论和估计理论的关注,其中暴露映射错误指定的稳健性分析也可联系到敏感性分析问题。
  • 关键技术: exposure mappings, network interference, causal identification under misspecification, separating definitions and assumptions
  • 为什么对您有用: (1)本文直接涉及因果推断中网络干扰(network interference)下的估计与识别问题,是您 primary interests 中因果推断的子方向;(2)您 arsenal 中的非参统计和因果推断估计理论可直接用于分析文中提出的识别条件是否可转化为具体估计量,并检验其效率性质;(3)该工作偏向理论框架,暂不可直接动手,但可作为中期可做方向——需先熟悉网络实验干扰的现有文献(如 SUTVA 松弛、随机化推断),然后可利用您的非参工具设计基于暴露映射的稳健 estimator。

4. 10.1093/biomet/asad038 · arXiv — Robust sample weighting to facilitate individualized treatment rule learning for a target population

  • 作者: Rui Chen, Jared D Huling, Guanhua Chen, Menggang Yu
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 309-329
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文针对观察数据设置下个体化治疗规则(ITR)从源人群向目标人群泛化的问题。与平均处理效应的标量泛化不同,ITR泛化面临因预指定函数类可能不包含真实最优规则而导致的模型误设风险。作者提出一种稳健的加权框架,通过再生核希尔伯特空间(RKHS)上的协变量平衡来修正权重,从而减轻误设影响。该方法将传统重要性权重和重叠权重作为两个极端情形包含在内,允许通过调节参数实现更好的偏差-方差权衡。理论上证明了该加权框架能够改进许多依赖权重的ITR学习方法。数值实验表明,相比其他加权方法,本文方法显著提升了目标人群上最优ITR的估计精度。该工作直接关联您在因果推断中关于识别与估计的兴趣,尤其适用于需要跨人群泛化的精准医学应用。
  • 关键技术: Individualized Treatment Rule (ITR) generalization, RKHS-based covariate balancing, Weighting framework for target population, Importance weights / overlap weights, Bias-variance trade-off via tuning parameter
  • 为什么对您有用: 本文直接涉及因果推断中个性化治疗规则的跨人群泛化(causal generalization for ITR),属于您primary interest中'identification, estimation'子方向。您武器库中'非参数统计'(RKHS理论)和'估计理论在因果推断中'可直接用于分析该加权方法的偏差-方差性质及权重估计的精度。作为方法学论文,该框架易于在实际流行病学数据中部署,属于立即可做的后续应用方向。

5. 10.1093/biomet/asad036 · arXiv — No-harm calibration for generalized Oaxaca–Blinder estimators

  • 作者: P L Cohen, C B Fogarty
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 331-338
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在随机实验中,调整协变量可提高处理效应估计的效率,但此前只有线性回归被证明具有“无害”性质,即渐近效率不低于未调整的均值差。本文提出一种通用校准方法,将该无害性质推广到广义Oaxaca–Blinder估计量,该估计量基于Logistic回归、Poisson回归等非线性模型。该方法通过校准非线性模型的预测值,使得最终估计量渐近等价于以预测潜在结果为协变量的logit链接逆概率加权估计量。理论证明校准后的估计量在渐近方差上非劣于未调整的均值差,也非劣于未经校准的非线性估计量。模拟表明未经校准的非线性估计量可能表现更差,而校准方法避免了这一风险。该工作为随机实验中的协变量调整提供了更通用的理论保证,连接了因果推断与半参数效率理论。
  • 关键技术: Oaxaca–Blinder estimator, calibration, nonlinear models, asymptotic efficiency, inverse probability weighting, randomized experiments
  • 为什么对您有用: 直接关联primary interest中的因果推断(随机实验的协变量调整效率),方法理论清晰,与研究者熟悉的高维渐近和估计理论高度匹配。武器库中"estimation theory in causal inference"可直接理解该方法,且可启发在IV、proximal CI等更复杂设定下开发类似无害校准,属于"立即可做"的延伸方向。

6. 10.1093/biomet/asad022 · arXiv — Tailored inference for finite populations: conditional validity and transfer across distributions

  • 作者: Ying Jin, Dominik Rothenhäusler
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 215-233
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文针对有限总体(finite population)的推断问题,关注具有固定属性的子总体参数(如特定患者群的因果效应或特定州的政策效果),而非无限超总体参数。作者提出一个条件有效推断框架,利用已知的属性信息构建估计量和置信区间,使得置信区间在给定属性条件下渐近条件有效,且比传统超总体推断更短。当数据来自目标总体时,该方法无需对总体分布进行额外假设。此外,文章还开发了向新总体(协变量分布不同)转移推断的程序,在温和条件下也保证新总体的条件有效性。方法可扩展到属性信息较弱或部分缺失的情形。通过模拟和真实汽车价格数据验证了方法的有效性。对您而言,该框架可直接应用于因果推断中的子群体异质性分析和外推问题(如从试验样本向目标总体推广),您熟悉的非参数统计和因果推断估计理论足以理解和扩展该方法。
  • 关键技术: Conditional validity, Finite-population inference, Covariate shift / target population transfer, Asymptotic conditional coverage
  • 为什么对您有用: 该论文直接涉及 causal inference 中的子总体参数估计(如子群体平均处理效应)以及跨总体转移(外推性),这是您 primary interest 中因果推断的核心子方向。您的 technical arsenal 中的 'nonparametric statistics' 和 'estimation theory in causal inference' 完全可支撑您理解该方法的渐近性质,并进一步探索其与双稳健估计或半参数效率界的结合。初步判断为立即可做:您无需额外工具即可复现论文的核心结果,并尝试在您的因果推断项目(如 Proximal CI 或 IV 设定)中应用条件有效性思想。

7. 10.1093/biomet/asad032 — Bayesian learning of network structures from interventional experimental data

  • 作者: F Castelletti, S Peluso
  • 期刊/来源: Biometrika
  • 机构: Università Cattolica del Sacro Cuore · University of Milano-Bicocca
  • 分类: vol 111 · issue 1 · pp 195-214
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究利用干预实验数据学习有向无环图(DAG)结构的贝叶斯方法。观测数据下DAG只能识别到马尔可夫等价类,而干预数据能打破等价性、提高结构可识别性。作者提出一种贝叶斯框架,假设数据部分来自随机干预,引入先验设置使边际似然具有闭合形式,并保证干预后马尔可夫等价的DAG享有相同的边际似然(score equivalence)。在Gaussian设定下,证明了后验比例一致性:无论干预变量分布如何、观测与干预数据的相对样本量如何,真实网络都能被渐近恢复。通过模拟和实际蛋白表达数据,结合MCMC采样算法验证了理论结果。对您有用:该工作直接切入因果推断中DAG结构学习的核心识别问题,尤其展示了干预数据在提升模型可识别性上的理论保证,与您对identification和causal estimation的兴趣高度吻合。
  • 关键技术: Bayesian DAG learning, interventional data, closed-form marginal likelihood, posterior ratio consistency, stochastic interventions, Markov chain Monte Carlo
  • 为什么对您有用: 直接连接到您的primary interest中的causal inference子方向,特别是利用干预数据提高DAG可识别性的identification问题。您可以用非常熟悉的高维渐近理论和nonparametric statistics来评估其理论证明的严谨性,例如检查后验一致性的速率条件是否与minimax bound匹配。属于中期可做:需先在moderately_familiar的identification theory中深入理解干预数据下的识别条件(如干预机制的可忽略性假设),才能进一步扩展或批评其方法。

8. 10.1093/biomet/asad027 · arXiv — Power and sample size calculations for rerandomization

  • 作者: Zach Branson, Xinran Li, Peng Ding
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 355-363
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 在 rerandomization 实验设计下,目标是建立 treatment-control 实验的功效与样本量计算公式,关键假设是协变量平衡准则与 treatment effect heterogeneity 的存在。核心方法基于 rerandomization 下因果效应估计量的非标准正态分布(方差因 heterogeneity 而缩减),推导其在名义显著性水平下的实际 Type-I error 与功效解析表达式。发现一个反直觉结果:当 treatment effect 极小时,rerandomization 的功效可能低于完全随机化,因为其推断更保守(实际 Type-I error 更低);而 heterogeneity 对功效的影响呈双面性——大效应时增功效、小效应时降功效。对您可能有用:该文将 rerandomization 的分布理论与功效分析连接,直接补充了您在因果推断 identification/estimation 理论中对实验设计推断性质的认知。
  • 关键技术: rerandomization, power analysis, treatment effect heterogeneity, Type-I error conservativeness, covariate balance, randomization inference
  • 为什么对您有用: 本文直接连接 causal inference 中实验设计(rerandomization)的推断与功效理论,点明了 heterogeneity 对推断保守性与功效的非单调影响。您武器库中 very_familiar 的 estimation theory in causal inference 与 moderately_familiar 的 identification theory 可以直接攻破其分布推导与 conservativeness 机制的细节。follow-up 判断:立即可做——用您熟悉的 minimax / efficiency 视角审视 rerandomization 估计量在 heterogeneity 下的效率界,或将其功效公式扩展到更一般的协变量平衡准则。

9. 10.1093/biomet/asad029 · arXiv — A linear adjustment-based approach to posterior drift in transfer learning

  • 作者: Subha Maity, Diptavo Dutta, Jonathan Terhorst, Yuekai Sun, Moulinath Banerjee
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 31-50
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究迁移学习中的后验漂移问题,假设目标域的回归函数是源域回归函数在某个尺度上的线性调整,从而将问题归结为源域模型的可迁移性。方法核心是将回归函数在适当尺度(如logit尺度)上的差值建模为线性函数,适用于二元分类等多个场景,继承了广义线性模型和加速失效时间模型的简洁性与实用性。作者证明了所提估计量的渐近性质,包括一致性和渐近正态性,并给出了理论保证。在UK Biobank数据上,使用英国白人数据辅助预测英国亚洲人群死亡率,展示了流行病学应用;在具有虚假相关的源域(Waterbirds数据集)中,该方法成功克服了虚假相关带来的偏差。对您而言,该线性调整框架直接触及分布偏移下的因果效应识别问题,且与流行病学实际数据(如队列研究)紧密结合,您武器库中的半参数估计理论可用于分析更灵活的调整形式,属于“立即可做”的衍生方向。
  • 关键技术: linear adjustment model, posterior drift, generalized linear models, transfer learning, asymptotic normality, spurious correlation
  • 为什么对您有用: 本文涉及的虚假相关(spurious correlation)与因果推断中的混淆概念紧密相连,且方法在流行病学(UK Biobank死亡率预测)中有直接落地场景。您的“估计理论在因果推断”技术可用来检验该线性调整假设的敏感性与放松条件,并可能推广至更半参数化的后验漂移模型。基于您已有的非参统计与因果推断基础,参照本文理论分析模式处理类似迁移学习问题可立即可做。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)

1. 10.1093/biomet/asad037 · arXiv — Interpolating discriminant functions in high-dimensional Gaussian latent mixtures

  • 作者: Xin Bing, Marten Wegkamp
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 291-308
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究高维特征下具有低维潜在高斯混合结构的二分类问题,其中噪声非零。使用广义最小二乘估计最优分离超平面的方向,该估计在训练数据上完全插值(即完美拟合训练样本)。结果显示方向向量可以一致估计,但截距的简单plug-in估计不一致,需要基于独立保留样本进行校正。校正后的分类器在许多场景下达到极小极大最优,其插值性质可保留,但依赖于标签的编码方式。本文为高维分类中的插值现象提供了理论解释,并给出了可操作的偏差校正方案。该工作的高维极小极大分析框架和插值性质有助于您在高维假设检验或分类问题中评估估计量的最优性。
  • 关键技术: generalized least-squares estimator, interpolating hyperplane, high-dimensional classification, minimax optimality, bias correction, latent Gaussian mixture
  • 为什么对您有用: 本文直接关联您的高维统计兴趣,特别是高维分类中的估计理论。您非常熟悉的“极小极大界”和“高维渐近”工具可直接用于验证其提出的校正分类器是否达到最优率,并可进一步探索在其他噪声结构下的插值性质。立即可做:利用现有武器库分析该校正方法在非高斯潜在结构下的表现。

非参数 / 半参数 (nonparam_semipara, 3 篇)

1. 10.1093/biomet/asad026 · arXiv — Characterizing M-estimators

  • 作者: Timo Dimitriadis, Tobias Fissler, Johanna Ziegel
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 339-346
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文系统刻画了半参数模型泛函的M-估计量的完整类别。核心思路是将预测评估中关于一致损失函数(consistent loss functions)的已有理论,与M-估计理论进行形式化连接。该刻画定理允许研究者直接利用预测评估文献中已建立的损失函数结果,来指导估计理论中的构造与选择。文中举例说明了该结果在稳健M-估计、有效M-估计、等变M-估计以及帕累托最优M-估计中的优势含义。这一统一视角为半参数估计提供了新的理论工具。对于您专注于半参数/非参理论、有效估计的研究兴趣,本文提供了一种从损失函数角度重新审视M-估计的框架,可能对EIF推导或正交估计的构造有启发意义。
  • 关键技术: M-estimation, consistent loss functions, semiparametric models, robust estimation, efficient estimation, equivariant estimation
  • 为什么对您有用: 本文直接连接您的primary interest中的半参数理论和估计理论。它从损失函数一致性角度刻画M-估计类别,这一新视角可能应用于您熟悉的debiased ML或EIF推导中,用于构造更鲁棒的估计方程。目前属于理论框架建立阶段,暂未与您的具体技术栈(如HOIF、树宽)直接对接,但作为半参数基础理论的扩展,值得阅读以追踪方法论前沿。若想深入,中期可利用您的M-估计理论背景(moderately_familiar)进一步推导新EIF形式,属中期可做的方向。

2. 10.1093/biomet/asad031 · arXiv — Universal robust regression via maximum mean discrepancy

  • 作者: P Alquier, M Gerber
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 71-92
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文针对任意回归模型,提出基于最大均值差异(MMD)最小化的鲁棒估计方法,应对Huber型污染和对抗性污染两种异常值设定。构建了两个估计量:第一个计算代价较低但仅对Huber污染稳健;第二个需要更复杂的计算却能同时抵御对抗性污染,并给出非渐近误差界。理论分析中推导了核条件均值嵌入的新性质,为MMD的鲁棒性提供了支撑。该方法不依赖特定模型结构(线性、广义线性等),适用范围广。对您而言,该工作将robustness纳入非参数回归框架,可直接用您熟悉的minimax界评估其最优性;其核嵌入技术也与causal inference中的敏感度分析工具(如proximal learning中的核方法)有潜在联系。
  • 关键技术: MMD minimization, kernel conditional mean embedding, Huber contamination, adversarial contamination, non-asymptotic error bound
  • 为什么对您有用: 本文属于非参数回归的鲁棒估计,直接对应您的primary interest 'semiparametric and nonparametric theory',且方法中的MMD与核嵌入工具可迁移至因果推断中的identifier稳定性分析。技术武器库中'nonparametric statistics'和'minimax bounds'可直接用于验证其收敛速率是否最优,甚至提出更紧的下界。评估为立即可做:您无需额外学习新工具即可深入阅读并尝试扩展至半参数模型。

3. 10.1093/biomet/asad039 — A mark-specific quantile regression model

  • 作者: Lianqiang Qu, Liuquan Sun, Yanqing Sun
  • 期刊/来源: Biometrika
  • 机构: Central China Normal University · Chinese Academy of Sciences · Academy of Mathematics and Systems Science · University of North Carolina at Charlotte
  • 分类: vol 111 · issue 1 · pp 255-272
  • 相关性 4/10 · novelty: new_method
  • 摘要: 针对竞争风险数据中的连续标记变量(如遗传距离),提出一类标记特异性分位数回归模型。估计方法通过诱导平滑估计方程在标记的邻域内借力,与离散原因的传统竞争风险方法有本质区别。建立了估计量在标记与分位数连续统上的渐近正态性,给出了协方差矩阵的相合估计。进一步定义了标记特异性分位数型疫苗效力的概念并构造了推断程序。模拟研究验证了有限样本表现,并以首个HIV疫苗效力试验为例进行实证分析。对您而言,该论文将分位数回归拓展至连续标记情形,其估计方程与渐近理论可连接至半参数理论中的M估计框架与假设检验方法。
  • 关键技术: induced smoothed estimating equation, quantile regression, competing risk, continuous mark, vaccine efficacy, smoothed score function
  • 为什么对您有用: 直接连接到半参数与非参数理论中的分位数回归与估计方程方法,与您在假设检验及M估计理论方面的兴趣契合;可用您非常熟悉的非参数统计与估计理论框架来理解其估计方程构造与渐近论证;该领域(连续标记竞争风险)对您是较新的应用方向,属于中期可做——需要先熟悉生存分析文献,但核心武器(估计方程、渐近理论)已具备。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1093/biomet/asad033 — One-step targeted maximum likelihood estimation for targeting cause-specific absolute risks and survival curves

  • 作者: H C W Rytgaard, M J van der Laan
  • 期刊/来源: Biometrika
  • 机构: University of Copenhagen · University of California, Berkeley
  • 分类: vol 111 · issue 1 · pp 129-145
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究生存分析和竞争风险数据中的因果推断问题,目标是对基线治疗处理对多个原因特定绝对风险以及完整生存曲线(绝对风险曲线随时间变化)进行同时推断。在事件时间连续且存在右删失的设定下,作者提出一步目标最大似然估计(one-step TMLE)方法。该方法为每个原因特定风险构造一个一维通用最小有利子模型(universal least favourable submodel),并通过递归地沿着对应的非通用多变量最小有利子模型实现有效一步估计。理论贡献包括:可同时推断多个竞争风险下治疗效应的因果绝对风险,以及实现全时间点上生存曲线(或绝对风险曲线)的推断。模拟研究验证了方法的有限样本性能。该方法属于去偏机器学习(debiased ML)的范畴,其核心是半参数效率理论和影响函数的一步修正,对生存分析中的因果推断问题提供了系统性的工具。
  • 关键技术: targeted maximum likelihood estimation (TMLE), one-step estimator, universal least favourable submodel, cause-specific hazard, competing risks, simultaneous inference, survival curves
  • 为什么对您有用: 本文直接连接您的debiased ML/效率理论兴趣(特别是TMLE在生存分析中的应用)。您可用very_familiar中的'estimation theory in causal inference'理解其一步估计的构造动机,并用moderately_familiar中的'semiparametric theory'检验其效率界是否达到半参数有效。该文对您当前武器库是立即可做的——方法框架清晰,理论成熟,可直接阅读并考虑将这些工具应用于您关注的纵向因果推断或多重终点问题。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)

1. 10.1093/biomet/asad023 · arXiv — Hybrid confidence intervals for informative uniform asymptotic inference after model selection

  • 作者: A McCloskey
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 109-127
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在无正确模型假设的 post-selection 设定下,本文研究对 data-driven 选出模型的参数进行 uniform asymptotic inference 的方法。核心提出 hybrid confidence interval,融合 selective inference 与 post-selection inference(PoSI)技术:在参数远离零时采用 selective(参数化)分支以缩短区间长度,在参数局部零附近自动切换至 PoSI(非参数化)分支以保证覆盖。理论证明该区间在未限制 scaled parameter 大小的大分布类上具有 uniform correct asymptotic coverage,克服了传统 selective 方法在 weak signal 下 coverage 退化的问题。仿真与 lasso 选模型后推断的实证(糖尿病数据)验证了其长度与覆盖优势。对您有用:直接推进 hypothesis testing 与 semiparametric uniform inference 交叉方向,为 post-lasso 推断提供更紧且 uniform valid 的区间。
  • 关键技术: post-selection inference (PoSI), selective inference, hybrid confidence interval, uniform asymptotic coverage, lasso model selection, weak signal asymptotics
  • 为什么对您有用: 直接连接 hypothesis testing 与 semiparametric uniform inference 子方向:post-selection uniform coverage 恰是 semiparametric efficiency 与 minimax 理论中分布类无界时的经典难题。用您 very_familiar 的 minimax bounds 工具可验证其声称的 uniform coverage class 是否达到 minimax sharp;用 moderately_familiar 的 M-estimation theory 可将 hybrid 思路推广至一般 M-estimator post-selection 场景。立即可做:用 minimax lower bound 检验其区间长度在 weak signal regime 是否最优。

统计计算 / 算法 (stat_computing, 5 篇)

1. 10.1093/biomet/asad046 — Online inference with debiased stochastic gradient descent

  • 作者: Ruijian Han, Lan Luo, Yuanyuan Lin, Jian Huang
  • 期刊/来源: Biometrika
  • 机构: Hong Kong Polytechnic University · Rutgers, The State University of New Jersey · Chinese University of Hong Kong
  • 分类: vol 111 · issue 1 · pp 93-108
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文提出去偏随机梯度下降(debiased SGD)算法,用于高维数据的在线统计推断。目标是在参数稀疏假设下,以流式(one-pass)方式更新估计量并构造置信区间,降低时间与空间复杂度。方法将高维统计中经典的去偏Lasso技巧与SGD结合,每次更新仅需当前观测与前一时刻估计值。在适当的稀疏水平和数据分布条件下,证明估计量的渐近正态性,并给出覆盖概率的收敛保证。数值实验表明该方法达到名义覆盖水平。最后用高维文本数据集展示实际应用。对您而言,该工作连接了高维渐近理论和统计计算,且方法思路可迁移到因果推断中在线处理高维混淆变量的场景。
  • 关键技术: debiased Lasso, stochastic gradient descent, online inference, high-dimensional sparse regression, asymptotic normality
  • 为什么对您有用: 论文核心是高维稀疏模型下的在线推断,直接对应您primary interest中的高维统计(high-dimensional asymptotics)和统计计算(算法)。您的very_familiar武器库包含high-dimensional asymptotics,可以立即分析其收敛速率是否最优;此外,该方法在因果推断(如高维IV、在线更新)中也有应用潜力,属于立即可做的延伸方向。

2. 10.1093/biomet/asad021 · arXiv — Scalable subsampling: computation, aggregation and inference

  • 作者: Dimitris N Politis
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 347-354
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在大数据环境下,全样本Bootstrap或子抽样常因计算量过大而不可行,本文提出一种可扩展的子抽样方法。核心思路是使用一组精心选择的非随机子样本(而非随机抽样)来估计子抽样分布,并构造子抽样聚合(subagging)估计量。该非随机设计方案避免了多次随机抽样的计算瓶颈,且可调整至与原始估计量相同或更优的收敛速度。作者进一步证明,基于该可扩展子抽样估计量可以进行有效的统计推断,替代原始估计量。本文方法在计算可行性与统计效率之间取得平衡,尤其适用于n和b均很大的场景。该方法对统计计算和算法设计具有直接价值,您可利用软件开发经验实现并测试其在大规模数据上的表现。
  • 关键技术: subsampling distribution, subagging, nonrandom subsample selection, scalable inference, rate of convergence
  • 为什么对您有用: 本文直接针对统计计算中的可扩展性问题,与您primary interest中的statistical computing方向高度吻合。您熟悉的软件开发和估计理论(very_familiar)足以让您立刻复现并扩展该非随机子抽样方法,例如将其与您的HOIF或U统计量计算结合,评估其对高阶统计量的计算加速效果。该follow-up属于立即可做范畴。

3. 10.1093/biomet/asad060 — On geometric convergence for the Metropolis-adjusted Langevin algorithm under simple conditions

  • 作者: Alain Oliviero-Durmus, Éric Moulines
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 1 · pp 273-289
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文研究 Metropolis-adjusted Langevin algorithm (MALA) 的几何收敛性,旨在建立易于验证且保证 V-uniform 几何收敛的充分条件。与以往工作不同,作者仅对目标分布的势函数施加尾部条件和平滑性假设,这些条件是 MCMC 文献中常见的,无需引入额外复杂性。方法核心是使用漂移和 minorization 条件,并通过耦合构造控制马尔可夫链的收敛速度。特别地,文章显式刻画了步长(Euler–Maruyama 离散化步长)对收敛界的影响,这对实际调参有指导意义。理论结果适用于一大类具有轻尾或重尾的目标分布,且条件可直接由势函数的性质检验。本文属于纯理论贡献,不涉及数值验证或应用案例。对您而言,MALA 是统计计算中广泛使用的采样算法,其收敛性保证直接关系到您“软件开发”兴趣中算法实现的可靠性判断。
  • 关键技术: Metropolis-adjusted Langevin algorithm, V-uniform geometric ergodicity, Euler–Maruyama discretization, drift and minorization conditions, step-size dependence
  • 为什么对您有用: 本文属于统计计算中的 MCMC 理论,直接对应您 primary interest 中的“statistical computing (numerical methods, algorithm)”。您武器库中的“software development”可以受益于这类收敛性分析:理解步长如何影响几何收敛常数,有助于设计更稳定的 MALA 实现。然而,本文依赖的马尔可夫链漂移和 minorization 条件、Foster–Lyapunov 函数构造等工具不在您当前的武器库中(very_familiar 和 moderately_familiar 均无),因此核心机器需从头学习,属于“暂不可做”的 follow-up。建议仅作为背景阅读,了解 MALA 的理论进展。

4. 10.1093/biomet/asad025 · arXiv — Statistical summaries of unlabelled evolutionary trees

  • 作者: Rajanala Samyak, Julia A Palacios
  • 期刊/来源: Biometrika
  • 机构: Stanford University
  • 分类: vol 111 · issue 1 · pp 171-193
  • 相关性 3/10 · novelty: new_method
  • 摘要: 该文研究无标签进化树的统计总结问题,目标是定义和计算无标签排名二叉树和无标签谱系(带枝长的树)的Fréchet均值、方差和四分位集。利用最近提出的距离度量,作者设计了高效的组合优化算法来计算Fréchet均值,适用于样本或分布上的树形数据。方法在流行树分布上展示了适用性,并用于比较2020年COVID-19疫情不同地点的SARS-CoV-2进化树。与现有标签树研究不同,该文处理无标签树,适用于汇总来自不同方法或样本的树样本,评估稳定性和泛化性。实现代码公开于GitHub,便于复现和扩展。对于统计计算方向的研究者,这是一个将组合优化与树形结构统计总结相结合的实例,且其算法实现可直接迁移到其他层次数据结构问题。
  • 关键技术: Fréchet mean, unlabelled ranked binary trees, combinatorial optimization, distance metrics on trees, SARS-CoV-2 evolutionary trees
  • 为什么对您有用: 该论文属于统计计算中的算法开发,与您primary interest中的统计计算(算法实现)直接吻合。您对软件开发和算法非常熟悉,可立即使用其开源代码或将其组合优化策略推广至其他树形或层次数据(如因果推断中的DAG结构总结)。此外,COVID-19进化树的应用连接secondary interest流行病学,提供真实数据场景。立即可做:您可直接运行其GitHub代码进行复现或扩展至其他生物/社会网络数据。

5. 10.1093/biomet/asad024 — Populations of unlabelled networks: graph space geometry and generalized geodesic principal components

  • 作者: Anna Calissano, Aasa Feragen, Simone Vantini
  • 期刊/来源: Biometrika
  • 机构: Politecnico di Milano · Technical University of Denmark
  • 分类: vol 111 · issue 1 · pp 147-170
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究未标记网络群体的统计分析问题,将图空间视为欧几里得空间对有限群作用的商空间,并系统刻画其几何性质:证明该空间不是流形,且曲率无上界。在这一几何框架下,作者定义了广义测地主成分(Generalized Geodesic Principal Components),并提出“先对齐后计算”(align-all-and-compute)算法族,用于在图空间上计算均值、主成分等统计量。在三个真实网络数据集(社交网络、脑网络等)上,该方法与已有基线方法进行实验对比,展示了辨识度更高的主成分方向和更小的解释损失。整个方法被实现为geomstats Python包的一部分,便于社区使用。对您而言,该研究属于统计计算与非欧几里得数据分析的交叉方向,其中align-and-compute的计算模式可启发您在U统计的高效实现(树宽/张量收缩)中的调度思路。由于核心机器不在武器库(缺形状分析/流形统计的语言),目前暂不可做直接跟进,但作为gateway reading了解领域动态有参考价值。
  • 关键技术: graph space geometry, quotient of Euclidean space under finite group action, generalized geodesic principal components, align-all-and-compute algorithms, geomstats Python package
  • 为什么对您有用: 本文属于统计计算与非欧几里得数据分析的交汇方向,可连接您的次要兴趣中统计计算(软件发展)一项。其“先对齐后计算”的算法结构,与您非常熟悉的高阶U统计的张量收缩调度(treewidth/einsum复杂度)有类比空间:本质上都是通过组合优化来降低多对象对齐的计算成本。但由于您目前不熟悉流形统计(非参数统计中的距离度量、黎曼几何等基础),属于暂不可做方向——需先在shape analysis或graph metric学习上补充基础才能展开实际工作。作为gateway reading,若您未来进入网络数据分析领域,本文可作为入口参考。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论