Biometrika — Vol 110 Issue 2 · 2026-06-20¶

共 16 篇 · Biometrika
目录核对 ✅ 16 篇全部抓到（对照 OpenAlex 16 篇）

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

本期论文大致聚成四条主线：因果推断与实验设计（六篇，涵盖结构嵌套模型、部分识别、归因评估、高维调整、动态治疗与集群重随机化）、非参数与半参数理论（四篇，涉及秩相关检验、函数回归、李群加性模型与DP混合聚类）、高维与假设检验（三篇，聚焦通用似然比、核两样本检验与Whittle估计量Bootstrap）、以及计算与优化方法（两篇，处理梯度稀疏PCA与非可逆MCMC）。

因果推断主线在本期占绝大比重，且切面各异：在效应估计端，针对零膨胀结果的乘性结构嵌套均值模型与存在依赖删失生存结局的多阶段动态治疗策略（Q-learning结合广义随机生存森林），分别将经典g-估计与强化学习拓展至特定数据结构；在识别与推断端，样本约束下的部分识别通过松弛估计集构造置信区间并统一选择偏差敏感性分析，而Lasso调整处理效应估计在协变量自适应随机化下突破了模型设定与维数限制并达到半参数效率界；在概念层面，后验因果效应为多原因归因评估提供了基于反事实概率的新度量；在实验设计端，集群重随机化建立了基于加权欧氏与分层Mahalanobis距离的设计渐近理论。

非参数/半参数主线集中突破经典框架的边界与效率瓶颈：Chatterjee秩相关检验通过引入多右最近邻克服了局部替代下的功效速率瓶颈并达到近参数效率；函数线性回归利用pooling与样本分割绕过离散观测下特征函数扰动界障碍，揭示了斜率函数估计的相变现象；对称正定矩阵加性模型将流形回归转化为切空间经典加性模型以规避维数灾难；Dirichlet过程混合聚类则通过对集中度参数施加先验自适应更新，恢复了后验对真实聚类数的强一致性。高维检验主线中，通用似然比检验基于样本分割在非凸零假设下实现有限样本size控制，核两样本检验则推导了高维下MMD检验统计量的渐近展开与功效相变条件。

对侧重因果推断与半参数效率的研究者，Lasso调整处理效应估计（高维调整下的半参数效率界与非参数方差估计）、样本约束部分识别（识别区间松弛推断与敏感性分析统一）、以及Chatterjee秩相关检验（非参数独立性检验的近参数效率改进）三篇与方法论核心最贴，适合优先看。

因果推断 (causal_inference, 6 篇)¶

1. 10.1093/biomet/asac050 — A multiplicative structural nested mean model for zero-inflated outcomes¶

作者: Miao Yu, Wenbin Lu, Shu Yang, Pulak Ghosh
期刊/来源: Biometrika
机构: North Carolina State University · Indian Institute of Management Bangalore
分类: vol 110 · issue 2 · pp 519-536
相关性 9/10 · novelty: new_method
摘要: 本文针对零膨胀非负结果变量，提出一类乘性结构嵌套均值模型（multiplicative structural nested mean model），用于在存在时变混杂因素时灵活刻画序列治疗（sequential treatments）的联合效应。模型基于结构嵌套均值框架，通过双重稳健估计方程进行参数推断，其中倾向得分和条件均值（给定混杂）作为 nuisance 函数，可参数或非参数估计。为利用零膨胀结果特征，将条件均值分解为两个部分：正结果概率模型和给定正结果时的均值模型。作者证明，在样本量或随访时间趋于无穷大时，该估计量具有一致性和渐近正态性；且三明治公式可一致估计治疗效应估计量的方差，无需计入 nuisance 函数估计的变异。模拟和手机游戏数据验证了方法的有限样本性能。对您而言，本文直接连接至因果推断中纵向数据与时变混杂的处理方法，且其双重稳健与两部分建模思路在同类问题中具有推广价值。
关键技术: structural nested mean model, doubly robust estimating equation, zero-inflated outcome modelling, time-varying confounding, sandwich variance estimation
为什么对您有用: (1) 本文直接连接至您的首要兴趣——因果推断中的纵向治疗效应识别与估计，特别是时变混杂条件下的结构嵌套均值框架，是该方法在零膨胀结果上的新拓展。 (2) 您的技术武器库中“因果推断中的估计理论”属于 very_familiar，可以立即评估其双重稳健估计方程的具体实现与渐近性质。 (3) 中期可做：本文的 nuisance 函数非参数估计部分利用了 semiparametric theory（moderately_familiar），您可尝试在其基础上推导半参数效率界或探索高阶影响函数（HOIF）的收敛速率优势。

2. 10.1093/biomet/asac042 · arXiv — Sample-constrained partial identification with application to selection bias¶

作者: Matthew J Tudball, Rachael A Hughes, Kate Tilling, Jack Bowden, Qingyuan Zhao
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 485-498
相关性 9/10 · novelty: new_method
摘要: 本文针对一类部分识别问题，其中识别区间由某个目标函数在集合上的最优值刻画，而目标函数和集合均需从样本数据中估计。作者提出一种通用推断方法，通过对估计集进行适当松弛来构造渐近有效的置信区间，从而绕开对集合边界点精确推断的困难。该方法被应用于队列研究中的选择偏差问题，将传统的敏感性分析统一纳入该框架，并利用总体层面的辅助信息（如人口总体的边际矩或分布约束）显著收紧识别区间。模拟实验证明该松弛推断具有良好的有限样本覆盖性质；UK Biobank 实例分析展示了教育对收入因果效应在强选择样本下的可识别界。方法已实现为 R 包 selectioninterval。对您而言，这是因果推断中部分识别与敏感性分析领域的前沿方法，可立即应用于您熟悉的因果推断估计问题，特别是在存在选择偏差或缺失数据的实际数据分析中。
关键技术: partial identification, confidence interval for optimal value, relaxation of estimated set, selection bias, sensitivity analysis, auxiliary population-level information
为什么对您有用: 该论文直接关联您的主要兴趣因果推断中的部分识别与敏感性分析子方向，尤其聚焦于选择偏差这一常见但难以处理的识别问题。您武器库中的 'nonparametric statistics' 和 'estimation theory in causal inference' 完全对口：可以利用非参数方法分析其松弛估计集的收敛性质，并评估置信区间的覆盖精确度。基于当前熟悉程度，该论文可立即可做——您可以直接复制 UK Biobank 分析流程或扩展该框架到近端因果推断设定（如 negative control 下的部分识别），因为核心技术和软件包与您的统计计算和因果推断技能无缝衔接。

3. 10.1093/biomet/asac038 — Evaluating causes of effects by posterior effects of causes¶

作者: Zitong Lu, Zhi Geng, Wei Li, Shengyu Zhu, Jinzhu Jia
期刊/来源: Biometrika
机构: Peking University · Beijing Technology and Business University · Renmin University of China · Huawei Technologies (China)
分类: vol 110 · issue 2 · pp 449-465
相关性 9/10 · novelty: new_theory
摘要: 针对多个可能相互影响的原因变量，本文定义了基于治疗后变量证据的后验总因果效应和直接因果效应，以评估原因对结果的效果（即“causes of effects”问题）。这些后验因果效应涉及反事实概率，其识别需要比传统条件因果效应更强的假设，例如单调性、排除限制或关于不可观测混杂的假设。作者推导了后验总效应和直接效应的识别公式，并给出了可识别性的充分条件。当原因与结果之间的关系可用因果网络描述时，所需的识别假设和公式可得到简化，从而降低识别难度。通过数值例子，将后验因果效应与概率因果关系、必要性概率和人群归因风险等已有度量进行了比较，展示了后验度量的解释优势和适用范围。本文为多原因场景下的归因分析提供了新的识别工具，对流行病学和社会科学中基于观测数据的事后归因具有直接意义。
关键技术: Probability of causation, Posterior causal effects, Identification assumptions, Causal networks, Counterfactual variables, Population attributable risk
为什么对您有用: 本文直接属于因果推断中“causes of effects”（归因）的子方向，与您对识别理论和敏感性分析的兴趣高度重叠。您可以使用武器库中“identification theory in causal inference”（moderately_familiar）的工具来检验其识别假设的充分性，或者用“estimation theory in causal inference”（very_familiar）基于其识别公式构造估计量并进行实证应用。立即可做：您的very_familiar武器（估计理论、软件开发）足以实现这些后验因果效应的估计和敏感性分析。

4. 10.1093/biomet/asac036 — Lasso-adjusted treatment effect estimation under covariate-adaptive randomization¶

作者: Hanzhong Liu, Fuyi Tu, Wei Ma
期刊/来源: Biometrika
机构: Tsinghua University · Renmin University of China
分类: vol 110 · issue 2 · pp 431-447
相关性 9/10 · novelty: new_method
摘要: 该论文研究在协变量自适应随机化(如分层随机化)设计下，如何利用Lasso回归调整大量基线协变量来估计和推断处理效应。现有OLS调整方法要求模型正确设定且协变量维数固定，本文放松了这些限制，允许模型误设和高维协变量(维数随样本量增长)。作者提出了两类Lasso调整处理效应估计量，并证明了它们各自类别中的最优性(如半参数效率界)。此外，提出了不依赖于具体随机化方法的非参数一致方差估计量，使得置信区间构造稳健。数值模拟验证了所提估计量相比传统方法在效率上的提升和稳健性。对您而言，本文直接联系您的因果推断和高维统计兴趣，特别是处理效应估计中的高维调节变量调整问题，且其中的非参数方差估计方法可与您的非参数统计知识衔接。
关键技术: Lasso adjustment, covariate-adaptive randomization, high-dimensional regression adjustment, nonparametric variance estimation, semiparametric efficiency
为什么对您有用: 本文直接对应您在因果推断中的处理效应估计兴趣，并在高维协变量调整情境下给出了带理论保证的Lasso回归调整方法。您可以用非参数统计中的minimax界工具评估其最优性声称，也可用您熟悉的高维渐近理论验证其方差估计量的收敛性。这是一个立即可做的方向：您可尝试将类似理论推广到更复杂的因果模型(如工具变量或中介分析)中。

5. 10.1093/biomet/asac047 · arXiv — Multi-stage optimal dynamic treatment regimes for survival outcomes with dependent censoring¶

作者: Hunyong Cho, Shannon T Holloway, David J Couper, Michael R Kosorok
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 395-410
相关性 8/10 · novelty: new_method
摘要: 针对生存结局且存在依赖删失的情况，该文研究了多阶段最优动态治疗策略（DTR）的估计问题。目标是在条件独立删失假设下最大化平均生存时间或特定时间点的生存概率。方法基于强化学习框架，将动态治疗策略建模为多阶段决策问题，采用Q-learning结构扩展至生存结局。核心估计工具是广义随机生存森林（generalized random survival forests），用于近似值函数，支持灵活的治疗臂数和阶段数。理论上证明估计量具有多项式收敛速率，这在非参数设定下是合理的。仿真研究显示新方法在多种设定下优于现有方法。在ARIC队列数据上的应用进一步验证了实际效益。该工作对您研究因果推断中的时序治疗策略（尤其是删失数据下的动态处理）具有直接参考价值，其中随机森林在值函数估计中的应用可与您的非参数统计工具产生联系。
关键技术: dynamic treatment regimes, generalized random survival forests, Q-learning for survival outcomes, dependent censoring, reinforcement learning, polynomial convergence rates
为什么对您有用: 该论文直接属于您主要兴趣中的causal inference子方向——动态治疗策略估计（DTR），且涉及纵向数据中的依赖删失问题，与您的时序因果推断研究高度相关。您技术武器库中 very_familiar 的 estimation theory in causal inference 可用来分析其Q-learning框架下值函数估计的偏差-方差权衡，而 minimax bounds for estimation problems 可直接用于验证其多项式收敛速率是否为最优。立即可做：您可以运用熟悉的 minimax 下界技术评估该估计量的速率最优性，或在更强的结构假设下探索能否达到更快的收敛速率。

6. 10.1093/biomet/asac045 · arXiv — Design-based theory for cluster rerandomization¶

作者: Xin Lu, Tianle Liu, Hanzhong Liu, Peng Ding
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 467-483
相关性 8/10 · novelty: new_theory
摘要: 在 cluster-randomized experiment 的设计框架下，目标是建立 cluster rerandomization（即在集群随机化基础上叠加重随机化以平衡协变量）的 design-based 渐近理论，填补了现有理论仅处理个体层面重随机化的空白。核心机制是定义两种利用协变量先验重要性的重随机化方案：基于加权欧氏距离与基于分层 Mahalanobis 距离，并在正交化协变量与最优权重下证明前者严格优于后者。理论推导采用 finite-sample central limit theorem under rerandomization，证明经重随机化后估计量的方差缩减因子与协变量平衡阈值直接关联，且分析阶段推荐使用带 robust standard error 的 OLS 协变量调整程序以进一步提升效率。对您可能有用：本文为集群级实验设计的协变量调整与效率理论提供了严格的渐近分析，直接连接到 causal inference 中的 estimation theory 与 design-based identification 设定。
关键技术: cluster rerandomization, design-based asymptotic theory, Mahalanobis distance with tiers, weighted Euclidean distance, covariate-adjusted OLS with robust SE, variance reduction factor under rerandomization
为什么对您有用: 本文直接连接到 causal inference 中的 estimation theory 与实验设计设定，为集群级重随机化提供了此前缺失的渐近理论。研究者武器库中的 estimation theory in causal inference（very_familiar）可直接攻入本文的方差缩减因子推导与协变量调整效率分析；而本文的 design-based 渐近框架也可作为研究者用 semiparametric theory（moderately_familiar）探索更复杂集群结构下 semiparametric efficiency bound 的起点。Follow-up 粗判：立即可做——用 very_familiar 的 estimation theory 即可验证并拓展其协变量调整的效率界。

非参数 / 半参数 (nonparam_semipara, 4 篇)¶

1. 10.1093/biomet/asac048 · arXiv — On boosting the power of Chatterjee’s rank correlation¶

作者: Z Lin, F Han
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 283-299
相关性 7/10 · novelty: sharper_rate
摘要: 在非参数独立性检验设定下，目标是估计 Dette–Siburg–Stoimenov–Chatterjee 依赖性测度，并针对 Chatterjee 原始秩相关系数在局部替代假设下检验功效 rate inefficient 的问题提出改进。作者通过在构造秩相关系数时引入多个右最近邻（right nearest neighbours），保留了原测度 0–1 边界及一致性，同时显著提升了检验功效。核心理论结果是：改进后的检验在 Gaussian rotation 局部替代下达到了近参数效率（near-parametric efficiency），克服了原方法仅用单一最近邻导致的收敛速率瓶颈。技术工具依赖秩统计量、最近邻图及局部替代假设下的功效分析。对您有用：本文直接推进了非参数假设检验的功效理论，与您 primary interest 中的 hypothesis testing 及 nonparametric theory 紧密相连。
关键技术: Chatterjee's rank correlation, right nearest neighbours, near-parametric efficiency, local alternatives, Gaussian rotation alternatives, dependence measure estimation
为什么对您有用: 本文直接连接您 primary interest 中的 hypothesis testing 与 nonparametric theory 子方向，针对非参数独立性检验的 rate inefficiency 给出了近参数效率的 sharper rate 改进。用您 very_familiar 的 minimax bounds for estimation problems 与 nonparametric statistics 武器，可以验证其声称的 near-parametric efficiency 是否紧、以及该多最近邻构造在其他局部替代下的 minimax 功效界——属于立即可做的 follow-up。

2. 10.1093/biomet/asac053 — Functional linear regression for discretely observed data: from ideal to reality¶

作者: Hang Zhou, Fang Yao, Huiming Zhang
期刊/来源: Biometrika
机构: Peking University · University of Macau
分类: vol 110 · issue 2 · pp 381-393
相关性 5/10 · novelty: sharper_rate
摘要: 在函数线性回归设定下，目标是当协变量函数仅在离散、带噪观测下估计斜率函数（slope function），克服全观测理想理论与离散观测现实之间的根本鸿沟。核心难点在于离散观测下估计的特征函数缺乏尖锐扰动界（perturbation bound），导致传统函数线性回归技术失效。作者提出 pooling 方法估计特征函数，并引入样本分割（sample-splitting）策略估计主成分得分，从而绕过扰动界的技术障碍；斜率函数通过近似最小二乘估计。理论证明当每个个体的测量数达到样本量的特定量级时，估计与预测均达到最优收敛率，且该相变现象不同于已知的池化均值/协方差估计结果，揭示了回归函数估计的更高难度。对您可能有用：该相变阈值与 minimax rate 的推导直接关联非参数理论，且样本分割策略与 semiparametric/debiased ML 中的 cross-fitting 思路相通。
关键技术: functional linear regression, pooled covariance estimation, sample-splitting, perturbation bound for eigenfunctions, phase transition in convergence rate, approximated least squares
为什么对您有用: 直接关联非参数理论中的 minimax rate 与相变现象，样本分割策略与您熟悉的 efficiency theory / debiased ML 中 cross-fitting 思路高度相似，可作为非参数函数数据中 cross-fitting 技术的理论参考。用您 very_familiar 的 minimax bounds 工具可验证其声称的最优率是否紧，属于立即可做的 follow-up 粗判。

3. 10.1093/biomet/asac055 · arXiv — Additive models for symmetric positive-definite matrices and Lie groups¶

作者: Z Lin, H -G Müller, B U Park
期刊/来源: Biometrika
机构: National University of Singapore · University of California, Davis · Seoul National University
分类: vol 110 · issue 2 · pp 361-379
相关性 4/10 · novelty: new_method
摘要: 针对对称正定矩阵值的响应变量与多个标量预测变量，提出一种加性回归模型。该模型利用 log-Cholesky 或 log-Euclidean 框架继承的阿贝尔群结构，并自然推广到一般阿贝尔李群。关键机制是将流形上的加性模型转化为切空间上的经典加性模型，从而获得高效估计算法并避免维数灾难。建立了分量函数估计的最优渐近收敛率和渐近正态性，理论证明基于非参数加性模型的标准工具（光滑性假设、核估计等）。数值模拟和脑扩散张量成像数据分析展示了模型的实际效能。该工作将经典非参数回归拓展到非欧空间，对您在半参数与非参数理论上的兴趣是直接延伸。
关键技术: additive model on Lie groups, log-Cholesky / log-Euclidean framework, tangent space transformation, asymptotic normality, optimal convergence rates, curse of dimensionality avoidance
为什么对您有用: 本文是加性非参数回归在流形响应上的推广，直接对应您的 primary_interest 中的 'nonparametric statistics' 和 'semiparametric and nonparametric theory'。您可以用 very_familiar 工具中的 'minimax bounds for estimation problems' 验证其收敛率是否达到下界，这是立即可做的后续问题。此外，其切空间转化思路对处理复杂响应变量（如协方差矩阵）的统计建模具有启发性。

4. 10.1093/biomet/asac051 · arXiv — Clustering consistency with Dirichlet process mixtures¶

作者: F Ascolani, A Lijoi, G Rebaudo, G Zanella
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 551-558
相关性 4/10 · novelty: new_theory
摘要: 在 Dirichlet 过程混合（DPM）的非参数贝叶斯框架下，目标是当真实数据生成分布为有限混合时，后验分布对未知聚类数的一致性。此前文献表明若 DPM 的集中度参数 α 固定，后验对聚类数不一致；本文证明当对 α 施加先验并进行全贝叶斯自适应更新时，可在温和先验假设与多种核函数选择下恢复一致性。核心机制在于 α 的后验自适应使得有效集中度随样本量收缩，从而避免多余空聚类的产生。理论结果确立了后验聚类数在 K_true 处的强一致性，并给出了先验支撑与核函数条件。对您可能有用：此结果直接触及非参数贝叶斯密度估计的模型选择一致性，与您的非参数统计与半参数理论兴趣相连。
关键技术: Dirichlet process mixture, posterior consistency for number of clusters, Bayesian adaptation of concentration parameter, nonparametric Bayesian density estimation, finite mixture model
为什么对您有用: 本文连接到您的非参数统计子方向，聚焦非参数贝叶斯模型选择后验一致性这一经典问题。用您 very_familiar 的 minimax bounds 与 nonparametric statistics 视角，可以审视该一致性结果的收敛速率是否可达更精确的 bound，或用 moderately_familiar 的 M-estimation theory 探究其与频率派聚类模型选择准则（如 BIC / penalized likelihood）的理论桥梁。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以将频率派效率界与贝叶斯后验收敛速率做系统对比。

数理统计 / 假设检验 (hypothesis_testing, 3 篇)¶

1. 10.1093/biomet/asac064 · arXiv — Gaussian universal likelihood ratio testing¶

作者: Robin Dunn, Aaditya Ramdas, Sivaraman Balakrishnan, Larry Wasserman
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 319-337
相关性 8/10 · novelty: new_method
摘要: 本文在 d 维高斯数据（协方差为单位阵）框架下系统比较了经典似然比检验与通用似然比检验（uLRT）的 size 和 power。uLRT 基于样本分割构造似然比统计量，无需正则条件即可在有限样本下控制第一类错误，尤其适合传统检验失效的非凸零假设情形。作者提出的重复子抽样（repeated subsampling）版本显著提升了 power，并证明当子抽样次数足够多时置信集渐近为球面。在高维场景中，uLRT 置信集期望平方半径约为经典 LRT 的 1.5 倍，代价可控但适用范围更广。论文还以环形（doughnut-shaped）零假设为例展示了 uLRT 的实用优势。该方法与您主要兴趣中的假设检验、高维统计以及非参数理论直接相关，为设计不依赖正则条件的有限样本检验提供了清晰的理论范例。
关键技术: universal likelihood ratio test, sample splitting, repeated subsampling, finite-sample validity, high-dimensional confidence sets, nonconvex null hypothesis
为什么对您有用: 本文直接针对假设检验这一主要兴趣，深入分析了通用似然比检验在简单高斯模型下的理论性质与高维表现，且不依赖正则条件——这恰好与您武器库中'非参数统计'和'高维渐近'两项非常熟悉的技能高度契合（可立即用于推导更一般分布的类似结果）。follow-up 粗判：立即可做——用已有的非参数和高维渐近工具可以将其推广到协方差未知或非高斯情形，检验方法论的迁移门槛很低。

2. 10.1093/biomet/asac049 · arXiv — Kernel two-sample tests in high dimensions: interplay between moment discrepancy and dimension-and-sample orders¶

作者: Jian Yan, Xianyang Zhang
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 411-430
相关性 8/10 · novelty: new_theory
摘要: 本文研究高维情况下核两样本检验的渐近性质，重点关注最大均值差异（MMD）和能量距离，使用的核函数是各向同性核（包括高斯核和拉普拉斯核）。当维度p和样本量n,m同时趋于无穷时，推导了检验统计量的渐近展开，并在原假设、局部备择和固定备择下建立了中心极限定理。基于非原假设的CLT，可以进行渐近精确功效分析，揭示了MMD所能检测的矩差异与维度和样本量阶数之间的微妙相互作用。数值模拟验证了理论结果。对您有用：这是一篇高维假设检验的严格渐近理论文章，直接关联您的假设检验和高维统计兴趣，尤其是其功效分析框架可用于评估您研究中的检验方法。
关键技术: Maximum Mean Discrepancy (MMD), Energy distance, Isotropic kernel, High-dimensional central limit theorem, Asymptotic expansion, Power analysis
为什么对您有用: 本文直接涉及高维假设检验的渐近理论，这是您主要兴趣中"mathematical statistics (hypothesis testing)"和"high-dimensional statistics"的具体子方向。您熟悉的高维渐近分析框架和nonparametric statistics可以用于理解并验证其渐近展开和CLT证明的逻辑；其功效分析结果也可以在您设计的检验方法中作为比较基准。立即可做：您的高维渐近武器库足以消化本文并评估其方法在您关注的其他高维检验问题中的适用性。

3. 10.1093/biomet/asac044 · arXiv — Bootstrapping Whittle estimators¶

作者: J -P Kreiss, E Paparoditis
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 499-518
相关性 3/10 · novelty: new_method
摘要: 本文研究时间序列中 Whittle 估计量的分布逼近问题。在实际中 Whittle 估计量的渐近分布依赖于难以估计的谱密度特征，且当参模型可能误设时这一困难更为突出。作者提出一种频率域 bootstrap 方法来逼近估计量的抽样分布，该 bootstrap 在弱依赖和模型误设条件下仍保持渐近有效性。方法还适应几种常见的 Whittle 估计修正版本，如 tapered、debiased 和 boundary extended 估计量。模拟和太阳黑子数据分析展示了该 bootstrap 的有限样本表现。这项工作的核心贡献是给出了一种无需解析推导渐近方差即可进行推断的可操作工具。
关键技术: Whittle estimator, frequency-domain bootstrap, model misspecification, weak dependence, tapered estimator
为什么对您有用: 本文属于数学统计中的假设检验方法（bootstrap 推断），连接您的 primary interest 中的 hypothesis testing。您技术库中 very_familiar 的 nonparametric statistics 可用来理解 bootstrap 的非参数思想，但核心工具（频率域 bootstrap 的具体构造和渐近证明）并不直接对应。中期可做：若您希望将类似的 bootstrap 策略迁移到高维时间序列或因果推断中的序列数据，需要先在 moderately_familiar 的 M-estimation theory 上补强对依赖数据下经验过程的掌握，本文提供了较好的起点。

统计计算 / 算法 (stat_computing, 2 篇)¶

1. 10.1093/biomet/asac041 · arXiv — Gradient-based sparse principal component analysis with extensions to online learning¶

作者: Yixuan Qiu, Jing Lei, Kathryn Roeder
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 339-360
相关性 7/10 · novelty: new_method
摘要: 本文针对高维数据稀疏主成分分析问题，结合稀疏PCA问题的几何结构与凸优化进展，提出基于梯度的稀疏PCA算法。该算法保留了交替方向乘子法(ADMM)的全局收敛保证，但可充分利用深度学习中的梯度方法工具箱（如自动微分、Adam等）进行高效实现，计算效率显著提升。进一步扩展至在线学习场景，通过随机梯度下降(SGD)获得可证明的数值和统计收敛性保证，适用于流式数据环境。模拟研究验证了算法在有限样本下的良好性能。作为应用，该方法成功从高维RNA测序数据中识别出具有功能意义的基因群。对您而言，本文提出的计算框架可直接用于高维数据降维与变量选择，且可借助您熟悉的软件开发经验快速复现和验证。
关键技术: sparse principal component analysis, alternating direction method of multipliers (ADMM), proximal gradient algorithm, stochastic gradient descent (SGD), online learning, automatic differentiation
为什么对您有用: 本文属于统计计算方法，直接对应您的主要兴趣“统计计算(数值方法、算法)”。您“very_familiar”中的“软件开发”能力可快速复现该算法，并结合“high-dimensional asymptotics”分析其统计性质（如收敛速率、相位图）。follow-up粗判：立即可做——您已具备高维渐近理论与软件实现能力，可直接复现并测试该算法在您研究的高维因果推断场景（如工具变量选择）中的辅助降维效果。

2. 10.1093/biomet/asac039 — Hug and hop: a discrete-time, nonreversible Markov chain Monte Carlo algorithm¶

作者: M Ludkin, C Sherlock
期刊/来源: Biometrika
机构: Lancaster University
分类: vol 110 · issue 2 · pp 301-318
相关性 7/10 · novelty: new_method
摘要: 本文提出离散时间、非可逆的 hug-and-hop MCMC 算法，用于对不可达目标分布求期望。算法交替执行两个 kernel：hug 利用 bouncy particle sampler 的 bounce 机制沿目标密度等高线反复反弹，生成远离当前位置但几乎同轮廓的提议点，从而获得高接受率；hop 则刻意跨轮廓跳跃，且其效率随维度增加退化极慢。hug 与 HMC（leapfrog integrator）有诸多平行（如积分阶数），但 hug 能直接利用局部 Hessian 信息而无需隐式数值积分步骤，且不受 log-posterior 无界梯度的致命影响。在多个 toy target 与真实统计模型上的实证表明，hug-and-hop 常优于 HMC。对您有用：若关注统计计算中的数值方法与算法设计，此算法提供了一种绕过 HMC 隐式积分与无界梯度瓶颈的非可逆替代方案。
关键技术: nonreversible Markov chain Monte Carlo, bouncy particle sampler bounce mechanism, contour-preserving proposal kernel, local Hessian information exploitation, leapfrog integrator analogy, inter-contour jump kernel
为什么对您有用: 直接连接统计计算（数值方法与算法）子方向，为高维 MCMC 提供了避开 HMC 隐式积分与无界梯度缺陷的新数值方案。您武器库中的 software development 与高维渐近理论可直接用于实现该算法并分析其高维效率退化率。立即可做：用 very_familiar 的软件开发能力复现算法并测试，结合高维渐近视角初步探索其高维收敛率。

其他 (other, 1 篇)¶

1. 10.1093/biomet/asac046 · arXiv — Optimal row-column designs¶

作者: Zheng Zhou, Yongdao Zhou
期刊/来源: Biometrika
分类: vol 110 · issue 2 · pp 537-549
相关性 5/10 · novelty: new_theory
摘要: 该论文研究素数水平行-列设计的最优性，目标是在存在双重混淆的情况下构造能无偏估计所有主效应与尽可能多两因子交互效应的设计。现有工作主要针对两水平设计且常依赖全因子设计的完全复制，缺乏理论框架且不够灵活。作者建立了评估素数水平行-列设计最优性的代数理论框架，借助组合方法避免全因子重复构造，提出了适用于任意参数组合的最优全因子三水平行-列设计。同时构造了最优部分因子两水平与三水平行列设计以降低实验成本。论文的主要贡献在于填补了素数水平行-列设计最优性理论的空白，并给出了系统构造方法。对您而言，虽然该工作不直接涉及因果推断，但实验设计的最优性理论可为流行病学中多因子随机化试验的因子设计提供参考，尤其是在控制交互效应混杂方面。
关键技术: row-column designs, full factorial design, fractional factorial design, prime level, confounding, optimality criteria
为什么对您有用: 该论文聚焦于实验设计的最优性理论，间接关联因果推断中的随机化试验设计，尤其适用于多因子流行病学干预试验。研究者技术武库中的“minimax bounds for estimation problems”可用于评估此类设计的效率下界，但该文更侧重组合构造而非最优性下界。目前暂不可做：核心工具为因子设计与代数组合理论，研究者尚缺乏实验设计（如正交表、混杂结构）的专门知识，需先熟悉该方向后才有可能跟进。

Maintained by 陈星宇 · Homepage · Source on GitHub