Biometrika — Vol 113 Issue 1 · 2026-05-26¶
- 共 24 篇 · Biometrika
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
这一期共 24 篇论文,整体上可归纳为四条主线:因果识别与推断(约 5 篇)、高维与随机矩阵方法(约 2 篇)、非参数/半参数方法与空间模型(约 6 篇)、以及假设检验与选择性推断(约 7 篇)。此外,还有少量计算方法和应用导向的工作。因果推断主线覆盖了从局部因果发现、后选择推断、匹配估计的 bootstrap 一致性,到因子实验中的非依从性界、以及多重结局敏感性分析中的样本分割策略。高维主线聚焦于协方差估计与张量 PLS 的稀疏化。非参数主线涉及交互效应正交化、广义 Fréchet 均值、空间自混杂偏差、图模型重参数化、测地线最优传输回归以及函数数据极值相关系数。假设检验主线则包括生存分析中的高阶批评、协变量偏移下的无模型选择性推断、利用外部数据提升检验功效、线性混合模型中的均匀推断、空间随机性检验、频率学派局部假发现率,以及多源决策序列的融合学习。
在因果推断主线中,Post-selection inference for causal effects after causal discovery 提出了一种 resampling-and-screening 程序,通过对条件独立性检验统计量施加随机扰动并取多次因果发现结果的 union 置信集,解决了同一数据用于图选择与效应估计导致的经典区间失效问题,其理论保证是 union 置信集对固定总体因果参数具有渐近正确覆盖率。On the consistency of bootstrap for matching estimators 则从理论层面澄清了匹配估计中 naive bootstrap 一致性的条件:当匹配数 M 趋于无穷时,偏置项消失,估计量恢复 n^{-1/2}-CAN 性质,bootstrap 一致性随之成立。Bounds on causal effects in 2^K factorial experiments with noncompliance 在非依从性因子实验中,利用 IV 框架和线性规划推导了 CATE 的部分识别界,放宽了多因子单调性等强假设。Planning for gold: Hypothesis screening with split samples 在 Rosenbaum 敏感性分析框架下,通过样本分割策略在多重结局中实现有效筛选与检验,严格控制 Type I error 并提升对隐藏偏差的检验功效。Structural restrictions in local causal discovery 则从识别理论角度,证明在特定生成过程假设下目标变量的直接原因集合可从分布唯一确定,并给出有限样本算法。
在假设检验主线中,Model-free selective inference under covariate shift via weighted conformal p-values 提出了加权共形选择程序,在仅已知协变量密度比的条件下,对缺失响应的测试单元实现有限样本 FDR 控制,无需分布假设或预测模型限制。Higher criticism for rare and weak non-proportional hazard deviations in survival analysis 在右删失生存数据中,基于大量精确超几何检验的 p 值构造 HC 统计量,证明其检验功效区域大于 log-rank 检验,且相变边界与 rare-and-weak 设定一致。Leveraging external data for testing experimental therapies with biomarker interactions 利用外部数据构造 permutation test,在允许未测量混杂等差异的条件下提升子群特异性治疗效应检验的功效,并证明其最优性。Uniform inference in linear mixed models 针对协方差矩阵处于参数空间边界时的非标准推断问题,给出了 score 函数线性组合密度的 finite-sample 近似与 Berry-Esseen 型误差界。A frequentist local false discovery rate 定义了频率学派版本的局部假发现率,避免了 Bayesian 先验依赖,并证明其在加权分类损失下给出最优可分离拒绝规则。Harnessing the collective wisdom: fusion learning using decision sequences 将各研究的二元决策转化为 compound e-values,实现异质元分析场景下的 FDR 控制,仅依赖决策序列即可操作。
与因果推断方向最贴合的论文包括:Post-selection inference for causal effects after causal discovery(后选择推断)、On the consistency of bootstrap for matching estimators(匹配估计的 bootstrap 理论)、Bounds on causal effects in 2^K factorial experiments with noncompliance(因子实验非依从性界)、Planning for gold: Hypothesis screening with split samples(敏感性分析与多重检验)、Structural restrictions in local causal discovery(局部因果识别)、以及 Proximal indirect comparison(proxy 驱动的间接比较)。与半参数效率方向相关的有:Identification and estimation of interaction effects in nonparametric additive regression(正交化交互效应)、Spatial self-confounding(光滑度失配偏差)、以及 Regression graphs and sparsity-inducing reparameterizations(重参数化稀疏性)。与高维方向最相关的包括:High-dimensional covariance estimation by pairwise likelihood truncation(配对似然截断)和 Sparse higher-order partial least squares(稀疏张量 PLS)。
因果推断 (causal_inference, 5 篇)¶
1. 10.1093/biomet/asaf073 — Post-selection inference for causal effects after causal discovery¶
- 作者: Ting-Hsuan Chang, Zijian Guo, Daniel Malinsky
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 9/10 · novelty:
new_method - 摘要: 在约束型因果发现(如 PC 算法选 DAG)框架下,目标是对真实因果效应(ATE)构造有效的 post-selection 置信集——同一数据既用于图选择又用于效应估计会导致经典区间失效,且若选错图则推断对象可能偏离真实因果参数。本文提出 resampling-and-screening 程序:对中间条件独立性检验统计量施加随机扰动,多次运行因果发现,收集所有被选中图对应的估计与区间,取其 union 构成最终置信集。核心理论保证是该 union 置信集对固定总体因果效应参数具有渐近正确覆盖率,而非对数据依赖的 selected functional 覆盖。方法模块化,可适配其他 CI-based 发现算法与非高维分布族。对您而言,这篇论文直接触及因果推断中 identification uncertainty 下的估计与推断问题,且 union-of-intervals 的构造思路与假设检验的多重比较视角天然相连。
- 关键技术:
post-selection inference,resampling and screening procedure,PC algorithm for DAG discovery,union of confidence sets,conditional independence tests,coverage for fixed population parameter - 为什么对您有用: 本文直击因果推断 identification 子方向的核心难题:图结构不确定时如何对真实 ATE 做有效推断,而非对 selected functional 做推断——这比单纯 sensitivity analysis 更根本。用您 moderately_familiar 的「identification theory in causal inference」可以审视其 union 置信集是否在 selection uncertainty 下仍逼近 semiparametric efficiency bound,或是否存在可改进的效率损失。中期可做:需先在 moderately_familiar 的「semiparametric theory」上长肌肉,具体是 post-selection 下 efficiency bound 的推导与 debiased ML 的适配,才能判断 union 方案是否效率最优或可提出更紧的估计策略。
2. 10.1093/biomet/asag005 — On the consistency of bootstrap for matching estimators¶
- 作者: Ziming Lin, Fang Han
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 8/10 · novelty:
new_theory - 摘要: 在匹配估计框架下,研究目标是 ATE 的 naive bootstrap 一致性。Abadie & Imbens (2008) 证明固定匹配数 M 时 naive bootstrap 不一致;本文证明当 M → ∞ 时,naive bootstrap 对原始匹配估计量恢复一致。核心机制:固定 M 下匹配估计量含 n^{-k/2} 偏置项导致非标准收敛,bootstrap 无法捕捉;M 增大后偏置项消失,估计量恢复 n^{-1/2}-CAN 性质,bootstrap 一致性随之成立。理论通过精确刻画 influence function 与偏置阶数完成。对您有用:直接连接因果推断匹配估计的效率理论与推断方法。
- 关键技术:
matching estimator,bootstrap consistency,influence function,bias correction,n^{-1/2}-CAN - 为什么对您有用: 直接连接因果推断中匹配估计的推断理论(primary interest 的 estimation theory in causal inference)。用 very_familiar 的 M-estimation theory 与 influence function 工具即可验证其偏置阶数论证。立即可做:用 minimax bound 检查 M 增长速度与效率界的关系。
3. 10.1093/biomet/asaf084 — Bounds on causal effects in $ 2^{K} $ factorial experiments with noncompliance¶
- 作者: M Blackwell, N E Pashley
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 8/10 · novelty:
new_theory - 摘要: 在 2^K 因子实验设定下,当存在非依从性时,complier average treatment effect (CATE) 无法被点识别。本文在 bounded outcome 假设下,利用工具变量 (IV) 框架,放宽对随机化如何影响 treatment uptake 的强假设(如多因子 monotonicity / exclusion restriction 的强化版),推导出 CATE 的部分识别界。核心机制是将多因子非依从性结构映射为 IV 局部平均处理效应的扩展,通过线性规划与 Fréchet bounds 等优化手段刻画 bounds 的 sharpness。主要理论结果给出了在 milder noncompliance assumptions 下的闭式或可计算 bounds,并讨论了界宽随因子数 K 增长的行为。对您可能有用:此文的 partial identification + IV 在多因子设定下的结合,直接连接到 causal inference 的 IV 与 sensitivity analysis 子方向。
- 关键技术:
instrumental variables,partial identification / bounds,complier average treatment effect,factorial experiments,Fréchet bounds,noncompliance - 为什么对您有用: 直接连接到 causal inference 的 IV 与 sensitivity/partial identification 子方向:本文在多因子 IV 设定下放宽 monotonicity 等强假设推导 CATE bounds,与您熟悉的 identification theory 和 estimation theory 在 causal inference 中的工作高度契合。用您 very_familiar 的 minimax bounds / estimation theory 工具,可以审视其 bounds 的 sharpness 或构造更优 estimator——立即可做。
4. 10.1093/biomet/asaf078 — Planning for gold: Hypothesis screening with split samples for valid powerful testing in matched observational studies¶
- 作者: William Bekerman, Abhinandan Dalal, Carlo del Ninno, Dylan S Small
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 8/10 · novelty:
new_method - 摘要: 在匹配观察性研究的 Rosenbaum 敏感性分析框架下,本文解决多重结局中未知数量受处理影响时的假设筛选与有效检验问题。核心方法采用样本分割策略:规划样本用于探索性筛选对隐藏偏差更具鲁棒性的假设,分析样本用于保证推断有效性。该 split-sample 机制避免了选择性偏差,在 Rosenbaum Γ-sensitivity model 下严格控制 Type I error,同时提升在允许未测量混杂水平下的检验功效。模拟结果表明在较高 Γ 值下功效提升尤为显著,并在孟加拉国洪水多维影响的流行病学应用中验证了方法实用性。对您有用:本文直接连接因果敏感性分析与多重假设检验的交叉点,为 Rosenbaum 框架下的 power-maximization 提供了新视角。
- 关键技术:
Rosenbaum sensitivity analysis,split-sample hypothesis screening,matched observational studies,multiple testing under hidden bias,power maximization under confounding - 为什么对您有用: (1) 点名连接到因果推断中的 sensitivity analysis (Rosenbaum Γ-model) 以及数学统计中的 hypothesis testing (selection-adjusted power & validity)。(2) 武器库中的 "estimation theory in causal inference" 可以用来审视其 split-sample 下检验统计量的渐近分布,评估是否能用 semiparametric efficiency bound 进一步优化其 power。(3) 中期可做:需先在 moderately_familiar 的 "identification theory in causal inference" 上长肌肉(具体指 Rosenbaum sensitivity model 的 sharp null vs weak null 边界理论),以评估该方法在连续型结局与 semiparametric 估计器下的推广潜力。
5. 10.1093/biomet/asaf042 — Structural restrictions in local causal discovery: identifying direct causes of a target variable¶
- 作者: Juraj Bodik, Valérie Chavez-Demoulin
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 7/10 · novelty:
new_theory - 摘要: 本文研究从单一观测环境的联合分布中识别目标变量的直接原因集合(局部因果结构),而非恢复完整 DAG。核心设定是:仅对目标变量的数据生成过程施加结构假设(如非线性 Gaussian 等),对其他变量几乎不加假设,从而放宽了全局 DAG 可识别性所需的强条件。作者给出了若干新的可识别性定理,证明在特定生成过程假设下直接原因集合可从分布唯一确定;同时提出两种有限样本估计算法并在基准与真实数据上验证。对您有用:直接推进了因果推断 identification theory 的局部设定,与您 moderately_familiar 的 identification theory 工具高度对接。
- 关键技术:
local causal discovery,identifiability without interventions,structural restrictions on target variable,nonlinear Gaussian data-generating process,direct causes estimation algorithm - 为什么对您有用: (1) 直接连接到您 primary interest 中 causal inference 的 identification theory 子方向——局部因果结构的可识别性是全局 DAG identification 的自然放松;(2) 您 moderately_familiar 的 identification theory in causal inference 可以直接用来审视本文的可识别性条件是否可进一步弱化或推广到 longitudinal/mediation 设定;(3) 中期可做:需先在 moderately_familiar 的 identification theory 上长肌肉(特别是将局部 identification 结果与您熟悉的 semiparametric estimation theory 结合,构造局部因果 discovery 的 efficient estimator)。
高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶
1. 10.1093/biomet/asaf087 — High-dimensional covariance estimation by pairwise likelihood truncation¶
- 作者: A. Casa, D Ferrari, Z Huang
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 5/10 · novelty:
new_method - 摘要: 在高维稀疏协方差矩阵估计设定下(维度 p 可随样本量 n 指数增长),本文提出通过截断配对似然(pairwise likelihood)实现高效估计。核心机制:最小化配对似然得分与全似然得分之间的 L2 距离以筛选有信息的配对似然项,辅以 L1 惩罚抑制无信息项;与现有正则化方法不同,该准则选择整个配对似然对象而非收缩单个协方差参数,从而保持估计方程的无偏性。理论结果:所得估计量一致且收敛至 oracle MLE(假设已知非零协方差位置),即使维度指数增长仍成立。对您有用:L2 得分距离截断思路与 efficiency theory 中比较 score/influence function 的视角直接相通,且高维协方差稀疏估计是您高维统计兴趣的一个具体子方向。
- 关键技术:
pairwise likelihood truncation,L2 score distance criterion,L1 penalty on pairwise terms,oracle maximum likelihood estimator,sparse covariance estimation,unbiased estimating equations - 为什么对您有用: 直接连接您的高维统计兴趣中协方差估计子方向;L2 得分距离截断准则本质上是在配对似然与全似然之间做 score-level 的投影选择,这与您 moderately_familiar 的 semiparametric efficiency theory(比较 influence function / score)有明确接口,可用 minimax bound 视角审视其声称的 oracle rate 是否紧。中期可做:需先在 moderately_familiar 的 M-estimation theory 上补强 composite/pairwise likelihood 的 misspecified likelihood 文献,再结合 very_familiar 的高维渐近理论展开。
2. 10.1093/biomet/asaf082 — Sparse higher-order partial least squares for simultaneous variable selection, dimension reduction and tensor denoising¶
- 作者: Kwangmoon Park, Sündüz Keleş
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 5/10 · novelty:
new_method - 摘要: 在 tensor-response PLS 模型 Y = B ×₁ X + F 下,目标是估计稀疏低秩 PLS 系数张量 B 并识别其 active entries,设定为高维 regime(d₁ 与 ∏d_m 均快于 n 增长)。作者指出已有 tensor PLS estimator(Zhao et al., 2012)在此高维 regime 下无法保证一致性,因此提出 sparse higher-order PLS estimator 及配套算法,通过稀疏约束同时实现 variable selection、dimension reduction 与 tensor denoising。理论贡献为在高维 regime 下建立了估计量的渐近一致性保证;模拟与 single-cell Hi-C 数据应用验证了方法优于 baseline。对您有用:tensor-response 回归的估计理论与您 higher-order U-statistics 的 tensor contraction / einsum 视角有直接技术连接,高维一致性分析也触及 minimax rate 问题。
- 关键技术:
sparse partial least squares,tensor-response regression,high-dimensional consistency,tensor mode-1 product,variable selection via sparsity,PLS dimension reduction - 为什么对您有用: 本文连接到高维统计中 tensor regression 的 estimation theory,以及 statistical computing 中 tensor 运算的算法设计。您 very_familiar 的 'computation of higher-order U-statistics (treewidth / tensor contraction / einsum)' 可直接用来分析该 PLS 算法中张量收缩的计算复杂度,或用 minimax bounds 验证其声称的一致性 rate 是否紧。中期可做:需先在 moderately_familiar 的 'M-estimation theory' 上长肌肉,以深入分析 sparse PLS estimator 的渐近理论细节(如 penalty 对 influence function 的影响)。
非参数 / 半参数 (nonparam_semipara, 6 篇)¶
1. 10.1093/biomet/asaf074 — Identification and estimation of interaction effects in nonparametric additive regression¶
- 作者: Seung Hyun Moon, Byeong U Park, Enno Mammen, Young Kyung Lee
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 7/10 · novelty:
new_method - 摘要: 本文在非参数可加回归框架下提出了一种新的交互效应建模方式,目标是识别并估计与主效应 L²-正交的交互项,从而将无法由主效应解释的联合效应干净地分离出来。估计方法基于对交互项施加 L²-正交约束后进行核/sieve 回归,理论部分在温和技术条件下推导了主效应与交互效应估计量的渐近 L² 收敛速率。数值部分通过模拟与真实数据验证了正交化交互效应估计的实用性。对您可能有用:该正交化交互效应的 identification 思路可直接迁移到因果推断中 mediation/IV 的交互分解问题,且其 L²-正交约束与 semiparametric efficiency theory 中 orthogonal score 的构造有结构相似性。
- 关键技术:
L²-orthogonal interaction decomposition,nonparametric additive regression,kernel/sieve estimation,asymptotic L² convergence rates,interaction effect identification - 为什么对您有用: 本文直接连接到非参数/半参数理论(primary interest)中的可加模型交互效应 identification 与估计,其 L²-正交约束构造与您熟悉的 semiparametric orthogonal score / influence function 思路同构,可用 minimax bound 验证其声称的收敛速率是否紧。follow-up 判断:立即可做——用 very_familiar 的 nonparametric statistics 与 minimax bounds 工具即可检验其速率最优性,并尝试将正交交互分解嵌入 causal mediation 的 identification 框架。
2. 10.1093/biomet/asag002 — Generalized Fréchet means with random minimizing domains and its strong consistency¶
- 作者: Jaesung Park, Sungkyu Jung
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 4/10 · novelty:
new_theory - 摘要: 本文提出广义 Fréchet 均值(generalized Fréchet mean)框架,将随机元素的特征描述统一为代价函数最小化问题,estimand 为广义 Fréchet 均值,核心 regularity 假设涉及代价函数的凸性与度量空间的完备性。框架的关键创新在于允许经验广义 Fréchet 均值的最小化域是随机的、且可与总体最小化域不同,从而涵盖文献中多种 Fréchet 均值扩展。作者基于 M-estimation 理论建立了强一致性定理,并将框架应用于超球面上的 principal geodesic analysis 以验证一致性。对您而言,本文的随机最小化域设定与 M-estimation consistency 理论直接对接您 moderately_familiar 的 M-estimation 与 nonparametric statistics 武器库。
- 关键技术:
generalized Fréchet mean,random minimizing domain,M-estimation strong consistency,principal geodesic analysis,metric space statistics - 为什么对您有用: 本文连接到您 nonparametric statistics 与 M-estimation theory 这两项 moderately_familiar 武器——随机最小化域的一致性证明是经典 M-estimation 在非欧空间上的推广,技术路线您可跟进。但本文不涉及 efficiency bound、higher-order influence function 或高维推断,与您核心 interest 的直接推进有限。follow-up 判断:中期可做——若想在此方向深挖,需先在 M-estimation theory 的非欧一致性证明上长肌肉(点名:metric space 上 empirical process 的 Glivenko-Cantelli 条件),但当前武器库足以读懂主定理;不建议优先展开全文阅读。
3. 10.1093/biomet/asaf076 — Spatial self-confounding: smoothness-related estimation bias in spatial regression models¶
- 作者: David Bolin, Jonas Wallin
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 4/10 · novelty:
new_theory - 摘要: 在空间回归模型(Y = Xβ + Gauss随机场残差)中,研究协变量光滑度失配对GLS估计量的影响,渐近框架为infill asymptotics。核心发现:当协变量相对于空间随机场过于粗糙时,即使X与Y高度相关,β的GLS估计仍可随观测数增加收敛至零;在另一些条件下估计可发散至无穷——两种极端行为均导致科学结论错误。提出对协变量预加光滑步骤(smoothing step),理论与实证均证明可修正偏差。在温度-降水真实数据中观察到收敛至零与发散两种现象。对您有用:光滑度失配引起的估计偏差本质上是非参数misspecification bias问题,与inverse problems with random noise中smoothness条件对估计稳定性的角色有结构相似性。
- 关键技术:
infill asymptotics,generalized least-squares under misspecification,Gaussian random field smoothness,spatial self-confounding,covariate pre-smoothing,Matérn covariance - 为什么对您有用: 本文揭示的smoothness-misspecification bias连接到您very_familiar的非参数统计与inverse problems with random noise中smoothness条件对估计稳定性的影响,可直接用minimax bound工具分析所提smoothing步骤是否达到最优率。中期可做:若要深入空间infill渐近理论,需在moderately_familiar的M-estimation theory上补充infill asymptotics下GLS的专门概率工具(如Matérn场谱表示),但核心偏差结构分析可立即着手。
4. 10.1093/biomet/asaf071 — Regression graphs and sparsity-inducing reparameterizations¶
- 作者: J Rybak, H S Battey, K Bharath
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 3/10 · novelty:
new_theory - 摘要: 在协方差/图模型设定下,研究正定约束如何限制稀疏性的合法显现,以及自然参数尺度上的结构如何与重参数化后的稀疏性相互诱导。发现四种诱导结构,其中最丰富的一种在因果排序下由 Wermuth & Cox (2004) 的联合响应图生成,为近似零提供因果解释:若相对直接的回归效应可忽略且其余效应仅通过长路径显现,则两变量间关系被声明为零。利用一般线性群的 Iwasawa 分解结合图模型解释,指向链图模型的一类重参数化,无向图与 DAG 为其特例。模拟研究探索了重参数化有益的参数区域。对您可能有用:正定约束下重参数化的稀疏性结构分析直接关联因果推断识别理论(因果排序与 DAG/链图)以及半参数效率理论中参数化约束的处理。
- 关键技术:
Iwasawa decomposition,joint-response graphs,chain-graph models,sparsity-inducing reparameterization,positive definiteness constraints,causal ordering - 为什么对您有用: 本文连接因果推断识别理论(因果排序、DAG/链图模型)与半参数理论(正定约束下重参数化),研究者 moderately_familiar 的 identification theory in causal inference 可作为切入点——因果排序与联合响应图的部分可直接对接。但 Iwasawa 分解(Lie 群工具)不在武器库中,是消化核心理论的关键缺口。中期可做:需先补充 Lie 群/Iwasawa 分解基础知识,再结合 identification theory 探索重参数化对因果图识别与估计效率的影响。
5. 10.1093/biomet/asaf086 — Geodesic optimal transport regression¶
- 作者: Changbo Zhu, Hans-Georg Müller
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 2/10 · novelty:
new_method - 摘要: 在一般 geodesic metric space 设定下,本文研究 predictors 与 responses 均为非欧随机对象时的多元回归问题,目标 estimand 为沿 geodesic 的最优传输映射。核心方法是将分布空间上的 optimal transport 推广为 optimal geodesic transport,定义传输沿 geodesic 进行,从而将经典多元回归扩展至非欧空间。该模型统一涵盖了具有 2-Wasserstein 距离的一维分布空间、具有 Fisher-Rao metric 的多维分布(表示为 Hilbert sphere 上的数据)、以及有限维 Riemannian manifold(如球面、SPD 矩阵)上的数据。估计依赖于 geodesic metric space 上的 Fréchet / M-estimation 原理,通过最小化 geodesic distance 惩罚来求解 transport 参数。实证分析展示了夏季温度分布与人类死亡率数据的回归预测效果。对您在非参数理论(metric space 上的 M-estimation 收敛性)和统计计算(manifold 上的数值优化与 transport 计算)方向有直接参考意义。
- 关键技术:
geodesic optimal transport,non-Euclidean regression,Wasserstein space,Fisher-Rao metric,Riemannian manifold M-estimation,Hilbert sphere - 为什么对您有用: 本文连接到您 primary interest 中的非参数理论(metric space 上的 regression 估计)与统计计算(manifold 上的数值优化)。您武器库中的 M-estimation theory (moderately_familiar) 可用于分析其 estimator 的 geodesic 收敛性质,software development (very_familiar) 可支撑 manifold transport 的算法实现。中期可做:若要深入探讨此类非欧回归的 minimax rate 或 semiparametric efficiency bound,需先在 moderately_familiar 的 M-estimation theory 上长肌肉,补充 geodesic convexity 与 Fréchet regression 的收敛分析工具。
6. 10.1093/biomet/asaf077 — Extremal correlation coefficient for functional data¶
- 作者: M Kim, P Kokoszka
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 2/10 · novelty:
new_method - 摘要: 本文在 Banach 空间正则变差框架下,提出一种衡量函数数据间极端相依性的新系数,目标 estimand 为函数样本对的 extremal correlation coefficient。该系数在性质上类似 Pearson 相关系数,但专门针对曲线间依赖且仅聚焦极端曲线;其估计量基于半参数正则变差理论构造,作者证明了估计量的相合性并给出渐近分析。模拟与金融、气候函数数据实证展示了方法的有效性。对您可能有用:若您关注高维/函数数据的极值相依结构或半参数渐近理论,此系数的 Banach 空间正则变差推导提供了新的非参数 estimand 与估计框架。
- 关键技术:
regular variation in Banach spaces,extremal dependence measure,functional data extremal correlation,consistent estimation,asymptotic analysis - 为什么对您有用: 本文连接到非参数/半参数理论子方向,Banach 空间正则变差框架下的渐近分析属于您 very_familiar 的高维渐近与非参数统计范畴。用您熟悉的 minimax bound 工具可验证该估计量的收敛率是否达到最优;若想深入,需在 moderately_familiar 的半参数理论上补充正则变差极限定理的细节。中期可做:需先在 moderately_familiar 的半参数 M-estimation 理论上长肌肉以处理 Banach 空间正则变差的渐近展开。
数理统计 / 假设检验 (hypothesis_testing, 7 篇)¶
1. 10.1093/biomet/asaf075 — Higher criticism for rare and weak non-proportional hazard deviations in survival analysis¶
- 作者: A Kipnis, B Galili, Z Yakhini
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 7/10 · novelty:
new_theory - 摘要: 在右删失生存数据设定下,目标是检验两组生存函数在未知且稀少的时间段内是否存在非比例风险偏离(rare and weak non-proportional hazard deviations)。作者基于大量精确超几何检验的 p 值构造 higher criticism (HC) 统计量,形成一种对稀疏-微弱信号敏感的检验方法。理论部分在稀疏度与强度参数平面上刻画了检验的渐近功效相变,证明 HC 检验的 full-power 区域大于 log-rank 检验的对应区域,且相变边界与两样本 rare-and-weak 正态/泊松均值设定下的 HC 相变一致。模拟与基因表达数据实证表明该方法在非比例风险偏离下显著优于 log-rank 及其变体。对您有用:本文将 HC 的 rare-and-weak 相变理论拓展至删失生存数据,直接连接您对 hypothesis testing 与 higher-order U-statistics 的兴趣。
- 关键技术:
higher criticism of p-values,exact hypergeometric test,asymptotic power phase transition,rare and weak signal detection,non-proportional hazards,right-censored survival data - 为什么对您有用: 本文直接连接您 primary interest 中的 hypothesis testing 子方向,将 higher criticism 的 rare-and-weak 相变框架从正态/泊松均值设定拓展至删失生存数据,给出了明确的渐近功效相变边界与 full-power 区域对比。您武器库中 very_familiar 的 minimax bounds 与 moderately_familiar 的 higher-order U-statistics 理论可直接切入:HC 统计量本质上是 p 值序列的极值型统计量,其渐近分布与功效分析可借助 U-statistic projection 或 empirical process 工具进一步精细化。follow-up 判断:立即可做——用您熟悉的 minimax 与 U-stat 工具验证其相变边界是否紧,或探索 HC 在其他删失机制下的拓展。
2. 10.1093/biomet/asaf066 — Model-free selective inference under covariate shift via weighted conformal p -values¶
- 作者: Ying Jin, Emmanuel J Candès
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 7/10 · novelty:
new_method - 摘要: 在协变量偏移(covariate shift)设定下,研究如何对缺失响应的测试单元进行无模型假设的选择性推断,estimand为被选单元中虚假发现的占比(FDR),核心假设仅要求训练与测试数据的协变量分布有已知密度比。利用任意预测模型构造加权共形p值(weighted conformal p-values),保证Type-I error有限样本校准;但这些p值不满足PRDS正依赖条件,无法直接套用经典BH程序。为此提出加权共形选择(weighted conformal selection)新程序,在有限样本下控制FDR,无需分布假设或预测模型限制。方法进一步推广至多重个体处理效应推断与分布偏移下的异常检测。模拟与实证覆盖因果推断、药物发现和异常检测数据集。对您有用:选择性推断与FDR控制直接关联hypothesis testing方向;协变量偏移下的个体处理效应推断与causal inference的estimation问题有交叉,但本文走model-free路线而非semiparametric efficiency路线。
- 关键技术:
weighted conformal p-values,selective inference,false discovery rate control,covariate shift,PRDS property,individual treatment effects - 为什么对您有用: 连接到hypothesis testing中的selective inference / multiple testing方向,以及causal inference中的个体处理效应推断。researcher的nonparametric statistics和estimation theory in causal inference武器可以审视本文在协变量偏移下的效率问题——conformal方法虽model-free但可能牺牲效率,用semiparametric efficiency bound可量化这一gap。中期可做:需先在moderately_familiar的semiparametric theory上长肌肉,才能将covariate shift下的选择性推断嵌入效率理论框架,评估model-free与efficient之间的tradeoff。
3. 10.1093/biomet/asaf047 — Leveraging external data for testing experimental therapies with biomarker interactions in randomized clinical trials¶
- 作者: B Ren, F Ferrari, S Fortini, S Ventz, L Trippa
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 7/10 · novelty:
new_method - 摘要: 在随机临床试验中,针对实验疗法在不同生物标志子群中可能存在异质性效应的情况,本文研究如何利用外部数据(既往试验与电子病历)提升检验功效。目标是在试验结束时检验零假设:实验疗法对任何子群均无改善,estimand 为子群特异性治疗效应的全局零假设。核心方法是一个 permutation test,通过外部数据构造更优的 test statistic 以提升功效,同时严格控制 type I error 于 α 水平,且不要求外部数据与试验数据同分布——允许未测量混杂、不同预处理分布等差异。理论部分证明该 permutation test 在可解释的最优性准则下达到最优,并给出渐近结果与模拟验证;实证部分使用胶质母细胞瘤多试验个体患者数据做回顾分析。对您有用:本文将外部数据整合进 permutation framework 以放宽分布假设并提升功效,直接连接 hypothesis testing 与 causal inference 中的异质性效应检验设定。
- 关键技术:
permutation test,heterogeneous treatment effect testing,external data integration,type I error control under distribution shift,optimality criterion for permutation tests,subgroup analysis - 为什么对您有用: 本文连接 hypothesis testing(primary)与 epidemiology/clinical trial(secondary)的异质性因果效应检验设定。技术武器库中 minimax bounds 与 M-estimation theory 可用于审视其声称的 optimality criterion 是否紧、type I error bound 的渐近展开是否可进一步 sharpen。立即可做:用 very_familiar 的 minimax theory 检查其 optimality 声称的紧性;中期可做:若想将此 permutation framework 推广到 semiparametric efficiency bound 框架下比较功效,需先在 moderately_familiar 的 semiparametric theory 上长肌肉。
4. 10.1093/biomet/asaf079 — Uniform inference in linear mixed models¶
- 作者: Karl Oskar Ekvall, Matteo Bottai
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 5/10 · novelty:
new_theory - 摘要: 在 linear mixed models (LMM) 下,目标是当 covariance matrix 趋近或处于参数空间边界(singular / near-singular)时,对 random effects 的 variance-covariance 参数做 uniform inference。现有 likelihood-ratio / score 理论在边界处失效(非标准正态、chi-bar-square),本文构造了 score function 线性组合密度的 finite-sample 近似,给出与标准正态密度的定量误差界(Berry-Esseen 型),从而可评估所需样本量。该 uniform bound 进一步允许参数个数与 random effects 个数随样本量增长(diverging crossed random effects),扩展了传统固定维度渐近理论。模拟显示所提 confidence region 在 variance 近零或 correlation 近 ±1 时仍保持近 nominal coverage,且实现简单。对您有用:直接触及 hypothesis_testing 与 semiparametric 边界推断的交叉——boundary / singular 参数的 uniform distribution approximation 是您做高维/半参数检验时可能遇到的同类技术难题。
- 关键技术:
uniform distribution approximation,Berry-Esseen-type bound,boundary of parameter space,score function linear combinations,crossed random effects,finite-sample inference - 为什么对您有用: 连接到 hypothesis_testing 子方向中 boundary / singular 参数的 uniform inference 问题,这是高维半参数检验中常见的非标准渐近难题。用您 very_familiar 的 minimax bounds 与 moderately_familiar 的 M-estimation theory 可以分析该 score-based bound 在更一般 semiparametric 模型下的可推广性。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将此 finite-sample Berry-Esseen 界推广到您关心的 semiparametric / high-dimensional 边界推断场景。
5. 10.1093/biomet/asaf091 — Characteristic-function-based tests for spatial randomness¶
- 作者: Yiran Zeng, Dale L Zimmerman
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 4/10 · novelty:
new_method - 摘要: 本文在任意维矩形/立方体区域上的映射点模式中,提出首个基于特征函数的完全空间随机性(CSR)检验。核心检验统计量是经验特征函数与均匀特征函数之间的加权L2距离,采用Cauchy权重函数,无需边缘效应校正。该统计量与Ripley's K-function及Zimmerman的ω²统计量存在结构性联系,揭示了特征函数视角与经典summary statistic的等价通道。作者开发了高效算法计算Cauchy权重下检验统计量的渐近零分布,避免了permutation/bootstrap的计算负担。不同尺度参数的检验可通过Bonferroni校正组合为omnibus检验,在大样本下对异质性、聚集性和规则性的power优于L-test和Clark-Evans test。对您有用:特征函数作为非参数工具在hypothesis testing中的系统性应用,以及渐近零分布的解析计算路径,连接到您在hypothesis testing和statistical computing的兴趣。
- 关键技术:
empirical characteristic function,weighted L2 distance,Cauchy weight function,asymptotic null distribution computation,Ripley K-function connection,Bonferroni omnibus test - 为什么对您有用: 本文直接连接到您在mathematical statistics (hypothesis testing)的兴趣——基于特征函数构造CSR检验是hypothesis testing中的新路径,加权L2距离的渐近理论触及nonparametric statistics。用您very_familiar的nonparametric statistics和minimax bounds可以分析该检验在特定替代假设类上的检测阈值与最优率。Follow-up判断:中期可做——需先补充spatial point process替代模型(如Poisson cluster / Gibbs point process)的领域知识,再用minimax工具分析该特征函数检验的局部power性质与效率界。
6. 10.1093/biomet/asaf083 — A frequentist local false discovery rate¶
- 作者: Daniel Xiang, Jake A Soloff, William Fithian
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 4/10 · novelty:
new_theory - 摘要: 本文在多重检验框架下定义了频率学派版本的局部假发现率(frequentist local FDR),避免了 Efron 等人 Bayesian lfdr 对先验的依赖。核心 estimand 是在样本空间每一点上零假设为真的相对频率;对连续检验统计量 t,frequentist lfdr(t) 即给定观察 t 时零假设为真的条件概率。作者证明该量保留了 Bayesian lfdr 的关键性质:在加权分类损失(Type I 误差权重 λ 倍于 Type II)下,阈值 1/(1+λ) 给出最优可分离拒绝规则,且这些性质不要求检验统计量独立。估计方面,可用参数或非参方法高效估计 frequentist lfdr,并在独立假设下有限样本控制一个密切相关的误差准则。与 FDR 度量拒绝区域平均质量不同,frequentist lfdr 揭示拒绝区域内部质量变异,提供更细粒度分析。对您可能有用:本文为多重检验的 decision-theoretic 最优性提供了纯频率视角,与您 hypothesis testing 和 semiparametric efficiency 的兴趣直接相连。
- 关键技术:
frequentist local false discovery rate,weighted classification loss,separable rejection rule,conditional probability of null truth,nonparametric density estimation,finite-sample error control - 为什么对您有用: 直接连接您 hypothesis testing 子方向:本文将 Bayesian lfdr 的 decision-theoretic 最优性移植到频率框架,且不依赖独立性,这对多重检验理论是实质性推进。您 very_familiar 的 nonparametric statistics 和 minimax bounds 可直接用于分析其非参估计的收敛率,判断声称的“高效估计”是否达到 minimax optimal。立即可做:用 minimax bound 验证其非参 lfdr 估计率的紧性,或用 semiparametric efficiency bound 评估该 estimand 的最优估计极限。
7. 10.1093/biomet/asaf080 — Harnessing the collective wisdom: fusion learning using decision sequences from diverse sources¶
- 作者: Trambak Banerjee, Bowen Gang, Jianliang He
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 3/10 · novelty:
new_method - 摘要: 在多重检验融合设定下,目标是从多个独立研究的二元决策(拒绝/接受)序列中整合证据,同时控制整体 FDR。核心创新是将各研究的二元决策转化为 compound e-values,从而在部分研究仅报告拒绝集、其余报告汇总统计量的异质元分析场景下实现融合推断。理论证明:只要各单项研究维持各自的 FDR 水平,融合后的整体 FDR 即可被控制;方法不要求原始 p-value 或完整数据,仅依赖决策序列即可操作。对您可能有用:该框架为跨研究因果推断敏感性分析(如多站点 IV/proximal CI 的决策融合)提供了 FDR-controlled 的组合机制。
- 关键技术:
compound e-values,multiple testing fusion,false discovery rate control,meta-analysis of decision sequences,integrative ranking and thresholding - 为什么对您有用: 直接连接到 hypothesis testing 子方向,特别是多重检验在多源数据融合中的 FDR 控制;用 very_familiar 的高维渐近工具可以分析 compound e-value 在不同依赖结构下的 power 性质。立即可做:用 minimax bound 验证该框架在稀疏信号设定下的 rate 是否紧,并探索与 proximal CI 多站点决策融合的接口。
统计计算 / 算法 (stat_computing, 2 篇)¶
1. 10.1093/biomet/asaf081 — Thinning a Wishart random matrix¶
- 作者: A Dharamshi, A Neufeld, L L Gao, D Witten, J Bien
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 8/10 · novelty:
new_method - 摘要: 在 data thinning(样本划分的推广)框架下,本文解决仅基于样本均值与样本协方差矩阵(服从 Wishart 分布)生成独立高斯数据矩阵的问题,目标是在隐私约束下仅从汇总统计量实现 train-test 划分。核心方法是提出一种将 Wishart 随机矩阵分解为具有独立同分布高斯行的矩阵平方根的算法。该算法可从样本协方差矩阵生成多个独立的 N_p(μ,Σ) 数据矩阵,这些矩阵可直接用于 train-test 范式或生成独立汇总统计量,且能无损重组回原始统计量。此结果填补了 Wishart 分布无法 thinning 的空白,关键技术创新在于 Wishart 矩阵的精确随机平方根分解。对您可能有用:该算法涉及 Wishart 矩阵的分解与随机矩阵理论,直接连接您的高维统计(RMT)与统计计算(数值算法)兴趣,并为隐私约束下的高维推断提供了新视角。
- 关键技术:
Wishart distribution,data thinning,matrix square root decomposition,sample splitting from summary statistics,privacy-constrained inference - 为什么对您有用: (1) 直接连接您的高维统计(Wishart 矩阵的 RMT 性质)与统计计算(矩阵分解算法)这两个具体 primary interest 子方向。(2) 武器库中的 "high-dimensional asymptotics" 和 "software development"(矩阵运算)可以直接攻这篇 paper 的算法实现口子,验证该 Wishart 分解在高维 p≫n 设定下的数值稳定性与极限行为。(3) 立即可做:用 very_familiar 的矩阵计算与高维渐近理论工具复现算法并探索高维扩展。
2. 10.1093/biomet/asaf057 — Decomposing Gaussians with unknown covariance¶
- 作者: A Dharamshi, A Neufeld, L L Gao, J Bien, D Witten
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 4/10 · novelty:
new_method - 摘要: 在 multivariate Gaussian 数据的信息分解(替代 sample splitting 以实现有效推断)问题中,当 covariance matrix 未知时,目标是将数据信息划分为独立或可处理的依赖部分。作者提出一个通用分解算法,将所有先前已知 covariance 下的 Gaussian 分解方法统一为特例,并在 n>1 时处理未知 covariance,提供比传统 sample splitting 更灵活的替代。当 n=1 时,他们证明在未知 covariance 下不可能将信息划分为独立部分(impossibility result),因此转而构造具有 tractable conditional distribution 的依赖分解,并自然推广至 Gaussian processes。模拟与 EEG 数据中应用于 model selection 和 post-selection inference。对您可能有用:该分解算法直接服务于 post-selection inference(连接 hypothesis testing),Gaussian process 扩展触及 longitudinal/spatial 数据的 semiparametric 推断设定。
- 关键技术:
Gaussian information decomposition,post-selection inference,conditional distribution decomposition,sample splitting alternative,impossibility proof for n=1,Gaussian process extension - 为什么对您有用: (1)连接 statistical computing(分解算法设计)和 hypothesis testing(post-selection inference)两个 primary interest 子方向,Gaussian process 扩展还触及 longitudinal 数据推断;(2)very_familiar 中的 software development 可直接实现该分解算法,high-dimensional asymptotics 可验证其在 p≫n 未知 covariance 设定下的行为——该 paper 未讨论 high-dimensional 情形,这是一个自然延伸口子;(3)立即可做:用 very_familiar 武器复现算法并探索 high-dimensional 未知 covariance 下分解的可行性边界。
其他 (other, 2 篇)¶
1. 10.1093/biomet/asaf044 — Proximal indirect comparison¶
- 作者: Zehao Su, Helene C Rytgaard, Henrik Ravn, Frank Eriksson
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 10/10
- 摘要: 在间接比较(indirect comparison)设定下,目标试验缺少某处理臂,需从源试验借用;目标人群 ATE 的 identification 通常依赖条件可迁移性假设,即所有效应修饰变量均已测量。本文在存在偏移的未观测效应修饰变量情形下,给出基于 proxy 的 proximal identification 结果:要求两试验中各有一个 adjustment proxy,源试验中另有一个 reweighting proxy,通过 bridge function 完成识别。提出的 estimator 对 bridge function 误设具有双重稳健性(doubly robust),且在 bridge function 估计量满足温和一致性条件下达到 n^{-1/2}-CAN。实证部分用两个体重管理试验展示 proxy 选择与方法应用。对您有用:本文将 proximal CI 的 proxy/bridge-function 框架扩展到跨试验 transportability 设定,直接对接您 proximal causal inference 子方向。
- 关键技术:
proximal identification
2. 10.1093/biomet/asaf050 — A family of toroidal diffusions with exact likelihood inference¶
- 作者: E García-Portugués, M Sørensen
- 期刊/来源: Biometrika
- 分类: vol 113 · issue 1
- 相关性 1/10 · novelty:
new_method - 摘要: 在环面(torus)上的多变量角数据设定下,本文构造了一类具有显式转移概率密度的连续时间扩散过程,从而实现精确似然推断。所提扩散过程具有时间可逆性,且可针对任意预设的平稳分布(包括高度多峰的混合分布)进行构造。作者建立了渐近似然理论,支持单样本推断及 k 组扩散过程的线性假设检验(含同质性检验),检验基于标准 Wald/LR 型框架。进一步证明了可直接进行精确的扩散桥模拟,并提出了具有类似性质的圆形跳跃过程类。数值实验覆盖圆和二维环面情形;应用包括检验蚂蚁运动的同质性假设及模拟蛋白质三维骨架间的桥。对您而言,本文的线性假设检验部分与 hypothesis testing 子方向有弱连接,但核心的环面扩散显式密度构造与您武器库距离较远。
- 关键技术:
exact transition density,toroidal diffusion,time-reversible diffusion,likelihood ratio test for homogeneity,diffusion bridge simulation,stationary distribution on torus - 为什么对您有用: (1)本文的 k 组同质性检验与线性假设检验与您 primary interest 中 hypothesis testing 子方向有弱连接,但检验本身是标准 Wald/LR 型,非新检验理论。(2)您武器库中的 minimax bounds / higher-order U-statistics / semiparametric efficiency 无法攻入本文核心贡献——环面扩散的显式密度构造依赖 Itô 随机分析与方向统计学,不在您的熟悉领域。(3)暂不可做:核心机器(Itô扩散理论、环面分布构造)不在武器库中,且与您当前研究方向无自然交汇点,不建议展开阅读。
Maintained by 陈星宇 · Homepage · Source on GitHub