跳转至

Biometrika — Vol 110 Issue 1 · 2026-06-20

  • 共 18 篇 · Biometrika
  • 目录核对 ✅ 18 篇全部抓到(对照 OpenAlex 19 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

Biometrika 第110卷第1期的18篇论文大致围绕三条主线展开:因果识别与实验设计、高维假设检验与不确定性量化、以及非参数/半参数方法与模型。因果推断方面有四篇直接相关,涵盖纵向实验设计、时变工具变量、倾向得分设计角色以及数据整合中的效率提升;高维假设检验部分则包括广义线性模型中的高维干扰参数检验、多变点检测、成分数据差异检验以及局部化共形预测;其余论文分布在半参数回归(如单一指数模型的线性化最大秩相关估计)、非参数协方差估计、可交换关系阵列回归、最优随机设计、稀疏图模型谱推断、高维极值聚类以及经验贝叶斯方差估计等领域,其中高维图模型均匀推断和响应变量子集选择也涉及高维随机矩阵技术。

因果推断主线的四篇论文在不同方向上推进了纵向与工具变量因果推断。Minimax designs for causal effects in temporal experiments with treatment habituation 在随机化框架下针对处理习惯化效应提出了最小化最大最优的纵向实验设计,无需参数模型假设;Instrumental variable estimation of the marginal structural Cox model for time-varying treatments 将时变工具变量引入边际结构模型,放松了序贯无混杂假设并构造加权估计方程;Propensity scores in the design of observational studies for causal effects 是 Rosenbaum 与 Rubin 对倾向得分经典工作的受邀评论,重申其在设计阶段平衡协变量和应对未测量混杂的角色;Data integration: exploiting ratios of parameter estimates from a reduced external model 则利用外部模型系数比率提升内部回归系数估计效率,连接了传输性与数据融合。

高维假设检验与不确定性量化主线同样突出。Testing generalized linear models with high-dimensional nuisance parameters 针对高维干扰参数提出闭合形式极限分布的检验方法,无需bootstrap且对稀疏性稳健;Seeded binary segmentation: a general methodology for fast and optimal changepoint detection 通过确定性种子区间实现近乎线性的快速变点检测并达到渐近 minimax 最优;Robust differential abundance test in compositional data 用 log-ratio 统计量处理成分数据零值并控制FDR;Localized conformal prediction 推广共形预测为每个测试点自适应构造预测集,在异方差数据上改善局部覆盖保证。这几篇共同展示了在高维或非标准设定下构造有效推断工具的不同策略。

与因果推断方向最贴的优先看:Minimax designs for causal effects in temporal experiments with treatment habituation、Instrumental variable estimation of the marginal structural Cox model for time-varying treatments、Propensity scores in the design of observational studies for causal effects、Data integration: exploiting ratios of parameter estimates from a reduced external model。与高维推断方向最贴的优先看:Testing generalized linear models with high-dimensional nuisance parameters、Localized conformal prediction、Uniform inference in high-dimensional Gaussian graphical models、Seeded binary segmentation。与半参数效率方向最贴的优先看:A simple and general debiased machine learning theorem with finite-sample guarantees(偏误修正机器学习统一定理,直接连接半参数效率与有限样本保证)、Linearized maximum rank correlation estimation(单指标模型显式闭式解估计)、Optimal minimax random designs for weighted least squares estimators(模型误设下的最优随机设计)。

因果推断 (causal_inference, 4 篇)

1. 10.1093/biomet/asac024 · arXiv — Minimax designs for causal effects in temporal experiments with treatment habituation

  • 作者: Guillaume W Basse, Yi Ding, Panos Toulis
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 155-168
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在时间序列随机实验中,干预效应可能因实验单元对处理的习惯化而随时间衰减。本文在因果推断的随机化框架下,研究如何设计实验以最优地估计此类平均处理效应。作者提出一类随机化设计,无需对潜在结果施加参数模型假设,并在所有实际相关的设计类中证明了其最小化最大最优性(minimax optimal),即最坏情形下的均方误差最小。方法的核心在于利用随机化分配机制平衡习惯化带来的时间异质性。理论结果基于非参数识别条件,给出了设计的最优性界限。这项研究为处理习惯化效应的纵向实验提供了具有理论保证的实用设计准则。对您而言,其与纵向因果推断中的估计问题直接相关,可用于在线市场等平台的实验设计优化。
  • 关键技术: minimax optimal design, randomization framework, treatment habituation, temporal experiments, causal effect estimation
  • 为什么对您有用: 该论文直接切入您主要兴趣中的因果推断估计与纵向实验设计问题,尤其关注处理习惯化这一实际场景。您擅长的非参数统计和因果推断估计理论可用来分析此类minimax设计的有限样本性质或检验其最优性界的紧性。从技术储备看,立即可做:使用very_familiar中的非参数统计和因果推断估计理论,即可对该设计进行扩展或数值验证。

2. 10.1093/biomet/asab062 — Instrumental variable estimation of the marginal structural Cox model for time-varying treatments

  • 作者: Y Cui, H Michael, F Tanser, E Tchetgen Tchetgen
  • 期刊/来源: Biometrika
  • 机构: National University of Singapore · University of Massachusetts Amherst · University of Lincoln · University of Pennsylvania
  • 分类: vol 110 · issue 1 · pp 101-118
  • 相关性 9/10 · novelty: new_method
  • 摘要: 本文考虑在时间变化治疗和未测量混杂存在的情况下,用时变工具变量识别边际结构Cox模型的参数。传统的边际结构模型依赖于序贯无混杂假设,本文放松该假设,引入时变工具变量,并假定工具变量与未测量混杂在治疗过程中的相加效应无交互作用,这是Wang & Tchetgen Tchetgen (2018)识别条件的纵向推广。作者提出一类加权估计方程,得到边际结构Cox模型参数的一致且渐近正态估计量,从而将标准逆概率治疗权重估计扩展到工具变量场景。通过大量模拟和一项评估社区抗逆转录病毒治疗覆盖率对HIV发病率影响的实证研究展示了方法的实用性。该工作对研究者感兴趣的纵向因果推断和工具变量方法有直接帮助,其估计框架可利用M估计理论进行进一步分析。
  • 关键技术: instrumental variable, marginal structural Cox model, inverse probability weighting, weighted estimating equations, time-varying confounding, sequential randomization assumption
  • 为什么对您有用: 该论文直接连接到研究者的主要兴趣——因果推断中的工具变量方法在纵向治疗中的应用,并且属于流行病学应用(HIV发病率)。研究者熟悉的因果推断估计理论(very_familiar)可立即用于分析该加权估计量的识别与渐近性质,中等熟悉的M估计理论(moderately_familiar)也可用于评估估计方程的稳健性。立即可做:研究者可将该IV识别条件与现有的proximal causal inference框架进行比较,或扩展到更复杂的敏感性分析。

3. 10.1093/biomet/asac054 — Propensity scores in the design of observational studies for causal effects

  • 作者: P R Rosenbaum, D B Rubin
  • 期刊/来源: Biometrika
  • 机构: University of Pennsylvania · Harvard University
  • 分类: vol 110 · issue 1 · pp 1-13
  • 相关性 8/10 · novelty: survey
  • 摘要: 本文是 Rosenbaum 和 Rubin 对其 1983 年经典倾向得分论文的受邀评论,聚焦于倾向得分在观察性研究设计阶段的角色。倾向得分定义为给定协变量下个体被分配至处理组的条件概率,其关键特征是不涉及任何结局变量,从而将协变量平衡视为研究设计的一部分而非结果分析。作者回顾了 1980 年代初期的背景,阐明倾向得分如何化解高维协变量匹配的悖论:尽管无法在原始协变量上完美匹配,但平衡倾向得分(一个一维总结)即可平衡大量低维协变量分布。文章进一步强调,在强可忽略性假设下,倾向得分与关键未观测协变量具有等价性;控制可观测协变量后,仍需通过设计敏感性分析、多对照组、工具变量等拟实验装置来应对未测量偏倚。综述性贡献在于厘清了设计阶段与结果分析的界限,并展示了从关联到因果推断的完整逻辑链条。对您而言,此文是因果推断中倾向得分方法最基础且最具影响力的综述之一,直接对应您 primary interest 中的因果推断(辨识与估计),建议作为概念框架的复习。
  • 关键技术: propensity score, strong ignorability, matching on propensity score, design of observational studies, sensitivity analysis, instrumental variables
  • 为什么对您有用: (1)本文直接对应您的主要兴趣领域——因果推断,聚焦于倾向得分在观察性研究设计中的辨识与平衡作用,是 causal inference 方向最经典的文献之一。(2)您非常熟悉的因果推断估计理论(very_familiar)直接涵盖倾向得分估计、匹配与逆概率加权等工具,读此文可强化对设计阶段概念的理解,并关联到现有的估计框架。(3)作为 Gateway reading——立即可做:无需额外准备,可利用您已有的因果推断知识快速通读全文,作为基础认知的巩固。

4. 10.1093/biomet/asac022 — Data integration: exploiting ratios of parameter estimates from a reduced external model

  • 作者: Jeremy M G Taylor, Kyuseong Choi, Peisong Han
  • 期刊/来源: Biometrika
  • 机构: University of Michigan · Cornell University
  • 分类: vol 110 · issue 1 · pp 119-134
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文考虑数据整合问题:内部数据集有二元结果Y和两组协变量X、Z,外部研究提供Y对X的广义线性模型参数估计。目标是提升内部模型中Y对X和Z的回归系数估计效率,同时允许两个总体中Y|X的回归系数相差一个未知标量常数。方法首先正交化Z变量,然后借用外部模型给出的系数比率(ratio of coefficients)信息,其理论依据是新推导的关于遗漏协变量时GLM参数的关系式。推导了所提估计量的渐近方差,并在模拟中显示相比仅用内部数据更有效,且对模型错误设定有一定稳健性。该工作连接了因果推断中的传输性(transportability)和数据融合,对您正在关注的proximal causal inference和IV中的外部信息利用有直接参考价值。
  • 关键技术: Generalized linear models (GLM), orthogonalization of covariates, ratio of coefficients, transportability assumption, asymptotic variance derivation, data integration via external summary statistics
  • 为什么对您有用: 本文属于causal inference中transportability/data integration的具体方法,与您对identification和sensitivity analysis的兴趣直接相关。利用您非常熟悉的semiparametric theory和M-estimation理论,可以分析该方法在更复杂模型(如proximal CI中的bridge function)下的扩展,或者检验其效率是否达到semiparametric bound。此外,外部信息借用思路在流行病学队列研究中常见,可作为applied causal work的参考。当前武器库已覆盖该论文的核心技术(M-estimation, 渐近理论),因此立即可做:您可尝试将该比率传输思想推广到连续型结果或时间依赖暴露设定。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)

1. 10.1093/biomet/asac030 · arXiv — Uniform inference in high-dimensional Gaussian graphical models

  • 作者: S Klaassen, J Kueck, M Spindler, V Chernozhukov
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 51-68
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究高维高斯图形模型中的均匀推断问题,其中目标参数(如边权重或部分相关系数)的数量d可能远大于样本量n,假设模型满足近似稀疏性。方法核心是利用square-root lasso估计nuisance函数(如精度矩阵元素),并推导其在随机设计下的均匀收敛速率和稀疏性保证,这是构建同时置信区域的关键。作者证明,通过足够快的nuisance估计率,可以构造渐近正确的联合置信区间,覆盖多个目标参数。模拟研究表明该方法在有限样本下优于现有方法,两个实证应用展示了其实用性。本文的高维均匀推断框架与前文关注的high-dimensional statistics和hypothesis testing方向紧密相关,其理论方法可迁移至高维因果结构推断等场景。
  • 关键技术: square-root lasso, simultaneous confidence regions, approximate sparsity, uniform estimation rates, Gaussian graphical models
  • 为什么对您有用: 本文直接关联您的primary interest中的高维统计与假设检验:它解决了高维图形模型中多个参数的联合推断问题,技术核心是均匀收敛速率和稀疏性保证,这正是您非常熟悉的高维渐近理论(high-dimensional asymptotics)可以理解和评估的。特别是,square-root lasso的rate与minimax bound的对比可直接用您的武器库中minimax bounds工具检验其最优性。此外,图形模型是因果结构表示的基础,对您关注的因果推断(如结构学习)也有间接启示。基于当前武器库,该论文的理论框架和方法可立即可用于您自己的高维推断研究。

2. 10.1093/biomet/asac037 — Response best-subset selector for multivariate regression with high-dimensional response variables

  • 作者: Jianhua Hu, Jian Huang, Xiaoqian Liu, Xu Liu
  • 期刊/来源: Biometrika
  • 机构: Shanghai University of Finance and Economics · Hong Kong Polytechnic University · York University
  • 分类: vol 110 · issue 1 · pp 205-223
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在多元线性回归框架下,研究高维响应变量与发散预测变量(随样本量增长)的响应变量选择问题,目标 estimand 为响应子集指示向量与回归系数。引入 0-1 选择指示变量构建响应最佳子集选择模型,并通过分离参数与新型惩罚最小二乘函数提出响应最佳子集选择器(response best-subset selector)。该选择器可同时执行响应变量选择与系数估计,在温和条件下对固定与发散预测变量维度均具有模型选择一致性;固定维度下进一步建立了系数估计的相合性与渐近正态性,并揭示 Bonferroni 检验是其特例。仿真与基因数据实证表明,在 Matthews 相关系数准则下该选择器优于现有方法。对您可能有用:本文的高维响应选择机制与渐近正态性结果,可为高维/多元因果推断中多结局(multiple outcomes)的筛选与推断提供变量选择层面的理论参考。
  • 关键技术: response best-subset selection, penalized least-squares with separation parameter, model selection consistency, asymptotic normality of coefficient estimators, Bonferroni test as special case, diverging dimension asymptotics
  • 为什么对您有用: 本文连接到高维统计(发散维度的变量选择与渐近理论)与因果推断(多结局/高维响应的筛选设定)。您武器库中的 high-dimensional asymptotics 与 minimax bounds 可直接用于审视其发散维度下选择一致性条件的尖锐性与分离参数的最优选取。立即可做:用 very_familiar 的高维渐近工具验证其理论边界,并探索该响应选择框架在多结局因果推断(如 mediation 中多中介变量的选择)中的移植可能性。

非参数 / 半参数 (nonparam_semipara, 7 篇)

1. 10.1093/biomet/asac031 · arXiv — Regression of exchangeable relational arrays

  • 作者: F W Marrs, B K Fosdick, T H Mccormick
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 265-272
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究关系阵列(relational arrays,即演员对之间的测量值,如贸易流量)的线性回归问题。目标是在考虑元素间因共享演员而产生的依赖性时,准确估计回归系数及其标准误差。现有方法需估计复杂的异质性结构,而本文利用可交换性假设来 pooled 跨演员的信息,从而得到更简洁且更准确的标准误差估计量。具体地,假设演员是可交换的,从而将协方差结构参数化,并导出基于残差矩的估计量。理论证明了所提标准误差估计量的一致性,并通过模拟和国际贸易数据分析展示了其相对于现有方法的有限样本改进。对您可能有用:该可交换性假设在网络/关系数据回归中具有普遍性,可应用于您因果推断兴趣中涉及网络观测数据(如社交网络效应、同伴效应估计)的推断问题,提供更可靠的统计推断。
  • 关键技术: exchangeability assumption, relational array regression, pooled standard error estimator, actor-level dependence structure, linear regression with dependent errors
  • 为什么对您有用: 本文直接连接您因果推断兴趣中的网络数据回归推断子方向(如使用演员对数据的条件效应估计)。您 very_familiar 中的非参数统计和估计理论可立即用于评估该方法在因果框架下的适用性(如将可交换性假设扩展到处理效应估计的标准误差)。此外,该方法为关系数据的推断提供了简洁工具,中期可尝试将其整合到您正在使用的双机器学习(DML)框架中,用于网络数据下的半参数推断。立即可做:您可以直接在您的网络因果分析流程中采用该标准误差估计量,验证其有限样本表现。

2. 10.1093/biomet/asac035 — Separable expansions for covariance estimation via the partial inner product

  • 作者: T Masak, S Sarkar, V M Panaretos
  • 期刊/来源: Biometrika
  • 机构: École Polytechnique Fédérale de Lausanne
  • 分类: vol 110 · issue 1 · pp 225-247
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在二维域随机表面的非参数协方差估计设定下,目标是克服严格可分性假设的不合理性,同时保留其计算与存储优势。作者提出基于部分内积(partial inner product)的协方差可分展开框架,将任意二维协方差算子分解为一系列可分项之和。通过将幂迭代法推广至一般 Hilbert 空间,该展开可从表面观测数据高效构造;截断保留前若干项即自动生成非参数协方差估计量,其稀疏度由截断阶数控制。在温和正则条件下证明了估计量的相合性与收敛速率,明确展示了由截断阶数调节的 bias-variance trade-off。对您有用:该框架为非参数协方差估计提供了介于完全可分与无约束之间的中间路线,其部分内积与逐项构造机制与您熟悉的非参数统计及高维渐近理论直接相关。
  • 关键技术: partial inner product, separable expansion, generalized power iteration, covariance operator estimation, bias-variance trade-off via truncation, Hilbert space projection
  • 为什么对您有用: 本文连接到非参数理论子方向,核心是二维协方差算子的可分展开与截断收敛速率。您武器库中 very_familiar 的 minimax bounds for estimation problems 可直接用于验证本文截断估计量的收敛速率是否达到 minimax 下界,或分析不同截断阶数下的最优速率选择。立即可做:用 minimax 理论审视其 bias-variance trade-off 的速率紧性。

3. 10.1093/biomet/asac027 — Linearized maximum rank correlation estimation

  • 作者: Guohao Shen, Kani Chen, Jian Huang, Yuanyuan Lin
  • 期刊/来源: Biometrika
  • 机构: Hong Kong Polytechnic University · Hong Kong University of Science and Technology · University of Hong Kong · University of Iowa · Chinese University of Hong Kong
  • 分类: vol 110 · issue 1 · pp 187-203
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在 single-index model \(Y=g(\beta^T X, \epsilon)\) 下,本文提出 linearized maximum rank correlation (LMRC) estimator,目标是估计系数 \(\beta\)。不同于传统最大秩相关 (MRC) 需要求解非凸优化,LMRC 具有显式闭式解,且对响应变量异常值稳健、不依赖未知 link function 与误差分布。在 linearity of expectation 假设下,证明其 consistency 与 \(n^{-1/2}\)-CAN;更一般的 estimator class 也被讨论,并给出 plug-in 与 random weighting 的方差估计推断方法。方法可自然扩展至 censored data 与高维惩罚设定。对您可能有用:此闭式秩估计器为 semiparametric single-index 的稳健推断提供了新路径,其高维惩罚扩展触及您的高维统计兴趣。
  • 关键技术: single-index model, maximum rank correlation, closed-form estimator, linearity of expectation assumption, asymptotic normality, random weighting resampling
  • 为什么对您有用: 本文连接到 semiparametric theory 与 high-dimensional statistics 两个子方向:闭式秩估计器绕过了非凸优化,在单指数模型下实现了 CAN,其 semiparametric efficiency bound 是否可达值得用您的 efficiency theory 武器检验;高维惩罚扩展的收敛率可用 minimax bounds 验证是否紧。follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉(具体是计算该闭式估计器的 efficient influence function 并与 semiparametric efficiency bound 对比),才能判断其效率损失程度。

4. 10.1093/biomet/asac016 · arXiv — Optimal minimax random designs for weighted least squares estimators

  • 作者: D Azriel
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 273-280
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 在模型可能误设的设定下,目标是估计真实函数 m(x) 的最佳线性逼近 ℓ(x)。作者指出此时 OLS 通常不一致,需采用加权最小二乘(WLS)。为 WLS 估计量构建了渐近 minimax 准则,并构造了使该准则最小的最优设计。关键发现是:设计点 x 必须随机而非固定,否则 minimax risk 无穷;最优随机 minimax 设计与先前研究的确定性设计不同,且在 m(x) 为二次/三次时模拟表现更优;当噪声方差趋于无穷时,两种设计重合。结果在多项式回归下展示,补充材料给出了推广。对您有用:本文在 misspecification 下研究最佳线性逼近的 minimax 设计,直接连接 semiparametric theory 与 minimax bounds 两个核心兴趣。
  • 关键技术: misspecified linear model, best linear approximation, weighted least squares, asymptotic minimax criterion, random experimental design, polynomial regression
  • 为什么对您有用: 本文直接连接 semiparametric theory(misspecification 下的最佳线性逼近)与 minimax bounds(渐近 minimax 设计准则)两个核心兴趣子方向。用 very_familiar 的 minimax bounds 工具可以立刻验证其 minimax 准则的紧性,并审视 WLS 在 misspecification 下的一致性条件。Follow-up 粗判:立即可做——用 minimax bound 和高维渐近工具可直接分析该设计在高维或非多项式设定下的扩展。

5. 10.1093/biomet/asac032 · arXiv — Subsampling sparse graphons under minimal assumptions

  • 作者: Robert Lunde, Purnamrita Sarkar
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 15-32
  • 相关性 4/10 · novelty: weaker_assumption
  • 摘要: 在稀疏 graphon 模型下,本文研究网络的两种子采样程序(vertex subsampling 与 p-subsampling)的一致性,目标是网络统计量(如邻接矩阵非零特征值)的分布估计。核心假设仅为对应网络统计量的弱收敛及期望子采样规模随网络顶点数趋于无穷但增速更慢。在适当的稀疏条件下,作者推导了邻接矩阵非零特征值的极限分布,并以此通过弱收敛结果证明了子采样程序对特征值的一致性。理论工具涉及弱收敛理论与稀疏随机矩阵谱分析,未依赖强参数假设。对您有用:此文的稀疏邻接矩阵谱极限分布与子采样一致性,直接连接到您的高维随机矩阵理论及非参数/半参数理论兴趣。
  • 关键技术: sparse graphon model, vertex subsampling, p-subsampling, weak convergence of network statistics, eigenvalue limiting distribution, adjacency matrix spectral analysis
  • 为什么对您有用: 本文直接连接到您的高维随机矩阵理论(邻接矩阵非零特征值极限分布)与非参数理论(graphon 下的弱收敛与最小假设一致性)子方向。您武器库中 very_familiar 的「高维渐近理论」可直接用来审视其特征值极限分布的推导细节与稀疏条件是否可进一步弱化。follow-up 粗判:立即可做——用您熟悉的高维渐近与 minimax bound 工具,可立即检验其谱收敛率是否可达更紧的 minimax rate,并探索子采样估计量的 higher-order 修正。

6. 10.1093/biomet/asac020 · arXiv — Spherical clustering in detection of groups of concomitant extremes

  • 作者: V Fomichov, J Ivanovs
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 135-153
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在高维极值统计设定下,研究如何识别 concomitant extremes(相伴极值)的分组结构,目标 estimand 是极端观测的潜在聚类中心与分组归属。本文为 spherical k-means 聚类识别相伴极值组提供了首批理论保证,同时指出其缺陷:在组内弱渐近依赖(weak asymptotic dependence)情形下 k-means 可能失效。作者提出一种替代损失函数,导出新颖的 spherical k-主成分聚类(k-PC clustering)算法。核心理论结果给出了一个广泛满足的充分条件,保证 k-PC 聚类在基础设定下成功恢复分组结构;技术工具涉及球面聚类的一致性分析与极值渐近依赖建模。模拟表明 k-PC 聚类在弱渐近依赖困难情形下优于 k-means。对您有用:本文将高维极值聚类与稀疏结构恢复联系,其理论分析框架可启发您在 high-dimensional statistics / minimax bounds 中对极端子集估计的 rate 研究。
  • 关键技术: spherical k-means clustering, concomitant extremes, weak asymptotic dependence, k-principal-components clustering, consistency analysis, sparse model recovery
  • 为什么对您有用: 本文连接到 high-dimensional statistics 中稀疏结构恢复与极值子集识别的交叉问题。您武器库中 minimax bounds for estimation problems 与 high-dimensional asymptotics 可以直接用来分析 k-PC 聚类算法的收敛率,判断作者给出的充分条件是否可改进为 minimax 最优。follow-up 粗判:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将当前仅限于基础设定的一致性结果推进到更一般的 M-estimator 收敛率与 minimax lower bound 分析。

7. 10.1093/biomet/asac019 · arXiv — OnF-modelling-based empirical Bayes estimation of variances

  • 作者: Yeil Kwon, Zhigen Zhao
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 69-81
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在给定样本方差条件下研究多个方差参数的 empirical Bayes 估计问题,假设方差具有任意非参数先验分布。作者在不同损失函数下推导了 Bayes 估计量的多种形式;其中一种特定损失函数下的 Bayes 估计量仅依赖样本方差的边际累积分布函数。将边际 CDF 替换为经验分布函数后,得到名为 F-modelling-based empirical Bayes (FEB) 的方差估计量。理论部分证明了 FEB 估计量的渐近性质(收敛率与风险界),模拟与实际数据分析进一步展示了其相对于参数化先验方法的优势。对您可能有用:此处的非参数经验 Bayes 思路与 semiparametric efficiency 理论中仅依赖边际分布的 one-step / DR 估计量构造有结构相似性。
  • 关键技术: nonparametric empirical Bayes, F-modelling, marginal CDF substitution, Bayes estimator under loss functions, empirical distribution function, asymptotic risk bounds
  • 为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向:F-modelling 估计量仅用经验 CDF 替代边际分布,本质上是一种非参数 one-step 式构造,与您熟悉的 semiparametric efficiency bound 下 influence function 估计思路同构。用您 very_familiar 的 minimax bounds for estimation problems 工具可直接审视其声称的收敛率是否紧;若想进一步推导该 FEB 估计量的 semiparametric efficiency bound 或 higher-order correction,需先在 moderately_familiar 的 semiparametric theory 上长肌肉(具体是 nonparametric influence function 的二阶余项控制)。判断:中期可做。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1093/biomet/asac033 · arXiv — A simple and general debiased machine learning theorem with finite-sample guarantees

  • 作者: V Chernozhukov, W K Newey, R Singh
  • 期刊/来源: Biometrika
  • 机构: Moscow Institute of Thermal Technology
  • 分类: vol 110 · issue 1 · pp 257-264
  • 相关性 10/10 · novelty: new_method
  • 摘要: 本文在 debiased machine learning 框架下,针对任意全局或局部泛函(如处理效应、政策效果)的推断问题,提出一个统一的非渐近定理。该方法仅要求机器学习算法满足若干简单且可解释的条件(如均方误差收敛率、稳定性),即可通过偏差修正和样本分裂构造置信区间。核心贡献在于用有限样本论证证明了估计量的一致性、高斯逼近性质和半参数效率,无需渐近线性展开或 Donsker 条件。对于全局泛函,收敛速度为 n^{-1/2};对于局部泛函(如某点的边际效应),速度随条件放松而适当退化。定理揭示了一般的双重鲁棒性质,可用于病态逆问题。该工作将现代学习理论速率直接转化为传统统计推断,极大简化了实际应用中的理论验证。对您有用:直接联系到效率理论与 debiased ML 的核心议题,且其有限样本保证可迁移至您关注的因果推断(如 IV、proximal CI)中的泛函估计与敏感性分析。
  • 关键技术: debiased machine learning, orthogonal score, double robustness, finite-sample inference, cross-fitting, semiparametric efficiency
  • 为什么对您有用: (1) 直接对应您核心兴趣中的效率理论(semiparametric efficiency bounds, debiased ML),并提供有限样本保证,适用于因果推断中各类泛函(如 ATE、LATE、mediation effects)的置信区间构造。(2) 您 very_familiar 的 nonparametric statistics、minimax bounds 和 estimation theory in causal inference 可用于检验其提出的收敛条件是否紧致,并可结合 moderately_familiar 的 semiparametric theory 理解其效率界的具体形式。(3) 立即可做:您对非参估计和因果推断的正交评分已有扎实基础,可直接将本定理应用到您熟悉的估计问题上(如用神经网络估计 propensity score 和 outcome regression 并构造 ATE 的置信区间),验证其有限样本表现。

数理统计 / 假设检验 (hypothesis_testing, 4 篇)

1. 10.1093/biomet/asac021 — Testing generalized linear models with high-dimensional nuisance parameters

  • 作者: Jinsong Chen, Quefeng Li, Hua Yun Chen
  • 期刊/来源: Biometrika
  • 机构: University of Illinois Chicago · University of North Carolina at Chapel Hill
  • 分类: vol 110 · issue 1 · pp 83-99
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文针对广义线性模型中存在高维干扰参数(nuisance parameters)时的假设检验问题,目标是检验系数子向量的显著性,这在基因-环境交互作用等应用中常见。现有方法常依赖bootstrap近似检验统计量的渐近分布,计算成本高。作者提出了一种计算高效的检验方法,其极限分布具有闭合形式,且允许被检验参数可以是稀疏或密集的。在正则性条件下,证明了该方法的第I类错误渐近正确,并建立了在高维备择假设下的检验势。大量模拟表明方法表现良好,且对稀疏假设的违背具有稳健性。应用部分使用中国饥荒样本数据检验基因-环境交互作用。该方法直接关联您的高维假设检验兴趣,为处理高维干扰参数提供了不依赖bootstrap的实用工具,可利用您对high-dimensional asymptotics的熟悉度深入分析其渐近性质。
  • 关键技术: high-dimensional testing, generalized linear models, nuisance parameter, closed-form limiting distribution, sparse and dense alternatives
  • 为什么对您有用: 本文直接连接您的高维统计假设检验方向,特别是高维干扰参数下的检验问题。利用您非常熟悉的high-dimensional asymptotics工具,可以深入分析检验统计量的渐近分布证明细节及其在高维设定下的表现。该工作为立即可做的follow-up:您可将此类闭合形式检验思路迁移到因果推断中的敏感度分析或工具变量检验情境。

2. 10.1093/biomet/asac052 — Seeded binary segmentation: a general methodology for fast and optimal changepoint detection

  • 作者: S Kovács, P Bühlmann, H Li, A Munk
  • 期刊/来源: Biometrika
  • 机构: ETH Zurich · University of Göttingen
  • 分类: vol 110 · issue 1 · pp 249-256
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在多变点检测设定下,目标是快速且准确地估计变点位置,假设单变点搜索在确定性背景区间(seeded intervals)上进行。本文提出 seeded binary segmentation,通过构造一组确定性 seeded intervals 作为背景,在其中逐一搜索单变点候选,再根据具体问题选择最终变点集合。相比基于随机背景区间的流行方法(如 WBS),seeded intervals 保证结果可复现且计算速度大幅提升。在单变量 Gaussian change-in-mean 设定下,配合适当的选择准则,该方法被证明具有渐近 minimax 最优性,且运行时间接近线性。对您有用:该文将 minimax 最优性与近线性计算成本结合,为统计-计算权衡提供了一个具体范例。
  • 关键技术: seeded binary segmentation, deterministic background intervals, minimax optimal changepoint detection, near-linear computational complexity, wild binary segmentation comparison
  • 为什么对您有用: 本文直接连接到您的 primary interest 中的 hypothesis testing(多变点检测属序列检验/估计问题)与 statistical-computational tradeoff(渐近 minimax 最优与近线性运行时间的权衡是典型的 information-computation gap 实例)。您武器库中 very_familiar 的 minimax bounds for estimation problems 可直接用来验证其声称的 minimax optimality 是否紧,以及分析 seeded intervals 的确定性构造如何避免随机方法的计算冗余。判断:立即可做——用 minimax 理论和计算复杂度分析工具即可展开对该框架在不同损失/设定下最优性的验证与拓展。

3. 10.1093/biomet/asac029 · arXiv — Robust differential abundance test in compositional data

  • 作者: Shulei Wang
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 169-185
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在 compositional data(如微生物组、RNA-seq)设定下,目标是检验 taxa 的 differential abundance,同时处理 compositional constraint 与大量零计数带来的统计挑战。本文提出 robust differential abundance test(RDA),通过构造基于 log-ratio 的简单检验统计量来规避 compositionality 对传统均值检验的扭曲,并利用稳健化处理吸收零计数的干扰。理论上,作者证明了 RDA 在一般设定下能控制 false discovery rate(FDR),且当存在观测协变量时,可与 covariate-balancing 技术结合消除混杂偏倚。数值实验与真实数据验证了其在功效与 FDR 控制上的优势。对您可能有用:本文的 compositional 检验框架与协变量平衡策略,为流行病学队列数据中的因果/混杂调整提供了 compositional 设定下的新工具。
  • 关键技术: log-ratio transformation, robust differential abundance test, false discovery rate control, covariate-balancing, compositional data analysis
  • 为什么对您有用: 本文连接到流行病学应用中的因果推断与混杂调整(compositional 数据下的 covariate-balancing),以及假设检验方向(FDR 控制)。用您 very_familiar 的 M-estimation theory 与 moderately_familiar 的 identification theory in causal inference,可以分析其 covariate-balancing 步骤是否达到 semiparametric efficiency 或存在更优的 orthogonal score 设计。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以将本文的 balancing 方法升级为 debiased / doubly-robust 版本。

4. 10.1093/biomet/asac040 · arXiv — Localized conformal prediction: a generalized inference framework for conformal prediction

  • 作者: Leying Guan
  • 期刊/来源: Biometrika
  • 分类: vol 110 · issue 1 · pp 33-50
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文提出局部化共形预测(localized conformal prediction)框架,推广了标准共形预测,使其针对每个测试样本自适应地构建预测集,通过引入局部权重函数强调测试点邻域。该方法可结合任意共形得分(如残差、分位数回归得分),无需分布假设即保证有限样本边际覆盖概率。在适当光滑性假设下,进一步提供局部覆盖保证,即条件于协变量的覆盖概率渐近达到目标水平。作者以核权重为例,推导了加权共形分位数的构造,并证明其渐进性质。数值实验表明,局部化方法在异方差数据上相比全局共形预测显著改善局部覆盖。本文思路可迁移至因果推断中个性化处理效应的区间估计,或高维预测的不确定性量化,为研究者提供一种分布自由的局部推断工具。
  • 关键技术: localized conformal prediction, weighted conformal quantile, distribution-free coverage guarantee, local coverage, conformal scores
  • 为什么对您有用: 本文属于假设检验与分布自由推断方向,与研究者对nonparametric statistics和hypothesis testing的兴趣直接相关。研究者可运用very_familiar中的nonparametric statistics(如核光滑、局部多项式)来严格分析局部权重对覆盖收敛速度的影响,或利用minimax bounds评估局部覆盖的最优性。该工作立即可做:研究者已掌握的核方法和渐近理论足以复现并扩展局部共形预测在异质性问题上的理论。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论