跳转至

Biometrika — Vol 111 Issue 3 · 2026-06-20

  • 共 21 篇 · Biometrika
  • 目录核对 ✅ 21 篇全部抓到(对照 OpenAlex 23 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

Biometrika 第111卷第3期的21篇论文覆盖了因果识别与效率、半参数/非参数方法、高维假设检验、网络数据分析四大主线。(1)因果识别与效率方面,包括条件工具变量集的图形选择、协变量诱导左截断下的双重稳健估计、区间删失多状态半参回归的最大似然估计。(2)半参数/非参数方法涉及密度回归带宽的显式渐近公式、Toeplitz协方差矩阵的非参数最优估计、组检测当前状态数据的sieve MLE、时间平均方差常数的常数风险估计、依赖非参数先验的完全范围信息借用。(3)高维假设检验是本期最密集的方向,涵盖投影独立检验、高维logistic回归的可分数据推断、Chatterjee秩相关bootstrap失效、广义核两样本检验、对象型时间序列序列独立性检验、局部网络统计量中心极限定理、实验设计协方差误设的minimax稳健性、选择性符合推断的FCR控制、条件秩相关系统发育关联分析、GLMM渐近方差的二阶修正、一族中心的家族假设检验。(4)网络与图分析包括社区检测的高阶结构方法和前面已归入因果的图工具。

在因果识别与效率方向,本期同时推进了工具变量选择和缺失条件下的双重稳健推断。Graphical tools for selecting conditional instrumental sets在已知ADMG兼容的线性结构方程下刻画了所有线性有效条件工具集,推导出新渐近方差公式,并给出图形判据和贪心算法以选取更高效的工具变量。Doubly robust estimation under covariate-induced dependent left truncation针对prevalent cohort中协变量诱导的依赖性左截断,推导出目标参数的有效影响函数,首次构造出双重稳健估计量,避免了quasi-independence假设。Maximum likelihood estimation for semiparametric regression models with interval-censored multistate data在区间删失多状态数据下证明NPMLE的参数分量达到半参数效率界,为复杂纵向数据提供了效率理论支撑。这三篇依次处理了因果效应估计中的工具变量选择、截断偏差校正和纵向数据效率界,构成了从识别到效率的完整链条。

高维与假设检验方向本期有大量补丁性进展,既指出现有方法的失效边界,也提出修正方案。Projective independence tests in high dimensions针对投影相关检验的三大瓶颈——计算复杂度O(n³(p+q))、渐近零分布不可解、高维功效衰减——通过修改权重函数将复杂度降至O(n²(p+q)),并利用U-statistic证明渐近标准正态,无需permutation;进一步引入交叉验证特征筛选提升功效。On inference in high-dimensional logistic regression with separated data指出线性可分条件下MLE不存在但精确推断会产生半无限置信集是数据局限的真实刻画,并在double-asymptotic设定下推导logistic系数与OLS极限的显式关系,证明约束估计的一致性。On the failure of the bootstrap for Chatterjee’s rank correlation严格证明了该统计量在额外独立性假设下bootstrap不一致,属于渐近正态但bootstrap失效的特殊类别,提醒实践者依赖其渐近方差估计而非自助法。Generalized kernel two-sample tests利用中高维分布差异的均值与方差-协方差联合模式构造广义核检验,显著提升了对广泛alternative的检验功效。Testing serial independence of object-valued time series将距离协方差推广至度量空间序列,构造Cramér–von Mises型统计量并给出wild bootstrap临界值,为非线性依赖检验提供通用框架。此外,Selective conformal inference with false coverage-statement rate control提出了SCCP方法,在校准集和测试集同时执行选择,有效控制FCR且避免区间均匀膨胀。

因果推断方向可优先阅读Graphical tools for selecting conditional instrumental sets与Doubly robust estimation under covariate-induced dependent left truncation;半参数效率方向关注Maximum likelihood estimation for semiparametric regression models with interval-censored multistate data;高维假设检验方向关注Projective independence tests in high dimensions与On inference in high-dimensional logistic regression with separated data;网络数据分析方向关注Central limit theorems for local network statistics与Network community detection using higher-order structures。

因果推断 (causal_inference, 2 篇)

1. 10.1093/biomet/asad066 · arXiv — Graphical tools for selecting conditional instrumental sets

  • 作者: L Henckel, M Buttenschoen, M H Maathuis
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 771-788
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在已知 ADMG(acyclic directed mixed graph)兼容的线性结构方程模型(误差可相关)设定下,本文研究利用条件工具变量集(conditional instrumental sets)对总因果效应做高效 2SLS 估计。首先,作者刻画了所有线性有效条件工具集(保证 2SLS 一致性的集合类),并推导出该类估计量的新渐近方差公式。基于此,提出三个图形工具以选取更高效的条件工具集:(1) 图形判据,对特定两集合直接比较渐近方差大小;(2) 贪心算法,逐步加入使渐近方差下降的协变量;(3) 给出一个可由图形判据确保渐近方差最小的线性有效条件工具集。对您有用:本文将 IV 选取问题转化为渐近方差优化,直接连接因果推断中的 identification 与 efficiency theory 子方向。
  • 关键技术: conditional instrumental sets, acyclic directed mixed graph (ADMG), 2SLS asymptotic variance, graphical variance criterion, greedy covariate selection, linear structural equation model
  • 为什么对您有用: 本文直接连接因果推断中 IV identification 与 efficiency theory 两个子方向:在 ADMG 下用图形判据做条件工具集选取,本质是 semiparametric/parametric efficiency bound 在线性 SEM 的具体实现。用您 very_familiar 的 estimation theory in causal inference 可直接验证其渐近方差公式是否达到效率界;用 moderately_familiar 的 identification theory 可将图形判据推广至半参数设定。立即可做:用现有武器验证其方差公式并尝试在半参数 IV 框架下做类似效率优化。

2. 10.1093/biomet/asae005 · arXiv — Doubly robust estimation under covariate-induced dependent left truncation

  • 作者: Yuyao Wang, Andrew Ying, Ronghui Xu
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 789-808
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在 prevalent cohort 随访研究中,事件时间受协变量诱导的依赖性左截断(left truncation)导致选择偏差,目标是估计任意变换生存时间期望的分布参数。当截断时间与事件时间因协变量产生依赖时,传统 quasi-independence 假设失效,仅用逆截断概率加权(IPTW)对截断模型误设敏感。本文应用半参数理论推导出该 estimand 的有效影响函数(efficient influence function),并据此构造出具有双重稳健性(double-robustness)的估计量。这是左截断场景下首次构造双重稳健估计量的工作,且该设定不落入已有 coarsened data 双重稳健框架。文中给出了生存数据中未被仔细审视的渐近正态性技术条件,并通过模拟与两个不同右删失模式的实际数据集验证了方法。对您可能有用:本文将半参数效率理论与左截断这一经典生存分析问题结合,是依赖性截断下 identification 与 DR 估计的范例。
  • 关键技术: efficient influence function, doubly robust estimation, dependent left truncation, inverse probability of truncation weighting, semiparametric theory, prevalent cohort sampling
  • 为什么对您有用: 直接连接因果推断中的 identification 与半参数效率理论子方向:本文展示了如何在非 coarsened data 框架下推导 EIC 并构造 DR 估计量,对理解依赖性截断的 identification 逻辑有示范价值。用 technical_arsenal 中 moderately_familiar 的 semiparametric theory 与 identification theory 可以直接攻本文 EIC 推导的细节,验证其 DR 性质与渐近条件。立即可做:用 very_familiar 的 estimation theory in causal inference 与 moderately_familiar 的 semiparametric theory 即可复现其 EIC 推导并审视其 regularity 条件。

非参数 / 半参数 (nonparam_semipara, 5 篇)

1. 10.1093/biomet/asae007 — Explicit solutions for the asymptotically optimal bandwidth in cross-validation

  • 作者: Karim M Abadir, Michel Lubrano
  • 期刊/来源: Biometrika
  • 机构: Imperial College London · American University in Cairo · Centre National de la Recherche Scientifique · Aix-Marseille Université
  • 分类: vol 111 · issue 3 · pp 809-823
  • 相关性 8/10 · novelty: sharper_rate
  • 摘要: 在非参数密度估计与回归设定下,本文研究最小二乘交叉验证(LSCV)带宽选择的渐近最优解,核心假设是所选核函数在带宽与数据上渐近可分。对多元 Student-t(ν) 核,作者证明 LSCV 准则渐近等价于仅含三项的多项式,从而给出带宽的显式非迭代公式。所得公式计算极快,其积分平方误差(ISE)优于传统迭代 CV 实现,显著缓解了 CV 众所周知的样本变异性问题,并克服了重复观测下 CV 的失效。实证以密歇根州立大学工资-经验数据展示单变量与双变量非参数估计效果。对您可能有用:本文为非参数核估计带宽选择提供了可直接使用的显式渐近解,连接到您非参数统计与统计计算方向的具体需求。
  • 关键技术: least-squares cross-validation, asymptotically separable kernel, multivariate Student-t kernel, explicit bandwidth formula, integrated squared error, nonparametric density estimation
  • 为什么对您有用: 本文直接连接到您 primary interest 中的非参数统计理论与统计计算(数值方法与算法):显式非迭代带宽公式同时触及非参数渐近理论与计算效率两个子方向。您武器库中 very_familiar 的 nonparametric statistics 与 minimax bounds 可用于验证该渐近多项式近似在更一般核类下的 minimax 率是否紧,software development 经验可直接实现该公式并做 benchmark。立即可做:用 very_familiar 武器即可复现并拓展该显式解到其他核族或回归设定。

2. 10.1093/biomet/asae002 · arXiv — Efficient nonparametric estimation of Toeplitz covariance matrices

  • 作者: K Klockmann, T Krivobokova
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 843-864
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在 Toeplitz 协方差矩阵估计设定下,目标是在谱范数下获得 minimax optimal 的非参数估计量。作者通过数据变换将 Toeplitz 协方差估计问题转化为近似 Gauss 回归中的均值估计问题,从而利用回归框架下的非参数技术构造估计量。所得估计量天然正定、完全 data-driven 且计算极快(基于离散余弦变换 DCT),并在谱范数下对一大类 Toeplitz 矩阵达到 minimax optimal 收敛速率。该结果自然推广至 Toeplitz 协方差矩阵逆的估计,并提出了基于 DCT 的 Whittle likelihood 替代版本。对您有用之处:本文将协方差结构估计转化为均值回归的技巧,与您熟悉的非参数 minimax 理论直接对接,且其 DCT 变换与计算优化思路可迁移至高维统计计算场景。
  • 关键技术: Toeplitz covariance matrix estimation, data transformation to Gaussian regression, minimax rate under spectral norm, discrete cosine transform (DCT), Whittle likelihood approximation, positive definite construction
  • 为什么对您有用: 本文直接连接非参数 minimax 理论这一您 very_familiar 的武器,核心 trick(Toeplitz → 回归均值)可用 minimax bound 验证其声称的 rate 是否紧;DCT 变换带来的计算加速与您 stat_computing / einsum 方向的软件优化兴趣有接口。Follow-up 判断:立即可做——用您熟悉的 minimax 理论与高维渐近工具即可审视其谱范数下界的紧性,并尝试将 DCT 变换嵌入您已有的矩阵计算软件库做 benchmark。

3. 10.1093/biomet/asae006 — Regression analysis of group-tested current status data

  • 作者: Shuwei Li, Tao Hu, Lianming Wang, Christopher S McMahan, Joshua M Tebbs
  • 期刊/来源: Biometrika
  • 机构: Guangdong University Of Finances and Economics · Guangzhou University · Capital Normal University · University of South Carolina · Clemson University
  • 分类: vol 111 · issue 3 · pp 1047-1061
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对组检测(group testing)背景下的当前状态数据(current status data),目标是估计比例风险回归模型。个体仅被观测一次,终点为感染时间等时间-事件变量,但检测基于混合样本(pool)而非个体。作者提出 sieve 最大似然估计法,将累积基线风险函数近似为分段常数函数,并利用数据增广推导出计算高效的 EM 算法。渐近性质方面,通过现代经验过程理论建立了参数和非参数分量的相合性与收敛速度。模拟结果表明,所提方法表现良好,且优于基于个体检测的对应估计方法。最后,作者将其应用于衣原体数据集。该方法与您的半参非参理论(sieve MLE、经验过程)和统计计算(EM算法)直接相关,并连接流行病学实际数据,可视为您进入纵向或限变数据方法的一个良好入口。
  • 关键技术: sieve maximum likelihood estimation, piecewise constant approximation, expectation-maximization algorithm, empirical process theory, current status data, group testing
  • 为什么对您有用: 本文涉及半参非参估计(sieve MLE)和经验过程工具,与您的非参统计和 M-估计理论(moderately_familiar)直接对口,且使用 EM 算法属于统计计算兴趣。其应用场景为流行病学中的传染病筛查,连接次要兴趣。武器库中 very_familiar 的非参统计和 estimation theory 可立刻解析其证明框架;但当前状态数据与您的因果推断纵向设定有差异,需短期学习相关文献(中期可做)。总体而言,是值得一读的半参方法论文。

4. 10.1093/biomet/asae003 — Asymptotically constant risk estimator of the time-average variance constant

  • 作者: K W Chan, C Y Yau
  • 期刊/来源: Biometrika
  • 机构: Chinese University of Hong Kong
  • 分类: vol 111 · issue 3 · pp 825-842
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在平稳依赖数据设定下,目标是估计时间平均方差常数(TAVC),其长期方差估计依赖带宽选择。现有所有估计器的最优带宽均取决于目标参数本身及另一极难估计的未知参数,导致最优方差估计不可实现。本文引入收敛平顶核(converging flat-top kernels)构造新的 TAVC 估计器,使其最优带宽渐近地不依赖未知参数,从而可直接计算。理论证明新估计器具有渐近常数风险(asymptotically constant risk)且达到局部渐近 minimax 性质。对您可能有用:该工作在非参数核估计中实现了无需调参的渐近最优性,其 minimax 界与常数风险的论证手法可直接迁移到您熟悉的非参数 minimax 理论与逆问题研究中。
  • 关键技术: time-average variance constant, converging flat-top kernel, locally asymptotic minimax, asymptotically constant risk, long-run variance estimation, bandwidth-free asymptotic optimality
  • 为什么对您有用: 本文直接连接到您 primary interest 中的非参数理论(nonparametric statistics)与 minimax bounds:它给出了 TAVC 估计的局部渐近 minimax 下界,并构造了达到渐近常数风险的估计器,论证手法与您 very_familiar 的 minimax bounds 工具高度契合。用您熟悉的 minimax 界验证其常数风险声称是否紧,以及将收敛平顶核的免调参机制迁移到您研究的逆问题中长期方差估计,是立即可做的 follow-up 方向。

5. 10.1093/biomet/asad063 · arXiv — Nonparametric priors with full-range borrowing of information

  • 作者: F Ascolani, B Franzolini, A Lijoi, I Prünster
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 945-969
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文在贝叶斯非参数框架下研究异质性数据的依赖结构建模,目标是构造能够诱导任意符号相关性的新先验,从而突破传统方法仅允许非负相关性的限制。方法的核心是提出一种称为“hyper-tie”的新概念,作为依赖的直接度量,并基于此构建了一类新的依赖非参数先验。作者研究了先验和后验的分布性质,包括可交换性和后验一致性,证明了模型的灵活性。开发了用于后验推断的MCMC算法,并通过模拟和真实数据示例表明所提方法在聚类和预测上优于现有替代模型。对您而言,尽管属于贝叶斯非参数视角,但hyper-tie概念可能为因果推断中敏感度分析或不可观测混淆的依赖结构提供新思路;不过当前与您主要研究方向的直接重叠有限,可视为非参数理论方向的拓展阅读。
  • 关键技术: hyper-tie, dependent nonparametric priors, borrowing of information, posterior inference, MCMC algorithms, partial exchangeability
  • 为什么对您有用: 本文连接的是非参数理论中的先验建模子方向,但属于贝叶斯范畴,与您频率导向的非参数/半参数理论有一定距离。您武器库中“nonparametric statistics”可用于理解其先验构造对后验收缩的影响,但hyper-tie概念本身并非您核心工具。follow-up粗判:暂不可做,因为贝叶斯非参数先验设计及MCMC推断不在您的武器库中,且与当前主要兴趣(因果推断、高维U统计量)的直接接口较弱。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1093/biomet/asad073 · arXiv — Maximum likelihood estimation for semiparametric regression models with interval-censored multistate data

  • 作者: Yu Gu, Donglin Zeng, Gerardo Heiss, D Y Lin
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 971-988
  • 相关性 6/10 · novelty: new_method
  • 摘要: 针对区间删失多状态数据(如慢性病转归研究),本文提出了一类含随机效应的半参数比例强度模型,目标是对各状态间的转移强度进行估计和推断。核心方法采用非参数最大似然估计(NPMLE),并通过稳定化的期望最大化算法实现计算。理论上证明了参数估计量的相合性,有限维参数渐近正态,且其协方差矩阵达到半参数效率界,可通过剖面似然方法一致估计。模拟和真实流行病学队列数据验证了数值与推断过程的良好表现。对您而言,本文是半参数效率界在复杂纵向数据结构下的具体应用,连接了您的效率理论兴趣,同时提供了流行病学实际数据的分析模板。
  • 关键技术: Nonparametric maximum likelihood estimation, EM algorithm for interval-censored data, Semiparametric efficiency bound, Profile likelihood inference, Proportional intensity models with random effects
  • 为什么对您有用: 与您primary interest中的效率理论(半参数效率界)和半参数/非参数理论直接相关,展示了NPMLE在区间删失多状态设定下达到效率界的具体路径。您可以用very_familiar的nonparametric statistics和minimax bounds工具验证其收敛速率是否最优,或利用estimation theory理解剖面似然的标准误估计。立即可做:本文的理论和算法均在您武器库覆盖范围内,可直接精读并思考如何将类似NPMLE+EM框架迁移至因果推断中的纵向中介分析或敏感性分析。

数理统计 / 假设检验 (hypothesis_testing, 11 篇)

1. 10.1093/biomet/asad072 — Second term improvement to generalized linear mixed model asymptotics

  • 作者: Luca Maestrini, Aishwarya Bhaskaran, Matt P Wand
  • 期刊/来源: Biometrika
  • 机构: Australian National University · University of Technology Sydney
  • 分类: vol 111 · issue 3 · pp 1077-1084
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究广义线性混合模型(GLMM)中最大似然估计(MLE)的渐近方差精确化问题。在Jiang et al. (2022) 已推导出方差收敛速率(如m^{-1}和(mn)^{-1})的基础上,作者进一步给出难度较大的慢速收敛参数(mn^{-1}阶)的显式二阶项。方法核心是渐近展开技术,通过精细的矩阵代数推导出二阶修正项的具体形式。这些修正项可以提升有限样本下统计推断(如置信区间和假设检验)的准确性,并为试验设计提供更精确的样本量规划。本文属于渐近理论的前沿发展,特别适合统计学家在复杂相关数据处理中参考。对于关注数学统计与渐近效率理论的研究者,本文提供了GLMM这一重要模型类中MLE方差的精细刻画,可通过其技术框架检验自身工作中相关模型的渐近行为。
  • 关键技术: generalized linear mixed models, maximum likelihood estimation, asymptotic expansion, second-order variance approximation
  • 为什么对您有用: (1)直接对应primary interest中的mathematical statistics与hypothesis testing,特别是GLMM这一常用模型中的MLE渐近理论,其二阶修正项能为有限样本下的推断(如置信区间、检验)提供更可靠的误差控制;(2)武器库中very_familiar的high-dimensional asymptotics(高维渐近技术)可用于检验本文二阶项在组数m或组内样本量n趋无穷时的表现是否一致,甚至推广到高维固定效应情形;(3)属于立即可读但不直接可做的理论延伸:本文是纯渐近理论,暂无直接可实现的统计计算或因果推断应用,但可作为后续结合semiparametric theory或efficiency theory中影响函数展开的参考素材。

2. 10.1093/biomet/asad070 — Projective independence tests in high dimensions: the curses and the cures

  • 作者: Yaowu Zhang, Liping Zhu
  • 期刊/来源: Biometrika
  • 机构: Shanghai University of Finance and Economics · Renmin University of China
  • 分类: vol 111 · issue 3 · pp 1013-1027
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维设定下检验两个随机向量间的独立性,传统投影相关(projection correlation)面临三大瓶颈:计算复杂度 O{n3(p+q)}、渐近零分布不可解需依赖 permutation 重抽样、以及高维下检验功效衰减。本文通过修改权重函数将计算复杂度降至 O{n2(p+q)},并基于 U-statistic 理论构造估计量;关键在于利用高维特性,证明其渐近零分布为标准正态,从而无需 permutation 即可快速实施检验。为进一步提升高维功效,作者引入结合交叉验证的特征筛选(feature screening)步骤。数值实验验证了计算加速与功效提升。对您有用:本文将高维独立性检验的计算与理论问题统一用 U-statistic 工具解决,直接连接您的高阶 U-statistic 与高维假设检验兴趣。
  • 关键技术: projection correlation, U-statistic theory, high-dimensional asymptotic normality, feature screening with cross-validation, computational complexity reduction
  • 为什么对您有用: 本文直接连接您的高维假设检验与高阶 U-statistic 两个 primary interest:核心估计量基于 U-statistic 理论,且渐近零分布的 tractability 完全由高维设定驱动。您可以用 very_familiar 的 higher-order U-statistic / treewidth 视角分析其 O{n2(p+q)} 复杂度是否可进一步通过 tensor contraction 优化;同时用 minimax bound 验证其声称的功效提升是否紧。立即可做:用 very_familiar 的 U-statistic 计算与 minimax 工具即可动手分析其估计量结构与理论性质。

3. 10.1093/biomet/asad065 — On inference in high-dimensional logistic regression models with separated data

  • 作者: R M Lewis, H S Battey
  • 期刊/来源: Biometrika
  • 机构: Imperial College London
  • 分类: vol 111 · issue 3 · pp 989-1011
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在高维 logistic 回归中,当参数维度相对于有效样本量较大时,似然估计严重偏倚;若数据线性可分,MLE 不存在且对数似然趋于无穷。本文首先证明,在数据可分条件下对每个回归系数做精确推断会产生半无限置信集,这并非无意义而是对数据局限的真实刻画,有限置信集仅在额外假设下才可实现。随后在维度随样本量增长的 double-asymptotic 设定下,作者对 logistic 变换概率向量施加自然约束,推导出 logistic 系数与 OLS 估计量概率极限之间的显式关系;该 OLS 极限在数据可分时仍存在。最终在关于设计矩阵的弱条件下证明了约束估计的一致性,为可分数据下的高维 logistic 推断提供了替代路径。对您有用:此工作将高维 logistic 推断的 MLE 失效问题转化为约束 M-估计与 OLS 概率极限的数学统计问题,直接触及 hypothesis testing 与 high-dimensional asymptotics 的交叉。
  • 关键技术: linearly separable data, half-infinite confidence sets, double-asymptotic regime, constrained maximum likelihood, probability limit of OLS, high-dimensional logistic regression
  • 为什么对您有用: 本文直接处理高维 logistic 回归中 MLE 不存在(数据可分)时的精确推断与一致性理论,属于 hypothesis testing 与 high-dimensional asymptotics 的核心交叉。您武器库中的 high-dimensional asymptotics 与 M-estimation theory(moderately_familiar)可直接用来审视其 OLS 概率极限推导与约束估计的一致性率是否可进一步 sharpen。立即可做:用 very_familiar 的高维渐近工具验证其 double-asymptotic regime 下的收敛率;中期可做:若想将半无限置信集的构造推广到更一般的 M-估计设定,需先在 M-estimation theory 上长肌肉。

4. 10.1093/biomet/asae004 · arXiv — On the failure of the bootstrap for Chatterjee’s rank correlation

  • 作者: Zhexiao Lin, Fang Han
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 1063-1070
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 该论文研究Chatterjee秩相关系数的bootstrap推断一致性问题。Chaterjee秩相关系数是一种在独立性和相关性检测中广受关注的非参数统计量,已有经验表明标准bootstrap对其失效。作者在额外独立性假设下严格证明了该bootstrap的不一致性,并通过仿真验证了该结论在一般设定下的成立。这意味着该统计量属于渐近正态但bootstrap不一致的特殊类别。论文进而指出,有效的推断方法包括原论文提出的独立性检验以及Lin & Han (2022)的分析渐近方差估计器。该工作为秩统计量的bootstrap理论提供了重要反例,对假设检验领域的方法选择有直接指导意义。对于您而言,本文是一个假设检验基础理论的干净结果,直接关联您的mathematical statistics与hypothesis testing兴趣。
  • 关键技术: bootstrap inconsistency, Chatterjee's rank correlation, asymptotic normality, independence assumption, analytic variance estimator
  • 为什么对您有用: 本文直接关联您的primary interest中的hypothesis testing和mathematical statistics,具体聚焦于bootstrap一致性的非参数理论。您对nonparametric statistics非常熟悉,可以立即理解证明框架并评估其一般性。若要进一步推广到其他秩相关统计量或更弱条件,需要补充empirical process理论(目前不在arsenal中),可列为中期可做。本文的结果也值得作为bootstrap失效的典型例子在教学中引用。

5. 10.1093/biomet/asad074 · arXiv — Familial inference: tests for hypotheses on a family of centres

  • 作者: Ryan Thompson, Catherine S Forbes, Steven N MacEachern, Mario Peruggia
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 1029-1045
  • 相关性 7/10 · novelty: new_method
  • 摘要: 论文针对科学假设中未明确指定具体中心(如均值或中位数)导致统计检验与科学问题之间可能存在的缺口,提出检验一族中心(familial hypotheses)的框架,例如由Huber损失函数族诱导的中心。作者设计了一个贝叶斯非参数程序来检验这类家族假设,并为此开发了一种新的路径优化(pathwise optimization)算法来拟合Huber族。理论上证明了该检验的优良性质,包括渐近一致性,并在模拟实验中验证了其有限样本表现。通过两个心理学实例展示了方法的实用性。对您而言,该工作直接关联数学统计中的假设检验方向,尤其是处理中心测度不确定性的检验问题,可用于扩展您对非标准假设检验的理解。
  • 关键技术: Familial hypothesis, Bayesian nonparametric test, Huber loss family, Pathwise optimization, Hypothesis testing on centres
  • 为什么对您有用: 该论文属于假设检验领域,直接对接您的主要兴趣“mathematical statistics (hypothesis testing)”,尤其关注中心参数不确定性的检验。利用您武器库中非常熟悉的 nonparametric statistics 可以进一步检验该贝叶斯过程的新近性质或与频率学派方法对比;您熟悉的 minimax bounds 亦可评估该检验的最优性。中期可做,需先掌握贝叶斯非参数方法与路径优化技术(目前武器库未覆盖这一具体工具)。

6. 10.1093/biomet/asad068 · arXiv — Generalized kernel two-sample tests

  • 作者: Hoseung Song, Hao Chen
  • 期刊/来源: Biometrika
  • 机构: University of California, Davis
  • 分类: vol 111 · issue 3 · pp 755-770
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在 RKHS 框架下研究两样本检验问题,目标是检验 P=Q,针对中高维数据下现有 MMD 类检验对特定 alternative 敏感且受 curse of dimensionality 影响导致 power 不足的缺陷。本文提出广义核两样本检验,利用中高维下分布差异的常见模式(均值与方差-协方差结构的联合偏离)构造新统计量,在广泛 alternative 下实现显著 power 提升。同时提出低计算成本的替代检验程序,适用于大规模数据集的 off-the-shelf 应用。理论分析与大量模拟表明新方法在多种设定下优于现有 state-of-the-art 检验,实证通过分子形状比较与 JFK 机场出租车行程比较展示应用价值。对您有用:该工作直接推进了 hypothesis testing 子方向,其利用高维下特定偏离模式构造统计量的思路,可与您的高维渐近理论及 U-statistic 计算视角结合。
  • 关键技术: MMD (maximum mean discrepancy), RKHS two-sample test, generalized kernel test statistic, mean and variance-covariance deviation pattern, computational cost reduction, permutation-based testing
  • 为什么对您有用: 本文直接推进 primary interest 中的 hypothesis testing 子方向,针对中高维两样本检验的 power 与计算效率问题提出新统计量。您武器库中 very_familiar 的 minimax bounds 与 higher-order U-statistic computation (treewidth / einsum) 可直接攻其口子:用 minimax 理论验证其声称的 power 提升是否达到最优率,或用 U-statistic 计算视角分析其低计算成本方案的 tensor contraction 复杂度。Follow-up 判断:立即可做——用 very_familiar 武器即可着手分析其统计量的渐近性质与计算复杂度。

7. 10.1093/biomet/asad069 · arXiv — Testing serial independence of object-valued time series

  • 作者: Feiyu Jiang, Hanjia Gao, Xiaofeng Shao
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 925-944
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究度量空间(比欧氏/Hilbert空间更广)中对象型时间序列的序列独立性检验问题,目标是在无参数调优下捕捉所有非线性逐对依赖。核心方法是将度量空间距离协方差推广为自距离协方差,进而提出广义谱密度函数汇总所有滞后阶的逐对依赖,并构造 Cramér–von Mises 型检验统计量。理论方面,作者发展了新论证以建立该统计量在原假设下的渐近行为,并引入 wild bootstrap 获取非 pivotal 极限零分布的临界值。模拟与两例实证(累积日内收益与人类死亡率数据)验证了方法的有效性与通用性。对您有用之处在于:该检验统计量本质是高阶距离协方差 U-统计量的聚合,其渐近理论可直接对接您的高阶 U-统计量投影与计算工具。
  • 关键技术: distance covariance in metric spaces, auto-distance covariance, generalized spectral density, Cramer-von Mises test statistic, wild bootstrap, U-statistic asymptotic theory
  • 为什么对您有用: 直接连接 hypothesis testing 与 higher-order U-statistics 两个 primary interest 子方向:该 Cramér–von Mises 统计量是各滞后阶距离协方差(本身是 U-统计量)的聚合,其渐近零分布推导必然涉及高阶 U-统计量的投影与 degeneracy 分析。您可用 very_familiar 的 higher-order U-statistics computation (treewidth / einsum) 视角审视该统计量在对象型数据下的计算复杂度,或用 moderately_familiar 的高阶 U-统计量理论检验其渐近论证是否可进一步 sharpen。立即可做:用 einsum/tensor contraction 框架重构其 U-统计量核的计算以评估大规模滞后下的计算瓶颈。

8. 10.1093/biomet/asad080 · arXiv — Central limit theorems for local network statistics

  • 作者: P A Maugis
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 3 · pp 743-754
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文在非齐次随机图(inhomogeneous random graph)模型下推导了一类局部网络统计量——根子图(rooted subgraph)计数的联合中心极限定理。该模型高度灵活,涵盖大多数常见统计网络模型。方法核心是利用鞅中心极限定理处理顶点间的相依性,得到有限维根子图计数向量的渐近正态性及其协方差结构的显式表达式。这一理论结果将网络分析从全局摘要(如总三角形数)推进到顶点水平的局部特征建模,使得研究者可以构建回归模型将顶点协变量与局部子图模式联系起来。在实证部分,作者分析了一个学校友谊网络,发现性别和种族是友谊模式的显著预测因子。对该研究者而言,本文为网络数据的假设检验提供了严格的渐近基础,可直接嵌入数学统计兴趣中的假设检验子方向。
  • 关键技术: rooted subgraph counts, inhomogeneous random graph (IRG), martingale central limit theorem, joint asymptotic distribution, local network statistics
  • 为什么对您有用: 直接连接到您的数学统计兴趣中的假设检验子方向——本文的联合CLT为检验顶点协变量与局部网络结构之间的关系提供了理论支撑;武器库中'high-dimensional asymptotics'可以分析该CLT在高维稀疏网络下的收敛速率与有效性,而'higher-order U-statistics'视角则可用于理解根子图计数作为U-统计量的投影结构。粗判:立即可做——您可以用鞅方法或经验过程工具为其他网络模型(如随机块模型)推导类似CLT,或研究该CLT在高维情景下的最优检验构建。

9. 10.1093/biomet/asae001 · arXiv — A note on minimax robustness of designs against correlated or heteroscedastic responses

  • 作者: D P Wiens
  • 期刊/来源: Biometrika
  • 机构: University of Alberta
  • 分类: vol 111 · issue 3 · pp 1071-1075
  • 相关性 5/10 · novelty: minor
  • 摘要: 本文研究实验设计在协方差结构误设下的 minimax 稳健性。考虑响应变量可能相关或异方差,而设计者按独立同方差假设选择最优设计。作者证明:对于一大类协方差函数(即信息矩阵的某种凹泛函),其在标量倍单位矩阵处达到最大值;因此,在相关或异方差的最坏情形协方差结构下,原最优设计仍然是最优的(minimax 意义下)。这一结果提供了理论依据,支持实践中忽视可能的相关性或异方差性而直接采用独立同方差最优设计的常见做法。证明主要利用凸分析中关于矩阵函数的性质,简洁且具有一般性。对您而言,该文的 minimax 论证思路或许可迁移到高维或因果推断中处理协方差不确定性时的灵敏度分析,但该文本身为纯理论短文,没有提出新方法或新界。
  • 关键技术: minimax robustness, experimental design, covariance matrix function, D-optimality, matrix concavity
  • 为什么对您有用: (1)该文属于数学统计中的 minimax 稳健性方向,与您的第二兴趣“mathematical statistics & hypothesis testing”相关,但实验设计本身并非您的主攻方向。(2)这一 minimax 论证思路(在协方差类上取极大) 可能对您在高维协方差估计或因果推断的灵敏度分析中处理 worst-case 混淆有启发,但您目前的技术库(如 minimax bounds for estimation)中已有类似工具,无需新武器即可读懂,不过直接迁移性有限。(3)跟踪判断:中期可做——若要将这种 minimax 设计思想与您熟悉的 causal inference 结合(如对工具变量协方差的误设稳健性),需先在“semiparametric theory”或“identification theory”上稍微延伸,但目前不是紧迫入口。

10. 10.1093/biomet/asae010 · arXiv — Selective conformal inference with false coverage-statement rate control

  • 作者: Yajie Bao, Yuyang Huo, Haojie Ren, Changliang Zou
  • 期刊/来源: Biometrika
  • 机构: Shanghai Jiao Tong University · Nankai University
  • 分类: vol 111 · issue 3 · pp 727-742
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究选择性符合推断(selective conformal inference)问题,即在无标签测试数据中仅对被选中的个体报告预测区间,并控制假覆盖陈述率(false coverage-statement rate, FCR)。作者首先考察了 Benjamini & Yekutieli (2005) 的 FCR 调整方法在本设定下的表现,发现该方法虽能控制 FCR,但会导致预测区间均匀膨胀。为此,他们提出一种新的方法——选择性条件符合预测(selective conditional conformal prediction, SCCP)。SCCP 同时在校准集和测试集上执行选择程序,然后利用选择后校准集的条件经验分布为选中的测试候选构造符合预测区间。当选择规则可交换时,SCCP 能在无模型、无分布假设下精确控制 FCR;对于涉及校准集的非可交换选择程序,在温和分布假设下给出了 FCR 的非渐近界。数值实验表明,SCCP 在控制 FCR 的同时比现有方法得到更窄的预测区间。对您而言,该工作属于假设检验中多重比较的变体(FCR 控制),可扩展至因果推断中处理组/对照组的预测区间选择或高维变量筛选后的推断问题。
  • 关键技术: conformal prediction, false coverage statement rate, selective inference, exchangeability, post-selection inference, split conformal framework
  • 为什么对您有用: 该论文直接关联您对假设检验(尤其是多重比较)的兴趣:FCR 是 FDR 在区间估计中的对应概念,且本文处理的选择性推断问题在高维统计和因果推断中常出现(例如变量选择后报告置信区间)。您的技术武器库中非常熟悉的非参数统计(如 conformal prediction 的非参数性质)和高维渐近理论可用于理解其理论性质。中期可做:若想将 SCCP 推广至更复杂的因果结构(如工具变量或中介分析中的选择),需要在 moderately_familiar 的识别理论(如因果推断中的选择偏差)上进一步学习。总体而言,本文提供了现成的、可数值实现的多重区间估计方法,值得深入阅读。

11. 10.1093/biomet/asad075 — Phylogenetic association analysis with conditional rank correlation

  • 作者: Shulei Wang, Bo Yuan, T Tony Cai, Hongzhe Li
  • 期刊/来源: Biometrika
  • 机构: University of Illinois Urbana-Champaign · University of Pennsylvania
  • 分类: vol 111 · issue 3 · pp 881-902
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对微生物组系统发育关联分析,提出一个基于条件秩相关的非参数检验框架,用于检测微生物组成与结局变量之间的关联,包括非单调关系。现有方法多依赖线性假设且难以处理高维混杂,本文通过条件秩相关度量关联,在完全非参数意义上调整混杂,对异常值稳健且能捕捉多样依赖模式。框架通过加权和与最大值的聚合方式整合子树的秩相关,分别针对密集和稀疏信号。检验的显著性通过最近邻自助法校准,实现简单且可扩展至额外数据集。模拟和真实微生物组数据实验展示了方法的实用优势。对您而言,该工作将假设检验推广至复杂非参数关联场景,与您对非参数统计和假设检验的兴趣直接相关。
  • 关键技术: conditional rank correlation, nearest-neighbour bootstrapping, weighted sum and maximum aggregation, nonparametric confounding adjustment, subtree aggregation
  • 为什么对您有用: 本文连接您对假设检验和非参数统计的兴趣,特别是提出了一种处理混杂的完全非参数检验方法。您的“非参数统计”武器(very_familiar)可用于评估该检验的渐近性质和bootstrap一致性。基于现有非参数工具,您立即可做:分析该检验的power或与现有方法的理论对比。

其他 (other, 2 篇)

1. 10.1093/biomet/asae014 — Network community detection using higher-order structures

  • 作者: X Yu, J Zhu
  • 期刊/来源: Biometrika
  • 机构: University of Michigan
  • 分类: vol 111 · issue 3 · pp 903-923
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文针对网络社区检测问题,提出了一种利用高阶结构(如三角形、by-fans)的新方法,在边依赖网络模型(同时包含社区结构和三角形结构)下分析其统计性质。该模型区别于传统的独立边假设,更贴近现实网络的高阶结构丰富性。方法核心是构建基于高阶结构的相似度矩阵,并应用谱聚类实现社区划分;理论方面,推导了以期望三角形度刻画的有限样本误差界,证明了方法的相合性。这是首个在边依赖网络中给出社区检测有限样本误差界和相合性的工作,填补了理论空白。模拟和真实数据实验表明,该方法能发现传统方法(仅用边信息)无法识别的社区结构,凸显高阶结构的信息价值。对您而言,该问题中的高阶结构计数可视为一种高阶U-统计量,与您深耕的高阶U-统计量理论和计算(树宽/张量收缩)直接相关,同时其误差分析也涉及非参数极限理论和随机图概率工具,符合您的方法论兴趣。
  • 关键技术: community detection, higher-order structures, edge-dependent network model, spectral clustering, finite-sample error bound, triangle degree
  • 为什么对您有用: 本文的核心高阶结构(三角形计数)本质上是一种图上的高阶U-统计量,与您熟悉的higher-order U-statistics计算(树宽/张量收缩)直接概念连通,可将U-统计量的组合恒等式和收缩复杂度视角用于分析该方法的计算成本。此外,有限样本误差界的证明使用了随机图集中不等式,与您的非参数和高维渐近工具箱相容。后续可做:中期可做,需先补充网络模型(随机块模型)与谱聚类理论,这些与您的非参数工具箱可自然衔接。

2. 10.1093/biomet/asad067 — On the optimality of score-driven models

  • 作者: P Gorgi, C S A Lauria, A Luati
  • 期刊/来源: Biometrika
  • 机构: Vrije Universiteit Amsterdam · University of Bologna · Imperial College London
  • 分类: vol 111 · issue 3 · pp 865-880
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 得分驱动模型是时变参数条件密度建模的通用框架,其参数更新基于得分函数。已有结果表明该更新在局部(参数空间和样本空间的邻域)上可最小化局部Kullback-Leibler散度,但局部KL散度并非真正的散度度量。本文证明得分更新满足基于全局KL散度的更强最优性:它减少了期望更新参数与伪真参数之间的距离。在适当的条件密度和得分缩放下,该最优性可全局成立,是随机梯度下降单调性的推广。作者通过多个实例展示了在不同可检验假设下如何应用这些结果,并提供了选择链接函数和得分缩放的形式化方法。该工作为得分驱动模型提供了坚实的理论基础。
  • 关键技术: score-driven models, Kullback-Leibler divergence, pseudo-true parameter, stochastic gradient descent monotonicity, global optimality
  • 为什么对您有用: 本文属于时间序列建模的理论工作,与研究者的次要兴趣“经济理论”(经济时间序列应用)有潜在联系,尤其适用于波动率模型的估计。研究者武器库中的“高维渐近”及“极小极大界”可类比理解本文的全局最优性证明,但本文的核心工具(得分驱动架构、KL散度全局分析)并非研究者当前熟悉领域,因此暂不可直接开展follow-up工作,需先补充时间序列理论的基础知识。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论