跳转至

Biometrika — Vol 111 Issue 4 · 2026-05-26

  • 共 22 篇 · Biometrika

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

这一期《Biometrika》第111卷第4期共22篇论文,整体上可归纳为三条主线:因果推断与识别(约6篇,覆盖倾向得分匹配、敏感性分析、部分识别、缺失数据、最优治疗策略、算法辅助决策)、假设检验与推断(约7篇,涵盖置换检验、高维GLM检验、序贯检验、选择性推断、方差成分检验、FDP控制、时间序列依赖检验、偏相关推断),以及半参数/非参数方法与计算(约5篇,涉及稀疏纵向数据独立性检验、时间序列协方差估计、高斯过程近似、潜因子模型、谱密度去偏估计、图模型算法、频域子抽样)。此外,高维随机矩阵与社区检测有1篇独立论文。

在因果推断主线中,多篇论文聚焦于效率与识别边界的推进。On propensity score matching with a diverging number of matches 重新审视匹配数发散时的渐近效率,证明在特定条件下可达到半参数效率下界,直接回应Hahn (1998)的效率问题。Sensitivity analysis for matched observational studies with continuous exposures and binary outcomes 填补了连续暴露敏感性分析的空白,利用概率格论和design sensitivity提供渐近工具。Sharp symbolic nonparametric bounds for measures of benefit in ordinal outcomes 将部分识别边界从完美RCT推广至有未测量混杂的观察性研究,推导了sharp符号边界。Covariate adjustment in randomized experiments with missing outcomes and covariates 揭示了缺失数据下回归调整与倾向得分加权在效率上的非等价性,并提出了缺失指示法。A model-free variable screening method for optimal treatment regimes with high-dimensional survival data 将OTR筛选转化为加权KS检验,具双重稳健性。Optimal regimes for algorithm-assisted human decision-making 引入超优regimes概念,在未测量混杂下可超越传统regimes。

假设检验主线中,多篇论文关注检验势的提升与复杂设定下的有效性。More power by using fewer permutations 证明子群置换在某些设定下可显著提升势,尤其在高维中增益最大。Inference for possibly misspecified generalized linear models with nonpolynomial-dimensional nuisance parameters 提出dimension-reduced GLRT,对正则化参数稳健,并引入cross-fitting处理超高维虚假变量。A rank-based sequential test of independence 在序贯设定下实现distribution-free的独立性检验,给出有限样本界。Exact selective inference with randomization 通过闭式pivot实现精确选择性推断,虽牺牲部分功效但置信区间窄于数据分割。Bootstrap test procedure for variance components in nonlinear mixed effects models 处理边界与奇异Fisher信息矩阵,提出shrunk parametric bootstrap。Flexible control of the median of the false discovery proportion 提供FDP中位数控制的新程序,允许post hoc选α。Testing serial dependence or cross dependence for time series with underreporting 结合group-of-blocks bootstrap应对低报偏差。Inference for partial correlations of a multivariate Gaussian time series 推导了自相关下偏相关的渐近分布与Wald推断。

半参数/非参数与计算方法主线中,多篇论文涉及稀疏数据、长记忆与计算可扩展性。Testing independence for sparse longitudinal data 通过逐时点积分距离协方差,在稀疏观测下实现一致性检验,可迁移至因果推断中的可忽略性检验。Difference-based covariance matrix estimation in time series nonparametric regression 提出去偏差分估计器,对长记忆与异方差稳健,直接关联半参数效率中的偏差修正。Radial neighbours for provably accurate scalable approximations of Gaussian processes 给出Wasserstein-2误差的显式收敛速率,适用于大样本非参数回归。Individualized dynamic latent factor model for multi-resolutional data 用B-spline逼近个体化潜因子,提供插补误差上界。Debiasing Welch’s method for spectral density estimation 采用一阶去偏修正,与one-step debiasing框架同源。On some algorithms for estimation in Gaussian graphical models 考察IPS与NCD算法,对低colouring number图给出初始值构造。Skip sampling: subsampling in the frequency domain 提出频域子抽样,计算开销低于频域bootstrap。

与因果推断方向最贴的论文包括:On propensity score matching with a diverging number of matches、Sensitivity analysis for matched observational studies with continuous exposures and binary outcomes、Sharp symbolic nonparametric bounds for measures of benefit in ordinal outcomes、Covariate adjustment in randomized experiments with missing outcomes and covariates、A model-free variable screening method for optimal treatment regimes with high-dimensional survival data、Optimal regimes for algorithm-assisted human decision-making。与半参数效率方向最贴的包括:On propensity score matching with a diverging number of matches、Difference-based covariance matrix estimation in time series nonparametric regression、Debiasing Welch’s method for spectral density estimation。与高维方向最贴的包括:A model-free variable screening method for optimal treatment regimes with high-dimensional survival data、Inference for possibly misspecified generalized linear models with nonpolynomial-dimensional nuisance parameters、Network-adjusted covariates for community detection。

因果推断 (causal_inference, 6 篇)

1. 10.1093/biomet/asae026 — On propensity score matching with a diverging number of matches

  • 作者: Yihui He, Fang Han
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1421-1428
  • 相关性 9/10 · novelty: sharper_rate
  • 摘要: 在倾向得分匹配估计 ATE 的设定下,本文重新审视 Abadie & Imbens (2016) 的框架,研究匹配数 M 随样本量 n 增长(M→∞ 但 M/n→0)时的渐近行为。核心发现是:diverging-M 修改估计器在效率上优于固定 M 估计器,且在倾向得分具有特殊结构(如参数已知或满足特定光滑条件)时可达到半参数效率下界,呼应 Hahn (1998) 的洞察。渐近分析涉及匹配估计器的 influence function 展开,需处理 diverging M 引入的额外偏差与方差 trade-off。主要理论结果给出了达到效率下界的充分条件及对应收敛速率。对您有用:本文直接连接因果推断估计理论与半参数效率理论两个 primary interests,且 diverging-M 的效率改进路径(增匹配数降条件方差)可与 HOIF 的高阶修正降偏差路径形成方法论对比。
  • 关键技术: propensity score matching, diverging number of nearest neighbours, semiparametric efficiency bound, influence function expansion, asymptotic normality under growing M
  • 为什么对您有用: 本文连接因果推断的倾向得分匹配估计与半参数效率下界两个 primary interest 子方向。您 technical_arsenal 中 'estimation theory in causal inference'(very_familiar)可直接理解其渐近框架,'semiparametric theory'(moderately_familiar)可用来审视其声称达到效率下界的条件是否与 HOIF 视角下的必要条件一致。Follow-up:立即可做——用 very_familiar 的因果推断估计理论工具即可复现并扩展其渐近分析,进一步可探讨 diverging-M 匹配与 HOIF 修正的效率改进路径是否可统一。

2. 10.1093/biomet/asae021 — Sensitivity analysis for matched observational studies with continuous exposures and binary outcomes

  • 作者: Jeffrey Zhang, Dylan S Small, Siyu Heng
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1349-1368
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在匹配观察性研究中,连续暴露变量的敏感性分析框架长期缺失(仅配对匹配有特例),本文针对连续暴露+二元结局的一般匹配设计填补此空白。利用概率格论(probabilistic lattice theory)证明在Fisher sharp null下有限总体精确检验性质。推导design sensitivity公式作为渐近评估工具,量化敏感性分析方法的渐近鲁棒性。引入generalized attributable effects框架,通过mixed-integer programming实现允许效应异质性的渐近精确推断与敏感性分析。证明当暴露与结局均为连续时,渐近精确敏感性分析一般NP-hard(配对匹配除外),为stat-computational tradeoff提供了新的hardness实例。实证应用于早期铅暴露对青少年犯罪的影响(流行病学数据集),R包doseSens已发布。对您有用:NP-hard结论触及stat-computational tradeoff方向,敏感性分析框架可对接identification theory in causal inference。
  • 关键技术: probabilistic lattice theory, design sensitivity formula, Fisher sharp null, generalized attributable effects, mixed-integer programming, NP-hardness proof
  • 为什么对您有用: 连接到 causal inference 的 sensitivity analysis 子方向与 stat-computational tradeoff 的 NP-hardness 结果。NP-hard 证明的 combinatorial complexity 可用 very_familiar 的 treewidth / tensor contraction 视角审视其计算结构是否与 U-statistic 的图论代价模型有深层对应;敏感性分析模型设定本身可用 moderately_familiar 的 identification theory in causal inference 入手。中期可做:需先在 identification theory 上长肌肉以深入理解匹配设计下 sensitivity model 的 formalization,NP-hard 证明的核心复杂度工具(如归约构造)暂不在武器库。

3. 10.1093/biomet/asae020 — Sharp symbolic nonparametric bounds for measures of benefit in observational and imperfect randomized studies with ordinal outcomes

  • 作者: Erin E Gabriel, Michael C Sachs, Andreas Kryger Jensen
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1429-1436
  • 相关性 8/10 · novelty: weaker_assumption
  • 摘要: 在因果推断的 partial identification 框架下,本文针对 ordinal outcome 下三个不可识别的 benefit 度量——probability of benefit、probability of no harm 与 relative treatment effect——推导了 sharp symbolic nonparametric bounds。这些 estimands 即使在完美随机化试验中也不可识别;本文将已有文献中仅适用于完美 RCT 的 bounds 推广到有未测量混杂的观察性研究和不完美随机化试验(如 noncompliance)设定。核心方法是利用 potential outcome 联合分布的 marginal 可识别但 joint 不可识别这一结构约束,推导闭式解析 bounds 而非数值优化。主要理论结果是给出了三类 estimand 在三种设定下的 sharp bounds 表达式,并证明这些 bounds 在相应假设类下不可改进。对您有用:本文直接连接到 causal inference 的 identification theory 与 sensitivity analysis(partial identification under unmeasured confounding),是 unidentifiable estimand bounding 在 ordinal outcome 下的系统推进。
  • 关键技术: partial identification, sharp nonparametric bounds, probability of benefit, ordinal potential outcomes, unmeasured confounding sensitivity, imperfect randomized trials
  • 为什么对您有用: 本文直接连接到 causal inference 的 identification theory 子方向——partial identification / sensitivity analysis for unidentifiable estimands under unmeasured confounding。研究者 moderately_familiar 的 identification theory in causal inference 可以直接攻这篇 paper 的口子:这些 symbolic bounds 本身是可识别 marginal 分布函数的极值组合,其 semiparametric efficient estimation 问题(bounds 估计的 efficiency bound 与 influence function)是一个自然的 follow-up,目前文献较少系统处理。中期可做:需先在 semiparametric theory 上长肌肉(bounds 作为可识别函数极值的估计效率理论),但 identification 部分与 bounds 推导可直接上手。

4. 10.1093/biomet/asae017 — Covariate adjustment in randomized experiments with missing outcomes and covariates

  • 作者: Anqi Zhao, Peng Ding, Fan Li
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1413-1420
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在随机化实验中,目标是在 outcome 和 covariate 均有缺失时估计平均处理效应(ATE),假设处理分配已知、缺失机制为可忽略(ignorable)但未必 MCAR。本文将回归调整与倾向得分加权分别与逆概率观测加权(IPOW)结合,证明在缺失 outcome 下两种调整方法的等价性不再成立:回归调整仅在 outcome 模型为线性或 MCAR 时保证效率提升,否则可能劣于未调整分析;倾向得分加权则始终保证效率优于未调整分析,且增加协变量不会损害渐近效率。进一步提出缺失指示法(missingness indicator method):将缺失协变量用零填补并加入缺失指示变量作为新协变量,证明利用部分观测协变量可额外提升效率。理论结果基于 semiparametric efficiency bound 与 influence function 分析,对您在因果推断的 estimation theory 与 semiparametric theory 子方向有直接参考价值。
  • 关键技术: covariate adjustment, inverse probability of observation weighting, propensity score weighting, missingness indicator method, semiparametric efficiency bound, influence function
  • 为什么对您有用: 直接连接因果推断的 estimation theory 与 semiparametric theory 子方向:本文用 influence function 和 efficiency bound 严格比较了缺失数据下两种调整策略的渐近效率,与您熟悉的 semiparametric efficiency 分析高度一致。用您 very_familiar 的 estimation theory in causal inference 和 moderately_familiar 的 semiparametric theory 即可复现其效率比较论证——立即可做。可进一步用 HOIF 视角探讨缺失指示法是否可逼近更高阶效率,这是一个中期可做的延伸方向。

5. 10.1093/biomet/asae022 — A model-free variable screening method for optimal treatment regimes with high-dimensional survival data

  • 作者: Cheng-Han Yang, Yu-Jen Cheng
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1369-1386
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在高维生存数据的最优治疗策略(OTR)设定下,本文目标是筛选对 OTR 有影响的活跃变量,无需生存结局模型假设。核心机制是将 OTR 等价于最小化加权误分类误差的最优分类器,权重由生存结局、删失分布和目标人群决定。通过将加权分类重构为假设人群中的标准分类问题(视为逆权重抽样下的结局依赖抽样),作者提出加权 Kolmogorov–Smirnov (KS) 篮选方法,扩展了传统二分类 KS 篮选。该方法具双重稳健性:不依赖生存结局模型,也不要求治疗策略形式或凸代理损失设定。理论上建立了 sure screening 性质,实证通过模拟和肺癌数据集验证。对您有用:将 OTR 的因果识别与非参 KS 篮选结合,为高维因果推断中的变量选择提供了无模型假设的新视角,且肺癌数据集可作为流行病学因果应用的参考。
  • 关键技术: optimal treatment regime, weighted misclassification error, outcome-dependent sampling, weighted Kolmogorov-Smirnov screening, sure screening property, model-free robustness
  • 为什么对您有用: 本文连接到高维因果推断中的最优治疗策略(OTR)设定,以及流行病学(肺癌生存数据)的因果应用。您可以用 very_familiar 的 nonparametric statistics / minimax bounds 分析其 weighted KS 篮选的极值分布与收敛率,或用 moderately_familiar 的 M-estimation theory 检验其 sure screening 理论的边界。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以将此 KS 篮选扩展至带有 semiparametric efficiency bound 的 DML 估计框架中。

6. 10.1093/biomet/asae016 — Optimal regimes for algorithm-assisted human decision-making

  • 作者: M J Stensrud, J D Laurendeau, A L Sarvet
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1089-1108
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究算法辅助人类决策的 superoptimal regimes:决策函数同时利用预处理变量 W 与自然处理值 A_natural(人类原本会赋予的处理),从而具有超越传统最优 regimes 的超优性。核心理论结果是:存在未测量混杂时 superoptimal regimes 可显著优于仅依赖 W 的传统 regimes;无未测量混杂时两者等价。对二元处理,superoptimal regimes 下期望结果的 identification 在非实验研究中仅需与传统 value function identification 相同的假设。作者在常见 IV 设定下推导了具体的 identification 公式与 estimation 方法,并用 ICU 早期干预对生存率的影响做实证分析。对您而言,superoptimal regimes 的 identification 理论与 IV 设定下的估计直接连接到 causal inference 的 identification theory 和 IV 子方向。
  • 关键技术: superoptimal regimes, instrumental variable identification, value function estimation, optimal treatment regime, unmeasured confounding leverage
  • 为什么对您有用: 本文直接连接 causal inference 的 identification theory 和 IV 方法子方向——superoptimal regimes 利用自然处理值携带的未测量混杂信息是一个新的 identification 视角,IV 设定下的推导是具体落地。研究者武器库中 "identification theory in causal inference"(moderately_familiar)可直接攻入此文的 identification 推导;若要进一步研究 superoptimal regimes 的 semiparametric efficiency bound 或 debiased estimator,需先在 "semiparametric theory"(moderately_familiar)上长肌肉。Follow-up 判断:中期可做——identification 部分立即可读可验证,但推导效率理论需先巩固 semiparametric theory。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)

1. 10.1093/biomet/asae011 — Network-adjusted covariates for community detection

  • 作者: Y Hu, W Wang
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1221-1240
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文在 degree-corrected stochastic blockmodel (DC-SBM) with covariates 设定下研究 community detection,目标 estimand 是节点社区标签,关键假设是网络可能存在多尺度密度(multiple sparse communities)及模型误设。核心方法提出 network-adjusted covariates:对每个节点构造一个 node-specific weight,将网络连接信息与节点协变量加权融合,该权重无需调参即可计算。理论方面,在 DC-SBM + covariates 框架下证明了强一致性(strong consistency),即使存在模型误设与多个稀疏社区仍成立;同时建立了网络+协变量同时存在时 community detection 的一般下界,并证明该方法在连接强度上达到常数因子最优。实证在 LastFM 网络与统计期刊引用网络(30%孤立节点)上优于现有方法。对您可能有用:该文的 minimax lower bound 与常数因子最优性分析,可作为高维/网络推断中 rate-sharpening 的参考案例。
  • 关键技术: degree-corrected stochastic blockmodel, network-adjusted covariates, minimax lower bound, strong consistency, multiscale community detection, node-specific weight
  • 为什么对您有用: 本文连接到高维统计与随机矩阵理论子方向(网络模型的谱方法与 minimax rate),其 minimax lower bound 的推导方式可被您用 very_familiar 的 minimax bounds 工具直接审视是否紧;node-specific weight 的无调参构造涉及 M-estimation 理论,您在 moderately_familiar 的 M-estimation 上可进一步探索其误设下的 robustness。Follow-up 判断:立即可做——用 minimax bound 工具验证其常数因子最优性声称是否可进一步 sharpen。

非参数 / 半参数 (nonparam_semipara, 5 篇)

1. 10.1093/biomet/asae035 — Testing independence for sparse longitudinal data

  • 作者: Changbo Zhu, Junwen Yao, Jane-Ling Wang
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1187-1199
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究稀疏纵向/函数数据中两条随机轨迹的独立性检验问题,设定为每个个体仅在少量且随个体变化的时点被观测,且观测含噪声。作者提出将逐时点(pointwise)距离协方差沿时间轴积分,构造同时检验所有时点独立性的统计量。核心机制在于:即使单个体观测极稀疏,通过跨个体聚合与积分,统计量仍以某速率收敛至总体量——后者刻画了两随机函数的逐时点联合独立性。理论证明无需密集采样或平滑假设,填补了稀疏函数数据无一致性检验的空白。对您有用之处:该逐时点积分+距离协方差框架可迁移至纵向因果推断中稀疏混杂轨迹的独立性/可忽略性检验。
  • 关键技术: distance covariance, pointwise independence testing, sparse functional data, integral aggregation, convergence rate under sparse sampling
  • 为什么对您有用: 直接连接非参数检验与纵向数据(primary: causal inference longitudinal + nonparametric theory)。技术武器库中 nonparametric statistics 与 minimax bounds 可用于审视其收敛速率是否可达 minimax 最优;moderately_familiar 的 semiparametric theory 可用于探索该检验的效率界。立即可做:用 very_familiar 的 minimax bound 工具验证其声称速率的紧性。

2. 10.1093/biomet/asae013 — Difference-based covariance matrix estimation in time series nonparametric regression with application to specification tests

  • 作者: Lujia Bai, Weichi Wu
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1277-1292
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究时间序列非参数回归中基于差分的长期协方差矩阵估计,目标 estimand 为带时变系数的函数线性模型下的长期协方差矩阵,允许非平稳、长记忆与状态异方差等非标准设定。核心方法提出一种去偏(debiased)差分估计器,通过修正直接多元扩展的渐近偏差,避免了趋势剔除(detrending),对平滑与突变结构断点均稳健。理论证明该估计器在长记忆与异方差条件下仍保持一致性,并将其应用于结构稳定性检验与非参数残差长记忆检验,前者克服了分段平滑替代假设下的非单调功效现象,后者通过残差无关公式提升表现。对您可能有用:该去偏差分估计器的偏差修正机制与长记忆设定下的渐近分析,直接关联到您在 semiparametric efficiency 与 time-series causal inference 中的估计理论工作。
  • 关键技术: difference-based covariance estimation, debiased estimator, time-varying coefficient functional linear model, long-range dependence, structural stability test, nonmonotonic power
  • 为什么对您有用: 本文直接关联 semiparametric / nonparametric theory 中的去偏估计与渐近效率分析,其 debiased 差分机制与您熟悉的 debiased ML / HOIF 偏差修正思路有技术同构性。用您 very_familiar 的 minimax bounds 与 high-dimensional asymptotics 工具,可以验证该估计器在长记忆设定下的收敛率是否达到 minimax 下界,或将其扩展到高维时变系数模型——立即可做。

3. 10.1093/biomet/asae029 — Radial neighbours for provably accurate scalable approximations of Gaussian processes

  • 作者: Yichen Zhu, Michele Peruzzi, Cheng Li, David B Dunson
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1151-1167
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在大样本地理统计问题中,本文提出 radial-neighbour Gaussian process (RN-GP),通过有向无环图将每个位置与预定半径内所有邻居相连,实现 O(n) 计算复杂度的 GP 近似。核心 estimand 是原始无约束 GP 在 Wasserstein-2 距离下的近似误差界;关键假设包括空间协方差函数的衰减速率与样本点的空间分散度。作者证明 RN-GP 的 Wasserstein-2 误差由近似半径、协方差结构与空间分散度联合控制,给出了显式的收敛速率。实证部分在模拟与真实数据上验证了先验与后验近似的优良表现。对您有用:本文为高维/大样本非参数回归中的 GP 稀疏近似提供了严格的理论保证,与您在 semiparametric/nonparametric theory 和 statistical computing 上的兴趣直接相关。
  • 关键技术: directed acyclic graph approximation, Wasserstein-2 distance bound, radial-neighbour Gaussian process, sparse GP approximation, spatial covariance decay rate, O(n) computational complexity
  • 为什么对您有用: 本文直接连接到您 primary interest 中的 nonparametric theory 与 statistical computing:它给出了基于 DAG 的 GP 稀疏近似的 Wasserstein-2 误差率,填补了 Vecchia/NNGP 类方法的理论空白。您可以用 minimax bound 的工具审视其声称的 rate 是否紧,或用 higher-order U-statistic 的 tensor contraction 视角分析其 DAG 结构下的计算成本。follow-up 判断:立即可做——您 very_familiar 的 minimax bound 与 high-dimensional asymptotics 可直接用于评估其 rate 的紧性;若想深入 DAG 结构与 tensor contraction 的计算复杂度联系,需在 moderately_familiar 的 M-estimation theory 上稍作延伸。

4. 10.1093/biomet/asae015 — Individualized dynamic latent factor model for multi-resolutional data with application to mobile health

  • 作者: J Zhang, F Xue, Q Xu, J Lee, A Qu
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1257-1275
  • 相关性 3/10 · novelty: new_method
  • 摘要: 针对移动健康中不规则多分辨率时间序列数据的插补问题,本文提出个体化动态潜因子模型(individualized dynamic latent factor model),目标是将低分辨率时间序列的未采样时刻进行插补,核心假设是各分辨率序列共享潜空间且个体动态因子捕捉异质性纵向轨迹。方法通过将多分辨率不规则观测映射至潜空间统一建模,个体化动态潜因子用 B-spline 逼近,实现跨序列、跨个体的信息整合。理论部分给出了积分插补误差的上界及 B-spline 逼近的收敛速率。仿真与智能手表数据应用表明方法优于现有插补方案。对您而言,B-spline 收敛率分析属于非参数理论范畴,个体化纵向建模与 causal inference 中 longitudinal 设定有间接联系。
  • 关键技术: dynamic latent factor model, B-spline approximation convergence rate, multi-resolution time series interpolation, individualized heterogeneous longitudinal modeling, integrated interpolation error bound
  • 为什么对您有用: 本文连接到非参数理论中的 B-spline 收敛率分析,以及 causal inference 中 longitudinal 异质性建模的间接关联。武器库中 nonparametric statistics 和 M-estimation theory 可用来审视其收敛率界是否紧、潜因子估计的渐近性质是否可进一步刻画。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,才能将此类潜因子模型与 semiparametric efficiency 框架对接,推导潜因子估计的 influence function 与效率界。

5. 10.1093/biomet/asae033 — Debiasing Welch’s method for spectral density estimation

  • 作者: Lachlan C Astfalck, Adam M Sykulski, Edward J Cripps
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1313-1329
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究 Welch 方法在有限样本下谱密度估计的 bias-variance trade-off:随着分段数增加方差下降但偏差增大,目标是在四阶平稳过程(有限四阶矩、绝对收敛四阶累积量函数)设定下构造去偏估计量。核心方法是对 Welch 估计量施加一阶去偏修正,保持原算法计算复杂度与渐近一致性,同时显著降低有限样本偏差;估计量允许频率上的非均匀采样,可用于信号压缩与进一步方差缩减。理论证明去偏估计量在所设条件下仍为一致估计,数值模拟与真实数据验证偏差大幅下降。对您有用:本文的去偏思路与 semiparametric efficiency / one-step debiasing 框架同源,频率非均匀采样与方差缩减策略对高维时间序列推断有迁移价值。
  • 关键技术: Welch's method, bias-variance trade-off, first-order debiasing correction, fourth-order stationary process, irregular frequency spacing, spectral density estimation
  • 为什么对您有用: 直接连接 semiparametric / efficiency theory 子方向:本文的一阶去偏修正本质上是 one-step debiasing 在谱密度估计的具体实现,与您熟悉的 HOIF 和 semiparametric efficiency bound 框架同构。用 very_familiar 的 minimax bound 工具可验证其声称的偏差缩减率是否紧;频率非均匀采样部分的方差缩减可尝试用 moderately_familiar 的 M-estimation theory 建立更一般的理论。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将 Welch 去偏与 higher-order influence function 结合以进一步消除残余偏差。

数理统计 / 假设检验 (hypothesis_testing, 8 篇)

1. 10.1093/biomet/asae031 — More power by using fewer permutations

  • 作者: Nick W Koning
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1405-1412
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究置换检验中子群置换(subgroup permutation)相对于全置换的势(power)优势,目标是在保持检验有效性(validity)的前提下,通过使用更小的置换子群来提升检验势。作者证明,在某些设定下,使用极小的置换子群(如仅含 sign-flip 的子群)可以比全置换获得显著更高的势,同时大幅降低计算成本。核心机制在于:子群置换改变了检验统计量的分布结构,使得在 Gaussian location model 下,子群置换检验的相对效率(relative efficiency)可以远超全置换检验,且在高维设定下增益最大。作者将此思路应用于改进 Westfall-Young MaxT 多重检验方法,理论分析与数值实验均验证了高维下的显著势提升。对您而言,这篇工作直接触及 hypothesis testing 与高维统计的交叉,其效率分析手法(相对效率、高维极限)与您熟悉的高维渐近理论可直接对接。
  • 关键技术: subgroup permutation test, relative efficiency, Westfall-Young MaxT, Gaussian location model, high-dimensional asymptotics, permutation-based multiple testing
  • 为什么对您有用: 本文直接连接 hypothesis testing(置换检验的势与效率)与 high-dimensional statistics(高维下的相对效率增益),属于您 primary interests 的交汇点。您武器库中的 high-dimensional asymptotics 可直接用于验证和拓展作者声称的效率界是否紧,以及是否能在更一般的 semiparametric 模型下复现类似增益。立即可做:用 very_familiar 的高维渐近工具复现并推广 Gaussian location model 下的相对效率分析。

2. 10.1093/biomet/asae024 — Inference for possibly misspecified generalized linear models with nonpolynomial-dimensional nuisance parameters

  • 作者: Shaoxin Hong, Jiancheng Jiang, Xuejun Jiang, Haofeng Wang
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1387-1404
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维广义线性模型中,当条件方差可能误设定且 nuisance 参数维度为非多项式阶时,研究对低维兴趣参数的有效检验问题。提出基于拟似然估计的 dimension-reduced generalized likelihood ratio test,在正确收缩量下达到 nearly oracle 性能,且对正则化参数选择在大范围内稳健。进一步发展 adaptive data-driven 版本,证明其以概率趋于1等价于 oracle 检验。针对超高维下惩罚估计产生虚假重要变量的问题,引入 cross-fitted dimension-reduced generalized likelihood ratio test,既消除虚假效应又对正则化参数稳健,并建立所有所提检验的极限分布。对您有用:该文的 cross-fitted dimension-reduced 检验策略与 semiparametric efficiency 中 cross-fitting / nuisance 消除思路相通,直接推进了高维 GLM 下 hypothesis testing 的理论。
  • 关键技术: dimension-reduced generalized likelihood ratio test, quasilikelihood estimation under variance misspecification, adaptive oracle test with data-driven shrinkage, cross-fitted test for spurious variable elimination, penalized estimation in ultrahigh-dimensional GLM
  • 为什么对您有用: 直接连接 hypothesis testing(高维 GLM 下低维参数检验)与 semiparametric efficiency(cross-fitting 消除高维 nuisance 的思路)。研究者可用 very_familiar 的高维渐近理论与 minimax bound 工具验证其声称的 oracle rate 是否 minimax 紧,或用 moderately_familiar 的 M-estimation 理论审视拟似然估计在误设定下的影响函数推导。立即可做:用高维渐近工具检查其极限分布与 oracle rate 的紧性。

3. 10.1093/biomet/asae023 — A rank-based sequential test of independence

  • 作者: Alexander Henzi, Michael Law
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1169-1186
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在连续抽样(sequential)设定下,本文研究两个一元随机变量的独立性检验问题。基于 safe/anytime-valid inference 的最新进展,作者提出了一种具有时间均匀 Type-I 误差控制的秩检验,并给出有限样本性能的显式界。该检验在原假设下 distribution-free,无需指定边际分布。作者通过模拟量化了 Ville 不等式(Markov 不等式的超鞅类比)在 anytime-valid 推断中引入的保守间隙,并据此构造了截断序贯检验。实证比较表明该方法在序贯与非序贯独立性检验中表现良好。对您有用:本文直接连接 hypothesis testing 与 nonparametric rank-based 方法,Ville 不等式保守间隙的量化为理解 anytime-valid 检验的 finite-sample power 提供了具体视角。
  • 关键技术: rank-based independence test, Ville's inequality, anytime-valid inference, time-uniform Type-I error control, supermartingale test statistic, distribution-free sequential test
  • 为什么对您有用: 本文直接连接您 primary interest 中的 hypothesis testing 子方向,秩检验的 distribution-free 性质与 nonparametric statistics 武器库高度匹配。Ville 不等式保守间隙的量化可用 minimax bound 视角审视其 power 损失是否可进一步收紧。Follow-up 判断:中期可做——需先在 anytime-valid inference / supermartingale 方法上长肌肉(moderately_familiar 中尚无此项),之后可用 very_familiar 的 minimax bounds 分析序贯独立性检验的 power 下界。

4. 10.1093/biomet/asae019 — Exact selective inference with randomization

  • 作者: Snigdha Panigrahi, Kevin Fry, Jonathan Taylor
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1109-1127
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在 Gaussian 回归模型的选择性推断设定下,本文目标是利用随机化机制对选中变量参数提供精确推断。核心方法是将选择性推断问题转化为对双变量截断 Gaussian 变量的推断,从而获得了闭式解的 pivot。该 pivot 保证精确推断,虽比近似 MLE 方法牺牲部分功效,但置信区间始终窄于数据分割方法。作者通过模拟和 HIV 药物耐药性数据集验证了精确性与功效的权衡。对您有用:本文的闭式 pivot 与截断 Gaussian 处理为选择性推断提供了严格数学基础,直接呼应您对 hypothesis testing 的兴趣。
  • 关键技术: selective inference, randomization pivot, bivariate truncated Gaussian, data splitting, post-selection inference
  • 为什么对您有用: 直接连接到您 primary interest 中的 "mathematical statistics (hypothesis testing)",特别是 post-selection inference 这一现代假设检验子方向。您 very_familiar 的 "high-dimensional asymptotics" 和 moderately_familiar 的 "M-estimation theory" 可以用来分析该闭式 pivot 在高维设定下的渐近行为,或将其从 Gaussian 拓展到半参数 M-估计框架。中期可做:需先在 "M-estimation theory" 上长肌肉,才能将此精确 pivot 拓展到非 Gaussian 的半参数/非参数估计器。

5. 10.1093/biomet/asae025 — Bootstrap test procedure for variance components in nonlinear mixed effects models in the presence of nuisance parameters and a singular Fisher information matrix

  • 作者: T Guédon, C Baey, E Kuhn
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1331-1348
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在非线性混合效应模型中,本文研究使用似然比检验(LRT)检验方差成分,目标 estimand 是方差参数是否为零,设定中存在 nuisance 参数(未检验方差也可能为零)且 Fisher 信息矩阵奇异。该设定是非正则的:零假设下参数位于参数空间边界,且 nuisance 参数使边界点位置未知;非线性模型导致真实参数处 Fisher 信息矩阵奇异,经典 MLE 渐近理论失效。作者提出 shrunk parametric bootstrap 检验程序,通过参数收缩策略同时解决边界与信息矩阵奇异问题。理论上证明了该 bootstrap 程序的一致性,并给出可验证的适用性准则;模拟表明其小样本表现优于渐近方法且对 nuisance 参数更鲁棒。对您有用:直接推进了数学统计中非正则假设检验(边界+奇异信息矩阵)的理论与计算方法,与您 hypothesis testing 的 primary interest 高度契合。
  • 关键技术: likelihood ratio test, boundary of parameter space, singular Fisher information matrix, shrunk parametric bootstrap, nonlinear mixed effects models, nuisance parameters
  • 为什么对您有用: (1) 直接对应 primary interest 中的 mathematical statistics (hypothesis testing),特别是非正则设定(参数边界与奇异信息矩阵)下的检验问题。(2) 可以用您 moderately_familiar 的 M-estimation theory 视角,审视其 shrunk bootstrap 的收缩量选择是否具有局部渐近最优性,或分析奇异信息矩阵下 LRT 统计量的局部渐近分布。(3) 中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,特别是非正则 M-估计量与局部渐近实验框架在奇异点处的变体,才能深入攻破其 bootstrap 一致性证明或提出更优收缩策略。

6. 10.1093/biomet/asae018 — Flexible control of the median of the false discovery proportion

  • 作者: Jesse Hemerik, Aldo Solari, Jelle J Goeman
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1129-1150
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在多重检验设定下,本文提出一种仅依赖 p-value 向量作为输入的新程序,旨在灵活控制 false discovery proportion (FDP) 的中位数,而非传统 BH 方法控制的 FDP 均值(即 FDR)。核心机制借鉴了估计真实零假设总数的流行估计量,将其改造为 FDP 的同时中位无偏估计量(simultaneous median unbiased estimators),且该无偏性在有限样本下成立,从而允许在看到数据后自由选择一个或多个 α 值进行决策,克服了 BH 方法在 post hoc 选 α 时可能极度反保守的问题。方法不假设 p-value 间的独立性,排序后时间复杂度为线性。主要理论结果证明了 FDP 中位数的有限样本控制与同时无偏性;模拟验证了其灵活性优势。对您可能有用:该工作在多重检验的 hypothesis testing 方向提供了比 BH 更稳健的 post hoc 控制框架,其同时无偏估计量的构造思路可能启发您在 semiparametric / efficiency 理论中考虑有限样本无偏性与 post hoc inference 的结合。
  • 关键技术: false discovery proportion (FDP) median control, simultaneous median unbiased estimation, post hoc multiple testing, Benjamini-Hochberg comparison, finite-sample validity without independence
  • 为什么对您有用: 直接连接到您的 mathematical statistics (hypothesis testing) 子方向,提供了超越 BH 的 FDP 中位数控制新范式。您 very_familiar 的 minimax bounds 与 M-estimation 理论(moderately_familiar)可以用来分析该同时中位无偏估计量的渐近效率或探索其与 semiparametric efficiency bound 的关系。立即可做:用 minimax 理论审视该估计量在依赖结构下的 rate sharpness,或将其与 HOIF(moderately_familiar)结合探索更高阶的 FDP 估计改进。

7. 10.1093/biomet/asae027 — Testing serial dependence or cross dependence for time series with underreporting

  • 作者: Keyao Wei, Lengyang Wang, Yingcun Xia
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1293-1312
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在时间序列数据存在低报的设定下,本文研究序列依赖与交叉依赖的假设检验问题,目标是在低报导致常规方法失效时仍能正确判断依赖结构。作者提出了新的检验统计量,并开发了配套的 group-of-blocks bootstrap 技术以适应时间序列的依赖结构与低报偏差;理论上证明了该 bootstrap 方法的相合性,克服了低报带来的分布偏移问题。模拟显示该方法在低报场景下维持正确的 size 与更高的 power,实证应用于登革热传播与心血管疾病发生的关键因素识别。对您有用:本文将低报这一常见流行病学测量误差问题与时间序列假设检验结合,直接触及您的 hypothesis testing 与 epidemiology 交叉兴趣。
  • 关键技术: group-of-blocks bootstrap, serial dependence testing, underreporting model, cross dependence testing, bootstrap consistency
  • 为什么对您有用: (1) 本文直接触及 hypothesis testing 中的时间序列依赖检验与 epidemiology 中低报数据的关联发现;(2) 您可以用 very_familiar 的 minimax bounds 评估其检验的局部功效极限,或用 moderately_familiar 的 higher-order U-statistics theory 探索其交叉依赖统计量的高阶渐近性质(如局部功效/Edgeworth展开);(3) 立即可做:用 minimax bounds / higher-order U-statistics 武器审视其检验的 Bahadur efficiency 或局部功效。

8. 10.1093/biomet/asae012 — Inference for partial correlations of a multivariate Gaussian time series

  • 作者: A S Dilernia, M Fiecas, L Zhang
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1437-1444
  • 相关性 3/10 · novelty: minor
  • 摘要: 在多元 Gaussian 时间序列设定下,本文推导了 partial correlations 的渐近联合分布及新的协方差估计量,regularity 条件仅要求 mild 的自协方差结构。基于该渐近分布,作者构造了 Wald 置信区间与检验程序,用于对单个 partial correlation 做 inference。模拟表明,当存在 autocorrelation 时,该方法比假设独立观测的方法覆盖率更高、false positive rate 更接近 nominal level。理论核心是利用时间序列的 long-run variance 结构修正 standard error,而非简单套用 iid Delta method。对您可能有用:partial correlation 检验与 conditional independence / causal graph identification 有直接联系,且 Wald 检验的渐近理论属于 hypothesis testing 子方向。
  • 关键技术: partial correlation, asymptotic joint distribution, Wald confidence interval, long-run variance estimation, multivariate Gaussian time series, Delta method under autocorrelation
  • 为什么对您有用: 本文连接到 hypothesis testing 子方向(partial correlation 的 Wald 检验),也与 causal inference 中 conditional independence testing / graph identification 间接相关。用您 very_familiar 的高维渐近工具可以审视其 covariance estimator 在高维 p→∞ 情况下的扩展可能性。Follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,才能将此框架推向高维 / semiparametric 设定。

统计计算 / 算法 (stat_computing, 2 篇)

1. 10.1093/biomet/asae028 — On some algorithms for estimation in Gaussian graphical models

  • 作者: S Højsgaard, S Lauritzen
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1201-1219
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究高斯图模型中 MLE 的数值求解问题,目标是在给定图结构下求解 likelihood equations,核心假设是图稀疏且 colouring number 较低。作者考察两种算法:一是避免大矩阵求逆的 iterative proportional scaling (IPS) 版本,对稀疏图收敛性质简单;二是基于凸对偶的 neighbourhood coordinate descent (NCD),等价于零惩罚的 graphical lasso,速度极快但对初始正定矩阵有要求。对低 colouring number 的图,作者给出构造正定初始值的算法,并由此简化了此类图下 MLE 存在性的证明。对您有用:若您在统计计算方向关注稀疏矩阵/图结构下的 MLE 求解效率,IPS 与 NCD 的收敛对比及 colouring number 条件下的初始化策略提供了具体算法参考。
  • 关键技术: iterative proportional scaling, neighbourhood coordinate descent, graphical lasso (zero penalty), convex duality for MLE, graph colouring number, positive-definite initialization
  • 为什么对您有用: 本文直接连接统计计算方向中稀疏图模型 MLE 的数值算法问题。您武器库中的 software development 与 high-dimensional asymptotics 可用于复现并扩展 IPS/NCD 在更大规模图上的 benchmark;colouring number 与图稀疏性的交互也为您熟悉的 treewidth / tensor contraction 视角提供了一个图论切入点。立即可做:用 very_familiar 的软件开发与高维渐近工具复现算法并测试收敛速率依赖。

2. 10.1093/biomet/asae039 — Skip sampling: subsampling in the frequency domain

  • 作者: Tucker McElroy, Dimitris N Politis
  • 期刊/来源: Biometrika
  • 分类: vol 111 · issue 4 · pp 1241-1256
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文提出频域子抽样新方法 skip sampling,通过对离散傅里叶变换(DFT)坐标进行跳步选取构造子样本,用于时间序列谱推断。与时域 block subsampling 和频域 periodogram resampling bootstrap 不同,该方法利用 DFT 坐标的频域结构实现子抽样,理论收敛性与适用范围被系统刻画。对线性谱均值和比率统计量,skip sampling 与频域 bootstrap 推断精度相当,但计算开销显著降低且数值稳定性更优。核心工具为 DFT 频域结构的子抽样收敛率分析与谱密度估计的渐近理论。该方法为时间序列谱推断提供了计算友好的替代路径。对您而言,本文直接连接到 statistical computing 中数值方法与计算效率子方向,同时涉及 hypothesis testing 中子抽样推断的理论框架。
  • 关键技术: frequency domain subsampling, discrete Fourier transform ordinates, spectral density estimation, skip sampling, periodogram resampling, block subsampling
  • 为什么对您有用: 本文核心卖点——计算节省与数值稳定性——直接连接到您 primary interest 中 statistical computing 的数值方法子方向。您 very_familiar 的 software development 能力可立即评估/实现 skip sampling 的计算复杂度并与时域 block subsampling 做基准对比。但时间序列谱推断并非您核心方向,follow-up 判断为中期可做:若要在该方向产出理论工作,需先在 moderately_familiar 的 M-estimation theory 上补充谱估计的 M-estimation 视角,才能将 skip sampling 的收敛率分析推进到更一般的 semiparametric 框架。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论