跳转至

JASA · 2026-05-26

  • 共 49 篇 · Journal of the American Statistical Association

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

这一期共49篇论文,整体上围绕三条主线展开:因果推断与实验设计(约10篇)、半参数/非参数方法与效率理论(约10篇)、以及高维统计与随机矩阵(约5篇)。此外,假设检验(约6篇)和统计计算(约5篇)也有集中贡献,其余散见于流行病学、极值、贝叶斯非参等方向。

因果推断主线中,个体化中介效应(Individualized Dynamic Mediation Analysis)用变系数SEM与潜因子模型处理未测量时变混杂,单调剂量-响应曲线(Doubly Robust Pointwise Confidence Intervals)通过似然比翻转构造置信区间,避免平滑参数选择。个体处理效应分布(Enhanced Inference for Distributions and Quantiles)在随机化实验下收紧非识别bound,干扰下的方差估计(Optimized Variance Estimation under Interference)将保守性最小化转化为凸优化。分位数最优治疗规则(Successive classification learning)将估计重构为逐次分类,延迟结局自适应设计(Covariate-Adjusted Response-Adaptive Design)纳入延迟结构推导半参效率界。强化学习变量选择(Sequential Knockoffs)将knockoffs扩展到MDP,交叉筛选框架(Exploration, Confirmation, and Replication)在同一观察性研究中实现探索-确认-复现。

半参数/非参数主线中,深度神经网络推断(Inference for Deep Neural Network Estimators)在广义非参模型下用U-statistic与Hoeffding分解构造置信区间,离策略分布评估(Distributional Off-Policy Evaluation)证明分布估计与均值估计样本复杂度相同。多分类响应回归(Conditional Probability Tensor Decompositions)用概率张量分解实现混合回归,网络干扰回归(A Regression Framework for Studying Relationships under Network Interference)用伪似然与MM算法。离散数据预测推断(Nonparametric predictive inference)提出Metropolis-adjusted Dirichlet序列,高维局部依赖数据(Generalized Grade-of-Membership Estimation)用谱方法建立entrywise误差界。个体数据与汇总统计融合(Semiparametric Efficient Fusion)推导融合效率界并构造自适应估计量,分布偏移泛化(Out-of-Distribution Generalization)用anchor regression处理随机密集偏移。

高维主线中,充分维度关联(High-Dimensional Statistical Inference and Variable Selection Using Sufficient Dimension Association)无需显式模型即可做变量选择与FDR控制,迁移精度矩阵估计(Trans-Glasso)在迁移学习框架下达到minimax最优,拼图学习谱聚类(Cluster Quilting)处理碎片化观测数据,混合成员模型推断(Inferences on mixing probabilities)给出谱估计的entrywise中心极限定理与bootstrap排序推断。

与因果推断最贴的优先看:Individualized Dynamic Mediation Analysis、Doubly Robust Pointwise Confidence Intervals、Enhanced Inference for Distributions and Quantiles、Optimized Variance Estimation under Interference、Successive classification learning、Covariate-Adjusted Response-Adaptive Design。与半参数效率最贴的优先看:Semiparametric Efficient Fusion、Inference for Deep Neural Network Estimators、Distributional Off-Policy Evaluation、Nonparametric tests of treatment effect homogeneity。与高维最贴的优先看:High-Dimensional Statistical Inference and Variable Selection Using Sufficient Dimension Association、Trans-Glasso、Cluster Quilting、Inferences on mixing probabilities。

因果推断 (causal_inference, 10 篇)

1. 10.1080/01621459.2026.2641242 — Individualized Dynamic Mediation Analysis Using Latent Factor Models

  • 作者: Yijiao Zhang, Yubai Yuan, Yuexia Zhang, Zhongyi Zhu, Annie Qu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在纵向中介分析框架下,本文目标是估计个体化、时变的中介效应,同时处理非稀疏中介选择和未测量时变混杂。方法采用变系数结构方程模型(varying-coefficient SEM)刻画个体异质性与时间动态性,并通过 latent factor model 吸收未测量时变混杂导致的异质性中介效应。估计量具有渐近正态性,且群体水平中介选择具有 selection consistency;核心识别策略依赖因子结构建模混杂,而非 proximal/negative-control 类辅助变量识别。实证应用于 DNA methylation 纵向数据。对您有用:本文将 longitudinal mediation 与 latent factor 处理未测量混杂结合,与您关注的 mediation + longitudinal 方向直接对接,且 latent factor 替代 proximal CI 的 negative-control 路径值得对比审视。
  • 关键技术: varying-coefficient structural equation model, latent factor model for unmeasured confounders, mediator selection consistency, individualized time-varying mediation effect, non-sparse mediator selection
  • 为什么对您有用: (1) 直接连接到您 primary interest 中 causal inference 的 mediation + longitudinal 子方向,且 latent factor 处理未测量时变混杂的思路与您关注的 proximal CI 形成对比路线——两种 identification 策略的优劣边界值得深究;(2) 您 moderately_familiar 中的 semiparametric theory 可用于审视其 varying-coefficient SEM 估计量的效率性质——该文未讨论 semiparametric efficiency bound,这是一个可攻的口子;(3) 中期可做:需先在 moderately_familiar 的 identification theory 上长肌肉,厘清 latent factor identification 与 proximal identification 的假设强度差异,再考虑是否可推导该 estimand 的 semiparametric efficiency bound 或构造 orthogonal score / DML 版本。

2. 10.1080/01621459.2026.2639735 — Doubly Robust Pointwise Confidence Intervals for a Monotonic Continuous Treatment Effect Curve

  • 作者: Charles R. Doss
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-12
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在连续处理变量的因果推断设定下,目标是估计单调剂量-响应曲线在固定点处的值并构造置信区间,假设曲线单调且无需选择平滑参数。核心方法是基于似然比型检验的翻转构造置信区间,避免了直接估计非参数曲线的未知偏差;检验统计量具有双重稳健性,其余项为 outcome regression 与 generalized propensity score 误差的乘积,允许一个 nuisance 估计较差时仍保持有效性。进一步提出自适应版本以适应曲线平坦度的未知水平,并给出交叉拟合与非交叉拟合两种实现。理论保证在单调约束下实现点wise置信区间,模拟与护士工时对医院绩效的数据分析验证了方法。对您有用:本文将单调约束与 DR 估计结合、避免偏差估计的思路,可直接迁移到您在连续处理/纵向因果推断中构造 sharper inference 的场景。
  • 关键技术: doubly robust estimation, likelihood ratio test inversion, monotonicity constraint, generalized propensity score, cross-fitting, adaptive flatness
  • 为什么对您有用: 直接连接 causal inference 中连续处理剂量-响应曲线的 identification 与 estimation 子方向;您 very_familiar 的 minimax bounds 与 M-estimation theory 可用于审视其 DR 余项在 nuisance 误差下的收敛率是否达到 semiparametric efficiency bound,moderately_familiar 的 semiparametric theory 可攻其自适应平坦度选择的理论缺口。立即可做:用现有 DR 与 semiparametric 工具复现并扩展到纵向设定。

3. 10.1080/01621459.2026.2615997 — Enhanced Inference for Distributions and Quantiles of Individual Treatment Effects in Various Experiments

  • 作者: Zhe Chen, Xinran Li
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-15
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在完全随机化与分层随机化实验设定下,研究个体处理效应(ITE)分布与分位数的推断问题;核心estimand为τ_i的分布函数F(t)与分位数q_α,而F(t)从观测数据不可识别(non-identifiable)。现有randomization-based方法提供有限样本有效推断但过于保守——假设所有大效应单元均被分配至同一组(worst-case bound)。本文提出两种改进:(1)将现有方法重新解读为仅对处理组(或对照组)单元的效应做推断,再通过union/组合策略合并两组推断以覆盖全部单元,收紧了bound;(2)显式控制具有大效应的处理组单元实际数量,用组合计数精确刻画极端分配的概率权重。两种方法在模拟与实证中均显示显著功效提升,并进一步扩展至sampling-based实验与匹配准实验,两种改进思路在其中发挥互补角色。对您有用:本文直接推进了因果推断中ITE分布的identification与有限样本推断,与您关注的identification theory及hypothesis testing交叉。
  • 关键技术: randomization-based inference, ITE distribution non-identifiability, worst-case bound tightening, combinatorial counting for treatment assignment, finite-sample valid inference, matched quasi-experiments
  • 为什么对您有用: 本文聚焦ITE分布/分位数的non-identifiability与有限样本推断,直接连接您primary interest中的因果推断identification theory与hypothesis testing。您very_familiar的estimation theory in causal inference可用来审视其组合bound是否可进一步用semiparametric效率视角收紧;moderately_familiar的identification theory则可切入其non-identifiability的sharp characterization。Follow-up判断:立即可做——用您熟悉的randomization inference与组合概率工具即可复现并探索更紧bound的可能。

4. 10.1080/01621459.2026.2657052 — An Online Meta-Level Adaptive Design Framework with Targeted Learning Inference: Applications to Evaluating and Utilizing Surrogate Outcomes in Adaptive Designs

  • 作者: Wenxin Zhang, Aaron Hudson, Maya Petersen, Mark van der Laan
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-30
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在 adaptive design 框架下,本文提出 meta-level 自适应设计框架,用于实时数据驱动地评估与选择候选自适应设计。核心 estimand 是一类新因果参数,量化不同 adaptive design 的收益与代价(加速异质性处理效应检测、更快更新随机化概率、改善参与者结局)。估计方面,作者提出 TMLE(Targeted Maximum Likelihood Estimator),在 adaptive-design 数据的依赖结构下仍保持 n^{-1/2}-CAN 与渐近正态,无需参数假设。应用层面,框架用于 surrogate outcome 的动态评估与选择——不同于现有 surrogate 方法,本文全面量化 surrogate 在加速效应检测、更新随机化与改善结局方面的效用。理论贡献在于将 adaptive design 的选择问题形式化为因果推断问题,并提供 semiparametric efficient inference。对您有用:本文将 TMLE 与 adaptive design 的因果评估结合,直接连接到您在 causal inference 的 estimation theory 与 efficiency theory(TMLE / semiparametric efficiency bound)方向。
  • 关键技术: TMLE, adaptive design causal estimands, online design selection, surrogate outcome evaluation, asymptotic normality under dependence, semiparametric efficient inference
  • 为什么对您有用: 本文直接连接到 causal inference 的 adaptive design / surrogate evaluation 设定,以及 efficiency theory 的 TMLE 方法。您在 estimation theory in causal inference(very_familiar)和 semiparametric theory(moderately_familiar)上的武器可以直接攻本文的 TMLE 构造与 influence function 推导口子——例如审视其 estimand identification 的完备性、验证其 efficiency bound claim 是否紧。Follow-up 判断:立即可做——用 very_familiar 的 causal estimation theory 即可展开对其 identification 与 estimation 细节的审视。

5. 10.1080/01621459.2026.2635078 — Facilitating Heterogeneous Effect Estimation via Statistically Efficient Categorical Modifiers

  • 作者: Daniel R. Kowal
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-14
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在含类别协变量(如种族、性别)的线性回归中,传统加入类别-连续交互项(cat-modifier)会改变主效应估计并膨胀其标准误。本文提出基于丰度约束(Abundance-Based Constraints, ABCs)的重新参数化:ABCs 要求交互系数按各组样本丰度加权求和为零,使主效应代表各组加权平均效应、交互项代表偏离,从而在 Fisher 信息意义下主效应与交互效应参数正交。核心理论结果:在合理条件下,ABC 参数化使加入 cat-modifier 后主效应估计值不变(invariance),且因交互项吸收了组间异质性残差方差而增强主效应推断功效。模拟验证不变性与功效增益,实证应用于北卡儿童 STEM 教育结果的社会环境因素异质性分析,R 包 lmabc 已发布。对您有用:ABC 正交参数化与 DML 中 Neyman orthogonal score 同源—— nuisance(交互项)估计不扰动 target(主效应),为异质性因果效应估计的效率理论提供了一个参数化正交的简洁实例。
  • 关键技术: abundance-based constraints, orthogonal parametrization, Neyman orthogonality, Fisher information orthogonality, invariance property, heterogeneous effect estimation
  • 为什么对您有用: 直接连接因果推断的异质性效应估计子方向:ABC 正交参数化保证 nuisance(交互项)不扰动 target(主效应),与您关注的 efficiency theory / debiased ML 中 Neyman orthogonal score 核心逻辑一致。用您 very_familiar 的 estimation theory in causal inference 可直接验证其不变性与功效提升推导,并判断该正交化能否推广到 semiparametric 部分线性模型设定。立即可做:用 semiparametric efficiency bound 工具检验 ABC 正交化在部分线性模型下是否仍保持不变性,这是一个自然的理论延伸。

6. 10.1080/01621459.2026.2627027 — Optimized Variance Estimation under Interference and Complex Experimental Designs

  • 作者: Christopher Harshaw, Joel Middleton, Fredrik Sävje
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-14
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在设计-based因果推断框架下,当存在干扰(interference)和复杂实验设计时,无偏且一致的方差估计量通常不存在,研究者只能接受保守的方差估计量。本文将构造最小保守方差估计量的问题重新表述为优化问题:在给定研究者对潜在结果的先验知识与风险偏好下,寻找真实方差的最小可估计上界。作者在二次型(quadratic form)类中刻画了可容许上界的集合,并证明对许多自然目标函数该优化问题是凸规划(convex program)。所得方差估计量无论背景知识是否正确均保证保守,但先验信息较准确时保守性显著降低;数值实验表明其比现有估计量大幅降低保守性。对您有用:本文将方差估计保守性转化为凸优化,与您因果推断估计理论兴趣直接相关,二次型上界刻画可能为干扰设定下的效率理论提供新视角。
  • 关键技术: design-based inference, interference, quadratic form variance bound, convex optimization, conservative variance estimation, admissible bounds characterization
  • 为什么对您有用: (1) 直接连接因果推断中干扰设定下的方差估计问题——设计-based treatment effect inference 的核心难题,属于您 primary interest 中 causal inference 的 estimation 子方向;(2) 您 very_familiar 的"estimation theory in causal inference"可直接切入本文的二次型上界刻画与凸优化框架,审视其保守性界与 semiparametric efficiency bound 的关系;(3) 立即可做:用估计理论工具分析其保守性界在特定干扰模型下是否可进一步收紧,或推导其与 influence function 的联系。

7. 10.1080/01621459.2026.2664228 — Successive classification learning for estimating quantile optimal treatment regimes

  • 作者: Junwen Xia, Jingxiao Zhang, Dehan Kong
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-26
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究分位数最优治疗规则(quantile OTR)的估计问题,目标是在给定协变量下最大化特定分位数水平的潜在结果,以改善弱势患者的疗效。作者将分位数 OTR 的估计重构为逐次分类任务(successive classification),通过依次训练一系列分类器,每个后续分类器基于前序输出构建,从而利用机器学习算法处理复杂决策边界并提升计算效率。针对离散结局情形——现有方法直接推广会导致不一致与失效——引入平滑技术将离散结局映射为连续替代变量,保证估计的一致性与有效性。理论部分给出了估计量的收敛性保证与一致性结果,模拟与真实数据(R包提供)验证了方法优势。对您而言,本文将分位数 OTR 逐次分类重构与平滑离散结局的技巧,为因果推断中非标准 estimand(分位数/离散)的 semiparametric 估计提供了新视角。
  • 关键技术: quantile optimal treatment regime, successive classification, smoothing surrogate for discrete outcomes, value function estimation, classification-based policy learning
  • 为什么对您有用: 本文直接连接因果推断中 OTR 估计子方向,特别是分位数 estimand 与离散结局设定下的 identification/estimation。您武器库中 semiparametric theory 与 M-estimation theory(moderately_familiar)可用于审视其逐次分类估计量是否达到 semiparametric efficiency bound,或能否用 HOIF 改进收敛率。中期可做:需先在 semiparametric theory 上长肌肉,具体是推导分位数 value function 的 efficient influence function 并验证逐次分类是否构成 orthogonal score。

8. 10.1080/01621459.2025.2604314 — Covariate-Adjusted Response-Adaptive Design with Delayed Outcomes

  • 作者: Xinwei Ma, Jingshen Wang, Waverly Wei
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究带有延迟结局的协变量调整响应自适应(CARA)实验设计,目标是在多阶段设定下动态更新治疗分配以最大化统计效率与受试者福利。核心提出一种全前瞻式(forward-looking)CARA 设计,随延迟机制逐步估计而实时调整分配比例。方法基于多阶段 semiparametric efficiency bound 计算,显式纳入延迟结构,由此推导出最优分配规则;估计阶段采用 semiparametric M-estimation / influence function 技术处理延迟与协变量。理论证明该设计在延迟存在时仍保持 n^{-1/2}-CAN 且达到 semiparametric efficiency bound,模拟显示统计功效与受试者福利显著优于忽略延迟的现有 CARA。对您有用:多阶段 semiparametric efficiency 计算与 influence function 技术直接对接您 efficiency theory / semiparametric theory 的 primary interest。
  • 关键技术: semiparametric efficiency bound, multi-stage optimal allocation, response-adaptive randomization, influence function, delayed outcome modeling, forward-looking design
  • 为什么对您有用: 本文直接推进您 primary interest 中 efficiency theory(semiparametric efficiency bounds)与 semiparametric theory 在实验设计场景的应用,多阶段效率界计算与 influence function 推导是您 very_familiar 的 minimax / estimation theory 可直接切入的口子。用您 moderately_familiar 的 semiparametric theory 与 M-estimation theory 即可验证其效率界是否紧、分配规则是否最优——属于立即可做的 follow-up 粗判。

9. 10.1080/01621459.2026.2658863 — Sequential Knockoffs for Variable Selection in Reinforcement Learning

  • 作者: Tao Ma, Jin Zhu, Hengrui Cai, Zhengling Qi, Yunxiao Chen, Chengchun Shi et al.
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-29
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在强化学习(RL)的高维状态空间设定下,本文定义了 Markov decision process(MDP)中的 minimal sufficient state——原状态的一个子向量,使得截断过程仍为 MDP 且保留原奖励函数,目标是识别该子向量以加速学习与去噪策略。作者提出 sequential knockoffs(SEEK)算法,将 model-X knockoffs 框架扩展到时间序列/RL 语境,通过构造条件独立于响应的 knockoff 副本并沿轨迹顺序执行变量筛选,实现 FDR 控制。大样本下 SEEK 达到 selection consistency;算法与具体 RL 算法无关,可直接嵌入下游 policy learning。实证表明 SEEK 在变量选择精度与策略 suboptimality gap 上优于对比方法。对您可能有用:将 knockoffs 从独立样本推广到序列依赖,为 longitudinal/时间序列因果筛选提供新工具。
  • 关键技术: model-X knockoffs, sequential variable selection, Markov decision process, selection consistency, FDR control, policy learning
  • 为什么对您有用: 直接连接 causal inference 的 longitudinal/时间序列变量筛选子方向,将 knockoffs 从 i.i.d. 推广到序列依赖设定。您熟悉的 minimax bounds 与 estimation theory 可用于分析 SEEK 在非参数动态系统中的 finite-sample FDR 界或效率损失;若要深入,需先在 moderately_familiar 的 identification theory 上补 MDP 可识别性条件。中期可做:补 MDP identification 后可尝试用 HOIF 改善其非参数筛选效率。

10. 10.1080/01621459.2026.2668130 — Exploration, Confirmation, and Replication in the Same Observational Study: A Two Team Cross-Screening Approach to Studying the Effect of Unwanted Pregnancy on Mothers’ Later Life Outcomes

  • 作者: Samrat Roy, Marina Bogomolov, Ruth Heller, Amy M. Claridge, Tishra Beeson, Dylan S. Small
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-19
  • 相关性 0/10 · novelty: new_method
  • 摘要: 本文在观察性研究设定下,研究意外怀孕对母亲后续生活结果(心理健康、身体健康、经济福祉、生活满意度)的因果效应,使用 Wisconsin Longitudinal Study (WLS) 数据。核心方法是提出“两团队交叉筛选”(two team cross-screening)框架:研究者按有意义协变量将数据分为两半,各自团队在一半数据上做探索性分析(EDA),为另一半数据设计确认性分析计划;仅将探索阶段表现有前景的假设传递至确认阶段,从而在同一数据集内同时实现探索、确认与复现,缓解多重检验问题。方法不涉及新的 estimand identification 或 semiparametric efficiency 理论,主要贡献在于研究设计与选择性推断(selective inference)的流程创新。实证结果显示该方法能有效控制假发现并发现若干显著因果效应。对您可能有用:若关注观察性因果研究中探索-确认分离与多重检验调整的设计层面,本文提供了一个具体流程案例。
  • 关键技术: two team cross-screening, exploratory-confirmatory split, multiple testing adjustment via screening, observational study design, selective inference
  • 为什么对您有用: 本文连接到因果推断的应用与设计子方向(观察性研究的探索-确认流程),而非您核心的 identification/estimation/efficiency 理论。技术武器库中 identification theory 与 semiparametric theory 对本文的 selective inference / multiple testing 调整机制没有直接攻破口子——本文更偏研究设计流程而非数学统计理论。Follow-up 判断:暂不可做——若想在此方向深入,需先在 moderately_familiar 的 selective inference / 分层检验理论(当前不在武器库中)上长肌肉。

高维统计 / 随机矩阵 (high_dim_rmt, 4 篇)

1. 10.1080/01621459.2026.2632869 — High-Dimensional Statistical Inference and Variable Selection Using Sufficient Dimension Association

  • 作者: Shangyuan Ye, Shauna Rakshe, Ye Liang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在高维变量选择与同时推断问题中,现有 post-selection inference 方法通常依赖显式线性回归模型与稀疏性假设,模型误设或稀疏性破坏时表现不佳。本文提出 sufficient dimension association (SDA) 方法,在给定其他预测变量条件下度量每个预测变量与响应的关联,无需指定回归模型形式或回归稀疏性。替代假设为预测变量服从正态分布(或标准化)且满足 Markov blanket 性质。作者提出 SDA 估计量并证明其渐近性质,构造三种检验统计量,并给出控制 FDR 的多重检验程序。模拟与 ADNI 基因表达数据验证了方法的有效性。对您可能有用:SDA 的渐近理论涉及高维协方差矩阵估计与 Markov blanket 条件下的条件独立性检验,与您的高维渐近与 semiparametric 检验理论直接相关。
  • 关键技术: sufficient dimension association, Markov blanket property, high-dimensional covariance estimation, conditional independence testing, FDR control, post-selection inference
  • 为什么对您有用: 本文连接到您的高维统计与 semiparametric 检验子方向:SDA 统计量本质上是高维条件下条件独立性的渐近检验,其估计量收敛性质依赖高维协方差矩阵的渐近理论(您 very_familiar 的高维渐近武器可直接切入)。用您 moderately_familiar 的 semiparametric 理论可以审视其 Markov blanket + 正态假设下是否可构造更稳健的 one-step / debiased 估计量以放松正态性。立即可做:用高维渐近与 minimax bound 工具分析 SDA 估计量在非正态设计下的 rate 是否仍可达 n^{-1/2}-CAN。

2. 10.1080/01621459.2025.2602856 — Trans-Glasso: A Transfer Learning Approach to Precision Matrix Estimation

  • 作者: Boxin Zhao, Cong Ma, Mladen Kolar
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 4/10 · novelty: sharper_rate
  • 摘要: 在目标研究样本有限的高维精度矩阵估计设定下,本文提出 Trans-Glasso 两步迁移学习方法:先通过多任务学习目标捕获跨研究共享与独有特征获得初始估计,再通过差异网络估计精调以调整目标与源精度矩阵的结构差异。在目标精度矩阵大部分元素与源矩阵共享的假设下,导出非渐近误差界并证明 Trans-Glasso 在特定条件下达到 minimax 最优;同时首次给出差异网络估计的 minimax 最优率。模拟与基因/蛋白网络应用验证了小样本场景下的优越性。对您可能有用:本文的 minimax rate 与非渐近界推导直接连接高维统计与 minimax theory 兴趣,且差异网络估计的新 minimax guarantee 可作为您用 very_familiar minimax bounds 工具审视其紧性的切入点。
  • 关键技术: transfer learning for precision matrix, multi-task learning objective, differential network estimation, non-asymptotic error bounds, minimax optimality, Graphical Lasso
  • 为什么对您有用: 直接连接高维统计与 minimax theory 子方向:本文首次给出差异网络估计的 minimax optimal rate,且 Trans-Glasso 的非渐近界推导是您 very_familiar minimax bounds 武器可直接审视的对象(验证其声称的 minimax optimality 是否紧、常数是否可改进)。立即可做:用 minimax lower bound 技术复验差异网络估计的 minimax rate 紧性。

3. 10.1080/01621459.2026.2648876 — Cluster Quilting: Spectral Clustering for Patchwork Learning

  • 作者: Lili Zheng, Andersen Chang, Genevera I. Allen
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-12
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究“拼图学习”(patchwork learning)设定下的聚类问题,即样本与特征均以碎片化子集(patches)观测、部分样本从未在任何特征下被联合观测。目标是在 sub-Gaussian mixture model 下对所有样本进行聚类,estimand 为聚类标签。核心方法 Cluster Quilting 分四步:(i) 利用 patches 重叠结构排序;(ii) 各 patch 独立做 SVD;(iii) 对相邻 patch 的 top singular vectors 做顺序线性映射以对齐重叠样本的子空间;(iv) 对加权拼接的 singular vectors 做 k-means。理论贡献为非渐近 misclustering rate bound,显式刻画 patch 观测模式(重叠度、patch 数)与聚类信号/噪声的依赖关系。实证在神经科学与基因组数据上验证。对您而言,patchwise SVD + 线性映射的子空间对齐思路与高维随机矩阵理论(块状观测下的谱方法)直接相关,misclustering bound 的证明路径可能涉及您熟悉的 minimax 与高维渐近工具。
  • 关键技术: patchwise SVD, sequential linear mapping for subspace alignment, sub-Gaussian mixture model, non-asymptotic misclustering rate bound, spectral clustering with overlapping patches, k-means on weighted singular vectors
  • 为什么对您有用: 本文直接连接高维统计与随机矩阵理论子方向——块状/碎片化观测下的谱聚类,其 patchwise SVD + 线性映射对齐是经典 RMT 块矩阵谱分析的变体。您可用 very_familiar 的高维渐近与 minimax bound 工具审视其 misclustering rate bound 是否紧,特别是重叠度与信号强度阈值是否可由 Marchenko-Pastur 型谱界更精确刻画。立即可做:用 RMT 工具推导 patchwise SVD 在块状观测下的谱分离条件,验证或 sharpen 其非渐近界。

4. 10.1080/01621459.2026.2671448 — Inferences on mixing probabilities and ranking in mixed-membership models

  • 作者: Sohom Bhattacharya, Jianqing Fan, Jikai Hou
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-29
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 在 Degree-Corrected Mixed Membership (DCMM) 网络模型下,本文研究节点混合成员概率 π_i(k) 的推断与基于此的节点排序问题。核心方法是利用谱嵌入估计 π_i,并通过矩阵扰动分析推导其有限样本展开,从而获得 π_i(k) 的 entrywise 渐近分布与置信区间。在此基础上,作者提出了基于 π_i(k) 的节点排序方案,并利用 multiplier bootstrap 实现排序推断,填补了成员概率不确定性量化的空白。主要理论结果为谱估计量的 entrywise 中心极限定理及 bootstrap 排序推断的相合性。对您可能有用:本文的 entrywise 谱估计有限样本展开与 bootstrap 排序推断框架,直接关联您的高维渐近与假设检验兴趣。
  • 关键技术: Degree-Corrected Mixed Membership (DCMM), finite-sample expansion, spectral embedding, matrix perturbation theory, multiplier bootstrap, ranking inference
  • 为什么对您有用: (1) 连接到高维渐近与假设检验子方向:本文对谱估计量做 entrywise 有限样本展开并做排序推断,正是高维矩阵扰动与假设检验的交叉。(2) 武器库中的 high-dimensional asymptotics 可直接用来审视其展开的紧性,或拓展到其他高维谱推断场景。(3) Follow-up: 立即可做——用您熟悉的矩阵扰动理论验证其 entrywise 展开的余项阶是否最优,或尝试将 multiplier bootstrap 推断框架移植到其他高维 M-estimation 场景。

非参数 / 半参数 (nonparam_semipara, 13 篇)

1. 10.1080/01621459.2026.2637894 — Inference for Deep Neural Network Estimators in Generalized Nonparametric Models

  • 作者: Xuran Meng, Yi Li
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文在广义非参数回归模型(GNRM,涵盖 logistic/Poisson/binomial 等指数族)下提出基于深度神经网络(DNN)的均值估计,并构建严格的推断框架。核心难点在于 DNN 估计误差与输入之间在 GNRM 下通常存在依赖,现有方法假设独立性以建立误差界在此失效;作者允许依赖并证明推断仍可行。推断实施采用 Ensemble Subsampling Method(ESM),利用 U-statistic 与 Hoeffding 分解构造置信区间,实现 model-free 方差估计并捕捉个体异质性。模拟与 eICU 重症监护数据应用验证了方法的有效性。对您而言,ESM 中 U-statistic 的 Hoeffding 分解与方差估计机制直接连接 higher-order U-statistics 与 semiparametric efficiency 理论。
  • 关键技术: deep neural network estimation, generalized nonparametric regression model, U-statistic Hoeffding decomposition, Ensemble Subsampling Method, model-free variance estimation, dependent estimation error bound
  • 为什么对您有用: 本文直接触及 nonparametric 与 semiparametric 推断(primary interest),ESM 的 U-statistic + Hoeffding 分解机制与您 very_familiar 的 higher-order U-statistics 计算及 moderately_familiar 的 HOIF 理论高度对接。用您熟悉的 U-statistic projection / treewidth 视角可以审视 ESM 的计算成本与高阶项贡献,判断其方差估计是否达到 semiparametric efficiency bound。立即可做:用 very_familiar 的 U-statistic 工具分析 ESM 的 Hoeffding 分解结构,评估其与 one-step / HOIF 推断的效率差距。

2. 10.1080/01621459.2026.2671449 — Distributional Off-Policy Evaluation with Deep Quantile Process Regression

  • 作者: Qi Kuang, Chao Wang, Yuling Jiao, Fan Zhou
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-26
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究强化学习中分布视角的离策略评估(OPE)问题,目标是从行为策略生成的数据中估计目标策略的完整回报分布(而非仅期望值)。作者提出基于深度分位过程回归的 DQPOPE 算法,将离散分位点估计扩展为连续分位函数估计,并给出使用深度神经网络的样本复杂度分析。核心理论贡献在于证明:在相同样本量下,估计完整回报分布与仅估计单一策略值具有相同的统计代价,即分布估计不额外消耗样本。实证表明 DQPOPE 在策略值估计精度和鲁棒性上优于传统 IPW/DR 方法。对您而言,本文的连续分位过程估计与样本复杂度分析触及 semiparametric/nonparametric 效率理论,可作为分布因果效应估计(如分位处理效应)的方法参照。
  • 关键技术: off-policy evaluation, deep quantile process regression, distributional reinforcement learning, sample complexity analysis, continuous quantile function estimation, deep neural network approximation
  • 为什么对您有用: 本文连接到 semiparametric/nonparametric theory 子方向:连续分位过程估计本质是非参数分位回归的函数空间推断问题,其样本复杂度界可与 minimax rate 对比验证是否紧。用您 very_familiar 的 minimax bounds 工具可直接审视其声称的'分布估计与单点估计同代价'结论是否达到最优率;若想进一步将 DQPOPE 框架迁移到因果推断的分位处理效应(QTE)估计,需先在 moderately_familiar 的 semiparametric theory 上长肌肉(特别是分位处理效应的 influence function 构造)。判断:中期可做。

3. 10.1080/01621459.2025.2567045 — Conditional Probability Tensor Decompositions for Multivariate Categorical Response Regression

  • 作者: Aaron J. Molstad, Xin Zhang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-14
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究多变量分类响应回归中条件概率质量函数的估计问题,设定为响应变量数、类别数及预测变量维度均较大的高维场景。核心方法是基于功能性概率张量分解(functional probability tensor decomposition),将张量值函数的值域约束为低秩概率张量集合,利用响应变量条件独立性(或其缺失)与概率张量秩之间的联系进行建模。该低秩分解模型可解释为混合回归(mixture of regressions),从而可通过最大似然拟合,作者推导了可扩展的惩罚EM算法并分析了其统计性质。理论结果与模拟及基因功能分类应用均表明方法性能良好。对您而言,该文将张量分解与混合回归结合的思路,以及惩罚EM算法在高维分类响应下的可扩展性,直接关联到您在统计计算(张量/einsum)与半参数/非参数理论方面的兴趣。
  • 关键技术: functional probability tensor decomposition, low-rank probability tensor, mixture of regressions, penalized EM algorithm, conditional independence via tensor rank, maximum likelihood estimation
  • 为什么对您有用: 本文直接连接到您在统计计算(张量收缩/einsum复杂度)方面的武器库:功能性概率张量分解的建模与惩罚EM算法的实现,涉及张量秩约束与计算可扩展性,您可用very_familiar的张量收缩/einsum工具分析其计算复杂度与收缩顺序优化。同时,低秩概率张量与条件独立性的联系为半参数/非参数理论中的降维提供了新视角,您可用moderately_familiar的M-estimation理论审视其MLE收敛性质。立即可做:用einsum复杂度视角分析惩罚EM中张量运算的计算瓶颈,并探索收缩顺序优化。

4. 10.1080/01621459.2025.2565851 — A Regression Framework for Studying Relationships among Attributes under Network Interference

  • 作者: Cornelius Fritz, Michael Schweinberger, Subhankar Bhadra, David R. Hunter
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-12
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文在 network interference 设定下,提出一个联合建模网络连接与节点属性的回归框架,目标是估计连接与属性之间的依赖关系。核心估计量基于 pseudo-likelihood 的 convex optimization,采用 minorization-maximization (MM) 算法实现可扩展计算。理论上,在单次观测 dependent connections and attributes 的条件下,建立了 pseudo-likelihood estimator 的收敛速率。实证部分通过仿真与 X 平台仇恨言论数据验证框架。对您可能有用:该框架的 pseudo-likelihood 收敛速率证明涉及 dependent data 下的 M-estimation 理论,与您 moderately_familiar 的 M-estimation theory 直接相关。
  • 关键技术: pseudo-likelihood estimation, minorization-maximization (MM) algorithm, convergence rates under dependence, joint network-attribute modeling, convex optimization
  • 为什么对您有用: 本文连接到您 primary interest 中 causal inference 的 network interference 设定,以及 moderately_familiar 的 M-estimation theory——pseudo-likelihood estimator 在 dependent data 下的收敛速率证明正是 M-estimation 在非标准依赖结构的延伸。用您 very_familiar 的 minimax bounds 工具可以验证其声称的收敛速率是否紧,或进一步推导 semiparametric efficiency bound。follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,特别是 dependent data 下 pseudo-likelihood 的 asymptotic properties。

5. 10.1080/01621459.2026.2662438 — Nonparametric predictive inference for discrete data via Metropolis-adjusted Dirichlet sequences

  • 作者: Davide Agnoletto, Tommaso Rigon, David B. Dunson
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-28
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对未知离散分布(特别是计数数据)的贝叶斯推断问题,提出了一种无需传统混合模型的预测式方法。核心是 Metropolis-adjusted Dirichlet (MAD) 序列模型:将预测测度刻画为基准测度与以先前数据点为中心的 Metropolis-Hastings 核的混合。所得 MAD 序列渐近可交换,且数据生成器的后验呈鞅后验形式,从而为计数分布推断提供了简洁算法,并可自然推广至多元、回归与二值数据。理论方面,作者获得了有用的渐近正态近似。对您可能有用:MAD 序列的鞅后验结构与非参数效率理论中的 one-step / influence-function 更新有形式上的相似性,可作为非参数贝叶斯预测推断的入门阅读。
  • 关键技术: Metropolis-Hastings kernel, Dirichlet process, martingale posterior, asymptotic exchangeability, predictive inference, Gaussian approximation
  • 为什么对您有用: 本文连接到非参数理论子方向:鞅后验为非参数贝叶斯预测推断提供了一种不依赖混合模型的新构造,渐近正态近似暗示其可能达到某种效率界。用您 very_familiar 的非参数统计与 minimax bound 视角,可以验证该渐近正态近似是否达到非参数效率下界,或与 HOIF / semiparametric efficiency bound 做对比——这是中期可做(需先在 moderately_familiar 的 semiparametric theory 上长肌肉,明确鞅后验与 influence function 的精确对应关系)。

6. 10.1080/01621459.2026.2670011 — Generalized Grade-of-Membership Estimation for High-dimensional Locally Dependent Data

  • 作者: Ling Chen, Chengzhu Huang, Yuqi Gu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-28
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文研究高维多分类数据的混合成员模型(Grade-of-Membership, GoM)的估计问题,目标是在局部依赖噪声和任意分布假设下恢复模型参数矩阵。作者将三路 quasi-tensor 展平为胖矩阵,通过 SVD 利用奇异子空间几何提取参数,提出了一种快速谱方法。核心理论贡献是针对局部依赖、非同分布噪声建立了新的 sharp two-to-infinity 奇异子空间扰动界,从而推导出参数的 finite-sample entrywise error bound。该方法避免了 MCMC 的不可扩展性,在政治调查、群体遗传和单细胞测序数据上表现优异。对您有用:谱方法与奇异子空间扰动理论直接连接到高维统计与随机矩阵理论方向,two-to-infinity 范数下的 entrywise bound 是高维 inference 的常用工具。
  • 关键技术: singular value decomposition, two-to-infinity singular subspace perturbation, entrywise error bound, mixed membership model, tensor flattening, locally dependent noise
  • 为什么对您有用: 本文的核心理论——局部依赖噪声下的 two-to-infinity 奇异子空间扰动界——直接连接到高维统计与随机矩阵理论方向,这是您的 primary interest。您可以用 very_familiar 的高维渐近工具验证该扰动界在 RMT 极限下是否与 Marchenko-Pastur 型结果一致,或用 moderately_familiar 的 M-estimation 理论审视其 entrywise bound 的紧性。立即可做:用您熟悉的高维渐近与 minimax bound 工具,检查该谱方法在更一般噪声结构下的 rate 是否可达 minimax。

7. 10.1080/01621459.2026.2671447 — Deep P-Spline: Theory, Fast Tuning, and Application

  • 作者: Noah Yi-Ting Hung, Li-Hsiang Lin, Vince D. Calhoun
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-28
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文提出 Deep P-Spline(DPS),将 DNN 中神经元选择问题类比于 P-spline 的节点放置,通过差分惩罚实现自动架构选择,从而规避手动调网的复杂性。模型参数估计采用 ECM 算法,并在潜在变量框架下给出结构选择的理论保证。从非参数回归视角,作者声称 DPS 克服了维度灾难,可在大量输入变量场景下有效估计回归函数——这一结论依托 DNN 已有的逼近理论(如 Schmidt-Hieber 型结果)而非新的 minimax 界。数值实验覆盖计算机实验与图像数据分析,验证了方法在非线性回归中的实用性。对您而言,本文的非参数回归+惩罚选择视角与您 very_familiar 的 nonparametric statistics 有直接交集,但其理论深度(minimax rate / efficiency bound)较浅。
  • 关键技术: P-spline difference penalty, ECM algorithm for latent variable tuning, DNN basis expansion, nonparametric regression curse-of-dimensionality avoidance, knot/neuron selection via penalization
  • 为什么对您有用: 本文连接非参数回归与 DNN 架构选择,落在您 primary interest 的 nonparametric theory 与 statistical computing 交汇处。用您 very_familiar 的 minimax bounds 工具可审视其'克服维度灾难'声明是否给出了 sharper rate 还是仅复用已有 DNN 逼近结论;ECM 调参的计算复杂度也可用 einsum/tensor 视角分析其迭代成本。中期可做:若想深入 DNN+penalized spline 的理论分析,需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以建立 penalized DNN estimator 的收敛率与 oracle 性质。

8. 10.1080/01621459.2026.2624831 — Out-of-Distribution Generalization under Random, Dense Distributional Shifts

  • 作者: Yujin Jeong, Dominik Rothenhäusler
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-12
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究在随机、密集分布偏移下的参数推断与预测问题,目标参数是部分观测偏移分布下的线性回归系数或预测值,核心假设是偏移由大量微小随机扰动叠加生成而非单一稀疏机制。作者提出 distributional uncertainty model,将偏移建模为对基础分布的随机扰动,并基于 anchor variable(已知在偏移下不变的变量)构建 anchor regression 的扩展估计量,给出偏移分布下预测风险的 worst-case bound。理论方面,在随机扰动设定下证明了估计量的收敛性与 risk bound 的 minimax 性质;实证上用经济与流行病学数据验证诊断工具。对您有用:该框架的 dense shift 建模与 worst-case risk bound 思路可迁移到因果推断中 sensitivity analysis 的随机扰动设定,尤其是 longitudinal / mediation 场景下对 unmeasured confounding 的密集扰动建模。
  • 关键技术: anchor regression, distributional uncertainty model, worst-case risk bound, random dense distributional shifts, invariance assumption relaxation, diagnostic for distributional fit
  • 为什么对您有用: 直接连接因果推断的 sensitivity analysis 子方向:本文的 dense random shift 模型为 unmeasured confounding 提供了一种非稀疏(非单一 IV / negative control)的扰动视角,与 proximal CI 的 negative control 假设形成对照。用您 very_familiar 的 minimax bound 工具可验证其 worst-case risk bound 是否紧;用 moderately_familiar 的 identification theory 可探索 anchor variable 条件在因果图下的等价表述。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将当前线性/参数化 risk bound 推广到 semiparametric estimand 的 dense shift sensitivity bound。

9. 10.1080/01621459.2026.2655550 — GS-BART: Bayesian Additive Regression Trees with Graph-split Decision Rules

  • 作者: Shuren He, Huiyan Sang, Quan Zhou
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-26
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在具有图结构(空间或网络)的相依数据非参数回归设定下,本文旨在改进传统轴平行分割 BART 对拓扑信息的利用不足问题。提出 GS-BART,将输入特征编码为候选图集,采用尊重图拓扑的灵活分割规则构建决策树。核心计算创新在于设计了基于根定向生成树或链的梯度递归算法,实现可扩展的 informed MCMC 采样。实证表明该方法在空间和网络数据的回归与分类任务中优于传统 BART 及高斯过程回归。对您有用之处在于其图分割规则与 MCMC 计算优化思路,可启发统计计算与非参数回归方向的算法设计。
  • 关键技术: Bayesian Additive Regression Trees (BART), graph-split decision rules, informed MCMC, root directed spanning trees, nonparametric regression, spatial and network data
  • 为什么对您有用: 连接到 primary interest 的 "statistical computing (numerical methods, algorithm)" 与 "nonparametric theory"(BART 属非参数贝叶斯回归)。technical_arsenal 中的 "software development" 可直接切入其 MCMC 递归算法与图分割规则的实现及计算复杂度分析。Follow-up 判断:立即可做——用 very_familiar 的 "software development" 评估其算法在更复杂图结构下的计算瓶颈;若要拓展到因果异质性处理效应估计(结合 BART 与 causal),则属中期可做(需在 BART-causal 结合上长肌肉)。

10. 10.1080/01621459.2026.2670031 — Robust Unsupervised Multi-task and Transfer Learning on Gaussian Mixture Models

  • 作者: Ye Tian, Haolei Weng, Lucy Xia, Yang Feng
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-30
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 本文研究高斯混合模型(GMM)在无监督多任务与迁移学习设定下的参数估计与聚类问题,目标 estimand 为各任务的 GMM 参数与聚类标签,假设部分任务共享相似参数结构而存在 outlier 任务来自任意分布。提出基于 EM 的多任务 GMM 学习流程,通过未知任务间相似性提升单任务表现,并对任意分布的 outlier 任务保持鲁棒性;同时给出迁移学习版本。理论证明该流程在参数估计误差与 excess mis-clustering 误差上均达到 minimax 最优收敛速率,覆盖广泛 regime;针对迭代方法中的初始化对齐问题,提出两种对齐算法。仿真与真实数据验证了方法有效性。对您可能有用:本文的 minimax rate 分析与 EM 算法收敛理论可作为高维/半参数多任务迁移学习的理论参照。
  • 关键技术: EM algorithm, minimax optimal rate, multi-task learning, transfer learning, robust estimation, label alignment
  • 为什么对您有用: 本文连接到 primary interest 中的 minimax bounds 与 estimation theory 子方向,给出了 GMM 多任务/迁移学习的 minimax 最优速率,属于您 very_familiar 的 minimax bounds 工具可直接审视的范畴。您可用 minimax bound 验证其声称的 minimax rate 是否紧,并审视 outlier-robust 设定下的 lower bound 构造。follow-up 判断:立即可做——用 very_familiar 的 minimax theory 即可检查其 lower bound 与 upper bound 的匹配性。

11. 10.1080/01621459.2026.2657051 — Mixture Modeling for Temporal Point Processes with Memory

  • 作者: Xiaotian Zheng, Athanasios Kottas, Bruno Sansó
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-33
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文提出一种基于持续时间条件密度的混合建模方法,在时间点过程框架下引入高阶历史依赖。核心 estimand 是条件持续时间密度及其隐含的条件强度函数,通过将当前持续时间建模为若干滞后持续时间的 first-order conditional densities 的混合,实现高阶 Markov 依赖与 flexible shape。隐含的条件强度函数可表示为 first-order hazard functions 的局部混合,从而统一刻画 self-exciting 与 self-regulating 行为。从持续时间过程视角,作者发展了平稳边际密度的构造方法,使模型可解释为带高阶 Markov 依赖的 dependent renewal process;并扩展至 cluster point processes 以刻画多因子驱动的持续时间聚集。推断采用全贝叶斯框架,涵盖模型检验与预测,并在合成与真实数据上验证。对您而言,该模型的局部混合 hazard 结构与高阶 Markov 依赖机制,为 longitudinal/时间序列因果设定中的时间依赖建模提供了非参数化思路。
  • 关键技术: conditional duration density mixture, local mixture of hazard functions, dependent renewal process, high-order Markov dependence, Bayesian model checking, cluster point processes
  • 为什么对您有用: 本文连接到 causal inference 的 longitudinal 设定——高阶 Markov 依赖的持续时间模型可用于刻画 treatment/time-varying confounder 的时间结构。从 technical_arsenal 看,用 very_familiar 的 nonparametric statistics 可分析其混合 hazard 的 minimax 估计率;用 moderately_familiar 的 semiparametric theory 可探索该局部混合强度函数的 semiparametric efficiency bound。Follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉(具体是 semiparametric efficiency bound for mixture hazard),才能将效率理论嵌入此模型。
  • 作者: Natalia Nolde, Chen Zhou, Menglin Zhou
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-15
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文研究在条件变量处于极端状态时,如何估计目标变量的高分位数(tail conditional quantile),estimand 为 \(P(Y>q\mid X>x_0)\) 类的条件极端风险度量。核心方法提出一个 adjustment factor 来刻画二元尾部依赖结构,该因子可与任何单变量高分位数估计技术(如 Hill estimator / POT)组合使用,从而将条件极端估计降维为单变量极端估计加修正。在相对较弱的 regularity 假设(bivariate regular variation / tail dependence)下建立了 estimator 的渐近分布与收敛速率。模拟与金融数据(CoVaR——系统性风险度量)验证了方法表现。对您而言,本文的非参数尾部估计框架与 semiparametric efficiency 视角下的条件分位数估计有方法论交集,但核心工具是 EVT 而非 influence function 路线。
  • 关键技术: bivariate tail dependence adjustment factor, conditional value-at-risk (CoVaR), univariate high quantile estimation (Hill/POT), bivariate regular variation, asymptotic normality under weak tail assumptions
  • 为什么对您有用: 本文连接到您 primary interest 中 nonparametric statistics 与 semiparametric theory 的条件分位数估计子方向,以及 secondary interest 中 economic theory 的金融系统性风险应用。您 very_familiar 的 nonparametric statistics / minimax bounds 可用来审视其声称的弱假设下渐近性质是否达到 rate-optimal,但 EVT(regular variation、Hill estimator)不在武器库中。中期可做:需先在 moderately_familiar 的 semiparametric theory 侧补上 EVT 基础(regular variation / tail index estimation),才能评估该 adjustment factor 路线与 HOIF / one-step 路线在条件极端估计上的效率差距。

13. 10.1080/01621459.2026.2670016 — A parameterization of anisotropic Gaussian fields with penalized complexity priors

  • 作者: L. Llamazares-Elias, J. Latz, F. Lindgren
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-22
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文在 SPDE 表示的各向异性 Gaussian 随机场框架下,目标是对 correlation length 与 diffusion matrix 进行 Bayesian 估计;关键 regularity 假设为参数空间常数且参数化光滑可逆。作者构造了光滑可逆的参数化映射,将各向异性相关长度与扩散矩阵映射到无约束空间,并在此基础上构建 penalized complexity (PC) prior——该 prior 通过对 KL 距离施加指数衰减惩罚,将相关范围推向无穷、各向异性推向零,从而实现弱信息且有效惩罚复杂度的后验收缩。理论层面,PC prior 的构造遵循从基础模型到扩展模型的 KL 距离原则,保证后验在 in-fill 渐近下仍能获得有意义的协方差结构。对您可能有用:本文的 PC prior 构造逻辑与 semiparametric efficiency 中对 nuisance parameter 的收缩/惩罚思路有形式上的类比,可作为 Bayesian 非参数/半参数先验设计的参考。
  • 关键技术: SPDE representation of Gaussian fields, penalized complexity prior, anisotropic correlation length parameterization, KL-distance-based prior construction, in-fill asymptotics
  • 为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向:PC prior 的 KL 距离惩罚逻辑与 semiparametric efficiency bound 中对 nuisance parameter 的建模/收缩有形式相似性,可作为 Bayesian 半参数先验设计的入门参考。用 technical_arsenal 中 moderately_familiar 的 semiparametric theory 可审视其 KL 距离定义与 nuisance 收缩的对应关系。follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上加深对 Bayesian shrinkage 与 frequentist influence function 之间联系的理解,再考虑将 PC prior 思路迁移到 causal inference 的 nuisance prior 设计。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1080/01621459.2026.2659379 — Semiparametric Efficient Fusion of Individual Data and Summary Statistics

  • 作者: Wenjie Hu, Ruoyu Wang, Wei Li, Wang Miao
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-28
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在半参数框架下研究个体数据与外部汇总统计量的融合估计问题,目标是在弱可迁移性(transportability)假设下估计内部数据分布的一般泛函。本文首先建立了融合数据下的半参数效率界,证明其不大于仅用内部数据的效率界,从而量化了外部汇总统计量的潜在效率增益。基于此界,提出了达到效率界的 data-fused efficient estimator;当可迁移性假设失效时,进一步提出 adaptive fusion estimator 以消除偏差并证明了其渐近 oracle 性质。模拟与幽门螺杆菌感染流行病学数据集的应用验证了方法的数值表现。对您有用:直接推进了半参数效率界与融合估计理论,且其 adaptive 机制与因果推断中处理假设失效的 sensitivity analysis 思路相通。
  • 关键技术: semiparametric efficiency bound, data fusion, transportability assumption, adaptive fusion estimator, oracle property, influence function
  • 为什么对您有用: 本文直接命中 primary interest 中的 efficiency theory(半参数效率界)与 secondary interest 中的 epidemiology(幽门螺杆菌数据集)。研究者 moderately_familiar 武器库中的 'semiparametric theory' 与 'identification theory in causal inference'(transportability 即一种 identification 假设)可直接用于推导和审视本文的 influence function 与效率界。立即可做:用 very_familiar 的 'estimation theory in causal inference' 检验该融合估计器在 longitudinal 或高维因果设定下的拓展潜力,并推导相应的 debiased DML 版本。

数理统计 / 假设检验 (hypothesis_testing, 6 篇)

1. 10.1080/01621459.2026.2670746 — Nonparametric tests of treatment effect homogeneity for policy-makers

  • 作者: Oliver Dukes, Mats J. Stensrud, Riccardo Brioschi, Aaron Hudson
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-23
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在非参数因果推断设定下,本文提出一类检验条件平均处理效应(CATE)定量与定性异质性的非参数假设检验方法,目标 estimand 为 CATE 是否随协变量变化。核心构造基于 influence function 的得分型检验统计量,允许在 CATE 上施加结构化假设(如单调、线性等),支持连续与离散协变量,且无需 sample splitting 即可获得 tractable 的渐近零分布。检验的备择假设定向于“个性化决策规则的总体收益是否优于忽略协变量的规则”,直接服务于政策制定。模拟与 AIDS 临床试验再分析验证了方法实用性。对您有用:该检验框架与您在 hypothesis testing 和 semiparametric theory 的兴趣高度契合,influence-function-based score test 的构造与 semiparametric efficiency bound 有天然联系。
  • 关键技术: influence-function-based score test, conditional average treatment effect, treatment effect heterogeneity, policy-relevant alternative hypothesis, asymptotic null distribution without sample splitting, structured assumptions on CATE
  • 为什么对您有用: 直接连接 hypothesis testing 与 causal inference 的 CATE 异质性推断,属于您 primary interest 的交叉地带;influence-function-based score test 的构造可由您 very_familiar 的 minimax bounds 与 moderately_familiar 的 semiparametric theory / HOIF 工具切入,分析其局部功效与效率性质。Follow-up 判断:立即可做——用 very_familiar 的 minimax 理论分析该检验在非参数备择下的局部功效率,或用 moderately_familiar 的 HOIF 探索更高阶 influence function 是否能提升对复杂异质性的检测力。

2. 10.1080/01621459.2026.2668139 — Edgeworth Accountant: An Analytical Approach to Differential Privacy Composition

  • 作者: Hua Wang, Sheng Gao, Huanyu Zhang, Milan Shen, Weijie Su, Jiayuan Wu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-23
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在差分隐私(DP)的组合设定下,目标是高效计算多次隐私机制叠加后的总体隐私损失(ε,δ)。本文提出 Edgeworth Accountant,基于 f-DP 框架,将隐私损失对数似然比(PLLR)之和的分布用 Edgeworth 展开做非渐近逼近,从而给出闭式(ε,δ)-DP 界。核心机制是:对任意加噪机制,先用分布简化技术将复杂 PLLR 映射到标准形式,再对累积 PLLR 施加 Edgeworth 修正(含偏度/峰度项),避免逐次数值积分。理论结果提供非渐近上下界,计算复杂度不随组合次数增长,优于现有 moments accountant 等方法。在深度学习与联邦分析的隐私训练场景中,Edgeworth 界与数值精确计算高度吻合。对您有用:Edgeworth 展开是 higher-order U-statistics 与假设检验的经典工具,本文将其移植到 DP 组合分析,提供了一个非渐近精度与计算效率兼顾的新范式。
  • 关键技术: f-differential privacy, Edgeworth expansion, privacy-loss log-likelihood ratio (PLLR), non-asymptotic bounds, distribution simplification technique, composition of differential privacy
  • 为什么对您有用: 本文将 Edgeworth 展开——您在 higher-order U-statistics 与假设检验中非常熟悉的经典概率工具——应用于差分隐私组合分析,属于统计计算与数学统计的交叉。您可以用 very_familiar 中的 higher-order U-statistics / minimax 理论视角审视其非渐近界的紧性(偏度/峰度修正是否足够,或是否需要更高阶项),以及用 einsum / tensor contraction 思考大规模组合下 Edgeworth 系数的计算成本。Follow-up 判断:立即可做——用您熟悉的 Edgeworth 工具复现并检验其界的紧性,或探索更高阶修正的收益。

3. 10.1080/01621459.2026.2625509 — When Less Is More: Binary Feedback Can Outperform Ordinal Comparisons in Ranking Recovery

  • 作者: Shirong Xu, Jingnan Zhang, Junhui Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-14
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 在配对比较排序恢复问题中,本文提出一般参数框架建模无平局序数配对比较,采用广义可加结构——link function量化两物品偏好差异、pattern function控制序数响应层级分布。该框架将经典二值比较模型作为特例(序数数据的二值化版本),并证明在计数算法(本质为二阶U-statistic)下,二值比较的排序错误率具有比序数数据更快的指数收敛速率。核心机制是通过pattern function决定的信噪比(SNR)刻画二值与序数数据间的性能差距:SNR越小,二值化收益越大;并识别了使SNR最小化从而最大化二值化收益的pattern function。MovieLens数据集实证验证了理论发现。对您有用:排序恢复中的指数收敛速率比较与SNR刻画属于数学统计推断理论范畴,计数算法的U-statistic视角可连接到您的U-statistic理论兴趣。
  • 关键技术: counting algorithm (order-2 U-statistic), exponential convergence rate for ranking error, SNR characterization via pattern function, generalized additive ordinal comparison model, Borda count / paired comparison aggregation, binarization of ordinal responses
  • 为什么对您有用: (1)连接到数学统计中的收敛速率分析——排序恢复的指数收敛速率与SNR刻画,以及U-statistic理论(计数算法是二阶U-statistic)。(2)用very_familiar中的minimax bounds for estimation problems视角可审视其SNR刻画是否对应某种minimax-type效率界;用moderately_familiar中的theory of higher-order U-statistics可分析计数算法的更高阶展开是否揭示更精细的收敛行为或解释为何二值化反而更优。(3)中期可做:需先在moderately_familiar的U-statistic理论上长肌肉,将计数算法的指数收敛分析推广到更高阶U-statistic或更一般的聚合统计量,以理解二值化优势的深层U-statistic机制。

4. 10.1080/01621459.2026.2639148 — Multi-Scale CUSUM Tests for Time Dependent Spherical Random Fields

  • 作者: Alessia Caponera, Domenico Marinucci, Anna Vidotto
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-11
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 在时间依赖球面随机场的谐波域设定下,本文研究结构性变点检验的渐近行为,目标是在各向同性与平稳性零假设下对球面谐波系数的时间波动建立 functional CLT。核心方法是在零假设下证明样本球面谐波系数波动满足 functional CLT,并据此构造 CUSUM 统计量。在备择假设方面,证明了 CUSUM 检验在确定性趋势、突变和非平凡 power 备择下的一致性。技术工具涉及球面谐波展开、functional CLT、CUSUM 统计量构造与渐近分布推导。实证部分将方法应用于 NCEP 全球温度数据,发现气候变化不仅影响全球平均温度,还影响不同尺度空间波动的性质。对您可能有用:本文的 functional CLT + CUSUM 框架属于 hypothesis testing 的变点检测方向,与您 primary interest 中的 mathematical statistics (hypothesis testing) 直接相关;球面谐波域的设定对 astrostats 也有潜在连接。
  • 关键技术: CUSUM test, functional central limit theorem, spherical harmonic coefficients, structural break detection, isotropy and stationarity testing
  • 为什么对您有用: 连接到 primary interest 中 mathematical statistics (hypothesis testing) 的变点检测子方向,球面数据结构亦与 astrostats 入门有潜在连接。用 very_familiar 的 nonparametric statistics 与 minimax bounds 工具可分析该 CUSUM 检验在更一般设定下的 minimax rate 或 power 性质。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将 CUSUM 框架推广到 semiparametric 变点模型并推导效率界。

5. 10.1080/01621459.2026.2668736 — Contextual Online Uncertainty-Aware Preference Learning for Human Feedback

  • 作者: Nan Lu, Ethan Lee, Ethan X. Fang, Junwei Lu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-25
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文在 RLHF(基于人类反馈的强化学习)框架下,研究如何利用动态上下文信息同时进行在线决策与对最优模型参数的统计推断,目标 estimand 为偏好模型(如 Bradley-Terry)的参数及其置信区间。方法上提出两阶段算法:第一阶段 ε-greedy 探索,第二阶段基于估计参数的 exploitation;估计量采用 one-step / debiased 思想修正探索阶段偏差,实现 n^{-1/2}-CAN 与渐近正态。理论核心是针对在线依赖样本(非 i.i.d.),通过 anti-concentration inequality 与 matrix martingale concentration 推导均匀估计速率与渐近分布,同时保证 regret 达到最优界。实证部分在 MMLU 数据集上对 LLM 医学解剖知识排名进行推断。对您可能有用:本文将 online bandit 决策与 semiparametric inference 结合,matrix martingale concentration 技术可迁移到您的高维统计与因果推断 longitudinal 设定中的依赖数据推断问题。
  • 关键技术: ε-greedy two-stage bandit, anti-concentration inequality, matrix martingale concentration, one-step debiased estimation, asymptotic normality under dependent samples, optimal regret bound
  • 为什么对您有用: 本文连接到您 primary interest 中的 hypothesis testing 与 semiparametric efficiency:在线依赖数据下的渐近正态推断是 longitudinal causal inference 与高维推断中常见难题,matrix martingale concentration 是您 very_familiar 的高维渐近工具可直接攻入的口子。Follow-up 判断:立即可做——用您熟悉的高维渐近与 minimax 理论审视其均匀速率是否可进一步 sharpen,或将其 matrix martingale 技术迁移到高维因果推断的依赖数据设定。

6. 10.1080/01621459.2026.2658287 — Structured Conformal Inference for Matrix Completion with Applications to Group Recommender Systems

  • 作者: Ziyi Liang, Tianmin Xie, Xin Tong, Matteo Sesia
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-25
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究稀疏观测矩阵中缺失条目组的联合置信区域构造问题,estimand 为同一列(如同一电影)下多个用户的评分向量,核心假设是校准集与测试集存在非完全可交换性。方法基于 conformal inference,结合任意黑箱矩阵补全算法,通过构建结构化校准集模仿测试组的依赖结构,并引入广义加权 conformalization 框架处理由此产生的 exchangeability 缺失。技术上,该框架需解决加权分位数计算与校准集构造的组合优化问题,以保证 finite-sample coverage。数值实验与 MovieLens 100K 数据分析验证了方法在组级推荐中的有效性。对您而言,本文将 conformal prediction 从单点推广到结构化多元场景,其加权 conformalization 与校准集构造思路可启发因果推断中 longitudinal/mediation 的联合推断问题。
  • 关键技术: conformal inference, weighted conformalization, matrix completion, joint confidence region, exchangeability adjustment, structured calibration set
  • 为什么对您有用: 本文连接到因果推断的 longitudinal/mediation 联合推断与假设检验方向:结构化校准集与加权 conformalization 处理非 exchangeability 的思路,可迁移至纵向数据或中介分析中多 endpoint 联合置信区域的构造。用 very_familiar 的高维渐近与软件开发工具可直接复现其算法;若想将此框架嵌入 semiparametric efficiency 理论(如 HOIF 联合推断),需先在 moderately_familiar 的 semiparametric 理论上长肌肉。立即可做:复现实验并尝试在因果 longitudinal 数据上套用其加权 conformal 框架。

统计计算 / 算法 (stat_computing, 5 篇)

1. 10.1080/01621459.2026.2658285 — Tree Bandits for Generative Bayes

  • 作者: Sean O’Hagan, Jungeum Kim, Veronika Ročková
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-29
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在似然函数不可解的生成模型中,近似贝叶斯计算(ABC)常是推断的最后手段,但传统 ABC 拒绝采样需大量先验参数试验且仅保留极小比例,本文旨在加速此过程。作者提出自感知框架,利用递归划分分类器(树)在 ABC 查找表上顺序细化高似然区域为矩形箱,将每个箱视为二进制 Bandit 问题的臂(ABC 接受作为奖励)。根据先验分布和历史拒绝记录,各臂具有不同的选择倾向,算法在高似然区域放置更多分裂而避开注定被拒绝的低概率区域。提供了 ABC-Tree(后验采样)和 ABC-MAP(MAP 估计)两个版本,在极低模拟成本下实现精确近似,并给出了近乎最优的遗憾界理论保证。对您有用:本文将非参数递归划分与 Bandit 理论结合以优化计算资源分配,直接呼应您对 statistical computing 与非参数方法的兴趣,其 regret bound 分析也可作为数学统计视角的切入点。
  • 关键技术: Approximate Bayesian Computation, recursive partitioning classifier, binary bandit problem, nearly optimal regret bound, simulation-based inference
  • 为什么对您有用: 直接呼应 primary interest 中的 statistical computing(算法优化)与 nonparametric theory(递归划分/树方法)。您的 very_familiar 武器库中的 minimax bounds 可用于审视其声称的近乎最优遗憾界是否紧致,software development 经验可直接用于复现或改进 ABC-Tree 实现。Follow-up 判断:立即可做——用 minimax 理论验证其 regret bound 紧性,或用软件工程能力实现更高效的树-Bandit 搜索结构。

2. 10.1080/01621459.2026.2657609 — Extracting Interpretable Models from Tree Ensembles: Computational and Statistical Perspectives

  • 作者: Brian Liu, Rahul Mazumder, Peter Radchenko
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-25
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究从树集成模型中提取可解释决策规则的问题,estimand 为在给定规则数与交互深度联合约束下的最优规则子集线性组合预测器。核心方法将规则提取建模为带复杂度约束的离散优化问题,并设计了基于混合整数规划(MIP)的精确算法与计算正则化路径的近似算法。理论贡献是建立了非渐近预测误差 oracle inequality,证明在相同复杂度约束下,估计器的大样本预测性能与数据依赖的 oracle 最优规则线性组合一致。实验表明该方法在保真度与可解释性上优于现有规则提取算法。对您有用之处在于:其非渐近 oracle bound 的证明策略可为非参数 minimax 分析提供参考,且 MIP 算法设计直接契合统计计算兴趣。
  • 关键技术: tree ensemble rule extraction, mixed integer programming (MIP), non-asymptotic oracle inequality, regularization path algorithm, interaction depth constraint, discrete optimization
  • 为什么对您有用: (1) 奏合 primary interest 中的 'statistical computing (numerical methods, algorithm)' 与 'nonparametric theory';提取的规则可潜在用于因果推断的 subgroup/interaction 发现。(2) 可用 very_familiar 的 'minimax bounds for estimation problems' 审视其 oracle inequality 的紧致性,用 'software development' 复现或扩展其 MIP 算法。(3) 立即可做:用 minimax 视角验证其声称的 oracle rate 是否紧,或用 software development 技能实现其近似路径算法并与现有包做 benchmark。

3. 10.1080/01621459.2026.2626081 — Scalable and Robust Regression Models for Continuous Proportional Data

  • 作者: Changwoo J. Lee, Benjamin K. Dahl, Otso Ovaskainen, David B. Dunson
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文针对连续比例数据的回归问题,提出替代 beta regression 的新模型族:连续二项分布(cobin)及其散度混合(micobin),在分布误设与异常值下比 beta regression 更稳健,且自然处理边界响应(0 或 1)。关键计算创新是 Kolmogorov-Gamma 数据增广方案,使 Gibbs sampling 在层次模型(嵌套/纵向/空间)中可行且高效。模拟与湖泊生态指标实证表明 micobin regression 在稳健性与计算速度上优于 beta regression。理论层面未给出 semiparametric efficiency bound 或 minimax rate 分析,稳健性论证主要依赖模拟对比而非渐近理论。对您而言,Kolmogorov-Gamma 增广技巧属于 statistical computing 方向的具体数值方法创新,可关注其在层次模型 Gibbs sampler 设计中的通用性。
  • 关键技术: Kolmogorov-Gamma data augmentation, Gibbs sampling, continuous binomial distribution, dispersion mixture of cobin, hierarchical Bayesian modeling, beta regression robustness
  • 为什么对您有用: 本文连接到 statistical computing 子方向——Kolmogorov-Gamma 增广方案是针对特定分布族的 Gibbs sampler 设计技巧,属于数值方法与算法范畴。对您 technical_arsenal 中的 software development 有直接可读性,但核心理论(semiparametric efficiency / minimax rate)未涉及,无法用 very_familiar 的 minimax bounds 或 HOIF 工具切入理论口子。Follow-up 判断:暂不可做——若要在此方向深挖需先掌握 Bayesian hierarchical model 的计算收敛理论(如 data augmentation 的 mixing rate 分析),这不在当前武器库中;作为 gateway reading 了解比例数据回归的计算方案尚可,但不值得花大量时间读全文。

4. 10.1080/01621459.2026.2670729 — Saddlepoint Approximations for Hawkes Jump-Diffusion Processes with an Application to Risk Management*

  • 作者: Yacine Aït-Sahalia, Roger J. A. Laeven
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-27
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文在 Hawkes 跳扩散过程框架下建模金融损失的时序与截面聚集性,目标是对损益分布的边际与联合尾部做近似推断。核心方法是 saddlepoint approximation(SPA),作者在 Hawkes 过程的矩生成函数基础上推导出边际与联合尾部密度的闭式近似,并据此构造 VaR、Expected Shortfall 等风险度量的显式公式。关键技术工具包括 cumulant generating function 的闭式表达、Lugannani-Rice 型 SPA、以及 Hawkes 过程的自激发强度函数。理论结果提供了尾部概率的显式近似率,实证部分用模拟与真实金融数据校准参数并做比较静态分析。对您可能有用:SPA 作为数值近似工具在统计计算中有广泛应用,本文的闭式推导思路可迁移到其他跳过程或高维尾部推断场景。
  • 关键技术: saddlepoint approximation, Hawkes process, jump-diffusion model, cumulant generating function, Lugannani-Rice formula, risk measure (VaR, Expected Shortfall)
  • 为什么对您有用: 本文连接到统计计算(数值方法与软件)这一 primary interest 子方向,saddlepoint approximation 是经典的数值近似工具,与您在统计计算方面的兴趣直接相关。您武器库中的 software development 与 high-dimensional asymptotics 可以直接攻本文的闭式推导与数值实现部分——属于立即可做:用 very_familiar 的数值方法与软件工具即可复现并扩展 SPA 到其他过程设定。

5. 10.1080/01621459.2026.2635067 — Scalable Bayesian Image-on-Scalar Regression for Population-Scale Neuroimaging Data Analysis

  • 作者: Yuliang Xu, Timothy D. Johnson, Thomas E. Nichols, Jian Kang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-13
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文针对大规模神经影像数据(如 UK Biobank,38,639 受试者、120,000+ voxels/image)的 Bayesian Image-on-Scalar Regression (ISR) 提出可扩展计算方案,核心 estimand 为给定协变量下脑图像的区域激活效应及其后验不确定性。模型采用带 salience area indicator 的 Gaussian process 先验以标记显著区域,并允许受试者特异性脑 mask(而非强制统一 mask 的 zero-imputation)。计算层面用 stochastic gradient Langevin dynamics (SGLD) 替代传统 Gibbs sampling,结合 memory mapping 使内存占用仅限于 batch size、计算随 subsample size 线性增长;仿真与实证显示 4–11 倍加速及 8–18% 统计功效提升。实证发现杏仁核子区域在 50–60 岁间情绪相关激活下降约 58%。对您而言,SGLD + memory mapping 的线性扩展策略是大规模 Bayesian 计算的一个工程参考,但核心理论(GP 先验收敛率、后验 concentration)未深入讨论。
  • 关键技术: stochastic gradient Langevin dynamics, Gaussian process priors with salience indicators, memory-mapped posterior computation, subject-specific mask handling, Bayesian image-on-scalar regression
  • 为什么对您有用: 本文连接到您 primary interest 中 statistical computing(数值方法与算法)子方向:SGLD + memory mapping 实现线性扩展是大规模 Bayesian inference 的一个工程范式,但您武器库中 very_familiar 的 tensor contraction / einsum 复杂度视角与此处 MCMC-type 计算无直接交集。GP 先验的非参数性质触及您 moderately_familiar 的 semiparametric theory,但论文未给后验 concentration rate 或 minimax 界。follow-up 判断:暂不可做——核心机器(SGLD 理论、GP 后验 contraction)不在武器库,且应用域(neuroimaging)非您 secondary interest;若仅关注 scalable computing 工程思路,可快速浏览但无需深读。

流行病学 (epidemiology, 2 篇)

1. 10.1080/01621459.2026.2664077 — Scalable calibration of individual-based epidemic models through categorical approximations

  • 作者: Lorenzo Rimella, Nick Whiteley, Chris Jewell, Paul Fearnhead, Michael Whitehouse
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-26
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在部分观测的个体化流行病学模型中,精确似然计算随人口规模指数增长,本文提出基于类别分布近似似然的确定性方法(CAL)以实现可扩展的参数校准。CAL 将个体状态转移近似为类别分布,使近似似然对自动微分(AD)友好,从而可直接利用 TensorFlow 等库进行梯度优化或后验采样,无需定制提议分布或多次模拟。理论方面,在常规正则条件下证明了最大近似似然估计量(MALE)的一致性。实证覆盖多种复杂设定(空间交互、漏报误报、异质转移率),并在 2001 英国口蹄疫数据(162775 农场)上展示了极高可扩展性与低计算成本。对您而言,这提供了一个流行病学大规模时空数据集及现代统计计算(AD+M-estimation)结合的范例,适合作为 epi 方向的 gateway reading。
  • 关键技术: categorical approximate likelihood, automatic differentiation, maximum approximate likelihood estimator, individual-based epidemic model, consistency of M-estimator
  • 为什么对您有用: 连接到 secondary interest 的流行病学方向,提供了大规模真实时空数据集(UK Foot-and-Mouth)和个体化建模框架。技术上,MALE 的一致性证明连接到您 moderately_familiar 的 M-estimation theory;AD+TensorFlow 的计算范式连接到您 very_familiar 的 software development。判定:立即可做——您完全具备评估其 M-estimator 理论性质(如能否推导 asymptotic normality / efficiency bound)和复现其软件架构的能力;作为 epi 领域的 gateway reading 非常合适,值得花时间读全文。

2. 10.1080/01621459.2026.2670708 — Bayesian Precision Medicine.

  • 作者: Yang Ni
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-3
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在高维 omics 数据中,单一聚类划分容易混淆不同生物过程产生的多重聚类结构;本文提出 multi-view Bayesian mixture model,将变量分组为"views",每个 view 定义独立的聚类 partition。核心方法是 semi-supervised 的 outcome-guided mixture modelling(Bayesian profile regression),利用响应变量引导推断朝向与分层医学最相关的聚类,而非无监督地发现所有结构。模型在 pan-cancer proteomics 和 breast cancer subtyping 数据上做了 integrative clustering 示例。对您而言:outcome-guided 思路与因果推断中 subgroup/heterogeneous treatment effect identification 有概念关联,但本文方法为 Bayesian parametric mixture,与您的 semiparametric/efficiency 理论工具距离较远。
  • 关键技术: multi-view Bayesian mixture model, outcome-guided clustering, Bayesian profile regression, semi-supervised mixture modelling, integrative clustering
  • 为什么对您有用: (1) 连接到 epidemiology secondary interest 中的疾病亚型识别应用与 omics 数据集,outcome-guided 思路与 causal inference 中 subgroup effect identification 有概念关联但本文无 causal framing;(2) 本文核心是 Bayesian parametric mixture,您的 technical_arsenal(semiparametric theory, HOIF, efficiency bounds, minimax)无法直接攻入其理论框架——若想从 subgroup identification 视角切入,需要将 outcome-guided clustering 重新表述为 semiparametric estimand 并推导 influence function;(3) 中期可做——需先在 moderately_familiar 的 M-estimation theory 上补 Bayesian nonparametric mixture 的 posterior concentration 理论,再尝试用 HOIF 或 semiparametric efficiency 视角重做 outcome-guided clustering 的理论分析。

其他 (other, 8 篇)

1. 10.1080/01621459.2026.2612773 — Optimal Differentially Private Ranking from Pairwise Comparisons

  • 作者: T. Tony Cai, Abhinav Chakraborty, Yichen Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-15
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在 Bradley-Terry 类 pairwise comparisons 模型下,研究如何在 edge differential privacy(保护单条比较结果)与 individual differential privacy(保护单个个体所有比较)两种隐私约束下进行 ranking estimation,目标是刻画 minimax optimal convergence rate。提出两类算法:perturbed MLE(对 MLE 加噪声扰动)与 noisy count-based method(对比较计数加噪声后排序),分别在两种 DP 约束下达到 minimax 最优收敛速率。理论核心是建立 DP 约束下的 minimax lower bound(通过 packing argument 与 privacy-induced information loss),并证明所提算法的 upper bound 与之匹配,给出明确的 rate 表达式(如 edge DP 下 n^{-1} 与 individual DP 下更慢的 rate)。实验在模拟与真实数据上验证了算法实用性。对您有用:隐私约束导致 rate degradation 的结构与 statistical-computational tradeoff 中信息-计算 gap 有类比关系,可作为理解 constraint-induced minimax gap 的 gateway reading。
  • 关键技术: minimax rate under privacy constraints, perturbed maximum likelihood estimator, edge differential privacy, individual differential privacy, noisy count-based ranking, packing lower bound with privacy constraint
  • 为什么对您有用: 本文的 minimax lower/upper bound 分析直接对接您 very_familiar 的 minimax bounds for estimation problems;隐私约束引起的 rate degradation(从无隐私最优速率退化为隐私约束下最优速率)与您关注的 statistical-computational tradeoff 中信息-计算 gap 有结构相似性——都是约束条件使 minimax rate 变慢,可作为理解 constraint-induced gap 的入门案例。Follow-up 判断:中期可做——minimax bound 技术可直接迁移,但需先在 differential privacy 的信息论刻画(privacy budget 如何转化为 packing / metric entropy 限制)上长肌肉,这是 moderately_familiar 中未覆盖的新工具。

2. 10.1080/01621459.2026.2634436 — Staleness Factors and Volatility Estimation at High Frequencies

  • 作者: Xinbing Kong, Bin Wu, Wuyi Ye
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-15
  • 相关性 4/10
  • 摘要: 在高频金融数据的大面板设定下,本文提出价格"停滞因子"(staleness factor)模型,刻画市场摩擦导致的价格不更新现象,目标是在资产维度 d 和采样频率 n 同时趋于无穷的双极限下估计回归系数、非平稳因子及其载荷参数。作者通过极大似然估计恢复时变停滞概率,并采用局部主成分分析(LPCA)发现有效价格的系统性与特质性协同波动率在停滞存在时向下偏差。针对此偏差,作者提出偏差校正估计量并证明其对数据停滞的稳健性。理论上,积分 plug-in 估计量以 n^{-1/2} 速率收敛且无需校正项,而局部 PCA 估计量以较慢的 n^{-1/4} 速率收敛——此差异验证了非线性非平稳因子 MLE 的"聚合效率"。实证表明停滞因子对截面风险溢价有独特解释力,停滞校正可降低样本外组合风险。对您而言,双极限下的收敛率比较与因子模型估计效率直接连接到高维统计与效率理论的交叉。
  • 关键技术: nonstationary factor model MLE, local principal component analysis (LPCA), double asymptotics (d, n → ∞)

3. 10.1080/01621459.2026.2667536 — Principled Estimation and Prediction with Competing Risks: a Bayesian Nonparametric Approach

  • 作者: Claudio Del Sole, Antonio Lijoi, Igor Prünster
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-33
  • 相关性 3/10
  • 摘要: 在多状态竞争风险框架下,本文目标是利用分层完全随机测度(hierarchical completely random measures, CRM)作为非参数先验来建模转移概率,并识别其条件共轭成员。核心机制是推导数据与潜在随机划分的联合边际分布,进而刻画模型的后验分布。基于此分布结果,作者定义了"预测曲线"(prediction curve),即未来事件属于特定类型的预测概率随时间变化的函数,这是该领域的重要方法创新。此外,文章提供了生存函数、原因特异性发生率及子分布函数的后验估计,并设计了相应的后验推断模拟算法。仿真研究与临床数据集验证了模型与算法的有效性。对您而言,本文提供了流行病学竞争风险场景下的贝叶斯非参数方法,可作为与您熟悉的频率派半参数效率理论(如子分布函数的 efficient influence function)进行对比的切入点。
  • 关键技术: completely random measures, Bayesian nonparametric priors, competing risks multi-state model, prediction curve

4. 10.1080/01621459.2026.2663588 — Conformal prediction after data-dependent model selection

  • 作者: Ruiting Liang, Wanrong Zhu, Rina Foygel Barber
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-26
  • 相关性 3/10
  • 摘要: 在 conformal prediction 框架下,目标是从一族预训练模型中选出使预测集宽度最小的模型,同时保证选定模型上的 conformal prediction set 具有有限样本覆盖有效性;核心挑战是 selection bias——用同一 hold-out 数据既做模型选择又做 calibration 会导致覆盖率失效,而额外 sample-splitting 在数据有限时代价高昂。作者提出无需额外样本分割的修正方法,通过对 conformal quantile 的选择偏倚校正来恢复有限样本覆盖有效性(finite-sample validity guarantee)。在模型类的某种正则性条件下,所构造的预测集宽度具有渐近最优性。仿真与真实数据实验验证了方法在预测集宽度上的改进。对您可能有用:本文"不牺牲数据效率而修正选择偏倚"的思路,与您在 efficiency theory 中关注 sample-splitting 对 semiparametric efficiency bound 的影响有直接对话空间。
  • 关键技术: conformal prediction

5. 10.1080/01621459.2026.2670732 — Accounting for Measurement Bias: A New Framework for Reliable Country Ranking in Large-Scale Educational Assessments

  • 作者: Jing Ouyang, Yunxiao Chen, Chengcheng Li, Gongjun Xu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-23
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文研究国际大规模教育评估(如PISA、TIMSS)中IRT模型因语言/文化/课程差异导致的measurement bias对国家排名推断的扭曲问题,目标是无需锚题或参考组假设下可靠恢复群体排名。作者提出一种新框架,绕开传统方法对无偏锚题或指定参考组的强假设,通过计算高效的算法实现排名的可靠恢复,并给出理论保证(排名恢复的一致性/误差界)。实证部分将方法应用于PISA 2022数学/科学/阅读数据,给出修正后的国家排名及measurement bias结构分析。对您而言,本文的IRT measurement bias修正与排名推断理论可视为semiparametric/nonparametric M-estimation在测验数据中的具体应用,但核心模型与因果/高维/效率理论的交集较浅。
  • 关键技术: IRT measurement invariance, group ranking recovery, M-estimation theory, anchor-free identification, computational efficiency guarantee
  • 为什么对您有用: 本文属于IRT/测验统计的应用理论,与您primary interest中的因果推断/高维/效率理论交集有限;技术层面主要依赖M-estimation与identification,您moderately_familiar中的M-estimation theory可覆盖其理论部分,但IRT measurement bias的具体模型不在武器库核心方向。follow-up判断:暂不可做——核心机器(IRT多群体invariance与ranking推断的专门identification理论)不在武器库,且与您当前研究主线(因果/高维/U-stat)距离较远,不值得深入展开。

6. 10.1080/01621459.2026.2671450 — An efficient Monte Carlo method for valid prior-free possibilistic statistical inference

  • 作者: Ryan Martin
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-25
  • 相关性 1/10
  • 摘要: 在 Inferential Models (IMs) 框架下,目标是实现 prior-free、Bayesian-like 的 possibilistic posterior 推断,其具有 frequentist calibration 性质,但输出为 possibilistic 而非 probabilistic,导致传统 Monte Carlo 方法无法直接适用。本文通过刻画 possibilistic IM 的 credal set,识别出"最佳概率近似"为一个 mixture distribution,可方便地近似与采样;将采样结果变换后得到 possibilistic IM 的近似输出。数值实验展示了近似精度与计算效率。对您而言,本文的 Monte Carlo 计算方案属于统计计算范畴,但 IM 框架本身较 niche,与您核心的 semiparametric efficiency / U-statistics / minimax 理论方向无直接交集。
  • 关键技术: possibilistic inference, credal set characterization

7. 10.1080/01621459.2026.2656455 — Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems

  • 作者: Yiran Huang, Jian-Feng Yang, Haoda Fu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-23
  • 相关性 1/10 · novelty: new_method
  • 摘要: 在 human-in-the-loop 主动学习设定下,目标是优化专家标注效率,通过同时决定标注哪些数据点以及采用何种查询方式来最小化标注成本。本文提出一个整合不同查询类型信息的模型,并开发了数据驱动的探索-利用(exploration-exploitation)框架,该框架可嵌入多种主动学习算法。方法层面缺乏具体理论性质描述(无收敛率、minimax bound、效率界等),核心贡献是算法设计与实证验证。在五个真实数据集(含复杂医学图像任务)上仿真显示更高准确率与更低损失。对您而言,本文与 primary interests 的直接连接较弱——主动学习查询策略不在因果推断/高维/半参数/效率理论的核心范畴内。
  • 关键技术: active learning query strategy, exploration-exploitation tradeoff, multi-query type integration, human-in-the-loop labeling
  • 为什么对您有用: 本文连接到 statistical computing 的算法设计子方向,但不是您关注的 numerical methods / matrix / tensor 方向;武器库中 software development 可复现其框架,但本文缺乏理论分析口子(无 minimax bound / efficiency / semiparametric 结果),very_familiar 武器无法攻入理论层面;暂不可做:主动学习的 exploration-exploitation 理论与 query scheme 信息论分析不在武器库中,且本文本身理论深度不足以支撑后续理论推进。

8. 10.1080/01621459.2026.2627493 — Spatial Scale-Aware Tail Dependence Modeling for High-Dimensional Spatial Extremes

  • 作者: Muyang Shi, Likun Zhang, Mark D. Risser, Benjamin A. Shaby
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: pp 1-14
  • 相关性 1/10
  • 摘要: 本文研究高维空间极值数据的尾部依赖建模问题,目标是在空间域上允许尾部依赖特征随位置平滑变化而非全局单一依赖类。作者修改经典 random scale construction(Gauss 隨場乘单一径向变量),使径向变量在空间上平滑变化并为 GP 加入非平稳性,从而在单一模型中同时实现长距离 asymptotic independence 与短距离 asymptotic dependence/independence。采用 copula 方法在 Bayesian hierarchical model 中对依赖模型与边际模型进行联合推断,三个模拟场景显示 frequentist coverage 接近 nominal 水平。应用于美国中部夏季极端降水数据,发现联合尾部依赖结构具有非平稳性,现有极限极值模型与 sub-asymptotic 模型均无法捕捉。本文属于空间极值统计的新方法论工作,与您关注的 semiparametric efficiency / RMT / causal inference 方向无直接技术交叉。
  • 关键技术: random scale construction

Maintained by 陈星宇 · Homepage · Source on GitHub

评论