AoAS — Vol 20 Issue 1 · 2026-06-10¶

共 38 篇 · Annals of Applied Statistics
目录核对 ⚠️ 疑似漏 4 篇（对照 OpenAlex 44 篇）：10.1214/25-aoas2118、10.1214/25-aoas2080、10.1214/25-aoas2078、10.1214/26-aoas2144

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

这一期整体围绕三个主线展开：高维因果图与因子模型、时空与网络建模中的异质性与时间变异、以及小区域与迁移学习中的预测与泛化。高维主线包含三篇：一篇聚焦多源非高斯DAG融合（Integrative learning of linear non-Gaussian DAG），一篇用PCA增广特征改进高维预测（Feature augmentations for high-dimensional learning），一篇讨论协变量调整的广义潜因子模型及其公平性检验（Statistical inference for covariate-adjusted latent factor model）。时空与网络主线覆盖四篇：Markov-switching空间自回归模型分析动态价格依赖（Analysing dynamic cross-price dependencies）、潜在空间模型刻画疾病网络时间变异（Latent space modeling for human disease network）、多层动态因子模型刻画伊比利亚温度趋势（Temperature in the Iberian Peninsula）、以及功能空间聚类用于PM2.5区域化（Regionalization of China’s PM2.5）。小区域与迁移学习主线包含三篇：混合效应随机森林用于贫困制图（Random forests and mixed effects random forests for small area estimation）、迁移学习提升表观遗传时钟泛化性（Bridging the gap: Enhancing the generalizability of epigenetic clocks）、以及新生儿死亡率时空预测模型比较（Temporal models for estimation and short-term forecasting of neonatal mortality rates）。其余三篇分别涉及误报响应下的Gibbs抽样（A partially collapsed Gibbs sampling algorithm）、离散失效时间潜类分析（Latent class analysis with discrete failure time model）、以及神经影像多站点纵向分析框架（A general framework for investigating neurodevelopment）。

高维因果图与因子模型这条主线中，多源非高斯DAG一文的核心贡献在于：在允许各源边强度与噪声分布异质的设定下，利用非高斯性实现结构识别，并证明融合估计的收敛率优于单源学习——这一结果与因果推断中多环境/多干预identification有结构相似性，可作为高维因果图minimax界的参照。PCA特征增广一文则从因子模型视角切入，将过度参数化特征矩阵分解为因子载荷与异质残差，作为原始特征的增广项送入下游学习，相当于在PCA降维与原始特征之间取折中路径，直接连接到高维统计与RMT的低秩近似视角。协变量调整潜因子模型一文虽标题涉及公平性检验，但其核心是广义潜因子模型的统计推断，与前述两篇共享高维因子结构这一工具。

时空与网络建模主线中，Markov-switching空间自回归模型允许空间权重矩阵和网络强度随隐Markov状态演化，从而刻画传统空间模型忽略的时间变异经济互联结构——若关注经济因果结构的时间变异，其状态依赖权重矩阵提供了一个可扩展的identification框架。潜在空间模型一文则通过时间惩罚项实现疾病网络结构分段常数与平滑过渡的自动识别，并建立了估计量的统计与计算收敛性质，与Markov-switching模型在时间变异建模上形成互补。多层动态因子模型一文将EM算法扩展以容纳非平稳因子，是唯一的方法增量，但其实证结论（中心温度趋势公共性显著，区域成分在对数极差上不可忽视）对气候统计有参考价值。功能空间聚类一文使用angular depth实现鲁棒聚类，与前述几篇共享空间/网络结构这一主题。

小区域与迁移学习主线中，混合效应随机森林一文在随机森林中嵌入区域随机效应，并设计了带bootstrap偏差校正的拟合算法与smearing估计器，其MSE估计使用非参数block bootstrap——这一套框架对SAE中一般参数（如贫困率）的估计具有直接实用性。迁移学习一文则通过kriging和DNN实现特征适配，解决表观遗传时钟在不同人群和测序平台间的泛化性问题，其核心机制（从源数据集借用共享知识校准目标模型）与多源DAG融合在精神上相通。新生儿死亡率预测一文系统比较了五种latent temporal模型，发现二阶随机游走与惩罚样条偏差最小，且惩罚样条短期预测区间更窄——这一比较结果对时空预测的模型选择有直接指导意义。

与因果推断方向最贴的是多源非高斯DAG一文（多环境identification视角）和Markov-switching空间自回归模型（时间变异因果结构）。与半参数效率方向相关的是协变量调整潜因子模型一文（广义潜因子推断）和混合效应随机森林一文（smearing估计与bootstrap偏差校正）。与高维方向相关的是PCA特征增广一文（因子模型与RMT视角）和多源非高斯DAG一文（高维因果图收敛率）。

因果推断 (causal_inference, 2 篇)¶

1. 10.1214/25-aoas2117 · arXiv — Multiply robust estimation for causal survival analysis with treatment noncompliance¶

作者: Chao Cheng, Bo Liu, Lisa Wruck, Fan Li, Fan Li
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 9/10 · novelty: new_method
摘要: 在处理非依从性的因果生存分析设定下，本文目标是估计 principal survival causal effects（在 principal ignorability 与 monotonicity 假设下的 identification）。作者提出 multiply robust estimator，即使一个甚至两个 nuisance model 被误设仍能保持一致性，这通过组合多个 identification formula 的 IPW / outcome regression / g-formula 路径实现。方法应用于 ADAPTABLE 试验，比较高低剂量阿司匹林对心血管死亡/住院的异质性效应，发现 always-taker、complier、never-taker 三组效应差异解释了 ITT null 结果。此外，作者对 principal ignorability 和 monotonicity 两个识别假设的违反进行了正式 sensitivity analysis。对您可能有用：multiply robust 结构与 semiparametric efficiency bound 的关系值得深挖，principal stratification 下的 survival outcome 估计是因果推断+生存分析交叉的新方向。
关键技术: multiply robust estimation, principal stratification, principal ignorability, survival causal effect, sensitivity analysis for identification assumptions, noncompliance / IV monotonicity
为什么对您有用: (1) 直接连到 causal inference 的 principal stratification / noncompliance 估计子方向，以及 sensitivity analysis for identification assumptions；(2) 用 very_familiar 的 estimation theory in causal inference 可以分析其 multiply robust 结构是否达到 semiparametric efficiency bound，用 moderately_familiar 的 identification theory in causal inference 可以审视 principal ignorability 的可检验性；(3) 中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以推导该 estimator 的 influence function 并判断其是否为 efficient estimator。

2. 10.1214/26-aoas2150 · arXiv — Dynamic classification of latent disease progression with auxiliary surrogate labels¶

作者: Zexi Cai, Donglin Zeng, Karen S. Marder, Lawrence S. Honig, Yuanjia Wang
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 5/10 · novelty: new_method
摘要: 在潜在疾病进展状态不可观测（缺乏金标准诊断）的设定下，本文研究如何利用时变代理标签与纵向标记进行动态分类，目标 estimand 为潜在疾病状态的转移概率与未来状态预测。作者提出将生成式隐马尔可夫模型（HMM）与判别式时变分类模型混合，以同时处理代理标签的潜在误分类并纳入疾病标记，避免纯生成式方法对标记边际分布的强参数假设。估计方面，开发了自适应 forward-backward 算法，利用修改后的 posterior 与 Viterbi 算法仅基于客观标记进行预测；该自适应消除了传统算法中建模纵向标记边际分布的要求。理论方面建立了估计量的渐近性质，模拟与 NACC 神经病理数据分析显示在区分 Lewy body dementia 与 AD 上精度显著提升。对您可能有用：本文的生成-判别混合框架与代理标签误分类处理，可直接迁移到 proximal CI 中 negative-control 代理变量的设定。
关键技术: hidden Markov model, discriminative classification, forward-backward algorithm, Viterbi algorithm, surrogate label misclassification, asymptotic properties
为什么对您有用: 本文连接到 proximal CI 的 negative-control / surrogate 设定：代理标签的误分类建模与生成-判别混合思路，可类比 proximal g-formula 中对 negative-control outcome/exposure 的处理。用您 very_familiar 的 M-estimation theory 可分析其混合估计量的渐近性质与鲁棒性；moderately_familiar 的 identification theory 可探索该框架下潜在状态的 nonparametric identification 条件。中期可做：需先在 moderately_familiar 的 identification theory 上长肌肉，以将生成-判别混合思路推广到更一般的 proximal identification 框架。

高维统计 / 随机矩阵 (high_dim_rmt, 3 篇)¶

1. 10.1214/25-aoas2116 — Integrative learning of linear non-Gaussian directed acyclic graphs with application on multisource gene regulatory network analysis¶

作者: Xuanyu Li, Sanguo Zhang, Mingyang Ren, Qingzhao Zhang
期刊/来源: Annals of Applied Statistics
机构: Chinese Academy of Sciences · Beijing Institute of Big Data Research · Shanghai Jiao Tong University · Xiamen University
分类: vol 20 · issue 1
相关性 8/10 · novelty: new_theory
摘要: 在多源高维线性非高斯 DAG 学习设定下，目标是融合多个共享拓扑结构但边强度与噪声分布各异的数据集以更准确重建因果图。作者提出 integrative learning 框架，利用非高斯性（如 ICA 类方向）实现结构识别，并允许各源异质参数。理论方面，建立了 DAG 拓扑重建的渐近一致性，并显式证明融合估计在多个维度上较单源学习有更优的收敛率。数值实验与多中心非小细胞肺癌基因调控网络数据验证了方法优势。对您可能有用：该文的多源融合设定与因果推断中多环境/多干预 identification 有结构相似性，其一致性率改善可作为高维因果图估计 minimax 界的参照。
关键技术: linear non-Gaussian DAG estimation, integrative multi-source learning, high-dimensional consistency, ICA-based structure identification, heterogeneous edge strength
为什么对您有用: 本文连接到高维统计与因果图学习方向，其多源融合一致性率改善直接触及 minimax bound 评估——可用您 very_familiar 的 minimax bounds 工具检验其声称的 rate 是否紧。此外，多源异质 DAG 设定与因果推断多环境 identification 问题结构相近，可用 moderately_familiar 的 identification theory 探索跨源约束的 identification 条件。中期可做：需先在 moderately_familiar 的 identification theory 上长肌肉，以将多源 DAG 融合框架与 proximal/IV 多环境设定对接。

2. 10.1214/25-aoas2127 — Feature augmentations for high-dimensional learning: Applications to stock market prediction using Chinese news data¶

作者: Xiaonan Zhu, Bingyan Wang, Jianqing Fan
期刊/来源: Annals of Applied Statistics
机构: Princeton University
分类: vol 20 · issue 1
相关性 7/10 · novelty: new_method
摘要: 在高维因子模型设定下，本文提出通过 PCA 提取设计矩阵及其变换（如交互项、核特征）的因子与异质残差，作为原始特征的增广项，以削弱变量间相关性并提升数值稳定性与可解释性。核心机制是对过度参数化的特征矩阵做因子分解，将因子载荷与 idiosyncratic 残差一并送入下游监督学习算法，相当于在 PCA 降维与原始特征之间取折中路径。理论依托高维因子模型的近似低秩结构，实证覆盖多种算法与领域数据，重点展示中文金融新闻 NLP 特征在股票收益预测中的提升效果。对您而言，该文将因子模型与特征工程结合的增广策略，直接连接到高维统计与 RMT 的低秩近似视角，可作为经济理论应用中高维 NLP 特征处理的方法参考。
关键技术: PCA feature augmentation, high-dimensional factor model, idiosyncratic residuals, kernel feature transformation, low-rank approximation
为什么对您有用: 本文连接到高维统计（因子模型低秩近似）与经济理论（中文金融新闻股票预测应用）两个子方向。用您 very_familiar 的高维渐近理论可以分析 PCA 增广在近似因子模型下的收敛性质与信息保留效率，验证其声称的数值稳定性提升是否有理论保证。立即可做：用熟悉的高维因子模型工具复现并扩展其增广策略的理论分析。

3. 10.1214/25-aoas2113 — Statistical inference for covariate-adjusted and interpretable generalized latent factor model with application to testing fairness¶

作者: Jing Ouyang, Chengyu Cui, Kean Ming Tan, Gongjun Xu
期刊/来源: Annals of Applied Statistics
机构: University of Hong Kong · University of Michigan
分类: vol 20 · issue 1
相关性 6/10 · novelty: new_theory
摘要: 在高维离散响应的广义潜因子模型设定下，目标是控制潜因子后推断协变量效应（如测试公平性中的 DIF），关键 regularity 假设为作者提出的可解释性可识别条件。方法上采用联合极大似然估计（JMLE）同时估计协变量效应、潜因子与载荷。理论贡献为在高维响应与大样本设定下，证明了 JMLE 的估计一致性，并推导出协变量效应的渐近正态性，从而实现有效的统计推断。实证部分基于 PISA 数据展示了 DIF 检验的应用。对您可能有用：本文的高维因子模型推断与可识别条件，与您的高维渐近理论及因果识别理论有直接交集。
关键技术: joint maximum likelihood estimation, generalized latent factor model, identifiability conditions, asymptotic normality, differential item functioning
为什么对您有用: 点名连接到高维渐近理论（very_familiar）与因果识别理论（moderately_familiar）——协变量效应控制潜因子的识别本质上是一个带潜变量混杂的直接效应识别问题。武器库中的高维渐近理论可直接审视其 JMLE 渐近正态性在 p/n 比例下的表现；识别条件部分可用因果识别理论分析其与潜变量混杂消除的等价性。中期可做：需先在 moderately_familiar 的因果识别理论（潜变量混杂）上长肌肉，以将此处的 DIF 识别条件转化为更一般的因果直接效应框架。

非参数 / 半参数 (nonparam_semipara, 4 篇)¶

1. 10.1214/25-aoas2024 · arXiv — Data harmonization via regularized nonparametric mixing distribution estimation¶

作者: Steven Wilkins-Reeves, Yen-Chi Chen, Kwun Chuen Gary Chan
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 8/10 · novelty: new_method
摘要: 在流行病学数据整合设定下，目标是估计非参数混合分布以实现不同认知量表间的等价转换，关键假设为 latent trait model 的 identifiability 条件与 regularity 条件。作者将数据整合建模为 mixing distribution estimation，提出 regularized MLE 并证明其唯一性；证明非参数 EM 算法弱收敛到 maximizer；提出离散近似加速算法；开发了混合似然的 goodness-of-fit 检验方法（该领域此前被忽视）。实证应用于 NACC 阿尔茨海默数据集，在量表转换与测量误差校正上优于常用方法。对您而言，该文的非参数 M-estimation 理论与 EM 收敛分析直接连接到 nonparametric theory 与 M-estimation theory，同时流行病学数据集可作为测量误差校正的应用场景。
关键技术: nonparametric mixing distribution estimation, regularized maximum likelihood, nonparametric EM algorithm, latent trait model, goodness-of-fit for mixing likelihood, measurement error correction
为什么对您有用: 本文连接到 nonparametric theory（非参数混合分布估计的 identifiability 与 MLE 唯一性）与 epidemiology（NACC 痴呆研究数据集）。用 very_familiar 的 nonparametric statistics 可审视其是否讨论了 minimax rate 或效率界，用 moderately_familiar 的 M-estimation theory 可攻其 regularized MLE 唯一性与 EM 弱收敛证明的细节。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉以深入其收敛理论，但非参数模型设定本身是 very_familiar 武器，可较快上手。

2. 10.1214/25-aoas2119 · arXiv — Identification of genetic factors associated with corpus callosum morphology: Conditional strong independence screening for non-Euclidean responses¶

作者: Zhe Gao, Jin Zhu, Yue Hu, Wenliang Pan, Xueqin Wang
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 6/10 · novelty: new_method
摘要: 本文在 ultrahigh-dimensional screening 设定下，针对非欧几里得响应（如脑胼胝体形态的 metric space 表示）与超高维遗传标记，提出 conditional strong independence screening 方法，目标 estimand 是给定年龄等先验协变量后响应与预测变量的条件依赖度量。核心机制是引入 conditional metric dependence 概念，在 metric space 上量化非线性条件依赖而不依赖预定义模型，属于 model-free 的 sure independence screening 扩展。理论部分未在摘要中明确给出 sure screening property 或 minimax rate，但模拟显示其在多种非欧数据上有效。对您可能有用：若将 conditional metric dependence 视为非参数条件独立性检验的度量，可用 higher-order U-statistic 或 HOIF 攻击其高维渐近性质。
关键技术: conditional metric dependence, sure independence screening, non-Euclidean response, model-free conditional dependence, ultrahigh-dimensional variable screening
为什么对您有用: 连接到非参数理论中 model-free conditional dependence 度量的高维 screening 问题；可用 higher-order U-statistic / HOIF（moderately_familiar）分析其 conditional metric dependence estimator 的渐近效率与 sure screening 性质，这是中期可做的方向；若要严格建立 minimax rate 或 semiparametric efficiency bound，需先在 HOIF 与 semiparametric theory 上长肌肉。

3. 10.1214/25-aoas2122 · arXiv — Quantiled conditional variance, skewness, and kurtosis by Cornish–Fisher expansion¶

作者: Ningning Zhang, Ke Zhu
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 5/10 · novelty: new_method
摘要: 在时间序列分析中，条件方差、偏度和峰度（CMs）常由参数模型估计，易受模型误设与估计不稳定影响。本文提出基于 Cornish-Fisher 展开的 quantiled CMs (QCMs) 方法来估计这三个条件矩，estimand 为条件高阶矩。核心机制是将 Cornish-Fisher 展开转化为线性回归模型，输入为 n 个不同的估计条件分位数，通过 OLS 同时计算 QCMs，无需先估计条件均值。在允许估计条件分位数有偏的 regularity 假设下，证明了 QCMs 的一致性，收敛速率为 n^{-1/2}。实证应用于八个主要股票指数，揭示了条件峰度“新闻冲击曲线”中的“非零拐点”现象。对您可能有用：本文将分位数估计与 Cornish-Fisher 展开结合的半参数矩估计思路，可为经济理论（金融时间序列）中的非参数建模提供参考。
关键技术: Cornish-Fisher expansion, conditional quantile estimation, quantiled conditional moments, ordinary least squares, semiparametric estimation, news impact curve
为什么对您有用: 本文连接到经济理论（金融时间序列数据集与宏观冲击分析）和半参数理论（用非参数分位数输入避免参数误设）子方向。武器库中的 M-estimation theory（moderately_familiar）可以攻其 OLS 估计在分位数有偏输入下的渐近性质口子，探讨是否能进一步推导 semiparametric efficiency bound。中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以评估该 QCMs 估计是否达到半参数有效界或存在改进空间。

4. 10.1214/26-aoas2141 — Regionalization of China’s PM2.5: A robust functional spatial clustering with angular depth¶

作者: Tingyin Wang, Xueqin Wang, Xiaobo Guo, Heping Zhang
期刊/来源: Annals of Applied Statistics
机构: University of Science and Technology of China · Sun Yat-sen University · Yale University
分类: vol 20 · issue 1
相关性 0/10 · novelty: new_method
摘要: 在中国PM2.5空间异质性设定下，目标是将全国监测站点通过功能性空间聚类划分为内部污染模式一致的区域，需同时处理邻近站点强空间相似性与异常值干扰。作者提出基于 angular depth 的 robust functional spatial clustering 框架：angular depth 作为功能性数据的鲁棒中心性度量，在无限维空间中具备良好理论性质（一致性、鲁棒性），并将 depth 与空间邻域信息结合以稳定聚类划分。实证将全国PM2.5数据划分为10个边界清晰、内部一致的区域。对您而言，angular depth 在无限维空间的理论性质与非参数 depth/centrality 理论有交叉，但本文核心是聚类应用而非估计或检验理论。
关键技术: angular depth, functional spatial clustering, robust centrality in infinite-dimensional space, spatial similarity adjustment, functional data depth theory
为什么对您有用: 本文连接到非参数统计中的 depth/centrality 理论方向，但核心是功能性数据聚类而非估计/检验理论。研究者 very_familiar 的'nonparametric statistics'中 minimax bounds 部分与本文 angular depth 在无限维空间的理论性质（收敛率、鲁棒性刻画）有潜在交叉口子，但 depth 概念不是研究者当前主攻方向。暂不可做——核心机器（functional depth theory / spatial clustering algorithm）不在武器库主线上，若要进入需先在 functional data analysis 的 depth 理论上长肌肉。

效率理论 / Debiased ML (efficiency_dml, 2 篇)¶

1. 10.1214/25-aoas2129 · arXiv — Asymptotically efficient data-adaptive penalized shrinkage estimation with application to causal inference¶

作者: Herbert P. Susmann, Yiting Li, Mara A. McAdams-DeMarco, Wenbo Wu, Iván Díaz
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 9/10 · novelty: new_method
摘要: 在非参数效率理论框架下，本文研究如何通过数据自适应的 L1/L2 收缩惩罚改善一类非参数估计器的有限样本 MSE，同时保留最优大样本性质。目标参数（如因果推断中多组别处理效应）经惩罚后定义为优化问题的解，权衡与原参数的偏差和惩罚项；作者推导了该惩罚参数的非参数效率界，并据此提出基于估计量方差的自适应调参策略。核心机制是将 L1/L2 收缩作为后处理步骤施加于任何 n^{-1/2}-CAN 且 semiparametric efficient 的估计量（如 one-step / TMLE / DML），不改变其 influence function 的一阶结构。模拟显示 MSE 显著下降；实证应用于透析提供者质量评估的因果框架。对您可能有用：该后处理收缩策略可直接叠加于您熟悉的 semiparametric efficient estimator，在多组别 ATE / longitudinal causal 场景中改善有限样本表现。
关键技术: semiparametric efficiency bound, data-adaptive L1/L2 shrinkage, one-step estimation / TMLE post-processing, group-specific treatment effects, influence function, finite-sample MSE reduction
为什么对您有用: 本文直接连接 efficiency theory（非参数效率界推导）与 causal inference（多组别 ATE 估计）两个 primary interest 子方向。您武器库中 very_familiar 的 estimation theory in causal inference 与 moderately_familiar 的 semiparametric theory 完全覆盖本文技术：推导惩罚参数的效率界本质是修改 efficient influence function 的二阶项，后处理收缩可视为对 n^{-1/2}-CAN 估计量的有限样本正则化。Follow-up 判断：立即可做——用您熟悉的 HOIF / higher-order U-stat 视角分析该收缩对二阶余项的影响，或将其推广到 longitudinal / mediation 的多参数场景。

2. 10.1214/25-aoas2134 · arXiv — Semiparametric analysis of interval-censored data subject to inaccurate diagnoses with a terminal event¶

作者: Yuhao Deng, Donglin Zeng, Yuanjia Wang
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 7/10 · novelty: new_theory
摘要: 在区间删失且存在误诊与终结事件的设定下，本文目标是基于 Cox 比例风险模型对回归系数进行半参数估计，并引入诊断的灵敏度与特异度修正误分类偏倚。作者提出非参数极大似然估计（NPMLE）方法，并开发高效 EM 算法以保证计算可行性。理论上，证明了回归系数估计量具有渐近正态性，且达到半参数效率界。实证应用于阿尔茨海默病（AD）风险数据，发现 amyloid-beta 与 AD 显著关联而 Tau 预测 AD 与死亡率。对您而言，该文将误分类参数引入半参数效率理论，是连接您 primary interest 中效率界与 secondary interest 中流行病学应用（AD 队列）的典型范例。
关键技术: NPMLE, EM algorithm, semiparametric efficiency bound, Cox proportional hazards, misclassification model, interval censoring
为什么对您有用: (1) 直接触及 primary interest 的半参数效率界与 secondary interest 的流行病学应用（AD 队列数据）。(2) 可用 moderately_familiar 中的 M-estimation theory 与 semiparametric theory 验证其 NPMLE 效率界推导的紧性，或用 very_familiar 的 software development 视角审视其 EM 算法的计算收敛稳定性。(3) 中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉以彻底吃透 NPMLE 在误分类下的效率界证明，但软件实现与模拟复现立即可做。

数理统计 / 假设检验 (hypothesis_testing, 3 篇)¶

1. 10.1214/25-aoas2123 · arXiv — Ranking and selection in large-scale inference of heteroscedastic units¶

作者: Bowen Gang, Luella Fu, Gareth M. James, Wenguang Sun
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 7/10 · novelty: new_method
摘要: 在大规模异方差单元的排序与选择问题中，传统多重比较方法（如 BH）倾向于过度选择高方差子群体中的噪声单元。本文提出新框架：引入修正 power 概念优先选择'重要效应'而非仅统计显著，并设计新排序度量（ranking metric）评估单元相对重要性。作者给出 oracle 与 data-driven 两类算法，证明在 FDR/FWER 类误差率控制下达到最优性。模拟与真实数据表明框架能平衡统计显著性与实际重要性，排序方案更客观实用。对您有用：本文直接连接 hypothesis testing 子方向——大规模多重比较中的 power 重定义与排序理论。
关键技术: modified power notion for important effects, ranking metric for relative importance, multiple comparison procedure under heteroscedasticity, oracle and data-driven selection algorithms, FDR/FWER error rate control, large-scale inference optimality
为什么对您有用: 本文连接到您 hypothesis testing 子方向中大规模多重比较的排序与选择问题，特别是异方差设定下 power 定义与 ranking 的理论刻画。您武器库中 high-dimensional asymptotics 与 minimax bounds 可用于分析其 data-driven algorithm 的收敛率与最优性声称是否紧；但该框架的 ranking metric 理论性质需深入 multiple comparison 文献才能严格审视。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，才能对其 ranking metric 的渐近分布与最优性做 rigorous 验证。

2. 10.1214/26-aoas2147 · arXiv — MANDERA: Malicious node detection in federated learning via ranking¶

作者: Wanchuang Zhu, Benjamin Zi Hao Zhao, Simon Luo, Ke Deng
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 4/10 · novelty: new_method
摘要: 在联邦学习 Byzantine 攻击设定下，目标是无先验知识地检测所有恶意节点梯度。核心挑战是梯度高维且各维度分布异质，且良性/恶意梯度混合而非两样本独立。MANDERA 将原始梯度空间转化为逐维度排序矩阵（ranking matrix），使各维度尺度统一，从而在高维排序空间中分离良性与恶意梯度。理论保证在无攻击节点数量先验下可高效检测全部恶意梯度；实验覆盖 Gaussian / Zero Gradient / Sign Flipping / Shifted Mean 四种攻击及 IID/Non-IID 设定。对您可能有用：排序变换实质是构造了一种高维非参数检验，与您的高维假设检验及 minimax 理论视角直接相关。
关键技术: ranking transformation, Byzantine-resilient aggregation, high-dimensional anomaly detection, nonparametric two-sample separation, federated learning gradient defense
为什么对您有用: 本文连接到您的高维假设检验子方向：排序矩阵实质是一种高维非参数检验构造，绕过各维度分布异质问题。您武器库中的 minimax bounds for estimation problems 与 nonparametric statistics 可直接用来分析 MANDERA 排序检验的检测效力与误报率的 rate——这是一个立即可做的理论切入点。

3. 10.1214/26-aoas2145 · arXiv — Model-free inference for characterizing protein mutations through a coevolutionary lens¶

作者: Fan F. Yang, Zhao Ren, Wen Zhou, Kejue Jia, Robert Jernigan
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 0/10 · novelty: new_method
摘要: 在蛋白质多重序列比对（MSA）数据中，本文将接触预测转化为偏相关检验问题：estimand 为两个氨基酸位置间的 partial correlation，关键假设是 one-hot 编码后多分类变量的偏相关图可表征接触结构。核心方法是对 one-hot 编码的分类数据构建偏相关图，并提出基于谱（spectrum-based）的检验统计量判断两个位置是否偏相关；该框架进一步可识别对相关性贡献显著的氨基酸组合。数值实验表明方法在 Type I error 控制和 power 上均表现良好，多个蛋白质家族的真实数据验证了实用性。对您而言，本文的 spectrum-based test 在高维分类数据设定下的渐近分析可能连接到 RMT 与 hypothesis testing 的交叉点。
关键技术: spectrum-based test statistic, partial correlation graph for categorical variables, one-hot encoding MSA, Type I error control, contact prediction as hypothesis testing
为什么对您有用: 本文直接连接到 hypothesis testing（primary）——将接触预测重构为偏相关检验是新颖的建模思路；spectrum-based test statistic 的渐近分布分析可能涉及样本协方差矩阵的谱性质，与您 very_familiar 的高维渐近/RMT 工具衔接。用 high-dimensional asymptotics 分析该 test 在 MSA 列数远大于序列数时的渐近行为是可攻的口子。判断：中期可做——需先在 moderately_familiar 的 semiparametric theory 上补充分类数据偏相关估计的效率界理论，再结合 RMT 工具推导 test 的极限分布。

统计计算 / 算法 (stat_computing, 2 篇)¶

1. 10.1214/25-aoas2124 · arXiv — Scalable magnetic resonance fingerprinting: Incremental inference of high-dimensional elliptical mixtures from large data volumes¶

作者: Geoffroy Oudoumanessah, Thomas Coudert, Carole Lartizien, Michel Dojat, Thomas Christen, Florence Forbes
期刊/来源: Annals of Applied Statistics
机构: Laboratoire d’Imagerie Biomédicale
分类: vol 20 · issue 1
相关性 3/10 · novelty: new_method
摘要: 本文针对磁共振指纹技术（MRF）中字典规模随参数个数指数增长的可扩展性瓶颈，提出用高维椭圆分布的概率混合模型替代原始字典匹配，estimand 为组织参数的快速重建。混合分量在低维子空间中建模为灵活椭圆形状，实现局部聚类降维以限制信息损失；为此设计了一种增量算法估计混合模型，可处理大规模信号并突破标准实现的硬件限制。在模拟与真实 MRF 数据上验证了精度保持与计算负担显著降低。对您而言，增量算法设计与高维椭圆混合的局部子空间降维策略直接落入 statistical computing 方向，但 MRF 医学影像应用场景不在您的 primary/secondary interests 范围内。
关键技术: incremental mixture estimation, elliptical distribution mixtures, cluster-wise dimension reduction, dictionary compression for MRF, low-dimensional subspace modeling
为什么对您有用: 本文连接到 statistical computing（增量算法处理大规模数据）与高维建模（椭圆混合局部子空间降维）。用 technical_arsenal 中的 software development 经验可直接复现其增量算法框架，但椭圆混合模型的推断细节与您的武器库主方向（因果、U-statistics、RMT）交集较小。中期可做：若想在 statistical computing 方向拓展增量/在线估计方法，需先在 moderately_familiar 的 M-estimation theory 上长肌肉（椭圆混合 M-step 的收敛性分析），但投入产出比取决于您是否计划进入医学影像统计方向——否则仅值得快速浏览算法框架部分。

2. 10.1214/25-aoas2108 · arXiv — Bayesian image-on-image regression via deep kernel learning based Gaussian processes¶

作者: Guoxuan Ma, Bangyao Zhao, Hasan Abu-Amara, Jian Kang
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 2/10 · novelty: new_method
摘要: 在神经影像 image-on-image regression (IIR) 设定下，目标是融合不同分辨率与空间域的影像预测变量（voxel-wise fALFF maps 与 region-wise connectivity matrices）预测 task-evoked fMRI contrast maps。作者提出 BIRD-GP，用 deep kernel learning 构造 GP 协方差函数以自适应整合多模态/多分辨率预测变量，后验计算采用 Stein variational gradient descent (SVGD) 替代传统 MCMC。模拟显示 BIRD-GP 优于现有 IIR 方法；HCP 数据分析发现 connectivity matrix 预测力优于 fALFF，两者结合有增益，Angular Gyrus Right 在 language task 中 75.9% voxel 可预测。对您而言，SVGD 作为变分推断的计算工具与 statistical computing interest 有交集，但本文核心是应用驱动的贝叶斯非参数方法，未涉及 minimax rate 或效率界。
关键技术: deep kernel learning, Gaussian process regression, Stein variational gradient descent, image-on-image regression, variational inference
为什么对您有用: （1）SVGD 后验计算与 statistical computing（numerical methods）interest 有交集，deep kernel + GP 属非参数框架，但本文未给出收敛率/效率界理论；（2）用 very_familiar 的 nonparametric statistics 视角可审视其 GP kernel 构造的灵活性-可辨识性 tradeoff，但缺乏 minimax/效率分析使得理论切入点有限；（3）中期可做——若想在 imaging IIR 中引入 semiparametric efficiency / debiased ML 做 point estimation + inference，需先在 moderately_familiar 的 semiparametric theory 上长肌肉；当前 paper 偏应用，理论深度不足以立即可做。

天体统计 (astrostats, 2 篇)¶

1. 10.1214/25-aoas2125 · arXiv — Neural posterior estimation with autoregressive tiling for detecting objects in astronomical images¶

作者: Jeffrey Regier
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 7/10 · novelty: new_method
摘要: 在天文图像的小目标检测设定下，目标是推断重叠且微弱天体的位置与特征，面临海量像素与复杂后验的挑战。提出一种 amortized variational inference 程序，核心创新是基于 K-color checkerboard pattern 的空间自回归变分族，其条件独立性结构镜像了真实后验。变分分布由 CNN 参数化，采用 neural posterior estimation (NPE) 最小化 forward KL divergence 的期望，实现推断的 amortization。在 Sloan Digital Sky Survey 数据上达到 state-of-the-art 性能，且自回归结构显著提升了 posterior calibration。作为 astrostats 的 gateway reading，本文将现代 simulation-based inference (NPE) 与天文图像的空间结构巧妙结合，展示了变分推断在天文大数据中的计算与统计权衡。
关键技术: neural posterior estimation, amortized variational inference, spatially autoregressive variational distribution, forward KL divergence, convolutional neural network, small-object detection
为什么对您有用: 本文是极佳的 astrostats 入门读物：AoS 发表，统计语言清晰，不依赖天文术语，将小目标检测抽象为标准 latent variable model 与变分推断问题。武器库基本够支撑进入此方向：very_familiar 的 software development 与 high-dimensional asymptotics 可评估其计算实现与大样本性质，但需补充 amortized variational inference 与 NPE 的基础。值得花时间读全文：它展示了现代 simulation-based inference 如何解决天文大数据中的计算-统计权衡，对理解 astrostats 前沿方法有直接帮助。

2. 10.1214/25-aoas2109 · arXiv — Moving towards automated interstellar boundary explorer data selection with LOTUS¶

作者: Madeline A. Stricklin, Lauren J. Beesley, Brian P. Weaver, Kelly R. Moran, Dave Osthus, Paul H. Janzen et al.
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 5/10 · novelty: application
摘要: IBEX卫星收集高能中性原子(ENA)数据以研究日球层——分隔太阳系与星际空间的区域。核心数据问题是：IBEX记录了粒子观测信息，但无法自动区分真正的ENA信号粒子与背景噪声粒子，历史上依赖专家手动标注"好/坏"数据，耗时且主观。本文提出三阶段自动筛选流程LOTUS：第一阶段用随机森林逐观测估计ENA概率；第二阶段将概率在时间窗口内聚合；第三阶段对预测进行精炼。与专家手动标签对比，LOTUS在多项指标上表现良好，可补充并标准化手动筛选流程。对您而言，本文可作为astrostats入门读物，了解卫星时序数据的信号/背景分离问题及数据结构，但统计方法（随机森林分类+时间聚合）较为常规，方法论新颖性有限。
关键技术: random forest classification, temporal probability aggregation, signal-background separation, manual vs automated label comparison, three-stage culling pipeline
为什么对您有用: 本文属于astrostats gateway reading范畴。(1) 作为入门读物尚可——摘要对天文术语解释较清晰，数据结构（逐观测粒子记录+时间维度）和模型（RF概率+窗口聚合）描述明确；(2) 武器库完全够支撑——随机森林分类和时序聚合是常规工具，无需额外长肌肉；(3) 是否值得读全文：若您想了解IBEX数据的具体结构（观测粒子的特征维度、时间分辨率、背景噪声模式），可快速浏览数据部分；但方法论深度有限，不建议投入大量时间精读。

经济理论 / 应用 (econ_theory, 1 篇)¶

1. 10.1214/25-aoas2105 — Analysing dynamic cross-price dependencies with a Markov-switching spatial autoregressive model¶

作者: Matteo Iacopini, Tamás Krisztin, Philipp Piribauer
期刊/来源: Annals of Applied Statistics
机构: Libera Università Internazionale degli Studi Sociali Guido Carli · Futures Group (United States) · Austrian Institute of Economic Research
分类: vol 20 · issue 1
相关性 4/10 · novelty: new_method
摘要: 本文提出 Markov-switching spatial autoregressive (MS-SAR) 模型，分析 15 个欧盟国家 CPI 三位数子类别之间的动态交叉价格依赖。模型允许空间权重矩阵和网络强度随隐 Markov 状态演化，从而刻画传统空间模型忽略的时间变异经济互联结构。估计依赖 MCMC 与贝叶斯推断，状态转移与空间自回归参数联合识别。实证揭示不同类别间价格冲击传播的显著跨国差异，尤其能源价格冲击对通胀动态的传导路径。对您可能有用：若关注经济因果结构的时间变异，MS-SAR 的状态依赖权重矩阵提供了一个可扩展的 identification 框架。
关键技术: Markov-switching model, spatial autoregressive model, time-varying spatial weight matrix, Bayesian MCMC estimation, cross-price elasticity, inflation dynamics
为什么对您有用: 本文连接到经济理论中的因果与结构模型子方向：MS-SAR 的状态依赖空间权重矩阵可视为时间变异 treatment 传播结构的参数化，与 longitudinal causal inference 的动态干预设定有概念对接。武器库中 M-estimation theory 与 identification theory 可用于分析该模型参数的 identification 条件与估计一致性，但贝叶斯 MCMC 推断不在 arsenal 中。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以从频率学派角度分析 MS-SAR 的渐近性质与 identification strength。

流行病学 (epidemiology, 12 篇)¶

1. 10.1214/25-aoas2126 — Random forests and mixed effects random forests for small area estimation of general parameters: A poverty mapping case study in Mozambique¶

作者: Patrick Krennmair, Nora Würz, Timo Schmid, Nikos Tzavidis
期刊/来源: Annals of Applied Statistics
机构: Freie Universität Berlin · University of Bamberg · University of Southampton
分类: vol 20 · issue 1
相关性 6/10 · novelty: new_method
摘要: 本文研究小区域估计（SAE）中的一般参数（如贫困率、贫困缺口）估计问题，设定为区域级随机效应混合模型框架，目标是在辅助变量不足以解释区域间异质性时获得可靠的区域级估计。作者提出混合效应随机森林（MERF），在随机森林中嵌入区域随机效应，并设计了带 bootstrap 偏差校正的拟合算法以修正随机森林残差方差的朴素估计。点估计采用 smearing 估计器构造区域特定分布函数，MSE 估计使用非参数 block bootstrap。实证分析基于莫桑比克家庭消费数据，对比了线性混合模型下的经验最佳预测器（EBP）、纯随机森林合成估计器以及世界银行 2023 估计，结果表明引入随机效应、数据变换与残差方差偏差校正对 ML 方法在 SAE 中的表现至关重要。对您可能有用：本文展示了 ML 方法在流行病学/社会经济小区域估计中的应用模式，特别是偏差校正与 smearing 估计器的非参数思路，可作为经济理论/流行病学因果与估计工作的 gateway reading。
关键技术: mixed effects random forest, bootstrap bias correction, smearing estimator, nonparametric block bootstrap, small area estimation, empirical best predictor
为什么对您有用: (1) 本文连接到经济理论（贫困映射的小区域估计）与流行病学（区域级参数估计）的应用因果/估计工作，展示了 ML 方法在 SAE 中的偏差校正与分布函数估计模式。(2) 武器库中 very_familiar 的软件开发与 high-dimensional asymptotics 可用于分析 MERF 的计算与渐近性质，moderately_familiar 的 M-estimation theory 可用于审视其残差方差估计的理论保证。(3) 中期可做：若想深入 MERF 的理论性质（如收敛率、效率界），需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以建立非参数混合效应模型的效率界与影响函数分析。

2. 10.1214/25-aoas2121 — Latent space modeling for human disease network with temporal variations: Analysis of medicare data¶

作者: Guojun Zhu, Ruiyue Wang, Rong Li, Sanguo Zhang, Shuangge Ma, Guanzhong Qiao et al.
期刊/来源: Annals of Applied Statistics
机构: University of Chinese Academy of Sciences · Beijing Hua Xin Hospital · Renmin University of China
分类: vol 20 · issue 1
相关性 4/10 · novelty: application
摘要: 在人类疾病网络(HDN)分析设定下，本文目标是在潜在空间模型框架中对疾病互联结构及其时间变异性进行建模，关键假设为网络结构存在分段常数与平滑过渡的时间区间。核心方法为带时间惩罚的潜在空间模型，利用惩罚项实现结构恒定与平滑变化的自动识别。严格建立了估计量的统计与计算收敛性质。对 Medicare 数据（1.33亿住院记录，2008-2019）进行分析，揭示了疾病互联与聚类结构，以及文献中未曾报道的时间变异性。作为流行病学数据集的应用，展示了潜在空间网络建模在纵向疾病数据中的实现，对您在流行病学因果推断或纵向数据结构的理解有参考价值。
关键技术: latent space model, penalized estimation, temporal variation modeling, network clustering, Medicare claims data
为什么对您有用: 本文是流行病学纵向医疗索赔数据与网络建模的较好入门读物，数据结构（1.33亿 Medicare 记录）与模型设定（潜在空间+时间惩罚）阐述清晰。武器库中的 M-estimation theory (moderately_familiar) 与 statistical computing / software development (very_familiar) 足够支撑进入此方向的理论分析与计算实现。值得花时间读全文，特别是其数据处理与惩罚项构造部分，可作为未来流行病学因果推断或纵向网络数据研究的参考基线。

3. 10.1214/26-aoas2136 — Bridging the gap: Enhancing the generalizability of epigenetic clocks through transfer learning¶

作者: Lan Luo, Lulu Shang, Jaclyn M. Goodrich, Karen E. Peterson, Peter X. K. Song
期刊/来源: Annals of Applied Statistics
机构: Rutgers Sexual and Reproductive Health and Rights · The University of Texas MD Anderson Cancer Center · University of Michigan
分类: vol 20 · issue 1
相关性 4/10 · novelty: application
摘要: 本文研究表观遗传时钟（epigenetic clocks）在不同人群和测序平台间的泛化性问题，目标 estimand 是目标队列中的表观遗传年龄预测精度。现有时钟（如 Horvath、PedBE）在目标人群上预测精度显著下降，且 450K 与 EPIC 850K 平台的 CpG 位点特征空间不一致导致系统性偏差。作者提出基于 kriging 和 DNN 的迁移学习框架，通过特征适配（feature adaptation）从源数据集借用共享知识来校准现有时钟。在 ELEMENT 研究（523 名墨西哥儿童/青少年血样）数据上，校准后的时钟预测精度显著提升，且表观遗传年龄加速与性成熟阶段的关联更强。对您而言，本文提供了流行病学队列数据集（ELEMENT）和跨平台高维特征适配的实例，但未涉及因果推断或半参数效率理论。
关键技术: transfer learning, kriging-based feature adaptation, DNN feature adaptation, epigenetic clock calibration, cross-platform CpG mapping
为什么对您有用: 本文属于流行病学应用（epidemiology secondary interest），提供了 ELEMENT 队列数据集实例和跨平台高维特征（850K CpG 位点）适配问题。然而，研究目标是预测而非因果推断，迁移学习框架未涉及 semiparametric efficiency 或 debiased ML，与您的主要武器库（higher-order U / minimax / HOIF）无直接接口。若关注流行病学中表观遗传年龄作为中介变量的因果推断问题，本文的数据集和时钟校准思路可作为起点，但需自行搭建因果框架——中期可做，需先在 identification theory（moderately_familiar）上构建表观遗传中介的 identification 条件。

4. 10.1214/25-aoas2100 — Temporal models for estimation and short-term forecasting of neonatal mortality rates in sub-Saharan Africa¶

作者: Katherine R. Paulson, Geir-Arne Fuglstad, Zehang Richard Li, Jonathan Wakefield
期刊/来源: Annals of Applied Statistics
机构: University of Washington · Norwegian University of Science and Technology · University of California, Santa Cruz
分类: vol 20 · issue 1
相关性 4/10 · novelty: application
摘要: 在缺乏完善生命登记系统的撒哈拉以南非洲国家，基于 DHS/MICS 家庭调查数据估计和预测新生儿死亡率 (NMR) 是核心问题，estimand 为 1970-2030 年国家级 NMR 趋势。本文系统比较了五种 latent temporal models（一阶/二阶随机游走、自回归、惩罚样条、自然样条、logit-线性模型）在时空框架下的表现，通过 out-of-sample 验证和模拟研究评估偏差与预测区间宽度。结果表明二阶随机游走与惩罚样条偏差最小，惩罚样条的短期预测区间更窄且 out-of-sample 表现更优。实证分析发现 41 个国家中仅 6 个有望达成 2030 年 SDG 目标。对您而言，本文提供了流行病学调查数据（DHS/MICS）的典型建模范式，是了解全球健康估计中时空平滑与预测方法的入门参考。
关键技术: penalized spline temporal model, second-order random walk, out-of-sample validation, DHS/MICS survey data, latent temporal model
为什么对您有用: (1) 本文是进入流行病学全球健康估计方向的优秀入门读物，清晰展示了 DHS/MICS 数据结构及如何在缺失登记数据下用 latent temporal models 做估计与预测；(2) 研究者的 very_familiar 武器库（nonparametric statistics, software development）完全足以理解并复现本文的 penalized spline 与 RW 模型；(3) 值得花时间读全文以掌握流行病学时空建模的典型 pipeline，但若寻找因果推断或高维效率理论的切入点，本文方法学深度不足。

5. 10.1214/26-aoas2146 — A partially collapsed Gibbs sampling algorithm for regression with misreported response¶

作者: Jiaying Wang, Weining Shen, Yuan Wang
期刊/来源: Annals of Applied Statistics
机构: Washington State University · University of California, Irvine
分类: vol 20 · issue 1
相关性 4/10 · novelty: new_method
摘要: 在二值响应存在误报（over/under-reporting）的设定下，本文同时识别与真实响应相关的风险因子及与误报行为相关的因子，目标 estimand 为两组回归系数。构建两层潜变量线性回归模型：顶层刻画真实 marijuana use 响应，底层刻画误报发生概率，采用全贝叶斯框架并设计 informative prior 以融入领域知识同时降低先验误设风险。提出 partially collapsed Gibbs sampler（内嵌 Metropolis–Hastings 步）采样回归系数，模拟显示优于忽略误报的 naïve 方法及部分替代贝叶斯方案。对 Washington State HYS 数据的分析发现多个与青少年 marijuana use 及误报相关的风险因子。误报响应的潜变量修正模型与因果推断中 outcome misclassification 对 identification 的影响有结构相似性，对您关注 epidemiology 应用中的测量误差问题有直接参考价值。
关键技术: partially collapsed Gibbs sampler, two-level latent linear regression, informative prior with domain knowledge, Metropolis-Hastings step, outcome misclassification model, Bayesian measurement error correction
为什么对您有用: 本文连接到 epidemiology secondary interest 中调查数据的误报修正问题，同时 outcome misclassification 的两层潜变量结构与 causal inference 中 misclassification 对 identification 的影响有直接结构对应。武器库中 software development 可审视其 Gibbs sampler 的实现效率，但贝叶斯潜变量模型与 MCMC 设计不在核心武器库。中期可做——需先在 moderately_familiar 的 identification theory 上扩展 outcome misclassification setting，并补充贝叶斯计算（collapsed Gibbs / MH tuning）的肌肉才能做方法学跟进。

6. 10.1214/25-aoas2130 · arXiv — Stratified regression analysis of zero-truncated recurrent event data¶

作者: Anqi A. Chen, X. Joan Hu, Rhonda J. Rosychuk
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 4/10 · novelty: new_method
摘要: 本文研究零截断复发事件数据的分层回归分析，estimand 为在分层 Cox 回归模型下复发事件强度对历史事件摘要的依赖关系，关键假设是仅观测到至少发生一次事件的受试者（零截断选择偏倚）。作者提出将零截断数据与补充人口普查信息（无事件受试者的协变量分布）整合的估计程序，基于分层 Cox 模型的 partial likelihood 构造。理论上建立了估计量的一致性与渐近正态性，模拟显示整合补充信息的估计量优于仅用零截断数据的 MLE。全文以儿科心理健康急诊就诊（PMHC）行政数据库为例贯穿说明。对您而言，零截断选择偏倚的 identification 问题与因果推断中的选择偏倚/identification theory 有结构相似性，而分层 Cox 的半参数估计连接您 moderately_familiar 的半参数理论。
关键技术: stratified Cox regression, zero-truncated likelihood, supplementary covariate information integration, asymptotic normality, recurrent event intensity model, selection bias correction
为什么对您有用: 本文连接您两个方向：(1) 流行病学（secondary）——PMHC 行政数据库是典型的 epidemiology 队列数据，零截断结构在健康行政数据中普遍；(2) 因果推断的 identification theory（primary）——零截断本质是选择偏倚，与 proximal CI / negative control 处理的不可观测选择机制有结构类比。用您 moderately_familiar 的 semiparametric theory 可以审视其估计量的 influence function 是否达到 efficiency bound，但复发事件模型本身不在武器库中。Follow-up 判断：中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉（具体：推导此设定下的 semiparametric efficiency bound 并与作者估计量对比），复发事件强度模型需额外学习。

7. 10.1214/25-aoas2128 · arXiv — A data envelopment analysis approach for assessing fairness in resource allocation: Application to kidney exchange programs¶

作者: Ali Kaazempur-Mofrad, Xiaowu Dai
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 3/10 · novelty: application
摘要: 本文在肾脏交换程序的资源分配公平性评估问题中，提出基于数据包络分析（DEA）的多维度公平性框架，将 Priority（等待时间）、Access（LKDPI 评分）和 Outcome（移植物寿命）三个维度纳入统一模型，estimand 为各族群在这些维度上的条件分配效率。核心方法为条件 DEA 模型加协变量调整，用以量化不同族群间的效率差异；不确定性量化则通过 conformal prediction 结合新提出的 reference frontier mapping（RFM）框架，给出有限样本覆盖保证的分组条件预测区间。实证使用 UNOS 数据，发现族群间效率分布存在显著差异。方法论上 DEA + conformal prediction 的组合是新的，但 DEA 本身是确定性优化工具，不涉及 semiparametric efficiency bound 或 influence function 等研究者熟悉的效率理论工具。对您而言，本文的协变量调整思路与因果推断中的 disparity identification 有概念连接，但技术路线差异较大。
关键技术: Data Envelopment Analysis (DEA), conformal prediction, reference frontier mapping, conditional efficiency with covariate adjustment, finite-sample coverage guarantee, multi-dimensional fairness assessment
为什么对您有用: 本文属于流行病学/医疗资源分配的应用论文，用协变量调整量化族群间公平性差异，与因果推断中的 disparity identification 有概念对接，但核心技术（DEA + conformal prediction）不在您的武器库中。您熟悉的 semiparametric efficiency theory / influence function 可以对这里的条件效率估计提供更精细的 asymptotic analysis（当前仅有 conformal 的 finite-sample 覆盖，无效率界讨论），这是一个潜在的理论切入点。Follow-up 判断：中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉，将 DEA 的条件效率估计重新表述为 M-estimator，再推导其 influence function 与 semiparametric efficiency bound，但这需要先消化 DEA 的优化结构。

8. 10.1214/25-aoas2111 — Latent class analysis with discrete failure time model¶

作者: Qinmengge Li, Kevin He, Lam C. Tsoi, Jian Kang
期刊/来源: Annals of Applied Statistics
机构: University of Michigan
分类: vol 20 · issue 1
相关性 3/10 · novelty: application
摘要: 本文在离散失效时间模型框架下提出 LaCDS 模型，旨在通过有限混合模型结构识别生存分析中的潜在类别，以刻画隐藏的群体异质性；estimand 为潜在类别划分及各类别下的基线风险与回归系数。核心方法采用 EM 算法进行参数优化，在离散生存设定下同时估计类别概率与类别特异的 hazards/coefficients。模拟研究表明 LaCDS 在识别基线风险与系数异质性上优于现有方法，且在离散与连续生成机制下均表现稳健。实证分析基于 OPTN 肾移植数据，验证了其亚组划分精度。对您而言，本文提供了流行病学队列中离散生存数据的潜在类别建模案例，但方法学 novelty 有限（标准 EM + 有限混合），主要价值在于数据集与应用场景。
关键技术: finite mixture model, discrete failure time model, EM algorithm, latent class analysis, survival subgroup identification
为什么对您有用: 本文属于流行病学应用，连接到 epidemiology (application, data sets, causal inference) 子方向，提供了 OPTN 肾移植队列的离散生存数据与亚组划分问题。从 technical_arsenal 角度，本文的 EM + 有限混合框架属于 very_familiar 的非参/半参范畴之外的标准参数方法，无需动用 HOIF 或高阶 U-stat 工具；若想在此方向做方法学推进（如半参效率界、debiasing），需先在 moderately_familiar 的 semiparametric theory 上长肌肉。Follow-up 判断：中期可做——若对离散生存混合模型的半参效率/稳健推断有兴趣，需先补充 semiparametric theory 与 M-estimation 的相关工具。

9. 10.1214/25-aoas2131 · arXiv — A blockwise mixed membership model for multivariate longitudinal data: Discovering clinical heterogeneity and identifying Parkinson’s disease subtypes¶

作者: Kai Kang, Yuqi Gu
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 3/10 · novelty: new_method
摘要: 在多变量纵向数据设定下，针对帕金森病（PD）病程中患者间、症状间与时间间的异质性，提出 blockwise mixed membership model (BM3) 以识别潜在亚型。BM3 将纵向测量划分为不同 block（症状组×时间段），同一 block 内共享潜在 membership，跨 block 则允许 membership 变化，从而将异质测量分解为临床同质块。理论部分证明了模型的 identifiability，确保潜在结构发现的可靠性。实证分析 PPMI 数据 (n=1531)，识别出 3 个疾病阶段、4 个症状组与 2 个时间周期，并通过外部变量与验证数据集进行了验证。作为流行病学纵向数据的潜变量建模应用，本文的 blockwise 结构与 identifiability 理论对您在 longitudinal causal inference 中的异质性处理有参考价值。
关键技术: blockwise mixed membership model, model identifiability, multivariate longitudinal data, latent structure discovery, Parkinson's disease subtypes
为什么对您有用: 本文是流行病学纵向异质性建模的优质入门读物，PPMI 数据集与 BM3 模型清晰展示了多变量纵向数据的结构化潜变量分析范式。武器库中的 M-estimation theory 与 identification theory 足以支撑理解其 identifiability 证明与估计逻辑。值得花时间读全文，特别是其 blockwise 划分思想，可为您后续在 longitudinal causal inference 中处理 time-varying confounding 与异质性提供模型基础。

10. 10.1214/26-aoas2139 · arXiv — Multilevel functional distributional models with applications to continuous glucose monitoring in diabetes clinical trials¶

作者: Marcos Matabuena, Ciprian M. Crainiceanu
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 3/10 · novelty: application
摘要: 在糖尿病临床试验的连续血糖监测（CGM）纵向数据设定下，本文研究如何对重复采集的累积分布函数（cdf）进行多水平函数建模与推断。核心方法将整个 cdf 视为函数数据对象，通过单调性约束保持其固有性质，同时处理同一个体内 cdf 间的相关性、连续性（对概率网格选择鲁棒）以及微分误差（中位数变异小于 0.99 分位数）。在纵向 cdf 样本的多重比较场景中，方法保证 family-wise error rate 的有效控制。实证基于 JDRF CGM 临床试验数据（26 周高频监测），以 4 周窗口的血糖分布为基本观测单元，识别影响 T1D 患者血糖控制的因素并刻画治疗响应者特征。对您而言，本文提供了流行病学临床试验中纵向分布数据的完整建模范式，可作为理解 CGM 数据结构与推断挑战的入门案例。
关键技术: functional distributional regression, monotone cdf modeling, multilevel functional data analysis, family-wise error rate control, longitudinal distributional inference, differential error modeling
为什么对您有用: 本文连接到流行病学（secondary interest）中的临床试验纵向数据分析，提供了 CGM 数据集与分布函数建模的完整 pipeline。研究者武器库中的 nonparametric statistics 与 minimax bounds（very_familiar）可用来分析此类函数分布估计的收敛率与效率性质，但需先在 functional data analysis 的函数空间推断理论（moderately_familiar 中未列）上长肌肉。中期可做：若想进入纵向分布建模方向，需补充函数数据分析的 Hilbert space 推断框架与协方差估计理论。

11. 10.1214/25-aoas2135 · arXiv — Small area estimation of education levels in low- and middle-income countries¶

作者: Yunhan Wu, Ameer Dharamshi, Jon Wakefield
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 3/10 · novelty: application
摘要: 本文在低收入和中等收入国家的小区域估计设定下，提出基于出生队列的最终受教育年限（UYS）指标，以弥补传统指标（MYS25/EYS）缺乏队列与时间粒度的不足。核心方法是将教育 attainment 重构为 time-to-event 过程，采用离散时间生存模型（survey-weighted logistic regression）纠正年轻队列的右删失偏差；在小区域层面则嵌入贝叶斯时空框架以提升估计稳定性。实证基于 2022 年坦桑尼亚 DHS 数据，展示了纠正删失偏差后的女性教育轨迹及显著的亚国家空间差异。对您而言，本文提供了一个将生存分析/删失纠正与空间模型结合的流行病学应用案例，数据与建模细节清晰。
关键技术: discrete-time survival model, survey-weighted logistic regression, Bayesian spatiotemporal model, small area estimation, right-censoring correction
为什么对您有用: 本文属于流行病学/人口健康领域的应用因果/估计工作，数据集（DHS）和空间建模框架对您关注的应用因果与数据集方向有直接参考价值。武器库中的 M-estimation theory 和软件开发经验可以支撑对本文 survey-weighted 估计量的理论性质做进一步分析。作为 gateway reading，本文数据/模型 exposition 清晰，适合入门 DHS 数据结构与小区域估计方法，值得花时间读全文以了解流行病学中删失数据处理的实际模式。

12. 10.1214/25-aoas2086 · arXiv — A Bayesian joint model of multiple longitudinal and categorical outcomes with application to multiple myeloma using permutation-based variable importance¶

作者: Danilo Alvares, Jessica K. Barrett, François Mercier, Jochen Schulze, Sean Yiu, Felipe Castro et al.
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 2/10 · novelty: application
摘要: 本文在多发性骨髓瘤临床研究设定下，目标是联合建模纵向生物标志物（非线性轨迹）与多类别治疗选择，以识别预后因子。采用贝叶斯联合建模框架，纵向结局由双指数子模型刻画，多类别结局由 logistic 回归描述，两者通过共享随机效应连接。提出基于置换的变量重要性策略来排序预后因子，但缺乏理论收敛率与效率保证。实证分析对比了所提模型与竞争模型的推断结果与患者层面解释。对您而言，本文提供了流行病学纵向-分类联合数据集，但方法学为贝叶斯共享随机效应，与您偏好的半参数效率/因果推断工具重叠有限。
关键技术: Bayesian joint model, shared random effects, bi-exponential submodel, multiclass logistic regression, permutation-based variable importance
为什么对您有用: 本文是流行病学纵向-分类联合建模的较好入门读物，数据结构（非线性轨迹+多类别治疗）与贝叶斯模型设定阐述清晰，适合不了解骨髓瘤临床数据的统计学者快速把握应用场景。武器库中的 estimation theory in causal inference 与 moderately_familiar 的 semiparametric theory 可支撑对该模型进行因果化改造（如将预后因子分析转为因果 mediation），但本文核心的贝叶斯 MCMC 计算不在武器库内。仅若您需要寻找流行病学纵向-分类联合数据集作为因果推断或半参数方法的试验场时值得读全文，否则方法学新颖度有限。

其他 (other, 7 篇)¶

1. 10.1214/26-aoas2151 · arXiv — Do large language models (really) need statistical foundations?¶

作者: Weijie Su
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 3/10 · novelty: survey
摘要: 本文探讨LLM的发展与应用是否真正需要统计学的基础贡献，核心设定是对LLM作为统计模型的哲学性论证。论文提出两个论点：(1) LLM本质上是统计模型——其深度数据依赖与随机生成过程天然需要统计洞察来处理变异性与不确定性；(2) LLM持续的黑箱性质（规模巨大、架构复杂、重经验轻理论）使得闭式或纯机制分析一般不可行，统计方法因其灵活性与已验证的有效性成为必要途径。为支撑论点，文中梳理了alignment、watermarking、uncertainty quantification、evaluation与data mixture optimization五个亟需统计方法介入的研究方向，并展示了统计学已开始做出贡献的初步案例。结论认为统计研究对LLM的贡献将呈现"mosaic"式的多样化专题格局，而非源自单一统一理论，并呼吁统计学界及时介入。作为position/survey paper，本文的方法学novelty程度有限——主要是观点梳理与方向展望，而非新理论或新方法。
关键技术: uncertainty quantification for LLMs, statistical watermarking, data mixture optimization, alignment statistical methods, LLM evaluation methodology
为什么对您有用: 本文连接到stat_computing中的uncertainty quantification子方向，但本质是position paper而非技术贡献，未给出具体estimand、rate或estimator供攻击。武器库中的semiparametric theory与estimation theory可能对文中提到的UQ和data mixture优化问题有切入点，但本文本身不提供具体技术口子。暂不可做——本文是观点性文章，无具体理论问题可展开；若对LLM+statistics交叉感兴趣，可作为入门读物了解领域全景，但不必花时间精读全文。

2. 10.1214/25-aoas2133 — A general framework for investigating neurodevelopment of brain functional networks using multisite and longitudinal neuroimaging¶

作者: Joshua Lukemire, Yaotian Wang, Ying Guo
期刊/来源: Annals of Applied Statistics
机构: Emory University
分类: vol 20 · issue 1
相关性 3/10 · novelty: new_method
摘要: 本文针对纵向多站点脑成像研究中功能网络估计的统计挑战，提出贝叶斯框架 REMBRAiNDT，将站点效应与个体效应纳入网络分解（blind source separation），同时支持协变量效应估计与跨脑区信息池化。模型假设站点偏移为随机效应、个体网络结构为随机矩阵，通过贝叶斯分层先验实现跨位置 shrinkage 与信息共享。方法应用于纵向多站点 ABCD 青少年数据，发现高阶认知网络随年龄增长呈现功能整合增强，是首批在 ABCD 纵向数据上用盲源分离考察神经发育的研究。对您而言，本文的纵向多站点设计虽涉及混杂调整，但核心方法论（贝叶斯分层 ICA）与您的 semiparametric efficiency / minimax 理论武器库距离较远。
关键技术: Bayesian hierarchical model, blind source separation / ICA, site-effect random effects, subject-level network decomposition, shrinkage prior across brain locations, longitudinal multi-site modeling
为什么对您有用: 本文纵向多站点设计中的站点混杂调整与您 causal inference 中 negative-control / IV 的混杂结构有表面相似性，但核心是贝叶斯分层 ICA 而非 semiparametric identification/estimation，技术路线不交叉。您武器库中的 minimax bound / HOIF / U-statistic 均无法直接切入该贝叶斯推断框架的效率分析。暂不可做：若想进入 neuroimaging network estimation 方向，需先补 Bayesian hierarchical model 与 ICA 的理论性质（您目前缺这两块核心机器）。

3. 10.1214/25-aoas2110 · arXiv — Functional mixture regression control chart¶

作者: Christian Capezza, Fabio Centofanti, Davide Forcina, Antonio Lepore, Biagio Palumbo
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 2/10 · novelty: application
摘要: 本文针对工业过程中多工况导致单一函数线性模型（FLM）无法刻画质量特征与协变量关系的问题，提出函数混合回归控制图（FMRCC），用 FLM 混合建模多模态 profile。监控策略基于似然比检验（LRT）检测偏离估计的 in-control 异质人群。Monte Carlo 模拟对比了 FMRCC 与已有监控方案，并以汽车电阻点焊（RSW）过程案例展示实用性。该方法属于工业统计/质量控制范畴，LRT 监控是应用导向而非一般检验理论贡献。对您而言，本文与核心兴趣方向（因果推断、半参数效率、高维理论）几乎无交集。
关键技术: functional linear model, mixture regression, likelihood ratio test, profile monitoring, control chart
为什么对您有用: 本文属于工业统计/质量控制领域，与您的 primary interests（因果推断、半参数理论、高维/RMT、效率理论）和 secondary interests（astrostats、econ、epi）均无实质交集。LRT 监控策略是应用导向的特定构造，不涉及您关心的 hypothesis testing 一般理论。暂不可做：核心机器（profile monitoring / SPC 框架）不在武器库中，且该方向与您的研究议程缺乏自然连接，不建议花时间读全文。

4. 10.1214/25-aoas2054 · arXiv — Assessing influential observations in pain prediction using fMRI data¶

作者: Dongliang Zhang, Masoud Asgharian, Martin A. Lindquist
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 2/10 · novelty: new_method
摘要: 本文针对高维神经影像（fMRI）数据中模型选择受异常参与者过度影响的问题，提出一种诊断度量并建立其渐近分布理论。该诊断度量适用于多种模型选择器（如 penalized regression 等），作者进一步将其与高维聚类程序结合以同时检测多个影响点。模拟实验表明该方法在检测灵敏度和变量选择准确性上优于现有方法。在热痛 fMRI 数据应用中，移除检测到的异常参与者后，低痛与强痛条件间的激活差异模型更具可解释性与预测力。方法虽源于 fMRI，但声称适用于一般高维数据类型。对您而言，渐近分布推导和高维聚类检测与高维统计有轻度方法重叠，但神经影像应用场景不在您的兴趣范围。
关键技术: influential observation diagnostic measure, asymptotic distribution for model selection influence, high-dimensional clustering for outlier detection, penalized model selection, fMRI predictive modeling
为什么对您有用: 本文的渐近分布理论和高维聚类框架与您的高维统计和假设检验兴趣有轻度方法重叠，但核心应用场景（神经影像模型选择影响点检测）不在您的任何兴趣方向中。武器库中 high-dimensional asymptotics 可用于审视其渐近分布声明是否在更一般的高维设定下成立，但该问题本身与因果推断 / U-统计量 / 效率理论无直接连接。暂不可做：问题语境偏离您的研究方向，且缺乏与您核心武器（U-统计量计算 / minimax 界 / semiparametric efficiency）的接口。

5. 10.1214/26-aoas2142 · arXiv — Environmental risk assessment via nonhomogeneous hidden semi-Markov models with penalized vector autoregression¶

作者: Marco Mingione, Pierfrancesco Alaimo Di Loro, Francesco Lagona, Antonello Maruotti
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 2/10 · novelty: application
摘要: 本文针对城市多变量空气污染数据，提出非齐次隐半马尔可夫向量自回归模型（NHHSMM-VAR），隐状态捕捉未观测环境条件，VAR结构处理时间自相关与跨污染物依赖。参数通过定制EM算法做极大似然估计，结合状态特定ℓ1惩罚做滞后选择与过拟合控制。模型允许时变环境条件同时影响污染物均值水平与状态持续时间。实证分析Bergen市NOx与PM数据，并用Shapley值分解归因边际风险贡献。对您而言，本文主要作为流行病学/环境健康数据集与隐马尔可夫-VAR混合建模的参考，方法学novelty有限。
关键技术: nonhomogeneous hidden semi-Markov model, vector autoregression, EM algorithm with ℓ1 regularization, Shapley value risk decomposition, multivariate time series
为什么对您有用: 本文连接流行病学secondary interest中的环境健康数据集与因果归因（Shapley值分解），但核心模型是隐半马尔可夫-VAR，与您primary interest的因果推断/半参数理论/高维推断无直接交集。您武器库中M-estimation理论可审视其EM+ℓ1估计的收敛性质，但缺乏隐半马尔可夫模型的理论工具。属于gateway-reading：数据集与Shapley归因思路有参考价值，但方法学深度不足以支撑深入follow-up，建议粗读即可。

6. 10.1214/25-aoas2132 · arXiv — NFL ghosts: A framework for evaluating defender positioning with conditional density estimation¶

作者: Ronald Yurko, Quang Nguyen, Konstantinos Pelechrinis
期刊/来源: Annals of Applied Statistics
分类: vol 20 · issue 1
相关性 1/10 · novelty: application
摘要: 本文提出首个公开的 NFL 球员追踪数据评估框架，通过“幽灵防守者”(ghost defenders)的基线分布来衡量实际防守球员的空间与轨迹表现。核心 estimand 是接球时刻最近防守者的相对位置优劣，关键假设是利用随机森林进行条件密度估计来刻画基线分布。方法分两步：(1) 用随机森林条件密度估计建模接球者推进码数的分布以计算期望值；(2) 建模二维空间基线幽灵防守者分布。实证给出了基于追踪数据的球员与球队表现新指标，并讨论了框架扩展的挑战。对您而言，本文属于体育统计应用，与您关注的因果推断、高维理论或天文/经济/流行病学数据集无直接交集。
关键技术: conditional density estimation, random forests, spatial tracking data, expected value estimation, ghost defenders baseline
为什么对您有用: (1) 本文属于体育统计（NFL追踪数据）的应用工作，与您 primary interests（因果推断、高维/效率理论）及 secondary interests（天文/经济/流行病学）均无直接交集。(2) 本文的条件密度估计属于 nonparametric statistics (very_familiar)，但仅是标准随机森林应用，无理论深度可供 minimax bounds 或 higher-order U-statistics 切入。(3) follow-up 判断为暂不可做——缺乏 NFL 领域动机与追踪数据结构的研究兴趣，且无统计理论突破口。

7. 10.1214/26-aoas2137 — Temperature in the Iberian Peninsula: Common trends and heterogeneity¶

作者: C. Vladimir Rodríguez-Caballero, Esther Ruiz
期刊/来源: Annals of Applied Statistics
机构: Instituto Tecnológico Autónomo de México · Universidad Carlos III de Madrid
分类: vol 20 · issue 1
相关性 1/10 · novelty: minor
摘要: 本文提出多层动态因子模型（ML-DFM），用于刻画伊比利亚半岛68个观测站1930–2020年月度中心温度与对数极差温度的全局公共趋势与区域特异性随机趋势。模型基于不可观测分量模型将温度分解为趋势、季节与瞬态成分；首先证明中心温度与对数极差独立演化，随后剔除季节成分再分析公共趋势。中心温度趋势由带时变斜率的平滑积分随机游走近似，而对数极差更适合随机水平刻画。估计方面，作者将EM算法扩展以容纳非平稳因子，这是本文唯一的方法增量。实证表明中心温度趋势公共性显著，但区域成分在对数极差上仍不可忽视。
关键技术: Multilevel Dynamic Factor Model, Unobserved Component Model, EM algorithm for nonstationary factors, Integrated random walk trend, Stochastic level specification
为什么对您有用: 本文核心是时间序列因子模型在气候数据上的应用，与您的主要兴趣（因果推断、高维RMT、U统计量、半参数效率、计算-统计权衡）均无直接交集。EM算法扩展至非平稳因子属于statistical computing范畴，但增量狭窄且高度绑定状态空间模型设定，不涉及矩阵/张量数值方法或计算复杂度分析。对您而言：暂不可做——核心机器（状态空间EM、非平稳因子推断）不在武器库中，且论文面向气候应用，方法论迁移空间极小。

Maintained by 陈星宇 · Homepage · Source on GitHub