AoAS — Vol 19 Issue 3 · 2026-06-19¶

共 34 篇 · Annals of Applied Statistics
目录核对 ⚠️ 疑似漏 1 篇（对照 OpenAlex 35 篇）：10.1214/25-aoas2037

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

本期论文呈现出三条明显的方法主线：因果识别与异质性刻画、高维与网络特征筛选、贝叶斯非参数与复杂结构建模，另有部分工作聚焦于假设检验纠偏与计算加速。因果主线涵盖反事实预测统一框架、微观随机化试验时变效应、多变量连续暴露异质性、断点设计子群选择及误报变量识别等；高维主线聚焦网络数据伪似然比筛选与混合协变量因子辅助回归；贝叶斯非参数主线则处理零膨胀DAG结构学习、依赖tail-free过程聚类及分层Dirichlet过程分组聚类。此外，临床亚组选择两阶段推断与洪水保险浓度不等式加速分别代表了假设检验与计算优化的特定进展。

因果推断主线在本期推进了对复杂干预与异质性的精细化识别。在政策评估与微观试验场景中，“Averaged Prediction Models”将DiD等方法统一为预测误差校正框架以识别pre-post设定下的反事实均值，“mobile health interventions”则在MRT中提出双时间指标的半参数因果excursion effect模型以捕捉时变效应。针对暴露与对象异质性，“multivariate continuous treatments”基于非参数贝叶斯定义并估计多变量连续暴露的异质性estimands，“RD subpopulations”通过贝叶斯混合聚类在局部随机化下筛选满足假设的子群。此外，“misclassified binary regressor”处理了内生单侧误报下的分位数回归识别，而“spectral transfer entropy”与“differential causal DAG”分别从频域信息流与零膨胀横截面数据切入因果网络发现。

贝叶斯非参数与复杂结构主线集中应对数据零膨胀、异质性与分组依赖。“Bayesian differential DAG”证明了零膨胀负二项DAG在纯观测数据下的因果方向完全可辨识性，“mixture of dependent linear tail-free priors”扩展依赖过程以实现meta分析中的研究聚类与信息共享，“GLocal Dirichlet processes”则通过stick-breaking构建跨组共享与组特异变量的联合聚类。高维筛选主线中，“Pseudo-likelihood ratio screening”与“Factor-assisted learning”分别将超高维筛选拓展至网络自相关结构，及利用因子回归的低秩与列稀疏处理功能与标量混合协变量。在推断与计算端，“subgroup selection and validation”基于重采样消除亚组选择偏倚达到渐近精确下界，“improved Bennett inequality”借异方差上界的紧浓度不等式实现返回水平重要性抽样的计算加速。

对于侧重因果推断与半参数效率的研究者，“Averaged Prediction Models”的统一识别框架与“mobile health interventions”的鲁棒两阶段估计器最贴合因果与半参数主线，建议优先阅读；关注高维统计者，可直接切入“Pseudo-likelihood ratio screening”与“Factor-assisted learning”对网络与混合协变量的筛选理论。

因果推断 (causal_inference, 6 篇)¶

1. 10.1214/25-aoas2011 — Averaged Prediction Models (APM): Identifying causal effects in controlled pre-post settings with application to gun policy¶

作者: Thomas Leavitt, Laura A. Hatfield
期刊/来源: Annals of Applied Statistics
机构: Baruch College · University of Chicago
分类: vol 19 · issue 3
相关性 9/10 · novelty: new_method
摘要: 在 controlled pre-post 设定下，本文旨在识别政策干预的因果效应，estimand 为 treated group 在无干预下的反事实结局均值。核心提出 Averaged Prediction Models (APM) 框架，将 DiD 等品牌方法统一为“先预测、再用 comparison group 的预测误差做校正”的形式，point identification 假设为 treated 与 comparison group 的期望预测误差在无干预下相等。模型选择不依赖拟合优度，而是基于 pre-period 的 differential average prediction errors 构造各模型对 identification 假设违反的 robustness 指标，并以 BMA 式后验概率加权平均候选模型，该选择程序仅需 pre-intervention 数据即可实施。实证应用于 Missouri 2007 枪支法案 repeal 对犯罪率的影响，并提供 R 包 apm。对您可能有用：APM 的 robustness-weighted averaging 思路为 longitudinal/IV 的 sensitivity analysis 提供了新的 model-averaging 视角。
关键技术: controlled pre-post design, prediction-error correction identification, model averaging by robustness posterior, difference-in-differences nesting, pre-intervention lock-box selection, differential average prediction error
为什么对您有用: 直接连接 causal inference 的 longitudinal/pre-post 设定与 sensitivity analysis 子方向；APM 用 pre-period prediction error 差异量化 identification 假设的违反程度，您可用 semiparametric theory / M-estimation theory 分析该 robustness 指标的 asymptotic 性质，或用 HOIF 探究高阶影响函数下 model averaging estimator 的效率界。立即可做：用 very_familiar 的 minimax bounds 与 estimation theory 审视 APM 加权估计量的收敛率与效率。

2. 10.1214/25-aoas2043 · arXiv — Modeling time-varying effects of mobile health interventions using longitudinal functional data from HeartSteps micro-randomized trial¶

作者: Jiaxin Yu, Tianchen Qian
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 9/10 · novelty: new_method
摘要: 在 micro-randomized trial (MRT) 框架下，目标是估计 mobile health 推送通知对步数的 time-varying causal excursion effect，处理时变干预与纵向功能型结局的双重时间索引结构。作者提出首个带 varying coefficients 的半参数因果 excursion effect 模型，通过双时间指标（决策点间+决策点内）刻画效应随时间与上下文变量的异质性。估计方面，提出两阶段估计器，在 high-dimensional outcome regression nuisance 模型误设下仍保持鲁棒（类似部分 robustness / orthogonal 思想）。理论贡献包括估计器的渐近理论（n^{-1/2}-CAN）与模拟验证。实证揭示了推送建议对响应时序（如响应发生速度）的异质效应及上下文依赖。对您有用：本文将 longitudinal functional outcome 引入 MRT causal excursion effect，其两阶段 robust 估计与 varying coefficient 半参数模型直接连接您对 longitudinal causal inference 与 semiparametric theory 的兴趣。
关键技术: micro-randomized trial, causal excursion effect, varying coefficient semiparametric model, two-stage robust estimation, longitudinal functional outcome, double time indices
为什么对您有用: 本文直接连接 longitudinal causal inference 子方向，其半参数 varying coefficient 模型与两阶段 robust 估计器涉及您 moderately_familiar 的 semiparametric theory 与 identification theory。您可用 very_familiar 的 minimax bounds 工具审视其 nuisance model 误设鲁棒性边界是否可进一步收紧，或用 moderately_familiar 的 HOIF / higher-order U-statistics 探究其两阶段估计器是否可通过 higher-order orthogonalization 获得更 sharp 的 rate。Follow-up 判断：中期可做——需先在 moderately_familiar 的 semiparametric theory（特别是 longitudinal setting 下的 influence function 推导）上长肌肉，才能深入其 nuisance 误设鲁棒性的精细理论。

3. 10.1214/25-aoas2060 · arXiv — Treatment effect heterogeneity and importance measures for multivariate continuous treatments¶

作者: Heejun Shin, Antonio Linero, Michelle Audirac, Kezia Irene, Danielle Braun, Joseph Antonelli
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 7/10 · novelty: new_method
摘要: 在多变量连续暴露（如多种环境污染物）的因果推断设定下，本文目标是估计暴露的联合效应，并刻画效应随协变量变化的异质性（treatment effect heterogeneity）。作者提出基于非参数贝叶斯（BART 类框架）的灵活建模方法，允许暴露效应受协变量调节，并定义了全新的 estimands 来量化异质性的性质与程度。理论方面，证明了所提模型的后验收缩速率（posterior contraction rate）；模拟与 PM2.5 组分对健康影响的实证分析表明，低社会经济地位、种族与年龄会加剧污染物的负面健康效应。对您可能有用：本文在连续暴露因果推断中引入异质性 estimands 的思路，可启发您在 semiparametric efficiency 或 HOIF 框架下为类似 estimands 构造 efficient influence function 与 debiased 估计器。
关键技术: multivariate continuous exposure, treatment effect heterogeneity, nonparametric Bayesian regression, posterior contraction rate, importance measures for exposures, causal estimands for heterogeneity
为什么对您有用: 直接连接 causal inference 中连续暴露与效应异质性的 estimand 定义与估计问题。您可以用 semiparametric theory / HOIF 的武器库为本文新提出的异质性 estimands 推导 efficient influence function 并构造 n^{-1/2}-CAN 的 one-step / debiased 估计器，从而在弱模型假设下获得 sharper rate——这是立即可做的方向。

4. 10.1214/25-aoas2042 — Bayesian differential causal directed acyclic graphs for observational zero-inflated counts with an application to two-sample single-cell data¶

作者: Junsouk Choi, Robert S. Chapkin, Yang Ni
期刊/来源: Annals of Applied Statistics
机构: Statistics Korea · Korea University · Texas A&M University · The University of Texas at Austin
分类: vol 19 · issue 3
相关性 7/10 · novelty: new_theory
摘要: 在观测性零膨胀计数数据（如单细胞 RNA-seq）设定下，目标是学习稀疏 DAG 结构并识别两组（对照 vs 处理）之间的差异因果网络。本文提出 Bayesian differential zero-inflated negative binomial DAG (DAG0) 模型，显式处理零膨胀与负二项分布的过度离散。核心理论贡献是证明了在纯观测、横截面数据下，所提模型的因果方向具有完全可辨识性，且证明技术具有一般性、可迁移至其他模型类。推断采用 parallel-tempered MCMC 以应对多模态后验景观，并提供了 R 软件包。模拟与单细胞数据应用显示方法在零膨胀场景优于现有 DAG 学习方法。对您可能有用：DAG 可辨识性证明与差异网络估计为因果推断的 identification theory 与 Bayesian 结构学习提供了新视角。
关键技术: zero-inflated negative binomial DAG, observational DAG identifiability, parallel-tempered MCMC, differential causal network, Bayesian structure learning
为什么对您有用: 直接连接因果推断的 identification theory 子方向——观测数据下 DAG 可辨识性的新证明技术值得审视其与您熟悉的 semiparametric identification 工具的异同。可用您 very_familiar 的 estimation theory in causal inference 检视其可辨识性条件是否可放松或转化为 semiparametric 设定下的 estimand。中期可做：需先在 moderately_familiar 的 identification theory in causal inference 上长肌肉，特别是 DAG 与潜在结果框架的桥接，才能将此可辨识性结果推进到更一般的 semiparametric 估计。

5. 10.1214/25-aoas2050 · arXiv — Measuring information transfer between nodes in a brain network through spectral transfer entropy¶

作者: Paolo Victor Redondo, Raphaël Huser, Hernando Ombao
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 3/10 · novelty: new_method
摘要: 本文在脑网络连通性分析背景下，针对时域转移熵（TE）无法揭示频带特异性信息流的问题，提出了谱转移熵（STE）这一新的因果度量。STE将TE拓展到频域，量化一个脑区特定频段振荡到另一脑区特定频段的因果信息传递，并避免滤波带来的常见偏差。估计上，作者引入vine copula理论，将STE表示为copula密度的函数，从而能直接给出零值估计（参数空间边界）而无需偏差校正。基于null copula模型，他们进一步构建了重抽样显著性检验框架，并调整多重比较以控制假阳性率。数值实验与EEG认知任务数据的分析表明，STE能发现传统时域TE无法捕捉的频带间定向信息流。对您而言，这项工作将信息论因果度量与频域建模结合，为因果推断中的时间序列和频谱分析提供了新工具，且其非参数copula估计技术可借助您熟悉的非参数统计知识快速理解。
关键技术: spectral transfer entropy, vine copula, null copula model, frequency-domain causal inference, EEG connectivity analysis, multiple comparisons adjustment
为什么对您有用: 本文直接与“因果推断”兴趣子方向中的“信息论因果度量”相关，特别是转移熵的频域扩展，为时间序列因果分析提供了新视角。您非常熟悉的“非参数统计”工具（如copula密度估计）正是本文核心技术的支撑，可以立即用于理解其方法细节。立即可做：凭借非参数统计和因果推断的现有知识，您能快速审读本文的识别和估计策略，并评估其应用价值。

6. 10.1214/24-aoas1980 · arXiv — Selecting subpopulations for causal inference in regression discontinuity designs¶

作者: Laura Forastiere, Alessandra Mattei, Julia M. Pescarini, Mauricio L. Barreto, Fabrizia Mealli
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 0/10 · novelty: new_method
摘要: 在 regression discontinuity (RD) 设计下，本文采用 local randomization 框架与 potential outcome 方法，目标是在满足 local overlap、local SUTVA 与 local ignorability 假设的子群体上识别与估计因果效应。核心挑战在于如何选择使 RD 假设成立的子群体；作者提出基于 Bayesian 有限混合模型的聚类方法，将观测划分为假设成立与不成立的子群，从而避免了传统连续性假设下局部回归方法的局限。该方法允许将子群归属的不确定性纳入推断、不限制子群形状、可扩展至高维设定、支持超越 ATE 的因果 estimand，并对 running variable 的适度操纵/选择具有鲁棒性。实证分析将该方法应用于巴西 Bolsa Familia 条件现金转移项目对 2009 年麻风病发病率的影响评估。对您而言，本文的 RD local randomization 框架与 Bayesian mixture 子群选择机制，为 longitudinal/IV 设定下的异质性因果推断提供了新的 identification 与 estimation 思路。
关键技术: local randomization RD framework, Bayesian finite mixture clustering, local overlap and ignorability assumption, potential outcome approach, subpopulation causal estimands
为什么对您有用: 本文直接连接到 causal inference 的 identification 与 estimation 子方向，特别是 RD 设计中的 local randomization 框架与子群选择问题。您武器库中的 identification theory in causal inference (moderately_familiar) 可以用来审视其 local ignorability 假设的合理性边界，而 estimation theory in causal inference (very_familiar) 可用于评估其 Bayesian mixture estimator 的收敛性质与效率。Follow-up 判断：中期可做——若想深入其 Bayesian mixture 的理论性质（如后验收敛率、semiparametric efficiency），需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以补足对 mixture model 下 efficiency bound 的分析能力。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶

1. 10.1214/25-aoas2058 · arXiv — Pseudo-likelihood ratio screening based on network data with applications¶

作者: Wei Hu, Danyang Huang, Bo Zhang
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 6/10 · novelty: new_method
摘要: 针对网络数据中超高维分类标签的偏好分析问题，论文提出了基于伪似然比的特征筛选方法。该方法同时识别与响应直接相关的自相关特征和与网络结构相关的网络相关特征。利用伪似然比统计量构造筛选指标，并证明了在适当正则条件下的sure screening性质。通过模拟和微博真实数据分析验证了有限样本表现。该工作将传统超高维特征筛选拓展至网络结构数据，弥补了忽略网络关联性的缺陷。方法理论部分依赖高维渐近和似然比技术，与您的高维统计兴趣直接相关。
关键技术: pseudo-likelihood ratio screening, sure screening property, ultra-high dimensional categorical features, network data, self-related features, network-related features
为什么对您有用: 该论文属于高维统计中的特征筛选方向，与您primary interest中的high-dimensional statistics紧密相连。您可以在高维渐近和估计理论方面评估其sure screening性质的假设条件是否紧。立即可做：您熟悉高维渐近和逆问题，可以直接检验其理论证明的严谨性。

2. 10.1214/25-aoas2044 — Factor-assisted learning of ultrahigh-dimensional covariates with distributed functional and scalar mixtures with applications to the Avon Longitudinal Study of Parents and Children¶

作者: Shoudao Wen, Li Liu, Jin Liu, Yi Li, Huazhen Lin
期刊/来源: Annals of Applied Statistics
机构: Southwestern University of Finance and Economics · Wuhan University · Chinese University of Hong Kong · University of Michigan
分类: vol 19 · issue 3
相关性 4/10 · novelty: new_method
摘要: 本文针对超高维功能性和标量混合协变量（UDFSM）的回归问题，目标是在分布式存储场景下利用遗传和生理变量预测低密度脂蛋白胆固醇（LDL）水平。方法首先对超高维功能协变量和标量协变量分别进行无监督特征提取，然后构建一个因子回归模型，其中包含可加多指标分量以捕捉潜在特征与响应变量间的非线性关系。模型通过对回归系数矩阵施加列稀疏和低秩结构，既利用协变量间的相关性，又增强可解释性和估计效率。采用sieve似然框架进行模型拟合，无需对响应变量分布做具体假设，获得稳健高效的估计。将方法应用于Avon Longitudinal Study of Parents and Children（ALSPAC）数据，实现了高预测精度，并识别出与LDL显著相关的多个SNP和人体测量指标，进一步分析了人体测量指标随年龄对LDL的影响。对于研究者，本文展示了高维稀疏低秩方法在遗传流行病学中的实际应用，其分析链条和数据处理经验可作为流行病学数据研究的有益参考。
关键技术: factor regression model, additive multiple-index component, column sparsity, low-rank structure, sieve likelihood, unsupervised feature extraction
为什么对您有用: 本文属于流行病学应用（ALSPAC队列），与研究者的secondary interest直接匹配。研究方法使用了高维协变量下的稀疏低秩建模和sieve似然估计，这些工具在研究者的高维统计武器库中已有基础（very_familiar），因此可以快速理解方法原理。作为流行病学领域的真实数据应用，本文的数据结构（功能+标量混合）和分析模式值得花时间阅读全文，为后续类似数据分析提供参考。

非参数 / 半参数 (nonparam_semipara, 3 篇)¶

1. 10.1214/25-aoas2038 · arXiv — Fast variable selection for distributional regression with application to continuous glucose monitoring data¶

作者: Alexander Coulter, R. Nisha Aurora, Naresh M. Punjabi, Irina Gaynanova
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 6/10 · novelty: new_method
摘要: 在 Fréchet 回归框架下，目标是将连续血糖监测(CGM)数据的完整分布作为响应变量进行分布回归，并在稀疏正则化下实现变量选择；原方法因计算瓶颈无法扩展至大数据且缺乏严格推断。本文通过推导目标函数梯度与 Hessian 的显式表达，并利用球面旋转实现可行更新，开发了新的稀疏分布回归算法。新算法较原方法加速 10000+ 倍，使得大规模数据上的 resampling-based inference（如 stability selection）首次计算可行。实证在 2 型糖尿病与睡眠呼吸暂停队列中发现磺脲类药物与血糖变异性显著关联而非均值，且夜间氧饱和度变异比总体水平关联更强。对您可能有用：本文展示了 Fréchet 回归这一非参数/半参数目标空间方法的计算优化与推断策略，其 Hessian 显式推导与球面旋转技巧对统计计算方向有直接参考价值。
关键技术: Fréchet regression, sparse distributional regression, explicit Hessian characterization, rotations on the sphere, stability selection, resampling-based inference
为什么对您有用: 本文连接到非参数/半参数理论（Fréchet 回归在 metric space 上的 M-estimation）与统计计算（Hessian 显式化与球面旋转优化）两个子方向。用您 very_familiar 的 M-estimation 理论可以审视其目标函数的凸性与收敛保证，用 very_familiar 的 software development / numerical methods 经验可以直接评估其算法实现与加速策略。Follow-up 判断：立即可做——用 M-estimation 理论验证其 Hessian 显式表达与球面旋转更新在更一般 metric space 下的适用性，或复现其算法并测试在更高维或非欧 metric space 下的计算表现。

2. 10.1214/25-aoas2028 · arXiv — Clustering and meta-analysis using a mixture of dependent linear tail-free priors¶

作者: Bernardo Flores, Peter Müller
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 3/10 · novelty: new_method
摘要: 本文针对事件时间结局的meta分析问题，提出一种新的非参数贝叶斯方法。该方法扩展了线性依赖tail-free过程，通过修改使其支持（条件）共轭后验更新，并加入层次结构以实现对研究的随机划分。研究划分通过狄利克雷过程混合模型形式化，从而允许不同研究共享信息的同时保持异质性。动机来自癌症免疫治疗研究的meta分析，目标是验证生物标志物在不同肿瘤类型、治疗和标志物组合中的通用有效性。模拟和实际数据分析表明，该方法能有效处理研究间的高度异质性，并识别同质性聚类。对您而言：该方法属于非参数贝叶斯框架，与您对非参数理论的兴趣有交叉，但其贝叶斯先验设定并非您的常用工具（nonparametric statistics是经常使用的，但这里的技术细节更偏向Bayesian computation），可作为拓展视野的参考，暂不可直接移植。
关键技术: linear dependent tail-free process, Dirichlet process mixture, conjugate posterior updating, meta-analysis with event time outcomes, random partition of studies
为什么对您有用: 论文属于统计方法在流行病学meta分析中的应用，属于您的次要兴趣（流行病学）范畴。其核心是用于处理异质性的非参数贝叶斯聚类方法，与您very_familiar的nonparametric statistics有一定联系，但具体技术（tail-free过程、DP混合）并不在您的武器库中，且不涉及因果推断或半参效率理论，因此作为流行病学应用案例可读，但不具备直接的方法学借鉴价值，属于暂不可做（缺少贝叶斯非参数基础）。

3. 10.1214/25-aoas2046 · arXiv — Functional-coefficient models for multivariate time series in designed experiments: With applications to brain signals¶

作者: Paolo Victor Redondo, Raphaël Huser, Hernando Ombao
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 2/10 · novelty: application
摘要: 本研究针对ADHD临床实验中的多通道脑电图信号，提出混合效应函数系数自回归模型（MXFAR），以同时建模通道间的非线性依赖和受试者间的异质性。与传统线性相干性和偏定向相干性不同，MXFAR采用非参数函数系数刻画时变依赖，并通过随机效应捕捉个体差异。基于该模型，进一步定义功能偏定向相干性（fPDC），在频域提取非线性动态连接模式。模型在模拟数据上验证了准确性，并应用于ADHD患者与对照组的EEG数据，发现患者额区-中央区连接异常的新证据。方法上兼顾灵活性（非参数）和可解释性（谱分析），且易于整合协变量。您熟悉的非参数统计和随机效应框架可直接迁移至该模型的推广分析，例如检验组差异的非参数显著性检验或放宽平稳性假设。
关键技术: Functional-coefficient model, Mixed-effects autoregressive, Partial directed coherence, Nonparametric spectral analysis, EEG time series
为什么对您有用: 论文的非参数函数系数建模直接对应您 very_familiar 的 nonparametric statistics 武器库，可用 minimax bounds 或高阶U统计量研究该模型估计量的收敛速度。此外，混合效应引入的个体间变异与您在因果推断中处理的异质性设定相通，可考虑将模型扩展为纵向因果框架（如时变处理效应）。目前属于中期可做方向：若要将模型推广至高维通道（如>100个电极），需先在 moderately_familiar 的 semiparametric theory 上加强，以应对函数系数的高维稀疏识别问题。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶

1. 10.1214/25-aoas2034 — Inference with combined data from subgroup selection and validation phases in clinical trials¶

作者: Xinzhou Guo, Jianjun Zhou, Xuming He
期刊/来源: Annals of Applied Statistics
机构: Hong Kong University of Science and Technology · Yunnan University · Washington University in St. Louis
分类: vol 19 · issue 3
相关性 5/10 · novelty: new_method
摘要: 本文考虑在广谱目标人群的试验失败后，识别出一个有前景的亚组并进行验证性试验的场景，其目标是无偏且高效地结合筛选阶段和验证阶段的数据，对亚组效应进行推断。现有方法通常仅使用验证阶段数据，忽视筛选阶段信息，或无法充分控制选择偏倚。作者提出一种基于重采样的新方法，通过量化并消除因亚组选择带来的偏倚，从而实现两阶段数据的有效结合。该方法不依赖模型假设，具有渐近精确性（asymptotically sharp），即估计量的偏差被完全消除且方差达到有效利用两阶段数据的下界。在panitumumab试验实例中，方法显著提升了亚组效应的估计精度与统计检验功效，从而加速有效疗法对目标患者的交付。对于您而言，本文的选择偏倚矫正思路与因果推断中的敏感性分析和选择偏倚控制直接相关，且其重采样框架可与您非常熟悉的非参数统计工具结合，快速复现并扩展到其他分层/亚组分析的场景。
关键技术: subgroup selection bias, resampling-based bias removal, asymptotically sharp inference, model-free estimation, data combination from multiple phases
为什么对您有用: 本文属于假设检验和选择偏倚矫正的应用方法，直接连接到您对估计理论（因果推断中的选择偏倚）和重采样方法的熟悉领域。在技术武器库中，您非常熟悉的非参数统计和估计理论完全可以复现并验证该方法的有限样本表现，且可用您掌握的高阶U-statistics树宽/张量收缩复杂度视角评估其计算代价。立即可做：您可以直接在模拟中实现该重采样流程，并对比其与现有两阶段推断方法的性能。

统计计算 / 算法 (stat_computing, 3 篇)¶

1. 10.1214/25-aoas2059 · arXiv — Fast return-level estimates for flood insurance via an improved Bennett inequality for random variables with differing upper bounds¶

作者: Anna Maria Barlow, Chris Sherlock
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 4/10 · novelty: new_method
摘要: 本文针对洪水保险中返回水平（return level）估计的蒙特卡洛模拟计算量过大的问题，提出了一种计算加速方案。作者开发了一个改进的Bennett型浓度不等式，该不等式允许被加随机变量具有不同的个体上界和方差，从而比经典Bennett不等式更紧。利用该不等式，他们设计了一个重要性抽样过程，每年从浓度不等式隐含的分布中反复抽样，从而用更少的计算量得到返回水平及其不确定性的保守估计。模拟实验和一个代表性保险组合的应用表明，新方法在不明显降低精度的情况下，计算量降低了数个数量级。该方法使研究者能以较低的代价进行敏感性分析，考察通常被视为固定已知但实际不确定的输入量的影响。对于您而言，本文展示的概率不等式技巧可直接服务于统计计算兴趣，且连接您对使用einsum进行高效计算的关注，可能启发将类似不等式用于高维U-统计量的集中性边界推导。
关键技术: Bennett inequality, individual upper bounds, concentration inequality, importance sampling, Monte Carlo return-level estimation
为什么对您有用: 本文直接面向统计计算中的计算加速问题，属于您的 primary interest 中 'statistical computing' 子方向。您非常熟悉的概率不等式和高维渐近知识可以快速理解并评估该不等式的紧性；其重要性抽样框架也可迁移到您关心的因果推断中的敏感性分析（如ACE估计的加速）。此外，该不等式的个体上界处理方式可与您的 higher-order U-statistics 中的 tensor contraction 复杂度结合，中期可探索将其推广至非独立情形。立即可动手：将改进的Bennett不等式实现为R包，用于其他蒙特卡洛模拟场景。

2. 10.1214/25-aoas2031 · arXiv — Informed Bayesian finite mixture models via asymmetric Dirichlet priors¶

作者: Garritt L. Page, Massimo Ventrucci, Maria Franco-Villoria, Matthew K. Seeley
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 2/10 · novelty: new_method
摘要: 本文针对有限混合模型中成分数与聚类数的区分问题，提出一种新的贝叶斯先验构建方法。通过采用非对称狄利克雷分布作为混合权重的先验，并引入惩罚复杂度先验（penalized complexity prior）来控制狄利克雷形状参数，使得研究者能以直观方式对聚类数量进行先验信息注入。该方法的核心在于诱导出的聚类数先验分布具有良好的灵活性和可解释性。作者通过数值实验和两个真实数据集（具体领域未注明）展示了该方法在实际聚类任务中的可用性。对您而言，本文属于统计计算方法与贝叶斯建模的交叉，可作为了解贝叶斯先验设计在聚类问题中应用的入门材料。
关键技术: asymmetric Dirichlet priors, penalized complexity priors, finite mixture models, model-based clustering, prior elicitation on number of clusters
为什么对您有用: 本文属于统计计算方法在贝叶斯混合模型中的应用，与您primary interest中的'statistical computing (numerical methods, algorithm)'直接相关。但您的技术武器库'very_familiar'中缺少贝叶斯计算与先验设计的具体工具（如MCMC采样、非对称Dirichlet后验分析），当前暂不可做后续扩展；若您有意进入贝叶斯方法方向，可将其视为gateway reading，中期需先补充贝叶斯计算基础（moderately_familiar层级）。

3. 10.1214/25-aoas2063 — An accumulation method for early fault warning and its application to wind turbine systems¶

作者: Effi Latiffianti, Shawn Sheng, Marianne Rodgers, Robbie Sanderson, Yu Ding
期刊/来源: Annals of Applied Statistics
机构: Sepuluh Nopember Institute of Technology · National Laboratory of the Rockies · Wind Energy Institute of Canada · Georgia Institute of Technology
分类: vol 19 · issue 3
相关性 0/10 · novelty: application
摘要: 在工程系统（风力涡轮机）的早期故障预警设定下，目标是检测由渐变引起的微弱症状信号，以提前预判昂贵故障。核心方法借鉴经典 CUSUM 的累积思想，但针对风电数据的高噪声与异质性重新设计了累积机制，以捕捉传统 CUSUM 难以触发的低幅度漂移。方法在两个真实风电数据集（齿轮箱与发电机故障）上验证，相比 CUSUM 展现出更早的预警触发与更低的误报率。对您而言，本文提供了一个将经典序贯检测（CUSUM）适配到复杂工业数据的计算改造案例，属于 stat_computing 与工程应用的交叉。
关键技术: cumulative sum (CUSUM), sequential change-point detection, signal accumulation mechanism, early fault warning, wind turbine condition monitoring
为什么对您有用: 本文连接到 stat_computing（序贯检测算法的数值与计算改造）以及工程系统的在线监测问题。从 technical_arsenal 看，用 very_familiar 中的 inverse problems with random noise 视角可以审视其微弱信号累积的噪声放大机制，或用 software development 评估其在线算法的实现效率。本文 novelty_flag 为 application，方法学增量有限（主要是 CUSUM 的工程适配），但真实数据与计算流程可作为序贯检测在工业场景的入门读物；中期可做：若想在此方向深挖，需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以建立改造后累积估计量的严格渐近理论。

经济理论 / 应用 (econ_theory, 2 篇)¶

1. 10.1214/25-aoas2062 — Quantile regression with a one-sided misclassified binary regressor¶

作者: Carlos Lamarche
期刊/来源: Annals of Applied Statistics
机构: University of Kentucky
分类: vol 19 · issue 3
相关性 7/10 · novelty: new_method
摘要: 在分位数回归框架下，研究社会项目参与这一二元变量存在内生单侧误报（仅多报、不漏报）时的估计问题，目标是该误报回归系数的 identification 与一致估计。方法采用参数第一阶段利用参与与误报的辅助信息实现 identification，进而构造修正后的分位数回归估计量。理论证明该估计量具有一致性与渐近正态性，并建立了 bootstrap 重抽样推断的渐近有效性。实证部分使用美国调查数据估计母亲福利参与对女儿成年收入的代际效应。对您可能有用：本文提供了在经济学应用中处理内生误报变量的 identification 策略与推断方法，直接关联您 secondary interest 中经济理论的因果推断应用。
关键技术: quantile regression, one-sided misclassification, endogenous misreporting, parametric identification, bootstrap inference
为什么对您有用: 本文直接关联您 secondary interest 中经济理论的因果推断应用与数据集，展示了在经济学调查数据中处理内生误报变量的 identification 策略。您武器库中 very_familiar 的因果推断 identification theory 与 moderately_familiar 的 M-estimation theory 可以直接攻入本文参数第一阶段 identification 与估计量的渐近理论分析，判断其假设是否可放松至半参数框架。立即可做：用您熟悉的 identification theory 审视其参数假设的必要性，探索半参数替代。

2. 10.1214/25-aoas2051 · arXiv — Mutually exciting point processes for crowdfunding platform dynamics¶

作者: Alexandra Djorno, Forrest W. Crawford
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 4/10 · novelty: application
摘要: 该论文针对众筹平台中用户捐赠的动态建模问题，扩展了经典的Hawkes过程。连续时间条件强度被建模为自激发基线率与优先附着互激发的叠加，二者均依赖于用户先前的参与度并由幂律衰减调节。模型围绕两个随时间变化的特征——捐赠次数和项目流行度——构建，参数估计采用基于2000个项目与16.4万用户多年的观测数据。研究发现用户捐赠流程中存在瓶颈，定量测量了项目流行度的影响，并刻画了用户兴趣随时间衰减的模式。引入传染效应评估项目流行度对捐赠率的影响，为平台管理者提供基于反事实评估和动态感知推荐的监控基础。该应用展示了点过程在平台经济学中数据分析的潜力。
关键技术: Hawkes process, mutual excitation, preferential attachment, power law decay, continuous-time conditional intensity, maximum likelihood estimation
为什么对您有用: 该论文属于应用经济方向，契合您的次要兴趣“经济理论的应用数据集与模型”，可作为点过程在众筹平台实证中的入门读物。武器库中熟悉的高维渐近与半参理论不直接用于本文，但类似的自激发建模思路可能迁移至因果推断中的敏感性分析（如用Hawkes过程刻画未测量混淆的时序动态）。此作为中期可做的方向，需先在非参数点过程建模上加强（目前不在武器库中）。

流行病学 (epidemiology, 9 篇)¶

1. 10.1214/25-aoas2040 — Time-to-event analysis of preterm birth accounting for gestational age uncertainties¶

作者: Yuzi Zhang, Joshua L. Warren, Hua Hao, Howard H. Chang
期刊/来源: Annals of Applied Statistics
机构: The Ohio State University · Yale University · Emory University
分类: vol 19 · issue 3
相关性 6/10 · novelty: application
摘要: 在流行病学队列研究的生存分析设定下，目标是估计时变环境暴露对早产（gestational age < 37 weeks）风险的效应，但关键挑战是真实孕周不可观测，且两种替代测量（OE 与 LMP）均含误差，导致结局错分与暴露测量误差。本文提出一种分层贝叶斯模型，在无验证数据（validation data）的条件下，对潜在真实孕周引入两个离散时间风险模型（早产 vs 足月），并用两个多项分布模型刻画 OE 与 LMP 的错分机制。该框架允许联合估计早产风险因子与孕周错分参数，从而纠正因孕周不确定性引入的偏差。实证分析基于 2010 年堪萨斯州出生队列，发现孕晚期臭氧暴露与早产存在稳健的正向关联。对您可能有用：本文展示了在流行病学应用中处理关键变量测量误差与结局错分的贝叶斯建模策略，可作为因果推断中 sensitivity analysis 或 measurement error 校正的应用案例参考。
关键技术: discrete-time hazard model, hierarchical Bayesian model, outcome misclassification modeling, measurement error correction without validation data, time-varying exposure
为什么对您有用: 本文属于流行病学应用（epidemiology secondary interest），核心是处理因果/生存分析中关键变量的测量误差与错分问题。虽然方法为贝叶斯建模而非您熟悉的 semiparametric / HOIF 路线，但其中“无验证数据下联合估计错分参数与风险效应”的 identification 思路，与 causal inference 中 measurement error / misclassification 的 sensitivity analysis 有直接对话空间。用您 very_familiar 的 nonparametric statistics 与 moderately_familiar 的 identification theory，可以探讨该错分模型在 semiparametric 框架下的非参数识别边界与效率极限，属于中期可做（需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以构建可比的 debiased / one-step estimator 对照贝叶斯框架）。

2. 10.1214/25-aoas2053 · arXiv — Bayesian quantile regression with subset selection: A decision analysis perspective¶

作者: Joseph Feldman, Daniel R. Kowal
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 6/10 · novelty: new_method
摘要: 本论文研究贝叶斯分位数回归中的估计、不确定性量化与子集选择问题，并应用于流行病学数据。作者从贝叶斯决策分析视角出发，为任意贝叶斯回归模型推导出条件分位数的最优线性估计和不确定性度量。核心创新是引入分位数聚焦的平方误差损失，使得后验计算可闭式求解，并建立与Wasserstein密度估计的密切联系。与传统分位数回归方法（分别估计每个分位数或估计整个条件分布）相比，该方法在分位数估计精度、变量选择和推断上均有显著提升，且计算更高效。仿真实验验证了优于频率学派和贝叶斯竞争者的性能。应用部分使用北卡罗来纳州教育数据集，识别社会压力源和环境暴露对不同学业水平（低、中、高）学生的异质性影响。本文方法为流行病学中的异质性效应研究提供了实用工具，与您对流行病学应用研究的次级兴趣直接相关。
关键技术: Bayesian decision analysis, quantile-focused squared error loss, subset selection, closed-form computing, conditional quantile estimation, Wasserstein-based density estimation
为什么对您有用: 本文属于流行病学应用研究，使用贝叶斯分位数回归分析社会和环境暴露对教育结果的异质性影响，契合您对流行病学数据集的次要兴趣。方法中的闭式计算和变量选择技巧可在统计计算中借鉴，且该应用的异质性分析思路对因果推断中的分位数处理效应研究有参考价值。这是一篇值得阅读全文的应用文章，可作为流行病学领域中统计方法应用的入门范例。

3. 10.1214/25-aoas2048 — Exact Bayesian inference for fitting stochastic epidemic models to partially observed incidence data¶

作者: Raphaël Morsomme, Jason Xu
期刊/来源: Annals of Applied Statistics
机构: Duke University · University of California, Los Angeles
分类: vol 19 · issue 3
相关性 6/10 · novelty: new_method
摘要: 在离散时间部分观测感染计数下，目标是 SIR 随机流行病模型的参数后验分布；核心难点是边际似然不可解。本文提出一种数据增广 MCMC 采样器，在 Metropolis–Hastings 步中从精心设计的 surrogate 过程联合提议高维潜变量（完整感染轨迹），该 surrogate 能高效生成与观测数据一致的疫情路径。理论证明该采样器 uniformly ergodic，实证显示其 mixing 速度远快于现有 single-site 采样器，且可扩展至数千感染规模。应用部分将算法扩展至 semi-Markov SIR 模型，拟合 2013–2015 几内亚埃博拉疫情数据。对您而言，本文提供了流行病学方向一个完整贝叶斯推断 pipeline 的范例，展示了高维潜变量增广与 surrogate 提议的设计技巧。
关键技术: data-augmented MCMC, Metropolis-Hastings surrogate proposal, uniform ergodicity, stochastic SIR model, semi-Markov extension, partially observed incidence data
为什么对您有用: 本文属于流行病学（secondary interest）的应用与方法结合工作，提供了埃博拉真实数据集与半马尔可夫 SIR 模型设定，可作为入门级阅读观察高维潜变量增广推断的工程实现。从武器库看，您 very_familiar 的高维渐近与软件开发经验足以理解其算法实现与扩展性论证，但贝叶斯 MCMC 理论（uniform ergodicity 证明）需在 moderately_familiar 的 M-estimation 之外额外补充 Markov chain convergence 理论。整体判断：中期可做——若想在此方向做方法学跟进，需先在 MCMC convergence theory 上长肌肉；作为 gateway reading 值得花时间读全文以了解流行病学离散观测数据的典型结构。

4. 10.1214/25-aoas2039 — Estimating life expectancy in the Canadian elderly population with dementia using prevalent cohort survival data¶

作者: Ali Shariati, Masoud Asgharian, Vahid Fakoor
期刊/来源: Annals of Applied Statistics
机构: Macquarie University · McGill University · Ferdowsi University of Mashhad
分类: vol 19 · issue 3
相关性 5/10 · novelty: new_method
摘要: 在流行病学现患队列（prevalent cohort）随访设定下，目标是估计加拿大老年痴呆患者的期望寿命（life expectancy），数据同时受左截断（left truncation / survivor bias）与右删失（loss to follow-up）影响。作者研究了该设定下期望寿命的非参数极大似然估计（NPMLE）及其均匀误差带（uniform margins of error），并首次提出两样本方法构造两组患者期望寿命差的均匀置信带，用于协变量效应检验。核心理论工具包括左截断右删失下的 Kaplan-Meier 型估计量的大样本性质与均匀收敛界，方法无需强参数约束且兼顾鲁棒性与效率。实证分析基于加拿大健康与老龄化研究（CSHA）数据，揭示性别与痴呆类型对期望寿命的显著影响。对您可能有用：本文将左截断右删失的生存分析理论与流行病学因果/期望寿命估计结合，可作为 epidemiology 应用中处理 selection bias 的参考案例。
关键技术: prevalent cohort left truncation, nonparametric maximum likelihood estimation (NPMLE), uniform confidence bands, right censoring, two-sample life expectancy difference, Kaplan-Meier type estimator under truncation
为什么对您有用: (1) 直接连接 epidemiology secondary interest，具体是流行病学队列数据中的 selection bias（左截断）与期望寿命估计问题。(2) 您 technical_arsenal 中的 minimax bounds for estimation problems 与 nonparametric statistics 可直接攻本文 NPMLE 的 uniform margin of error 理论——验证其声称的 uniform band 是否达到 minimax sharp rate。(3) 立即可做：用 very_familiar 的非参数估计与 minimax 理论工具即可审视其收敛率与置信带构造的紧性。

5. 10.1214/25-aoas2055 — Integrative ecological regression analysis of U.S. county and state level COVID-19 death data for studying health disparity associations¶

作者: Daniel Li, Xihong Lin
期刊/来源: Annals of Applied Statistics
机构: Harvard University
分类: vol 19 · issue 3
相关性 5/10 · novelty: application
摘要: 在生态回归设定下，目标是利用美国县级总体 COVID-19 死亡计数与州级年龄-性别-种族分层死亡计数，估计个体层面的健康差异关联（ecological estimand），克服纯县级分析的生态偏倚与生态谬误。核心方法为近似对数线性随机效应模型，联合建模两级数据；估计采用 penalized composite log-likelihood，以处理州级分层数据的稀疏性与两级数据的异质性。模拟表明该方法能有效纠正生态偏倚；全美数据分析展示了纳入州级分层信息后种族关联估计的异质性。对您可能有用：本文是流行病学因果/关联推断中纠正生态偏倚的典型应用案例，展示了 composite likelihood 在多源数据整合中的实操。
关键技术: ecological regression, ecological bias correction, log-linear random effects model, penalized composite log-likelihood, health disparity analysis
为什么对您有用: (1) 连接到流行病学应用中的生态偏倚纠正问题，属于 secondary interest 的 epi 方向；(2) 武器库中 semiparametric theory 与 M-estimation theory（moderately_familiar）可以用来审视其 composite likelihood 的渐近性质与惩罚项选择的理论基础；(3) 中期可做：若想将此类多源整合估计推向 semiparametric efficient bound 或做 sensitivity analysis，需先在 moderately_familiar 的 identification theory 上长肌肉以建立更一般的 identification 条件。

6. 10.1214/24-aoas1977 · arXiv — Contrastive linear regression¶

作者: Boyang Zhang, Sarah Nyquist, Andrew Jones, Barbara E. Engelhardt, Didong Li
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 4/10 · novelty: new_method
摘要: 针对病例对照研究中有响应变量（但仅病例组存在）的监督学习问题，提出对比线性回归（contrastive linear regression）。该方法首先通过对比PCA提取病例组与对照组预测变量间的共享低维成分，再将病例组预测变量中去掉该共享成分后的剩余变异用于解释响应变量。算法基于特征分解和线性回归，计算高效。在慢性鼻窦炎单细胞RNA测序数据和自闭症死后脑组织核RNA测序数据上，该方法能识别出其他对比降维或回归方法无法找到的生物学相关预测因子。对您可能有用：本文可作为流行病学病例对照分析的模式案例，其对比维度约减思想可与您熟悉的高维渐近理论结合做进一步理论拓展。
关键技术: contrastive linear regression, contrastive PCA, shared variation removal, case-control study design, single-cell RNA sequencing, feature ranking
为什么对您有用: 连接到第二兴趣中的流行病学（病例对照设计）及统计建模。您擅长的高维渐近理论可用来分析该对比回归在高维预测变量下的相合性与收敛速度，或基于nonparametric statistics扩展为非线性版本。论文提供数据集和开源实现，基于您的软件开发技能可立即可做复现与理论深化。

7. 10.1214/25-aoas2045 · arXiv — Bayesian learning of clinically meaningful sepsis phenotypes in northern Tanzania¶

作者: Alexander Dombowsky, David B. Dunson, Deng B. Madut, Matthew P. Rubach, Amy H. Herring
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 3/10 · novelty: application
摘要: 在坦桑尼亚北部脓毒症队列数据中，目标是识别具有临床可解释性的患者亚型聚类，而非仅依赖数据驱动的无监督分组。本文提出 CLAMR（Clustering Around Meaningful Regions）贝叶斯聚类方法，通过在先验或似然中显式约束聚类中心落在临床上有意义的特征取值区域，使所得聚类具有明确的医学语义。方法还结合贝叶斯假设检验量化各特征对聚类划分的贡献度，辅助临床解释。实证分析在 HIV 高发、患者年龄偏低的 Moshi 队列上展示了该方法的亚型发现能力。对您而言，本文提供了一个流行病学队列数据的应用案例，其贝叶斯假设检验框架与您对 hypothesis testing 的理论兴趣有直接对接。
关键技术: Bayesian clustering, prior constraint on cluster centers, Bayesian hypothesis testing for feature relevance, clinical interpretability of subtypes, sepsis phenotyping
为什么对您有用: 本文属于流行病学（secondary interest）的应用工作，提供了真实的脓毒症/HIV 队列数据集及分析管线。方法学核心是贝叶斯假设检验用于特征筛选，这与您 primary interest 中的 hypothesis testing 方向直接相关，可作为该方向在医学聚类问题中的具体实例阅读。从武器库角度看，您对 M-estimation theory 和 semiparametric theory 的 moderately_familiar 知识足以支撑理解其贝叶斯推断框架，但若想在此类贝叶斯聚类问题上做理论拓展（如检验的 power 分析或 minimax 性质），需先在贝叶斯非参数理论上长肌肉（中期可做）。作为 gateway reading，本文数据与模型设定清晰，值得花时间读全文以了解流行病学聚类问题的实际约束。

8. 10.1214/25-aoas2049 · arXiv — Bayesian analysis of verbal autopsy data using factor models with age- and sex-dependent associations between symptoms¶

作者: Tsuyoshi Kunihama, Zehang Richard Li, Samuel J. Clark, Tyler H. McCormick
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 3/10 · novelty: application
摘要: 在口头尸检（VA）数据设定下，目标是估计低资源地区人群死因分布；关键假设是症状关联随年龄和性别变化，且可通过因子模型刻画。本文提出新贝叶斯因子模型，将症状间的关联结构参数化为年龄-性别依赖的潜在因子，从而在分配死因时捕捉异质性。估计采用贝叶斯后验推断，并引入信息论度量（如互信息等）量化各症状对死因预测的相对贡献。使用 PHMRC 金标准数据与现有方法对比，展示了考虑年龄-性别交互关联后的性能提升。对您可能有用：本文是流行病学因果/分类推断的应用案例，展示了因子模型在观测数据异质性建模中的用法。
关键技术: Bayesian factor model, age-sex-dependent association, verbal autopsy cause-of-death assignment, information-theoretic predictor relevance, posterior inference
为什么对您有用: 本文属于流行病学应用（epidemiology），提供了 VA 数据与死因推断的入门视角，数据结构和缺失/测量误差问题对统计建模有实质性挑战。(1) 连接到 epidemiology 的死因推断设定，因子模型对症状关联的参数化与 semiparametric theory 中的 latent variable modeling 有交集；(2) 用 very_familiar 中的 high-dimensional asymptotics 或 moderately_familiar 的 M-estimation theory 可以审视其因子载荷估计的大样本性质；(3) 属于 gateway reading：数据与模型展示清晰，值得花时间读全文以了解流行病学观测数据的典型结构，但方法论 novelty 为应用级别。

9. 10.1214/25-aoas2033 — Mixed modeling approach for characterizing the genetic effects in a longitudinal phenotype¶

作者: Pei Zhang, Paul S. Albert, Hyokyoung G. Hong
期刊/来源: Annals of Applied Statistics
机构: Division of Cancer Epidemiology and Genetics
分类: vol 19 · issue 3
相关性 1/10 · novelty: application
摘要: 本文针对纵向表型（longitudinal phenotype）的遗传效应估计问题，提出包含遗传效应与个体随机效应的混合模型（mixed model），目标参数为基线与斜率的遗传方差分量及个体级预测。模型中遗传效应与个体随机效应的交叉结构（crossed structure）导致所有受试者重复测量间存在复杂依赖，需专门设计估计程序。作者采用 Average Information Restricted Maximum Likelihood（AI-ReML）算法估计基线与变化率的遗传及个体方差分量，并给出个体级遗传效应预测。实证分析基于 PLCO 癌症筛查试验中未患前列腺癌人群的 PSA 轨迹数据，发现遗传因素对 PSA 初始水平及随时间变化均有显著贡献，可用于识别易假阳性筛查的高风险个体。对您而言，本文提供了流行病学队列纵向数据中交叉随机效应混合模型的完整应用范例，可作为了解遗传-个体交叉依赖结构及 AI-ReML 计算细节的入门参考。
关键技术: linear mixed model with crossed random effects, Average Information REML (AI-ReML), longitudinal genetic effect estimation, variance component estimation, individual-level BLUP prediction
为什么对您有用: 本文属于流行病学纵向数据应用，连接到您 secondary interest 中 epidemiology 的纵向因果与数据集方向；模型中遗传与个体效应的交叉结构带来的复杂依赖与计算挑战，与您 technical_arsenal 中 very_familiar 的 software development / high-dimensional asymptotics 有接口——AI-ReML 的数值实现与收敛性质是可切入的口子。作为 gateway reading：本文对交叉随机效应混合模型的设定与 AI-ReML 算法步骤交代清晰，适合作为入门读物；武器库足以支撑进入此方向（数值优化与混合模型理论均在 moderately_familiar 范围）；值得花时间读全文以了解 PLCO 数据结构与遗传效应估计的完整 pipeline。

其他 (other, 8 篇)¶

1. 10.1214/25-aoas2021 · arXiv — Multiple imputation of hierarchical nonlinear time series data with an application to school enrollment data¶

作者: Daphne H. Liu, Adrian E. Raftery
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 2/10 · novelty: application
摘要: 本文针对层次非线性时间序列数据中的缺失值问题，提出了一种贝叶斯多重插补方法。数据缺失常因不同国家或时间点调查覆盖率不同，例如国际学校入学率年度估计。作者通过联合分布的序列分解，并引入平滑样条来建模辅助变量与目标变量间的非线性关系。该方法旨在解决插补模型与分析模型不协调（uncongeniality）时性能下降的问题。通过模拟研究和中学入学率实际数据的应用，与现有插补方法对比，显示在参数估计和缺失值预测上有显著提升。文章重点在于处理非线性关系和模型协调性，但未涉及因果推断或高维统计。对于熟悉非参数平滑和贝叶斯方法的读者，文中样条建模和分解策略可借鉴到纵向因果推断中的缺失协变量处理。
关键技术: multiple imputation, smoothing splines, hierarchical time series, Bayesian sequential decomposition, uncongeniality between imputation and analysis models
为什么对您有用: 本文主题不直接对应您的主要兴趣（因果推断、高维等），但缺失数据处理是纵向因果推断（如时变混杂调整）中常见难题。您武器库中的高阶U统计量可评估插补后估计量的偏差与方差；熟悉的非参数方法（平滑样条）与本文核心工具一致，便于快速理解其建模逻辑。follow-up：暂不可做——若想将此插补框架迁移至因果推断敏感性分析，需要补充处理不可忽略缺失的识别假设，这点您当前武器库未专攻。建议作为应用范例阅读，而非直接技术攻防。

2. 10.1214/25-aoas2056 · arXiv — Global-local Dirichlet processes for identifying pan-cancer subpopulations using both shared and cancer-specific data¶

作者: Arhit Chakrabarti, Yang Ni, Debdeep Pati, Bani K. Mallick
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 2/10 · novelty: new_method
摘要: 本文研究分组数据聚类问题，其中各组除共享变量外还有组特异变量。针对癌症基因组学中共享分子信息与癌症特异性临床变量并存的特点，提出全局-局部（GLocal）Dirichlet过程贝叶斯非参数模型。该模型通过stick-breaking表示和有限混合极限表征，支持高效后验推断算法。在泛胃肠道癌症真实数据中，整合CEA、BMI、吸烟量等癌种特异性临床变量，能比仅用共享基因表达数据识别出更细的亚群。这有助于理解肿瘤进展和异质性。该方法不仅适用于癌症基因组学，也可推广至一般分组聚类场景。
关键技术: Dirichlet process, Bayesian nonparametrics, stick-breaking representation, grouped clustering, finite mixture limit
为什么对您有用: 本文属于贝叶斯非参数聚类在癌症基因组学中的应用，与您的secondary interest中流行病学（癌症数据集）有关联。但您的技术武库以频域半参数、高维、U统计量为主，与贝叶斯非参数方法重叠较少。核心机器（贝叶斯非参数建模、Dirichlet过程）不在武器库中，暂不可做为核心拓展方向。若希望进入该领域，需先系统学习贝叶斯非参数基础。

3. 10.1214/25-aoas2052 · arXiv — A latent variable model with change-points and its application to time pressure effects in educational assessment¶

作者: Gabriel Wallin, Yunxiao Chen, Yi-Hsuan Lee, Xiaoou Li
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 2/10 · novelty: new_method
摘要: 本文针对教育评估中时间压力导致的测试者行为变化问题，提出了一种带有变化点的潜变量模型（扩展项目反应理论IRT）。该模型为每个测试者引入个体特定的变化点，参数同时估计项目参数、潜在能力及行为转变位置。通过模拟研究验证了模型在多种条件下能准确恢复参数，并能显著降低能力估计偏倚。应用于高利害与低利害两种真实测试数据集，发现变化点出现模式存在系统性差异，为测试设计提供了定量依据。本文的方法整合了潜变量建模与变化点检测，属于纵向数据分析的典型案例，但未涉及因果推断或渐近效率理论。对研究者而言，可借此案例了解变化点模型在教育测量领域的应用，但无直接理论贡献。
关键技术: Item Response Theory (IRT), latent variable model with change-points, person-specific change-points, maximum likelihood estimation, simulation study
为什么对您有用: 本文属于教育测量中的应用统计，与研究者主要兴趣（如因果推断、高效理论）不直接匹配。变化点潜变量模型可看作纵向数据建模的实例，但未提供半参数效率或极小极大收敛率的理论分析。研究者若希望进入该应用方向，需补充IRT和心理测量学知识，目前暂不可做。

4. 10.1214/25-aoas2061 · arXiv — A Bayesian record linkage approach to applications in tree demography using overlapping LiDAR scans¶

作者: Lane Drew, Andee Kaplan, Ian Breckheimer
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 1/10 · novelty: application
摘要: 本文研究多源空间数据中缺乏唯一标识符时的个体记录匹配（record linkage）问题，设定为贝叶斯层次模型与两阶段建模框架，核心 estimand 为个体树木生长曲线及地形协变量效应。第一阶段采用贝叶斯 record linkage 模型处理带噪声的空间位置匹配，第二阶段连接灵活的下游个体生长模型；通过扩展 Sadinle (2018) 的 linkage-averaging 方法，实现了跨两阶段的不确定性量化与传播。计算策略上针对可扩展性进行了专门设计，模拟数据评估了模型性能，并在 Upper Gunnison Watershed 的双时相 LiDAR 扫描真实数据上拟合了针叶树生长模型。主要实证结果揭示了关键地形协变量对南方落基山脉针叶树生长行为的影响。对您而言，本文展示了贝叶斯两阶段 pipeline 在生态学空间数据中的完整应用，可作为了解 record linkage 不确定性传播机制的入门阅读，但方法学 novelty 偏应用层面。
关键技术: Bayesian hierarchical record linkage, linkage-averaging uncertainty propagation, two-stage modeling framework, spatial location matching, LiDAR data integration
为什么对您有用: 本文属于生态学空间数据的应用统计工作，与您 primary interests 的因果推断/高维/效率理论无直接交集，但两阶段 linkage-averaging 的不确定性传播思路可类比于因果推断中多步估计（如 IPW + outcome regression）的 variance propagation 问题。您武器库中的 semiparametric theory（moderately_familiar）可用来审视其两阶段 uncertainty propagation 是否能达到 semiparametric efficiency bound，但本文是纯贝叶斯框架，与您的 frequentist efficiency / influence function 路线不兼容。作为 gateway reading，本文对了解 record linkage 问题设定尚可，但缺乏对您核心方向的方法学推进，不建议花时间读全文。

5. 10.1214/25-aoas2047 — Network-based modeling of emotional expressions for multiple cancers via a linguistic analysis of an online health community¶

作者: Xinyan Fan, Mengque Liu, Shuangge Ma
期刊/来源: Annals of Applied Statistics
机构: Renmin University of China · Xi'an Jiaotong University · Yale University
分类: vol 19 · issue 3
相关性 1/10 · novelty: new_method
摘要: 本文分析美国癌症协会在线社区2003–2022年八种癌症帖子的情绪表达语义网络，目标是对情绪词共现矩阵进行低秩分解，识别跨癌种时间无关基线、癌种特异性及跨癌种时间依赖三种成分。方法上，对癌种特异性成分引入聚类结构、对时间依赖成分引入变点结构，通过惩罚估计实现结构化低秩矩阵估计；理论部分给出了惩罚估计的收敛率与变点检测的一致性。实证结果显示分解后的网络能揭示不同癌种情绪表达的异质性及时间演变模式。对您而言，本文的矩阵低秩分解与变点检测框架可作为高维统计与统计计算交叉的参考案例，但核心问题离您的主攻方向较远。
关键技术: low-rank matrix decomposition, structured penalized estimation, change point detection, network clustering, semantic network analysis
为什么对您有用: 本文属于在线健康社区文本数据的应用统计工作，与您的核心兴趣（因果推断、高维RMT、效率理论）无直接交集。矩阵低秩分解与变点检测虽与您的高维渐近理论及统计计算武器库有边际重叠，但本文的语义网络设定与惩罚估计路径并不触及RMT或tensor contraction的核心难题。暂不可做：本文缺乏因果或高维推断的切入点，若仅因低秩矩阵分解而展开阅读，投入产出比不高；如对在线社区文本分析本身有兴趣，可作为泛读了解数据结构与建模思路。

6. 10.1214/25-aoas2032 — Surrogate selection oversamples expanded T cell clonotypes¶

作者: Peng Yu, Yumin Lian, Elliot Xie, Cindy L. Zuleger, Richard J. Albertini, Mark R. Albertini et al.
期刊/来源: Annals of Applied Statistics
机构: University of Wisconsin–Madison · Howard Hughes Medical Institute · Janelia Research Campus · University of Vermont · William S. Middleton Memorial Veterans Hospital
分类: vol 19 · issue 3
相关性 1/10 · novelty: application
摘要: 本文研究免疫学中代理选择（surrogate selection）实验设计对T细胞克隆型样本的富集效应，目标参数为克隆型大小分布与多样性统计量的抽样性质。模型设定将克隆型内部的birth-death过程与跨克隆型的可交换模型耦合，刻画中性突变与克隆扩张的关联。理论部分推导了样本多样性统计量（如克隆型频率）在该耦合模型下的抽样分布与渐近性质，并提出衡量体细胞基因组改变负担的新统计量。实证部分在黑色素瘤代理选择数据与单细胞T细胞库数据中验证了富集效果与统计量表现。对您而言，本文主要作为流行病学/免疫学队列数据的应用案例，方法学novelty偏应用建模而非一般性理论。
关键技术: birth-death process, exchangeable model across clonotypes, sample diversity statistics, surrogate selection design, sampling distribution derivation
为什么对您有用: 本文属于流行病学/免疫学应用，连接到secondary interest中的epidemiology数据集与建模，但核心是生物机制驱动的birth-death+可交换模型，而非您primary中的因果推断或高维/半参数效率工具。武器库中very_familiar的nonparametric statistics与minimax bounds难以直接攻入此paper的口子，因为其理论是特定随机过程下的抽样性质而非一般估计/检验问题。follow-up判断：暂不可做——核心机器（birth-death过程的克隆型抽样理论）不在武器库中，且缺乏与因果/高维/半参数的直接接口，除非您有意进入免疫学统计建模方向。

7. 10.1214/25-aoas2041 — Integrated depth for trajectories of airborne microorganisms to Antarctica¶

作者: Lucas Fernandez-Piana, Ana Justel, Marcela Svarc
期刊/来源: Annals of Applied Statistics
机构: University of San Andrés · Universidad Autónoma de Madrid
分类: vol 19 · issue 3
相关性 1/10 · novelty: new_method
摘要: 本文研究从同一点出发的轨迹集合（花束形轨迹）的深度度量问题，应用背景为南极大微生物气溶胶传播路径。作者提出一种新的整合深度 (integrated depth) 度量方法：先在以公共点为圆心的同心圆上计算圆形局部深度 (circular local depths, LD)，再沿轨迹积分得到轨迹深度 𝒟。在温和条件下，LD 和 𝒟 具有良好性质且是强相合的。同时设计了高效算法以处理大规模数据集。最后将该方法应用于寻找携带微生物到南极半岛的主要气团路径。该工作对您的主要兴趣（非参数统计）有间接连接，但核心工具（功能数据深度）不在您的常规武器库中。
关键技术: functional depth, trajectory depth, circular local depth, strong consistency, efficient algorithm
为什么对您有用: （1）本文连接您的兴趣：非参数统计中的深度概念，但并非因果推断或高维方向；（2）您的非常熟悉武器库中的‘非参数统计’可直接理解其理论性质（强相合性），但无法直接迁移到您的因果推断或高维问题；（3）follow-up粗判：暂不可做——核心功能数据深度工具不在您的武器库中，且缺乏与您研究问题的直接接口。

8. 10.1214/25-aoas2057 · arXiv — CQUESST: A dynamical stochastic framework for predicting soil-carbon sequestration¶

作者: Dan Pagendam, Jeff Baldock, David Clifford, Ryan Farquharson, Lawrence Murray, Mike Beare et al.
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 3
相关性 1/10 · novelty: application
摘要: 本文提出CQUESST框架，用于土壤碳封存与循环的动态随机建模，并将其应用于长达十年的农业试验（Millenium Tillage Trial）。该试验包含42个地块、不同作物与耕作处理，CQUESST以贝叶斯动态多池模型为核心，将确定性RothC模型扩展为随机版本，每月模拟六个碳库的流动。模型融合多种观测类型的时间序列，并通过Stan概率编程语言实现，利用MapReduce并行化处理大量地块，计算可扩展至多节点集群。主要输出的统计推断包括不同处理下土壤碳周转率的估计，发现土壤碳分解速率随土地管理方式而变化。文章强调了不确定性量化（动力学、物理参数、观测误差）的重要性，但未涉及因果推断或高维统计方法。对您而言，本文属于跨领域的应用统计案例，在统计计算（Stan并行实现）上或有参考价值，但核心机制与您的primary interests（因果推断、半参效率、高维U-统计）关联较弱。
关键技术: Bayesian dynamic model, state-space model, RothC carbon model, Stan probabilistic programming, MapReduce parallelization, uncertainty quantification
为什么对您有用: 本文属于环境科学领域的应用统计工作，与您的primary interests（因果推断、高维统计、半参理论）无直接关联，但其中使用的Stan并行化实现（MapReduce）可与您technical_arsenal中的software development产生弱连接——您若对大规模贝叶斯计算的软件工程感兴趣，可借鉴其分布式计算模式。然而，该论文缺乏因果推断、效率理论或高维工具，且未提供可迁移的方法论创新，因此仅作为暂不可做的领域扩展阅读：若想深入土壤碳模型，需补充生态动力学与贝叶斯MCMC知识，不在您当前武器库内。

Maintained by 陈星宇 · Homepage · Source on GitHub