AoAS — Vol 19 Issue 4 · 2026-05-18¶

共 26 篇 · Annals of Applied Statistics

因果推断 (causal_inference, 2 篇)¶

1. 10.1214/25-aoas2076 — Time-varying mediation analysis for incomplete data with application to DNA methylation study for PTSD¶

作者: Kecheng Wei, Fei Xue, Qi Xu, Yubai Yuan, Yuexia Zhang, Guoyou Qin et al.
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 8/10 · novelty: new_method
摘要: 在纵向因果中介框架下，本文目标是估计创伤暴露通过DNA甲基化(DNAm)影响PTSD的时变中介效应，设定为时变结构方程模型(SEM)并需处理非单调缺失数据。针对非单调缺失模式，提出利用重复测量间依赖关系的纵向多重插补(LMI)方法；并采用广义矩估计(GMM)整合多重插补结果，以获得时变中介效应的一致估计。模拟表明该方法在多种纵向设定下优于现有方法，DNHS流行病学数据分析识别出若干具有动态中介效应的CpG位点。对您有用：该文将纵向中介分析与GMM结合，为处理流行病学队列非单调缺失的因果中介问题提供了可迁移的LMI计算框架与实际数据集参考。
关键技术: time-varying structural equation model, longitudinal multiple imputation (LMI), generalized method of moments (GMM), nonmonotone missing data, longitudinal mediation analysis
为什么对您有用: 直接关联您 primary interest 中的 longitudinal mediation 与 secondary interest 中的 epidemiology application；提供了处理流行病学队列非单调缺失数据的 GMM+LMI 框架及实际数据集参考。

2. 10.1214/25-aoas2081 — Simultaneous adjustment of nonignorable verification bias and imperfect gold standard bias in diagnostic test studies, with an application to Alzheimer’s disease detection¶

作者: Qianchen Tai, Xiao-Hua Zhou
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 5/10 · novelty: new_method
摘要: 在诊断试验评估中，当参考标准不完美且仅在非代表性子群体中验证（缺失机制依赖未知疾病状态）时，会同时产生 imperfect gold standard bias 与 nonignorable verification bias，本文旨在该设定下估计 ROC 曲线与 AUC。作者利用 APOEϵ4 等位基因作为工具变量（IV），构建了一个无需已知参考标准准确度的可识别半参数模型。基于此识别框架，推导了四种类型的 ROC/AUC 估计量，并严格证明了其一致性与渐近正态性。实证分析基于 NACC 阿尔茨海默病数据集，对 CST 测试提供了去偏评估。对您有用：本文展示了如何利用 IV 解决非随机缺失下的识别难题，属于因果推断（IV）与流行病学（AD 数据集）的交叉，其半参数识别策略可迁移至其他非随机缺失或部分识别场景。
关键技术: instrumental variable, nonignorable verification bias, semiparametric identification, ROC/AUC estimation, asymptotic normality
为什么对您有用: 直接连接到您的 primary interest 中的因果推断（IV 用于非随机缺失的识别）以及 secondary interest 中的流行病学（AD 数据集应用）；其利用 IV 实现半参数模型可识别性的策略，对处理非随机缺失问题具有方法学迁移价值。

非参数 / 半参数 (nonparam_semipara, 2 篇)¶

1. 10.1214/25-aoas2087 — Seemingly unrelated Bayesian additive regression trees for cost-effectiveness analyses in healthcare¶

作者: Jonas Esser, Mateus Maia, Andrew C. Parnell, Judith E. Bosmans, Johanna Maria van Dongen, Thomas Klausch et al.
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 3/10 · novelty: new_method
摘要: 在医疗成本效益分析设定下，本文针对多个相依结果变量（如成本与生命质量）的联合建模，提出了多变量扩展的贝叶斯加性回归树（SUBART）。该框架允许连续或二元结果，突破现有多变量BART限制，使每个响应变量关联不同树集成，同时通过误差协方差处理结果间依赖性（连续时为非参数似不相关回归，二元时为非参数多元Probit）。方法给出了可解释的先验分布，并详细推导了后验推断的MCMC采样算法。模拟与卫生经济学实证表明模型表现良好，且结合倾向得分完成了创伤护理干预的因果评估。对您而言，该文在多结果非参数建模与MCMC计算（统计计算）方面有参考价值，且提供了卫生经济学与因果推断结合的应用案例。
关键技术: Bayesian additive regression trees (BART), Seemingly unrelated regression, Multivariate probit model, MCMC sampling, Propensity score
为什么对您有用: 涉及多结果非参数建模与MCMC算法实现（统计计算），并结合倾向得分进行了卫生经济学中的因果评估（经济理论与流行病学应用），对多变量非参数回归的算法实现与因果应用有参考价值。

2. 10.1214/25-aoas2070 — Varying coefficients correlated velocity models in complex landscapes with boundaries applied to narwhal responses to noise exposure¶

作者: Alexandre Delporte, Susanne Ditlevsen, Adeline Samson
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 本文研究在复杂边界地形约束下动物运动对噪声暴露的行为响应，目标是估计船舶与气枪噪声对独角鲸运动轨迹的因果效应。提出了一种含变系数的连续时间相关速度模型（varying coefficient correlated velocity model），将空间边界约束嵌入运动方程，通过对比暴露前基线模型与暴露中响应模型来评估干预效应。变系数设定属于半参数框架，允许运动参数随空间位置非参数地变化；模型以连续时间随机过程（Ornstein-Uhlenbeck 型速度过程）为基础，结合地形边界修正。应用于 2018 年 Scoresby Sound 峡湾 GPS 数据，发现噪声暴露导致速度增加、运动持续性下降，且轨迹曲折度因空间约束而显著上升。对您而言，变系数半参数建模思路可迁移至其他带空间约束的因果效应估计场景，但本文方法学 novelty 偏应用层面，理论深度有限。
关键技术: varying coefficient model, continuous-time correlated velocity process, Ornstein-Uhlenbeck velocity model, spatial boundary constraints, pre-post exposure comparison
为什么对您有用: 变系数半参数模型与您 semiparametric theory 兴趣相关，pre-post 暴露对比框架有初步因果推断意味；但本文为生态学应用，理论贡献有限，主要价值在于变系数建模处理空间约束的思路可迁移借鉴。

统计计算 / 算法 (stat_computing, 11 篇)¶

1. 10.1214/25-aoas2036 — Bootstrapping the cross-validation estimate¶

作者: Bryan Cai, Yuanhui Luo, Xinzhou Guo, Fabio Pellegrini, Menglan Pang, Carl de Moor et al.
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 5/10 · novelty: new_method
摘要: 在交叉验证（CV）评估预测模型表现的设定下，目标是量化 CV 估计量的不确定性并构建总体模型表现参数的置信区间。现有推断方法通常依赖严格模型假设或面临直接 Bootstrap CV 的巨大计算挑战。本文提出一种快速 Bootstrap 方法，通过在随机效应模型框架下估计方差分量，巧妙规避了嵌套重抽样的计算瓶颈。该方法与 CV 过程本身一样灵活，能快速输出标准误估计与有效置信区间，无需额外模型假设。模拟与实际数据分析表明，该方法在保持计算效率的同时提供了可靠的覆盖率。对您有用：该方差分量快速 Bootstrap 法可直接迁移至您关注的 statistical computing 与 DML/cross-fitting 的不确定性量化中，为高维模型的 CV 误差比较提供计算高效的假设检验工具。
关键技术: cross-validation, fast bootstrap, random-effects model, variance component estimation, uncertainty quantification
为什么对您有用: 该方法解决了 CV 估计量推断的计算瓶颈，与您 primary interest 中的 statistical computing 和 efficiency theory (DML/cross-fitting 的不确定性量化) 直接相关，为模型比较提供了计算高效的假设检验方案。

2. 10.1214/25-aoas2064 — Averaging polyhazard models using Piecewise deterministic Monte Carlo with applications to data with long-term survivors¶

作者: Luke Hardcastle, Samuel Livingstone, Gianluca Baio
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 4/10 · novelty: new_method
摘要: 本文研究 polyhazard 模型（加性危险参数生存模型）的结构选择与联合推断问题，estimand 为多个潜在危险分量下的生存函数与参数，允许非比例危险且可外推至观察期外。核心方法是为模型结构（潜危险个数、各分量分布族、变量分配）设计先验，使结构与参数联合推断，后验为跨维（transdimensional）分布；采样方案采用 Piecewise Deterministic Markov Process（PDMP）族 MCMC，实现跨维后验采样且几乎无需用户调参。理论贡献主要是将 PDMP 采样推广至变维模型空间，实证在卒中幸存者与肾移植患者数据上展示了模型平均的预测改善。对您而言，PDMP 在跨维后验中的算法设计属于 statistical computing 方向的新方法，可迁移至其他变维贝叶斯推断场景；流行病学数据集也可作为 secondary interest 参考。
关键技术: Piecewise Deterministic Markov Process, transdimensional MCMC, polyhazard additive hazard model, Bayesian model averaging, long-term survivors cure model
为什么对您有用: PDMP 采样在跨维后验中的算法设计直接对应您 primary interest 中的 statistical computing（数值方法与算法）；流行病学应用数据集（卒中、肾移植）匹配您 secondary interest 的 epidemiology 数据需求。

3. 10.1214/25-aoas2098 — Dynamic prediction with penalized joint frailty model of high-dimensional recurrent event data and a survival outcome¶

作者: Jiehuan Sun
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 4/10 · novelty: new_method
摘要: 在高维重复事件与生存结局的联合建模设定下，本文目标是筛选出与生存结局相关的重复事件并进行动态预测。作者提出惩罚联合脆弱模型（penalized joint frailty model），对两类子模型均采用比例风险假设，并通过 adaptive lasso 惩罚似然实现高维重复事件的变量选择。为解决高维积分带来的计算瓶颈，开发了基于高斯变分近似推断（Gaussian variational approximate inference）的高效算法，并配套 R 包 PJFM。仿真与 2 型糖尿病 EHR 数据实证表明该方法在变量选择一致性与预测精度上表现良好。该文的变分推断计算策略对您处理高维纵向/重复事件数据的算法设计有参考价值，其 EHR 数据集也可作为流行病学因果推断方法的测试床。
关键技术: joint frailty model, adaptive lasso, Gaussian variational approximate inference, proportional hazards model, dynamic prediction
为什么对您有用: 涉及高维重复事件（纵向）数据的变量选择与统计计算（变分推断），且包含流行病学 EHR 数据集，对您在纵向因果推断或高维统计计算方向的算法设计有参考价值，数据集可复用。

4. 10.1214/25-aoas2101 — Probabilistic inversion modeling of gas emissions: A gradient-based MCMC estimation of Gaussian plume parameters¶

作者: Thomas Newman, Christopher Nemeth, Matthew Jones, Philip Jonathan
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 2/10 · novelty: new_method
摘要: 在温室气体排放逆建模中，目标是基于浓度观测估计排放源位置与强度；传统方法依赖大气稳定度分类的高斯烟羽模型，但错误分类会导致估计严重偏差。本文提出联合估计高斯烟羽模型的水平和垂直扩散参数、源特征、背景浓度及测量误差方差，避免了对固定稳定度分类的依赖。推断采用基于梯度的 MCMC（gradient-based MCMC）进行概率反演，以量化参数估计的不确定性并提升复杂参数空间的采样效率。模拟研究与 Chilbolton 甲烷释放数据集验证了该方法在减少偏差和不确定性量化上的实际收益。对您而言，该文展示了基于梯度的 MCMC 在物理模型反演中的计算实现，其逆问题框架与因果推断的 identification 有结构相似性，且数据集对环境流行病学应用有参考价值。
关键技术: probabilistic inversion, gradient-based MCMC, Gaussian plume model, joint parameter estimation, uncertainty quantification
为什么对您有用: 涉及统计计算（gradient-based MCMC）与逆问题推断，逆问题框架与因果推断 identification 有结构相似性，且提供的环境排放数据集对流行病学应用有参考价值。

5. 10.1214/25-aoas2065 — Heaping and seeping, GAITD regression and doubly constrained reduced-rank vector generalized linear models in smoking studies¶

作者: Thomas W. Yee, Luca Frigau, Chenchen Ma
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 2/10 · novelty: new_method
摘要: 本文针对大规模健康调查中自我报告数据常见的 heaping（堆聚）测量误差问题，提出了 GAITD（Generally Altered, Inflated, Truncated and Deflated）回归框架，用于对计数数据中因数字偏好（如取整至5或10的倍数）产生的尖峰与渗漏进行建模。同时提出双约束降秩 VGLM（DRR-VGLM），在降秩回归中引入线性约束以进一步简化降维结构，将两种方法联合应用于 NHANES 吸烟数据，研究吸烟起始年龄（SIA）与烟草消费量及吸烟时长的关联。GAITD 回归通过对计数分布的 alter/inflate/truncate/deflate 四种操作统一建模 heaping 与 seeping，DRR-VGLM 则在 VGLM 框架下实现带约束的降秩估计。实证结果表明较低 SIA 与较高烟草消费量相关，较高 SIA 与戒烟者较短吸烟时长相关。对您而言，GAITD 回归处理测量误差的参数化思路可迁移至流行病学因果推断中自报告变量的 measurement error 校正，DRR-VGLM 的约束降秩实现也涉及统计计算中 VGLM 数值算法的设计。
关键技术: GAITD regression, doubly constrained reduced-rank VGLM, heaping measurement error modeling, vector generalized linear models, count data regression
为什么对您有用: GAITD 回归为流行病学自报告数据的 heaping 误差提供了可操作的参数化校正方案，可辅助您在 epidemiology 应用因果推断中处理测量误差；DRR-VGLM 涉及 VGLM 数值算法与约束优化，与您 statistical computing 兴趣中的数值方法方向有方法学重叠。

6. 10.1214/25-aoas2084 — Network inference via approximate Bayesian computation. Illustration on a stochastic multipopulation neural mass model¶

作者: Susanne Ditlevsen, Massimiliano Tamborrino, Irene Tubikanec
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 2/10 · novelty: new_method
摘要: 本文针对耦合随机微分方程(SDE)的多变量时间序列网络推断问题，提出了一种改进的序列蒙特卡洛近似贝叶斯计算(SMC-ABC)算法，旨在估计癫痫发作前后的脑网络连接。方法核心包括：构建了一个6N维的SDE扩展随机Jansen and Rit神经质量模型；设计了可靠的数值分裂格式(numerical splitting scheme)来高效模拟该模型；在SMC-ABC中引入描述耦合方向存在与否的二值参数，显著减少了达到目标后验区域所需的模型模拟次数，降低了计算成本。实证结果显示该方法在模拟数据和真实多通道脑电图(EEG)数据上能有效揭示癫痫发作前与发作期的大脑活动差异。对您而言，其数值分裂格式与改进的SMC-ABC算法设计对统计计算（数值方法与算法）方向有直接借鉴意义，为高维耦合SDE的模拟与推断提供了可迁移的计算方案。
关键技术: sequential Monte Carlo ABC, coupled stochastic differential equations, numerical splitting scheme, neural mass model, network inference
为什么对您有用: 论文提出的数值分裂格式与改进SMC-ABC算法直接契合您在“统计计算（数值方法与算法）”方向的兴趣，为高维耦合SDE的模拟与贝叶斯推断提供了可迁移的计算方案。

7. 10.1214/25-aoas2094 — Online sequential leveraging sampling method for streaming autoregressive time series with application to seismic data¶

作者: Rui Xie, T. N. Sriram, Wei Biao Wu, Ping Ma
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 2/10 · novelty: new_method
摘要: 在流式自回归时间序列设定下，本文提出在线 Sequential Leveraging Sampling (SLS) 方法，目标是在数据流中仅选取一个连续数据块进行推断，以平衡估计精度与计算代价。SLS 块的起点由基于流式 leverage score 的随机机制确定，块大小则由序贯停止规则决定，从而实现数据缩减。理论方面，文章证明了在线最小二乘估计量在线性和非线性自回归设定下均具有渐近正态性，且 SLS 块提供了高效的样本利用。实证部分将 SLS 应用于 2023 土耳其-叙利亚地震双震数据和俄克拉荷马微震数据，展示了其识别地震事件及刻画时序依赖结构的能力。对您而言，SLS 的在线序贯采样机制与渐近正态性证明可为统计计算中流式算法设计提供思路，且地震数据的物理科学背景与 astrostatistics 的数据分析场景有相通之处。
关键技术: online leverage sampling, sequential stopping rule, streaming autoregressive models, asymptotic normality of OLS, data reduction for streaming data
为什么对您有用: 在线序贯采样算法属于统计计算中流式数值方法范畴，其 leverage score 机制与渐近理论证明对您在统计计算方向的算法设计有参考价值；物理科学（地震）数据集与分析范式与 astrostatistics 二级兴趣相通。

8. 10.1214/25-aoas2096 — Leveraging an observed-data likelihood improves the use of machine learning labels in a Bayesian hierarchical model for bioacoustic data¶

作者: Jacob K. Oram, Katharine M. Banner, Christian Stratton, Andrew Hoegh, Kathryn M. Irvine
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 2/10 · novelty: minor
摘要: 在贝叶斯分层模型框架下，研究如何利用机器学习预测标签（存在误分类）进行参数推断，目标参数为物种存在概率等生态参数，关键假设是存在一小部分人工验证的真实标签。核心方法是将人工验证标签与 ML 预测标签通过 observed-data likelihood (ODL) 联合建模，显式刻画误分类过程，替代传统的 MCMC data augmentation 方案。模拟表明，在验证集较小时，ODL 公式在计算速度上优于 data augmentation，同时降低了估计误差；文中还探讨了不同验证抽样设计（概率抽样方案）对推断的影响。方法学 novelty 有限——ODL 处理误分类在缺失数据文献中已有成熟理论，本文贡献在于将其迁移至 ML 标签场景并给出实用验证集设计建议。对您而言，若关注贝叶斯计算中 data augmentation vs ODL 的效率对比，或测量误差/误分类模型在因果推断中的计算策略，可作参考。
关键技术: observed-data likelihood, Bayesian hierarchical model, misclassification modeling, MCMC data augmentation, validation sampling design
为什么对您有用: 与您 statistical computing 兴趣（数值方法与算法效率）有弱关联：ODL 替代 data augmentation 提升贝叶斯计算速度的思路可迁移至因果推断中处理测量误差或潜变量的场景；但方法学 novelty 较低，主要价值在应用层面。

9. 10.1214/25-aoas2093 — Supervised learning of outcome-relevant items from a questionnaire via mixed integer optimization¶

作者: Leyao Zhang, Wen Wang, Mengtong Hu, Alan P. Baptist, Peng Wang, Peter X. K. Song
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: new_method
摘要: 在流行病学队列研究的问卷设定下，目标是识别与特定临床结局强相关的问卷条目子集，以构建最优汇总得分。方法基于混合整数规划（MIP）实现 best subset selection，具备选择一致性理论保证，并能灵活处理无应答缺失数据。估计不确定性通过噪声扰动（noise perturbation）方法进行分析。模拟与老年哮喘患者 QoL 问卷实证表明，该方法能提升统计功效与临床可解释性。对您可能有用：MIP 求解 best subset 的算法设计属于统计计算与数值优化范畴，且提供了流行病学队列数据的应用实例。
关键技术: mixed integer programming, best subset selection, selection consistency, noise perturbation, missing data handling
为什么对您有用: MIP 求解 best subset 的算法设计属于统计计算与数值优化范畴，同时该文提供了一个流行病学队列数据的应用案例，对关注统计计算数值方法与流行病学数据的研究者有一定参考价值。

10. 10.1214/25-aoas2106 — Statistical learning of trade credit insurance network data with applications to ratemaking and reserving¶

作者: Woongchae Yoo, Spark C. Tseung, Tsz Chai Fung
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 在贸易信用保险（TCI）网络数据设定下，目标是联合建模索赔概率与报告时间间隔，采用包含业务与保单层随机效应的双变量网络增强 GLMM。方法核心在于引入扩展阶度中心性捕捉网络关系，并针对个体随机效应导致的高维积分问题，提出可扩展的随机 EM（SEM）算法作为计算可行解。实证分析基于亚洲 TCI 保险公司六年数据，显示该模型在拟合与预测精度上显著优于基准模型。对您可能有用：其 SEM 算法处理 GLMM 高维积分的数值计算思路可迁移至统计计算方向，且数据集涉及经济网络结构，对经济理论应用有参考价值。
关键技术: bivariate GLMM, network-augmented model, extended-order degree centrality, Stochastic Expectation-Maximization (SEM), high-dimensional integration
为什么对您有用: 涉及统计计算（SEM算法处理高维积分）与经济应用（贸易信用网络数据集），对您在统计计算中的数值算法设计及经济理论的数据集应用有直接参考价值。

11. 10.1214/25-aoas2075 — Optimal robust strategies for accelerated life tests and fatigue testing of polymer composite materials¶

作者: I-Chen Lee, Ray-Bing Chen, Weng Kee Wong
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: new_method
摘要: 在加速寿命测试（ALT）设定下，针对聚合物复合材料疲劳测试中的模型参数不确定性，本文研究标准化 minimax 最优设计以替代依赖参数精确猜测的局部最优设计。方法核心是在参数的可能取值范围上构建 minimax 准则，从而在最坏情景下提供保护。针对该准则的不可微性与多层嵌套优化结构，作者提出结合粒子群优化（PSO）与局部搜索技巧的混合优化算法进行求解。数值实验表明，标准化 minimax 设计在效率与鲁棒性上均优于传统局部最优与贝叶斯最优设计。对您而言，本文在统计计算（特别是处理不可微嵌套优化的混合启发式算法）方面有参考价值，但核心属于实验设计，与高维/半参数推断理论距离较远。
关键技术: minimax optimal design, accelerated life testing, particle swarm optimization, nested optimization, standardized minimax criterion
为什么对您有用: 涉及统计计算中的复杂不可微嵌套优化算法（PSO混合策略），对您在统计计算（数值方法与算法）方面的兴趣有间接参考价值，但核心属于实验设计领域，与推断理论距离较远。

经济理论 / 应用 (econ_theory, 3 篇)¶

1. 10.1214/25-aoas2073 — Bayesian group-shrinkage based estimation for panel vector autoregressive models with mixed frequency data¶

作者: Nilanjana Chakraborty, Kshitij Khare, George Michailidis
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 4/10 · novelty: new_method
摘要: 针对混频面板向量自回归（VAR）模型，目标是在放松现有贝叶斯方法严格系数融合假设下，跨实体借力估计 VAR 系数并捕捉实体间异质性。提出基于组收缩先验（group-shrinkage prior）的贝叶斯估计方法，通过引入实体间协方差矩阵参数来学习实体间的相依结构，而非强制参数相等。理论上建立了该贝叶斯方法的后验收缩性质（posterior contraction）。实证部分利用美国州级就业指数与欧洲宏观经济指标等混频数据集验证了方法的有效性。对您而言，该文提供了宏观经济混频数据集与面板 VAR 模型，其高维贝叶斯组收缩与协方差矩阵估计技术可为您在经济理论应用或高维统计计算方向提供参考。
关键技术: panel VAR, mixed frequency data, Bayesian group-shrinkage prior, inter-entity covariance matrix, posterior contraction
为什么对您有用: 匹配您在 secondary interest 中的经济理论（模型、数据集、应用），同时其高维贝叶斯组收缩先验与协方差矩阵估计对您的高维统计与统计计算兴趣有方法借鉴价值。

2. 10.1214/25-aoas2095 — Simple macroeconomic forecast distributions for the G7 economies¶

作者: Friederike Becker, Fabian Krüger, Melanie Schienle
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 本文提出一种基于IMF点预测与历史预测误差经验分布的简单方法，用于预测G7经济体产出增长与通胀的分布，并施加跨期限的预测区间一致性约束。核心机制利用稳健统计量从历史误差中提取分布特征，避免了复杂时序模型的依赖，从而生成校准的预测区间。实证结果表明，该方法在校准度和统计损失函数上表现与复杂模型相当或更优。作者同步发布了包含图形展示的网站及带有时间戳的实时数据文件，确保了预测的可复现性与实时性。对您而言，该文主要价值在于提供了G7宏观经济的实时预测数据集，可用于经济理论方向的实证分析，但方法学新颖度较低。
关键技术: empirical forecast error distribution, robust statistics, prediction interval coherence, calibrated forecasting
为什么对您有用: 匹配您secondary interest中的经济理论（数据集、应用），提供了G7宏观经济的实时预测数据集；但方法学上较为简单，缺乏您关注的因果推断或高维理论深度。

3. 10.1214/25-aoas2069 — Media bias and polarization through the lens of a Markov switching latent space network model¶

作者: Roberto Casarin, Antonio Peruzzi, Mark F. J. Steel
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 本文针对时变在线受众重复网络，提出一种带有马尔可夫切换动态的潜空间网络模型，以推断媒体偏见与极化。该模型结合网络数据与文本指标构建了新的媒体偏见度量，并利用马尔可夫切换机制捕捉极化体制以保持参数简约性；理论方面补充了潜空间网络模型的统计性质。基于2015-2016年四国新闻媒体数据的实证表明，所提偏见度量与外部基准高度正相关，并揭示了各国极化体制差异。对您而言，该文提供了政治经济学视角的网络数据集与潜空间建模思路，可作应用参考，但方法学理论深度相对有限。
关键技术: dynamic latent space model, Markov-switching dynamics, audience-duplication network, Bayesian inference, text-based indicator
为什么对您有用: 属于经济理论（政治经济学）的应用与模型构建，提供了媒体偏见的网络数据集与潜空间建模思路；但缺乏您关注的半参数/效率理论或因果推断深度，方法学新颖度偏应用。

流行病学 (epidemiology, 3 篇)¶

1. 10.1214/25-aoas2077 — Exploring spatiotemporal variation in Covid-19 waves: Non-Euclidean spatially aware functional registration¶

作者: Luke A. Barratt, John A. D. Aston
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 3/10 · novelty: new_method
摘要: 本文研究英国380个地方行政区2020年3月至6月每日SARS-CoV-2发病率曲线的时空变异，目标是估计各波次的相位变异（warping/registration函数）。核心方法将传统局部变异分析（local variation analysis）的函数注册方法扩展以纳入空间依赖，并通过模拟证明其相较非空间方法在注册函数估计上有显著提升。针对驾驶时间这一非欧空间度量导致传统空间框架失效的问题，作者借鉴多维标度（MDS）将驾驶时间近似为欧氏距离，从而使已有空间理论得以适用。最终对估计的warping过程提取泛函，定量刻画各波次的早晚与陡缓。方法学上属于函数数据分析中的非参数注册扩展，对您在流行病学队列数据的时空建模有参考价值，但与proximal CI或效率理论等核心方向关联较弱。
关键技术: functional registration, local variation analysis, multidimensional scaling, non-Euclidean spatial modeling, spatiotemporal functional data
为什么对您有用: 属于流行病学应用（secondary interest），提供了英国380个地区COVID-19时空数据集及非欧距离下函数注册的MDS近似技巧，对处理流行病学时空数据的空间依赖建模有方法迁移价值。

2. 10.1214/25-aoas2112 — Joint modeling for learning decision-making dynamics in behavioral experiments¶

作者: Yuan Bian, Xingche Guo, Yuanjia Wang
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 在重度抑郁症（MDD）流行病学行为实验设定下，目标是联合建模奖赏决策与反应时间，假设决策在“参与”与“游离”两种潜在策略间切换。提出整合强化学习（RL）与漂移扩散模型（DDM）的联合框架，并用隐马尔可夫模型（HMM）刻画状态切换：参与态遵循RL-DDM，游离态用简化DDM近似随机猜测。计算上采用广义EM算法结合前向-后向过程进行高效参数推断。模拟与EMBARC数据应用表明，该方法在多种奖赏分布与策略切换场景下优于竞争方法，并揭示MDD患者参与度更低且反应时间更长。对您可能有用：该文提供了流行病学行为数据集与潜变量建模案例，广义EM算法实现可作统计计算参考，但缺乏因果推断或半参数理论深度。
关键技术: reinforcement learning model, drift-diffusion model, hidden Markov model, generalized EM algorithm, forward-backward procedure
为什么对您有用: 匹配您在流行病学（应用与数据集）上的次要兴趣，提供了EMBARC临床行为数据集与潜变量建模案例；广义EM算法的实现细节对统计计算有参考价值，但缺乏因果推断或半参数效率理论。

3. 10.1214/25-aoas2067 — Tree-regularized Bayesian latent class analysis for improving weakly separated dietary pattern subtyping in small-sized subpopulations¶

作者: Mengbing Li, Briana Stephenson, Zhenke Wu
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 在小样本亚群设定下，潜在类别模型（LCM）推导的饮食模式常因类别间弱分离（weak separation）导致数值与推断不稳定，本文提出树正则化贝叶斯LCM以改善模式估计。核心机制是通过Dirichlet扩散树过程为类别间的未知树结构指定先验，使得在树中邻近的饮食模式向祖先模式收缩。收缩程度在预设的食物组间可变，从而在有限数据下实现类别间的统计强度共享（shrinkage）。实证分析基于Hispanic Community Health Study/Study of Latinos中496名南美裔美国人的饮食摄入数据，识别并比较了饮食模式。对您而言，本文提供了一个流行病学队列数据集的应用案例，但方法学上主要限于贝叶斯先验正则化，对您关注的因果推断或半参数效率理论贡献较小。
关键技术: Bayesian latent class model, Dirichlet diffusion tree process, tree-regularized prior, shrinkage estimation, weak separation
为什么对您有用: 匹配您在流行病学（应用与数据集）上的次级兴趣，提供了HCHS/SOL数据集的贝叶斯潜类别分析案例，但方法学novelty偏向贝叶斯先验构造，对因果推断或效率理论无直接推进。

其他 (other, 5 篇)¶

1. 10.1214/25-aoas2090 — Improving accuracy in cell-perturbation experiments by leveraging auxiliary information¶

作者: Jackson Loper, Noam Solomon, Jeffrey Regier
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 3/10
摘要: { "topic": "hypothesis_testing", "summary_zh": "在细胞扰动实验中，目标是估计基因在数百种刺激下的上调/下调效应，但高实验噪声导致传统无正则化估计器频繁出现符号错误（type S error）。提出一种结合高斯过程与因子分析的新估计器，利用处理间辅助信息（如药物化学相似性）构建协方差结构以降低方差，代价是引入偏差。由于缺乏ground truth无法直接评估精度，进而提出一种新颖的数据分割方法：利用"sign-valid"估计器（正确符号概率>0.5的性质）构造有效的误差界。在多个案例研究中，新估计器实现了type S error约三倍降低，验证了偏差-方差权衡的优越性。对您在hypothesis testing方向有参考价值，sign-valid概念与数据分割误差界方法可迁移至其他缺乏ground truth的因果推断设定（如proximal CI中negative control的符号检验）。", "key_techniques": ["Gaussian process regression", "factor analysis", "type S error", "sign-valid estimator", "data-splitting error bound", "bias-variance tradeoff"]

2. 10.1214/25-aoas2107 — Inference on the state process of periodically inhomogeneous hidden Markov models for animal behavior¶

作者: Jan-Ole Koslik, Carlina C. Feldmann, Sina Mews, Rouven Michels, Roland Langrock
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 2/10 · novelty: application
摘要: 本文研究周期性非齐次隐马尔可夫模型（HMM）的状态过程推断问题，设定为转移概率随周期（如昼夜）变化的 HMM。作者推导了该模型下周期性变化的无条件状态分布的解析形式。同时，给出了时变与总体的状态停留时间（dwell-time）分布的显式表达，这些量为状态动态的统计推断与模型检验提供了核心工具。方法上侧重于周期性转移矩阵的解析性质推导，而非半参数或高维渐近理论。实证部分将所提推断工具应用于果蝇昼夜活动模式对光照变化的响应分析。对您而言，本文主要属于统计生态学的应用与模型解析推导，与您关注的因果推断、高维/半参数效率界等核心方向关联较弱。
关键技术: periodically inhomogeneous HMM, state dwell-time distribution, unconditional state distribution, model checking, statistical ecology
为什么对您有用: 本文属于统计生态学中非齐次 HMM 的解析推导与应用，与您关注的因果推断、高维/半参数理论及效率界等核心方向基本无直接关联，仅作为马尔可夫过程推断的远端参考。

3. 10.1214/25-aoas2097 — Joint identification of spatially variable genes via a network-assisted Bayesian regularization approach¶

作者: Mingcong Wu, Yang Li, Shuangge Ma, Mengyun Wu
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 本文针对空间转录组数据中空间变异基因的联合识别问题，提出基于图 Laplacian 正则化的贝叶斯变量选择方法，estimand 为基因的空间变异性指标，假设基因间存在已知网络结构且 spot 内细胞组成构成混杂。模型采用 zero-inflated negative binomial 似然处理计数数据的零膨胀与过离散，通过 thresholded graph Laplacian 正则化同时实现基因选择与网络结构借用，并对细胞组成混杂进行校正。后验推断依赖 MCMC 采样，理论上未给出频率式收敛率或效率界。模拟与真实数据表明相比边际方法有竞争力。对您而言，本文方法学新颖性有限——虽涉及 confounding 校正与正则化，但非因果推断或高维理论框架下的贡献，主要可借鉴图正则化建模思路。
关键技术: graph Laplacian regularization, zero-inflated negative binomial, Bayesian variable selection, MCMC posterior sampling, confounding correction for cellular composition
为什么对您有用: 本文与您的主要研究方向（因果推断、高维RMT、半参数效率）重叠较少；confounding 校正与正则化虽有词汇重叠，但技术路线差异大，阅读收益有限，仅可略览图正则化在生物网络中的建模写法。

4. 10.1214/25-aoas2104 — Constrained mixture-of-mixture model with application to keystroke dynamics¶

作者: Andrew Simpson, Semhar Michael
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 1/10 · novelty: application
摘要: 本文研究无监督场景下的击键动态分析问题，目标是在未知每次击键真实用户的情况下进行身份识别。核心挑战在于混合模型成分与用户之间非一一对应，且同一会话内的击键来自同一用户。作者提出约束型 mixture-of-mixture 模型，通过层次结构同时刻画成分-用户的多对多关系和会话级分组约束。方法在模拟实验和 CMU 击键数据集上展示了较好的无监督聚类表现。该文属于应用统计建模，方法学 novelty 有限，与您关注的 semiparametric efficiency、causal inference 等核心方向无直接交集。
关键技术: finite mixture model, mixture-of-mixture model, EM algorithm, session-level constraint, unsupervised clustering
为什么对您有用: 与您的主要兴趣方向（causal inference、semiparametric efficiency、RMT 等）及次要方向（astrostats、econ、epi）均无直接关联；仅 mixture model 的计算层面与 stat_computing 有微弱重叠，收益极低。

5. 10.1214/25-aoas2079 — Expected points above average: A novel NBA player metric based on Bayesian hierarchical modeling¶

作者: Benjamin Williams, Erin M. Schliep, Bailey K. Fosdick, Ryan Elmore
期刊/来源: Annals of Applied Statistics
分类: vol 19 · issue 4
相关性 0/10 · novelty: application
摘要: 本文在贝叶斯层次模型框架下提出两个新的篮球指标：基于球队的“期望得分”和评估球员的“平均期望得分差(EPAA)”。利用后验预测分布，根据球队和球员的投篮倾向与能力进行聚类分析。实证部分展示了过去十年前100名投篮球员的指标表现，并将 EPAA 与传统指标（球员效率值 PER 和 Box Plus/Minus）进行了对比。此外，作者开发了 Shiny 网页应用以支持交互式的球队与球员比较。该工作主要贡献在于应用层面的指标构建与计算实现，缺乏深层理论创新。对您而言，本文与核心的因果推断、高维统计或效率理论兴趣关联较弱，仅在贝叶斯计算实现或应用建模思路上具有极微弱的参考价值。
关键技术: Bayesian hierarchical modeling, posterior predictive distribution, model-based clustering, Shiny web application
为什么对您有用: 本文属于体育统计应用，与您核心的因果推断、高维/非参数理论及效率理论兴趣基本无重叠；仅在统计计算（Shiny交互式应用开发）方面有极微弱的参考价值。

Maintained by 陈星宇 · Homepage · Source on GitHub