AoAS — Vol 18 Issue 3 · 2026-06-19¶

共 34 篇 · Annals of Applied Statistics
目录核对 ⚠️ 疑似漏 9 篇（对照 OpenAlex 43 篇）：10.1214/24-aoas1873、10.1214/24-aoas1900、10.1214/24-aoas1893、10.1214/23-aoas1866、10.1214/24-aoas1875 等

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

本期论文呈现出三条明确的方法主线：因果识别与效率、半参数/非参数建模与推断、高维/张量结构与计算，另有假设检验与流行病学应用等散点支撑。因果主线聚焦于特定设定下的偏倚结构与效率提升，涵盖MR与中介整合（IMMA）、计数结局因果均值比（IPTW/DR）、以及DiD前匹配的偏倚解析；半参数/非参数主线广泛处理删失、纵向与网络等复杂数据结构，涉及区间删失协变量回归（NPMLE）、多状态与非参数纵向联合建模、动态网络半参数形状不变估计、以及混合数据部分关联的surrogate方法；高维与计算主线则关注降维与在线推断，包括联合图马蹄（ECM）、张量流GLRT变点检测、以及贝叶斯稀疏VAR-HSMM。

因果推断主线本期着重拆解关键假设违背下的偏倚机理与数据融合策略。在DiD设定中，“匹配前匹配”一文在线性结构模型下解析了匹配预处理结果带来的偏倚权衡：部分平衡未观测混杂的收益与回归到均值注入偏倚的成本，给出了偏倚的解析表达与启发式指南；在MR与中介交叉领域，“IMMA”框架将GWAS summary statistics的总效应估计与个体数据中介分析融合，以识别direct/indirect effect并处理exposure-mediator interaction；针对观察性计数结局，“因果均值比”一文在过度离散与零膨胀设定下比较了IPTW、参数g-formula与双重稳健估计量的有限样本表现，推荐适当假设下的DR估计。

半参数/非参数主线本期集中推进复杂数据结构下的灵活建模与渐近有效性。针对区间删失协变量，“NPMLE”一文采用ReLU连接与Cox参数化，证明了回归参数估计的渐近有效性；“多状态与非参数纵向联合建模”通过共享潜在过程耦合Cox转移强度与样条/核纵向轨迹；“动态网络半参数估计”在动态SBM中引入形状不变模型，同时估计时间偏移与聚类标签，给出了可识别性条件；此外，“surrogate部分关联”突破潜变量结构假设，将混合尺度变量残差映射至统一连续尺度以定义广义Kendall's tau。

对因果推断与半参数效率方向最贴的论文为：解析DiD匹配偏倚权衡的“匹配前匹配”、实现区间删失下渐近有效估计的“NPMLE”、以及推荐计数结局DR估计的“因果均值比”；高维与在线推断方向则优先关注联合图马蹄的“ECM”与张量流GLRT变点检测。

因果推断 (causal_inference, 3 篇)¶

1. 10.1214/24-aoas1901 — Integrating Mendelian randomization with causal mediation analyses for characterizing direct and indirect exposure-to-outcome effects¶

作者: Fan Yang, Lin S. Chen, Shahram Oveisgharan, Dawood Darbar, David A. Bennett
期刊/来源: Annals of Applied Statistics
机构: Tsinghua University · Chicago Department of Public Health · University of Chicago · Rush University Medical Center · University of Illinois Chicago
分类: vol 18 · issue 3
相关性 8/10 · novelty: new_method
摘要: 在因果中介与 Mendelian randomization (MR) 结合框架下，目标是估计暴露对结局的 direct 与 indirect effect，核心假设为标准 IV 假设与中介 no-unmeasured-confounding 假设。本文提出 IMMA 框架，将基于大规模 GWAS summary statistics 的 MR 总效应估计，与基于有限个体数据的中介分析（direct/indirect effect）进行整合。IMMA 模型涵盖了 exposure-mediator interaction 与 study heterogeneity 等场景，通过融合两种数据源提升了 direct/indirect effect 的估计精度与检验功效，并刻画了效应的异质性。实证分析发现房颤 (AF) 对阿尔茨海默病有显著正 direct effect（不通过口服抗凝药），而 AF 诱导的抗凝药使用则有显著负 indirect effect（降低痴呆风险）。对您有用：本文直接连接因果推断中的 IV (MR) 与 mediation 方向，展示了 summary-data 与 individual-data 融合估计的路径。
关键技术: Mendelian randomization, causal mediation analysis, GWAS summary statistics integration, exposure-mediator interaction, study heterogeneity modeling, sensitivity analysis for IV-mediation assumptions
为什么对您有用: 本文直接连接因果推断中的 IV (MR) 与 mediation 子方向，属于流行病学队列的 IV+中介应用。从技术武器库看，您在 identification theory 与 estimation theory in causal inference (very_familiar) 上可以直接审视其 no-interaction 与 homogeneity 假设的 identification 逻辑，并用 semiparametric theory (moderately_familiar) 探究其 estimator 是否达到 semiparametric efficiency bound。Follow-up 判断：中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以推导融合 summary 与 individual data 下 direct/indirect effect 的 efficient influence function 与潜在 debiased ML 改进。

2. 10.1214/24-aoas1874 · arXiv — Exposure effects on count outcomes with observational data, with application to incarcerated women¶

作者: Bonnie E. Shook-Sa, Michael G. Hudgens, Andrea K. Knittel, Andrew Edmonds, Catalina Ramirez, Stephen R. Cole et al.
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 8/10 · novelty: application
摘要: 本文关注观察性研究中计数结局（count outcome）的点暴露因果效应估计，目标 estimand 为因果均值比（causal mean ratio），即暴露下反事实均值与未暴露下反事实均值之比。方法方面，作者考虑了基于逆概率治疗加权（IPTW）、参数 g-formula 以及双重稳健估计（doubly robust estimation）三类估计量，并允许结局存在过度离散（overdispersion）、零膨胀（zero-inflation）和堆积（heaping）等常见特征。模拟研究比较了各方法在有限样本下的表现，推荐在适当识别假设下使用双重稳健估计。最后将方法应用于妇女机构间 HIV 研究（WIHS）数据，估计监禁对性伴侣数及吸烟数量的影响。该论文是计数结局因果推断方法的落地应用，直观展示了在流行病学队列中如何处理 count outcome 的偏态分布。对您而言，其中的双重稳健估计思路可联系到您熟悉的因果推断估计理论，且零膨胀/堆积的处理方式对您潜在的流行病学合作项目有直接参考价值。
关键技术: inverse probability of treatment weighting (IPTW), parametric g-formula, doubly robust estimation, causal mean ratio, zero-inflated models, heaping
为什么对您有用: 本文属于流行病学队列的因果推断应用，直接对应您的 secondary interest——流行病学中的因果推断应用。您 very_familiar 中的 'estimation theory in causal inference' 可帮助您深入理解双重稳健估计在 count outcome 下的有限样本表现；moderately_familiar 中的 'identification theory' 可用于审视其识别假设（如无未测量混杂、正性假设）在实际数据中的可信性。立即可做：您现有的因果推断工具包足以模拟并扩展其方法（例如引入更高阶的稳健估计或敏感性分析）。

3. 10.1214/24-aoas1872 · arXiv — Benefits and costs of matching prior to a difference in differences analysis when parallel trends does not hold¶

作者: Dae Woong Ham, Luke Miratrix
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 7/10 · novelty: new_theory
摘要: 在差分中差分（DiD）框架下，平行趋势假设是关键识别假设，但实际应用中常被违背。本文在线性结构模型中引入时不变观测与未观测混杂，且允许混杂效应随时间变化，系统刻画了匹配处理组与对照组后使用DiD的偏倚结构。匹配基线协变量普遍降低偏倚，而额外匹配预处理结果则产生权衡：一方面部分平衡未观测混杂（收益），另一方面通过回归到均值效应注入偏倚（成本），偏倚的净效应取决于结果变量的可靠性（reliability）。作者推导了偏倚的解析表达式，并基于此提供启发式指南以判断匹配的收益是否超过成本。最后通过校长离职研究的再分析展示指南的实用性。对您有用：该工作直接服务于因果推断中DiD方法的敏感性与稳健性分析，尤其涉及匹配与纵向数据的结合，与您对identification和估计理论的兴趣高度吻合。
关键技术: Difference-in-Differences, Matching, Bias decomposition, Linear structural model, Unobserved confounding, Regression to the mean
为什么对您有用: 1）本文关注DiD中平行趋势不成立时的匹配策略，直接对应您primary interest中的因果推断、DiD与敏感性分析的具体子方向。2）您非常熟悉的非参数统计与高维渐近工具可用于检验其线性假设的稳健性，或将其偏倚分解推广至更一般的半参数设定。3）中期可做：需先在moderately_familiar的semiparametric theory上长肌肉，才能严格处理未观测混杂的非线性效应及非参数识别条件。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)¶

1. 10.1214/23-aoas1863 · arXiv — Scalable multiple network inference with the joint graphical horseshoe¶

作者: Camilla Lingjærde, Benjamin P. Fairfax, Sylvia Richardson, Hélène Ruffieux
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 7/10 · novelty: new_method
摘要: 本文在高斯图模型设定下，针对精度矩阵（逆协方差矩阵）的贝叶斯推断提出两项贡献。首先，针对现有的图马蹄估计器（graphical horseshoe）在维度过高时Gibbs采样计算不可行的问题，提出一种可扩展的期望条件最大化（ECM）算法，直接求解后验众数，避免了迭代采样的高计算成本。其次，将单网络图马蹄扩展为联合图马蹄估计器（joint graphical horseshoe），通过引入共享的边缘特异性参数，在多个相关网络之间借用信息以提高估计精度，同时保留网络间的异质性。在仿真和真实组学（eQTL）数据上，单网络ECM方法在保持与Gibbs采样同等准确性的前提下显著提升了可扩展性；联合网络方法在任意网络相似度下均优于现有多种方法。本文方法聚焦高维精度矩阵的可计算性与多网络联合推断，与您在高维统计与统计计算（特别是算法可扩展性）方面的兴趣直接相关，并且联合估计的思路可迁移至因果推断中的多环境或纵向网络分析。
关键技术: graphical horseshoe, ECM algorithm, joint graphical model, precision matrix estimation, Bayesian shrinkage, multiple network inference
为什么对您有用: 本文属于高维统计中的图模型推断，对应您primary interest中的'high-dimensional statistics'子方向，同时ECM算法的设计也契合'statistical computing'兴趣。技术武器库中的'inverse problems with random noise'（精度矩阵估计可视为逆问题）以及'软件发展'可直接用于复现或改进其算法实现。但本文偏应用，理论深度有限，若想进一步挖掘其一致性或收敛速率，需要补充高维图模型的理论工具（如稀疏精度矩阵的minimax率），这在您当前武器库中属于中等熟悉——可将其列为中期可做方向；立即可用的是将其ECM框架移植到其他贝叶斯图模型或结合因果结构学习。

非参数 / 半参数 (nonparam_semipara, 9 篇)¶

1. 10.1214/24-aoas1881 — Semiparametric linear regression with an interval-censored covariate in the atherosclerosis risk in communities study¶

作者: Richard Sizelove, Donglin Zeng, Dan-Yu Lin
期刊/来源: Annals of Applied Statistics
机构: University of North Carolina at Chapel Hill · University of Michigan
分类: vol 18 · issue 3
相关性 7/10 · novelty: new_method
摘要: 在纵向研究中，当中间事件发生时间受区间删失（interval-censored）时，目标是估计该事件发生时间对后续连续结局的线性回归系数。作者采用 ReLU 激活函数连接中间事件时间与结局，并对事件发生时间的分布使用 Cox 比例风险模型进行参数化。估计方面采用非参数极大似然估计（NPMLE），允许每个受试者有任意检查时间序列，并构造了适用于任意数据集的稳定收敛 EM 算法。理论结果表明，回归参数估计量具有一致性、渐近正态性，且达到渐近有效性（asymptotically efficient）。模拟与 ARIC 流行病学队列数据应用验证了方法实用性。对您而言，该文在区间删失下实现 semiparametric efficiency 的技术路径值得关注。
关键技术: interval-censored covariate, nonparametric maximum likelihood estimation, EM algorithm, Cox proportional hazards model, asymptotic efficiency, ReLU activation
为什么对您有用: 本文直接涉及 semiparametric efficiency theory（primary interest），在区间删失协变量这一非标准设定下证明了 NPMLE 的渐近有效性，与您熟悉的 semiparametric 理论和 influence function 工具直接对接；同时 ARIC 数据属于流行病学队列（secondary interest），提供了真实数据场景。用您 very_familiar 的 estimation theory in causal inference 和 moderately_familiar 的 semiparametric theory 可以审视其 efficient influence function 的构造与 EM 算法收敛性证明——立即可做：推导并验证其 claimed efficiency bound 是否紧。

2. 10.1214/24-aoas1889 — Joint modeling of multistate and nonparametric multivariate longitudinal data¶

作者: Lu You, Falastin Salami, Carina Törn, Åke Lernmark, Roy Tamura
期刊/来源: Annals of Applied Statistics
机构: University of South Florida · Lund University
分类: vol 18 · issue 3
相关性 7/10 · novelty: application
摘要: 本文针对疾病进展研究中常见的多状态转移问题，提出一个联合模型同时拟合多状态过程（如从风险状态进展到1型糖尿病）与多变量非参数纵向测量（如生物标志物）。设定数据来自TEDDY出生队列，包含多个时间点上的重复测量及状态转换记录。方法通过一个共享潜在过程将多状态模型与纵向子模型耦合，纵向部分采用非参数平滑（样条或核函数）刻画每个生物标志物的动态轨迹，无需指定参数形式。多状态转移强度通过Cox型比例风险模型参数化，链接到潜在过程。估计采用两阶段或全似然方法，通过模拟研究评估了有限样本表现。最后在TEDDY数据上展示了假设检验（组间转移率差异）和未来状态占用的预测能力。该工作为非参数纵向数据与多状态生存结果的联合建模提供了可操作的框架，对您处理纵向队列中的因果中介或过程推断（如流行病学中向结局的渐进过程）有直接参考价值。
关键技术: Multistate model, Nonparametric longitudinal smoothing, Joint modeling of longitudinal and survival data, Shared latent process, Simulation-based evaluation
为什么对您有用: 该论文直接对接您的次要兴趣——流行病学队列研究中的数据分析，包含多状态过程和纵向生物标志物的联合建模，可作为您将因果推断向疾病进展方向拓展的实证范例。您非常熟悉的非参数统计技术可用于审视其纵向平滑部分的偏差-方差权衡，或进一步扩展为半参数效率估计。立即可做：利用您熟练的非参数工具（如核函数选择、带宽自适应）分析该联合模型在识别条件下的最优收敛速度，或将其迁移至纵向因果中介场景（如将状态转移视为中间变量）。

3. 10.1214/23-aoas1870 — Semiparametric estimation for dynamic networks with shifted connecting intensities¶

作者: Zitong Zhang, Shizhe Chen
期刊/来源: Annals of Applied Statistics
机构: University of California, Davis
分类: vol 18 · issue 3
相关性 6/10 · novelty: new_method
摘要: 在动态网络设定下，目标是估计带有未知时间偏移（time shift）的节点聚类成员及连接强度，核心模型为动态随机块模型（dynamic SBM）并假设不同节点具有未观测的激活时间偏移。利用形状不变模型（shape-invariant model）的半参数方法，提出同时估计时间偏移、聚类标签与连接强度曲线的计算高效程序。理论部分给出了聚类成员与代表性连接强度的可识别性条件，估计程序依赖半参数形状约束而非参数化强度函数假设。仿真与斑马鱼运动神经回路数据实证揭示了神经元的不同角色与代表性连接行为。对您可能有用：本文的半参数形状不变估计框架与可识别性理论，直接关联您关注的半参数理论及估计效率。
关键技术: dynamic stochastic block model, shape-invariant model, semiparametric estimation, identifiability conditions, time shift alignment, network clustering
为什么对您有用: 本文直接关联您 primary interest 中的半参数理论：shape-invariant 模型是经典的半参数估计设定，其可识别性条件与估计效率分析可无缝对接您 moderately_familiar 的 M-estimation theory 与 semiparametric theory。您可用 very_familiar 的 minimax bounds 工具审视其估计率的紧性，或用 moderately_familiar 的 HOIF / semiparametric efficiency bound 检验其估计程序是否达到半参数有效界。Follow-up 判断：中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉（具体是 shape-invariant 模型的 influence function 推导），才能将效率理论工具切入此模型。

4. 10.1214/24-aoas1879 · arXiv — Surrogate method for partial association between mixed data with application to well-being survey analysis¶

作者: Shaobo Li, Zhaohu Fan, Ivy Liu, Philip S. Morrison, Dungang Liu
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 5/10 · novelty: new_theory
摘要: 在混合数据（连续、二值、有序）设定下，本文研究如何在调整协变量后度量部分关联（partial association），目标 estimand 为推广的 Kendall's tau。核心方法是 surrogate method：将不同尺度变量的残差随机性映射到统一连续尺度上生成 surrogate residual，从而在任意常用回归模型下定义残差。作者证明了该 surrogate residual 可用于评估部分关联，且无需假设原始结局变量具有潜变量结构，突破了此前 surrogate method 理论的局限。提出的广义 Kendall's tau 可同时度量边际与部分关联，并由此定义 moderation effect（部分与边际关联之差）。实证应用于 COVID-19 前后大学生幸福感调查数据，揭示了物理健康、孤独感等因素在疫情期间的显著 moderation 效应。对您可能有用：surrogate residual 的统一映射思路可为 semiparametric 模型中混合类型结局的残差构造提供新视角。
关键技术: surrogate residual, partial association, generalized Kendall's tau, mixed data modeling, moderation effect
为什么对您有用: 本文属于 semiparametric / nonparametric 理论范畴，核心贡献在于放宽 surrogate method 的潜变量假设，为混合结局变量的部分关联估计提供统一框架。您武器库中的 semiparametric theory（moderately_familiar）可直接攻入其理论缺口：当前广义 Kendall's tau 的效率界与最优估计问题尚未触及，用 semiparametric efficiency bound 工具可验证其估计是否达到 n^{-1/2}-CAN 及效率下界。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，推导混合尺度 surrogate residual 对应的 influence function 与效率界。

5. 10.1214/23-aoas1865 — Outcome-guided disease subtyping by generative model and weighted joint likelihood in transcriptomic applications¶

作者: Yujia Li, Peng Liu, Wenjia Wang, Wei Zong, Yusi Fang, Zhao Ren et al.
期刊/来源: Annals of Applied Statistics
机构: University of Pittsburgh
分类: vol 18 · issue 3
相关性 4/10 · novelty: new_method
摘要: 在高维转录组数据下，本文研究以临床结局为导向的疾病亚型识别问题，目标 estimand 是与特定疾病结局（如肺功能或生存）直接关联的潜在亚型标签，关键假设是基因表达存在多面聚类结构且非相关临床变量的基因信号可能主导无监督聚类。作者提出两种方法：基于生成模型的联合潜变量框架，以及基于加权联合似然（weighted joint likelihood）的方法，后者通过数据驱动的权重参数平衡结局关联似然与基因聚类分离似然。理论层面，生成模型在潜变量框架下给出似然推断，加权方法在独立验证集上泛化性更强但计算开销更大；模拟与肺癌、三阴性乳腺癌真实数据表明，结局导向聚类在亚型准确度、基因选择与结局关联上优于无监督方法。对您可能有用：该框架的高维潜变量似然推断与权重参数的优化计算，可视为 semiparametric M-estimation 在聚类设定下的变体，其计算瓶颈与统计-计算权衡值得从 stat_computing 角度审视。
关键技术: outcome-guided clustering, weighted joint likelihood, latent variable generative model, high-dimensional omics subtyping, EM algorithm, data-driven weight tuning
为什么对您有用: 本文连接了高维统计与 semiparametric M-estimation：潜变量生成模型与加权联合似然的推断属于 moderately_familiar 中的 M-estimation theory 范畴，权重参数的数据驱动选择涉及 stat_computing 中的数值优化与计算-统计权衡。从 technical_arsenal 看，very_familiar 的高维渐近理论可用来分析其基因选择一致性，moderately_familiar 的 M-estimation theory 可攻其似然推断的渐近性质。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以严格推导加权联合似然估计量的渐近分布与效率性质；若想切入其计算瓶颈的 stat-computational tradeoff 分析，则需补充低维多项式/计算复杂度下界工具。

6. 10.1214/24-aoas1883 — Bayesian joint modeling of high-dimensional discrete multivariate longitudinal data using generalized linear mixed models¶

作者: Paloma Hauser, Xianming Tan, Fang Chen, Ronald C. Chen, Joseph G. Ibrahim
期刊/来源: Annals of Applied Statistics
机构: University of North Carolina at Chapel Hill · SAS Institute (United States) · The University of Kansas Cancer Center
分类: vol 18 · issue 3
相关性 4/10 · novelty: new_method
摘要: 在癌症纵向随访设定下，目标是联合建模高维离散多变量重复测量数据，以识别症状低报告的相关因素。作者提出 Bayesian longitudinal GLMM (BLGLMM)，整合三项技术：低秩矩阵分解近似高维回归系数矩阵、稀疏因子模型捕捉多结局间依赖、随机效应刻画重复测量内相关。后验计算依赖定制 MCMC 算法。模拟与前列腺癌真实数据示例验证了方法实用性。对您而言，本文的高维系数矩阵低秩近似与稀疏因子结构可视为高维纵向因果/关联建模的一种贝叶斯降维路径，但理论深度有限。
关键技术: Bayesian generalized linear mixed model, low-rank matrix decomposition, sparse factor model, MCMC posterior computation, high-dimensional longitudinal data
为什么对您有用: 本文连接到纵向因果推断与高维统计的交叉地带：低秩矩阵分解与稀疏因子模型是处理高维多结局纵向数据的降维手段，与您熟悉的高维渐近理论有形式上的呼应。用您 very_familiar 的高维渐近 / minimax bound 视角，可以审视此贝叶斯低秩+稀疏先验在 frequentist 意义下的收敛率是否达到最优，这是中期可做的切入点——需先在 moderately_familiar 的 M-estimation theory 上补充贝叶斯非参数/半参数后验收敛率（如 posterior contraction rate）的专门工具才能严格推进。

7. 10.1214/24-aoas1877 — Probabilistic contrastive dimension reduction for case-control study data¶

作者: Didong Li, Andrew Jones, Barbara Engelhardt
期刊/来源: Annals of Applied Statistics
机构: University of North Carolina at Chapel Hill · Princeton University · Gladstone Institutes
分类: vol 18 · issue 3
相关性 4/10 · novelty: new_method
摘要: 在 case-control 数据设定下，目标是提取 foreground（case）相对于 background（control）独有的低维结构。本文提出 probabilistic contrastive PCA (PCPCA)，通过 contrastive likelihood 构建概率生成模型，统一了 PCA、PPCA 与 contrastive PCA。模型引入 tuning parameter 以权衡前景与背景信息的提取，文中给出了其理论选取原则与实践指南。PCPCA 相比现有 contrastive PCA 具备不确定性量化、对噪声与缺失数据的鲁棒性，并能从模型中生成 foreground-enriched 数据。仿真与基因组学（基因表达、蛋白表达、图像）实证表明该方法能有效识别 case 特异变异。对您可能有用：该概率降维框架为高维流行病学/基因组学 case-control 数据的探索性分析提供了带不确定性量化的工具。
关键技术: probabilistic PCA, contrastive likelihood, latent variable model, missing data imputation, tuning parameter selection
为什么对您有用: 本文连接到流行病学与基因组学 case-control 数据分析（secondary interest），属于应用导向的方法论文。技术层面，contrastive likelihood 的参数估计本质是 M-estimation，您可用 moderately_familiar 的 M-estimation theory 分析其渐近性质与效率；其 tuning parameter 的理论选取目前偏启发，用 very_familiar 的 minimax bounds 工具可尝试给出更严格的选取准则。Follow-up 判断：中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉以攻其渐近理论缺口。

8. 10.1214/24-aoas1878 — Modeling curves and derivatives as predictors for traffic breakdown probabilities¶

作者: Jeng-Min Chiou, Pai-Ling Li
期刊/来源: Annals of Applied Statistics
机构: National Taiwan University · Tamkang University
分类: vol 18 · issue 3
相关性 4/10 · novelty: new_method
摘要: 在广义函数线性回归设定下，目标是利用交通速度轨迹及其前两阶导数作为函数预测变量，预测短时段内交通拥堵（breakdown）概率。关键挑战在于导数不可直接观测，需从离散数据估计；作者对每个函数预测变量（轨迹及各阶导数）分别采用 Karhunen–Loève 展开，并将回归模型重参数化以同时刻画整合回归效应与预测变量特定效应，对应权重参数指示各效应重要性。理论部分给出了导数函数主成分估计量与回归参数函数的一致性（consistency）结果。模拟与高速公路真实数据表明，引入速度轨迹导数作为预测变量有效提升了预测精度。对您可能有用：本文将函数主成分分析扩展至导数域并重参数化系数函数，与您 semiparametric / nonparametric theory 中对 sieve / RKHS 估计一致性的关注直接相连。
关键技术: generalized functional linear regression, Karhunen-Loève expansion, derivative functional principal component analysis, reparameterized regression effect, consistency of FPC estimators
为什么对您有用: 本文连接到您 primary interest 中 semiparametric / nonparametric theory 的函数数据估计一致性子方向；您 technical_arsenal 中 very_familiar 的 nonparametric statistics 与 minimax bounds 可直接用来审视本文声称的 consistency rate 是否紧，或进一步推导导数 FPC 估计的 minimax 收敛速率。follow-up 判断：中期可做——若要深化此方向，需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以建立导数域 sieve 估计的更精细渐近理论（如效率界或更高阶展开）。

9. 10.1214/23-aoas1858 · arXiv — Continuous and atlas-free analysis of brain structural connectivity¶

作者: William Consagra, Martin Cole, Xing Qiu, Zhengwu Zhang
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 2/10 · novelty: new_method
摘要: 在脑结构连通性分析中，传统方法依赖先验脑图谱将白质纤维束端点离散化为 ROI 邻接矩阵，导致亚 ROI 级信息丢失。本文提出 atlas-free 框架，将观测纤维束端点建模为定义在乘积流形上的潜在随机函数，从而将离散网络转化为光滑函数数据对象。为处理高维函数数据的统计推断，作者开发了数据驱动的降秩函数空间构造算法，在计算复杂度与模型灵活性之间取得平衡。实证分析基于 Human Connectome Project 数据，表明该方法在多种连通性分析任务上优于现有 atlas-based 方法，并能检测与组间差异相关的局部区域与连通模式。对您可能有用：本文的乘积流形上随机函数建模与降秩函数空间构造，为非参数/半参数理论中的 sieve M-estimation 提供了新的应用场景与计算视角。
关键技术: atlas-free connectivity modeling, latent random function on product manifold, data-driven reduced-rank function space, sieve approximation for high-dimensional functional data, white matter fiber tract endpoint modeling
为什么对您有用: 本文连接到非参数/半参数理论子方向，其乘积流形上的降秩函数空间构造本质上是 sieve M-estimation 的一种数据驱动实现，计算复杂度与灵活性权衡的分析与您在 stat_computing 和 minimax bounds 上的 very_familiar 武器直接对口。用 minimax bound 验证其降秩空间逼近率是否紧，或用 higher-order U-stat 的 treewidth 视角分析其 estimator 的计算成本，是立即可做的 follow-up。

数理统计 / 假设检验 (hypothesis_testing, 3 篇)¶

1. 10.1214/23-aoas1859 — A bootstrap model comparison test for identifying genes with context-specific patterns of genetic regulation¶

作者: Mykhaylo M. Malakhov, Ben Dai, Xiaotong T. Shen, Wei Pan
期刊/来源: Annals of Applied Statistics
机构: University of Minnesota · Chinese University of Hong Kong
分类: vol 18 · issue 3
相关性 3/10 · novelty: new_method
摘要: 本文提出DRAB方法，用于识别基因在不同组织或生物背景下遗传调控模式是否存在显著差异。设定中，每个基因的局部遗传变异通过弹性网络建模预测表达，目标是检验两个背景下的调控模型是否等价。DRAB首先对每个背景训练弹性网络模型，然后基于bootstrap构建模型比较检验，通过重抽样评估特征选择和模型训练的不确定性，从而判断模型预测性能是否显著不同。在GTEx多组织mRNA数据上验证，DRAB能够有效检测组织特异性调控基因，并控制假阳性率。该方法的一个关键创新是显式考虑了特征选择变异性对检验的影响。对于统计研究者，本文展示了将bootstrap与高维稀疏模型结合进行假设检验的框架，可用于因果推断中不同亚组效应差异检验等类似场景。
关键技术: elastic net, bootstrap model comparison test, feature selection variability, high-dimensional regression, GTEx data
为什么对您有用: 本文直接关联您对假设检验的兴趣（特别是高维设定下的模型比较检验），其bootstrap检验框架考虑了特征选择的不确定性，这与您熟练的非参数统计和高维渐近工具高度对口：可用高维渐近分析弹性网预测误差对检验功效的影响，也可利用软件开发能力复现并扩展该方法。中期可做：若要将该框架迁移到因果推断（如异质性检验），需先在 moderately_familiar 的识别理论中补齐对causal estimand的理解，但检验核心机制可借鉴。

2. 10.1214/24-aoas1899 · arXiv — Are made and missed different? An analysis of field goal attempts of professional basketball players via depth based testing procedure¶

作者: Kai Qi, Guanyu Hu, Wei Wu
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 2/10 · novelty: application
摘要: 本文提出一种基于深度（depth）的空间点过程检验方法，用于区分NBA球员投篮命中与未命中在球场上空间分布的差异。首先在极坐标系下分别计算命中点和未命中点的深度函数，然后对两个深度过程执行二维Kolmogorov-Smirnov检验。模拟研究表明该方法在控制第一类错误的同时具有较好的检验功效，且优于若干现有对比方法。将所提方法应用于2017-2018赛季191名NBA球员的投篮图表数据，识别出部分球员在命中与未命中空间模式上存在显著差异。该方法属于非参数假设检验框架，利用深度函数将空间点过程降维为连续曲面，再通过经典K-S统计量进行推断。对您而言，本文展示了一种将深度与假设检验结合的应用案例，与您对数学统计和假设检验的兴趣直接相关，但方法新颖性有限，主要作为体育统计应用参考。
关键技术: depth-based testing, spatial point process, two-dimensional Kolmogorov-Smirnov test, polar coordinate representation, functional data depth
为什么对您有用: 本文涉及的假设检验问题（比较两个点过程分布）属于数学统计与假设检验的子方向，与您对非参数检验的兴趣有直接关联。您熟悉的非参数统计和empirical process tools（如深度函数、K-S统计量的渐近性质）可用来理解或拓展本文方法，例如将深度检验推广到更一般的空间点过程或相关数据场景。不过该论文本身是应用导向，方法学贡献不大，不构成核心阅读——可作为体育统计应用案例快速浏览。

3. 10.1214/24-aoas1891 — A forensic statistical analysis of fraud in the federal food stamp program¶

作者: Jonathan Woody, Zhicong Zhao, Robert Lund, Tung-Lung Wu
期刊/来源: Annals of Applied Statistics
机构: Mississippi State University · University of California, Santa Cruz
分类: vol 18 · issue 3
相关性 2/10 · novelty: application
摘要: 本文在联邦食品券交易数据（约2.5亿条记录）的异常检测设定下，目标是识别与欺诈相关的交易金额聚集簇。方法核心是对交易金额的order statistics构建scan statistics，以检测是否存在显著过多的交易聚集——这一现象历史上与欺诈行为高度关联。作者进一步提出一种scoring paradigm，对检测到的聚集簇及单笔交易的异常程度进行量化排序。理论层面依赖经典scan statistic的显著性评估框架，实证结果在超大规模数据中展示了方法的可操作性。对您可能有用：scan statistic在order statistics上的聚集检测，可视为一类特殊的hypothesis testing问题，其大样本下的显著性计算与您对mathematical statistics中testing理论的兴趣有直接连接。
关键技术: order statistics, scan statistics, cluster detection, anomaly scoring, large-scale transaction data
为什么对您有用: 本文连接到您primary interest中hypothesis testing的子方向——scan statistic对order statistics聚集的显著性检验是经典的multiple testing / cluster testing问题。您technical_arsenal中的nonparametric statistics与minimax bounds工具可直接审视其scan statistic阈值选择的理论紧性。follow-up判断：立即可做——用very_familiar的非参数检验与minimax理论，可分析其scan statistic在极端值分布下的power与误报率界，或探讨更优的scoring函数设计。

统计计算 / 算法 (stat_computing, 4 篇)¶

1. 10.1214/23-aoas1845 — Dynamic modeling and online monitoring of tensor data streams with application to passenger flow surveillance¶

作者: Yifan Li, Chunjie Wu, Wendong Li, Fugee Tsung, Jianhua Guo
期刊/来源: Annals of Applied Statistics
机构: Nanjing Audit University · Shanghai University of Finance and Economics · East China Normal University · Hong Kong University of Science and Technology · Beijing Technology and Business University
分类: vol 18 · issue 3
相关性 6/10 · novelty: new_method
摘要: 本文研究城市交通客流监控问题，将其创新性地表述为张量数据流的动态建模与在线监测。在 tensor normal distribution 设定下，目标是对多阶张量参数进行在线估计与序贯变点检测，克服现有方法对低秩假设的强依赖以及对一般阶数张量不适用的问题。核心方法包含两步：首先开发基于模型选择准则（平衡复杂度与估计精度）的张量结构选择程序；其次提出在线估计程序动态更新参数，并基于广义似然比检验（GLRT）构建序贯变点检测。理论贡献主要在于模型选择准则的合理性及 GLRT 序贯检测的统计性质，仿真与香港真实客流数据验证了方法有效性。对您而言，本文提供了张量参数在线估计与 GLRT 变点检测的计算框架，与您在统计计算（张量/矩阵数值方法）及高维统计中的张量结构兴趣直接相关。
关键技术: tensor normal distribution, online parameter estimation, sequential change-point detection, generalized likelihood ratio test, tensor model selection, tensor data streams
为什么对您有用: 本文连接到您 primary interest 中的统计计算（张量数值方法与算法）子方向；您武器库中 very_familiar 的 software development 与 computation of higher-order U-statistics (treewidth / tensor contraction / einsum) 可直接用来审视本文张量在线估计的计算瓶颈——特别是多阶张量参数更新的 einsum 实现与 contraction-order 优化。Follow-up 判断：立即可做——用您熟悉的 einsum / tensor-contraction 工具重构其在线估计的计算核心，评估计算复杂度并尝试优化。

2. 10.1214/24-aoas1892 · arXiv — Bayesian sparse vector autoregressive switching models with application to human gesture phase segmentation¶

作者: Beniamino Hadj-Amar, Jack Jewson, Marina Vannucci
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 3/10 · novelty: new_method
摘要: 本文提出贝叶斯稀疏向量自回归（VAR）隐半马尔可夫模型（HSMM），用于建模多元非平稳时间序列的时间与同期依赖结构。HSMM的通用状态分布嵌入到特殊的转移矩阵结构中，使得似然计算高效且可逼近任意精度。为促进VAR系数的稀疏性，采用l1-ball投影先验，该先验可微分且能以正概率得到精确零值，从而在每个切换状态内实现变量选择，并便于哈密顿蒙特卡洛（HMC）后验估计。进一步在HSMM的驻留分布参数上放置非局部先理，提升贝叶斯模型选择区分HMM与HSMM的能力。通过人体手势相位分割的传感器数据集展示方法有效性，成功识别出静止与主动手势的时段及其动态模式。对您而言，本文展示了贝叶斯时间序列方法在传感器数据分析中的应用，但与其主要研究兴趣（因果推断、高维统计、U统计量、半参理论等）关联较弱。
关键技术: l1-ball projection prior, hidden semi-Markov model (HSMM), Hamiltonian Monte Carlo, non-local prior, Bayesian model selection, vector autoregressive (VAR) model
为什么对您有用: 本文属于统计计算中的贝叶斯建模与MCMC应用领域，与您的统计计算兴趣（数值方法、算法）有一定关联。您的技术武器库中‘软件发展’和‘高维渐近’可帮助理解模型稀疏性设定，但核心的贝叶斯HMC和非局部先理并非您熟悉的方向。整体而言，该论文更多是领域内的应用创新，与您的主要研究方向（因果推断、U统计量、半参效率等）重叠度低，作为gateway阅读的价值有限，暂不建议深入阅读。

3. 10.1214/24-aoas1876 — Nonconvex SVM for cancer diagnosis based on morphologic features of tumor microenvironment¶

作者: Sean Kent, Menggang Yu
期刊/来源: Annals of Applied Statistics
机构: University of Wisconsin–Madison · University of Michigan
分类: vol 18 · issue 3
相关性 3/10 · novelty: new_method
摘要: 本研究针对早期乳腺癌患者的胶原纤维图像数据，提出了一种基于非凸支持向量机（SVM）的癌症诊断方法。数据具有嵌套结构：纤维嵌套于图像斑点、斑点嵌套于组织样本，每个样本需输出一个肿瘤/非肿瘤预测。研究者将每个图像斑点的纤维集合视为一个概率分布，通过灵活的核函数度量分布之间的相似性。在此基础上构建的SVM问题由于考虑了斑点级别的肿瘤状态关系而成为非凸优化问题，传统SVM算法无法直接求解。文章提出了两种算法，分别侧重计算精度与效率，并在实际数据和模拟场景中评估了预测性能。方法实现为R包mildsvm并提供可复现代码。该工作对处理嵌套结构的多实例数据提供了一套完整的方法与软件，在医学诊断应用中具有实用价值。
关键技术: Support Vector Machine, non-convex optimization, kernel methods for distributions (mean embedding), nested/multi-instance data, alternating optimization, R package mildsvm
为什么对您有用: 该论文直接关联到您的secondary interest流行病学应用中的实际数据集与分析方法，尽管不涉及causal inference，但其中的嵌套数据结构和核方法分布表示具有方法学拓展空间。您可以利用very_familiar的软件开发经验和nonparametric statistics知识，尝试将mildsvm的核计算用U-statistics的树宽/张量收缩视角进行高效实现或理论分析。当前该方法的统计最优性（如minimax分类误差）尚未被研究，这是一个中期可做的问题：需先在moderately_familiar的M-estimation theory上加强，以便处理非凸目标函数的渐近性质。

4. 10.1214/24-aoas1885 — A latent variable approach for modeling relational data with multiple receivers¶

作者: Joris Mulder, Peter D. Hoff
期刊/来源: Annals of Applied Statistics
机构: Tilburg University · Duke University
分类: vol 18 · issue 3
相关性 2/10 · novelty: new_method
摘要: 本文研究含单播与多播消息的有向关系事件数据（如 Enron 邮件，31% 为多播），目标是建模发送者-接收者集合的生成机制与角色异质性。提出 multiplicative latent factor model（mc-amen）：对每条消息，所有潜在接收者被赋予 suitability score，超过阈值者进入接收集；未观测的社交行为异质性通过乘积型潜变量结构捕捉（发送者、接收者与消息各有潜变量）。计算上依赖 Gibbs sampling 进行贝叶斯推断，模型评估使用 posterior predictive checks。实证显示二维潜变量模型能较好拟合接收集大小的经验分布与常见接收集的组成，且发送与接收角色高度相关但不完全相同。对您可能有用：本文展示了贝叶斯潜变量模型在复杂网络数据中的计算框架，可作为统计计算与潜变量建模的参考案例。
关键技术: multiplicative latent factor model, Gibbs sampling, posterior predictive checks, threshold-based receiver selection, relational event model
为什么对您有用: 本文属于统计计算与潜变量建模的 gateway reading，展示了贝叶斯 Gibbs sampler 在非标准数据结构（多播关系事件）中的实现与 posterior predictive check 的评估流程。武器库中的 software development 与 moderately_familiar 的 M-estimation theory 可支撑理解其计算细节与模型设定，但本文核心是贝叶斯潜变量推断而非您熟悉的 semiparametric/minimax 理论，方法论 novelty 程度有限。是否值得花时间读全文：若您对关系数据建模或贝叶斯计算有直接需求可读，否则仅浏览 intro 了解数据结构与模型设定即可。

经济理论 / 应用 (econ_theory, 1 篇)¶

1. 10.1214/24-aoas1890 — Latent level correlation modeling of multivariate discrete-valued financial time series¶

作者: Yanzhao Wang, Haitao Liu, Jian Zou, Nalini Ravishanker
期刊/来源: Annals of Applied Statistics
机构: Worcester Polytechnic Institute · University of Connecticut
分类: vol 18 · issue 3
相关性 2/10 · novelty: application
摘要: 针对高频金融数据中多元计数时间序列的动态模式，提出一个贝叶斯层次框架，结合潜在因子相关性和时间效应来建模交易计数。框架基于INLA方法实现，相比传统MCMC在推理效率和计算成本上具有竞争力。模型应用于医疗、能源、工业三个GICS行业的资产数据，能够捕捉计数数据的经验相关结构，并推断短期平均交易规模与交易持续时间之间的关联、不同风险水平下的计数特征，以及市场时间行为和不可观测潜在效应带来的不确定性。该方法为金融微观结构分析提供了可扩展的贝叶斯工具，但方法学上主要依赖现有层次模型和INLA，未提出新的统计理论或推断技术。对您而言，该论文展示了贝叶斯方法在金融计数数据中的应用，可作为经济理论兴趣方向的应用案例，但方法学创新有限。
关键技术: Bayesian hierarchical model, INLA (Integrated Nested Laplace Approximation), multivariate count time series, latent correlation structure, GICS sector analysis
为什么对您有用: 该论文属于经济理论方向的应用案例，展示了贝叶斯层次模型在金融计数数据中的建模与推断。您的技术武器库中'统计计算'和'软件开发'可以直接复现或扩展其INLA实现，但贝叶斯方法本身并非您的核心工具。中期可做：若想深入金融时间序列应用，需先熟悉贝叶斯层次模型和INLA的细节；立即可做程度较低，因缺乏与您主要兴趣的直接衔接。

流行病学 (epidemiology, 6 篇)¶

1. 10.1214/24-aoas1882 — Semiparametric modeling of SARS-CoV-2 transmission using tests, cases, deaths, and seroprevalence data¶

作者: Damon Bayer, Isaac H. Goldstein, Jonathan Fintzi, Keith Lumbard, Emily Ricotta, Sarah Warner et al.
期刊/来源: Annals of Applied Statistics
机构: University of California, Irvine · National Institute of Allergy and Infectious Diseases · Frederick National Laboratory for Cancer Research · National Institutes of Health Clinical Center · Emory University · Samueli Institute · Orange County Healthcare Agency · Los Angeles County Department of Public Health 等
分类: vol 18 · issue 3
相关性 7/10 · novelty: application
摘要: 本文提出一个贝叶斯半参数建模框架，用于整合SARS-CoV-2的诊断检测、死亡和血清阳性率等多源监测数据，以实时推断传播动态。模型将传播率、感染致死比以及真阳性率与检测阳性率之间的函数关系处理为时变参数，并通过非参数方式（如高斯过程先验）估计这些参数的变化。为应对检测量变化对病例数的影响，模型显式纳入了总检测数的时间序列。作者使用Orange County 2020-2021年的COVID-19数据进行拟合，并通过排除诊断检测或血清阳性率的简化模型对比，验证了多数据流整合对推断和预测的重要性。结果表明到2021年1月中旬该地区32-72%居民已感染，且冬季疫情高峰的快速回落主要源于行为改变与累积自然免疫的叠加。该工作展示了在流行病学应用中如何利用半参数贝叶斯方法克服数据噪声和模型不可识别问题，对您关注的流行病学数据驱动建模和因果推断中的识别挑战有直接参考价值。
关键技术: Bayesian data integration, semiparametric time-varying parameters, compartmental transmission model, multiple surveillance data streams, nonparametric estimation via Gaussian processes, infection-to-fatality ratio modeling
为什么对您有用: (1) 本文属于流行病学应用方向，聚焦多数据流整合下的半参数贝叶斯建模，与您secondary interests中的流行病学数据分析直接对应；(2) 您的技术库中'非参数统计'和'高维渐近'可部分迁移用于理解其半参数结构，但核心的贝叶斯MCMC与传播动力学生成模型不在very_familiar范围内——若想在该方向深入需先熟悉流行病学确定性/随机模型；(3) 本文是入门级流行病学应用论文，方法清晰且数据公开，值得花时间读全文以理解实际数据整合的识别思路与难点。

2. 10.1214/23-aoas1860 · arXiv — Patient recruitment using electronic health records under selection bias: A two-phase sampling framework¶

作者: Guanghao Zhang, Lauren J. Beesley, Bhramar Mukherjee, Xu Shi
期刊/来源: Annals of Applied Statistics
机构: University of Michigan
分类: vol 18 · issue 3
相关性 7/10 · novelty: new_method
摘要: 该论文提出了一种两阶段抽样框架，用于在电子健康记录（EHR）中选择性招募患者，以高效估计目标人群的均值或均值差。核心挑战是EHR数据因非随机缺失而存在选择偏差，导致简单随机抽样效率低且可能偏差。作者扩展了经典的两阶段抽样设计，通过利用EHR中可获取的廉价辅助协变量（如既往诊断）来优化第一阶段的抽样概率，从而在第二阶段测量昂贵的结局变量。推导了最优抽样分配方案，证明该方法在控制选择偏差的同时，效率优于随机抽样。通过模拟研究和Michigan Genomics Initiative的实际数据（评估美国成人高血压患病率）展示了效率增益。本文对流行病学中利用现成EHR数据降低研究成本的抽样设计提供了可直接借鉴的框架。
关键技术: two-phase sampling design, optimal sampling allocation, selection bias correction, auxiliary covariates
为什么对您有用: 本文直接服务于您在流行病学中的应用兴趣（EHR数据带来的选择偏差问题），其两阶段最优抽样设计与因果推断中利用辅助变量校正缺失数据的思路相通。您非常熟悉的'estimation theory in causal inference'中的influence function或正交估计量思想可用于分析其效率最优性。中期可做：需先在'moderately_familiar'的'semiparametric theory'上加深对两阶段似然与加权估计的理解，之后可扩展至更复杂的因果效应估计场景。

3. 10.1214/23-aoas1868 — Quantile regression decomposition analysis of disparity research using complex survey data: Application to disparities in BMI and telomere length between U.S. minority and white population groups¶

作者: Hyokyoung G. Hong, Barry I. Graubard, Joseph L. Gastwirth, Mi-Ok Kim
期刊/来源: Annals of Applied Statistics
机构: Cancer Genetics (United States) · Division of Cancer Epidemiology and Genetics · George Washington University · University of California, San Francisco
分类: vol 18 · issue 3
相关性 6/10 · novelty: new_method
摘要: 本文针对复杂调查数据，提出了分位数回归分解（QRD）方法来分析不同人群在社会经济和健康结果上的观测差异（OD）。传统的分解方法基于条件均值回归，将OD分为由协变量分布差异解释的部分和未解释部分。然而许多健康结果呈现异方差性，OD在不同分位数上变化。QRD能识别在哪些分位数上差异更大以及协变量的解释作用。该文改进了Machado and Mata (2005)的QRD方法，使其在数据稀疏的分位数处更可靠，并扩展到复杂调查设计。还提出了基于扰动的方差估计方法。模拟表明未解释部分的分位数估计无偏，置信区间覆盖接近名义水平。方法应用于NHANES数据中BMI和端粒长度的种族/民族差异分析。
关键技术: quantile regression decomposition, complex survey data, perturbation-based variance estimation, Machado-Mata decomposition
为什么对您有用: 该文直接连接您的流行病学应用兴趣，展示了分位数分解方法在健康差异研究中的实际应用，使用的NHANES数据是典型的复杂调查数据。从武器库看，您的非参数统计知识（分位数回归）可直接理解其方法论基础，但复杂调查加权和方差估计需专门学习（武器库未覆盖survey sampling），属于暂不可做方向，但作为应用论文值得阅读以了解流行病学中的分解分析范式。

4. 10.1214/23-aoas1871 · arXiv — A nonparametric mixed-effects mixture model for patterns of clinical measurements associated with COVID-19¶

作者: Xiaoran Ma, Wensheng Guo, Mengyang Gu, Len Usvyat, Peter Kotanko, Yuedong Wang
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 6/10 · novelty: application
摘要: 本文提出一个非参数混合效应混合模型，用于识别COVID-19患者体温模式的变化并分类亚组。模型用logistic回归建模各亚组的潜类别概率，并用光滑样条拟合每个亚组的纵向轨迹。通过EM算法最大化惩罚似然，同时估计固定效应、随机效应和轨迹参数。模拟和真实数据（血液透析患者队列）验证了方法的有效性。该模型在流行病学纵向数据分析中具有通用性，对理解和预测疾病进程有实际价值。作为流行病学应用论文，方法清晰、数据详实，适合作为统计学家进入该领域的参考案例。
关键技术: Nonparametric mixed-effects mixture model, Smoothing splines, EM algorithm, Penalized likelihood estimation, Latent class analysis
为什么对您有用: 本文属于流行病学领域的应用论文，方法上使用了非参数混合模型，对熟悉非参数统计的读者是良好的入门读物；研究者的武器库（非参数统计、高维渐近）可支撑理解模型的核心机制，无需额外工具即可批判阅读；值得花时间全文阅读，以积累COVID-19数据分析的实证经验。

5. 10.1214/24-aoas1896 — Weighted biomarker variability in joint analysis of longitudinal and time-to-event data¶

作者: Chunyu Wang, Jiaming Shen, Christiana Charalambous, Jianxin Pan
期刊/来源: Annals of Applied Statistics
机构: University of Cambridge · MRC Biostatistics Unit · University of Manchester · Beijing Normal-Hong Kong Baptist University · Beijing Normal University
分类: vol 18 · issue 3
相关性 4/10 · novelty: application
摘要: 在纵向与生存数据的联合建模框架下，目标是刻画生物标志物（如血压）的加权累积水平与变异性对生存风险的效应，设定为混合效应模型加 spline 随机系数的纵向子模型与生存子模型的耦合。借鉴 smoothing spline 思想，提出以轨迹二阶导数积分衡量个体特异性的"粗糙度"变异性指标，并在累积量中引入参数族权重函数以允许历史重要性随时间变化。为降低计算复杂度，权重函数被限制在含待估尺度参数的特定参数族；MLE 的渐近性质被建立，并讨论了尺度参数的可识别性问题。估计采用 EM 算法，初值由两阶段法给出；模拟与 MRC 试验数据实证表明血压变异性对心血管事件有显著预后价值。对您可能有用：该文在流行病学队列数据上展示了纵向-生存联合模型的变异性建模思路，可作为理解 biomarker variability 因果/预后作用的入门案例。
⚠️ 摘要不完整，待重跑（python -m research_news.rerun）
关键技术: joint model longitudinal survival, smoothing spline roughness measure, random-coefficient spline mixed model, EM algorithm with two-stage initialization, weighted cumulative hazard, MLE asymptotic identification
为什么对您有用: (1) 本文属于流行病学应用方向，使用 MRC 试验真实数据集分析血压变异性对心血管事件的预后效应，直接对接 epidemiology secondary interest 的数据集与应用因果工作；(2) 武器库中 M-estimation theory 与 semiparametric theory 可用于审视其 MLE 渐近性质与可识别性讨论，但 joint model 的 EM 计算与 spline 随机系数设定需额外长肌肉；(3) 作为 gateway reading，本文对纵向-生存联合建模的变异性刻画有清晰的数据/模型 exposition，值得花时间读全文以了解流行病学中 biomarker variability 的建模范式，但方法学 novelty 属应用层面，无直接理论可攻。

6. 10.1214/23-aoas1864 — Joint mixed membership modeling of multivariate longitudinal and survival data for learning the individualized disease progression¶

作者: Yuyang He, Xinyuan Song, Kai Kang
期刊/来源: Annals of Applied Statistics
机构: Chinese University of Hong Kong · Sun Yat-sen University
分类: vol 18 · issue 3
相关性 3/10 · novelty: application
摘要: 本文针对阿尔茨海默病（AD）进展的异质性，提出了一种联合混合成员模型（joint mixed membership model），同时建模多个纵向AD生物标志物和诊断时间。不同于传统有限混合模型将每个患者硬分配到一个亚组，该模型允许患者对多个亚组具有部分隶属度，从而刻画个体化的疾病轨迹。纵向部分采用样条基函数拟合多个临床指标的复杂非线性模式；生存部分用Cox模型评估时变风险因素对AD确诊风险的影响。推断采用贝叶斯方法配合高效MCMC采样，并在ADNI数据集上展示出优于现有联合模型的诊断性能。该工作为流行病学中的纵向-生存联合建模提供了一种灵活的工具，其样条建模思路可与非参数理论中的最优收敛率分析相结合，数据集和模型框架也可为后续因果效应估计（如时序干预）提供基线。
关键技术: mixed membership model, spline-based trajectory, joint modeling of longitudinal and survival data, Markov chain Monte Carlo
为什么对您有用: 本文属于流行病学中纵向-生存联合建模的应用工作，直接对应您的secondary interest中的流行病学数据集和建模问题。您 very_familiar 中的非参数统计（样条理论）可用于分析该模型中样条轨迹估计的收敛性质。立即可做：该模型框架清晰，您可基于软件开发和U统计量经验快速复现其模拟研究，并评估其对个体化轨迹解释的稳健性。

其他 (other, 7 篇)¶

1. 10.1214/24-aoas1880 — An integrative network-based mediation model (NMM) to estimate multiple genetic effects on outcomes mediated by functional connectivity¶

作者: Wei Dai, Heping Zhang
期刊/来源: Annals of Applied Statistics
机构: Yale University
分类: vol 18 · issue 3
相关性 8/10 · novelty: new_method
摘要: 本文在神经影像因果中介分析设定下，研究多个遗传变异通过脑功能连接矩阵对行为/疾病结局的间接效应。现有方法多局限于单变异或单变量中介，忽略了累积遗传效应与功能连接的矩阵/网络结构；提出的网络中介模型（NMM）将区域间的网络分组信息纳入，对中介矩阵施加低秩与稀疏约束以同时刻画复杂结构与选择活跃中介路径。求解采用块坐标下降算法实现快速计算；模拟表明该方法在中介选择与效应偏差缩减上有效。对 HCP-YA 493 名青年数据的实证分析识别出 APOE4 基因上两个 SNP 通过视觉网络功能连接影响流体智力。对您而言，本文展示了高维矩阵中介的结构化建模思路，但理论深度有限。
关键技术: network-based mediation, low-rank plus sparse matrix constraint, block coordinate descent, group structure penalty, multivariate mediator selection
为什么对您有用: 本文属于纵向/高维中介分析的延伸应用，连接到 causal inference 的 mediation 子方向，但核心是算法与实证而非 semiparametric efficiency 或 identification 理论。用 technical_arsenal 中 very_familiar 的 minimax bounds 理论可以审视其低秩+稀疏假设下的估计收敛率是否有 sharper rate 的可能，但本文未触及此层面。中期可做：若想在此类矩阵中介问题上建立 semiparametric efficiency bound 或 debiased 理论，需先在 moderately_familiar 的 semiparametric theory 上长肌肉（特别是矩阵参数的 influence function 推导），当前论文本身更偏向应用与算法，不值得花时间读全文理论细节。

2. 10.1214/24-aoas1886 — Sparse clustering for customer segmentation with high-dimensional mixed-type data¶

作者: Feifei Wang, Shaodong Xu, Yichen Qin, Ye Shen, Yang Li
期刊/来源: Annals of Applied Statistics
机构: Renmin University of China · University of Cincinnati · University of Georgia
分类: vol 18 · issue 3
相关性 4/10 · novelty: new_method
摘要: 在高维混合型数据（连续与分类变量并存）的客户细分设定下，目标是同时进行变量选择与聚类，核心假设为噪声变量存在且需筛选一致性。本文提出基于 Davies–Bouldin 指数的稀疏聚类（DBI-SC）方法，分别定义两类变量的 dissimilarity measure，并设计 adjusted DBI 准则衡量各变量对聚类的贡献。变量选择层面引入稀疏聚类框架，对混合型变量施加不同 penalty 参数，并证明了 screening consistency 性质。模拟与代驾服务数据实证表明该方法在聚类与变量选择上表现良好。对您而言，本文的 screening consistency 与 penalty 分层策略可作为高维 M-estimation 理论的轻量应用案例参考。
关键技术: sparse clustering framework, Davies-Bouldin index, mixed-type dissimilarity measure, screening consistency, variable-specific penalty
为什么对您有用: 本文属于高维变量选择与聚类的交叉，与您 primary interest 中的高维统计有间接联系，但核心是 unsupervised clustering 而非 inference 或 RMT。用您 very_familiar 的 minimax bounds 工具可审视其 screening consistency 理论的 rate 是否紧，或用 moderately_familiar 的 M-estimation theory 分析其 penalty 参数的 oracle 性质。然而，由于缺乏 semiparametric efficiency / causal identification / hypothesis testing 的核心结构，且聚类理论非您主攻方向，中期可做：若想拓展至高维混合型数据的 inference，需先在 moderately_familiar 的 M-estimation theory 上补充 clustering loss 的非标准 M-estimator 渐近理论。

3. 10.1214/23-aoas1869 · arXiv — Bayesian hidden Markov models for latent variable labeling assignments in conflict research: Application to the role ceasefires play in conflict dynamics¶

作者: Jonathan P. Williams, Gudmund H. Hermansen, Håvard Strand, Govinda Clayton, Håvard Mokleiv Nygård
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 3/10 · novelty: application
摘要: 本文针对冲突研究中潜变量标注的瓶颈问题，提出贝叶斯自回归隐马尔可夫模型（AR-HMM）框架，用于对冲突强度等潜状态进行半监督标注并量化不确定性。核心设定是观测到的战场死亡人数等响应数据随时间变化，但冲突动态的真实潜状态（如强度、持续时间）难以直接定义和标注。利用新发布的ETH-PRIO Civil Conflict Ceasefires数据集，模型通过AR结构刻画状态的时间依赖性，HMM实现状态转移的推断，并用贝叶斯方法整合先验信息从而得到后验标签分布。方法上采用MCMC（如Gibbs抽样）进行后验计算，适用于中等长度的纵向序列。实证部分分析了停火协议如何影响冲突的动态演变，结果显示停火可能在短期内降低强度但长期效果不一。该文是首个系统分析该停火数据集并考察停火对冲突动态影响的研究，主要贡献在于提供了一个可复现的半监督标签推断工具。对您而言，本文方法虽然不直接属于您的核心研究兴趣，但其中的隐状态建模与纵向数据标注思路可能对因果推断中处理未测量混杂或动态治疗分配问题有间接启发。
关键技术: Bayesian hidden Markov model, autoregressive process, semi-supervised learning, Markov chain Monte Carlo, uncertainty quantification
为什么对您有用: 本文不直接涉及您的核心研究兴趣（因果推断、高维统计、U-统计量等），属于应用统计在冲突科学中的案例。它演示了用贝叶斯HMM对纵向观测数据进行潜状态标注和效应分析的工作流，其中状态标注的量化不确定性对后续因果分析（如将标注的状态作为暴露变量）的测量误差校正可能有参考价值。然而，该文的统计工具（AR-HMM、Gibbs抽样）并不在您的技术武器库中，且冲突研究并非您的二级兴趣领域，因此暂时不可做延伸——您需要先熟悉贝叶斯状态空间模型的基本计算，才能评估其方法迁移的可能性。

4. 10.1214/23-aoas1828 — Multiscale Poisson process approaches for detecting and estimating differences from high-throughput sequencing assays¶

作者: Heejung Shim, Zhengrong Xing, Ester Pantaleo, Francesca Luca, Roger Pique-Regi, Matthew Stephens
期刊/来源: Annals of Applied Statistics
机构: The University of Melbourne · Melbourne Genomics Health Alliance · University of Chicago · Wayne State University
分类: vol 18 · issue 3
相关性 3/10 · novelty: new_method
摘要: 高通量测序数据（如RNA-seq、ATAC-seq）常用于检测分子表型差异，但现有方法多假设正态分布，在小样本或低计数时效果不佳。本文提出基于计数的多尺度泊松过程模型：将每个样本视为具有空间结构化强度函数的非齐次泊松过程，利用多尺度分解估计和检验样本间强度差异。该方法通过贝叶斯分层框架自动捕捉局部相关性，避免了正态近似的局限性。模拟和真实ATAC-seq数据显示，新方法在低计数和小样本场景下显著优于正态方法。该工作将泊松过程多尺度建模引入差异分析，为非参数计数数据的假设检验提供了新工具，与您对非参数统计和假设检验的兴趣直接相关。
关键技术: inhomogeneous Poisson process, multiscale model, spatial intensity estimation, differential expression analysis, Bayesian hierarchical model
为什么对您有用: 这篇文章的方法核心是非参数泊松过程建模和假设检验，直接对应您非常熟悉的非参数统计技术储备；其处理低计数稀疏数据的方式可迁移至因果推断中的计数中介变量分析或流行病学队列中的罕见事件建模。目前该领域的方法论成熟度较高，无需额外技术准备即可理解核心思路，但若要将多尺度模型扩展至您的U统计量或因果推断设定，则需先在分层模型工具上积累（属于中期可做）。

5. 10.1214/23-aoas1867 · arXiv — Latent conjunctive Bayesian network: Unify attribute hierarchy and Bayesian network for cognitive diagnosis¶

作者: Seunghyun Lee, Yuqi Gu
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 3
相关性 2/10 · novelty: new_method
摘要: 本文提出潜在合取贝叶斯网络（LCBN），用于认知诊断评估，旨在统一属性层次方法对技能顺序的约束与贝叶斯网络的统计依赖解释。传统属性层次方法参数复杂度随图结构变化大，且箭头不表示统计依赖，LCBN通过潜在图结构同时编码技能前提条件与条件独立性。模型被证明可识别、可解释且参数简约。作者设计两步EM算法进行结构学习和参数估计，并在国际教育评估数据集上应用，得到了可解释的学生认知诊断结果。该方法为潜在变量建模提供了新框架，但理论贡献集中于模型设计与可识别性，而非统计推断效率或替代分布假设。
关键技术: Bayesian network, latent variable model, EM algorithm, structure learning, conjunctive model, attribute hierarchy
为什么对您有用: 本文属于教育测量领域，与您的主要兴趣方向（因果推断、高维统计等）交叉较少，但其潜在贝叶斯网络的结构学习与因果DAG学习有概念重叠，可能为图模型的可识别性分析提供启发。技术武库中'非参数统计'和'高维渐近'可用于分析此类模型的结构学习一致性。中期可做：需先在'moderately_familiar'的'semiparametric theory'上加强，才能将此类图模型扩展为因果解释模型（例如加入干预解释）。

6. 10.1214/24-aoas1884 — Assessing aquatic toxicity assessment via a clustered variance model¶

作者: Xin Wang, Jing Zhang
期刊/来源: Annals of Applied Statistics
机构: San Diego State University · Miami University
分类: vol 18 · issue 3
相关性 2/10 · novelty: new_method
摘要: 针对多实验室、多时间点水生毒性试验结果的一致性评估需求，提出一种线性混合模型中的方差聚类方法（CVM）。该方法通过成对惩罚项构造目标函数，采用交替方向乘子法（ADMM）进行优化，同时识别方差的聚类结构并估计模型参数。模拟研究表明，该方法能有效识别方差聚类结构，且优于基于k-means的传统方法。实际水生毒性评估数据上获得的聚类结构比传统方法更合理。方法核心是 penalized likelihood 框架下的方差同质性检测，属于统计计算与混合效应模型交叉方向的结果。对您而言，ADMM算法和惩罚聚类思路可迁移到其他异质性检测问题，但与本研究方向（因果推断、高维统计、U-统计量）的直接关联较弱。
关键技术: penalized likelihood, alternating direction method of multipliers (ADMM), linear mixed models, clustering of variances, pairwise penalties
为什么对您有用: 本文属于应用统计方法学，与主要研究方向（因果推断、高维RMT、U-统计量）无直接交集。武器库中‘统计计算’项下的ADMM算法有间接关联，但方法本身不涉及因果识别、效率界或高阶统计量。暂不可做：核心问题（方差聚类）不在武器库覆盖的统计推断框架内，且缺乏与您主要兴趣的桥梁。如需涉猎，仅作为统计计算方向的泛读材料。

7. 10.1214/24-aoas1888 — Site occupancy and abundance models for analyzing multiple-visit detection/nondetection data¶

作者: Huu-Dinh Huynh, Matthew Schofield, Wen-Han Hwang
期刊/来源: Annals of Applied Statistics
机构: National Chung Hsing University · University of Otago · National Tsing Hua University
分类: vol 18 · issue 3
相关性 2/10 · novelty: new_method
摘要: 本文在生态学多访次检测/非检测数据设定下，提出增强型站点占据模型，目标参数为占据率 ψ、丰度 λ 与检测概率 p，关键假设为引入社区参数 c（跨访次固定个体比例）以刻画 transient 个体。模型通过 c 在 0 与 1 之间连续过渡，将标准 occupancy 模型（c=0）与 N-mixture 模型（c=1）统一于同一框架，解决了 c∈(0,1) 时常规方法的偏差问题。核心机制为基于 c 的 mixture likelihood 构造与 EM/MLE 估计，理论部分证明了 c≠0,1 时忽略 transient 个体导致的 identification 偏差，模拟与鸟类/哺乳动物实证数据验证了纠偏效果。对您可能有用：该模型本质是 latent variable mixture 下的 identification 与 estimation 问题，与因果推断中 latent class / measurement error 的 identification 逻辑有结构相似性。
关键技术: site occupancy model, N-mixture model, latent abundance estimation, mixture likelihood, EM algorithm
为什么对您有用: 本文属于生态学应用统计，与您 primary interests（高维/效率/U-stat/因果）无直接技术重叠，但 latent variable mixture 的 identification 问题与因果推断中 unmeasured confounder / measurement error 的 identification 逻辑结构相似。用您 very_familiar 的 M-estimation theory 可以审视其 likelihood estimator 的 consistency/asymptotic normality 条件是否完备，但核心生态学建模不在武器库内。暂不可做：缺乏生态学 occupancy 数据的领域知识，且论文 novelty 主要是模型统一而非 sharper rate 或新 efficiency bound，不值得深入跟进。

Maintained by 陈星宇 · Homepage · Source on GitHub