跳转至

AoAS — Vol 19 Issue 1 · 2026-06-19

  • 共 35 篇 · Annals of Applied Statistics
  • 目录核对 ⚠️ 疑似漏 1 篇(对照 OpenAlex 37 篇):10.1214/24-aoas1976

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

本期《Annals of Applied Statistics》第19卷第1期的35篇论文可按方法主线分为三类:因果推断半参数/非参数方法、以及其他应用方向(流行病建模、经济时间序列、空间统计等)。其中因果推断是绝对主线(7篇),覆盖非参数分解、外部有效性、异质性处理效应、网络/空间干扰和文本实验推断;半参数/非参数方向2篇,分别处理共享协变量识别与高维非欧响应回归;余下论文分布在流行病学(混合暴露交互、纵向因子回归、时空传播)、经济理论(内生性、协整稳定性、Copula集成)、统计计算(稀疏加性模型、深度GP序贯设计)等专题。

因果推断主线最为密集,可细分为三组推进方向。第一组关注识别与分解:Nonparametric causal decomposition将Kitagawa-Blinder-Oaxaca分解非参数化,区分群体间处理普及率、平均处理效应与基于个体处理效应的选择进入处理三种机制,估计量达到√n一致、半参数有效且多重稳健;Overlap violations in external validity将外部有效性中的重叠违例偏倚分解为省略单元比例与效应调节参数,构建benchmarking敏感性分析。第二组针对异质性与干扰:Risk set matched difference-in-differences结合profile matching与risk set matching,在纵向暴露后混杂下识别枪支暴力对健康的异质性效应;Design-based spatial experiments完全依赖随机化非参数识别空间平均边际效应,无需假设干扰结构;Heterogeneous treatment under clustered network interference提出网络因果树,递归分区识别聚类干扰下处理效应与溢出效应的异质性;Identifying peer influence借助潜变量网络模型校正未观测同质性,估计治疗社区中同伴毕业的影响。第三组文本实验推断:More power to you利用残差调整技巧(类似去偏机器学习)以少量人工编码结合机器学习预测,在随机试验中保持功效。此外,流行病学中Inferring synergistic and antagonistic interactions的SAID框架将响应曲面分解为加性主效应与成对交互效应,属于可解释非参数交互检测;Low-rank longitudinal factor regression用贝叶斯动态因子处理高维相关暴露,与健康结局联合拟合,兼具时变与交互弹性。

半参数/非参数方向中,Accounting for shared covariates in semiparametric BART通过修改树生成移动联合识别线性与树部分共享的协变量,避免半参数BART的估计偏差;Variable screening and spatial smoothing in Fréchet regression在非欧响应空间中使用距离协方差筛选高维预测变量后,对空间相关SPD矩阵实现闭式平滑。

与因果推断/半参数效率/高维最贴合的论文:因果推断方向优先看Nonparametric causal decomposition(效率与多重稳健)、Design-based spatial experiments(非参数识别与渐近分布)、Overlap violations in external validity(偏倚分解框架)、以及More power to you(残差调整与半参数去偏思想);半参数效率方向还可参考Accounting for shared covariates in semiparametric BART;高维方向关注Variable screening in Fréchet regression与Low-rank longitudinal factor regression。

因果推断 (causal_inference, 7 篇)

1. 10.1214/24-aoas1990 · arXiv — Nonparametric causal decomposition of group disparities

  • 作者: Ang Yu, Felix Elwert
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 9/10 · novelty: new_method
  • 摘要: 本文提出了一种新的非参数因果分解框架,用于识别处理变量如何贡献于群体间结果差异的机制。该框架区分三种机制:群体间在处理普及率上的差异、平均处理效应的差异、以及基于个体处理效应进入处理的在选择上的差异。作者将经典的Kitagawa-Blinder-Oaxaca分解用因果和非参数术语重新表述,并与因果中介分析区分开来,同时聚焦于解释群体差异而非群体效应。与以往方法不同,该框架唯一地识别出差异性的选择进入处理作为新的差异产生机制。作者开发了非参数估计量,具有√n一致性、渐近正态性、半参数有效性和多重稳健性。本文还提供了条件分解和非条件分解,并将方法应用于分析大学毕业生如何因果性地贡献于代际收入持续性(高收入与低收入父母子女成人收入差异)。实证部分展示了新选择成分在代际收入持续中的一个此前未被发现的作用。该方法直接连接因果推断中的分解和中介分析,并为研究者提供了利用半参数效率和多重稳健技术的具体范例。
  • 关键技术: Kitagawa-Blinder-Oaxaca decomposition, nonparametric identification, multiply robust estimation, semiparametric efficiency, causal mediation analysis, group disparity decomposition
  • 为什么对您有用: 本文与您对因果推断(特别是识别、估计和分解)的强烈兴趣高度契合,直接扩展了经典分解框架并引入因果解释。您的半参数理论(moderately_familiar)和因果推断估计理论(very_familiar)武器库足以完全理解和批判性评估该方法的识别条件、效率和多重稳健证明,并可立即尝试将该分解推广到其他纵向或中介设定。通常的因果分解或中介分析往往依赖于参数模型,而本文提供非参数有效估计,使得您可以方便地在自己熟悉的因果推断软件中实现。综上,该文属于立即可做范畴,建议深入阅读以作为后续实证方法拓展的基础。

2. 10.1214/24-aoas1963 — Overlap violations in external validity: Application to Ugandan cash transfer programs

  • 作者: Melody Huang
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Yale University
  • 分类: vol 19 · issue 1
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在因果效应的外部有效性(transportability / generalizability)设定下,本文研究当实验样本与目标人群之间违反 overlap(positivity)假设时的偏倚与敏感性分析问题。核心贡献是提出一种新的偏倚分解框架,将 overlap violation 导致的偏倚参数化为两个分量:(1) 被省略单元的比例与 (2) 省略这些单元对处理效应的调节程度。基于此分解,作者构建了一套敏感性分析工具,包括汇总度量与 benchmarking 校准,以评估结论对 overlap violation 的稳健性。实证部分将框架应用于评估乌干达北部现金转移支付项目的实验数据。对您可能有用:该偏倚分解与敏感性分析思路可直接迁移至您关注的 causal inference 中 identification 与 sensitivity analysis 子方向。
  • 关键技术: transportability / generalizability, overlap / positivity violation, bias decomposition, sensitivity analysis, benchmarking calibration
  • 为什么对您有用: 本文直接连接到您 primary interest 中 causal inference 的 sensitivity analysis 与 identification 子方向,针对外部有效性中 overlap 假设失效这一具体场景给出了偏倚参数化与敏感性工具。从您 technical_arsenal 的 identification theory in causal inference(moderately_familiar)出发,可以审视其偏倚分解是否能在 semiparametric efficiency 框架下进一步收紧或给出更精细的 influence function 表征。中期可做:需先在 moderately_familiar 的 identification theory 上长肌肉,以将此偏倚分解与 semiparametric efficiency bound 结合做 sharper characterization。

3. 10.1214/24-aoas1918 · arXiv — Risk set matched difference-in-differences for the analysis of effect modification in an observational study on the impact of gun violence on health outcomes

  • 作者: Eric R. Cohn, Zirui Song, José R. Zubizarreta
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究枪支暴力对幸存者及其家庭成员健康影响的异质性处理效应(effect modification),在保留时间对齐的差分-差分(difference-in-differences)设计下提出新的匹配框架。方法结合profile matching与risk set matching,前者通过匹配协变量剖面来保持时间一致性,后者在风险集中动态匹配以避免暴露后混杂。该框架能明确控制观测协变量在各亚组中的不平衡,适用于大规模医保数据库的因果推断。案例分析显示非致命枪伤对受伤者数项健康结果有显著且持续的影响,对家庭成员心理健康亦有影响;敏感性分析表明结果对未观测混杂中度稳健。异质性分析发现,受伤者效应因伤害严重程度和意图而异,家庭成员效应在伤害源于攻击、自残或执法人员干预时最强。该文为异质性DID提供了可操作的工具,对您使用estimation theory in causal inference进行纵向因果推断的方法学比较与扩展有直接借鉴价值。
  • 关键技术: difference-in-differences, risk set matching, profile matching, effect modification, sensitivity analysis for unmeasured confounding
  • 为什么对您有用: 连接您primary interest中的因果推断(特别是DID设计下的异质性处理效应识别与估计),以及estimation theory in causal inference(当前武器库中very_familiar项)。本文的匹配思路可与您熟悉的high-dimensional asymptotics或nonparametric statistics对接,例如用核权重或倾向评分扩展matching框架到大协变量空间。follow-up粗判:中期可做——需先在nonparametric statistics或semiparametric theory上进一步巩固(都是moderately_familiar或very_familiar,但具体扩展到DID的识别假设检验需要熟悉treatment effect heterogeneity的推断理论)。

4. 10.1214/24-aoas1986 · arXiv — Design-based inference for spatial experiments under unknown interference

  • 作者: Ye Wang, Cyrus Samii, Haoge Chang, PM Aronow
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Yale University · Supélec · University of Applied Sciences and Arts of Southern Switzerland · Shandong University of Political Science and Law
  • 分类: vol 19 · issue 1
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在空间实验设定下研究设计基因果推断,目标 estimand 为空间“平均边际效应”(AME),刻画距干预点指定距离的单元受该点处理的期望影响,无需假设特定形式的干扰结构。核心机制是:仅依赖随机化即可实现 AME 的非参数 identification,完全规避了参数化结果模型的设定偏误风险。在 mild 的干扰范围限制(interference range bounded)下,建立了 AME 估计量的渐近分布,并提供了样本理论与随机化推断两种方法。文中还给出了 AME 恢复结构效应的条件,并在森林保护随机实验与准实验数据上做了实证分析。对您有用:本文为空间溢出/干扰设定提供了非参数 identification 与设计基推断的完整框架,直接连接因果推断的 interference / spillover 子方向。
  • 关键技术: design-based causal inference, spatial spillover / interference, nonparametric identification, average marginalized effect (AME), randomization inference, asymptotic distribution under interference
  • 为什么对您有用: 直接连接因果推断的 interference / spillover 子方向,处理未知干扰结构下的非参数 identification 与推断,是该方向近期的重要工作。您武器库中的 identification theory (moderately_familiar) 与 estimation theory in causal inference (very_familiar) 可直接用于审视其 AME 的 identification 逻辑与估计量构造,甚至可尝试用 HOIF 视角探索更高效的估计。中期可做:若要深入其渐近理论或拓展到高维/半参数效率界,需先在 semiparametric theory (moderately_familiar) 上长肌肉以评估其估计量的效率性质。

5. 10.1214/24-aoas1913 · arXiv — Heterogeneous treatment and spillover effects under clustered network interference

  • 作者: Falco J. Bargagli-Stoffi, Costanza Tortú, Laura Forastiere
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文在聚类网络干扰的设定下,研究处理和溢出效应的异质性。作者提出网络因果树(NCT)算法,将因果树与Horvitz-Thompson估计量结合,在存在聚类内干扰时无偏地估计个体、邻居及网络特征对处理效应和溢出效应的调节作用。NCT通过递归分区识别出效应异质性最强的子组,同时避免传统因果树忽略干扰带来的偏误。模拟研究验证了该方法在有限样本下的良好性能,并应用于中国农村天气保险信息宣传对参保决策影响的实证分析。本文的核心价值在于为存在网络干扰的集群实验提供了一种可解释的异质性推断工具,直接关联您对因果推断中网络干扰与异质性效应估计的研究兴趣。
  • 关键技术: Network Causal Tree (NCT), Horvitz-Thompson estimator, clustered network interference, heterogeneous treatment and spillover effects, tree-based causal inference
  • 为什么对您有用: 本文直接对应您因果推断兴趣中的网络干扰与异质性效应子方向,特别涉及聚类结构下的溢出效应识别。您非常熟悉的因果推断估计理论(very_familiar)可用于分析NCT估计量的渐近性质,而您中等熟悉的识别理论(moderately_familiar)可帮助评估其识别假设的合理性。目前可立即可做:用您已有的因果推断工具和树方法经验,可尝试扩展NCT至更复杂的网络结构或结合交叉拟合等现代技术。

6. 10.1214/24-aoas1971 · arXiv — Identifying peer influence in therapeutic communities adjusting for latent homophily

  • 作者: Shanjukta Nath, Keith Warren, Subhadeep Paul
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 7/10 · novelty: application
  • 摘要: 本文研究治疗社区(TCs)中同伴角色模型对居民成功毕业的因果效应,目标是在存在未观测同质性(homophily)的情况下识别同伴影响。数据来自3个TCs,记录居民间的肯定交换和进出时间,定义了角色模型效应:居民在退出前观察到同伴毕业与未观察到之间的毕业概率差异。为调整未观测的潜同质性,作者采用潜变量网络模型,估计居民的潜在位置,并证明当潜位置从观测网络中估计时,同伴影响估计量渐近无偏。进一步提出测量误差偏差校正方法,以减少估计潜位置引入的偏差。模拟显示调整和偏差校正有限样本性能良好,并扩展至二元响应probit模型。实证结果表明同伴毕业对居民毕业有正向影响,效应因性别、种族和效应定义而异,反事实练习量化了直接和间接干预效果。对您而言,本文是因果推断中利用网络数据识别同伴效应的应用实例,其潜变量调整和偏差校正思路可迁移至您关注的proximal CI或IV等因果识别问题。
  • 关键技术: latent space model, peer influence estimation, homophily adjustment, measurement error bias correction, probit model, causal inference with network data
  • 为什么对您有用: 本文直接关联您的主要兴趣——因果推断,具体涉及观测数据中因潜同质性导致的同伴效应识别问题。您非常熟悉的因果推断估计理论(estimation theory in causal inference)可用于评估该估计量的渐近性质,而中等熟悉的识别理论(identification theory)可批判性分析潜变量假设的合理性与敏感性。这是一篇完整的应用+方法论文,立即可做:已掌握的工具足以复现其分析流程或改进偏差校正方法;中期可做:若想深入网络潜变量模型的理论,需先补充对latent space模型的建模与推断知识(武器库中目前未明确涵盖),但非高门槛。

7. 10.1214/24-aoas1967 · arXiv — More power to you: Using machine learning to augment human coding for more efficient inference in text-based randomized trials

  • 作者: Reagan Mozer, Luke Miratrix
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对随机试验中文本作为结果的场景,提出一种利用机器学习增强人工编码的推断框架,在固定人工编码预算下提高统计功效。传统方法需要大量人工编码,本文通过四个步骤:1) 对样本进行人工编码;2) 从文本特征构建ML模型预测人工编码结果;3) 对所有文档生成预测并估计处理效应;4) 用人工编码与预测的残差调整估计以消除模型偏差。该框架融合因果推断、抽样理论与机器学习,确保估计渐近无偏。模拟研究和一项教育实地试验显示,能在减少人工工作量的同时保持名义检验功效。对您有用:直接联系因果推断的估计理论,且残差调整技巧与半参去偏机器学习(DML)思想相通。
  • 关键技术: causal inference for randomized trials, machine learning for text outcomes, human coding augmentation, residual adjustment for bias correction, semi-supervised inference
  • 为什么对您有用: 本文属于因果推断领域的估计效率提升方法,直接连接到您感兴趣的因果推断估计理论(very_familiar)。您可以使用熟悉的半参经验过程工具分析其渐近性质,或开发通用软件包实现该方法(软件开发技能)。立即可做:您已具备因果推断估计理论和软件开发能力,可以复现并扩展该框架到其他类型的结果变量。

非参数 / 半参数 (nonparam_semipara, 2 篇)

1. 10.1214/24-aoas1960 — Accounting for shared covariates in semiparametric Bayesian additive regression trees

  • 作者: Estevão B. Prado, Andrew C. Parnell, Rafael A. Moral, Nathan McJames, Ann O’Shea, Keefe Murphy
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Lancaster University · National University of Ireland, Maynooth
  • 分类: vol 19 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文提出半参数贝叶斯加性回归树(BART)的扩展,允许线性预测器和BART模型共享协变量,解决由此引起的估计偏差和不可识别性问题。传统半参数BART要求线性部分和树部分的协变量互斥,以避免参数估计偏差和不良覆盖性质。作者通过修改树生成移动(tree-generation moves)来调控共享协变量带来的偏差,实现了线性部分和树部分的联合识别,并使感兴趣协变量的交互效应可以被灵活建模。方法以教育评估数据(国际数学成绩)为应用背景,在模拟和基准数据集上与多种回归模型、其他半参数BART变体及树方法比较,表现出竞争性能。实现代码已开源。对您而言,该工作属于半参数回归的实用方法,可为应用研究中需要同时估计参数主效应和非参数交互效应的场景提供工具,但与您专业的核心理论方向(因果推断、高维、U统计)距离较远,属于辅助阅读。
  • 关键技术: Bayesian additive regression trees, Semiparametric model, Tree-generation moves, Non-identifiability resolution, Gibbs sampling, Shared covariates
  • 为什么对您有用: 该论文连接半参数和非参数理论兴趣中的半参数回归模型,但核心工具(BART的树生成、MCMC)不在您的技术武器库中。您熟悉非参数统计和估计理论(very_familiar),但无法直接处理树模型的贝叶斯推断。因此属于暂不可做:缺少贝叶斯非参数方法和MCMC实现的经验,若要深入,需先学习BART基础。可作为半参数方法的应用案例阅读,但与您主要研究方向的直接交集有限。

2. 10.1214/24-aoas1978 — Variable screening and spatial smoothing in Fréchet regression with application to diffusion tensor imaging

  • 作者: Lei Yan, Xin Zhang, Zhou Lan, Dipankar Bandyopadhyay, Yichao Wu, the Alzheimer’s Disease Neuroimaging Initiative
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Florida State University · Brigham and Women's Hospital · Harvard University · Virginia Commonwealth University · University of Illinois Urbana-Champaign
  • 分类: vol 19 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究高维预测变量与非欧空间响应变量之间的回归问题,具体针对扩散张量成像(DTI)中3×3对称正定(SPD)矩阵响应。提出两阶段方法:第一阶段利用度量空间中的距离协方差进行变量筛选,以约简高维SNP等基因预测变量;第二阶段推导出一种闭式解,实现对空间相关的SPD响应进行高效平滑。该方法在Fréchet回归框架下统一处理,无需迭代优化。通过数值模拟和阿尔茨海默病神经影像学倡议2(ADNI2)实际数据验证了方法性能。对您而言,该工作展示了非参数回归在高维生物医学成像数据中的应用,可连接至您在非参数理论和统计计算方面的兴趣。
  • 关键技术: Fréchet regression, distance covariance screening, spatial smoothing of SPD matrices, closed-form solution, high-dimensional variable screening
  • 为什么对您有用: 本文直接关联您对非参数统计(Fréchet回归框架)和高维变量筛选(距离协方差)的熟悉领域。其中的距离协方差筛选可通过您熟悉的U统计量理论进行理论分析(例如筛选一致性),而闭式平滑解涉及统计计算的实现。从跟进角度看:本文方法可立即用您已有的非参数和高维工具复现分析(立即可做);若需拓展到更高阶张量响应,则需先在您中度熟悉的张量收缩技术上提升(中期可做)。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)

1. 10.1214/24-aoas1975 · arXiv — A novel framework to quantify uncertainty in peptide-tandem mass spectrum matches with application to nanobody peptide identification

  • 作者: Chris McKennan, Zhe Sang, Yi Shi
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Pittsburgh
  • 分类: vol 19 · issue 1
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文针对纳米抗体肽段-串联质谱匹配中标准目标-诱饵范式因序列相似性违反假设导致错误率膨胀的问题,提出贝叶斯模型选择框架,首次在不依赖传统假设条件下同时量化所有误差来源。该方法将肽段-质谱匹配视为不完全模型空间上的贝叶斯模型选择问题,利用保留时间和谱图预测工具构建高区分度的数据生成模型,并对MS/MS谱图噪声进行了严格描述。在模拟和真实纳米抗体数据上,该方法相比现有方法显著提升了匹配准确率,有效控制了错误发现率。本文的工作为高通量蛋白质组学中的肽段鉴定提供了一种新的不确定性量化范式,其核心思想——在不完全模型空间中通过贝叶斯后验概率控制错误率——对您感兴趣的多重假设检验(特别是错误率控制)具有直接启发意义。此外,该方法的计算结构(对大量候选模型求和)与您熟悉的高阶U统计量的树宽/张量收缩计算存在潜在联系,可尝试用einsum加速其模型证据计算。
  • 关键技术: Bayesian model selection, incomplete model space, target-decoy paradigm, peptide-spectrum match, retention time prediction, MS/MS spectrum noise
  • 为什么对您有用: 本文直接涉及多重假设检验中的错误率控制问题,与您primary interests中的hypothesis testing方向高度契合。您非常熟悉的高阶U统计量树宽/einsum计算工具可直接用于加速论文中贝叶斯模型后验概率的求和运算(模型空间巨大),可视为立即可做的扩展方向:将einsum映射到贝叶斯模型选择中,实现更高效的贝叶斯错误率估计。

统计计算 / 算法 (stat_computing, 3 篇)

1. 10.1214/24-aoas1929 · arXiv — Predicting census survey response rates with parsimonious additive models and structured interactions

  • 作者: Shibal Ibrahim, Peter Radchenko, Emanuel Ben-David, Rahul Mazumder
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 5/10 · novelty: method
  • 摘要: 本文研究预测美国人口普查调查响应率的可解释非参数模型,目标是在ROAM应用中替代黑箱模型。作者提出基于ℓ0惩罚的加性模型,包含少量主效应和两两交互效应,并支持强层次交互约束。从方法论上,研究了估计量的计算和统计性质,其算法通过混合整数优化扩展了稀疏加性模型的计算前沿,能处理大规模规划数据库数据。在真实数据上,该模型预测精度与梯度提升、前馈神经网络等黑箱方法相当,同时保持了完全的可解释性。算法已开源在GitHub上。这对您统计计算兴趣中的数值算法和软件实现有直接参考价值,同时非参数建模思想可迁移至因果推断中的暴露或结果模型。
  • 关键技术: sparse additive models, ℓ0 penalization, pairwise interactions, hierarchical constraints, mixed integer optimization
  • 为什么对您有用: 本文连接您的统计计算兴趣(算法扩展实现了大规模数据的稀疏加性模型拟合)和非参数建模兴趣。技术武器库中的非参数统计和软件开发可立即用于理解其算法实现细节。中期可做:若将ℓ0稀疏交互框架用于因果推断中倾向性得分或结果回归的建模,需先在识别理论(moderately_familiar)中检验正交性条件是否保持。

2. 10.1214/24-aoas1951 · arXiv — Contour location for reliability in airfoil simulation experiments using deep Gaussian processes

  • 作者: Annie S. Booth, S. Ashwin Renganathan, Robert B. Gramacy
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对航空航天仿真中可靠性分析的核心任务——等高线定位(contour location),提出深度高斯过程(DGP)替代模型下的序贯设计方法。研究者指出DGP的后验推断依赖MCMC采样,使得基于梯度的采集函数优化不可行;同时经典采集准则如熵具有短视性,导致优化效果不佳。为此提出沿熵与预测不确定性的Pareto前沿探索的混合准则,并通过三角化候选点降低评估成本。在RAE-2822跨声速翼型仿真及其他合成基准上展示了DGP等高线定位的性能。该方法主要面向计算机实验中的非平稳响应面建模,对您作为统计计算工作者的参考在于:序贯设计与非参数替代模型结合的具体实现策略,以及MCMC后验下无梯度采集函数的设计思路。
  • 关键技术: deep Gaussian process, contour location, sequential design, Pareto front for acquisition, triangulation candidates, Bayesian MCMC inference
  • 为什么对您有用: (1) 该论文的核心主题为计算机实验中的序贯设计与替代模型,连接到您主要兴趣中的统计计算与算法。 (2) 您的武器库中software development和nonparametric statistics可用于复现或扩展其序贯设计流程,但DGP后验收缩率的理论分析工具(如贝叶斯非参数收缩率)目前不在您的熟悉列表内。 (3) 暂不可做:需要先在贝叶斯非参数理论上积累(如后验收缩率、深度GP逼近性质),才能进一步评估该方法在更一般设定下的统计性质。

3. 10.1214/24-aoas1932 — Ultra-sparse small area estimation with super heavy-tailed priors for internal migration flows

  • 作者: Jairo Fúquene-Patiño, Brenda Betancourt
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of California, Davis · University of Chicago · National Opinion Research Center
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文针对小区域内部迁移流估计问题,在Fay-Herriot模型框架下,针对稀疏和超稀疏区域效应提出了超重尾(SHT)先验。具体采用了log-Cauchy先验和由四参数贝塔密度导出的新SHT先验,并建立了后验收缩的理论性质。为适应这些先验,开发了专门的MCMC算法,可推广至其他全局-局部先验族。模拟显示在稀疏和超稀疏设置下后验估计精度优于现有先验。最终应用于哥伦比亚内部迁移数据,得到与人口动态一致的改进估计,并为官方统计人员提供了实施建议。本文涉及稀疏贝叶斯估计、MCMC算法,与您的统计计算兴趣(算法实现)和次要兴趣中的流行病学数据集应用相关,可作为稀疏建模的应用参考。
  • 关键技术: Fay-Herriot model, super heavy-tailed priors, log-Cauchy prior, four-parameter beta prior, Markov chain Monte Carlo (MCMC)
  • 为什么对您有用: 本文与您的流行病学次级兴趣(人口迁移数据集)和统计计算兴趣(MCMC算法设计)直接相连。以您very_familiar的high-dimensional asymptotics工具(例如稀疏收缩理论)可以评估该方法在超稀疏设定下的理论最优性与收敛速度,属于立即可做的方向。

天体统计 (astrostats, 1 篇)

1. 10.1214/24-aoas1958 · arXiv — Poisson cluster process models for detecting ultra-diffuse galaxies

  • 作者: Dayi Li, Alex Stringer, Patrick E. Brown, Gwendolyn M. Eadie, Roberto G. Abraham
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Toronto
  • 分类: vol 19 · issue 1
  • 相关性 8/10 · novelty: application
  • 摘要: 本文提出泊松聚类过程(PCP)模型,用于检测超弥散星系(UDGs)——一类极暗且具重要天体物理学意义的星系。模型将未观测到的UDG位置视为父点,将其老星团系统(观测到的空间点模式)视为子点,在点过程框架下反推UDG位置。进一步构建带标记的PCP模型,利用星团的亮度、大小等标记信息提升检测能力,该方法也可推广至其他学科的空间预测问题。推断采用定制的分块Gibbs自适应空间生灭移动MCMC算法,并在哈勃空间望远镜实测数据上应用。为评估模型,设计了一种针对仅有点参考真实值场景的空间预测评估工具,克服了传统ROC分析需要布尔参考图的局限。结果表明,所提模型显著优于常用的对数高斯Cox过程模型,并初步发现了一个先前方法未检测到的潜在“暗星系”。该论文是天文统计学的优秀入门读物,清晰阐述了UDG的科学背景、数据结构和建模选择,统计学家不依赖专业知识即可理解核心统计挑战。
  • 关键技术: Poisson cluster process, Marked point process, Blocked Gibbs adaptive spatial birth-death-move MCMC, Spatial prediction assessment tool, Log-Gaussian Cox process comparison
  • 为什么对您有用: 本文属于astrostatistics门户阅读的典型范例:(1) 写得很清晰——从UDG的科学重要性到空间点过程模型,再用MCMC实现,统计学家无需天文背景即可跟上思路;(2) 研究者武器库中的非参数统计和MCMC计算能力足以理解模型框架,但想深入点过程识别理论或多层次模型扩展,需在moderately_familiar的M-估计理论上做一些积累;(3) 值得花时间读完全文——它不仅示范了复杂空间模型在天文中的应用,还提出了通用的空间预测评估工具,对研究者今后处理类似隐变量空间模型有直接借鉴意义。

经济理论 / 应用 (econ_theory, 5 篇)

1. 10.1214/24-aoas1979 · arXiv — Additive density-on-scalar regression in Bayes Hilbert spaces with an application to gender economics

  • 作者: Eva-Maria Maier, Almond Stöcker, Bernd Fitzenberger, Sonja Greven
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 7/10 · novelty: application
  • 摘要: 本文受性别收入份额分布研究驱动,提出一类密度响应-标量协变量函数可加回归模型,模型在贝叶斯希尔伯特空间中建立,以在向量空间运算下保持密度非负和积分为一,且能处理连续、离散及混合密度(如女性收入份额在0和1处的点质量)。估计采用梯度提升算法,支持大量灵活协变量效应并自动进行模型选择。文章发展了贝叶斯希尔伯特空间的子组成一致性性质,使效应函数具有(odds-ratio)解释,并通过正交分解简化混合密度的估计。应用于德国SOEP数据,发现两德统一后东德夫妇的收入分布比西德更对称,且有未成年子女的夫妇面临更小的儿童惩罚,东西差异随时间缩小但持续存在。本文是经济理论(性别经济学)中应用统计方法的良好范例,清晰展现了函数型数据建模与非参数回归的实践,值得作为入门读物了解该领域的分析模式。
  • 关键技术: Bayes Hilbert spaces, functional additive regression, gradient boosting, orthogonal decomposition, subcompositional coherence, odds-ratio interpretation
  • 为什么对您有用: 本文属于经济学应用(性别收入分布),是研究者secondary interests中经济理论方向的好入门读物——它用清晰的统计语言(贝叶斯希尔伯特空间、函数回归、梯度提升)处理真实经济数据,研究者已有的nonparametric statistics和软件经验足以读懂方法框架;若要进一步分析该方法的理论性质(如收敛速率、有效影响函数),可借助moderately_familiar的semiparametric theory或higher-order U-statistics(该文正交分解与U-统计投影有所关联),但这需要先熟悉贝叶斯希尔伯特空间工具,属中期可做方向;本文提供的SOEP数据集和分析管线本身也具有迁移价值。

2. 10.1214/24-aoas1983 — Endogeneity and moments in time series momentum’s predictability test

  • 作者: Lei Jiang, Liang Peng, Zhongling Qin, Bingduo Yang
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Kent State University · Georgia State University · Auburn University · Guangdong University Of Finances and Economics · University of Finance and Economics · Guangdong University of Finance
  • 分类: vol 19 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在时间序列动量(TSM)的线性预测回归设定下,目标是检验收益率可预测性,但经典及Newey-West t检验因内生性及误差项缺乏足够有限阶矩而存在严重size扭曲。本文提出新检验方法:对误差相关性建模、采用加权最小二乘(WLS)估计,并结合随机加权bootstrap实现推断。模拟显示该检验size准确且power良好;实证重访JFE 2020数据集,发现新检验揭示的TSM可预测性远比Newey-West t检验广泛。对您可能有用:若关注经济理论中因果/预测推断的稳健性,此文提供了一套在内生性与重尾共存下仍有效的推断流程。
  • 关键技术: predictive regression, weighted least squares, random weighted bootstrap, endogeneity correction, time-series momentum
  • 为什么对您有用: 本文连接到经济理论中时间序列预测推断的稳健性设定,处理内生性与重尾误差共存下的假设检验问题。您武器库中的M-estimation theory(moderately_familiar)可直接切入分析其WLS估计量的渐近性质,而higher-order U-statistics/treewidth视角可用来审视其随机加权bootstrap的计算复杂度与高阶展开。中期可做:需先在moderately_familiar的M-estimation theory上长肌肉,以严格推导该WLS+bootstrap组合的Edgeworth展开或更高阶size/power性质。

3. 10.1214/24-aoas1972 — EBiCop: Ensemble bivariate copulas for modeling multivariate cyber data breach risks

  • 作者: Yijia Li, Quynh Nhu Nguyen, Maochao Xu, Peng Zhao, Taizhong Hu
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Science and Technology of China · The University of Texas at San Antonio · Illinois State University · Jiangsu Normal University
  • 分类: vol 19 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对网络数据泄露风险的多元依赖性建模问题,提出一种基于二元Copula的集成学习方法(EBiCop)。与传统直接建模多元依赖不同,该方法先将各时间序列与截面序列通过二元Copula拟合生成预测成员,再通过最小化分布评分来校准集成预测分布。该方法有效捕捉了风险间的时变与截面依赖,且在有限数据下表现稳健。通过模拟与真实数据验证,EBiCop在拟合与预测上优于现有模型,并将其应用于保险定价,结果显示能带来更盈利的合同。该方法为保险精算中的多元风险建模提供了新的工具,其集成校准思路具有一定的推广价值。对您而言,本文属于经济理论(保险定价)应用方向,您可借助非参数统计基础理解Copula方法,作为进入经济风险建模领域的入门读物。
  • 关键技术: bivariate copulas, ensemble learning, distributional score minimization, predictive calibration, multivariate dependence modeling
  • 为什么对您有用: 本文属于经济理论(保险定价)的应用,连接研究者 secondary interest 中的经济理论(数据集、模型)方向。基于非参数统计的武器库(very_familiar),研究者可轻松读懂 Copula 方法的核心逻辑,且本文作为入门级应用论文,适合评估是否值得深入跟进该领域。读全文可获取保险精算中多元风险建模的实战思路,以及集成校准的具体实现。

4. 10.1214/24-aoas1956 — Has the Covid-19 outbreak capsized the predictive performance of Bayesian VAR models with cointegration and time-varying volatility?

  • 作者: Anna Pajor, Łukasz Kwiatkowski, Justyna Wróblewska
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Krakow University of Economics
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 本文在Bayesian VAR/VEC模型框架下,研究了考虑协整关系和时变波动性(stochastic volatility + GARCH)对宏观经济预测表现的影响,重点考察Covid-19疫情是否改变了这些模型的有效性。使用五个经济体的数据,对比了疫情前和疫情期间的预测误差。方法上采用了贝叶斯后验更新(是否暂停更新)和多种波动率设定,通过预测评分进行模型比较。核心发现:协整关系在正常时期提升预测,但在经济危机(如疫情)时反而降低预测精度;暂停后验更新仅在极少数情况下改善预测。本文是一篇严谨的应用论文,提供了完整的实证分析和模型比较框架,对关注经济时间序列预测或危机期间模型稳健性的研究者有参考价值。研究者可将其中预测评估思路(预测区间、评分规则)迁移至因果推断中的反事实预测或外推问题。
  • 关键技术: Bayesian VAR/VEC, cointegration, stochastic volatility, GARCH, predictive performance evaluation, posterior updating
  • 为什么对您有用: 本文直接对应您的secondary interest中的经济理论(应用因果工作、宏观数据集),尤其是Covid-19冲击下预测模型的行为比较。您的技术武器库中'软件开发和数值方法'可帮助复现该模型的预测评估流程,'高维渐近'经验可用于理解VAR估计量的有限样本性质。作为应用导向的gateway阅读,本文清晰展示了贝叶斯VAR/VEC在危机情景下的敏感性分析框架,值得花费时间通读全文以提取可移植的预测评估策略。

5. 10.1214/24-aoas1959 — The short-term dynamics of conflict-driven displacement: Bayesian modeling of disaggregated data from Somalia

  • 作者: Gregor Zens, Lisa Thalheimer
  • 期刊/来源: Annals of Applied Statistics
  • 机构: International Institute for Applied Systems Analysis · United Nations · NationsUniversity
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 本文研究了冲突驱动的人口短期流动动态,利用索马里2008-2018年高分辨率网格数据(约10km×10km),构建贝叶斯分层时空模型。模型将月度人口迁移率作为响应变量,引入冲突事件的空间距离加权暴露量、降水偏离、粮食价格等协变量,并通过条件自回归(CAR)先验捕捉空间依赖、AR(1)过程刻画时间序列自相关。核心估计采用集成嵌套拉普拉斯近似(INLA)实现快速后验推断,避免了传统MCMC的计算负担。结果表明,冲突事件显著提升了邻近网格的人口流出概率,且效应在1-2个月内达到峰值,随后快速衰减,空间溢出范围约50km。该框架能够分解冲突的直接效应(发生地)与间接效应(邻近区域),为人道主义应急提供了定量依据。对您而言,这是一篇高质量的实证应用,展示了如何在纵向空间面板数据中利用贝叶斯方法估计因果效应,其数据结构和识别策略可迁移至流行病学中的空间疾病扩散或经济学中的政策溢出效应研究。
  • 关键技术: Bayesian hierarchical model, integrated nested Laplace approximation (INLA), conditional autoregressive (CAR) prior, spatio-temporal AR(1) process, disaggregated grid-level data, conflict exposure weighting
  • 为什么对您有用: 本文连接您的二级兴趣“经济理论(应用、数据集、因果推断)”,提供了一个冲突经济学中空间因果推断的典型范例。您武器库中very_familiar的“high-dimensional asymptotics”可用于分析贝叶斯时空模型中随机效应维度过高时的收缩性质,而moderately_familiar的“identification theory in causal inference”可直接评估其冲突暴露变量外生性假设的合理性。本文可作为进入“冲突与人口迁移”应用领域的入门读物,数据结构和建模思路值得花时间仔细阅读,以积累纵向空间因果分析的实际经验。

流行病学 (epidemiology, 8 篇)

1. 10.1214/24-aoas1948 · arXiv — Inferring synergistic and antagonistic interactions in mixtures of exposures

  • 作者: Shounak Chattopadhyay, Stephanie M. Engel, David Dunson
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在环境流行病学混合暴露(mixtures)设定下,目标是识别多化学物对健康结局的协同与拮抗交互效应,核心 estimand 为 pairwise interaction departure from additivity。现有参数方法过于刚性,无约束非参数方法受维度诅咒导致曲面过度 wiggle 且不可解释。本文提出 SAID(Synergistic Antagonistic Interaction Detection)框架:将 dose-response surface 分解为 additive main effects 与 pairwise interaction effects,采用 Bayesian variable selection 对每个交互分量做稀疏先验以检测协同/拮抗方向。模拟与 NHANES 真实数据表明 SAID 在可解释性与交互检测上优于现有 Bayesian kernel regression 与 quantile g-computation 等方法。对您可能有用:该文提供了流行病学混合暴露交互效应的贝叶斯分解建模范式,可作为 secondary interest 中流行病学因果应用的入门案例。
  • 关键技术: Bayesian variable selection, response surface decomposition, spike-and-slab prior, synergy/antagonism detection, mixtures exposure modeling
  • 为什么对您有用: 本文属于流行病学混合暴露的应用方法论文,将 dose-response 分解为 main + pairwise interaction 的思路与因果推断 mediation / interaction identification 有概念对接,但核心是贝叶斯稀疏先验而非 semiparametric efficiency 或 minimax 理论。(1) 连接到 epidemiology secondary interest,提供了混合暴露交互效应的数据集(NHANES)与建模范式;(2) 武器库中 semiparametric theory / HOIF 可用于审视其 pairwise interaction 分解是否可改造为 one-step / debiased 估计以获得 n^{-1/2}-CAN 与效率界,这是贝叶斯框架未触及的理论口子;(3) 中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将 Bayesian variable selection 换为 orthogonal score / cross-fitting 框架做 interaction estimand 的 efficient inference。

2. 10.1214/24-aoas1989 · arXiv — Functional clustering for longitudinal associations between social determinants of health and stroke mortality in the U.S.

  • 作者: Fangzhi Luo, Jianbin Tan, Donglan Zhang, Hui Huang, Ye Shen
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 6/10 · novelty: application
  • 摘要: 本文研究美国县级社会决定因素(SDOH)与中风死亡率的纵向关联异质性,目标是基于时变系数轨迹对区域进行数据驱动的聚类划分。作者提出带稀疏-平滑联合惩罚的正则化 EM 算法,在纵向关联模型中同时完成聚类与变量选择,识别驱动中风死亡率纵向变化的关键 SDOH。方法通过 penalty 强制组内系数共享稀疏与平滑结构,提升聚类结果的可解释性;数值实验验证了聚类与选变量的联合恢复性质。实证将美国 county 分为两簇并筛出 18 个关键 SDOH,揭示了纵向关联的区域异质性。对您而言,本文是流行病学纵向数据聚类与选变量的应用案例,展示了 penalty-based EM 在高维纵向关联中的操作方式。
  • 关键技术: regularized EM algorithm, sparsity-and-smoothness penalty, longitudinal functional clustering, variable selection in clustering, time-varying coefficient model
  • 为什么对您有用: 本文属于流行病学纵向数据应用,用 penalty-based EM 做聚类与选变量,estimand 是时变系数轨迹而非因果效应,因此与您 primary 的 causal identification / efficiency theory 无直接交集。您武器库中的 M-estimation theory(moderately_familiar)可以用来审视其 EM 目标函数的收敛与 penalty 的 oracle 性质,但核心是实证发现而非方法学突破。中期可做:若想进入流行病学纵向异质性建模,需先在 moderately_familiar 的 M-estimation 上长肌肉以严格分析其 penalized EM 的理论性质;作为 gateway reading,本文数据与模型描述清晰,值得花时间读实证部分以了解流行病学纵向关联分析的主流范式。

3. 10.1214/24-aoas1988 · arXiv — Low-rank longitudinal factor regression with application to chemical mixtures

  • 作者: Glenn Palmer, Amy H. Herring, David B. Dunson
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 6/10 · novelty: application
  • 摘要: 在发育流行病学设定下,目标是推断多个孕期化学暴露(BPA/邻苯二甲酸酯)对青少年葡萄糖代谢的纵向因果效应,面临暴露高相关、非线性与高维诅咒的挑战。本文提出 Low-rank longitudinal factor regression (LowFR),通过贝叶斯动态因子模型降维处理高相关暴露,并与健康结局联合拟合(factor regression)。模型在数据支持时自动扩展至灵活的时变与交互效应,否则坍缩为更简子模型,体现贝叶斯模型选择/收缩机制。模拟与 ELEMENT 研究数据分析发现,第1-2孕期 DEHP 与 DBP 代谢物水平与青少年糖代谢改变相关。对您而言,本文展示了流行病学队列中多暴露纵向效应的贝叶斯降维推断范式,可作为 epidemiology secondary interest 的入门实证阅读。
  • 关键技术: Bayesian dynamic factor model, factor regression, low-rank longitudinal modeling, Bayesian model shrinkage/coalescence, time-varying exposure effects
  • 为什么对您有用: 本文属于 epidemiology secondary interest 的应用实证论文,提供了多暴露纵向效应推断的完整数据-模型范式(ELEMENT 队列),可作为该方向的入门读物了解流行病学暴露混合分析的现实挑战。武器库中 Bayesian nonparametrics/semiparametric theory 不在 very/moderately_familiar 列表,核心贝叶斯因子降维机器暂缺,但因果 identification theory (moderately_familiar) 可作为后续切入点审视其效应可识别性假设。是否值得花时间读全文:若想进入流行病学多暴露因果推断领域,值得快速浏览其模型设定与数据结构;若仅关注理论推进,则无需深读。

4. 10.1214/24-aoas1914 — Leveraging cellphone-derived mobility networks to assess Covid-19 travel risk

  • 作者: Justin J. Slater, Patrick E. Brown, Jeffrey S. Rosenthal, Jorge Mateu
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Guelph · University of Toronto · Universitat Jaume I
  • 分类: vol 19 · issue 1
  • 相关性 5/10 · novelty: application
  • 摘要: 在 Covid-19 大流行背景下,研究人群流动性下降对感染率的影响程度,目标 estimand 为旅行风险量化与流动性-感染因果效应。在 endemic-epidemic 框架下,将时变移动网络数据作为协变量融入模型,构建带网络结构的时空泊松回归,估计跨区域传播风险参数。核心机制利用移动网络矩阵刻画区域间交互强度,通过条件自回归(CAR)先验与随机效应捕捉时空异质性,给出各区域出行风险的后验推断。实证分析基于西班牙两个社区的手机移动数据与感染计数,结果显示封锁显著降低跨区传播风险,但内部 endemic 传播仍占主导。对您可能有用:该文展示了流行病学中时空网络数据与因果干预评估的结合,可作为 epi 领域因果推断应用的入门案例。
  • 关键技术: endemic-epidemic modeling, mobility network integration, spatiotemporal Poisson regression, conditional autoregressive prior, Bayesian posterior inference
  • 为什么对您有用: 本文属于流行病学因果干预评估的应用案例,连接到 epi 子方向中'干预对感染率的影响'这一经典问题。武器库中'identification theory in causal inference'可用来审视其从流动性到感染率的因果识别假设(如未观测混杂、时空溢出),当前框架本质是条件回归而非正式因果模型。中期可做:需先在 moderately_familiar 的 'identification theory in causal inference' 上长肌肉,将时空网络数据纳入潜在结果或 IV 框架,才能把该文的描述性关联升级为正式因果推断。

5. 10.1214/24-aoas1964 · arXiv — A three-state coupled Markov switching model for COVID-19 outbreaks across Quebec based on hospital admissions

  • 作者: Dirk Douwes-Schultz, Alexandra M. Schmidt, Yannan Shen, David L. Buckeridge
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 4/10 · novelty: application
  • 摘要: 在魁北克 30 家最大医院的新冠住院数据设定下,目标是估计各收治区域的三态(absence / endemic / outbreak)隐状态轨迹及空间传播效应。作者提出贝叶斯三态耦合 Markov switching 模型,将各区域疾病演化建模为非齐次隐 Markov 链,转移概率依赖协变量与邻域 outbreak 状态以刻画地理扩散。为抑制 endemic 与 outbreak 间的快速切换并强制最短持续时间,引入 clone states 结构。实证发现零售娱乐移动性与 outbreak 发生及持续强正相关;模型比较显示该方法在小区域与高空间同步 outbreak 场景下,回顾性与实时状态估计均优于传统模型。对您可能有用:本文是流行病学空间隐状态建模的 gateway reading,展示了如何用耦合 HMM 处理区域间因果溢出与零膨胀问题。
  • 关键技术: coupled hidden Markov model, Bayesian Markov switching, clone states for duration enforcement, spatial neighborhood transition dependence, zero-inflated state modeling
  • 为什么对您有用: 本文属于流行病学应用与 gateway reading:(1) 作为入门读物,它对外行统计学家友好,清晰展示了空间耦合 HMM 如何建模区域间疫情溢出与零膨胀,数据与模型结构交代充分;(2) 武器库中的 M-estimation theory 与软件开发经验足以支撑研究者理解并复现其贝叶斯计算流程,但耦合 HMM 的精细理论(如状态估计的渐近性质)不在库中;(3) 值得花时间读全文以了解流行病学空间时间数据的典型结构,但若想在此方向做理论跟进(如耦合 HMM 的效率界),需先在 moderately_familiar 的 identification theory 上长肌肉。

6. 10.1214/24-aoas1946 · arXiv — PoD-BIN: A probability of decision Bayesian interval design for time-to-event dose-finding trials with multiple toxicity grades

  • 作者: Meizi Liu, Ji Lin, Gu Mi, Christelle Lorenzato, Xun Chen, Yuan Ji
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 该论文针对时间-事件剂量探索试验提出了一种基于决策概率的贝叶斯区间设计(PoD-BIN)。研究同时建模轻度毒性和剂量限制性毒性两种等级,并将毒性发生时间作为主要结局变量,从而允许在先前患者未完成毒性随访时入组新患者,缩短试验周期。PoD-BIN的核心机制是计算升降决策的后验预测概率,并通过概率阈值平衡加速入组与避免过高毒性风险。方法在数值模拟中与现有设计比较,展示了在试验速度和安全性之间的良好权衡。该设计为多毒性等级下的时间-事件数据提供了灵活的贝叶斯决策框架,但未使用真实数据。对您而言,这是一篇流行病学临床试验设计的应用文献,可了解贝叶斯决策在剂量探索中的具体实现。
  • 关键技术: Bayesian decision rules, posterior predictive probability, time-to-event modeling, dose-finding trial, multiple toxicity grades
  • 为什么对您有用: 本文属于流行病学中的临床试验设计方向,与您的secondary interest直接对接。您技术武库中的软件开发和估计理论可用于复现数值实验并评估决策规则的统计稳定性。作为应用型文献,阅读门槛低,立即可读,但方法学核心(贝叶斯决策)不在您当前主要武器库中,暂不建议深挖理论。

7. 10.1214/24-aoas1968 · arXiv — Tracing the impacts of Mount Pinatubo eruption on regional climate using spatially-varying changepoint detection

  • 作者: Samantha Shi-Jun, Lyndsay Shand, Bo Li
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 本文研究 1991 年 Pinatubo 火山爆发对区域气候的时空异质性影响,estimand 为气候变量(如平流层气溶胶光学厚度与地表温度)在空间各点的变点位置与幅度。作者提出 Bayesian spatially-varying changepoint 模型,假设变点发生时间随空间扩散且观测间存在空间相关性,通过 MCMC 进行后验推断。模拟实验显示该方法在恢复空间扩散型变点方面优于忽略空间结构的传统变点检测。实证分析 1985–1995 年月度气候网格数据,定量刻画了火山影响的空间传播模式。对您而言,本文展示了流行病学/环境健康领域处理空间干预效应的数据结构与建模思路。
  • 关键技术: Bayesian spatially-varying changepoint, spatial correlation modeling, MCMC posterior inference, spatial diffusion process
  • 为什么对您有用: 本文属于环境流行病学/气候影响评估的应用统计工作,核心是空间变点检测而非因果推断或高维理论,方法学 novelty 有限(novelty_flag = application)。作为 gateway reading:它清晰展示了空间网格气候数据(含噪声与空间相关性)的结构与建模方式,对想进入空间流行病学数据集的研究者有一定入门价值。但武器库中的因果推断与高维工具无法直接攻入此文的 Bayesian 变点设定,且缺乏 semiparametric efficiency 或 minimax 视角,读摘要即可判断是否需要深入。

8. 10.1214/24-aoas1970 — Dynamic prediction with multivariate longitudinal outcomes and longitudinal magnetic resonance imaging data

  • 作者: Haotian Zou, Luo Xiao, Donglin Zeng, Sheng Luo
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Duke University · North Carolina State University · University of Michigan
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对阿尔茨海默病(AD)进展预测问题,提出了多元功能混合模型(MFMM-LMRI),联合建模纵向神经学评分、纵向体素级MRI数据和痴呆发作的生存结局。模型采用联合个体变异解释(JIVE)方法对高维MRI数据进行降维,提取共享和个体变异成分。引入两种功能形式(瞬时模型和累积模型)链接纵向过程和生存风险,并利用马尔可夫链蒙特卡洛(MCMC)进行贝叶斯推断。在此基础上构建动态预测框架,可随着新随访数据更新纵向轨迹和痴呆发生概率。模拟实验验证了方法在不同样本量和事件率下的有效性。应用于ADNI研究,发现ApoE-ε4等位基因和更高的潜在疾病特征与痴呆风险显著正相关,且包含纵向MRI的瞬时模型在拟合和预测上表现最佳。该论文是流行病学中纵向生存数据联合建模的典型应用,其高维MRI降维策略和动态预测框架可利用研究者熟悉的高维统计工具进行理解与拓展。
  • 关键技术: Joint and Individual Variation Explained (JIVE), multivariate functional mixed model, Markov chain Monte Carlo, dynamic prediction, longitudinal survival modeling
  • 为什么对您有用: (1)本文属于流行病学(secondary interest)中阿尔茨海默病的纵向数据建模应用,其联合建模和动态预测思路可作为进入该领域的入门读物;(2)论文中使用JIVE对高维MRI降维,可连接研究者熟悉的high-dimensional statistics工具(如随机矩阵理论中的谱分解思路),而纵向动态预测框架则可利用nonparametric statistics中的函数型数据分析经验;(3)follow-up 粗判:中期可做——研究者需先在贝叶斯MCMC和JIVE具体实现上适度熟悉(当前不属于very_familiar),但论文的方法框架清晰,值得花时间全文阅读以评估其数据结构和模型假设的可迁移性。

其他 (other, 8 篇)

1. 10.1214/24-aoas1895 — Periodogram regression: A two-stage mixed effects approach for modelling multiple integer-valued time series of tropical cyclone frequency

  • 作者: Lyuyuan Zhang, Guoqi Qian, Sourav Das
  • 期刊/来源: Annals of Applied Statistics
  • 机构: The University of Melbourne · James Cook University
  • 分类: vol 19 · issue 1
  • 相关性 6/10 · novelty: application
  • 摘要: 本文针对多个热带气旋频率的整数值时间序列,提出一种两阶段半参数回归框架。第一阶段利用广义线性模型拟合大尺度环境协变量(如ENSO)的效应;第二阶段在频域利用谱分析捕捉时间序列的随机变异性,包括空间异质性和周期性。采用纵向数据视角联合建模区域间相关性和时间二阶平稳性,并使用最佳线性无偏预测(BLUP)进行一步预测。方法优势在于不必假设参数化的整数值时间序列模型,且能检验空间异质性和二阶平稳性。对澳大拉西亚多个气象区域的数据分析证实热带气旋频率短期的下降趋势。本文展示了频域半参方法在处理多个计数时间序列时的实用价值,对统计应用领域(如气候、流行病计数序列)有参考意义。
  • 关键技术: periodogram regression, two-stage semiparametric model, spectral analysis of integer-valued time series, best linear unbiased prediction, generalized linear models, mixed effects in frequency domain
  • 为什么对您有用: 本文与您的『非参数/半参数理论』兴趣有交集,特别在频域半参建模方面;您的武器库中『非参数统计』和『高维渐近』可用于理解谱估计的半参性质。但本文是应用导向,方法本身不涉及效率理论或高阶U统计,属于中期可读方向:需先熟悉时间序列频域分析和谱密度估计(不在当前熟练工具中)。

2. 10.1214/24-aoas1961 · arXiv — Statistical inference for regression with imputed binary covariates with application to emotion recognition

  • 作者: Ziqian Lin, Danyang Huang, Ziyu Xiong, Hansheng Wang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 该论文提出了一种针对二值协变量缺失时的回归推断方法,应用于直播带货场景中的主播情绪识别。核心设定是:一个小的 pilot 样本同时观测了目标二值情绪变量与廉价可得的辅助特征,而全样本仅能收集辅助特征。方法通过 pilot 样本拟合回归模型(如逻辑回归),再利用该模型对全样本的缺失情绪状态进行插补。作者建立了插补后回归推断的渐近理论,并证明该方法比仅使用 pilot 样本具有更小的标准误和更高的统计效率。数值模拟和真实情绪识别数据集验证了方法的有效性。该论文对您可能有用的点在于:插补框架可推广至因果推断中的协变量缺失问题,但当前应用与您的主要兴趣领域(因果推断、半参理论)距离较远。
  • 关键技术: imputation, pilot sample, binary regression, asymptotic inference, auxiliary features, standard error reduction
  • 为什么对您有用: 该论文处理的二值协变量缺失问题在因果推断(如混杂变量缺失)中普遍存在,可视为与‘因果推断中的缺失数据处理’子方向相关。您熟悉的非参数统计(如核回归、sieve 方法)可用于放松该文的参数回归假设,发展更灵活的插补模型。但目前论文仅针对具体应用场景,缺乏对识别假设的深入讨论,直接迁移到您的因果推断工作需先在 moderately_familiar 的‘半参理论’上提升对 influence function 的理解,因此归类为‘中期可做’。

3. 10.1214/24-aoas1965 · arXiv — Disentangling the structure of ecological bipartite networks from observation processes

  • 作者: Emre Anakok, Pierre Barbillon, Colin Fontaine, Elisa Thebault
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 3/10 · novelty: application
  • 摘要: 本文研究生态二分网络的真实结构识别问题。由于野外采样有限且不均匀,观测到的交互网络可能反映采样偏差而非真实生态现象。作者将潜在区块模型(LBM)与观测模型结合,用加权二分网络中观测到的交互次数估计各物种的采样努力,从而校正LBM拟合。提出了一种原创推理过程(基于MCMC或变分推断),并通过模拟验证其有效性。在大型植物-传粉者网络数据集上展示了实际应用价值。对您来说,该工作展示了如何将观测过程建模融入结构发现,其中校正采样偏差的思路可迁移到因果推断中的测量误差或缺失数据问题。
  • 关键技术: Latent Block Model, observation model for sampling bias, species sampling effort estimation, bipartite network analysis
  • 为什么对您有用: (1)连接到因果推断中“测量误差校正”子方向:观测模型与潜在结构框架可类比于用负对照或代理变量处理不可观测混淆;(2)研究者的非参数统计(very_familiar)和识别理论(moderately_familiar)可用于分析观测模型与LBM联合模型的可识别性,但论文以应用为主,理论分析不足;(3)作为生态学应用,暂不可直接切入核心兴趣,属于中期可做的迁移方向——需先在识别理论上提升,再转化到因果推断中的类似设定。

4. 10.1214/24-aoas1969 — A spatial autoregressive random forest algorithm for small-area spatial prediction

  • 作者: Cara MacBride, Vinny Davies, Duncan Lee
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Glasgow
  • 分类: vol 19 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在空间面单元数据存在缺失或抑制值的设定下,目标是利用特征-响应非线性关系与残差空间自相关性进行小区域空间预测。本文提出 SPAR-Forest 算法,将随机森林与贝叶斯条件自回归(CAR)或空间自回归(SAR)模型迭代融合:先由随机森林拟合非线性特征关系,再由 CAR/SAR 模型捕捉残差空间结构,两者交替更新直至收敛。该方法避免了纯机器学习忽略空间自相关、纯贝叶斯空间模型缺乏非线性表达力的双重局限。模拟与苏格兰房产价格数据集的实证结果显示,SPAR-Forest 在预测精度上优于单独的贝叶斯 CAR/SAR、随机森林及地理随机森林等混合方法。对您而言,本文展示了空间自回归结构在机器学习迭代框架中的嵌入方式,可作为了解空间统计与 ML 融合计算模式的入门参考。
  • 关键技术: spatial autoregressive (SAR) model, conditional autoregressive (CAR) prior, random forest, iterative refitting algorithm, small-area spatial prediction
  • 为什么对您有用: 本文属于空间统计与机器学习融合的应用方法,与您核心的因果推断/高维/半参数理论距离较远。(1) 仅在空间自回归(SAR)结构上与经济理论中的空间计量模型有弱关联,但未涉及因果识别或半参数效率;(2) 武器库中的 M-estimation theory 或 higher-order U-statistics 无法直接切入其迭代拟合的计算复杂性分析;(3) 判定:暂不可做——核心机器(空间贝叶斯层次模型与随机森林的迭代收敛理论)不在武器库内,且缺乏理论收敛率/效率界分析,对您的研究方向无直接推进。若仅作为空间统计入门读物可快速浏览,但不值得花时间深读全文。

5. 10.1214/24-aoas1966 · arXiv — Comparative judgement modelling to map forced marriage at local levels

  • 作者: Rowland Seymour, Albert Nyarko-Agyei, Helen McCabe, Katie Severn, David Sirl, Theodore Kypraios et al.
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究如何在保护受害者隐私的前提下,对局部区域人权侵害(强迫婚姻)风险进行空间映射。核心 estimand 是区域潜在风险得分,设定基于比较判断(comparative judgement)的 latent variable 模型与空间先验。作者改进了现有比较判断模型,引入更灵活的空间建模结构(likely GP / CAR prior)与主动调度比较的机制,从而在参与者数量稀少时仍能完成研究。理论层面,latent variable 表示提升了模型的可扩展性(scalability),但摘要未给出具体的收敛率或后验一致性结果。实证上,方法成功绘制了 Nottinghamshire 各区域的强迫婚姻风险地图,支撑了当地干预策略。对您而言,本文展示了比较判断这一非标准数据收集模式下的 latent variable / 空间建模思路,可作为流行病学或社会科学应用中隐私约束下空间推断的案例参考。
  • 关键技术: comparative judgement modelling, latent variable representation, spatial prior specification, active comparison scheduling, Bayesian posterior inference
  • 为什么对您有用: 本文属于流行病学/社会科学应用范畴,核心是隐私约束下的空间风险映射,与您主攻的因果推断/高维/半参数理论无直接方法交集。作为 gateway reading,它较好地展示了比较判断数据结构如何转化为 latent variable 模型,但未深入展开后验收敛或 minimax 理论,对统计理论研究者入门价值有限。武器库中的非参数统计与软件开发经验可理解其建模与计算,但无需动用 HOIF / 高维渐近等核心武器。中期可做:若未来想探索比较判断数据下的半参数效率界或高维空间先验的可扩展性,需先在 moderately_familiar 的 M-estimation theory 上长肌肉以建立理论框架。

6. 10.1214/24-aoas1957 · arXiv — Estimating product cannibalisation in wholesale using multivariate Hawkes processes with inhibition

  • 作者: Isabella Deutsch, Gordon J. Ross
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究批发市场中产品间的蚕食效应,即一种产品销售因竞争产品而下降的现象,使用国际公司的真实批发数据集。核心模型是带交叉抑制效应的多变量 Hawkes 过程,其中跨维度负激励参数直接刻画蚕食强度。为解决抑制情形下强度函数积分困难,作者提出了新的数值计算方案,并给出了比现有条件更宽松的过程稳定性充分条件。在贝叶斯推断框架下,通过重参数化设计了与维度无关的交叉抑制参数先验分布。对您而言,本文展示了点过程模型在经济学数据中的具体应用,但方法学核心是 Hawkes 过程的稳定性与积分计算,与您的因果推断或高维统计武器库交集有限。
  • 关键技术: multivariate Hawkes process, cross-inhibition effect, stability conditions for point processes, Bayesian prior reparametrisation, intensity function integration
  • 为什么对您有用: 本文属于经济理论/数据集方向的实证应用,核心是带负激励的 Hawkes 过程建模蚕食效应,而非因果推断框架下的 identification 或 semiparametric efficiency。(1) 连接经济理论数据集子方向,提供了一份真实的批发销售数据与多变量时间序列建模案例;(2) 武器库中的 causal identification theory 与 M-estimation theory 无法直接攻入此文的 Hawkes 过程稳定性与贝叶斯推断口子,因核心机器(点过程随机分析与 MCMC)不在库中;(3) 暂不可做:若想进入此方向,需先补齐连续时间点过程理论(特别是 branching ratio 与稳定性条件)与贝叶斯计算肌肉。

7. 10.1214/24-aoas1985 — Inferring mechanistic parameters of somatic hypermutation using neural networks and approximate Bayesian computation

  • 作者: Thayer Fisher, Kevin Sung, Noah Simon, Julia Fukuyama, Frederick A. Matsen IV
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Washington · Cape Town HVTN Immunology Laboratory / Hutchinson Centre Research Institute of South Africa · Fred Hutch Cancer Center · Indiana University – Purdue University Indianapolis
  • 分类: vol 19 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对体细胞高频突变(SHM)这一免疫过程建立了概率潜变量模型,将抗体基因座上的核苷酸剥离、错误倾向修复等生化步骤抽象为一系列相互作用的潜在机制,弥补了此前计算模型缺乏显式机制描述的不足。模型似然函数复杂难以直接计算,作者采用近似贝叶斯计算(ABC)结合神经网络密度估计实现参数推断。通过模拟数据验证,发现大部分机制参数(如突变率、剥离概率)可被准确估计,但涉及剥离区域边界的参数因数据信息有限而估计难度较大。该工作将神经网络回归作为ABC摘要统计的降维工具,提高了模拟退火阶段的效率。方法上整体属于应用现有统计计算工具解决免疫学领域的新问题。对于您而言,本文验证了ABC在复杂潜变量模型中的应用价值,但您当前武器库中缺乏ABC核心工具(如摘要统计选择、模拟-校准循环),属于暂不可做的方向。
  • 关键技术: approximate Bayesian computation, neural network density estimation, probabilistic latent variable model, simulation-based inference, mechanistic model fitting
  • 为什么对您有用: 虽非您的主要兴趣方向(因果/高维/半参),但本文属于统计计算中模拟推断方法的典型应用,与您的统计计算兴趣有间接联系。然而,您目前的very_familiarmoderately_familiar武器库中均无ABC相关工具,导致无法直接迁移其分析模式。若未来计划深入统计计算,可先阅读ABC入门文献,再评估本文框架是否适用于您熟悉的因果推断或高维问题。当前评为暂不可做。

8. 10.1214/24-aoas1974 · arXiv — Nested Dirichlet models for unsupervised attack pattern detection in honeypot data

  • 作者: Francesco Sanna Passino, Anastasia Mantziou, Daniyar Ghani, Philip Thiede, Ross Bevington, Nicholas A. Heard
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 19 · issue 1
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文针对网络安全蜜罐数据中的终端会话命令,提出了一种基于狄利克雷分布主题模型的无监督聚类方法,目标是发现具有共同意图的攻击模式并识别异常。模型引入了主要主题和次要主题、会话级和命令级主题的概念,以提升可解释性。进一步采用贝叶斯非参数扩展,允许词汇量和潜在意图数目无界,适应未知的攻击类型。方法通过MCMC进行后验推断,并应用于真实蜜罐数据,成功检测出一种针对加密货币挖矿基础设施的MIRAI变种,而传统方法未能发现。尽管该工作主要贡献在应用与建模层面,但其非参数贝叶斯框架与非参数统计理论有技术重叠。对您而言,本文可视为贝叶斯非参数在结构化序列数据上的一种应用案例,但领域差异较大,直接迁移性有限。
  • 关键技术: Dirichlet process mixture models, nested topic models, Bayesian nonparametric, unsupervised clustering, Markov chain Monte Carlo, command-line syntax modeling
  • 为什么对您有用: 本文应用贝叶斯非参数主题模型对网络蜜罐数据进行无监督聚类,识别攻击模式。与您的主要兴趣方向(因果推断、高维统计等)关联较弱,但其中使用的狄利克雷过程可视为非参数统计的一种贝叶斯扩展。您熟悉的非参数统计和统计计算工具可用于评估其MCMC算法的收敛性和效率,但需要投入大量时间学习网络安全领域的背景知识。因此,目前暂不可做实际跟进。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论