AoAS — Vol 17 Issue 2 · 2026-06-24¶
- 共 37 篇 · Annals of Applied Statistics
- 目录核对 ⚠️ 疑似漏 2 篇(对照 OpenAlex 39 篇):10.1214/22-aoas1695、10.1214/22-aoas1670
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期内容呈现出鲜明的应用驱动与方法融合特征,主要脉络可归纳为因果推断方法拓展、复杂纵向与生存数据建模、高维假设检验与变量选择、以及大规模贝叶斯计算四条主线。因果推断主线最为壮大,涵盖工具变量、平衡权重、随机化推断及替代标记等议题;纵向与生存数据建模则集中处理区间删失、测量误差与联合建模;计算方法部分重点关注变分推断与MCMC诊断在超大规模数据中的应用。
因果推断主线在本期推进了多个具体场景下的识别与估计策略。针对未观测混杂与测量误差,多篇论文引入了不同的平衡与校正工具:剖宫产研究利用医生偏好作为工具变量,提出基于Glover算法的近-远匹配以解决大数据集计算瓶颈;医院质量比较与Medicaid扩张效应研究则分别发展了近似平衡权重与回归校正平衡权重,前者用于目标总体标准化,后者旨在校正区域层面协变量测量误差。在更复杂的实验设计与代理指标上,登革热研究的随机化推断框架通过log-contrast估计量解决了聚类随机化检测阴性设计中的行为差异偏差;病例队列设计下的替代标记评估则结合了中介分析与工具变量分析,量化疫苗效力的介导比例。此外,DAG估计与高斯过程面板模型分别从图模型结构学习与非参数贝叶斯反事实层面提供了因果结构识别与政策效应评估的新工具。
假设检验与计算方法主线同样有实质性进展。针对高维与复杂数据结构,distinct方法利用置换检验比较完整分布差异,填补了单细胞数据均值检验之外的空白;带侧信息的Knockoffs滤波器与微生物组数据的截断秩检验,分别在FDR控制与零膨胀问题上提升了检验功效。计算方法方面,贝叶斯Cox回归与非齐次隐马尔可夫模型均采用变分推断或SVI策略突破大规模数据内存瓶颈;MCMC系统发育推断则引入滞后耦合技术改进收敛诊断。此外,多篇流行病学论文(如HIV疫苗研究、超额死亡估计)展示了如何在具体约束(如左删失、多源数据整合)下构建鲁棒的联合模型或分层模型。
对于关注因果推断与半参数效率的研究者,建议优先阅读近似平衡权重、近-远匹配、CR-TND随机化推断及病例队列替代标记评估四篇,它们在识别策略与估计量构造上最为集中;处理高维变量选择与假设检验问题的读者可关注带侧信息的Knockoffs与distinct方法;面对大规模数据计算挑战的读者可参考贝叶斯Cox回归与变分推断相关论文。
因果推断 (causal_inference, 8 篇)¶
1. 10.1214/22-aoas1691 — The risk of maternal complications after cesarean delivery: Near-far matching for instrumental variables study designs with large observational datasets¶
- 作者: Ruoqi Yu, Rachel Kelz, Scott Lorch, Luke J. Keele
- 期刊/来源: Annals of Applied Statistics
- 机构: University of California, Davis · University of Pennsylvania · Children's Hospital of Philadelphia
- 分类: vol 17 · issue 2
- 相关性 9/10 · novelty:
new_method - 摘要: 本文利用医生对剖宫产的偏好作为工具变量,估计剖宫产对产妇并发症(输血、ICU入院)及住院时间的因果效应,以减少未观测混杂偏倚。采用近-远匹配(near-far matching)框架,旨在强化工具变量与处理变量的关联,同时平衡协变量。针对大数据集的计算挑战,作者提出基于Glover算法的迭代方法,利用双重凸二分图结构优化工具变量的反向卡钳,大幅缩小候选匹配集合,实现大型稀疏图上的最优匹配。匹配过程整合了精确匹配、精细/近似精细平衡及协变量平衡优先级等多种约束。在宾夕法尼亚、纽约和佛罗里达州的医疗索赔数据上,新方法将匹配计算时间缩短超过11小时。基于匹配样本的分析表明,剖宫产显著增加产妇并发症风险和住院时间;敏感性分析显示并发症结果对未观测混杂相对敏感,而住院时间结果则更稳健。该工作将因果推断中的IV设计、匹配方法与计算优化相结合,与您的主要兴趣方向(IV、敏感性分析、大规模统计计算)紧密关联。
- 关键技术:
near-far matching,instrumental variables,Glover's algorithm,reverse caliper,optimal matching,sensitivity analysis,balance constraints - 为什么对您有用: 该论文直接涉及因果推断中的工具变量识别、近-远匹配设计与敏感性分析,与您的主要兴趣子方向(IV design, sensitivity analysis)高度吻合。您非常熟悉的causal inference estimation theory和software development能力可支持您评价其识别假设、复现并扩展其算法。立即可做:您已具备的因果推断工具和编程经验足以理解并实战该流程,并将其迁移至您关注的流行病学或经济学数据集。
2. 10.1214/22-aoas1629 · arXiv — Hospital quality risk standardization via approximate balancing weights¶
- 作者: Luke J. Keele, Eli Ben-Michael, Avi Feller, Rachel Kelz, Luke Miratrix
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 9/10 · novelty:
new_method - 摘要: 本文针对医院质量比较中的病例组合调整问题,提出一种基于近似平衡权重(approximate balancing weights)的直接标准化方法。目标是将各医院的患者群体加权至与目标总体(例如全州人口)一致,从而使得加权平均结果可直接比较。该方法从调查抽样和因果推断中借鉴平衡权重思想,通过优化来控制多变量协变量在权重后的不平衡,并引入调参以保留有效样本量。进一步,作者推导了估计量的方差公式,并采用结果模型(outcome modeling)与贝叶斯收缩(Bayesian shrinkage)来提高精度、处理医院规模差异。利用宾夕法尼亚、佛罗里达和纽约的普外科手术索赔数据,展示了不同医院标准化并发症率的估计及低绩效医院的识别。文章为健康服务研究中的绩效评估提供了比间接标准化更稳健、更可解释的工具,与您的因果推断(特别是权重调整与标准化方法)和流行病学应用兴趣高度契合。
- 关键技术:
approximate balancing weights,direct standardization,survey sampling,causal inference weighting,Bayesian shrinkage,outcome modeling - 为什么对您有用: 本文聚焦于因果推断中的权重调整方法在健康服务研究(流行病学)中的具体应用,属于您“因果推断”与“流行病学(应用、因果推断)”的交叉点。您非常熟悉的“estimation theory in causal inference”可直接用于分析该权重估计量的偏差-方差性质,且其平衡权重优化思路可迁移至您关注的proximal CI或IV设定中的协变量调整。立即可做:基于您已掌握的非参数统计和因果推断估计理论,可以复现或改进该方法的有限样本表现,或将其扩展到纵向数据设定。
3. 10.1214/22-aoas1684 · arXiv — Randomization inference for cluster-randomized test-negative designs with application to Dengue studies: Unbiased estimation, partial compliance, and stepped-wedge design¶
- 作者: Bingkai Wang, Suzanne M. Dufault, Dylan S. Small, Nicholas P. Jewell
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 本文在 randomization inference 框架下分析 cluster-randomized test-negative 设计(CR-TND)的因果推断性质,目标是在 differential healthcare-seeking behavior 跨聚类变化时仍能无偏估计干预效应。现有方法假设该行为常数,违背后产生有偏估计和 I 类错误膨胀。作者提出 log-contrast estimator,通过协变量调整消除偏差并提高精度,该估计量基于随机化分配而非渐近近似,在小样本聚类中性质稳健。进一步扩展了部分干预依从性(即工具变量设定)和 stepped-wedge 设计下的识别与估计方法。模拟研究和 AWED Dengue 试验的重新分析证实了方法的有效性。对您有用:直接连接到 causal inference 中 cluster-randomized trials 的效应识别和依从性问题,且其 randomization inference 思想可迁移至您熟悉的非参数统计框架中。
- 关键技术:
cluster-randomized test-negative design,randomization inference,log-contrast estimator,partial compliance,stepped-wedge design - 为什么对您有用: 本文聚焦 cluster-randomized test-negative 设计的无偏估计,直接连接到 primary interest 中的因果推断子方向——特别是 cluster-randomized trials 的干预效应识别和部分依从性下的工具变量推断。您 very_familiar 的 'estimation theory in causal inference' 可用于理解 log-contrast estimator 的构造与性质,并可能扩展至其他复杂设计(如阶梯设计)。立即可做:您可以在您的因果推断研究中采用 randomization inference 替代渐近理论处理小样本问题,并尝试用您熟悉的高维 U-statistics 分析该估计量的方差结构。
4. 10.1214/22-aoas1636 · arXiv — Estimation of Gaussian directed acyclic graphs using partial ordering information with applications to DREAM3 networks and dairy cattle data¶
- 作者: Syed Rahman, Kshitij Khare, George Michailidis, Carlos Martínez, Juan Carulla
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 8/10 · novelty:
application - 摘要: 针对观测数据中的有向无环图(DAG)估计问题,当仅知道节点的一个基于划分的部分排序(partial ordering)而非完整拓扑序时,作者提出了Partition-DAG方法。该方法利用领域知识提供的部分顺序信息,将DAG估计约束在满足该顺序的候选图上,从而大幅缩减搜索空间。算法核心是通过正则化似然(如L1惩罚)或基于Cholesky分解的递推估计,在调整顺序约束下高效求解。仿真实验基于DREAM3酵母网络表明,相比忽略顺序信息的全局搜索,Partition-DAG在速度和精度上均有显著提升。实际应用部分,将该方法用于奶牛农业生态系统数据集,推断出多个变量(如饲料、产奶、环境指标)间的因果结构,给出的图与领域先验一致。本篇属于应用论文,对您:因果结构学习中的部分先验信息利用是一个实用方向,可迁移到您的因果推断研究中,例如在proximal causal inference或纵向数据中引入类似约束。
- 关键技术:
partial ordering constrained DAG,penalized likelihood,Cholesky decomposition,DREAM3 benchmark,real data application - 为什么对您有用: 本文属于因果推断中DAG结构学习的应用扩展,直接关联您的primary interest“causal inference”,特别是利用部分先验顺序来提高估计效率。您的技术武器库中的“estimation theory in causal inference”和“high-dimensional asymptotics”可用于分析Partition-DAG的估计一致性和收敛速率,同时“software development”技能可帮助您复现其算法并测试在其他因果设定(如IV或纵向因果图)中的表现。立即可做:基于您对因果推断估计理论的熟悉,可以快速复现其仿真框架并评估部分顺序约束在您关注的proximal causal inference场景下的增益。
5. 10.1214/22-aoas1667 — Surrogate marker assessment using mediation and instrumental variable analyses in a case-cohort design¶
- 作者: Yen-Tsung Huang, Jih-Chang Yu, Jui-Hsiang Lin
- 期刊/来源: Annals of Applied Statistics
- 机构: Institute of Statistical Science, Academia Sinica
- 分类: vol 17 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 本文在病例队列设计(case-cohort design)下研究替代标记的评估,以COVID-19疫苗试验为动机,目标是量化疫苗效力中通过替代标记(如中和抗体)介导的比例。作者将中介分析和工具变量分析引入这一设计:中介分析将疫苗对时间-事件结局(COVID-19风险)的总效应分解为通过标记的间接效应和直接效应,提出用介导比例作为替代表征指标;IV分析则在标记-疾病混杂存在时估计标记的因果效应。方法上采用半参数probit模型对时间-事件结局建模,基于加权估计方程构造非参数极大似然估计(NPMLE)并代入因果效应估计量,推导了渐近性质。模拟评估了有限样本表现;在假COVID-19疫苗数据中,84.2%的疫苗效力由50%假病毒中和抗体介导,且抗体对风险有显著保护作用。对您而言,本文是中介分析和IV方法在纵向前瞻性设计(病例队列)的应用拓展,与您对因果推断中识别和估计的兴趣直接相关,可作为流行病学应用案例参考。
- 关键技术:
mediation analysis,instrumental variable analysis,case-cohort design,weighted estimating equations,nonparametric maximum likelihood,semiparametric probit models - 为什么对您有用: 本文连接了您primary interest中的中介分析和工具变量方法,并应用于纵向前瞻性的病例队列设计,是因果推断方法在流行病学中的实际应用。您武器库中'causal inference的estimation theory'(非常熟悉)可直接用于理解其加权估计方程和NPMLE的构建,无需额外学习即可评估其理论假设与结果。立即可做:可进一步针对病例队列设计的中介效应识别条件进行敏感性分析,或将其方法与您熟悉的高阶U统计量结合以处理复合结局。
6. 10.1214/22-aoas1682 — Estimation and inference for exposure effects with latency in the Cox proportional hazards model in the presence of exposure measurement error¶
- 作者: Sarah B. Peskoe, Ning Zhang, Donna Spiegelman, Molin Wang
- 期刊/来源: Annals of Applied Statistics
- 机构: Duke University · Harvard University · Yale University
- 分类: vol 17 · issue 2
- 相关性 7/10 · novelty:
new_method - 摘要: 本文在Cox比例风险模型中研究时变暴露的潜伏期效应(关键暴露窗口),并同时考虑暴露测量误差。假设罕见疾病(稀有结局)以简化似然,作者在线性测量误差模型下推导了潜伏期参数和回归系数的点估计与区间估计方法。主要理论发现是:尽管暴露的风险比估计因测量误差而有偏,但潜伏期参数估计近似无偏,这一性质在先前文献中未被揭示。方法上采用校正部分似然或近似无偏估计策略,并通过模拟验证有限样本性能。实证部分利用护士健康研究(NHS)数据分析了PM2.5与肺癌发病的前瞻性关联,展示了方法的可操作性。对您可能有用:该工作直接连接流行病学中的暴露测量误差与因果推断问题,您可借助自己在因果推断估计理论(如逆问题处理)来理解或扩展其方法至更一般的纵向因果设置。
- 关键技术:
Cox proportional hazards model,latency parameter,exposure measurement error,linear measurement error model,rare disease approximation,approximate unbiasedness - 为什么对您有用: 本文研究流行病学中暴露测量误差下的潜伏期效应,直接对应研究者的次级兴趣(流行病学应用与因果推断)。在技术层面,研究者非常熟悉的“estimation theory in causal inference”可用于评价其近似无偏性证明,且“inverse problems with random noise”框架可帮助理解测量误差校正逻辑。判断为立即可做:本文方法成熟,研究者可将其直接用于自身流行病学数据分析,或作为进一步开发纵向DML稳健估计的基准。
7. 10.1214/22-aoas1678 · arXiv — Balancing weights for region-level analysis: The effect of Medicaid expansion on the uninsurance rate among states that did not expand Medicaid¶
- 作者: Max Rubinstein, Amelia Haviland, David Choi
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 7/10 · novelty:
new_method - 摘要: 在区域层面因果推断设定下,目标是估计 Medicaid 扩张对未扩张州 uninsurance rate 的平均处理效应,核心挑战是协变量存在测量误差且 outcome model 含 state-level random effects。作者提出将 regression-calibration 思想引入 balancing weights:用协变量的线性近似(而非观测值)构建权重,以校正测量误差导致的偏差。同时修改 Stable Balancing Weights 目标函数,利用已知误差相关结构降低估计量方差。理论贡献包括提出修正后的权重估计量,并通过 pre-treatment period 的预测表现验证方法优于现有方法。实证结果显示 Medicaid 扩张将使 uninsurance rate 下降 2.33 个百分点(95% CI: -3.54, -1.11)。对您在因果推断中处理 measurement error 与 dependent errors 的设定有直接参考价值。
- 关键技术:
balancing weights,regression-calibration,measurement error correction,Stable Balancing Weights,random effects model,covariate balancing - 为什么对您有用: (1) 直接连接因果推断中的 balancing weights 方法与 measurement error 校正,属于您 primary interest 中因果推断估计理论的延伸。(2) 您 very_familiar 的 estimation theory in causal inference 可直接用于审视其 weighting estimator 的理论性质;moderately_familiar 的 semiparametric theory 可用于分析该估计量的效率性质——本文未给出完整的 semiparametric efficiency bound 分析,这是一个可切入的理论口子。(3) 中期可做:若想深入,需在 semiparametric theory 方面加强(您已 moderately_familiar),以推导该估计量的 influence function 和 efficiency bound,判断其是否达到 semiparametric efficiency。
8. 10.1214/22-aoas1654 · arXiv — Estimating the effects of a California gun control program with multitask Gaussian processes¶
- 作者: Eli Ben-Michael, David Arbour, Avi Feller, Alexander Franks, Steven Raphael
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 7/10 · novelty:
application - 摘要: 本文评估加州2006年实施的'武装和被禁止人员系统'(APPS)枪支监控项目对全州谋杀率的影响。研究使用美国各州年度面板数据,采用多任务高斯过程(MTGP)进行非参数贝叶斯推断。MTGP能够灵活而简约地建模面板数据,同时控制时间依赖性和跨单元依赖性,并提供自然的不确定性量化。作者将MTGP扩展至非正态结果、辅助协变量和多个结果序列,以满足实际应用需求。该方法还具有频率学派性质,可表示为单元的加权估计量与时间加权估计量的结合。实证结果显示,APPS项目显著降低了加州的谋杀率,且效应完全由枪支谋杀下降驱动,非枪支谋杀无显著变化。成本效益分析表明,每避免一起谋杀的成本远低于统计生命价值,提示该项目具有很高的效益成本比。该研究对您有用,因为它展示了MTGP在面板数据因果推断中的灵活应用,为处理多结果、非正态数据提供了可借鉴的框架。
- 关键技术:
multitask Gaussian processes,panel data causal inference,weighting estimator representation,Bayesian nonparametric - 为什么对您有用: 该论文直接关联您的主要兴趣——因果推断中的面板数据效应估计,特别是采用非参数贝叶斯方法(MTGP)进行灵活建模。从武器库角度看,您非常熟悉因果推断中的估计理论和非参数统计,可以深入分析MTGP作为加权估计量的表示性质及其频率学派保证;同时,MTGP对多结果和非正态数据的扩展为您的HOIF或U统计量工具提供了新的应用场景。中期来看,如果您想进一步将其与高效推断理论结合,可探索在MTGP框架下构造鲁棒估计量或进行敏感性分析,这需要补强半参数理论(moderately_familiar项)。总体上,这是一篇值得精读的应用佳作。
非参数 / 半参数 (nonparam_semipara, 2 篇)¶
1. 10.1214/22-aoas1661 — A tensor decomposition model for longitudinal microbiome studies¶
- 作者: Siyuan Ma, Hongzhe Li
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 本文研究纵向微生物组数据的无监督降维问题,目标是从具有 zero-inflation、compositionality 和 overdispersion 特征的计数数据中恢复低秩结构。作者提出 tensor decomposition 模型,将个体-时间-物种三阶张量分解为核心张量与因子矩阵的乘积,并采用 semiparametric quasi-likelihood 进行估计,通过 projected gradient descent 优化且加入可解释性约束。理论部分未给出显式的收敛率或渐近分布,主要通过模拟验证低秩结构恢复的准确性,并在两个真实数据集中识别出与饮食、药物和分娩方式相关的微生物变化。对您而言,本文展示了 tensor 方法在纵向数据建模中的应用,但统计理论深度有限。
- 关键技术:
tensor decomposition,semiparametric quasi-likelihood,projected gradient descent,zero-inflated compositional data,low-rank recovery - 为什么对您有用: 本文的 tensor decomposition 模型与您 very_familiar 的「computation of higher-order U-statistics (treewidth / tensor contraction / einsum)」直接相关——可从 tensor contraction 复杂度视角审视其算法的计算瓶颈。然而,本文是偏应用的方法论文,缺乏 semiparametric efficiency bound 或 minimax rate 等理论结果,与您 primary interests 中的 efficiency theory 和 semiparametric theory 连接较弱。中期可做:若想进入 longitudinal microbiome 方向,需先在 moderately_familiar 的 semiparametric theory 上补充 quasi-likelihood 的效率理论,才能建立更严谨的推断框架。
2. 10.1214/22-aoas1679 — Spatiotemporal local interpolation of global ocean heat transport using Argo floats: A debiased latent Gaussian process approach¶
- 作者: Beomjo Park, Mikael Kuusela, Donata Giglio, Alison Gray
- 期刊/来源: Annals of Applied Statistics
- 机构: Carnegie Mellon University · University of Colorado Boulder · NOAA Oceanic and Atmospheric Research · University of Washington
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
application - 摘要: 该论文针对全球海洋热量传输的时空插值问题,利用Argo浮标实测数据,建立了潜变量局部高斯过程回归框架。通过两阶段拟合流程,使用近似EM算法联合估计均值场和协方差参数,并引入去偏程序修正模型设定偏差,以缓解潜变量模型可能存在的欠拟合问题。该方法生成的全球海洋热量传输场在时空上连续变化,能够反映厄尔尼诺/拉尼娜等关键动力现象,并给出科学上有重要意义的全球气候态平均场。验证表明,基于Argo的估计与多卫星产品高度一致,提供了可靠的地下热量传输估计。对于您而言,本文的非参空间插值与去偏方法可类比于半参效率理论中的去偏思路,并可通过您熟悉的逆问题分析视角审视其估计的minimax最优性。
- 关键技术:
latent Gaussian process regression,Expectation-Maximization algorithm,debiasing procedure,spatiotemporal interpolation,Argo profiling floats - 为什么对您有用: 本文涉及非参空间模型的去偏估计,可连接到您对逆问题与非参理论的兴趣。您武器库中的“inverse problems with random noise”项可直接用于分析该插值估计的minimax误差下界,评估去偏程序是否达到最优。此为中期可做:需先在“M-estimation theory”(moderately_familiar)上巩固潜变量与EM渐近分析,方能动手。
数理统计 / 假设检验 (hypothesis_testing, 3 篇)¶
1. 10.1214/22-aoas1689 — distinct: A novel approach to differential distribution analyses¶
- 作者: Simone Tiberi, Helena L. Crowell, Pantelis Samartsidis, Lukas M. Weber, Mark D. Robinson
- 期刊/来源: Annals of Applied Statistics
- 机构: SIB Swiss Institute of Bioinformatics · University of Zurich · University of Bologna · University of Cambridge · MRC Biostatistics Unit · Johns Hopkins University
- 分类: vol 17 · issue 2
- 相关性 7/10 · novelty:
application - 摘要: 该论文提出了一种称为 distinct 的通用方法,用于对完整分布进行差异分析,特别适用于单细胞 RNA 测序和高维流式/质谱细胞术数据。目前大多数差异表达方法仅关注均值变化,而难以识别均值几乎不变但分布其他特征(如方差、形状)有差异的情况。distinct 基于层次非参数置换方法,通过比较经验累积分布函数(ECDF)来检测分布差异,而不仅仅是均值。基准测试显示,distinct 在模拟和实验数据中均优于现有方法,能识别更多差异模式,并良好控制假阳性率和错误发现率。该方法已发布为 Bioconductor R 包,便于实际应用。对于您的非参数检验和假设检验兴趣,该工作展示了一个成熟的置换检验框架在生物数据中的成功应用,其 ECDF 比较思路也可作为教学或扩展的案例。
- 关键技术:
permutation test,empirical cumulative distribution function,hierarchical nonparametric approach,differential distribution analysis,false discovery rate control - 为什么对您有用: 该论文直接关联您对假设检验(尤其是非参数检验)的兴趣,并以实际生物数据示例展示了置换检验和 ECDF 比较的方法。您的技术武器库中“nonparametric statistics”非常熟悉,可以立即评估其检验框架的理论性能(如检验水平、功效),或复现其模拟以扩展至其他分布差异场景。该 R 包也可视为统计计算实践的一个案例,您可基于“software development”的熟悉度直接下载试用。综上,这是一个立即可读、可批判性评估的应用型工作。
2. 10.1214/22-aoas1663 · arXiv — Knockoffs with side information¶
- 作者: Zhimei Ren, Emmanuel Candès
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 本文研究多重假设检验中如何利用侧信息(如变量优先级或外部知识)来提升发现能力,同时控制假发现率(FDR)。作者提出自适应knockoff滤波器,它将knockoff方法与基于侧信息的自适应排序相结合:先根据侧信息对变量排序,再按顺序检验,使得更可能显著的变量被优先检测。该方法在有限样本下严格控制FDR,不依赖渐近近似。通过与多种结构化多重检验方法(如自适应BH、加权BH)的比较,展示了更高的统计功效。论文还将方法应用于遗传学数据(克罗恩病、血脂水平)的关联分析,发现了比先前研究更多的显著位点。对您而言,这篇论文直接关联到假设检验中FDR控制的非参数方法,并且应用场景(高维变量选择)与您的高维统计和因果推断兴趣有交集,其自适应排序思路也可迁移到您关注的变量筛选问题。
- 关键技术:
Knockoffs,False discovery rate (FDR),Adaptive filtering,Side information,Variable selection,Finite-sample control - 为什么对您有用: (1) 本文直接连接您的主要兴趣——数学统计中的假设检验,特别是多重比较和FDR控制,且方法学上是对经典knockoff的创新推广。 (2) 您武器库中的 minimax bounds 和高维渐近性可用于评估自适应knockoffs的最优性,例如推导power下界或排序策略的渐近效率。 (3) 中期可做:您需要先系统掌握knockoff框架(了解其构造、交换性条件、FDR证明),但您已有的假设检验和高维统计基础使这项学习不困难,之后可以探索如何将侧信息整合到因果推断的变量筛选中。
3. 10.1214/22-aoas1688 · arXiv — Truncated rank-based tests for two-part models with excessive zeros and applications to microbiome data¶
- 作者: Wanjie Wang, Eric Chen, Hongzhe Li
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 针对微生物组数据中零值过多的问题,本文在两部件模型(点质量零-连续分布)框架下提出了截断秩检验方法。具体包括截断Wilcoxon秩和检验(两组比较)和截断Kruskal-Wallis检验(多组比较),通过对观测值进行截断处理(仅考虑非零部分或特定阈值以上的秩)来提升检验功效。通过渐近相对效率(ARE)分析和模拟实验,证明了在高零比例时截断秩检验比传统秩检验具有更高的功效。该检验还可通过简单的组内置换适用于重复测量数据,类似于配对秩检验但能处理过量零值。在儿童克罗恩病与健康对照的肠道微生物组数据中,应用截断秩检验识别出了一些标准秩检验遗漏的细菌属。该工作直接涉及您primary interest中的假设检验(零膨胀数据的非参数检验),且微生物组数据的高维稀疏特征也连接至您熟悉的高维统计场景。
- 关键技术:
truncated rank tests,Wilcoxon rank-sum test,Kruskal-Wallis test,two-part model,asymptotic relative efficiency (ARE),permutation test - 为什么对您有用: 连接到 hypothesis testing 子方向,具体为零膨胀两部件模型下的非参数检验问题。您武器库中的「非参数统计」可以用于深入分析截断秩检验的有限样本性质和渐近分布,同时「软件开发」技能可直接实现并扩展该方法。立即可做——您熟悉 rank-based 检验和置换检验,可直接在类似微生物组数据上复现或改进。
统计计算 / 算法 (stat_computing, 4 篇)¶
1. 10.1214/22-aoas1658 — Bayesian Cox regression for large-scale inference with applications to electronic health records¶
- 作者: Alexander Wolfgang Jung, Moritz Gerstung
- 期刊/来源: Annals of Applied Statistics
- 机构: European Bioinformatics Institute · German Cancer Research Center
- 分类: vol 17 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 本文针对大规模时间-事件数据分析的瓶颈,提出了贝叶斯Cox比例风险模型的计数过程表示版本。传统Cox模型推断需要全数据在内存中,难以处理百万级样本和数千个随时间变化的协变量。方法通过结合随机变分推断(SVI)和对数似然的重加权技术,使后验近似能够分解为数据子样本的因子化形式,从而实现大数据场景下的推断。该方法不仅能给出点估计,还能提供可用的不确定性量化。模拟研究和英国生物银行心肌梗死数据分析展示了其在实际大规模流行病学研究中的实用性和计算效率。对您而言,本文在大规模生存分析上的计算策略可直接迁移至流行病学数据库的因果推断分析中,尤其是处理电子健康记录这类高维纵向数据时。
- 关键技术:
Bayesian Cox regression,counting process representation,stochastic variational inference,reweighted log-likelihood,posterior factorization - 为什么对您有用: 本文属于统计计算方向,与您 primary interest 中的统计计算(大规模推断算法)高度吻合。您的 technical_arsenal 中 moderately_familiar 的 M-estimation theory 可用于分析变分推断目标函数的偏差与收敛速度,帮助理解该方法的理论保证。中期可做:需在 moderately_familiar 的 M-estimation theory 上进一步强化,以处理变分贝叶斯中非标准损失函数的渐近性质。
2. 10.1214/22-aoas1685 — Variational Bayesian analysis of nonhomogeneous hidden Markov models with long and ultralong sequences¶
- 作者: Xinyuan Chen, Yiwei Li, Xiangnan Feng, Joseph T. Chang
- 期刊/来源: Annals of Applied Statistics
- 机构: Mississippi State University · Lingnan University · Fudan University · Yale University
- 分类: vol 17 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 本文针对非齐次隐马尔可夫模型(NHMM)的超长观测序列,提出一种变分贝叶斯(VB)推断方法。传统MCMC对长序列计算负担太重,作者利用结构化高斯变分族(因子化协方差矩阵)近似后验,并结合前向后向算法与随机梯度上升进行参数估计。为解决超长序列的内存与计算瓶颈,进一步提出子序列VB(SVB)方法:通过利用NHMM的记忆衰减特性,在子采样时加入缓冲区以控制因打破序列依赖产生的偏差。文章引入局部Lyapunov指数来量化NHMM的局部非齐次性对记忆衰减速率的影响,并自适应确定缓冲区长度。模拟研究和电信客户超长序列数据(移动互联网使用行为与传统电信行为的关系)验证了方法的有效性与效率。对您而言,本文展示了变分推断与子采样技巧在复杂序列模型中的实用方案,与您primary interest中的统计计算直接相关,其子序列分解思路也可为纵向因果推断中的计算问题提供启发。
- 关键技术:
variational Bayes,forward-backward algorithm,stochastic gradient ascent,subsequence VB,local Lyapunov exponent,buffer length adaptation - 为什么对您有用: 本文属于统计计算方法论,直接对接您primary interest中的“statistical computing (numerical methods, algorithm)”。您武器库中的“软件开发和统计计算”技能可以用于复现或优化其变分推断的实现(例如用einsum加速前向后向算法的张量运算)。此外,子序列VB与缓冲区设计的思想可迁移至您关注的纵向因果推断与长序列处理问题。立即可做:您现有的软件开发能力足以将本文方法复现为工具,或在其他隐马尔可夫模型场景中测试性能。
3. 10.1214/22-aoas1676 · arXiv — Lagged couplings diagnose Markov chain Monte Carlo phylogenetic inference¶
- 作者: Luke J. Kelly, Robin J. Ryder, Grégoire Clarté
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 本文针对贝叶斯系统发育推断中MCMC链难以联合诊断混合与收敛的问题,提出一种在系统发育树空间(含分支长度、标量参数、潜变量)上构造收缩耦合(contractive coupling)的方法。该方法利用滞后耦合(lagged couplings)技术,通过设计两条Markov链在树空间上的耦合步,使得链能以高概率在有限步内相遇。在此基础上,论文给出了基于耦合链的收敛诊断工具和无偏估计量构造方案,并在最多200个叶子的树上进行了数值验证。结果显示,该耦合策略能有效评估链的混合性能,且收敛诊断联合覆盖了树拓扑、分支长度等所有模型分量。本文属于统计计算中MCMC算法的新方法开发,展示了耦合技术在复杂非欧空间上的可行性。
- 关键技术:
lagged couplings,contractive coupling,Markov chain Monte Carlo,phylogenetic tree space,unbiased estimation - 为什么对您有用: 本文与您的primary interest“统计计算(数值方法、算法)”直接相关,特别是MCMC收敛诊断的实用新方案。您的software development经验可用来复现并扩展该耦合方法到更复杂的模型空间(例如因果推断中的潜在变量模型),但其核心耦合理论(如链的收缩概率分析)目前不在您熟悉的武器库中,属于中期可做方向——需先熟悉滞后耦合的理论框架,之后便可利用您的高维渐近与算法实现能力进行推广。
4. 10.1214/22-aoas1693 · arXiv — Marginally calibrated response distributions for end-to-end learning in autonomous driving¶
- 作者: Clara Hoffmann, Nadja Klein
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
application - 摘要: 本文针对自动驾驶端到端学习模型中缺乏可靠不确定性量化的短板,将Klein等人(2021)的隐式copula神经线性模型扩展到转向角分布预测。模型输出的平均预测密度精确匹配经验分布,实现了边缘校准。为处理海量图像数据,作者开发了基于变分推断的高效近似推断算法,替代计算昂贵的Hamiltonian Monte Carlo。在comma2k19高速公路驾驶数据集上,变分推断在精度和速度上均接近HMC,生成的预测区间质量高,并能识别过度自信模型。该方法还提升了黑箱端到端模型的可解释性——预测密度可以揭示模型认为哪些转向动作是合理的。对您而言,本文展示了变分推断在复杂神经网络模型中处理大规模数据的具体工程实践,属于统计计算的核心议题,您可借鉴其变分推断框架来加速其他高阶统计量的计算。
- 关键技术:
implicit copula neural linear model,variational inference,Hamiltonian Monte Carlo,marginal calibration,prediction intervals - 为什么对您有用: 本文直接关联您主兴趣中的统计计算(变分推断在大型神经网络中的应用),且涉及不确定性量化这一方法论重点。您武器库中‘软件发展’和‘高维渐近’可帮助分析变分推断在此模型中的收敛行为或替代方案;中期可做:若想深入推导变分下界的渐近偏差,需先补强‘变分推断的渐近理论’(当前未列于武器库),但这不属于硬缺项。
天体统计 (astrostats, 1 篇)¶
1. 10.1214/22-aoas1668 · arXiv — Detecting distributional differences in labeled sequence data with application to tropical cyclone satellite imagery¶
- 作者: Trey McNeely, Galen Vincent, Kimberly M. Wood, Rafael Izbicki, Ann B. Lee
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 本论文研究热带气旋卫星图像序列是否能够预测快速强度变化事件,提出了一种新的非参数关联检验方法。将检验问题转化为回归问题,利用神经网络从标记的24小时间隔图像序列中学习代表事件前兆的结构演化模式。通过bootstrap程序处理相邻序列之间的依赖关系,并证明只要标签序列的边际分布估计准确,第一类错误率就能得到控制。实证分析表明,该方法能够识别出与快速增强风险升高相关的红外图像原型,通常表现为核心对流的加深或增强。这项工作为改进热带气旋快速增强预报提供了统计基础。对您而言,这是一篇进入天文统计学领域的优秀入门文章,展示了将非参数检验与神经网络结合应用于复杂时空数据的完整工作流。
- 关键技术:
nonparametric test of association,neural network regression,bootstrap for dependent data,type I error control,spatio-temporal pattern analysis - 为什么对您有用: 本文属于天文统计学的gateway阅读,问题明确、数据结构清晰,适合作为该领域的入门读物。您的武器库中的非参数统计知识足以理解其核心方法,并可用bootstrap理论判断其第一类错误控制条件的合理性。值得花时间全文阅读,以熟悉天文统计中常见的时空数据与标签序列分析框架。
经济理论 / 应用 (econ_theory, 1 篇)¶
1. 10.1214/22-aoas1681 — A Bayesian panel vector autoregression to analyze the impact of climate shocks on high-income economies¶
- 作者: Florian Huber, Tamás Krisztin, Michael Pfarrhofer
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Salzburg · International Institute for Applied Systems Analysis · Futures Group (United States) · University of Vienna
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
application - 摘要: 本文研究气候冲击对高收入经济体农产品期货市场及宏观经济变量的影响,estimand 为 panel VAR 系统中气候冲击对各国宏观变量的动态因果效应。方法上提出高维 panel VAR 的贝叶斯估计:国内滞后变量的系数采用 Gaussian mixture 先验以捕捉异质性,其他参数区域使用 global-local shrinkage priors(如 Horseshoe)实现稀疏性。理论贡献主要是贝叶斯计算方法层面,未涉及 frequentist 意义下的收敛率或效率界。实证结果显示气候冲击对全球宏观经济变量有显著影响,且区域性冲击与全球商品市场存在联动。对您而言,这是一篇经济学应用论文,方法学 novelty 有限。
- 关键技术:
panel vector autoregression,global-local shrinkage priors,Gaussian mixture prior,Bayesian high-dimensional inference,impulse response analysis - 为什么对您有用: 本文属于经济学应用工作,连接到您的 secondary interest in economic theory。作为 real-data application,它展示了高维时序模型在宏观经济学中的分析范式,但核心是贝叶斯 shrinkage 方法而非您熟悉的 semiparametric efficiency 或 minimax theory。技术层面,您武器库中的 high-dimensional asymptotics 和 semiparametric theory 对本文的贝叶斯框架难以直接切入。暂不可做:若要从理论角度攻这篇 paper,需要补充 Bayesian posterior contraction theory 和 shrinkage prior 的理论分析工具。
流行病学 (epidemiology, 11 篇)¶
1. 10.1214/22-aoas1656 — Robust joint modelling of left-censored longitudinal data and survival data with application to HIV vaccine studies¶
- 作者: Tingting Yu, Lang Wu, Jin Qiu, Peter B. Gilbert
- 期刊/来源: Annals of Applied Statistics
- 机构: Harvard University · Harvard Pilgrim Health Care · University of British Columbia · Zhejiang University of Finance and Economics · University of Washington
- 分类: vol 17 · issue 2
- 相关性 7/10 · novelty:
application - 摘要: 本文针对HIV疫苗研究中常见的纵向数据左删失和异常值问题,提出了一种鲁棒的联合建模方法。纵向数据采用多元t分布处理b-outliers(受试者水平异常值),并使用M估计处理e-outliers(观测误差异常值)。生存数据采用比例风险模型,两者通过共享随机效应联合建模。为应对计算挑战,作者开发了近似似然推断方法,提高了计算效率。模拟研究评估了方法的稳健性,并在真实HIV疫苗数据中应用,发现纵向生物标志物与HIV感染风险存在强关联。该方法为纵向生存数据联合建模提供了实用工具,对您在流行病学应用中的因果推断(特别是纵向数据中的中介分析或IV分析)有参考价值。
- 关键技术:
joint modelling of longitudinal and survival data,multivariate t-distribution for b-outliers,M-estimation for e-outliers,approximate likelihood inference,left-censored data - 为什么对您有用: 本文是流行病学(HIV疫苗)的真实数据应用,您在次要兴趣中关注流行病学的因果推断应用。您可以从非参数统计和因果推断估计理论的角度,评估其鲁棒联合建模方法是否可迁移至纵向因果效应估计(如时变混杂下的人群平均效应)。作为应用论文,立即可读,无需提前补充新工具。
2. 10.1214/22-aoas1666 — Bayesian analysis for imbalanced positive-unlabelled diagnosis codes in electronic health records¶
- 作者: Ru Wang, Ye Liang, Zhuqi Miao, Tieming Liu
- 期刊/来源: Annals of Applied Statistics
- 机构: Oklahoma State University Oklahoma City · SUNY New Paltz · Oklahoma State University
- 分类: vol 17 · issue 2
- 相关性 7/10 · novelty:
application - 摘要: 电子健康记录(EHR)中诊断编码往往只覆盖一小部分确认患者,大量患者因未完成推荐检查而处于未标记状态,形成正例-未标记(PU)分类问题且标签极度不平衡。本文提出基于贝叶斯有限混合模型的建模方法,通过引入标签交换(label switching)的识别与共识蒙特卡洛(consensus Monte Carlo)策略,既处理了不平衡数据的标签歧义问题,又提升了计算效率。模拟研究表明该模型方法在分类性能上优于现有PU学习算法(如PNPU和Bagging类方法),尤其在小比例正例场景下优势明显。方法被应用于Cerner EHR数据库的糖尿病视网膜病变(DR)检测,仅用3%的确认诊断数据估计出实际患病率为25%,与医学文献报告一致。本文的贝叶斯PU建模思路和数据预处理经验对流行病学中利用不完整记录进行患病率估计和风险因子挖掘具有实际参考价值。
- 关键技术:
Bayesian finite mixture model,positive-unlabelled learning,label switching,consensus Monte Carlo,electronic health records - 为什么对您有用: 本文属于流行病学应用(secondary interest),处理EHR数据中诊断缺失的PU问题,方法清晰、数据真实,适合作为流行病学数据建模的入门读物。研究者对非参数统计和软件开发的熟悉程度足以理解其贝叶斯混合模型与共识MC的计算框架;若后续需要在因果推断中处理类似缺失/未标记结构(如阴性对照设定),可借鉴其标签交换识别策略。值得花时间读全文,尤其是模拟设置与标处理细节。
3. 10.1214/22-aoas1673 · arXiv — Estimating global and country-specific excess mortality during the Covid-19 pandemic¶
- 作者: Victoria Knutson, Serge Aleshin-Guendel, Ariel Karlinsky, William Msemburi, Jon Wakefield
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
application - 摘要: 本文旨在估计COVID-19疫情期间全球及各国的超额死亡人数,即实际死亡人数与正常时期预期死亡人数之差。由于许多国家缺乏完整死亡登记数据,作者开发了一个过分散泊松回归模型,利用有完整月度数据的国家建立带有时间变化系数的对数线性预测模型,用于推算无数据国家的预期死亡数。对于仅具有次国家区域数据的国家,采用多类别模型,假设各子区域死亡比例随时间近似恒定,从而推断全国总数。推断采用贝叶斯方法:协变量预测模型使用INLA高效计算,次国家模型使用Stan进行MCMC采样,实现了灵活的不确定性量化。模型同时考虑了预期死亡数估计中的不确定性,并将其纳入超额死亡计算的置信区间。基于该模型,2020-2021年全球超额死亡人数点估计为1480万,95%置信区间为1320-1660万。对您的价值:作为流行病学领域的大规模应用案例,本文的建模框架(贝叶斯分层模型、缺失数据处理)可直接迁移至您感兴趣的因果推断中的缺失数据问题(如proximal CI中的负对照),并为从非参数角度理解反事实预测提供参考。
- 关键技术:
overdispersed Poisson regression,Bayesian hierarchical model,INLA,Stan MCMC,time-varying coefficients,multinomial model for subnational data - 为什么对您有用: 本文连接流行病学应用方向,超额死亡率本质上是一个反事实预测问题,与因果推断中的缺失数据和潜在结果框架紧密相关。研究者可利用其非常熟悉的非参数统计工具(如逆概率加权或双重稳健估计)扩展本模型以处理更复杂的混淆偏差;同时,该论文采用的贝叶斯分层模型和计算工具(INLA, Stan)是统计计算中的标准方法,研究者可通过学习这些工具丰富自己的软件技能。中期可做:需先熟悉贝叶斯推断(当前不在武器库中)并扩展半参数理论。
4. 10.1214/22-aoas1692 — Integrating multiple built environment data sources¶
- 作者: Jung Yeon Won, Michael R. Elliott, Emma V. Sanchez-Vaznaugh, Brisa N. Sánchez
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Michigan · San Francisco State University · Drexel University
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
application - 摘要: 本文针对建筑环境与健康研究中常用商业数据源(如食品店列表)存在查全误差和冲突,导致暴露测量不准确的问题,提出一种贝叶斯整合方法。将来自多个数据库的冲突暴露计数视为两个部分已知边际的列联表,利用多项分布建模观测计数、潜在暴露(真实数量)和健康结局。通过嵌入数据源质量的先验估计,构建联合模型同时估计暴露效应和测量误差参数。模拟表明,该方法相比仅用单一数据源或简单平均能大幅降低偏差并提高覆盖概率。应用于密歇根州儿童BMI与学校周边食品店密度的关联分析,整合NETS和Reference USA两个数据库后得到更稳健的效应估计。本文的数据整合框架对于流行病学中利用多个不完美数据源进行暴露测量校正具有参考价值。
- 关键技术:
Bayesian hierarchical model,multinomial distribution,contingency table with partially known margins,measurement error correction,data source integration - 为什么对您有用: 本文属于应用流行病学,直接关联您的 secondary interest 'epidemiology(应用数据,因果推断)'。方法将暴露测量误差整合进效应估计,您可用 very_familiar 的 '逆问题随机噪声' 视角理解其贝叶斯校正逻辑,但核心因果识别(如工具变量)未涉及,属于中期可做:需在 moderately_familiar 的 '因果识别理论' 中补充测量误差下可识别性条件,才能将此框架与您更熟悉的因果推断工具(如IV、proximal)衔接。
5. 10.1214/22-aoas1665 — Identification of immune response combinations associated with heterogeneous infection risk in the immune correlates analysis of HIV vaccine studies¶
- 作者: Chaeryon Kang, Ying Huang
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Pittsburgh · Cape Town HVTN Immunology Laboratory / Hutchinson Centre Research Institute of South Africa · Fred Hutch Cancer Center · Cancer Research Center
- 分类: vol 17 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 在HIV疫苗试验免疫相关性分析中,目标是通过免疫应答组合将疫苗受试者划分为两个异质性亚组,以识别与感染风险相关的保护性标志物组合。本文提出了一种“变点平面”模型(change-plane),通过免疫应答的线性组合来刻画亚组划分,并开发了基于惩罚似然的变量选择算法以得到简约的标记组合。该算法将变点平面识别与变量选择整合在一个惩罚似然框架中,通过剖面似然技术实现参数估计和标记筛选。在泰国疫苗试验(RV144)数据上的应用识别出了若干候选免疫应答组合,可用于预测疫苗保护效果。方法主要依赖惩罚似然估计和剖面似然技术,属于高维变量选择在流行病学中的直接应用。对您而言,这是一篇在流行病学应用中发展新变量选择方法的论文,与您对高维统计和流行病学数据分析的兴趣契合;您熟悉的高维渐近理论可直接用于分析该惩罚方法的变量选择相合性和oracle性质,立即可做。
- 关键技术:
change-plane model,penalized likelihood,variable selection,profile likelihood,heterogeneous subgroups - 为什么对您有用: 本文直接属于您 secondary interests 中的流行病学应用(疫苗试验免疫应答分析),且提出的惩罚似然变量选择算法与您 primary 中的高维统计兴趣相连。您的武器库中“高维渐近理论”(very_familiar)可立即用于分析该方法的变量选择一致性及其在 change-plane 设定下的相合性,具体包括惩罚项的渐近分布和调节参数选择。因此属于“立即可做”:您无需额外学习即可对该方法进行理论验证或推广至其他流行病学场景。
6. 10.1214/22-aoas1669 · arXiv — A Bayesian accelerated failure time model for interval censored three-state screening outcomes¶
- 作者: Thomas Klausch, Eddymurphy U. Akwiwu, Mark A. van de Wiel, Veerle M. H. Coupé, Johannes Berkhof
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 5/10 · novelty:
application - 摘要: 本文研究宫颈癌筛查中HPV阳性女性从感染到CIN-3的转移时间估计,数据来自POBASCAM试验,包含1454名HPV阳性女性。由于筛查是间隔进行的,CIN状态仅在每次筛查时被区间删失记录;更进一步,CIN-3的观测依赖于受检者在一个筛查间隔内依次进展至CIN-2和CIN-3,形成一种特殊的三状态删失结构。作者提出一个贝叶斯加速失效时间(AFT)模型,对两个转移时间(HPV→CIN-2,CIN-2→CIN-3)分别建模,并采用数据增强的Metropolis-within-Gibbs算法从截断的转移时间分布中采样。模型参数由后验均值估计,并通过模拟评估其覆盖率和偏差。实证结果给出了两个转移时间的中位数和95%后验区间。本文方法清晰展示了如何在复杂删失机制下进行参数生存分析,对流行病学中类似筛查数据的建模有直接借鉴意义。
- 关键技术:
Bayesian accelerated failure time model,interval censoring,data augmentation,Metropolis-within-Gibbs,three-state screening model - 为什么对您有用: 本文是流行病学筛查数据分析的一个清楚的应用案例,直接对应secondary interest中的流行病学应用子方向。研究者可借此入门区间删失和竞争转移(此处为有序状态)的数理结构,并思考用其在非参数统计方面的特长(如非参数AFT或变换模型)替代本文的参数假设,从而获得更鲁棒的识别。由于研究者对非参统计非常熟悉,但对贝叶斯MCMC方法不够熟练,中期可做:需先在半参数理论(moderately_familiar)在删失数据上的应用方面加强,然后尝试用半参数AFT扩展。本文值得花时间读全文,因为它完整展示了实际数据和分析流程。
7. 10.1214/22-aoas1687 · arXiv — How close and how much? Linking health outcomes to built environment spatial distributions¶
- 作者: Adam T. Peterson, Veronica J. Berrocal, Emma V. Sanchez-Vaznaugh, Brisa N. Sánchez
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 5/10 · novelty:
application - 摘要: 本文研究快餐店空间分布模式(距离学校的远近与数量)对学童肥胖风险的影响,基于2010年加州学校数据。采用两阶段贝叶斯层次建模框架:第一阶段将各学校周围快餐店的距离视为非齐次泊松过程(IPP)的观测,用嵌套狄利克雷过程(NDP)对强度函数进行非参数聚类,识别代表性的暴露模式(如‘密集近距离’与‘稀疏远距离’)。第二阶段将聚类成员或学校间相似度矩阵作为暴露变量,使用逻辑回归或贝叶斯核机器回归(BKMR)关联肥胖率。结果表明,在聚类一致的那些学校中,9年级学生在1英里半径内快餐店分布最远者肥胖几率较低。作为流行病学空间暴露建模的应用论文,方法完整、数据公开,但因果识别较弱(仅关联)。
- 关键技术:
Inhomogeneous Poisson process,Nested Dirichlet Process,Bayesian nonparametric clustering,Bayesian Kernel Machine Regression,Two-stage hierarchical model - 为什么对您有用: 这是一篇流行病学空间数据应用论文,与研究者对流行病学(应用数据集、因果推断)的次级兴趣直接相关。论文展示了两阶段建模框架(IPP+NDP)处理空间暴露测量的统计思路,但其贝叶斯非参数核心技术(NDP、BKMR)不在研究者熟悉的武器库中(如非参数统计、逆问题),因此暂不可直接迁移;不过作为入门读物,它能帮助熟悉空间流行病学数据结构和暴露模式识别的问题。若时间允许,值得阅读全文以了解实际数据分析中的模型选择与敏感性分析流程,但无需深究贝叶斯计算细节。
8. 10.1214/22-aoas1699 · arXiv — Bivariate hierarchical Bayesian model for combining summary measures and their uncertainties from multiple sources¶
- 作者: Yujing Yao, R. Todd Ogden, Chubing Zeng, Qixuan Chen
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 4/10 · novelty:
application - 摘要: 本文研究如何合并来自多个数据源的同一估计量及其方差,重点关注估计值与方差之间可能存在的相关性。提出双变量分层贝叶斯模型,将估计值和估计方差作为联合响应,引入相关系数刻画两者关联。模拟实验表明,当相关性存在时,该模型比独立建模或忽略方差的常用方法更准确。模型在PET脑成像、元分析和小区域估计三个差异较大的领域得到应用。对从事流行病学或因果推断的研究者而言,该模型可用于合并不同队列的效应估计,在考虑估计精度与效应大小相关时给出更稳健的不确定性量化。
- 关键技术:
bivariate hierarchical Bayesian model,joint modeling of estimate and variance,meta-analysis,small area estimation - 为什么对您有用: 该论文属于流行病学(二级兴趣)中合并估计的实用方法,可直接用于整合多个因果推断研究的效果估计。研究者若想将这一合并策略纳入自己的应用工作,需要熟悉贝叶斯分层建模,而该技能不在当前very_familiar或moderately_familiar武器库中(属于统计计算中的MCMC),因此属于中期可做——先需在贝叶斯计算上积累经验。但作为流行病学应用阅读,文中对相关性处理的思路对敏感性分析有启发,值得读全文。
9. 10.1214/22-aoas1664 — Latent multivariate log-gamma models for high-dimensional MultiType responses with application to daily fine particulate matter and mortality counts¶
- 作者: Zhixing Xu, Jonathan R. Bradley, Debajyoti Sinha
- 期刊/来源: Annals of Applied Statistics
- 机构: Florida State University
- 分类: vol 17 · issue 2
- 相关性 4/10 · novelty:
application - 摘要: 研究问题是在公共卫生监测设定下,对高维多类型响应变量(连续偏态的 PM2.5 浓度与计数型的死亡人数)进行联合建模与估计。核心方法是贝叶斯分层模型,利用 Weibull、Poisson 与 multivariate log-gamma 分布之间的共轭结构实现跨分布类型的联合建模,并通过降维技术处理高维计算问题。模型支持对未观测/缺失县域的插值估计,在仿真与 CDC 真实数据上展示了参数估计与预测的性能。本文属于应用统计方法论文献,方法学 novelty 有限,主要贡献在于将现有贝叶斯分层框架适配到多类型响应的具体流行病学场景。
- 关键技术:
Bayesian hierarchical model,multivariate log-gamma distribution,conjugate prior structure,dimension reduction,multi-type responses - 为什么对您有用: (1) 连接到 epidemiology secondary interest,展示了如何在真实 CDC 数据集上处理多类型响应(连续+计数)的联合建模问题。(2) 武器库中的 nonparametric statistics 和 software development 可以攻这篇 paper 的模型实现与扩展口子,但贝叶斯分层建模不在 very_familiar 列表中。(3) 中期可做:若想进入贝叶斯环境流行病学方向,需先在 moderately_familiar 的 M-estimation theory 之外补充贝叶斯分层模型的计算工具(如 MCMC、降维近似);若仅关注数据集与分析流程,本文是合格的入门读物。
10. 10.1214/22-aoas1674 · arXiv — Dynamic risk prediction triggered by intermediate events using survival tree ensembles¶
- 作者: Yifei Sun, Sy Han Chiou, Colin O. Wu, Meghan E. McGarry, Chiung-Yu Huang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
application - 摘要: 本文针对电子健康记录和注册数据库中随时间变化的患者信息,开发了一个统一框架,用于基于生存树集成的动态风险预测。传统界标预测固定界标时间,而本文允许界标时间由中间临床事件触发且个体化,从而避免了不同界标时间模型不兼容的问题。由于纵向预测变量和事件时间结局均存在右删失,无法直接应用现有树方法,作者提出了一种基于风险集的集成估计程序,通过平均单个树的鞅估计方程来构建预测模型。模拟研究验证了方法的良好性能,并将其应用于囊性纤维化基金会患者注册数据,实现了肺病动态预测及重要预后因素的识别。该方法为纵向删失数据下的动态预测提供了非参数解决方案,对流行病学研究中利用时序信息进行个体化风险评估具有参考价值。
- 关键技术:
survival tree ensembles,landmark prediction,risk-set-based ensemble,martingale estimating equations,subject-specific landmark times,right censoring in longitudinal data - 为什么对您有用: 本文属于流行病学应用领域,与研究者 secondary interests 中的流行病学数据分析和纵向预测方法直接相关。研究者的武器库(非参数统计、M估计理论)可用于理解其鞅估计方程框架的稳健性,但核心的生存树集成方法不在熟悉范围内,因此暂不可做——需要先熟悉生存分析中的树模型和鞅估计理论。不过本文的数据处理和分析流程对研究者未来处理纵向删失数据(如因果推断中的长期随访)有借鉴意义,可作为入门阅读。
11. 10.1214/22-aoas1660 · arXiv — CytOpT: Optimal transport with domain adaptation for interpreting flow cytometry data¶
- 作者: Paul Freulon, Jérémie Bigot, Boris P. Hejblum
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
application - 摘要: 本文针对流式细胞术数据分析中跨样本细胞群体比例估计问题,提出了一种基于正则化最优传输的域适应算法CytOpT。核心设定:源样本已有细胞分群标签,目标样本无标签,两样本间因技术变异导致同一细胞群在测量空间上发生错位。方法核心是使用正则化Wasserstein距离衡量源与目标样本的分布差异,并通过优化一个权重向量来重新加权源分布中各群体的比例,使其与目标分布对齐。由于流式细胞术数据维度高,使用随机算法(如Sinkhorn迭代)近似求解正则化Wasserstein距离,提高计算可扩展性。在多个真实流式细胞术数据集上与现有自动门控方法比较,CytOpT能更稳健地估计目标样本中的细胞群比例,尤其是在存在批次效应时。本文对您可能有用:这是最优传输在生物医学数据分析中的典型应用,展示了如何利用分布对齐解决实际测量异质性(批次效应)问题,与您的统计计算兴趣(数值算法)直接相关,同时其域适应框架也可迁移至因果推断中处理分布迁移问题。
- 关键技术:
regularized optimal transport,Wasserstein metric,domain adaptation,Sinkhorn algorithm,stochastic optimization - 为什么对您有用: 属于流行病学/生物医学领域的应用统计工作,流式细胞术是医学诊断和免疫学研究的常用工具。本文提出的CytOpT方法利用正则化最优传输和随机算法解决高维数据分布对齐问题,这与您的统计计算兴趣(数值方法、算法)高度相关。从武器库看,您对逆问题与高维渐近(very_familiar)已有基础,但最优传输和Sinkhorn算法属于 moderately_familiar 领域——可先通过本文入门,中期尝试将Wasserstein度量纳入因果推断的敏感性分析或分布外推广。若后续有明确应用问题,值得全文阅读以理解其算法实现细节。
其他 (other, 7 篇)¶
1. 10.1214/22-aoas1680 · arXiv — Latent variable models for multivariate dyadic data with zero inflation: Analysis of intergenerational exchanges of family support¶
- 作者: Jouni Kuha, Siliang Zhang, Fiona Steele
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 5/10 · novelty:
application - 摘要: 本文针对家庭代际支持交换中的多变量对数据(dyadic data),提出了一种结合连续潜变量和二元潜类别的零膨胀潜变量模型。连续潜变量刻画帮助倾向的连续变化,二元潜类别则对应“完全不提供/不接收任何帮助”的零膨胀状态,从而有效处理大量全零响应。模型主体采用 MCMC 方法配合数据增广算法进行估计,并在英国纵向调查(UKHLS)数据上分析了成年子女与非同住父母之间的帮助交换。研究表明,该模型能揭示帮助倾向的预测因子以及给予与接收之间的互惠关系。对您而言,本文展示了一套处理复杂调查数据中多变量二元响应零膨胀问题的应用框架,其分析流程可迁移至流行病学或社会政策中的类似对数据场景。
- 关键技术:
latent variable models,zero inflation,dyadic data,MCMC data augmentation,multivariate binary indicators - 为什么对您有用: 本文属于社会学应用研究,与您的次要兴趣(流行病学/应用因果工作)中的真实数据分析案例相对接。虽然没有直接的因果推断,但其处理多变量对数据和零膨胀的潜变量建模思路可复用于流行病学中的家庭暴露-健康对数据分析。从技术武器库看,该文的 MCMC 估计方法不在您熟悉范围内(贝叶斯工具暂缺),但作为了解社会学数据结构和模型假设的入门读物有一定价值。后续判断:暂不可做——缺乏贝叶斯深度和潜类别分析经验,但中期可补以“theory of higher-order U-statistics”的视角来审视其模型复杂性。
2. 10.1214/22-aoas1657 · arXiv — Bayesian decision theory for tree-based adaptive screening tests with an application to youth delinquency¶
- 作者: Chelsea Krantsevich, P. Richard Hahn, Yi Zheng, Charles Katz
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
application - 摘要: 本文研究自适应筛查测试(adaptive screening tests)中测试长度与分类准确性的权衡问题,目标是在贝叶斯决策理论框架下为树形自适应测试提供有原则的终止准则。设定为二分类决策问题,假设潜在风险变量服从先验分布,观测变量为问卷条目响应,决策损失函数同时惩罚误分类和测试长度。核心方法包括:(1) 建立贝叶斯决策框架,计算后验风险并确定最优停止规则;(2) 提出基于该框架的树形自适应测试设计方法,通过贪心或动态规划方式选择下一个条目;(3) 在青年犯罪风险评估数据上验证,表明约 10 个条目的自适应测试可达到 173 条目完整问卷相近的分类准确率。理论贡献主要是将决策理论应用于树形测试的终止规则设计,方法学 novelty 属于应用层面的框架整合。
- 关键技术:
Bayesian decision theory,adaptive testing,classification and regression trees,optimal stopping rule,item response theory,risk assessment - 为什么对您有用: 本文属于贝叶斯决策理论与应用统计的交叉,与您 primary interests 中的 semiparametric theory / efficiency theory 无直接关联,亦未涉及因果推断或高维统计。技术层面使用的是经典贝叶斯决策框架,不涉及 semiparametric efficiency bound 或 influence function 等您熟悉的工具。对您而言,本文可作为 decision-theoretic screening 的应用案例阅读,但方法论创新有限,暂不可做:核心机器(IRT 模型、树形测试设计)不在您的武器库中,且与您当前研究方向(higher-order U-statistics、causal inference、efficiency theory)无直接接口。
3. 10.1214/22-aoas1637 · arXiv — Robust sensible adversarial learning of deep neural networks for image classification¶
- 作者: Jungeum Kim, Xiao Wang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
new_method - 摘要: 本文针对深度神经网络在图像分类中易受对抗攻击的问题,提出了“sensible adversarial learning”框架。与传统对抗训练不同,作者定义了一种“sensible adversary”,既能提升鲁棒性,又能保持较高的自然准确率。在理论方面,证明了在 0-1 损失下,贝叶斯分类器是 sensible adversarial learning 中最鲁棒的多分类器。算法层面采用隐式损失截断(implicit loss truncation)实现高效训练,并在 MNIST 和 CIFAR10 上进行了大规模实验。实验表明该方法对超参数不敏感,即使在模型容量较小的情况下也能抵抗多种攻击,同时保持高自然精度。对于您而言,本文的非参数分类理论结果(贝叶斯分类器最优性)与您的非参数统计兴趣有浅层关联,但整体内容更偏向深度学习算法与工程,与您当前的武器库主题(因果推断、高维、计算复杂性)距离较远。
- 关键技术:
adversarial training,sensible adversary,implicit loss truncation,Bayes classifier robustness - 为什么对您有用: 本文与您的 primary interest 中的非参数分类理论有微弱连接——证明了贝叶斯分类器在某种对抗环境下的最优性,属于 nonparametric theory 的一个特殊情形。但该结果已经完整给出,无法直接用您的 very_familiar 工具(如 minimax bounds)去改进;其核心算法与实验也缺乏与您武器库的交叉点(如因果推断、高维统计、U-统计量)。因此这一工作至多作为应用统计的参考,而不太可能催生您自己的后续研究。整体上,这是一篇应用导向的方法论文,不建议投入深度阅读。
4. 10.1214/22-aoas1677 · arXiv — Co-clustering of spatially resolved transcriptomic data¶
- 作者: Andrea Sottosanti, Davide Risso
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 3/10 · novelty:
new_method - 摘要: 本研究针对空间转录组学数据中的共聚类问题。目标是同时聚类基因和空间区域。传统方法未充分利用空间信息。作者提出了SpaRTaCo模型,基于潜在块模型进行共聚类。通过EM算法进行参数推断。在模拟和实际人类脑组织数据上验证了方法。该方法为高维空间数据的结构化聚类提供了新工具。对于关注统计计算和算法开发的您,本文展示了如何将潜在变量模型应用于高维生物数据,具有一定的借鉴意义。
- 关键技术:
co-clustering,latent block model,spatial transcriptomics,EM algorithm,model-based clustering - 为什么对您有用: 连接点:统计计算(算法实现)。用您的"software development"能力可以快速理解并重现该算法。针对该模型的收敛性理论,需要补充高维潜在变量模型的分析工具,属于中期可做的拓展方向。
5. 10.1214/22-aoas1672 · arXiv — Simulating flood event sets using extremal principal components¶
- 作者: Christian Rohrbeck, Daniel Cooley
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 17 · issue 2
- 相关性 2/10 · novelty:
new_method - 摘要: 本文针对英国北部洪水事件集生成问题,提出基于极端主成分分析(extremal PCA)的生成框架。研究使用45个测站的极端径流数据,通过极端值分析方法分析依赖结构。核心方法是利用极端主成分降维,对不同贡献的主成分分别建模。文章引入数据驱动的最优维度选择方法,使得生成过程高效且易于实现。实验表明,生成的合成事件在描述极端径流动态方面与观测数据一致,且优于现有统计方法。对您而言,本文展示了降维技术在极端事件建模中的应用,可作为应用统计案例,但与方法论核心兴趣的直接联系较弱。
- 关键技术:
extremal principal components,extreme value analysis,generative framework for hazard event sets,dimension reduction,data-driven dimension selection - 为什么对您有用: 本文属于应用统计,使用极端主成分分析生成洪水事件集,与研究者主要兴趣(因果推断、高维统计)无直接重叠。但其降维思路和数据驱动选择维度的策略对高维数据建模具有参考价值。研究者可用武器库中的'非参数统计'和'高维渐近理论'来分析极端主成分的统计性质,但需要补充极端值分析背景。follow-up粗判:暂不可做,因为缺乏极端值理论和水文背景知识。
6. 10.1214/22-aoas1662 — A rotation-based feature and Bayesian hierarchical model for the forensic evaluation of handwriting evidence in a closed set¶
- 作者: Amy M. Crawford, Danica M. Ommen, Alicia L. Carriquiry
- 期刊/来源: Annals of Applied Statistics
- 机构: Berry & Associates (United States) · Iowa State University
- 分类: vol 17 · issue 2
- 相关性 1/10 · novelty:
application - 摘要: 本文针对封闭集手写笔迹鉴定问题,基于旋转角度(与书写倾斜相关)特征,构建贝叶斯多层模型以计算作者后验预测概率。模型将旋转角度作为响应变量,引入层次结构描述作者间变异,并利用美国与欧洲手写样本进行拟合与验证。结果表明,只要待鉴定文档长度超过一两句话,即可高概率正确识别作者。模型通过后验分布量化不确定性,依赖马尔可夫链蒙特卡洛采样实现推断。本文属于应用统计报告,方法上未涉及高维统计、因果推断或半参效率理论等您的主要兴趣方向。但其中的多层次建模与后验预测框架可作为统计方法在笔迹鉴定领域的应用参考,对您而言可能仅作为拓宽视野的读物。
- 关键技术:
rotation angles,Bayesian hierarchical model,posterior predictive probability,multi-level model,closed set identification - 为什么对您有用: 本文属于应用统计范畴,未直接对应您列出的主要兴趣方向(因果推断、高维统计、半参理论等)。从技术武器库看,您的统计计算和软件开发经验可用于重现或扩展其贝叶斯模型,但方法论上缺乏直接连接。由于本文为应用报告且方法论相对传统,暂不可做直接的方法学扩展,可作为了解 forensic 统计领域的入门阅读。
7. 10.1214/22-aoas1675 — Mixed-frequency extreme value regression: Estimating the effect of mesoscale convective systems on extreme rainfall intensity¶
- 作者: Debbie J. Dupuis, Luca Trapin
- 期刊/来源: Annals of Applied Statistics
- 机构: HEC Montréal · Decision Sciences (United States) · University of Bologna
- 分类: vol 17 · issue 2
- 相关性 1/10 · novelty:
new_method - 摘要: 本文聚焦于中尺度对流系统(MCS)活动对极端小时降雨强度的影响,以美国圣路易斯地区为案例,采用极值统计中的块极大值法(每月块)。关键挑战在于协变量(MCS活动)的采样频率高于极端观测(月度极大值),即混合频率问题。为此,作者提出了一种混合频率极值回归框架,允许高频协变量在块内非均匀地影响块极大值,通过参数化时变强度来捕捉这一关系。估计采用极大似然法,并利用剖面似然进行推断。实证结果显示,MCS活动显著增加了极端降雨强度,且该效应在月份内随时间变化。方法上,本文贡献了一种处理混合频率协变量下极值回归的实用建模策略。对您而言,本文是一个应用统计实例,展示了在非标准数据频率下如何将协变量效应纳入极值模型,可作为将非参数/半参数理论(您非常熟悉的工具)推广至混合频率设定的参考用例,但当前武器库中缺乏极值理论核心工具,因此属于暂不可做的方向。
- 关键技术:
extreme value theory,block maxima,mixed-frequency regression,profile likelihood,seasonal covariate modeling - 为什么对您有用: 本文属于应用统计范畴,核心是解决混合频率数据下的极值回归问题,这与您次要兴趣中的流行病学/经济学应用数据集分析有相通之处(处理不同时间分辨率的数据)。但极值理论(尤其是块极大值、广义极值分布)不在您当前武器库中,从统计学角度,您可以用您擅长的非参数回归或函数型数据分析视角来理解其建模思路,但直接复制方法需要补充极值理论背景。整体来看,这是一篇值得了解的应用示范,但并非您短期可复用的方向。
Maintained by 陈星宇 · Homepage · Source on GitHub