AoAS — Vol 18 Issue 4 · 2026-06-19¶
- 共 42 篇 · Annals of Applied Statistics
- 目录核对 ⚠️ 疑似漏 1 篇(对照 OpenAlex 43 篇):10.1214/24-aoas1909
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期论文呈现出几条清晰的方法与主题主线:因果推断与观察性研究设计(多中介、空间干扰、匹配与设计推断)、半参数/非参数与函数型建模(EHR两阶段抽样、动态网络回归、相关矩阵参数化、极值回归与变点检测)、高维/潜变量与正则化推断(稀疏惩罚中介、张量结构脑网络、成分回归与空间转录组反卷积),以及流行病学中的缺失/潜状态建模(CRC误分类、HMM多站点疫情、漏报校正)。此外,计算方法(ODE轨迹、BNN隐式生成先验、最优传输背景建模)与空间/网络结构建模(贝叶斯空间机制、网络Laplacian正则化、Gaussian line process)也零散分布其中。
因果推断主线本期在识别策略与干扰结构上推进明显:在多中介设定下,引入ℓ1/ℓ2惩罚识别稀疏神经影像路径(多中介模型);在空间环境因果中,用大气扩散模型构建干扰网络后验并在结局阶段边际化其不确定性(电力厂排放控制);在观察性研究设计上,分别提出了基于倾向得分entire number加权的triples design放宽匹配条件(高中足球认知),以及针对小亚群粗化数据的design-based rank-sum推断(Medicaid扩张死亡率)。
半参数/非参数与函数型建模主线则聚焦于结构约束下的效率提升与局部特征捕捉:在EHR两阶段抽样中,通过建模选择概率逼近log-odds ratio与AUC的半参数效率界(EHR风险预测);在动态脑网络中,将半参数回归系数张量化并施加低秩/稀疏正则化以联合估计边效应(动态网络回归);在函数型变点上,以sup-norm与relevance阈值替代L2距离以敏感捕捉局部突变(疲劳数据变点);在极值回归中,用神经网络建模GPD尺度与形状参数的条件依赖以实现尾部外推(极值分位数回归)。同时,相关矩阵的协变量依赖参数化与正定约束MCMC(代际支持互惠)、3D染色质曲线的B-spline与Poisson拟合(Hi-C结构)也属此脉络下的结构约束建模。
对因果推断与半参数效率方向最贴的论文是:EHR两阶段抽样(逼近效率界)、电力厂排放控制(干扰结构不确定性边际化)、多中介模型(高维稀疏惩罚识别)、动态网络回归(半参数张量联合估计)以及 triples design 与 Medicaid扩张(观察性研究设计推断)。关注高维与正则化推断的读者可优先看:多中介模型、动态网络回归、成分-成分回归潜变量混合模型及空间转录组MAPS反卷积。
因果推断 (causal_inference, 2 篇)¶
1. 10.1214/24-aoas1949 — A new design for observational studies applied to the study of the effects of high school football on cognition late in life¶
- 作者: Katherine Brumberg, Dylan S. Small, Paul R. Rosenbaum
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Michigan · University of Pennsylvania
- 分类: vol 18 · issue 4
- 相关性 9/10 · novelty:
new_method - 摘要: 在观察性研究中,针对高中足球对晚年认知衰退的因果效应,本文提出了一种新的匹配设计——triples design。该设计将样本分为 M 个大小为 3 的区块(1 处理+2 对照或 2 处理+1 对照),利用倾向得分定义的“entire number” {1-e(x)}/e(x) 进行加权,仅需两个权重即可实现协变量平衡。与 matched pairs 仅在 entire number>1 时消除偏差不同,triples design 在 entire number>1/2 时即可成功,允许一个对照匹配两个处理个体;与 full matching 相比,它避免了 matched pairs 的存在但保留了更高匹配率和更小区块内协变量距离的优势;在连续结局的简单模型下,其 design sensitivity 优于包含 matched pairs 的设计,即在有利情况下对未测量偏差具有更强的鲁棒性。设计构建采用含网络优化的启发式算法。对您可能有用:该设计为观察性研究的 sensitivity analysis 提供了新框架,直接关联因果推断的 sensitivity 与 matching 设计子方向。
- 关键技术:
triples design,propensity score matching,design sensitivity,entire number,network optimization,sensitivity analysis to unmeasured bias - 为什么对您有用: 本文直接连接因果推断的 sensitivity analysis 与 matching 设计子方向,提出了比传统 matched pairs 对未测量偏差更鲁棒的 triples design。用您 very_familiar 的 estimation theory in causal inference 可以分析该设计下 ATE/ATT estimator 的 semiparametric efficiency bound 与 influence function,这是一个立即可做的 follow-up 方向;此外,其网络优化构建算法涉及 stat_computing,与您的 software development 兴趣契合。
2. 10.1214/24-aoas1905 — A new multiple-mediator model maximally uncovering the mediation pathway: Evaluating the role of neuroimaging measures in age-related cognitive decline¶
- 作者: Hwiyoung Lee, Chixiang Chen, Peter Kochunov, L. Elliot Hong, Shuo Chen
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Maryland, Baltimore · The University of Texas Health Science Center at Houston
- 分类: vol 18 · issue 4
- 相关性 8/10 · novelty:
new_method - 摘要: 在多中介因果推断设定下,目标是估计年龄对认知衰退的总效应中经由神经影像指标中介的比例(mediation proportion),假设中介变量间存在稀疏的脑区局部化结构。本文提出一种新的多中介模型,通过对中介路径系数施加 ℓ1 惩罚与 ℓ2 约束,在识别活跃神经影像中介的同时最大化中介比例的揭示。作者开发了针对该非凸惩罚中介比例最大化问题的计算高效算法。实证分析基于 UK Biobank 的 37,441 名参与者数据(皮层灰质厚度、白质完整性及认知得分),结果显示脑影像中介效应可解释 97% 的年龄相关认知衰退。对您可能有用:该文将高维稀疏惩罚引入多中介因果推断的 identification 与 estimation,连接了您在 mediation 与高维统计两个 primary interest 的交叉点。
- 关键技术:
multiple mediator model,mediation proportion maximization,ℓ1 penalty and ℓ2 constraint,nonconvex optimization algorithm,high-dimensional mediator selection - 为什么对您有用: 本文直接连接您 primary interest 中的 mediation estimation 与高维稀疏惩罚设定,属于因果中介分析在高维多中介场景下的方法拓展。您武器库中 very_familiar 的高维渐近理论与 estimation theory in causal inference 可直接用于审视该 ℓ1/ℓ2 惩罚中介比例估计量的选择一致性与收敛率(当前论文未给出严格理论保证)。follow-up 判断:立即可做——用您熟悉的高维 M-estimation 与 minimax bound 工具,可立即着手推导该 penalized mediation proportion estimator 的有限样本界或渐近分布,填补其理论空白。
非参数 / 半参数 (nonparam_semipara, 7 篇)¶
1. 10.1214/24-aoas1938 — A semiparametric method for risk prediction using integrated electronic health record data¶
- 作者: Jill Hasler, Yanyuan Ma, Yizheng Wei, Ravi Parikh, Jinbo Chen
- 期刊/来源: Annals of Applied Statistics
- 机构: Fox Chase Cancer Center · Pennsylvania State University · University of South Carolina · University of Pennsylvania
- 分类: vol 18 · issue 4
- 相关性 8/10 · novelty:
new_method - 摘要: 在 EHR 与外部数据(如 biobank / survey)整合的两阶段抽样设定下,目标是高效估计 logistic risk model 的 log-odds ratio 及 AUC 等预测精度指标,关键假设是外部数据的可获取性依赖于 EHR 初步预测分数(即 two-phase design 的 sampling score)。核心方法借鉴 two-phase design 思想,通过建模外部数据的可用性(selection probability)构建 estimator,理论证明其对 log-odds ratio 与 AUC 参数达到高效率(接近 semiparametric efficiency bound)。技术路线结合了 semiparametric theory 与 influence function 构造,利用 EHR 全样本信息提升仅含外部数据子集的估计效率。实证通过模拟与 Penn 医院肿瘤患者短期死亡率预测(结合 EHR 与 patient-reported outcome)验证方法优势。对您可能有用:本文的两阶段 semiparametric efficiency 框架与您 primary interest 中的 semiparametric efficiency bounds / influence function 理论直接对接。
- 关键技术:
two-phase design,semiparametric efficiency,influence function,selection probability modeling,AUC estimation,log-odds ratio estimation - 为什么对您有用: 本文直接连接您 primary interest 中的 semiparametric efficiency bounds 与 influence function 理论,在 two-phase sampling 设定下推导了 log-odds ratio 与 AUC 的 efficient estimator。您武器库中 moderately_familiar 的 semiparametric theory 可以直接攻这篇 paper 的效率界推导口子,验证其声称的效率是否达到 semiparametric efficiency bound。follow-up 粗判:中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉(特别是 two-phase design 下的 influence function 构造),才能严格审视其效率界证明的紧性。
2. 10.1214/24-aoas1926 · arXiv — Multiple change point detection in functional data with applications to biomechanical fatigue data¶
- 作者: Patrick Bastian, Rupsa Basu, Holger Dette
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 4/10 · novelty:
new_method - 摘要: 在功能性数据分析(FDA)框架下,研究周期性密集采集的生物力学疲劳数据中的多变点检测问题,estimand 为超过给定阈值 Δ>0 的“relevant change point”。方法核心有两点:(1) 用曲线间的最大绝对偏差(sup-norm)替代经典 L² 距离来比较曲线,从而更好地捕捉功能性数据的局部变化;(2) 引入 relevance 概念,不检测任意小的扰动,仅当 sup-norm 偏差超过预设阈值 Δ 时才判定为变点,避免过度检测。理论方面,基于 sup-norm 与 relevance 阈值的检测准则提供了比 L² 方法更敏感的局部变点识别能力,实证在室内控制与户外马拉松场景的膝关节角度数据中成功识别了纯粹由疲劳引起的变点。对您可能有用:sup-norm 距离下的变点检测与 relevance 阈值设定,为非参数假设检验与 M-estimation 理论提供了一个具体的应用场景。
- 关键技术:
multiple change point detection,functional data analysis,sup-norm distance,relevant change point,L2 vs sup-norm comparison - 为什么对您有用: (1) 连接到非参数理论中的 sup-norm 距离与假设检验子方向,本文将 sup-norm 替代 L² 用于变点检测,属于非参数统计的具体应用;(2) 用 very_familiar 中的 minimax bounds for estimation problems 可以尝试分析该 sup-norm relevance 检测的检测力下界与误报率界,或用 moderately_familiar 中的 M-estimation 理论分析其估计量的收敛性质;(3) 中期可做:需先在 moderately_familiar 的 M-estimation 理论上长肌肉,以推导 sup-norm 下 relevance 变点估计的渐近分布与效率性质。
3. 10.1214/24-aoas1907 · arXiv — Neural networks for extreme quantile regression with an application to forecasting of flood risk¶
- 作者: Olivier C. Pasche, Sebastian Engelke
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 3/10 · novelty:
new_method - 摘要: 在极值回归设定下,目标是估计超越历史观测范围的高条件分位数(return levels),关键假设为响应变量的尾部分布满足极值理论的 GPD(Generalized Pareto Distribution)近似。本文提出 EQRN 模型,将神经网络与极值理论结合:先在中间分位数用神经网络拟合条件分布,再在阈值以上用 GPD 参数化尾部并通过神经网络建模其尺度与形状参数的条件依赖,从而实现既捕捉复杂协变量依赖又保证尾部外推的估计。针对时间序列数据,进一步开发了循环版本(recurrent EQRN)以捕获序列依赖。实证方面,将模型应用于瑞士 Aare 河流域的洪水风险预测,利用时空协变量进行提前一天的 return level 与超越概率预测。对您可能有用:本文展示了神经网络与半参数极值模型的结合框架,其尾部外推机制可为因果推断中处理极端反事实结果或缺失数据下的尾部估计提供参考。
- 关键技术:
extreme value theory,conditional GPD tail approximation,neural network quantile regression,recurrent neural network for time series,high quantile extrapolation,return level estimation - 为什么对您有用: 本文连接到非参数/半参数理论方向,具体是极值回归的条件 GPD 尾部建模;用您 very_familiar 中的非参数统计与软件开发经验,可以直接审视其神经网络-GPD 两阶段估计的渐近性质与计算实现。follow-up 判断:中期可做——若想深入极值回归的效率理论或 minimax rate,需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以分析该复合估计量的 influence function 与收敛率。
4. 10.1214/24-aoas1917 — Statistical curve models for inferring 3D chromatin architecture¶
- 作者: Elena Tuzhilina, Trevor Hastie, Mark Segal
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Toronto · Stanford University
- 分类: vol 18 · issue 4
- 相关性 3/10 · novelty:
new_method - 摘要: 在 Hi-C 接触矩阵数据设定下,目标是推断 3D 染色质空间结构(一条 1D 空间曲线),现有方法多输出多边形链而忽略曲线平滑性。本文提出 B-spline 与 smoothing spline 方法直接拟合 3D 空间中的光滑曲线,并结合 Poisson 模型建模接触计数。针对单细胞 Hi-C 数据的稀疏性,作者进一步构建了 distribution-based metric scaling (DBMS) 框架,衍生出 zero-inflated Poisson、Hurdle Poisson 及 negative binomial 模型。实证分析基于 IMR90 细胞 bulk Hi-C 与小鼠胚胎干细胞 single-cell Hi-C 数据。对您可能有用:本文将非参数 spline 回归与计数数据广义线性模型结合的建模思路,可迁移至其他空间点过程或稀疏计数数据的半参数推断场景。
- 关键技术:
B-spline curve estimation,smoothing spline in 3D,Poisson regression for contact counts,distribution-based metric scaling (DBMS),zero-inflated Poisson model,Hurdle Poisson model - 为什么对您有用: 本文属于非参数/半参数理论方向的应用,核心是将 smoothing spline 与稀疏计数分布(zero-inflated / Hurdle)结合,属于 gateway-reading 性质:(1) 作为统计计算与非参数建模的入门读物,spline 与 DBMS 框架的结合思路清晰可读;(2) 武器库中 very_familiar 的 nonparametric statistics 与 software development 完全足以支撑理解并复现其 spline + GLM 框架;(3) 值得花时间读全文以了解稀疏计数数据下 metric scaling 的半参数建模范式,但若想从理论层面推导 spline estimator 在此复合模型下的 minimax rate 或效率界,则需先在 moderately_familiar 的 M-estimation theory 上长肌肉——属于中期可做。
5. 10.1214/24-aoas1936 · arXiv — Bayesian robust learning in chain graph models for integrative pharmacogenomics¶
- 作者: Moumita Chakraborty, Veerabhadran Baladandayuthapani, Anindya Bhadra, Min Jin Ha
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 3/10 · novelty:
new_method - 摘要: 在 chain graph model (CGM) 框架下,目标是估计多层级生物数据(基因组、转录组、蛋白组)间的条件依赖结构,现有方法假设 Gaussian 分布,对 heavy-tailed marginals 不稳健。本文提出 Bayesian robust chain graph model (RCGM),通过 Gaussian scale mixture 对连续 multivariate data 的边际做随机变换以吸收 node-level non-normality,从而在保留正常节点推断的同时识别非正常节点的条件符号依赖。核心机制为基于 scale mixture 的边际变换与 Bayesian posterior inference,模拟显示在多种非正常生成机制下 RCGM 优于 Gaussian CGM。实证应用于肺癌细胞系的药理基因组学数据,揭示了关键信号通路对特定药物的跨平台与内平台依赖模式。对您可能有用:本文的 Gaussian scale mixture robustification 思路可迁移至 semiparametric / nonparametric 理论中对 non-normal 误差的稳健推断设定。
- 关键技术:
chain graph model,Gaussian scale mixture,Bayesian robust inference,conditional sign dependence,multivariate marginal transformation - 为什么对您有用: 本文连接到 semiparametric / nonparametric theory 子方向中关于非正态边际稳健建模的议题,其 Gaussian scale mixture 变换属于您 very_familiar 中的 nonparametric statistics 工具可直接攻入的口子(分析其变换是否达到 minimax robustness 或影响 influence function 结构)。Follow-up 粗判:立即可做——用 very_familiar 的 nonparametric statistics 与 minimax bounds 工具即可审视其 robustification 的理论深度(如是否逼近 semiparametric efficiency bound),无需额外长肌肉。
6. 10.1214/24-aoas1942 · arXiv — Learning brain connectivity in social cognition with dynamic network regression¶
- 作者: Maoyu Zhang, Biao Cai, Wenlin Dai, Dehan Kong, Hongyu Zhao, Jingfei Zhang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
new_method - 摘要: 在动态脑网络数据设定下,目标是估计 subject-level 协变量对随时间变化的边连接概率的影响,模型假设为半参数动态网络响应回归。核心方法将动态影像系数建模为高阶张量,利用张量结构(低秩/稀疏等正则化)进行联合估计,而非逐条边独立建模,从而在高噪声、小样本下借力网络内在结构提升效率。估计算法基于张量分解与迭代优化,理论性质侧重算法收敛与估计误差界。实证上,在 HCP 社会认知任务数据中识别出性别对脑连接的特异性影响,而逐边方法无法检出。对您可能有用:本文的半参数设定与张量结构联合估计思路,可迁移至高维因果推断中处理多时间点 treatment effect 的张量化表示。
- 关键技术:
semi-parametric dynamic network regression,high-order tensor regularization,tensor decomposition estimation,edge-wise vs network-wise modeling,subject-level covariate effect - 为什么对您有用: 本文连接到 semiparametric theory 子方向(半参数动态网络回归模型)以及 statistical computing 中的张量计算。您武器库中 computation of higher-order U-statistics (treewidth / tensor contraction / einsum) 可直接攻本文张量估计算法的计算复杂度优化口子——用 einsum/tensor contraction 视角重写其迭代算法,可能大幅降低计算成本。follow-up 判断:立即可做——用 very_familiar 的张量 contraction 工具即可动手优化其算法实现与复杂度分析。
7. 10.1214/24-aoas1921 — Modelling correlation matrices in multivariate data, with application to reciprocity and complementarity of child-parent exchanges of support¶
- 作者: Siliang Zhang, Jouni Kuha, Fiona Steele
- 期刊/来源: Annals of Applied Statistics
- 机构: East China Normal University · London School of Economics and Political Science
- 分类: vol 18 · issue 4
- 相关性 1/10 · novelty:
new_method - 摘要: 本文提出一种多连续潜变量联合分布模型,核心是让潜变量间的相关系数显式依赖于解释变量,从而将相关矩阵参数化。目标 estimand 是家庭代际支持中的互惠性与互补性相关系数,模型设定要求隐含相关矩阵始终正定。作者设计了保持正定性的 MCMC 估计程序,并给出支撑该算法的理论结果以保证收敛与高效实现。实证分析基于 UKHLS 数据,估计了成年子女与非同住父母间实物与财务支持交换的相关结构。对您可能有用:该模型将相关矩阵视为依赖协变量的函数对象,其正定约束下的参数化与 M-estimation 理论可桥接至您熟悉的 semiparametric / M-estimation 工具。
- 关键技术:
correlation matrix parameterization,positive definiteness constraint,MCMC estimation,latent variable model,M-estimation theory - 为什么对您有用: 连接到 semiparametric / M-estimation 子方向:相关矩阵依赖协变量的参数化本质上是在正定约束下的 constrained M-estimation,您 very_familiar 的 M-estimation theory 可直接分析其 estimator 的 asymptotics。用 moderately_familiar 的 semiparametric theory 可考虑能否为该相关矩阵函数构造 efficient influence function 或 debiased estimator,从而将当前 MCMC 方案提升至 semiparametric efficiency。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉(具体是 constrained semiparametric efficiency bound 的推导),才能给出 sharper 的 inference。
数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶
1. 10.1214/24-aoas1950 — Scalable test of statistical significance for protein-DNA binding changes with insertion and deletion of bases in the genome¶
- 作者: Qinyi Zhou, Chandler Zuo, Yuannyu Zhang, Min Chen, Jian Xu, Sunyoung Shin
- 期刊/来源: Annals of Applied Statistics
- 机构: St. Jude Children's Research Hospital · Pohang University of Science and Technology
- 分类: vol 18 · issue 4
- 相关性 5/10 · novelty:
new_method - 摘要: 该论文针对非编码DNA插入/缺失(InDel)突变对蛋白质-DNA结合的影响,提出了一种新的统计检验方法——结合变化检验(BC test)。方法基于马尔可夫模型刻画背景序列,并通过高效的重要性抽样算法生成倾向于较大结合亲和力变化的序列,从而实现对InDel调控重要性的检验与识别。模拟研究展示了该方法在检测结合变化InDel方面的优异性能。将方法应用于人类白血病数据,发现了关键顺式调控元件中可能致病性的InDel突变。论文还提供了R包 atIndel。该方法虽然针对具体生物学问题,但其基于重要性抽样构造检验统计量的思路对一般假设检验问题具有参考价值。
- 关键技术:
importance sampling,Markov model,binding affinity change test,background sequence generation - 为什么对您有用: 该论文的核心是一类新型统计假设检验,直接对应您的首要兴趣方向——假设检验的理论与方法。具体而言,重要性抽样和马尔可夫模型在检验统计量构造中的应用,可以借助您熟悉的高维渐近理论与非参数统计工具进行分析。但该方法的有效性和效率分析与您当前技术库中的重要抽样理论不完全匹配,属于中期可做的方向:需先在重要性抽样的适应性和马尔可夫链收敛理论上积累。
统计计算 / 算法 (stat_computing, 3 篇)¶
1. 10.1214/24-aoas1943 · arXiv — Modeling trajectories using functional linear differential equations¶
- 作者: Julia Wrobel, Britton Sauerbrei, Eric A. Kirk, Jian-Zhong Guo, Adam Hantman, Jeff Goldsmith
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 5/10 · novelty:
new_method - 摘要: 本文针对小鼠运动实验中的肌肉激活与爪位置之间的动态关系,提出了一种结合函数型数据分析和常微分方程的新回归方法。该方法通过函数型线性微分方程建模轨迹,并同时估计所有曲线的参数,从而借用跨曲线的统计强度。与传统的逐条曲线拟合ODE相比,本方法在预测精度上显著更优。模拟研究和交叉验证表明,该方法在预测爪位置方面优于现有的函数型数据方法。对步态数据的分析显示,肌肉激活对爪速度和位置具有动态影响,且效应持续存在。本文展示了统计计算与生物力学应用的结合,对您在统计计算和非参数建模方面的兴趣具有参考价值。
- 关键技术:
functional linear differential equations,functional data analysis,ordinary differential equations,borrowing strength across curves,cross-validated predictive accuracy - 为什么对您有用: 本文属于统计计算方法与功能数据分析的交叉,与您的主要兴趣中的统计计算和非参数统计高度契合。您可以利用非常熟悉的非参数统计和软件工具来复现该方法,或将其扩展到更一般的动态系统建模场景。中期可做:需要先学习功能数据分析的基础理论(当前武器库中未明确列出)。
2. 10.1214/24-aoas1935 — A latent variable mixture model for composition-on-composition regression with application to chemical recycling¶
- 作者: Nicholas Rios, Lingzhou Xue, Xiang Zhan
- 期刊/来源: Annals of Applied Statistics
- 机构: George Mason University · Pennsylvania State University · Peking University
- 分类: vol 18 · issue 4
- 相关性 3/10 · novelty:
new_method - 摘要: 本文针对成分-成分回归(composition-on-composition regression)问题,提出一种无需对数比变换的潜变量混合模型,允许两个或多个成分预测变量共存。现有无变换模型仅能处理单个成分预测变量,本文通过引入潜变量将多个成分预测变量的效应混合,保留参数的自然可解释性。估计采用修正的期望最大化(EM)算法,并利用共形推断(conformal inference)构造成分响应的预测区间,无需对数据分布做参数假设。在 hydrothermal liquefaction (HTL) 化学回收数据上的实证分析展示了方法的实用性。本文的方法学贡献在于将成分数据的无变换回归扩展到多预测变量情形,并通过共形推断提供非参数预测。这对于您熟悉统计计算(EM 算法)和非参数推断(共形区间)是直接的延伸,并且成分数据在因果中介分析中作为潜在中介变量时也有应用前景。
- 关键技术:
latent variable mixture model,transformation-free regression,EM algorithm,conformal inference,compositional data analysis - 为什么对您有用: 本文的潜变量混合模型和 EM 算法属于统计计算范畴,与您 primary interest 中的 statistical computing 直接相关。您可以用 very_familiar 中的非参数统计(共形推断)和软件开发能力快速理解并复现其预测区间构造,甚至将其成分数据建模思路迁移至因果推断中的中介分析(例如成分型中介变量)。暂时无需学习新工具,可立即可做——阅读全文并尝试在自己的软件库中实现该 EM 算法。
3. 10.1214/24-aoas1953 — Deconvolution analysis of spatial transcriptomics by multiplicative-additive Poisson-gamma models¶
- 作者: Yutong Luo, Joan E. Bailey-Wilson, Christopher Albanese, Ruzong Fan
- 期刊/来源: Annals of Applied Statistics
- 机构: Georgetown University · Georgetown University Medical Center · National Institutes of Health · National Human Genome Research Institute
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
new_method - 摘要: 本文针对空间转录组数据的反卷积问题,即从空间转录组测序数据中推断细胞类型比例和细胞类型特异性基因表达模式。作者提出混合效应乘法-加法泊松-伽马(MAPS)模型,以空间转录组基因表达计数为因变量,利用单细胞RNA测序数据的均值和方差参数构造自变量,基于泊松-伽马混合假设建立解释关系。方法创新之一是引入scRNA-seq的方差参数描述细胞内变异或随机性,并推导了迭代解析公式估计细胞类型比例和离散参数。作者开发了MAPS软件包以支持实际数据分析。模拟和真实数据实验表明,MAPS在反卷积准确性上优于或相当于RCTD、SpatialDWLS、CARD和SONAR等方法,且计算速度显著快于RCTD和SpatialDWLS。本文对您统计计算和软件开发方向高度相关:软件实现是可复用的代码,其模型结构(泊松-伽马混合、迭代估计)可以作为您非参数/因果推断方法中处理计数数据的参考。
- 关键技术:
mixed-effect Poisson-gamma model,multiplicative-additive modeling,iterative analytical estimation,spatial transcriptomics deconvolution,single-cell RNA-seq variance parameters,MAPS software package - 为什么对您有用: 本文直接对应您在统计计算和软件开发方面的兴趣:提出新模型并实现了MAPS软件,您可基于very_familiar中的软件开发和估计理论直接评估其迭代算法的数值稳定性和收敛性,或将其软件架构扩展到其他反卷积问题。中期可做:通过moderately_familiar中的M估计理论分析其估计的渐近性质(当前论文仅依赖模拟)。
天体统计 (astrostats, 1 篇)¶
1. 10.1214/24-aoas1937 · arXiv — A robust Bayesian meta-analysis for estimating the Hubble constant via time delay cosmography¶
- 作者: Hyungsuk Tak, Xuheng Ding
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 7/10 · novelty:
new_method - 摘要: 本文在时间延迟宇宙学(time delay cosmography)框架下,提出一种鲁棒贝叶斯 meta-analysis 方法来推断哈勃常数 H_0;核心 estimand 是 H_0,输入为各透镜系统的时延与 Fermat 势差估计及其标准误,假设各系统独立。方法机制采用 Student's t 误差替代正态以抗偏倚输入,在仅 8 个系统的现实小样本下实现鲁棒推断;推断性质为 sub-percent 偏倚与约 1% 变异系数,即使 30% 输入被污染。模拟基于真实成像数据,实证分析三个透镜系统并对比已有 H_0 估计,附带 R 包 h0。对您而言,这是 astrostats 方向的优质 gateway reading:数据结构(透镜系统独立估计+标准误的 meta 汇总)与模型(t 误差鲁棒贝叶斯层次模型)清晰,适合统计学家入门。
- 关键技术:
Bayesian hierarchical model,Student-t error distribution,meta-analysis,time delay cosmography,Fermat potential difference - 为什么对您有用: 本文属于 astrostats gateway reading:(1) 对完全不了解天文的研究者非常友好,清晰解释了 time delay cosmography 的物理设定、数据输入结构(各透镜系统的时延与 Fermat 势差估计+标准误)与模型假设,是入门 H_0 争议与透镜数据的绝佳读物;(2) 武器库完全支撑进入此方向——very_familiar 的贝叶斯层次模型与软件开发可直接复现和扩展,moderately_familiar 的 M-estimation 理论可用于分析 t 误差下估计量的鲁棒性界;(3) 值得花时间读全文,特别是了解 Rubin Observatory 时代大规模透镜数据带来的统计挑战。
经济理论 / 应用 (econ_theory, 1 篇)¶
1. 10.1214/24-aoas1933 · arXiv — Learning risk preferences in Markov decision processes: An application to the fourth down decision in the national football league¶
- 作者: Nathan Sandholtz, Lucas Wu, Martin Puterman, Timothy C. Y. Chan
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 3/10 · novelty:
application - 摘要: 在 NFL 第四档决策的马尔可夫决策过程(MDP)框架下,目标是估计教练未知的风险偏好(以分位数函数参数化的风险度量作为 estimand),假设观测决策在某种分位数最优策略下是 minimally suboptimal。方法核心是逆优化:先用 2014–2022 赛季 play-by-play 数据估计 MDP 状态转移动态,再求解逆决策问题,找出使观测决策最接近最优的分位数水平。主要实证发现为教练的行为与优化下一状态价值分布的低分位数一致(保守风险偏好),在对手半场风险容忍度更高,且联盟平均风险容忍度逐年上升。对您可能有用:本文将 MDP 逆优化与分位数风险参数化结合,为经济/体育决策中的因果/反事实推断提供了一个结构化模型范例。
- 关键技术:
inverse optimization,Markov decision process,quantile risk measure,minimally suboptimal policy,state transition estimation,dynamic programming - 为什么对您有用: 本文属于经济理论(体育决策)的应用因果/结构化建模工作,用 MDP 逆优化从观测行为反推风险偏好,与您 primary interest 中的因果推断 identification 理论有结构化模型层面的连接。您武器库中的 M-estimation theory(moderately_familiar)可以用来审视其逆优化 estimand 的 identification 条件与估计量的渐近性质。follow-up 判断:中期可做——需先在 M-estimation theory 上长肌肉,以严格建立该逆优化估计量的 consistency 与收敛率,目前武器库缺 MDP 逆优化的理论工具。
流行病学 (epidemiology, 13 篇)¶
1. 10.1214/24-aoas1904 · arXiv — Causal health impacts of power plant emission controls under modeled and uncertain physical process interference¶
- 作者: Nathan B. Wikle, Corwin M. Zigler
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 8/10 · novelty:
new_method - 摘要: 在空间环境因果推断设定下,目标是电力厂排放控制对儿科哮喘急诊与全因死亡的因果效应,关键假设是干扰(interference)结构未知且需从辅助数据估计。作者提出 Bayesian 空间机制模型刻画污染物传输的干扰映射,并结合灵活非参数结局模型,将干扰结构的不确定性传播并边际化到因果效应估计中。核心机制是:用大气扩散模型构建干扰网络的 posterior,再在 outcome 阶段做非参数回归以 marginalize 网络不确定性,从而获得干扰不确定下的稳健效应区间。实证分析发现上风厂排放控制有降低哮喘与死亡的迹象,但一旦纳入干扰结构不确定性,结论变得不显著。对您可能有用:该文展示了如何在流行病学应用中处理网络干扰的 identification 与 uncertainty propagation,直接连接因果推断的 interference 设定。
- 关键技术:
interference under network uncertainty,Bayesian spatial mechanistic model,nonparametric outcome regression,marginalizing interference structure,propagation of structural uncertainty - 为什么对您有用: 本文直接连接因果推断的 interference / identification 子方向,以及流行病学应用数据集。从 technical_arsenal 看,identification theory in causal inference(moderately_familiar)可以用来审视其干扰结构不确定下的 identification strategy 是否完备,nonparametric statistics(very_familiar)可评估其 outcome 模型的收敛性质。Follow-up 判断:中期可做——需先在 moderately_familiar 的 identification theory 上长肌肉,深入分析 network-unaware vs network-aware 估计的 semiparametric efficiency bound 差异,再考虑将 HOIF 或 higher-order U-stat 工具引入其不确定性传播框架。
2. 10.1214/24-aoas1910 — Early effects of 2014 U.S. Medicaid expansions on mortality: Design-based inference for impacts on small subgroups despite small-cell suppression¶
- 作者: Charlotte Z. Mann, Ben B. Hansen, Lauren Gaydosh
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Michigan · The University of Texas at Austin
- 分类: vol 18 · issue 4
- 相关性 7/10 · novelty:
new_method - 摘要: 在2014年美国ACA Medicaid扩张的异质性政策设定下,目标是估计扩张对县级全因死亡率的因果效应,尤其关注与种族政治相关的小亚群。方法核心是强调观察性研究设计:预先指定分析、基于预处理协变量匹配县级单位,并采用 design-based inference 进行假设检验。针对公共卫生数据中普遍存在的“小单元格抑制”(计数≤10被屏蔽)问题,本文提出一种适应粗化数据的 rank-sum 检验统计量,使其在县级聚合数据下仍可进行 design-based 推断。实证表明,基于粗化公开数据的推断结果与完整受限数据所得结论实质一致。对您可能有用:本文展示了 design-based inference 与匹配设计在流行病学政策评估中的具体应用,以及针对数据粗化/抑制的检验统计量构造。
- 关键技术:
design-based inference,rank-sum test for coarsened outcomes,observational study design via matching,small-cell suppression adjustment,subgroup causal effect estimation - 为什么对您有用: 本文直接连接到流行病学应用因果推断子方向,展示了 design-based inference 与匹配设计在政策评估中的实操路线。您武器库中的 identification theory in causal inference 可用来审视其匹配设计的 identifiability 假设,而 software development 能力可直接复现其 rank-sum 检验计算。Follow-up 判断:立即可做——用 very_familiar 的非参检验与软件工具即可动手复现并拓展该 rank-sum 统计量到其他粗化数据场景。
3. 10.1214/24-aoas1927 · arXiv — Utilizing a capture–recapture strategy to accelerate infectious disease surveillance¶
- 作者: Lin Ge, Yuzi Zhang, Lance Waller, Robert Lyles
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 7/10 · novelty:
new_method - 摘要: 在封闭人群传染病监测设定下,目标是估计疾病患病率/病例数,核心挑战是易用但 imperfect 诊断试剂盒带来的 misclassification。本文基于近期提出的 anchor stream 设计,将现有自愿监测数据流与一个较小且有策略抽取的随机样本结合,提出新的 capture–recapture (CRC) 分析策略。方法直接引入厂商给定的 sensitivity/specificity 参数修正单侧或双侧数据流的误分类,避免了传统 CRC 或纯随机抽样 bias-corrected 估计的效率损失。推断方面,作者开发了适配的 Bayesian credible interval 替代传统 Wald CI,在有限样本下获得更优的 frequentist coverage。模拟与数值示例表明,在可行条件下该方法比传统 CRC 或纯随机抽样更高效地监测 prevalence。对您可能有用:该文为流行病学监测中的 misclassification correction 提供了 anchor stream CRC 框架,可直接作为 epi 应用的入门案例。
- 关键技术:
capture-recapture estimation,anchor stream design,misclassification correction,Bayesian credible interval with frequentist coverage,disease prevalence surveillance - 为什么对您有用: 本文属于流行病学应用方向,作为 gateway reading:(1) 它是好入门读物——anchor stream 设计与 CRC 逻辑清晰,不假设深厚 epi 背景,misclassification 模型用 sensitivity/specificity 参数直接修正,统计模型与数据结构交代明确;(2) 武器库足够支撑——M-estimation theory 与 semiparametric theory 可用来审视其 estimator 的渐近性质与效率界;(3) 值得花时间读全文——若您未来想在 epi 数据集上做 IV 或 semiparametric correction 的应用因果工作,此文的 CRC + misclassification 框架是具体的数据/模型切入点。
4. 10.1214/24-aoas1915 — Multisite disease analytics with applications to estimating COVID-19 undetected cases in Canada¶
- 作者: Matthew R. P. Parker, Jiguo Cao, Laura L. E. Cowen, Lloyd T. Elliott, Junling Ma
- 期刊/来源: Annals of Applied Statistics
- 机构: Simon Fraser University · University of Victoria
- 分类: vol 18 · issue 4
- 相关性 6/10 · novelty:
application - 摘要: 在 COVID-19 疫情设定下,目标是利用多地区离散多变量时间序列(检测病例数、康复数、死亡数)估计未检测病例数及感染致死率等关键参数。作者提出基于贝叶斯隐马尔可夫模型(HMM)的多地区疾病分析框架,将病例检测概率、传播率、外部输入率等纳入潜状态转移与观测方程。方法通过贝叶斯推断估计各地区每个报告区间内的总活跃病例数(含未检测),并给出检测概率与感染致死率的时变估计。实证覆盖加拿大全国 90 周及 BC 省 5 个卫生区 31 周的公开数据,量化了疫情的真实负担。对您可能有用:该文展示了流行病学多区域潜变量模型的完整数据分析流程,可作为理解空间-时间因果/潜变量推断在 epi 中应用的入门案例。
- 关键技术:
Bayesian hidden Markov model,multivariate discrete time series,latent state estimation,case detection probability,time-varying infection fatality rate,multisite spatial-temporal model - 为什么对您有用: 本文属于流行病学应用,连接到您 secondary interest 中 epidemiology 的数据集与因果/潜变量应用方向。文中多地区贝叶斯 HMM 的潜变量推断思路,与您 moderately_familiar 中的 identification theory in causal inference 有概念交集(观测数据与潜状态的 identification),但本文未涉及 semiparametric efficiency 或 debiased ML 等您核心武器。作为 gateway reading:本文对统计学家入门多区域 epi 数据结构与潜变量建模是不错的读物,数据集与模型设定清晰,但方法学 novelty 属常规贝叶斯 HMM 扩展,不值得花时间深读技术细节。
5. 10.1214/24-aoas1903 — Regularized scalar-on-function regression analysis to assess functional association of critical physical activity window with biological age¶
- 作者: Margaret Banker, Leyao Zhang, Peter X. K. Song
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Michigan
- 分类: vol 18 · issue 4
- 相关性 6/10 · novelty:
new_method - 摘要: 本文提出一种数据驱动的标量对函数回归方法,用于分析加速计记录的体力活动(PA)对生物年龄的影响。传统方法依赖固定截断值将PA计数离散化为活动类别,但截断值难以推广。作者引入 occupation-time 曲线,将个体PA概况表示为一个连续函数(活动水平上的时间占比),作为函数型预测变量。在标量对函数回归中,微活动窗口高度相关,作者开发了基于 L0 正则化的一步方法,同时进行融合(变点检测)和参数估计,无需预先设定窗口边界。模拟和实际数据分析显示该方法能有效识别与生物年龄相关的关键PA窗口。论文提供了完整的 R 实现和数据分析流程,对您在流行病学应用中的函数型数据建模(如连续暴露变量与健康结局的关系)有直接参考价值,尤其是结合正则化进行变量选择与平滑融合的思路。
- 关键技术:
scalar-on-function regression,L0 regularization,change-point detection,occupation-time curves,one-step fused estimation - 为什么对您有用: 本文属于流行病学应用(secondary interest),使用了标量对函数回归这一半参数/非参数建模工具,与您的非参数理论兴趣相通。论文中 L0 正则化与变点检测相结合的方法,其计算策略可以启发您在统计计算(统计软件)中处理高相关函数型预测变量的思路。这是一篇应用导向的方法论文,数据结构和分析设计清晰,适合作为您进入流行病学数据分析场景的入门读物——文中方法可直接迁移到其他连续暴露-健康结局研究,且您的 very_familiar 工具(非参数统计、软件开发)足以支撑快速复现和扩展。
6. 10.1214/24-aoas1928 · arXiv — A Bayesian model of underreporting for sexual assault on college campuses¶
- 作者: Casey Bradshaw, David M. Blei
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 6/10 · novelty:
application - 摘要: 本文针对美国大学校园性侵报告数据中普遍存在的漏报问题,提出一个层次贝叶斯模型来同时估计各校的真实性侵发生率和报告率。模型以每年各校报告的案件数为观测值,利用基于全国犯罪统计的先验信息作为区分报告率与真实发病率的“破局”手法。采用哈密顿蒙特卡洛(HMC)进行后验推断,并在2014-2019年的真实校园数据上应用。结果表明总体报告率在该时间段内呈上升趋势,但各校间漏报程度差异巨大,这对学校如何解读自身的官方报告数字具有实际意义。该工作属于典型的缺失数据建模与贝叶斯计算,未涉及因果推断中的识别策略或半参效率理论,但对流行病学中敏感问题的漏报校正有直接参考价值。
- 关键技术:
hierarchical Bayesian model,Hamiltonian Monte Carlo,informative prior elicitation,underreporting correction,posterior inference - 为什么对您有用: 连接二级兴趣流行病学中的真实数据集和漏报建模问题。武器库中非参数统计和M估计理论无法直接处理其贝叶斯框架,但逆问题中的随机噪声建模思路与后验推断有概念重叠。本文作为流行病学漏报分析的入门读物清晰易懂,但方法学深度有限,不值得投入全文精读:核心机器(贝叶斯先验设定与HMC采样)不属于你的武器库主力技能,且无因果或半参创新。
7. 10.1214/24-aoas1941 · arXiv — Predicting COVID-19 hospitalisation using a mixture of Bayesian predictive syntheses¶
- 作者: Genya Kobayashi, Shonosuke Sugasawa, Yuki Kawakubo, Dongu Han, Taeryon Choi
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 6/10 · novelty:
application - 摘要: 本文针对日韩地区级 COVID-19 住院与隔离人数的多时间序列计数数据预测问题,提出了 mixture of Bayesian predictive syntheses (MBPS) 方法。MBPS 将多个预测模型的输出进行贝叶斯合成,并根据各时间序列对预测结果的贡献动态将其聚类,从而在同一聚类内共享信息、避免直接构建高维多元计数模型。方法核心依赖贝叶斯预测合成与动态聚类分配机制,绕开了多元计数分布的参数估计与计算瓶颈。实证分析显示 MBPS 在预测精度与不确定性量化上优于基准方法。对您而言,本文是流行病学区域级面板数据预测的应用案例,展示了贝叶斯合成在避免高维联合建模时的计算替代思路。
- 关键技术:
Bayesian predictive synthesis,dynamic time series clustering,count data time series,mixture model for prediction,uncertainty quantification - 为什么对您有用: 本文属于流行病学应用,连接到 epi 的多区域时间序列数据集与预测建模。(1) 作为 gateway reading,本文对区域级面板计数数据的结构(空间异质性+时间动态)有清晰展示,且贝叶斯合成避开了多元计数模型的计算难题,对统计计算有参考价值;(2) 武器库中的 software development 与 high-dimensional asymptotics 可支撑您复现或改造其聚类-合成流程,但核心贝叶斯推断机器不在 very/moderately_familiar 列表中;(3) 值得花时间读引言与数据结构部分以了解 epi 面板数据特征,但方法论深度有限,不建议深读技术证明。
8. 10.1214/24-aoas1922 — Bayesian hidden Markov model for natural history of colorectal cancer: Handling misclassified observations, varying observation schemes and unobserved data¶
- 作者: Aapeli Nevala, Sirpa Heinävaara, Tytti Sarkeala, Sangita Kulathinal
- 期刊/来源: Annals of Applied Statistics
- 机构: Finnish Cancer Registry · University of Helsinki
- 分类: vol 18 · issue 4
- 相关性 5/10 · novelty:
application - 摘要: 本文针对结直肠癌自然史研究中的复杂事件历史数据,提出贝叶斯隐马尔可夫模型(HMM)处理潜在疾病状态、观测误差和差异化的观测方案(随机筛查与癌症登记)。模型同时整合了筛查组中潜在状态的活检数据和全体人群的临床癌症记录,通过模拟校准(simulation-based calibration)确保后验推断的可靠性。使用哈密顿蒙特卡洛(HMC)和自动微分变分推断(ADVI)两种算法进行贝叶斯计算,在模拟数据和真实数据上比较其表现。该工作为癌症筛查项目中常见的缺失状态、误分类和异构观测场景提供了一个可复用的建模框架,但未涉及因果识别或效率理论。对于您,作为流行病学应用方向的参考,其隐藏状态建模思路可用于处理因果推断中的测量误差问题,但核心贝叶斯计算工具不在您熟悉的武器库中。
- 关键技术:
Hidden Markov Model,Bayesian computation,Hamiltonian Monte Carlo (HMC),Automatic Differentiation Variational Inference (ADVI),Simulation-based calibration,Misclassification model - 为什么对您有用: (1) 直接连接流行病学应用子方向:本文处理未观测疾病状态和误分类,对应因果推断中测量误差和缺失数据问题,是流行病学因果分析的基础。 (2) 武器库中“estimation theory in causal inference”可对比其识别假设与因果识别假设的差异;“software development”可用于重现实证结果或拓展为因果推断框架。 (3) 暂不可做——核心计算工具(贝叶斯MCMC/VI)和建模假设不在您当前武器库中;但可作为流行病学数据集的门户阅读,学习其问题设定如何与实际数据对接。
9. 10.1214/24-aoas1906 — Individual dynamic prediction for cure and survival based on longitudinal biomarkers¶
- 作者: Can Xie, Xuelin Huang, Ruosha Li, Alexander Tsodikov, Kapil Bhalla
- 期刊/来源: Annals of Applied Statistics
- 机构: The University of Texas MD Anderson Cancer Center · The University of Texas Health Science Center at Houston · University of Michigan
- 分类: vol 18 · issue 4
- 相关性 4/10 · novelty:
application - 摘要: 本文针对慢性髓性白血病患者,提出了一个联合纵向生物标志物与生存数据的动态预测模型,目标是基于患者历史生物标志物轨迹实时预测未来治愈概率和生存概率。模型包含两部分:一是联合纵向-生存模型,通过灵活的危险函数(以比例风险为特例,同时允许交叉风险)描述生存分布;二是里程碑治愈模型,引入潜在治愈比例。推导了任一时刻基于当前生物标志物历史的个体治愈和生存概率的预测公式。模拟显示,所提模型在时间依赖的AUC、Brier得分和积分Brier得分上优于标准治愈模型。实际应用于CML研究数据,展示了模型在个体化预后中的优势。虽然并非因果推断,但该工作展示了纵向数据和生存终点联合建模的典型分析模式,其半参数危险函数设定和动态预测框架对流行病学中个体化风险预测有直接参考价值。
- 关键技术:
joint longitudinal-survival model,landmark cure model,flexible hazard function,time-dependent AUC,Brier score,dynamic prediction - 为什么对您有用: 本文属于流行病学中的个体化预后预测应用,使用真实CML数据,可作为入门读物了解联合模型和治愈模型的典型设定。武器库中的非参数统计和半参数理论足以理解其估计策略(如似然构造、EM算法),但若要深入开发新模型,尚需补充生存分析和治愈模型的专门知识(如混合物模型、非可忽视治愈机制)。暂不可做:核心机器不完全在武器库中,但本文值得浏览以扩展流行病学应用视野。
10. 10.1214/24-aoas1939 · arXiv — Poisson–Birnbaum–Saunders regression model for clustered count data¶
- 作者: Jussiane Nader Gonçalves, Wagner Barreto-Souza, Hernando Ombao
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 4/10 · novelty:
new_method - 摘要: 本文针对聚类计数数据中常见的过度分散与组内相关性问题,提出了 Clustered Poisson Birnbaum-Saunders (CPBS) 回归模型。模型设定组内观测共享一个服从 Birnbaum-Saunders 分布的潜在随机效应,通过该分布的参数直接控制组内依赖强度,从而放松了组内独立性假设。CPBS 模型具有解析可处理性,其矩结构可显式推导;参数估计采用极大似然法并开发了 EM 算法,同时提供了模型诊断工具。模拟与 MEPS 医疗支出面板调查(急诊入院次数)的实证应用验证了方法的有效性。对您可能有用:该文提供了一个处理流行病学聚类计数数据的完整参数化框架与 EM 计算方案,可作为 epi 应用中计数数据因果推断的入门读例。
- 关键技术:
Birnbaum-Saunders random effect,clustered count regression,EM algorithm,moment structure derivation,overdispersion modeling,MEPS dataset - 为什么对您有用: 本文属于流行病学聚类计数数据的应用与方法交叉工作,提供了 MEPS 数据集与完整的参数建模/EM计算流程,可作为 epi 领域的入门读物。武器库中的 software development 与 M-estimation theory 足以支撑研究者理解并复现该 EM 算法,但若要在该框架下嵌入 semiparametric/debiased ML 估计或因果推断 identification,需先在 moderately_familiar 的 semiparametric theory 上长肌肉。值得花时间读全文以了解 epi 计数数据的典型相关结构与诊断流程。
11. 10.1214/24-aoas1930 · arXiv — Dynamic topic language model on heterogeneous children’s mental health clinical notes¶
- 作者: Hanwen Ye, Tatiana Moreno, Adrianne Alpern, Louis Ehwerhemuepha, Annie Qu
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
application - 摘要: 本文针对纵向儿童心理健康临床笔记,提出一种动态主题语言模型(Dynamic Topic Language Model),旨在在时间维度上保持主题语义一致性的同时,捕捉每篇文档的个体化时间轨迹。模型假设主题权重向量随时间平滑演化但主题-词分布不随时间改变,并通过一个无监督学习框架最大化不同文档组(如性少数群体与非性少数群体)之间的主题异质性。估计采用多阶段变分EM算法,适应长序列、非平衡的临床记录数据结构。将该模型应用于南加州一家大型三级儿科医院的精神科临床笔记,提取的主题一致性相比基线提升38%。实证分析显示,加州封城期间儿童负面情绪表达增加,而学校重新开放后正面情绪回升;性少数(SGM)儿童对重大疫情事件和疫苗新闻的情绪反应显著强于非SGM儿童。该工作为流行病学纵向文本分析提供了一种兼顾稳定性与异质性的建模框架,对疫情期间儿童心理健康监测具有数据驱动的临床参考价值。
- 关键技术:
Dynamic topic model,Variational inference,Longitudinal Poisson-gamma model,Unsupervised topic heterogeneity learning,Multistage optimization - 为什么对您有用: 本文属于流行病学领域的纵向文本数据分析应用,与您次要兴趣中的流行病学数据集和纵向分析方向直接相关。虽然方法不涉及因果推断,但该研究的建模思路(时间不变主题+个体化轨迹)可借助您武器库中的高维渐近工具来评估其统计性质(例如,主题数渐增时的一致性)。此外,变分推断属于统计计算方法,您在统计计算(数值方法)方面很熟悉,可快速理解并评估其优化策略的效率。作为流行病学应用的gateway阅读,本文数据结构清晰、问题动机明确,值得花时间精读全文以了解临床笔记分析的实际数据挑战(如非平衡、异质性),但不需要您在此方向上进行原创方法开发。
12. 10.1214/24-aoas1944 · arXiv — A spatially varying hierarchical random effects model for longitudinal macular structural data in glaucoma patients¶
- 作者: Erica Su, Robert E. Weiss, Kouros Nouri-Mahdavi, Andrew J. Holbrook
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
application - 摘要: 在青光眼纵向队列设定下,目标是更精确地估计视网膜6×6网格各位置的厚度变化斜率(estimand 为 subject-level slope),以替代当前各位置独立简单线性回归的粗估方法。作者提出贝叶斯分层模型,在 population-level 和 subject-level 同时引入空间变系数(intercept、slope、log-residual SD),通过 multivariate Gaussian process 与 Matérn cross-covariance 借跨位置与跨个体信息。模型额外加入 visit effects 以捕捉影像测量中空间相关的 visit-specific 误差。实证(Advanced Glaucoma Progression Study 数据)表明 visit effects 显著降低未来厚度预测误差并改善模型拟合。对您而言,这是流行病学纵向数据中空间分层贝叶斯建模的应用案例,可关注其空间 GP prior 设定与纵向 visit-effect 结构。
- 关键技术:
Bayesian hierarchical model,spatially varying coefficients,multivariate Gaussian process,Matérn cross-covariance,visit effects,longitudinal regression slopes - 为什么对您有用: 本文属于流行病学(青光眼纵向队列)的应用建模,连接到您 secondary interest 中 epidemiology 的 longitudinal data 方向。从 technical_arsenal 角度,您 very_familiar 的 inverse problems with random noise 与 software development 可用来审视其空间 GP prior 的计算瓶颈与 MCMC 实现细节,但核心是贝叶斯分层而非您熟悉的 semiparametric / minimax 工具。作为 gateway reading:本文对空间纵向数据的模型与噪声结构阐述清晰,适合作为入门读物了解眼科流行病学数据形态;但方法论 novelty 属应用级(novelty_flag = application),不值得花时间深读理论细节。
13. 10.1214/24-aoas1911 — Models with observation error and temporary emigration for count data¶
- 作者: Fabian R. Ketwaroo, Eleni Matechou, Rebecca Biddle, Simon Tollington, Maria L. Da Silva
- 期刊/来源: Annals of Applied Statistics
- 机构: Swiss Ornithological Institute · University of Kent · Nottingham Trent University · Universidade Federal do Pará
- 分类: vol 18 · issue 4
- 相关性 1/10 · novelty:
new_method - 摘要: 在生态监测的重复计数数据设定下,目标 estimand 是真实种群大小,同时需识别临时迁出(TE)模式与观测误差(检测概率)。本文扩展经典 N-mixture 模型,引入两类 TE 建模:参数时间序列模型与非参数 Dirichlet process mixture model,后者以更少参数实现 TE 模式的灵活拟合。观测误差部分采用 mixed-effects model,并开发了高效的 Bayesian variable selection 算法筛选检测概率的协变量。模拟研究显示 mixed-effects 设定对检测概率建模至关重要,且非参数 TE 模型在种群估计与模式恢复上表现稳健;鹦鹉数据实证揭示了季节性 TE 与种群动态。对您可能有用:本文展示了 Dirichlet process 在非参数混合建模中的实际应用,可作为流行病学/生态学计数数据中处理缺失与观测误差的入门参考。
- 关键技术:
N-mixture model,Dirichlet process mixture model,temporary emigration modeling,Bayesian variable selection,mixed-effects detection model - 为什么对您有用: 本文属于生态学计数数据的应用建模,连接到 epidemiology 的计数数据与观测误差处理;非参数 Dirichlet process mixture 的使用与您 moderately_familiar 中的 semiparametric theory 有概念交集,但核心是贝叶斯非参而非经典 semipara efficiency 理论。作为 gateway reading,本文对生态/流行病学监测数据的缺失机制与观测误差设定有清晰阐述,适合了解该领域数据结构;但方法论上缺乏 semiparametric efficiency bound 或 minimax rate 的理论深度,武器库中的 very_familiar 工具(minimax bounds / HOIF)在此无直接攻击口子。判断:中期可做——若想进入生态/流行病学计数数据的 semiparametric efficiency 理论,需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将 Dirichlet process mixture 替换为 sieve / RKHS 设定并推导 efficiency bound。
其他 (other, 14 篇)¶
1. 10.1214/24-aoas1916 · arXiv — Background modeling for double Higgs boson production: Density ratios and optimal transport¶
- 作者: Tudor Manole, Patrick Bryant, John Alison, Mikael Kuusela, Larry Wasserman
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 5/10 · novelty:
new_method - 摘要: 本文针对大型强子对撞机中双希格斯玻色子产生事例的背景建模问题。目标是在混合信号和背景的无标签数据中估计背景分布,从而检验信号比例是否非零。已有方法利用信号不可能出现的区域识别背景分布,再通过迁移学习外推到感兴趣区域。作者对此进行了两方面的改进:一是开发了定制残差神经网络(ResNet)以利用对撞机数据的结构对称性;二是基于最优传输问题提出了新的背景估计方法,其建模假设与前者互补。两种方法可在粒子物理分析中相互验证。在模拟双希格斯数据上的实验比较了它们的性能。这篇论文展示了密度比估计和最优传输在物理实验背景建模中的实际应用,其方法论对于因果推断中处理分布偏移和协变量平衡具有潜在的借鉴意义。
- 关键技术:
residual neural network,optimal transport,density ratio estimation,transfer learning,background estimation - 为什么对您有用: 本文连接到的具体子方向是统计计算中的数值算法(最优传输和神经网络)以及非参数密度比估计在因果推断中的应用(如逆概率加权)。武器库中的'非参数统计'可用来分析密度比估计的收敛性质;'估计理论在因果推断'可将最优传输方法用于协变量平衡。就后续工作而言,研究者可将本文的密度比和最优传输技术直接迁移到因果效应估计中的分布偏移问题,这属于立即可做的方向(非参和因果推断估计理论已熟悉)。此外,作为统计计算领域的应用实例,本文可帮助研究者了解最优传输在大型数据集上的计算实现。
2. 10.1214/24-aoas1934 — Extended Beta models for poverty mapping. An application integrating survey and remote sensing data in Bangladesh¶
- 作者: Silvia De Nicolò, Enrico Fabrizi, Aldo Gardini
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Bologna · Università Cattolica del Sacro Cuore
- 分类: vol 18 · issue 4
- 相关性 4/10 · novelty:
application - 摘要: 该论文针对孟加拉国 upazila(县级)层面贫困率的估计问题,利用人口与健康调查(DHS)数据,并融合遥感信息作为辅助变量。由于许多 upazila 样本量不足甚至无样本,作者提出一种扩展 Beta 混合回归模型(Extended Beta mixed regression),在贝叶斯框架下进行小区域估计。该模型能够处理样本比例等于 0 或 1 的极端情形,并刻画调查数据常见的组内相关性。为避免变量选择的不稳定性,使用正则化先验而非模型选择来处理大量协变量。通过设计模拟与真实数据应用,与现有方法比较,展示了该方法在官方统计常规化使用中的潜力。该工作本质上是一个应用统计建模案例,方法学创新有限(模型扩展+贝叶斯正则化)。
- 关键技术:
extended Beta mixed regression,small-area estimation,Bayesian hierarchical model,regularizing prior,design-based simulation - 为什么对您有用: 论文属于经济理论中贫困测量的实际应用,展示了小区域估计与遥感数据结合的分析流程,对您 secondary interest 中的经济应用有参考价值。武器库中 minimax bounds 可用于评估该估计量的误差界,但本研究主要依赖贝叶斯先验和 MCMC,与武器库的高维渐近(正则化先验)有部分交集。目前暂不可做,因为需补充贝叶斯小区域估计的深度经验(如先验选择、MCMC 诊断)。
3. 10.1214/24-aoas1908 · arXiv — Implicit generative prior for Bayesian neural networks¶
- 作者: Yijia Liu, Xiao Wang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 4/10 · novelty:
new_method - 摘要: 本文针对贝叶斯神经网络(BNN)中先验设定困难与计算效率低下的问题,提出神经自适应经验贝叶斯(NA-EB)框架。该框架利用低维分布的隐式生成先验(implicit generative prior),通过变分推断与梯度上升算法同时进行超参数选择和近似后验推断,避免了传统 MCMC 的高计算成本。理论上证明了后验一致性(posterior consistency)和分类一致性,为方法的可靠性提供了保证。在二维螺旋、回归任务、10个UCI数据集以及MNIST和CIFAR-10图像分类任务上的实验表明,NA-EB在预测精度和不确定性量化上均优于稀疏变分贝叶斯和生成模型等现有方法。该方法的计算框架属于统计计算(variational inference + empirical Bayes)的一种具体实现,与您的主研究方向(因果推断、高维统计)直接关联较弱,但其后验一致性的理论分析思路对评估高维参数的不确定性可能有一定启发。
- 关键技术:
Bayesian neural networks,implicit generative prior,neural adaptive empirical Bayes (NA-EB),variational inference,gradient ascent algorithm,posterior consistency - 为什么对您有用: 本文属于应用统计学方法论文,与您的主研究方向(因果推断、高维统计、U-statistics等)直接关联较弱,但涉及统计计算(variational inference与empirical Bayes结合)这一交叉点。您的武器库中'high-dimensional asymptotics'可用于审视其理论贡献(后验一致性)在高维设定下是否紧,但核心机器(变分推断理论、隐式生成模型)不在当前武器库中,因此暂不可直接 follow-up。作为gateway阅读,本文对BNN的计算方法有一定参考价值,但无需优先深入。
4. 10.1214/24-aoas1940 · arXiv — Modeling urban crime occurrences via network regularized regression¶
- 作者: Elizabeth Upton, Luis Carvalho
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 4/10 · novelty:
minor - 摘要: 本文研究已知网络结构下节点属性的回归推断与预测问题,目标 estimand 为节点响应变量的条件均值,关键假设是网络编码节点相似性且系数随网络拓扑平滑变化。核心方法是将广义线性模型的回归系数在网络图上做基展开,并通过 Bayesian 先验(等价于网络 Laplacian 正则化)约束系数随拓扑平滑变化,同时提出 EM 算法拟合及超参数选取的计算方案。理论贡献主要在计算方法层面,未给出收敛速率或 minimax 界;实证以波士顿住宅盗窃数据展示空间异质性犯罪率的建模效果。对您而言,本文的网络 Laplacian 正则化与基展开思路可作为空间/网络因果推断中处理异质性效应的参考,但方法学 novelty 较有限。
- 关键技术:
network Laplacian regularization,basis expansion on graph,Bayesian hierarchical GLM,EM algorithm for hyperparameters,spatial crime modeling - 为什么对您有用: 本文与您 primary interest 中的因果推断(空间/网络异质性效应建模)有弱连接,其网络正则化思路可迁移至网络因果 setting 下的效应平滑性约束,但缺乏 semiparametric efficiency 或 minimax 理论,对您核心理论方向贡献不大。用 very_familiar 的 M-estimation theory 可分析其 estimator 的渐近性质(目前 paper 未做),这是一个中期可做的 follow-up(需先在 moderately_familiar 的 semiparametric theory 上长肌肉以给出效率界);若仅关注应用数据集(波士顿犯罪空间数据),则属于 epidemiology / social science 的 secondary interest,但本文数据建模深度一般,不值得花时间读全文。
5. 10.1214/24-aoas1947 · arXiv — Predicting milk traits from spectral data using Bayesian probabilistic partial least squares regression¶
- 作者: Szymon Urbas, Pierre Lovera, Robert Daly, Alan O’Riordan, Donagh Berry, Isobel Claire Gormley
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 3/10 · novelty:
application - 摘要: 在乳制品光谱数据的高维预测设定下,目标是构建一个同时量化参数不确定性与提供校准预测区间的回归模型。本文提出 Bayesian PLS(BPLS)回归,将经典 PLS 嵌入贝叶斯潜变量模型框架,用非参数收缩先验自动选择潜空间维度 Q,避免了传统 PLS 中主观且对样本量敏感的维度选取。框架可自然扩展至稀疏修改与多响应变量预测,理论层面强调预测区间的校准性而非收敛速率或 minimax 性质。在 MIR 与 SERS 两个乳品光谱数据集上,BPLS 的预测精度至少与经典 PLS 持平,且提供了校准良好的预测区间。对您而言,本文展示了潜变量模型在高维光谱回归中的贝叶斯化路径,但核心是应用驱动,方法学 novelty 属于已有框架的贝叶斯扩展而非新理论。
- 关键技术:
Bayesian latent-variable model,partial least squares regression,nonparametric shrinkage prior,sparsity modification,multivariate response prediction,calibrated prediction intervals - 为什么对您有用: 本文属于农业/食品科学的应用统计工作,与您的 primary interests(因果推断、高维 RMT、效率理论、U-statistics)无直接方法学交集,亦不属于 astrostats / econ / epi 的 gateway reading。若从 stat_computing 视角看,BPLS 的后验计算涉及潜变量模型的 MCMC / variational inference,但您武器库中未列此类计算工具。follow-up 判定:暂不可做——核心贝叶斯潜变量计算与收缩先验设计不在当前武器库中,且应用场景(乳品光谱)与您关注领域距离较远,不值得花时间深读全文。
6. 10.1214/24-aoas1954 — DeepMap: Deep learning-based single-cell data integration using iterative cell matching and structure preservation constraints¶
- 作者: Shuntuo Xu, Zhou Yu, Jingsi Ming
- 期刊/来源: Annals of Applied Statistics
- 机构: East China Normal University
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
application - 摘要: 本文提出DeepMap,一种基于深度学习的单细胞数据整合方法,目标是将来自不同平台、物种和模态的单细胞数据集对齐并整合。方法核心包括:利用互近邻进行迭代细胞匹配,使用自编码器学习统一表示,并引入协方差惩罚项以保留数据集内重要的生物学结构。通过多个真实数据集评估,DeepMap在结构保留、计算效率和内存使用方面优于现有整合方法。本文主要贡献在于提供了一个灵活高效的整合工具,适用于多样化的单细胞数据场景。对您而言,该论文属于应用统计方法,与您的主要研究兴趣(因果推断、高维统计、半参数理论等)没有直接交集,但可作为了解深度学习在数据处理中应用的参考。
- 关键技术:
autoencoder,mutual nearest neighbors,covariance penalty,deep learning,single-cell data integration - 为什么对您有用: 本文不属于您的主要或次要研究兴趣(因果推断、高维统计、天体统计、经济学等),因此与您的技术武器库没有直接可攻击的问题。从统计计算角度看,虽然DeepMap使用了深度学习框架,但其核心创新是应用层面的工程整合,缺乏新的统计理论或计算复杂性分析,目前暂不可做。如果您未来需要处理高维异构数据整合,可参考其方法设计思路。
7. 10.1214/24-aoas1925 · arXiv — Bayesian modeling of insurance claims for hail damage¶
- 作者: Ophélia Miralles, Anthony C. Davison
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
application - 摘要: 本文针对保险业冰雹损害的统计建模空白,目标是基于保险索赔数据构建随机冰雹冲击函数,以刻画冰雹风暴的空间足迹与建筑物损害程度。核心方法是将冰雹风暴建模为带有极端标记(marks)的 Gaussian line process,联合建模索赔次数与索赔金额,并与确定性基准冲击函数进行对比。模型通过线过程的 Gaussian 结构捕捉空间依赖,利用极端标记允许局部极端损害,从而更贴合保险数据中的重尾空间模式。实证结果显示,该随机模型在索赔次数与金额预测上均优于基准,尤其在极端损害区域表现突出。对您而言,本文展示了 Gaussian line process 与极端值理论在空间保险数据中的应用,可作为空间点过程与极值统计的入门案例阅读。
- 关键技术:
Gaussian line process,extreme marks modeling,spatial point process,Bayesian hierarchical model,insurance claim count-value joint modeling - 为什么对您有用: 本文属于保险精算的空间随机过程应用,与您 primary interests(因果推断、高维 RMT、半参数效率等)无直接方法学重叠,亦非 astrostats / econ / epi 的 gateway reading。技术武器库中的高维渐近理论或 U-statistic 计算工具无法直接攻入此文的 Gaussian line process 与极值标记建模口子。作为空间点过程与极值统计的入门读物尚可,但考虑到主题偏离与方法学 novelty 为应用层面,不值得花时间深读全文。
8. 10.1214/24-aoas1952 — Spatio-temporal analysis of dependent risk with an application to cyberattacks data¶
- 作者: Songhyun Kim, Chae Young Lim, Yeonwoo Rho
- 期刊/来源: Annals of Applied Statistics
- 机构: Seoul National University · Michigan Technological University
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
application - 摘要: 该文研究网络安全攻击数据的时空依赖风险建模问题。针对蜜罐日志数据中攻击事件的时空相关性及攻击者异质性,提出一种基于GARCH模型的空间扩展模型,通过开发新的相异性度量作为空间距离代理来整合攻击者信息。估计采用贝叶斯方法,模拟实验表明模型表现良好。模型应用于公开蜜罐数据,并基于攻击者特征对企业样本进行聚类分组,结果揭示不同攻击者群体对应的参数差异,而这些差异难以从整体建模中获取。本文虽不直接覆盖因果推断、高维理论等核心兴趣,但其中时空建模与贝叶斯计算的思路可为统计计算与软件开发提供参考。
- 关键技术:
spatio-temporal GARCH,dissimilarity measure,Bayesian estimation,clustering,honeypot data - 为什么对您有用: 本文属于应用统计范畴,其建模思路(将领域特征构造为模型组件)对处理复杂观测数据有借鉴意义,可映射至流行病学或经济学中的时空面板数据。您的technical_arsenal中'software development'可直接用于复现其贝叶斯采样与聚类代码、验证结果。但因当前缺乏时空GARCH和贝叶斯MCMC的深入经验,此文属'暂不可做'方向——需先补充时空时间序列和贝叶斯计算基础才能考虑扩展该方法至其他应用场景。
9. 10.1214/24-aoas1902 — A copula model for marked point process with a terminal event: An application in dynamic prediction of insurance claims¶
- 作者: Lu Yang, Peng Shi, Shimeng Huang
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Minnesota · University of Wisconsin–Madison
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
new_method - 摘要: 本文在保险索赔的动态预测设定下,目标 estimand 为单笔索赔的未付负债现金流,关键假设是支付事件过程、支付金额过程与结案终止过程三者之间存在可建模的依赖结构。作者提出基于 copula 的 marked point process 框架,将重复支付事件作为计数过程、支付金额作为 mark、结案时间作为 terminal event,并用 pair copula construction (PCC) 捕捉三者间的多维依赖。估计方面采用分阶段(stagewise)策略分别拟合边缘模型与 copula 参数,数值实验展示了该估计的稳定性。实证分析使用商业财产保险索赔数据,发现三个过程间存在非平凡依赖模式,联合模型的动态预测表现优于独立模型。对您可能有用:本文的 copula-marked point process 框架为 longitudinal/terminal event 的联合建模提供了非参数依赖刻画思路,可迁移至 epidemiology 中复发事件与死亡终点的研究。
- 关键技术:
marked point process,pair copula construction,terminal event modeling,stagewise estimation,dynamic prediction,longitudinal claim reserving - 为什么对您有用: 本文连接到 epidemiology/经济理论中 longitudinal 复发事件与 terminal event 的联合建模,但核心是 copula-PCC 的分阶段估计,而非您熟悉的 semiparametric efficiency / HOIF 路线。用您 very_familiar 中的 M-estimation theory 可以审视其 stagewise 估计的渐近性质(目前文章仅用数值实验验证,缺乏严格的一致性/收敛率理论),这是一个可切入的理论口子。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将 PCC 的分阶段估计纳入 semiparametric efficiency bound 框架,推导其 influence function 并评估效率损失。
10. 10.1214/24-aoas1931 · arXiv — Reliability study of battery lives: A functional degradation analysis approach¶
- 作者: Youngjin Cho, Quyen Do, Pang Du, Yili Hong
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
application - 摘要: 本文研究锂离子电池在充放电循环中的退化问题,利用功能数据分析方法对电压放电曲线(VDC)进行建模与预测。作者提出一个两步预测流程:首先使用功能回归模型预测VDC的形状和定义域端点,然后整合这些预测结果进行退化分析。该方法完全基于曲线形式,能够纳入使用信息,并生成全程曲线预测,避免了传统方法将曲线压缩为单一标量导致的精度损失。通过NASA公开数据集和交叉验证,新方法在预测精度上显著优于直接对聚合数据建模的现有方法。该工作属于工程可靠性领域的应用统计,其两步功能回归框架对处理纵向或功能响应的类似问题(如流行病学中的生长曲线或经济面板数据)具有方法学参考意义。
- 关键技术:
functional regression,longitudinal data analysis,two-step predictive modeling,voltage discharge curve (VDC) modeling,degradation analysis - 为什么对您有用: 本文属应用统计新领域(电池工程),与您的主要兴趣(因果/高维/半参)无直接重叠。但其所用的功能回归和两步预测策略可视为一种非参数建模方法,与您武器库中的“nonparametric statistics”有交集;若未来您接触纵向功能响应数据(如流行病学中重复测量的生物标志物),可迁移其两步思路。当前您对功能数据分析尚不熟悉,属“暂不可做”范畴,需先补充功能数据回归的理论基础(如平滑样条、FPCA等)再行借鉴。建议仅作一般了解,无需展开精读。
11. 10.1214/24-aoas1945 — Multiple latent clustering model for the inference of RNA life-cycle kinetic rates from sequencing data¶
- 作者: Gianluca Mastrantonio, Enrico Bibbona, Mattia Furlan
- 期刊/来源: Annals of Applied Statistics
- 机构: Politecnico di Torino · Italian Institute of Technology · Center for Genomic Science
- 分类: vol 18 · issue 4
- 相关性 2/10 · novelty:
new_method - 摘要: 本论文针对RNA测序数据提出一个层次贝叶斯模型,用于推断RNA的合成、加工和降解速率。速率由常微分方程组控制,其潜在参数采用新的函数形式进行参数化。模型通过6个狄利克雷过程混合模型同时完成参数估计、聚类和模型选择。该方法应用于鼠成纤维细胞中Myc原癌基因激活后的转录和转录后响应数据,发现了先前未观察到的多速率协同调控模式。虽然本文主要贡献在生物信息学应用,但其多混合模型的联合推断框架对非参数聚类的理论分析有一定启发性。
- 关键技术:
Hierarchical Bayesian model,Ordinary differential equation system,Dirichlet process mixture,Joint inference and clustering,RNA life-cycle kinetic rates - 为什么对您有用: 本文的狄利克雷过程混合模型与您的非参数/半参数理论兴趣有交集,特别是多个潜在聚类模型的同时推断涉及非标准渐近问题。您武器库中‘非参数统计’(very_familiar)可用来审视该模型的识别性和收敛性质。由于缺少贝叶斯非参数模型的计算经验(如DP的截断近似与MCMC),目前属于暂不可做的方向,但若未来有相关应用需求,可作为入门阅读。
12. 10.1214/24-aoas1919 · arXiv — Communication network dynamics in a large organizational hierarchy¶
- 作者: Nathaniel Josephs, Sida Peng, Forrest W. Crawford
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 1/10 · novelty:
application - 摘要: 本文研究大型企业正式组织层级结构与员工自发通信网络动态之间的关系,设定为微软约20万员工、88个团队的层级树与消息通信图。核心方法提出新的通信互惠性度量与针对树结构的最短路径距离,用以量化消息沿层级上行、下行与跨层级的频率。实证分析揭示团队内部与团队间的通信网络结构差异,并检验了若干组织管理与绩效理论。主要结果展示了通信如何围绕正式组织结构聚集,凸显层级位置的关键作用;但方法论层面主要为图度量与描述性统计,缺乏严格的参数/半参数模型与推断理论。对您而言,本文作为经济/组织理论的应用数据集(微软通信网络)有一定参考价值,但方法学 novelty 有限。
- 关键技术:
organizational hierarchy tree,communication network analysis,shortest-path distance on trees,communication reciprocity measure,descriptive network topology - 为什么对您有用: 本文属于经济/组织理论的应用实证工作,提供了罕见的大规模企业通信与层级数据集,但方法论仅为图度量与描述统计,无因果推断或半参数推断框架。对您而言:(1) 连接到经济理论 secondary interest 的组织模型与数据集,但无因果/IV/DML 方法;(2) 武器库中的 causal identification / semiparametric theory 无法直接攻破本文的描述性框架——若要在此数据上做因果或半参数推断,需先在 moderately_familiar 的 M-estimation 或 identification theory 上构建新模型(如层级干预的 causal effect),属于中期可做;(3) 作为 gateway reading,本文数据结构清晰但统计方法浅,不值得花时间读全文方法部分,仅可关注数据描述与组织理论假设。
13. 10.1214/24-aoas1898 · arXiv — Model-robust Bayesian design through generalised additive models for monitoring submerged shoals¶
- 作者: Dilishiya De Silva, Rebecca Fisher, Ben Radford, Helen Thompson, James McGree
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 1/10 · novelty:
application - 摘要: 本文研究在先验模型设定存在认知不确定性(epistemic model uncertainty)时的贝叶斯实验设计问题,目标 estimand 为最大化期望效用函数的最优采样策略。核心方法是将预设的 parametric model 嵌入广义可加模型(GAM)框架,通过赋予 additive component 特定的先验分布,使其能够捕捉预设模型与真实 data generating process 之间的偏差,从而实现 model-robust Bayesian design。文中先在一个 exemplar 设计问题上推导了理论结果并探索了最优设计的性质,随后将其应用于澳大利亚西北海岸 submerged shoals 的深海珊瑚礁监测采样设计,利用三年 pilot data 优化未来监测方案。对您可能有用:本文的 model-robust 思路(用非参成分吸收模型偏差)与 semiparametric theory 中的 nuisance parameter 处理有概念上的对应,但整体属于生态监测的应用设计范畴。
- 关键技术:
Bayesian optimal experimental design,model-robust design,Generalised Additive Models (GAM),epistemic model uncertainty,utility function maximisation,prior discrepancy capture - 为什么对您有用: (1) 本文属于生态学/环境监测的应用贝叶斯设计范畴,与您 primary interests 中的 causal inference / high-dim / efficiency theory 无直接交集,仅 model-robust 思路与 semiparametric nuisance 参数处理有概念类比;(2) 武器库中的 nonparametric statistics 与 M-estimation theory 可用于分析 GAM 框架下 additive component 的估计收敛性质,但本文未涉及此类理论深度;(3) 作为 gateway reading:本文对生态监测数据结构与贝叶斯设计问题的展示较为清晰,但方法学 novelty 有限(novelty_flag = application),若您无意进入生态实验设计方向,不值得花时间读全文。
14. 10.1214/24-aoas1924 · arXiv — Assessing marine mammal abundance: A novel data fusion¶
- 作者: Erin M. Schliep, Alan E. Gelfand, Christopher W. Clark, Charles A. Mayo, Brigid McKenna, Susan E. Parks et al.
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 4
- 相关性 1/10 · novelty:
new_method - 摘要: 在海洋哺乳动物种群丰度估计的设定下,目标是融合两种存在严重观测缺失的数据源:仅提供部分空间位置的航空距离采样(distance sampling),以及仅返回呼叫信号而无个体位置/数量的被动声学监测(PAM)。作者提出了一种基于 thinned point pattern 的数据融合方法,将航空采样建模为真实点过程的稀疏化(thinning)实现,将 PAM 呼叫建模为依赖于潜在真实丰度强度的隐变量。通过贝叶斯分层模型整合两类似然,利用 MCMC 进行推断,从而恢复未观测到的个体位置与整体丰度。模拟与北大西洋右鲸的实证数据表明,融合方法相较于单一数据源在丰度估计精度与分布预测上有显著提升。对您可能有用:本文展示了在观测机制存在系统性缺失(类似因果推断中的测量误差与不可观测混杂)时如何通过多源数据融合实现 identification 与 estimation,可作为流行病学或生态学应用中多源缺失数据融合的参考案例。
- 关键技术:
thinned point process,distance sampling,passive acoustic monitoring,Bayesian hierarchical model,data fusion,MCMC inference - 为什么对您有用: 本文属于生态学应用统计,与您核心的因果推断/高维/效率理论无直接交集,但多源缺失数据融合的 identification 逻辑与 proximal CI 中用 negative control 补偿不可观测混杂的思路有形式上的相似性。若想切入流行病学或生态学队列的多源数据融合应用,您现有的 very_familiar 武器(非参统计、因果估计理论)不足以直接攻破此文的贝叶斯点过程建模核心,需先在 moderately_familiar 的 M-estimation 或贝叶斯分层模型上长肌肉。作为 gateway reading,本文对数据结构与观测缺失机制的阐述清晰,值得花时间读方法部分以了解应用统计中多源融合的实操范式,但无需深读理论证明。
Maintained by 陈星宇 · Homepage · Source on GitHub