跳转至

AoAS — Vol 17 Issue 4 · 2026-06-24

  • 共 39 篇 · Annals of Applied Statistics
  • 目录核对 ✅ 39 篇全部抓到(对照 OpenAlex 39 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

本期 AoAS 第 17 卷第 4 期(共 39 篇)整体围绕四个方向展开:(1)因果识别与处理效应估计:包括法官属性效应(UFC/AFC/QFC 框架)、可解释非线性 ITR(加性模型+稀疏选择)、双边市场离线策略评估(多智能体强化学习)、推荐信影响的子组异质性(局部平衡权重)以及分层 Cox 模型中的 debiased lasso(高维协变量效应估计)。(2)高维与结构数据的推断与筛选:涵盖分层 Cox debiased lasso、广义矩阵分解回归(GMDR/GMDI)、压缩谱筛选用于差异共表达、Binary Expansion Testing(BET)用于成对非线性依赖检验、贝叶斯组选择用于组成型响应,以及混合效应多任务学习用于 DNA 甲基化替代物。(3)贝叶斯建模与计算策略:包括联邦迁移学习(FETA)、贝叶斯迁移学习(惩罚复杂性先验)、生态重要性抽样后验加速、SMC 选区重划,以及多篇流行病学贝叶斯模型(COVID 疫苗安全性 BGrass、种族缺失 NMAR、剂量-毒性等效元分析、肿瘤成分组选择、actigraph 层次模型、空间疾病风险边界等)。(4)非参数/半参数与时空建模:包括协变量特异 ROC 曲线(随机有序性约束)、极端波高联合模拟(二元 GPD+非参数算法)、空气污染传感器校准的空间滤波、动物行为变系数 SDE、动态加性乘性网络模型(动态 AMEN)、多气候模型 NN-GPR 等。

因果推断主线中,本期推进了非随机属性与随机处理的因果区分:法官属性效应篇提出了单位特征比较(UFC/AFC/QFC)作为总体目标量,并用贝叶斯分层模型估计反事实。可解释 ITR 篇通过稀疏加性模型在非线性项显著提升预测时才纳入,兼顾可解释性与灵活性。MARL 离线策略评估篇在双边市场干扰下用多智能体强化学习估计平均结果。推荐信影响篇直接优化子组内局部协变量平衡,得到更可靠的异质性估计。分层 Cox debiased lasso 篇则在高维分层生存模型下通过 one-step 校正实现 n^{-1/2} 一致估计,为因果效应提供有限维推断。高维推断主线中,debiased lasso 篇在 p ∼ o(n^{1/2}) 下给出了渐近正态性与一致方差估计,直接服务于高维协变量效应推断。GMDR/GMDI 篇针对双路结构数据(行、列均有结构)提出了不依赖稀疏性的推断框架,允许相关性及异方差。压缩谱筛选篇利用随机投影在分钟级完成数万基因的差异共表达筛选,并给出变量筛选一致性。BET 篇在超高维基因对中提供了计算高效的非参数独立性检验,适合海量筛选。贝叶斯组选择篇通过考虑通路重叠先验识别与肿瘤成分相关的高维基因组。

本期最贴近因果推断方向的几篇为法官属性效应、可解释 ITR、MARL 离线策略评估、推荐信局部平衡,以及分层 Cox debiased lasso(高维因果效应推断);贴近半参数/效率方向的包括 debiased lasso(n^{-1/2} 收敛与影响函数视角)、GMDR/GMDI(不要求稀疏的推断框架)、FETA(联邦迁移学习收敛率刻画);高维方向可优先浏览 debiased lasso、GMDR、压缩谱筛选、BET 和贝叶斯组选择。

因果推断 (causal_inference, 4 篇)

1. 10.1214/23-aoas1774 — Association and causation: Attributes and effects of judges in equal employment opportunity commission litigation outcomes

  • 作者: Michael E. Sobel, Gregory J. Wawro, Sean Farhang
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Columbia University · University of California, Berkeley
  • 分类: vol 17 · issue 4
  • 相关性 8/10 · novelty: application
  • 摘要: 本文研究法官种族属性对EEOC歧视诉讼中金钱救济结果的影响。作者指出,法官的种族属性并非随机分配的处理变量,因此传统回归系数无法解释为因果效应。他们引入潜在结果框架,定义单位特征比较(UFC)、平均特征比较(AFC)和分位数特征比较(QFC)作为新的总体目标量,特别关注不同种族法官在相同案件上的比较。估计采用两部分贝叶斯分层模型,利用后验预测分布插补缺失的潜在结果。实证发现,案件最初分配给非白人/非裔美国法官时更可能获得金钱救济,但救济金额的AFC区间跨越0,中位数QFC上限为负。本文为属性效应研究提供了严格的因果推断框架,对您处理非随机属性的因果问题(如法官、政策制定者特征效应)具有直接参考价值。
  • 关键技术: potential outcomes framework, Bayesian hierarchical model, posterior predictive imputation, unit feature comparison (UFC), average feature comparison (AFC), quantile feature comparison (QFC)
  • 为什么对您有用: 直接连接您对因果推断(非随机属性效应)的兴趣,特别是将潜在结果框架扩展到处理变量非随机分配的场景。您的technical_arsenal中'估计理论在因果推断中的应用'(very_familiar)可直接用于评估其识别假设和估计量性质,同时'贝叶斯推断'虽不在显式列表中,但分层模型与您的semiparametric理论有交集。立即可做:基于其AFC/QFC定义,提出更高效的半参数估计量和敏感性分析。

2. 10.1214/23-aoas1767 · arXiv — A reluctant additive model framework for interpretable nonlinear individualized treatment rules

  • 作者: Jacob M. Maronge, Jared D. Huling, Guanhua Chen
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在个体化治疗规则(ITR)学习框架下,目标是估计能够平衡可解释性与预测准确性的最优 treatment rule,核心假设是真实 ITR 可能同时包含线性和非线性成分。作者提出基于可加模型的非线性 ITR 方法,通过稀疏惩罚机制仅在非线性项显著提升性能时才将其纳入最终规则,实现模型简约性。估计采用 cross-fitting 配合专门设计的信息准则进行模型选择,以防止过拟合并保证数据自适应性。理论贡献主要是方法框架与算法设计,未给出严格的渐近理论或效率界证明。模拟与癌症药物敏感性数据分析表明该方法能自适应地平衡 ITR 的可解释性与灵活性,对您在因果推断中处理 treatment effect heterogeneity 的应用场景有参考价值。
  • 关键技术: individualized treatment rules, additive model, cross-fitting, information criterion, sparse regularization, value function optimization
  • 为什么对您有用: 本文属于因果推断中 ITR 学习方向,聚焦可解释性与非线性灵活性的权衡问题。您武器库中的 semiparametric theory 和 M-estimation theory(moderately_familiar)可以用来分析该估计量的渐近性质——目前文章缺乏严格的效率界或 influence function 分析,这是一个可切入的理论口子。follow-up 判断:中期可做,需先在 semiparametric theory 上长肌肉,才能给出该方法的效率界或推断理论。

3. 10.1214/22-aoas1700 — A multiagent reinforcement learning framework for off-policy evaluation in two-sided markets

  • 作者: Chengchun Shi, Runzhe Wan, Ge Song, Shikai Luo, Hongtu Zhu, Rui Song
  • 期刊/来源: Annals of Applied Statistics
  • 机构: London School of Economics and Political Science · North Carolina State University · Didi Chuxing (China) · University of North Carolina at Chapel Hill
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: new_method
  • 摘要: 该文针对双边市场中因空间与时间邻近性导致的干扰(interference)以及大量区域带来的维度灾难,提出了一个多智能体强化学习(MARL)框架用于离线策略评估。设定中每个智能体(区域)持续接收产品/治疗方案序列,目标是在存在干扰和高维状态-动作空间下,估计不同产品下的平均结果。作者提出了新的一致估计量,该估计量在仿真实验中表现良好,并在真实的拼车平台数据上评估了不同补贴政策的效果。方法的核心是通过MARL建模智能体间的相互影响,利用值函数近似或策略梯度等技术克服高维挑战。估计量的一致性依赖于一些正则性条件,但文中未明确给出半参数效率界或影响函数。最后一句话:该文将off-policy evaluation扩展至多智能体干扰环境,直接关联您的因果推断兴趣,特别是干扰存在时的策略估计问题。
  • 关键技术: multiagent reinforcement learning, off-policy evaluation, spatial-temporal interference, consistency in high-dimensional state-action space
  • 为什么对您有用: 该文聚焦于因果推断中的off-policy evaluation,特别处理了干扰(interference)这一因果推断中的重要挑战,与您primary interests中的“causal inference”直接相关。您的“高维渐近”武器库可用于分析该估计量在高维状态空间下的一致性速率,而“软件发展”技能方便您复现其Python代码进行验证。中期可做:您需要先熟悉MARL的基本概念(如值函数、策略优化)才能对该理论进行深入改进,但因果推断的识别框架已足够支撑您跟进其主要思想。

4. 10.1214/23-aoas1740 · arXiv — Varying impacts of letters of recommendation on college admissions

  • 作者: Eli Ben-Michael, Avi Feller, Jesse Rothstein
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of California, Berkeley
  • 分类: vol 17 · issue 4
  • 相关性 6/10 · novelty: new_method
  • 摘要: 这篇论文研究大学录取中推荐信对入学决定的影响,关注影响如何在不同子组(如弱势群体、学业能力强弱)中变化。在观察性研究中,估计子组处理效应异质性面临挑战,因为估计的组间差异可能混杂了协变量平衡的差异。作者提出了一种新的平衡权重方法,直接优化子组内的“局部平衡”(local balance),同时维持全局的协变量平衡。该方法通过求解一个加权优化问题,使得在子组内部和整体上,处理组与对照组的协变量分布匹配。作者将该方法应用于加州大学伯克利分校2016-17招生试点项目,结果显示与传统倾向得分加权方法相比,局部和全局平衡显著改善。研究发现推荐信的影响随申请者学业能力增强而增大,但弱势群体之间的平均差异不大甚至消失。最终结论是,广泛要求推荐信不会显著改变录取学生的构成。这项研究对您(因果推断方向)有价值:它提供了一个解决子组异质性因果估计中平衡难题的实用工具,并且方法本身可以推广到其他需要 subgroup CATE 估计的应用场景。
  • 关键技术: balancing weights, local balance, propensity score weighting, covariate balance optimization, heterogeneous treatment effects
  • 为什么对您有用: 直接连接到 causal inference 中的子组处理效应异质性估计问题,您对此方向(identification, estimation, sensitivity)有浓厚兴趣。您武器库中的 estimation theory in causal inference 和 nonparametric statistics 足以理解和评估该方法;可以立即可做地考虑将其平衡权重框架推广到敏感性分析或与 double machine learning 结合。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)

1. 10.1214/23-aoas1746 · arXiv — Generalized matrix decomposition regression: Estimation and inference for two-way structured data

  • 作者: Yue Wang, Ali Shojaie, Timothy Randolph, Parker Knight, Jing Ma
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对生态学、微生物学和神经科学中常见的双路结构数据(同时具有行和列结构),提出一种高维回归方法——广义矩阵分解回归(GMDR)。GMDR扩展了主成分回归(PCR)到双路数据,但与PCR不同,它自动选择与结果变量最预测性相关的成分,从而提高预测精度。为了实现变量级别的统计推断,作者进一步提出了广义矩阵分解推断(GMDI),这是一个适用于包含GMDR在内的一大家族估计量的高维推断框架。GMDI不要求回归系数稀疏,而是根据列结构约束系数所在的坐标系,并允许观测值之间存在相关性和异方差性。通过理论分析,研究了GMDI在控制第一类错误率和把握度方面的性质,并通过模拟和人类微生物组数据展示了方法的有效性。该方法为高维双路结构化数据的回归和推断提供了一个灵活且计算可行的方案,其推断思路对您在高维统计假设检验和半参理论方面的兴趣有直接参考价值。
  • 关键技术: matrix decomposition regression, principal component regression, high-dimensional inference, dependent and heteroscedastic errors, coefficient sparsity relaxation, two-way structured data
  • 为什么对您有用: 本文直接连接您的主要兴趣——高维统计和假设检验,特别是处理具有行/列结构数据的高维推断问题。从技术武器库看,您的very_familiar项中“高维渐近理论”和“非参数统计”可直接用于分析该方法的收敛速率和推断有效性;而moderately_familiar项中的“半参理论”可用于深入评估GMDI的效率最优性。属于中期可做:若要在该框架下推导半参效率界或开发正交得分,需先在semiparametric theory上补足。

2. 10.1214/23-aoas1771 · arXiv — Compressed spectral screening for large-scale differential correlation analysis with application in selecting Glioblastoma gene modules

  • 作者: Tianxi Li, Xiwei Tang, Ajay Chatrath
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文针对大规模基因表达数据的差异共表达分析问题,目标是筛选出在疾病组与正常组之间相关结构存在差异的特征(基因或模块)。由于基因数量可达10⁴-10⁵,传统方法无法直接计算样本相关矩阵,且差异模式复杂。作者提出压缩谱筛选(compressed spectral screening)方法,利用随机投影技术压缩数据后,通过谱分解识别差异结构,实现了在个人计算机上数分钟内完成筛选。该方法无需对差异模式做参数假设,适用性强。理论分析证明,在适当条件下压缩谱筛选能达到变量筛选一致性,即真实差异特征以概率趋于1被选出。应用于TCGA胶质母细胞瘤数据,成功识别出多个已知和新的功能模块,揭示肿瘤演化新机制。本文将高维随机矩阵工具与随机抽样结合,为大规模相关矩阵的快速分析提供了实用解法,对您在统计计算与高维渐近方面的兴趣具有直接参考价值。
  • 关键技术: compressed spectral screening, random projection, spectral decomposition, variable screening consistency, large-scale differential correlation analysis
  • 为什么对您有用: 该论文属于高维统计与计算交叉方向,直接对应您 primary interest 中的高维统计(随机矩阵)与统计计算。其方法利用随机投影与谱分解实现可扩展性,与您武器库中 'high-dimensional asymptotics' 和 'software development' 两项高度吻合——可用来检验其筛选一致性的渐近条件是否紧,以及将算法封装成开源软件。您可立即可做:复现其算法并测试在其他高维差异相关数据集上的表现。

非参数 / 半参数 (nonparam_semipara, 2 篇)

1. 10.1214/23-aoas1766 — Joint stochastic simulation of extreme coastal and offshore significant wave heights

  • 作者: Juliette Legrand, Pierre Ailliot, Philippe Naveau, Nicolas Raillard
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Centre National de la Recherche Scientifique · Université de Versailles Saint-Quentin-en-Yvelines · Commissariat à l'Énergie Atomique et aux Énergies Alternatives · Université Paris-Saclay · Laboratoire des Sciences du Climat et de l'Environnement · CEA Paris-Saclay · Université de Bretagne Occidentale · Université de Bretagne Sud 等
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文针对沿海与近海极端有效波高(Hs)的联合随机模拟问题,提出了一种基于二元超阈值(bivariate Peaks over Threshold)和非参数模拟方案的生成器。该方法首先对近海条件(峰值方向Dp、峰值周期Tp及中等偏高的Hs)与沿海极端Hs的联合分布进行二元广义帕累托分布(GPD)建模,并开发了非参数的二元GPD模拟算法。进一步,论文推导了条件模拟生成器,用于在给定近海条件下模拟沿海极端Hs。为处理非平稳性,采用了扩展广义帕累托模型,使参数随Tp和Dp变化。模拟实验和法国布列塔尼海岸后报数据的应用表明,该算法能够成功地在非参数框架下联合或条件模拟未来极端Hs。本文连接了非参数统计与极端值理论,其模拟设计对您在统计计算(随机模拟算法)和非参数方法方向有参考价值。
  • 关键技术: bivariate Peaks over Threshold, nonparametric simulation of generalized Pareto distribution, conditional simulation, extended generalized Pareto model, nonstationary extremes
  • 为什么对您有用: 本文聚焦于非参数极值模拟方法,直接连接到您对非参数统计和统计计算的兴趣。您对非参数统计非常熟悉,可借鉴其模拟思路用于U统计量的随机生成;但极值理论(POT、GPD)是武器库中缺失的一环,需要先补充基础知识(如threshold selection、GPD拟合),因此属于中期可做——需在极值理论上提升后才能在该方向产出延伸工作。

2. 10.1214/23-aoas1738 — A framework for covariate-specific ROC curve estimation, with application to biometric recognition

  • 作者: Xiaochen Zhu, Martin Slawski, Liansheng Tang
  • 期刊/来源: Annals of Applied Statistics
  • 机构: George Mason University · University of Central Florida
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对生物特征识别(如人脸、指纹匹配)中的ROC曲线估计问题,提出一个协变量特异性的半参数框架,该框架同时整合了稳健性、异方差性和随机有序性假设。随机有序性假设要求匹配对的得分分布一阶随机占优非匹配对,这符合生物识别系统的校准特性;通过将该约束嵌入半参数模型,可避免极端情况下的不合理估计。估计过程可能结合广义线性模型或平滑技术,并允许协变量对ROC曲线的形状和位置产生平滑影响。在人脸识别和指纹匹配的真实数据集上,所提方法相比传统池化ROC曲线更准确地揭示了错误率随人口统计或质量特征的变化。该方法也可扩展至医学诊断等类似应用场景。对您而言,本文是半参数ROC建模在应用领域的一个实例,您可利用非参数统计与经验过程工具进一步分析其模型假设的合理性。
  • 关键技术: ROC regression, stochastic ordering assumption, semiparametric modeling, heteroscedasticity handling, robust estimation
  • 为什么对您有用: 本文涉及半参数模型在ROC分析中的应用,可直接连接您对nonparametric theory和semiparametric theory的兴趣。您very_familiar中的非参数统计工具可用于检验其随机有序假设及模型拟合优劣。该框架虽非因果推断核心,但其协变量调节ROC曲线的思路与因果调节效应(CATE)的估计有结构相似性,可作为方法学迁移的参考。当前该方向与您主要兴趣重叠有限,属于暂不可做范畴——核心机器(如影响函数、交叉拟合)在文中未涉及,但可中期通过锻炼semiparametric theory(moderately_familiar)来理解该框架的渐进性质。

效率理论 / Debiased ML (efficiency_dml, 2 篇)

1. 10.1214/23-aoas1775 — Debiased lasso for stratified Cox models with application to the national kidney transplant data

  • 作者: Lu Xia, Bin Nan, Yi Li
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Washington · University of California, Irvine · University of Michigan
  • 分类: vol 17 · issue 4
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在分层 Cox 比例风险模型下,目标是估计高维协变量效应,同时通过分层消除移植中心的混杂影响。核心方法是 de-biased lasso,通过 quadratic programming 构造 one-step 校正估计量,实现 n^{-1/2}-CAN 和有效置信区间。理论贡献包括建立估计量的渐近正态性和方差估计的一致性,适用于 p ∼ o(n^{1/2}) 的高维设定。实证分析 SRTR 肾移植数据(约 100 个混杂变量),发现供体年龄对移植物失败风险的非线性效应及与受体年龄组的交互作用。对您在 efficiency theory / debiased ML 方向的工作有直接参考价值。
  • 关键技术: debiased lasso, stratified Cox model, quadratic programming, one-step estimation, high-dimensional inference, partial likelihood
  • 为什么对您有用: 直接对应您 primary interest 中的 efficiency theory (debiased ML) 和 semiparametric theory。您可以用 very_familiar 的 minimax bounds 和 high-dimensional asymptotics 工具审视其 p ∼ o(n^{1/2}) 假设是否可改进,或用 moderately_familiar 的 semiparametric theory 分析分层结构下的效率界。立即可做:用您熟悉的 high-dimensional asymptotics 框架验证其理论率是否紧,或扩展到 cross-fitting 设定。

2. 10.1214/23-aoas1747 · arXiv — Targeting underrepresented populations in precision medicine: A federated transfer learning approach

  • 作者: Sai Li, Tianxi Cai, Rui Duan
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在联邦学习设定下,目标是利用多源异质数据改善目标人群(样本量有限)的预测模型估计。作者提出 FETA 方法,通过两向数据整合(federated transfer learning)在保护隐私的前提下聚合跨机构信息,核心是构造一个可分解的估计目标函数,仅需少量通信轮次即可收敛。理论分析给出了估计误差界,明确刻画了通信预算、隐私约束与人群异质性对估计精度的影响,并证明在适当条件下可达到与 pooled data analysis 相近的收敛率。实证部分使用 eMERGE 数据构建极端肥胖的遗传风险预测模型,显示 FETA 优于仅用目标数据或源数据的方案。对您在 efficiency theory 和 semiparametric efficiency 方面的兴趣有直接参考价值。
  • 关键技术: federated learning, transfer learning, privacy-preserving estimation, communication-efficient algorithms, heterogeneous data integration
  • 为什么对您有用: 直接关联 efficiency theory 中的 semiparametric efficiency bounds 问题——本文在分布式、异质数据约束下讨论估计效率,是经典效率理论在联邦设定下的自然延伸。可用您 very_familiar 的 minimax bounds for estimation problems 工具审视其声称的收敛率是否紧,或用 moderately_familiar 的 semiparametric theory 分析其估计量的影响函数结构。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,特别是分布式估计下的效率界刻画。

数理统计 / 假设检验 (hypothesis_testing, 2 篇)

1. 10.1214/22-aoas1722 · arXiv — Model-independent detection of new physics signals using interpretable SemiSupervised classifier tests

  • 作者: Purvasha Chakravarti, Mikael Kuusela, Jing Lei, Larry Wasserman
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在高能物理新物理信号检测问题中,目标是在无信号模型假设下检验实验数据(背景+潜在信号混合)与标准模型背景样本是否来自同一分布。作者提出三种基于半监督分类器的检验统计量:估计似然比检验(LRT)、基于 ROC 曲线下面积(AUC)的检验、以及基于误分类误差(MCE)的检验,均无需指定信号分布。理论分析表明这些检验在原假设下具有可控的 Type I error,且对 misspecified 信号具有比传统监督方法更高的 power。作者还提出信号强度参数的估计方法,并利用 active subspace 方法对分类器进行可解释性分析以刻画检测到的信号特征。在模拟的 Higgs boson 数据集上,半监督方法对 well-specified 信号的 power 与监督方法相当,但对 unexpected 信号显著更优。
  • 关键技术: semi-supervised two-sample testing, likelihood ratio test via classifier, AUC-based test statistic, active subspace interpretation, signal strength estimation, model-independent hypothesis testing
  • 为什么对您有用: 本文属于假设检验与统计计算交叉领域,核心贡献是 model-independent 的两样本检验框架,与您 primary interest 中的 hypothesis testing 直接相关。从 technical_arsenal 角度,您 very_familiar 的 minimax bounds 和 nonparametric statistics 可以用来分析这些检验的 minimax power 性质——这是一个潜在的切入点。follow-up 判断:中期可做——需要先在 moderately_familiar 的 semiparametric theory 上补充关于 likelihood ratio test 在半监督设定下的效率理论,才能深入分析这些检验的 asymptotic efficiency 和 optimality。

2. 10.1214/23-aoas1745 · arXiv — Pairwise nonlinear dependence analysis of genomic data

  • 作者: Siqi Xiang, Wan Zhang, Siyao Liu, Katherine A. Hoadley, Charles M. Perou, Kai Zhang et al.
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 5/10 · novelty: application
  • 摘要: 本文针对癌症基因组图谱(TCGA)中基因表达数据的成对非线性依赖分析问题,在超高维设定(数万基因对)下需要快速、强大且可解释的检验方法。采用Binary Expansion Testing(BET),一种基于递归二分空间的非参数独立性检验,无需预设依赖函数形式,能捕捉多种非线性模式。BET通过将二维点区域递归二分并比较bin内计数与期望的差异构造统计量,计算复杂度低,适合海量基因对的筛选。方法结合多重比较校正(如FDR控制)以应对高维假阳性问题。在TCGA数据上应用BET发现许多显著非线性关系,部分由已知癌症亚型(如乳腺癌PAM50分型)驱动,部分为新的模式。本文对您可能有用:一是直接连接您对hypothesis testing的兴趣,展示非参数检验在高维实际数据中的应用;二是高维基因对筛选的设定与您的高维统计经验相通,可用very_familiar的high-dimensional asymptotics分析该检验在稀疏信号下的最优性。
  • 关键技术: Binary Expansion Testing, nonparametric independence test, recursive partitioning, multiple testing correction, high-dimensional screening, TCGA data application
  • 为什么对您有用: 本文直接对应您primary interest中的hypothesis testing,具体是非参数独立性检验在高维基因组学中的应用。您可以用very_familiar的high-dimensional asymptotics和minimax bounds来分析BET检验在稀疏非线性模式下的power行为和最优性,这是立即可做的理论扩展。此外,该检验的计算效率(依赖递归二分而非U统计量)与您的统计计算兴趣也有交叉,中期可借moderately_familiar的高阶U统计理论对比其与U统计量检验的效率差异。

统计计算 / 算法 (stat_computing, 4 篇)

1. 10.1214/23-aoas1757 — Optimal sampling designs for multidimensional streaming time series with application to power grid sensor data

  • 作者: Rui Xie, Shuyang Bai, Ping Ma
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Central Florida · University of Georgia
  • 分类: vol 17 · issue 4
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究多维流时间序列的在线推断中计算与统计效率的权衡问题,目标是在IoT场景下以低计算成本实时分析高速电力网格传感器数据。作者将实验设计中的D-最优性准则引入在线数据缩减,提出一类混合伯努利采样与leverage score采样的最优抽样策略,并证明该策略在渐近意义下达到最优。文中推导了辅助估计量的理论性质(如相合性与收敛速率),证明其计算开销低于递归最小二乘更新。在欧洲电力消费数据上的实证表明,所提方法在在线估计与预测中均优于基准抽样方法。仿真实验进一步验证了抽样辅助在线估计的广泛适用性。对您而言,本文是统计-计算权衡(statistical-computational tradeoff)领域的入门级应用,且其leverage score采样技术可直接对接您熟悉的软件开发和逆问题工具;若深入可中期拓展至moderately_familiar的M-estimation理论以分析其在线更新性质。
  • 关键技术: D-optimality criterion, leverage score sampling, Bernoulli sampling, online data reduction, streaming time series, computational-statistical tradeoff
  • 为什么对您有用: (1)直接对应研究者primary interests中的'statistical-computational tradeoff',属于gateway-reading——论文清楚阐述了计算约束下的抽样策略与统计效率的平衡,且SNR阈值等数学条件有明确陈述,适合outsider进入该方向。 (2)技术层面,leverage score采样与您very_familiar的'软件开发和逆问题'高度契合,可以快速复现或扩展至其他高维流数据场景。 (3)中期可做:如需严格分析在线估计的渐近方差,需在moderately_familiar的'M-estimation理论'上提升;短期可直接将本文方法作为基线,对比您自己设计的基于tensor contraction的高阶U-统计量流式估计。

2. 10.1214/23-aoas1759 · arXiv — A penalized complexity prior for deep Bayesian transfer learning with application to materials informatics

  • 作者: Mohamed A. Abba, Jonathan P. Williams, Brian J. Reich
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对材料信息学中深度学习模型因数据有限、计算资源不足而难以充分训练的问题,提出一种基于惩罚复杂性先验(penalized complexity prior)的贝叶斯迁移学习方法。目标是将源任务训练好的深度模型的信息编码到目标任务的先验分布中,从而有效进行知识迁移。核心创新在于不对单个参数设定主观先验,而是对源模型与目标模型预测分布之间的Kullback-Leibler散度施加惩罚复杂性先验,从而控制迁移强度。通过模拟实验,该方法在各种迁移场景下优于替代方法(如微调、贝叶斯直推等)。在实际材料科学问题中,该方法被用于预测材料带隙(band gap),提升了预测精度和不确定性量化能力。本文属于贝叶斯深度迁移学习的方法论贡献,并展示了在材料信息学中的实际应用。对于您关注的统计计算和软件开发方向,其中先验构造与计算实现(特别是KL散度的近似和贝叶斯推断)有一定的参考价值。
  • 关键技术: penalized complexity prior, Bayesian transfer learning, Kullback-Leibler divergence, deep learning for materials informatics, predictive model discrepancy, Markov chain Monte Carlo
  • 为什么对您有用: 本文属于贝叶斯统计计算与迁移学习方法的结合,与您对statistical computing和software development的兴趣有重叠——其先验设计策略和KL散度近似方法可供您借鉴。但该论文的应用领域(材料科学)不在您的主要兴趣列表中,且方法本身与您熟悉的higher-order U-statistics、causal inference等方向关联较弱;可考虑中期可做的方向:若想将类似先验用于您关注的因果推断中的sensitivity analysis,可能需要先熟悉bayesian nonparametric建模(属于moderately_familiar之外的工具)。因此当前暂不至于展开深入阅读,但可作为统计计算交叉应用的参考。

3. 10.1214/23-aoas1753 — When ecological individual heterogeneity models and large data collide: An importance sampling approach

  • 作者: Ruth King, Blanca Sarzo, Víctor Elvira
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Maxwell Institute for Mathematical Sciences · University of Edinburgh · Universitat de València · Institute for Biodiversity
  • 分类: vol 17 · issue 4
  • 相关性 4/10 · novelty: application
  • 摘要: 本文针对生态学个体异质性随机效应模型在大规模捕获-再捕获数据下计算瓶颈问题,提出一种基于重要性抽样的贝叶斯后验加速方法。这类模型的对数似然包含高维不可积积分,标准数值积分或MCMC在个体数达数万时计算代价极高。核心思路是先对全数据以某种机制抽取一个小子样本,用传统MCMC拟合该子样本得到较粗糙的后验样本,再通过重要性权重校正将其近似转化为全数据后验分布,从而避免对整个数据集进行昂贵迭代。算法天然支持并行化,且可通过组合多个子样本估计来降低蒙特卡洛方差。在约3万只海鸦真实数据上的实验表明,该方法可在保持估计精度的前提下将计算时间缩减一个数量级以上。该工作虽聚焦于生态学应用,但其“子样本+重要性校正”的框架具有通用性,可推广至任何潜变量模型的大数据贝叶斯推断场景。对于研究者在统计计算(尤其是计算成本与精度权衡)方向上的兴趣,本文提供了一个具体可操作的案例:如何用较熟悉的非参数抽样技巧突破MCMC在大数据下的效率瓶颈。
  • 关键技术: importance sampling, subsampling, Bayesian posterior approximation, capture-recapture models, random effects, parallelization
  • 为什么对您有用: 本文直接关联研究者主要兴趣中的“统计计算(数值方法、算法)”,尤其是大数据场景下贝叶斯推断的计算加速策略。子抽样+重要性校正的框架与研究者武器库中的“inverse problems with random noise”和“nonparametric statistics”有技术呼应:校正权重的构造本质是一种重要性重加权,其收敛性分析可用经典非参数工具。但该工作不涉及研究者更核心的因果推断或高阶U统计方向,且其方法学新颖性有限(重要性抽样是成熟技术),因此属于“弱方法学重叠”类别。从中期看,研究者若想将类似思路迁移到因果推断中的大规模数据(如IV或proximal CI中的非参数估计),需先在“identification theory”或“semiparametric theory”上做一点知识连接——当前武器库中moderately_familiar的“semiparametric theory”可能正好够用。建议可作为立即可做的溢出阅读:评估其子样本大小与计算时间之间的tradeoff曲线,并思考是否可与研究者熟悉的einsum代价模型结合分析。

4. 10.1214/23-aoas1763 · arXiv — Sequential Monte Carlo for sampling balanced and compact redistricting plans

  • 作者: Cory McCartan, Kosuke Imai
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 3/10 · novelty: new_method
  • 摘要: 研究问题是在选区重划中如何从带约束的图分割分布中高效采样,用于检测选区不公。目标分布要求各选区人口相等、形状紧凑、保持行政边界完整。核心方法是 Sequential Monte Carlo (SMC) 算法:通过逐步合并相邻 precinct 构建分区,每步用 proposal distribution 加权采样并 resample,proposal 通过 logistic regression 模拟 compactness 和人口约束。理论贡献在于证明 SMC 在此问题下产生近似独立样本,相比 MCMC 避免了 mixing time 的困难,且能处理大规模地图(数千 precinct、数十选区)。实证方面,在小规模地图上与穷举结果对比验证了采样准确性,并应用于宾州真实选区重划案件。对您而言,这是一个将 SMC 应用于组合采样问题的完整案例,涉及图分割、约束满足和采样效率分析。
  • 关键技术: Sequential Monte Carlo, graph partition sampling, constrained sampling, MCMC comparison, redistricting ensemble analysis
  • 为什么对您有用: (1) 属于 gateway reading:统计计算领域的应用案例,展示了 SMC 在组合空间采样中的实际工程实现和效率考量。(2) 武器库足够:very_familiar 的软件开发和 high-dimensional asymptotics 背景足以理解本文,无需额外工具。(3) 值得浏览全文:若您对 constrained sampling / SMC vs MCMC 的效率对比感兴趣,本文提供了清晰的算法设计和验证流程;但若您的主要关注点是因果推断或高维理论,则可跳过。

经济理论 / 应用 (econ_theory, 1 篇)

1. 10.1214/23-aoas1762 — A dynamic additive and multiplicative effects network model with application to the United Nations voting behaviors

  • 作者: Bomin Kim, Xiaoyue Niu, David Hunter, Xun Cao
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Freddie Mac (United States) · Pennsylvania State University
  • 分类: vol 17 · issue 4
  • 相关性 6/10 · novelty: application
  • 摘要: 本文针对联合国投票行为的时间序列网络,提出了一个动态加性和乘性效应网络模型(动态AMEN),扩展了Hoff (2021)的静态AMEN模型。模型融入了时间结构,允许网络规模随时间变化并处理两种类型缺失数据。采用MCMC进行参数估计,并通过模拟验证了模型各组成部分的必要性。在1983-2014年联合国大会投票数据上应用,识别出影响投票行为的重要因素,并揭示了各国对外政策立场和联盟的加性与乘性效应动态。本研究展示了复杂网络模型在政治经济学数据中的实证应用,对经济理论方向的应用研究具有参考价值。
  • 关键技术: Dynamic AMEN, Additive and multiplicative effects, MCMC, Missing data mechanism, Network regression
  • 为什么对您有用: 本文是动态网络模型在国际关系数据中的清晰应用,适合作为社会经济领域应用论文的入门读物。研究者武器库中的高维渐近与计算经验足以理解模型估计(MCMC基础),无需额外深层方法。值得花时间阅读全文,了解其数据分析流程和模型选择依据。

流行病学 (epidemiology, 13 篇)

1. 10.1214/23-aoas1750 — A Bayesian decision framework for optimizing sequential combination antiretroviral therapy in people with HIV

  • 作者: Wei Jin, Yang Ni, Jane O’Halloran, Amanda B. Spence, Leah H. Rubin, Yanxun Xu
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Johns Hopkins University · Texas A&M University · Washington University in St. Louis · Georgetown University · Johns Hopkins Medicine
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: application
  • 摘要: 本文针对HIV感染者组合抗逆转录病毒治疗(cART)的个性化优化问题,目标是降低抑郁等副作用风险同时维持病毒抑制。由于药物组合数量巨大,cART效果估计是一个高维组合问题,给统计推断和决策带来挑战。作者提出一个两步贝叶斯决策框架:第一步用多元高斯过程对纵向观测数据动态建模,第二步构建cART分配的概率生成模型,并利用第一步的不确定度量设计惩罚策略优化。方法应用于女性HIV研究(WIHS)数据集,展示了在辅助医生制定有效治疗方案上的临床实用性。该工作与您关注的流行病学应用方向直接相关,其高维组合问题处理和不确定度量化思路对动态治疗策略的因果推断也有借鉴价值。
  • 关键技术: Bayesian optimization, Gaussian process regression, policy optimization, longitudinal modeling, uncertainty quantification
  • 为什么对您有用: 本文是流行病学领域真实数据应用,处理高维组合治疗优化问题,与您的secondary interest(流行病学、causal inference中的动态治疗策略)高度相关。您可以用very_familiar中的非参数统计工具(如高斯过程收敛速率)理解其理论性质,或用moderately_familiar的identification theory扩展为因果解释框架。作为流行病学应用论文,本文数据结构和建模流程清晰,适合作为入门读物,可中期跟进其方法在因果推断中的推广。

2. 10.1214/23-aoas1764 — Estimating COVID-19 vaccine protection rates via dynamic epidemiological models—a study of 10 countries

  • 作者: Yuru Zhu, Jia Gu, Yumou Qiu, Song Xi Chen
  • 期刊/来源: Annals of Applied Statistics
  • 机构: King University · Peking University
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: application
  • 摘要: 本文旨在利用公开的流行病学和疫苗接种数据估计COVID-19疫苗的实际保护率。作者提出一个时变系数随机流行病学模型,以刻画感染、恢复和死亡率的动态变化。针对模型中存在未观测状态变量的挑战,设计了一种多步分散估计程序:利用接种前数据估计诊断率,利用接种后数据估计疫苗效应参数,并通过B样条近似感染率函数,结合模拟基础估计获得目标函数。感染率、恢复率和死亡率通过核回归非参数估计得到。应用该方法分析了使用八种疫苗的十个国家数据,发现完全接种的平均保护率比部分接种高至少22%,且在2021年11月20日之前(包括Delta变异株主导时期)显著高于WHO认可的50%阈值;同时提供了加强针在Omicron时期的保护率估计。该方法处理动态模型和未观测变量的思路,对流行病学应用中的参数识别与估计具有参考价值。
  • 关键技术: varying coefficient stochastic epidemic model, B-spline approximation, multistep decentralized estimation, simulation-based estimation, kernel regression
  • 为什么对您有用: 本文属于流行病学应用,直接对应您的secondary interest中的流行病学数据集和因果推断应用。您非常熟悉的非参数统计工具(B样条、核回归)是本文估计方法的核心,您可以立即复现或改进其局部估计的收敛速率分析。本文的估计策略(分段数据估计不同参数、模拟基础目标函数)对处理动态系统未观测状态有借鉴意义,属于可立即可读并理解的应用工作。

3. 10.1214/22-aoas1711 · arXiv — Modeling racial/ethnic differences in COVID-19 incidence with covariates subject to nonrandom missingness

  • 作者: Rob Trangucci, Yang Chen, Jon Zelner
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Michigan
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: application
  • 摘要: 本文针对COVID-19病例中种族/族裔协变量缺失率较高且缺失机制可能非随机(NMAR)的问题,提出一个贝叶斯参数模型,联合建模疾病空间变异与协变量缺失过程。模型在已知区域人口协变量分布且观察到病例空间单元时是局部可识别的。通过模拟研究比较了完整病例分析、多重插补与本模型在NMAR数据下的有限样本表现。应用密歇根州韦恩县数据发现,早期若简单删除或MI插补缺失种族信息,会低估非白人群体的相对风险。该工作直接将流行病学中协变量缺失这一实际难题与识别理论结合,为因果推断中的敏感性分析提供了具体案例。对研究者而言,本文展示了NMAR缺失下如何借助空间信息实现识别,可从中提取缺失机制建模思路用于自己的因果推断工作。
  • 关键技术: nonrandom missingness (NMAR), Bayesian parametric model, spatial variation in disease, local identifiability, multiple imputation comparison
  • 为什么对您有用: 本文属于流行病学应用(研究者次要兴趣),且其缺失数据识别问题直接关联到因果推断中的识别理论(研究者主要兴趣)。研究者可用自己熟悉的识别理论与贝叶斯建模方法(moderately_familiar:因果推断识别理论)进一步分析该模型的可识别性条件是否可放松,或探索用双稳健估计替代贝叶斯参数的可行性。中期可做:需先学习处理NMAR缺失的现代方法(如基于工具变量的估计),但其问题设定已是很好的起点。

4. 10.1214/23-aoas1743 · arXiv — Bayesian learning of Covid-19 vaccine safety while incorporating adverse events ontology

  • 作者: Bangyao Zhao, Yuan Zhong, Jian Kang, Lili Zhao
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: application
  • 摘要: 本文关注 COVID-19 疫苗安全性信号检测,利用美国 VAERS 系统的约一百万份报告(2016-2021)和超过 800 种不良事件。现有统计方法忽略了不良事件之间的本体论关系(如呕吐、吞咽困难、反流均属消化系统异常),导致假阳性增多。作者提出贝叶斯图辅助信号选择(BGrass)模型,通过将 AE 依赖网络纳入先验结构来同时估计所有 AE 的风险信号。模型进一步引入负对照(negative control)以减轻报告偏倚,并采用富集分析(enrichment)识别值得关注的 AE 组别。后验计算利用等价模型表示和高效 Gibbs 采样实现,并提供了 R 包。应用结果表明,与流感疫苗相比,COVID-19 疫苗后血凝块(深静脉血栓、血栓、肺栓塞)的报告比例更高,且强生疫苗的信号强于 mRNA 疫苗。该方法学结构(贝叶斯图模型 + 负对照 + 网络先验)对您可能有用,尤其是其负对照策略与因果推断中的敏感性分析思路相通,而大型观察性数据的分析模式可作为流行病学应用范例。
  • 关键技术: Bayesian graph-assisted signal selection, negative control, enrichment analysis, Gibbs sampling, vaccine safety surveillance, adverse event ontology
  • 为什么对您有用: 本文是流行病学领域的真实数据应用,核心工作围绕疫苗安全性信号检测,与您的 secondary interest 中的流行病学(应用、数据集、因果推断)直接匹配。文中使用的负对照方法来源于因果推断中的 sensitivity analysis 思想,您对因果推断非常熟悉,可以批判性地评估其识别假设和偏倚校正效果。从 gateway reading 角度看,本文对 VAERS 数据结构、信号检测问题、贝叶斯图模型设定都有清楚交代,流行病学门外汉也能轻松跟上;不过您武器库中缺少贝叶斯分层模型和 Gibbs 采样实现的经验,因此直接复用其方法尚需学习相关软件与 MCMC 工具,属于中期可做(需先在 moderately_familiar 的 M-estimation 之外补充贝叶斯计算技能)。全文值得阅读,因为其负对照+本体论融合的策略可迁移至您关心的其他因果推断问题(如 proximal CI 中的 negative control)。

5. 10.1214/23-aoas1744 · arXiv — Addressing selection bias and measurement error in COVID-19 case count data using auxiliary information

  • 作者: Walter Dempsey
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 7/10 · novelty: application
  • 摘要: 本文针对COVID-19病例计数数据中因有限检测导致的选择偏差和测量误差问题,提出利用辅助信息进行校正。首先通过理论推导和模拟证明,即使基于数百万检测的估计,其均方误差也仅相当于一个小的简单随机样本,凸显了偏差问题的严重性。作者提出一种结合病例计数数据和重复随机样本的程序,利用关键协变量信息估计选择倾向性。进一步将估计的选择倾向与流行病学预测模型结合,构造双重稳健(doubly robust)估计方法,同时校正测量误差和选择偏差。该方法应用于美国印第安纳州,使用病例计数、住院、死亡数据、全州随机分子样本以及德尔菲COVID-19趋势与影响调查,估计活跃感染患病率。最终基于该方法提出一系列政策建议。该论文填补了疫情数据质量关键缺口,为流行病学监测提供了实用的统计框架,对您关注的流行病学应用和因果推断中的双重稳健方法具有直接参考价值。
  • 关键技术: doubly robust estimation, propensity score estimation, measurement error correction, selection bias adjustment, case-count data integration, random sampling design
  • 为什么对您有用: 本文直接对应您次要兴趣中的流行病学应用方向,使用了双重稳健估计这一您在因果推断中熟悉的工具,并展示了如何在真实数据(COVID-19病例、随机分子样本、调查数据)中处理选择偏差和测量误差。您的武器库中'estimation theory in causal inference'可以立即用于理解其核心估计步骤,并评估其双重稳健性质在有限样本下的表现。中期可做:若希望将类似框架推广到其他流行病学场景(如长期随访队列),可先在'moderately_familiar'的识别理论(identification theory)上加强,以处理更复杂的未测量混杂。

6. 10.1214/23-aoas1765 — Estimating Covid-19 transmission time using Hawkes point processes

  • 作者: Frederic Schoenberg
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of California, Los Angeles
  • 分类: vol 17 · issue 4
  • 相关性 5/10 · novelty: application
  • 摘要: 本文研究仅使用病例计数数据估计新冠传播时间分布的问题。在Hawkes点过程框架下,将每日新增病例视为自激过程的事件,模型通过非参数方法和正态近似分别估计各州的传播时间密度。对全美50个州分别拟合不同生产力的Hawkes模型,得到传播时间中位数约为7天,标准差约1天。与先前基于接触追踪的研究相比,估计的传播时间更短、分布更集中,且支持暴露首日即发生传播的可能性。方法核心在于利用点过程的时序依赖性来反推传播延迟,避免了需要个体追踪数据的困难。对于流行病学应用,本文展示了点过程模型在疫情监测中的实用价值,但方法学上未提出新的统计理论或推断框架。
  • 关键技术: Hawkes point process, nonparametric density estimation, normal approximation, self-exciting process, case-count data
  • 为什么对您有用: 本文属于流行病学应用,连接您的secondary interest中的传染病传播时间估计。您的very_familiar工具(非参数统计、高维渐近)可用来审视其估计量的收敛速率和置信区间覆盖,但核心模型(点过程)与您主要武器库的重叠有限。暂不可做:要深入改进该方法,需要掌握点过程推断和模拟技术,这不在当前武器库中;但作为流行病学入门读物,可快速了解疫情数据结构和点过程建模思路,值得花时间读全文以拓展应用视野。

7. 10.1214/23-aoas1760 · arXiv — A general framework for penalized mixed-effects multitask learning with applications on DNA methylation surrogate biomarkers creation

  • 作者: Andrea Cappozzo, Francesca Ieva, Giovanni Fiorito
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 5/10 · novelty: application
  • 摘要: 本文针对多中心流行病学研究中DNA甲基化(DNAm)替代物创建问题,提出一个混合效应多任务学习(mixed-effects multitask learning)的通用框架。传统方法使用单变量弹性网回归,未充分利用多变量结局间的相关性及群体结构。本文将混合效应模型与多任务学习结合,允许结局变量共享高维预测变量并纳入随机效应以刻画研究中心的异质性。估计采用基于EM算法的惩罚似然方案,可灵活嵌入任意固定效应惩罚(如ridge、lasso、elastic-net)。应用于心血管疾病多个风险因素的DNAm替代物创建(来自多中心数据),结果显示所提方法在预测精度和生物解释性上优于单变量弹性网及独立多任务方法。该工作为流行病学中多变量高维生物标志物建模提供了一个可扩展的计算框架,对您关注的应用流行病学(DNAm数据)具有直接参考价值。
  • 关键技术: mixed-effects model, multitask learning, penalized regression, EM algorithm, high-dimensional predictors
  • 为什么对您有用: 本文涉及流行病学中DNAm替代物创建这一具体应用场景,属于您的二级兴趣(epidemiology, datasets, applied causal work),但方法本体为预测建模而非因果推断。技术层面,您熟悉的high-dimensional asymptotics和软件工程经验足以理解其EM算法与惩罚回归的收敛性;若关注计算瓶颈(如高维EM的加速),可结合您very_familiar的nonparametric statistics和minimax bounds来评估其惩罚选择的最优性。follow-up判据:立即可做——用现有武器库即可复现或扩展EM框架到其他多变量结局,无需学习新核心工具。

8. 10.1214/23-aoas1742 · arXiv — Bayesian hierarchical modeling and analysis for actigraph data from wearable devices

  • 作者: Pierfrancesco Alaimo Di Loro, Marco Mingione, Jonah Lipsitt, Christina M. Batteate, Michael Jerrett, Sudipto Banerjee
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 5/10 · novelty: application
  • 摘要: 本文针对可穿戴设备(actigraph)记录的时空活动数据,提出一个贝叶斯层次建模框架,目标包括沿给定轨迹估计物理活动水平、识别更可能产生高活动水平的轨迹、以及对新轨迹预测活动水平。模型利用subject-level健康属性和时空依赖结构,通过MCMC进行后验推断,并完整量化轨迹不确定性。作者对洛杉矶PASTA-LA队列研究数据进行了全面分析,识别出显著高活动水平的空间区段和轨迹。该研究展示了贝叶斯方法在环境健康应用中的流程,包括模型构建、拟合和结果解读。对您而言,本文提供了流行病学中可穿戴设备数据的一个典型分析案例,其数据结构和研究问题可迁移至因果推断中的暴露轨迹建模。
  • 关键技术: Bayesian hierarchical modeling, spatio-temporal modeling, MCMC, actigraph data analysis, PASTA-LA study
  • 为什么对您有用: 本文是一篇流行病学应用论文,适合作为入门读物了解可穿戴设备(actigraph)数据的统计建模流程。研究者当前的武器库(非参数统计、高维渐近、因果推断)能够帮助批判性地评估模型的假设和稳健性,但若要深入该方向,需要补充贝叶斯层次模型和MCMC的实践经验。该论文值得花时间阅读,因其数据来自真实流行病学研究(PASTA-LA),分析流程详细,可为研究者积累环境健康数据应用经验,并可能启发因果推断中轨迹暴露的识别问题。

9. 10.1214/23-aoas1751 · arXiv — A dynamic spatial filtering approach to mitigate underestimation bias in field calibrated low-cost sensor air pollution data

  • 作者: Claire Heffernan, Roger Peng, Drew R. Gentner, Kirsten Koehler, Abhirup Datta
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在低成本空气污染传感器的现场校准问题中,目标是准确估计真实污染物浓度,关键假设是传感器读数与参考仪器之间存在回归关系且空间上具有相关性。本文首先证明:常用的基于回归校准方法会系统性地低估高污染浓度(从健康角度最关键的峰值),这是由于经典回归中 E[Y|X] 与逆向回归 E[X|Y] 的不对称性导致。作者提出一种空间滤波校准方法:第一阶段用逆向回归替代正向回归以消除低估偏差,第二阶段通过条件高斯过程(Gaussian Process)融合网络中多站点的空间相关性。方法支持一个或多个共置校准站点,并可动态利用最新参考数据。模拟与 Baltimore PM2.5 网络实证表明,该方法显著改善峰值浓度的估计精度,诊断出被传统方法遗漏的污染事件。对您而言,这是流行病学应用中测量误差校正的一个具体案例。
  • 关键技术: inverse regression calibration, Gaussian Process spatial modeling, measurement error correction, regression calibration bias, low-cost sensor network
  • 为什么对您有用: (1) 属于流行病学 secondary interest 的应用型工作,核心是测量误差校正问题。(2) 武器库中 minimax bounds / inverse problems with random noise 可用于分析该逆向回归估计量的理论性质(如是否达到最优收敛率),但本文未涉及此类理论。(3) 作为 gateway reading:本文对统计学家友好,清楚展示了数据结构(传感器网络、参考仪器共置)和模型假设,适合作为进入环境流行病学数据分析的入门读物;若您对测量误差的理论层面感兴趣,值得花时间读全文的方法部分。

10. 10.1214/23-aoas1758 · arXiv — A Riemann manifold model framework for longitudinal changes in physical activity patterns

  • 作者: Jingjing Zou, Tuo Lin, Chongzhi Di, John Bellettiere, Marta M. Jankowska, Sheri J. Hartman et al.
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 4/10 · novelty: new_method
  • 摘要: 该论文针对可穿戴加速度计纵向测量身体活动(PA)数据,提出一个基于黎曼流形的函数数据分析框架。目标是在保留分钟级活动时变模式的同时,刻画个体在不同访视之间PA模式的纵向变化。将平滑后的单日PA曲线视为一维黎曼流形,而访视间的变化则通过流形间的变形(deformation)来建模。利用函数主成分分析对变形场进行降维,所得主成分得分作为代理变量,用于建立PA变化与健康结局或干预之间的回归模型。在两个临床试验(RfH和MENU)数据上展示了效果:可识别出整体增强、早晨活动提升、活跃时段迁移等有意义的模式。该框架为研究PA动态变化与健康关系提供了新视角,对设计健康干预措施具有潜在价值;作为流行病学应用,它展示了非参数函数数据分析方法在穿戴设备数据上的实用性,对您扩展至因果推断中的纵向暴露建模有参考作用。
  • 关键技术: Riemann manifold modeling, functional principal component analysis (FPCA), deformation between manifolds, minute-level accelerometry data, longitudinal functional data analysis
  • 为什么对您有用: 本文属于流行病学应用,正对应您的secondary interest;其黎曼流形与变形建模为处理高维时序活动数据提供了新思路。您的武器库中'非参数统计'和'高维渐近'可直接理解其技术核心,但若要进一步将该框架嵌入因果推断(如干预对活动轨迹的因果效应),则需在'因果推断识别理论'上补充时间依赖性混杂的处理——这是一个中期可做的方向,只需先熟悉g-formula或IPW等工具即可动手。

11. 10.1214/23-aoas1755 — Identifying boundaries in spatially continuous risk surfaces from spatially aggregated disease count data

  • 作者: Duncan Lee
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Glasgow
  • 分类: vol 17 · issue 4
  • 相关性 4/10 · novelty: application
  • 摘要: 本文研究从空间聚合疾病计数数据(非重叠区域单元)中识别疾病风险边界的问题。现有方法强制边界与区域边界重合,本文首次放松这一假设,通过像素级网格逼近连续空间表面。方法分两阶段:首先拟合贝叶斯时空对齐模型将聚合数据重构到网格层面,然后采用计算机视觉边缘检测算法(如Canny算子)识别风险突变位置。模型利用马尔可夫链蒙特卡洛进行推断,边缘检测通过梯度幅值定位边界。应用案例是2008-2017年格拉斯哥呼吸系统住院风险,识别出城市内多个风险边界。该分析揭示了传统区域边界方法无法发现的局部变化模式。对您而言,本文是流行病学空间数据建模的扎实应用,但其核心思路——从聚合数据反推连续表面的边界——可视为一种反问题,与您熟悉的逆问题方法有潜在联系,但整体工具链(贝叶斯时空模型、CV边缘检测)不在当前武器库内,暂不适合直接复用。
  • 关键技术: Bayesian spatiotemporal realignment, edge detection (Canny), Markov chain Monte Carlo, areal data modeling
  • 为什么对您有用: 本文属于流行病学应用,直接对应于您的次要兴趣,提供完整的数据集和分析流程,适合作为流行病学空间建模的入门阅读。武器库中'非参数统计'中的核平滑思想可类比空间平滑,但贝叶斯参数化模型和计算机视觉工具不熟悉。暂不可做:核心机器(贝叶斯时空模型、边缘检测理论)不在当前武器库内,需先学习空间统计和CV方法才能复现或改进。

12. 10.1214/23-aoas1748 — Building a dose toxo-equivalence model from a Bayesian meta-analysis of published clinical trials

  • 作者: Elizabeth A. Sigworth, Samuel M. Rubinstein, Jeremy L. Warner, Yong Chen, Qingxia Chen
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Vanderbilt University · University of Pennsylvania
  • 分类: vol 17 · issue 4
  • 相关性 4/10 · novelty: application
  • 摘要: 本文针对临床实践中因不良反应而更换药物时缺乏结构化剂量指导的问题,提出基于已发表临床试验的贝叶斯元分析模型来建立两种药物的剂量-毒性等效关系。模型以研究水平数据(如各剂量组的毒性事件计数)为输入,采用分层贝叶斯框架同时估计研究内二项变异和研究间异质性,通过后验样本计算等效剂量对的中位数和95%可信区间。通过模拟验证方法在不同研究设计、不同水平的研究间方差以及是否纳入/排除受试者水平协变量下的表现,发现研究水平的元分析估计与个体患者数据元分析在系数偏差和效率损失上相当。最后利用169项临床试验数据给出两种化疗药物的剂量-毒性等效曲线。本文是流行病学中药物安全性比较的典型应用案例,展示了利用公开汇总数据推断等效剂量的贝叶斯工作流程,对关注异质性处理和剂量调整的研究者具有参考价值。
  • 关键技术: Bayesian hierarchical model, meta-analysis, dose-toxicity equivalence, between-study variance, individual patient data (IPD) meta-analysis
  • 为什么对您有用: 本文属于流行病学(药物安全性)的应用工作,是您secondary interests中epidemiology方向的实例——尤其展示了如何利用汇总的临床试验数据而非个体数据构建剂量-反应关系。您武器库中的M-estimation和EIF理论可用于评估该模型在有限研究数量下的偏差-方差权衡,但本文的方法是贝叶斯而非频率学派,需要您补足贝叶斯分层模型的知识(moderately_familiar级别)。作为流行病学入门读物,本文方法清晰、数据规模大,值得花时间全文阅读,但不构成方法论突破。

13. 10.1214/23-aoas1749 — A Bayesian group selection with compositional responses for analysis of radiologic tumor proportions and their genomic determinants

  • 作者: Thierry Chekouo, Francesco C. Stingo, Shariq Mohammed, Arvind Rao, Veerabhadran Baladandayuthapani
  • 期刊/来源: Annals of Applied Statistics
  • 机构: University of Minnesota · University of Florence · Boston University · University of Michigan
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对脑癌(胶质母细胞瘤GBM)肿瘤成分比例(compositional response)的异质性,提出一个贝叶斯层次变量选择模型,以识别解释肿瘤组成差异的基因组通路和基因。响应变量是肿瘤内各成分的比例(多变量组成型数据),采用Dirichlet分布建模,并通过log-linear回归将高维基因协变量纳入。模型引入考虑组重叠结构的先验分布(group selection),解决基因组的通路分组和基因重叠问题。通过模拟研究和TCGA真实数据应用,验证了方法能有效筛选出与肿瘤体积特征相关的重要通路和基因,部分基因已被证实是GBM总生存期的预后指标。对您而言,该文提供了处理高维组成型响应变量和组结构变量选择的实证案例,可作为流行病学组学数据中关联分析的参考入口,但其方法本身不涉及因果推断或效率理论。
  • 关键技术: Dirichlet regression, Bayesian hierarchical model, group selection with overlapping structure, high-dimensional variable selection, compositional data analysis
  • 为什么对您有用: 该文属于流行病学应用(GBM肿瘤基因组学),直接对应secondary interest中的流行病学方向,且提供了真实的TCGA数据集与分析流程。您当前的武器库中非参数统计和高维渐近工具可以用于评估其变量选择的一致性,但贝叶斯先验设定和MCMC计算不属于您熟悉的范围,因此暂不可直接复现。作为流行病学应用,值得作为入门阅读以了解组成型响应在癌症研究中的典型分析模式。

其他 (other, 9 篇)

1. 10.1214/23-aoas1768 — Multimodel ensemble analysis with neural network Gaussian processes

  • 作者: Trevor Harris, Bo Li, Ryan Sriver
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Texas A&M University · University of Illinois Urbana-Champaign
  • 分类: vol 17 · issue 4
  • 相关性 6/10 · novelty: new_method
  • 摘要: 该文旨在解决多气候模型集合分析中的问题,现有基于模型平均的方法会稀释细尺度空间信息并引入偏差。作者提出NN-GPR方法,使用无限宽深度神经网络协方差函数的高斯过程回归,无需假设模型间关系、无需插值到公共网格、无需平稳性假设,并能在预测过程中自动降尺度。核心机制是利用神经网络GP的灵活性捕捉多尺度地理信号,同时提供不确定性量化。在表面温度和降水预测实验中,NN-GPR在高变异区域表现出更高的预测精度和更好的不确定性量化能力,能以0.44°/50km分辨率评估尾部分布。与区域气候模型(RCM)的比较表明,仅用全球模型数据作为输入,NN-GPR即可达到RCM的预测性能。该方法将非参数高斯过程与深度学习结合,为空间统计和集成建模提供了新思路,与您熟悉的非参数统计工具(如GP回归)有直接交叉,可启发高维空间数据的建模与计算问题。
  • 关键技术: Gaussian process regression, neural network Gaussian process, multi-model ensemble, automatic downscaling, uncertainty quantification
  • 为什么对您有用: 本文属于非参数统计方法在气候科学中的应用,与您非常熟悉的非参数统计工具(GP回归、协方差函数建模)直接相关。您可以利用现有武器库中的非参数理论和minimax界来理解NN-GPR的收敛性质与预测误差。由于该方法不涉及因果推断或高维渐近,且计算复杂度分析未被重点讨论,您当前工具可立即评估其统计性能(立即可做),但若想深入研究其计算-统计权衡(如网络宽度对精度的影响),则需先补足statistical-computational tradeoff方向的知识(暂不可做)。

2. 10.1214/23-aoas1754 — Design-based mapping of land use/land cover classes with bootstrap estimation of precision by nearest-neighbour interpolation

  • 作者: Agnese Marcelli, Rosa Maria Di Biase, Piermaria Corona, Stephen V. Stehman, Lorenzo Fattorini
  • 期刊/来源: Annals of Applied Statistics
  • 机构: Università degli Studi della Tuscia · University of Milano-Bicocca · Forestry Research Centre · Purchase College · SUNY College of Environmental Science and Forestry · University of Siena
  • 分类: vol 17 · issue 4
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在 design-based 抽样框架下,利用已有概率样本通过最近邻插值估计调查区域内任意位置的 land use/land cover 类别。目标 estimand 是整个区域的分类地图(categorical variable),关键假设是概率抽样设计已知且样本点位置固定。方法核心是最近邻插值器,作者首次从理论上证明了其 design-based consistency,并提出 pseudo-population bootstrap 方法估计精度。模拟研究基于意大利 Tuscany 地区的土地覆盖地图,验证了有限样本表现以及面积覆盖估计与传统估计量的一致性。案例研究包括意大利 IUTI 调查和美国 LCMAP 项目。本文属于应用统计方法论文,理论贡献为 design-based consistency 证明和 bootstrap 精度估计,对您 primary interests 的因果推断、高维统计、效率理论等方向无直接方法学关联。
  • 关键技术: design-based inference, nearest-neighbour interpolation, pseudo-population bootstrap, consistency proof, finite population sampling
  • 为什么对您有用: 本文主题属于空间统计与抽样调查的交叉领域,与您 primary interests(因果推断、高维统计、效率理论、higher-order U-statistics)无直接方法学关联。技术武器库中的 minimax bounds、semiparametric theory、HOIF 等工具难以迁移到本文的 design-based 框架。作为应用统计论文,其数据集和分析模式对您的研究方向不具备可迁移性,不建议花时间深入阅读。

3. 10.1214/23-aoas1756 — Stochastic declustering of earthquakes with the spatiotemporal renewal ETAS model

  • 作者: Tom Stindl, Feng Chen
  • 期刊/来源: Annals of Applied Statistics
  • 机构: UNSW Sydney
  • 分类: vol 17 · issue 4
  • 相关性 3/10 · novelty: application
  • 摘要: 本文研究地震目录的时空 declustering 问题,目标是在 RETAS(renewal ETAS)模型框架下估计主震与余震的分支结构概率。RETAS 将主震到达过程从齐次 Poisson 推广到 renewal process,参数估计采用基于精确似然的 MLE。核心贡献是提出迭代算法计算 smoothed main-/aftershock probabilities,结合半参数方法估计背景空间强度函数,平滑参数通过信息准则选取。理论层面未给出收敛率或渐近性质证明,主要贡献在算法与实证应用。对您而言,这是统计计算与半参数估计在地球科学数据中的具体应用案例。
  • 关键技术: ETAS model, renewal process, semiparametric estimation, likelihood-based inference, iterative smoothing algorithm
  • 为什么对您有用: 本文属于应用统计论文,涉及半参数估计和迭代算法,但核心地震点过程模型不在您的 primary interests 范畴。技术武器库中的 semiparametric theory 和 M-estimation theory 可用于审视其估计量的渐近性质(目前论文缺失),但问题本身与因果推断、高维统计、效率理论等方向距离较远。follow-up 判断:暂不可做——核心领域知识(地震点过程、ETAS 文献)不在武器库内,且方法论 novelty 有限。

4. 10.1214/23-aoas1752 · arXiv — Data-driven chimney fire risk prediction using machine learning and point process tools

  • 作者: Changqing Lu, Marie-Colette van Lieshout, Maurits de Graaf, Paul Visscher
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: application
  • 摘要: 本文研究烟囱火灾风险的空间-时间预测问题,目标是在给定消防队历史数据下估计火灾发生的条件强度函数。方法上分两步:首先用随机森林和置换重要性进行非参数变量筛选,其次构建 Poisson 点过程模型并用 logistic regression 估计参数,通过 second-order summary statistics(如 K-function)和残差诊断验证模型假设。理论贡献有限,主要是方法整合:RF 变量选择可处理变量依赖性,logistic 估计避免了点过程似然的计算负担。实证部分使用 Twente 消防队数据,展示了合理的预测效果。本文属于应用导向工作,方法学 novelty 较低。
  • 关键技术: Poisson point process, random forest variable selection, permutation importance, logistic regression estimation, second-order summary statistics, spatial-temporal residual diagnostics
  • 为什么对您有用: 与您的主要研究兴趣(因果推断、高维统计、效率理论)无直接关联,点过程方法也不在您的技术武器库中。若未来涉及空间-时间数据的因果推断或 intensity 估计的效率理论,可作为应用背景参考,但目前无需深入阅读。

5. 10.1214/23-aoas1776 · arXiv — Continuous-time modelling of behavioural responses in animal movement

  • 作者: Théo Michelot, Richard Glennie, Len Thomas, Nicola Quick, Catriona M. Harris
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: application
  • 摘要: 本文研究生态学中动物行为响应的建模问题,目标是在受控暴露实验设定下估计人为干扰(如声纳)对海洋哺乳动物行为的影响。核心方法是变系数随机微分方程(varying-coefficient SDE),包含两个组件:用非参数或随机效应建模时变基线动态,以及用非参数响应模型捕捉暴露后的偏离。SDE 的连续时间设定天然适用于不规则采样间隔的遥测数据,并可嵌入 state-space 框架处理测量误差。推断方法基于似然,提供模型检验和不确定性量化工具。应用于喙鲸的卫星追踪和高分辨率深度数据,发现暴露后水平和垂直运动模式均有变化。对您而言,这是一个将 SDE / state-space 模型应用于纵向数据的完整案例,但方法学 novelty 有限。
  • 关键技术: stochastic differential equations, varying-coefficient models, state-space models, nonparametric estimation, irregular time series
  • 为什么对您有用: 本文属于生态学应用,与您的 primary interests(因果推断、高维统计、效率理论)无直接交集。技术层面涉及纵向数据和 state-space 模型,但未涉及因果识别、semiparametric efficiency 或 debiasing 等您熟悉的理论工具。若您对连续时间纵向数据建模有兴趣,可作为入门案例阅读,但武器库中的 semiparametric theory 和 minimax bounds 无法直接攻入此问题。follow-up 判断:暂不可做——核心机器(SDE 推断、state-space 计算方法)不在武器库中。

6. 10.1214/23-aoas1769 · arXiv — Binned multinomial logistic regression for integrative cell-type annotation

  • 作者: Keshav Motwani, Rhonda Bacher, Aaron J. Molstad
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: new_method
  • 摘要: 单细胞基因组学中细胞类型注释常因不同数据集使用不同分辨率的标签而难以整合。本文提出一种新的binned多分类逻辑回归估计器(binned multinomial logistic regression),能够同时拟合多个标签分辨率不一致的数据集。该方法通过块坐标近端梯度下降算法求解一个非凸优化问题,以估计细胞类型概率。模拟实验表明,在多种场景下该估计器的概率估计精度优于现有方法。在10个单细胞RNA-seq数据集上的应用验证了其预测细粒度标签和细化粗粒度标签的能力。此外,在干扰素-β治疗前后的差异表达分析中,该方法还带来了新的生物学见解。该论文主要面向生物信息学应用,与您的因果推断、高阶U统计等核心兴趣无直接技术关联,但可作为一个高维数据整合与标签噪声处理的实例参考。
  • 关键技术: multinomial logistic regression, blockwise proximal gradient descent, nonconvex optimization, single-cell RNA-seq, cell-type annotation, integrative analysis
  • 为什么对您有用: 本文聚焦于单细胞标签整合,不属于您的primary interests(因果推断、高维U统计、半参效率等)或secondary interests(天文学、经济学、流行病学)。技术层面,其非凸优化与近端梯度下降在您的very_familiar工具(如高维渐进、逆问题)之外,且标签整合策略与因果推断中的测量误差或代理变量问题仅有表面相似性。目前您的武器库中没有直接可迁移的核心机器来攻破此文的问题,因此属于暂不可做的一类。若未来您关注高维分类中的标签噪声或整合方法,本文可作为入门阅读,但短期内不推荐深入。

7. 10.1214/23-aoas1737 · arXiv — Predictive inference for travel time on transportation networks

  • 作者: Mohamad Elmasri, Aurélie Labbe, Denis Larocque, Laurent Charlin
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文针对交通网络中的旅行时间预测问题,目标是为给定路线提供预测区间,而不仅仅是点预测。作者证明在一般条件下,归一化旅行时间(距离标准化)近似服从高斯分布,且均值和方差与路线无关。基于这一发现,提出了只需两个参数估计的总体预测区间,并证明其渐近紧致。进一步,利用道路级信息(如交通密度)构建了特定行程的高斯预测分布,得到更紧的预测区间。使用GPS数据进行的案例研究表明,所提方法在95%置信水平下达到理论覆盖率,且相比现有方法具有更紧区间、更低偏差和更高计算效率。该方法已实现为R包,适用于低延迟的大规模交通应用。对于关注统计计算和效率理论的您,本文展示了如何通过简单的矩估计实现高效预测区间,其渐进分析思路值得参考。
  • 关键技术: Gaussian approximation, moment estimation, prediction intervals, efficient inference, network aggregation
  • 为什么对您有用: 本文属于应用统计在交通领域的案例,虽不直接对应您的核心研究方向,但其中使用的矩估计和预测区间方法体现了统计推断的效率思想,与您熟悉的估计理论有技术重叠。由于交通领域并非您的关注焦点,且方法较为常规(未使用U统计量或半参效率界限等高级工具),目前暂不可做——缺少该应用领域的背景知识。若未来考虑扩展到交通或其他网络型应用,可作为入门参考。

8. 10.1214/23-aoas1773 · arXiv — Accounting for seasonality in extreme sea-level estimation

  • 作者: Eleanor D’Arcy, Jonathan A. Tawn, Amélie Joly, Dafni E. Sifnioti
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文提出一种新的极端海平面重现期估计方法,首次同时考虑季节性、年际变化和长期趋势。采用联合概率方法,将海平面分解为偏潮(skew-surge)和峰值潮汐(peak-tide)两个分量;潮汐可预测,而偏潮随机建模。偏潮的主体部分用经验分布拟合,上尾使用非平稳广义帕累托分布(GPD)。通过在GPD中引入每日协变量捕获年内季节性,并允许峰值潮汐分布随月份和年份变化。模型还通过潮汐协变量处理偏潮与峰值潮汐的依赖关系,并使用亚渐近极值指数调整偏潮的时间依赖性。结合空间先验信息减少高重现期估计的不确定性。在英国四个潮汐站的应用表明,该方法改进了现有估计,此前方法通常低估风险。
  • 关键技术: joint probabilities method, skew-surge modeling, nonstationary generalized Pareto distribution, extremal index, spatial prior, daily covariate for seasonality
  • 为什么对您有用: 本文展示了复杂环境数据中极值建模的方法学细节,特别是如何将非平稳GPD与季节性协变量结合,对研究者的半参数/非参数理论兴趣有参考价值(非参数经验分布+半参数GPD尾部)。从武器库角度,研究者'非参数统计'项可支撑理解其经验部分,但极端值理论(如极值索引、协变量建模)并非当前强项,若想深入可列入中期学习目标。本文属于方法导向的应用工作,值得作为扩大统计应用视野的阅读材料。

9. 10.1214/23-aoas1772 · arXiv — A statistical approach to estimating adsorption-isotherm parameters in gradient-elution preparative liquid chromatography

  • 作者: Jiaji Su, Zhigang Yao, Cheng Li, Ye Zhang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 17 · issue 4
  • 相关性 1/10 · novelty: application
  • 摘要: 本文针对制备型液相色谱中吸附等温线参数估计问题,将其建模为一个非线性病态逆问题。现有确定性反演方法因模型高非线性和不确定性量化困难而效率低下。作者基于贝叶斯采样框架,提出一种统计方法来同时估计多个色谱系统中的吸附等温线参数。具体地,利用修改后的马尔可夫链蒙特卡洛(MCMC)算法(包括自适应Metropolis和延迟拒绝)实现后验采样。合成实验和真实色谱数据实验均表明,该方法能有效处理逆问题的不适定性,并提供参数的不确定性区间。虽然该问题并非您主要研究方向,但逆问题的贝叶斯求解思路和MCMC调参策略对您软件开发和数值方法兴趣具有参考价值。
  • 关键技术: Bayesian inversion, Markov chain Monte Carlo (MCMC), inverse problem, adsorption isotherm, gradient-elution chromatography, uncertainty quantification
  • 为什么对您有用: 本文属于统计计算在具体科学逆问题中的应用,与您'统计计算(数值方法)'兴趣有微弱关联。您武器库中的'反问题随机噪声'工具可类比其病态性处理,MCMC算法改进对您软件开发实践有一定启发。但由于该应用场景(色谱)完全脱离您的主要研究领域,且未涉及高阶U统计或因果推断,暂不可做进一步拓展——核心障碍是缺乏色谱动力学模型背景。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论