跳转至

AoAS — Vol 20 Issue 1 · 2026-05-18

  • 共 38 篇 · Annals of Applied Statistics

因果推断 (causal_inference, 1 篇)

1. 10.1214/25-aoas2117 — Multiply robust estimation for causal survival analysis with treatment noncompliance

  • 作者: Chao Cheng, Bo Liu, Lisa Wruck, Fan Li, Fan Li
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在处理不依从和生存结局的因果推断设定下,本文研究在主可忽略性与单调性假设下主生存因果效应的识别与估计。提出一种多重稳健估计量,当部分工作模型(如依从类型概率、生存结局模型)误设时,只要满足特定组合,估计量仍保持相合性。该方法结合了逆概率加权(IPW)与嵌套 g-formula 构建半参数估计量,并针对主可忽略性假设的违反提出了正式的敏感性分析框架。实证分析 ADAPTABLE 试验揭示了不同依从类型间的异质性效应,解释了意向治疗(ITT)效应为零的现象。对您有用:本文将多重稳健性拓展至主分层生存分析,其敏感性分析框架和半参数估计构造可直接迁移至您关注的纵向/生存因果推断及敏感性分析研究中。
  • 关键技术: multiply robust estimation, principal stratification, principal ignorability, survival causal effect, sensitivity analysis
  • 为什么对您有用: 直接关联您 primary interest 中的因果推断(不依从/主分层、敏感性分析)与流行病学应用,其多重稳健估计量的构造思路对研究半参数效率与稳健性具有参考价值。

高维统计 / 随机矩阵 (high_dim_rmt, 5 篇)

1. 10.1214/25-aoas2116 — Integrative learning of linear non-Gaussian directed acyclic graphs with application on multisource gene regulatory network analysis

  • 作者: Xuanyu Li, Sanguo Zhang, Mingyang Ren, Qingzhao Zhang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在高维线性非高斯设定下,研究多源数据的定向无环图(DAG)整合学习问题,假设多个 DAG 共享相同拓扑结构但允许边强度与噪声分布异质。提出一种整合学习框架,放宽了传统多源数据的同分布假设,仅要求共享拓扑结构。通过聚合多源非高斯信息进行因果结构发现,并建立 DAG 重构的渐近一致性,理论证明相比单源学习在重构条件与误差率上有显著提升。模拟实验与非小细胞肺癌基因调控网络数据进一步验证了方法优势。对您有用:该文的高维 DAG 整合学习理论对您在因果推断(因果发现)和高维统计(多源高维一致性)方面的研究有直接参考价值,其多源异质数据的处理思路可迁移至多环境下的因果推断问题。
  • 关键技术: high-dimensional DAG learning, linear non-Gaussian acyclic model (LiNGAM), integrative learning, asymptotic consistency, multi-source data fusion
  • 为什么对您有用: 涉及高维统计下的渐近一致性及因果图结构发现,与您的高维统计和因果推断兴趣(特别是因果发现方向)直接相关,多源异质数据的整合思路可迁移至多环境因果推断。

2. 10.1214/25-aoas2127 — Feature augmentations for high-dimensional learning: Applications to stock market prediction using Chinese news data

  • 作者: Xiaonan Zhu, Bingyan Wang, Jianqing Fan
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在高维特征常被因子模型逼近的设定下,针对特征交互或核技巧导致的过参数化与共线性问题,本文提出一种基于因子提取的特征增强方法。核心机制是对设计矩阵及其变换执行 PCA,将提取的因子与特质性残差作为增强特征加入原模型。该 PCA 增强策略显著削弱了输入变量间的相关性,从而提升学习算法的数值稳定性与可解释性。理论分析与大量实验表明,该方法在不改变原算法的前提下有效提升了预测性能。实证部分重点展示了其在中国金融新闻数据的股市收益预测中的应用。对您有用:该文将高维因子模型与 PCA 降维结合以改善数值稳定性,对您研究高维统计中的 RMT/因子模型设定及经济理论(股市预测)数据集分析有直接参考价值。
  • 关键技术: factor model approximation, PCA augmentation, idiosyncratic residuals, high-dimensional feature engineering, numerical stability
  • 为什么对您有用: 将高维因子模型与 PCA 降维结合以改善数值稳定性,对您研究高维统计中的 RMT/因子模型设定及经济理论(股市预测)数据集分析有直接参考价值。

3. 10.1214/25-aoas2113 — Statistical inference for covariate-adjusted and interpretable generalized latent factor model with application to testing fairness

  • 作者: Jing Ouyang, Chengyu Cui, Kean Ming Tan, Gongjun Xu
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 在协变量调整的广义潜因子模型框架下,目标是在高维离散响应与大规模样本设定下,对控制潜因子后的协变量效应进行识别与推断,并提出新的可解释可识别条件。方法采用联合最大似然估计(joint MLE),同时估计协变量效应、潜因子与因子载荷。理论上建立了协变量效应的估计一致性与渐近正态性,并进一步推导了潜因子和因子载荷的推断结果。实证部分通过模拟与 PISA 教育评估数据验证了有限样本表现。对您可能有用:高维潜因子模型中的渐近正态性结果与可识别条件分析,与您的高维统计推断兴趣直接相关;PISA 数据集对经济理论应用也有参考价值。
  • 关键技术: joint maximum likelihood estimation, generalized latent factor model, identifiability conditions, asymptotic normality, high-dimensional discrete responses
  • 为什么对您有用: 高维潜因子模型的渐近正态性与可识别条件推导,直接对应您的高维统计推断兴趣;PISA教育评估数据集对经济理论应用有数据集价值。

4. 10.1214/25-aoas2119 — Identification of genetic factors associated with corpus callosum morphology: Conditional strong independence screening for non-Euclidean responses

  • 作者: Zhe Gao, Jin Zhu, Yue Hu, Wenliang Pan, Xueqin Wang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在超高维预测变量与非欧几里得响应变量(如胼胝体形态)的设定下,本文目标是控制年龄等先验协变量后进行特征筛选。作者提出了条件强独立筛选方法,引入“条件度量依赖”(conditional metric dependence)新概念,在度量空间中量化随机对象间的非线性条件依赖。该方法无需预定义参数模型,将传统的 sure independence screening 扩展至非欧空间与条件独立框架。理论上证明了其筛选一致性,仿真与神经遗传学数据验证了该方法在多种非欧数据上的有效性。对您有用:为高维统计中的非欧数据筛选提供了新的非参数度量工具,其条件独立筛选框架可迁移至因果推断中控制混杂下的高维变量选择。
  • 关键技术: ultrahigh-dimensional screening, conditional metric dependence, sure independence screening, non-Euclidean data, metric space dependence
  • 为什么对您有用: 涉及高维统计中的超高维筛选与非参数理论(度量空间依赖),其条件独立筛选框架对因果推断中控制混杂下的高维特征选择有直接迁移价值。

5. 10.1214/25-aoas2054 — Assessing influential observations in pain prediction using fMRI data

  • 作者: Dongliang Zhang, Masoud Asgharian, Martin A. Lindquist
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: new_theory
  • 摘要: 在高维 fMRI 数据的模型选择框架下,本文针对异常/强影响观测的检测问题,提出了一种通用的诊断度量并推导了其渐近分布。核心方法是为多种高维模型选择器构建诊断统计量,证明其渐近性质,并结合高维聚类过程以同时识别多个强影响点。仿真表明该方法在检测功效、变量选择及预测精度上显著优于现有方法;应用于热痛 fMRI 数据后,剔除影响点有效提升了模型可解释性与预测力。对您有用:该文在高维模型选择下推导诊断度量的渐近分布,其理论框架与您的高维统计及假设检验兴趣契合,且高维聚类检测算法对统计计算有参考价值。
  • 关键技术: high-dimensional model selection, influential observation diagnostics, asymptotic distribution, high-dimensional clustering, fMRI data analysis
  • 为什么对您有用: 结合了高维统计与假设检验(诊断度量的渐近分布推导),其高维影响点检测与聚类算法对您在统计计算和高维推断方面的兴趣有直接参考价值。

非参数 / 半参数 (nonparam_semipara, 7 篇)

1. 10.1214/25-aoas2024 — Data harmonization via regularized nonparametric mixing distribution estimation

  • 作者: Steven Wilkins-Reeves, Yen-Chi Chen, Kwun Chuen Gary Chan
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究数据协调(data harmonization)问题,将其转化为非参数混合分布估计:在非参数潜在特质模型下,目标是通过正则化最大似然估计(MLE)恢复潜在分布并建立不同测量工具间的等价关系。核心方法包括:证明正则化 MLE 的唯一性,建立非参数 EM 算法的弱收敛性保证,并提出一种更快的离散化近似算法。此外,作者发展了混合似然的拟合优度检验方法,填补了混合分布估计中常被忽视的模型诊断空白。实证方面,将方法应用于 National Alzheimer's Coordination Center 数据集,在分数转换与测量误差校正上优于痴呆研究中常用技术。对您而言,非参数 EM 弱收敛理论与正则化 MLE 唯一性分析可直接迁移到非参数理论中的 M-估计收敛性研究,同时流行病学数据集与因果测量误差问题亦有参考价值。
  • 关键技术: nonparametric mixing distribution estimation, regularized maximum likelihood estimator, nonparametric EM algorithm, weak convergence of EM, goodness-of-fit for mixing likelihood, latent trait model
  • 为什么对您有用: 非参数 EM 弱收敛与正则化 MLE 唯一性属于非参数理论的核心问题,可迁移至 semiparametric M-估计收敛性分析;NACC 痴呆队列数据集对流行病学应用因果推断(如测量误差校正)有数据价值。

2. 10.1214/25-aoas2134 — Semiparametric analysis of interval-censored data subject to inaccurate diagnoses with a terminal event

  • 作者: Yuhao Deng, Donglin Zeng, Yuanjia Wang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在区间删失数据下,当疾病诊断存在不准确性(如生物标志物测量误差)且存在终止事件时,本文基于 Cox 比例风险模型提出半参数建模框架,目标为回归系数的估计与推断。模型引入诊断的敏感度与特异度以刻画区间是否真实包含疾病发病的不确定性,并允许死后确诊等准确诊断情形。估计方法采用非参数极大似然估计(NPMLE),通过设计高效的 EM 算法保证计算可行性。理论上证明了回归系数估计量具有渐近正态性,且达到了半参数有效界。该文将复杂删失结构下的半参数有效界推导与 EM 计算算法结合,对您在半参数效率理论及统计计算方面的研究有直接参考价值,其阿尔茨海默病应用也契合流行病学数据分析的兴趣。
  • 关键技术: nonparametric maximum likelihood estimation (NPMLE), semiparametric efficiency bounds, EM algorithm, interval censoring, Cox proportional hazards model
  • 为什么对您有用: 直接涉及半参数有效界的达到与证明,以及针对复杂似然的 EM 算法计算,契合您对效率理论和统计计算的 primary interest;同时阿尔茨海默病数据集对流行病学应用有参考价值。

3. 10.1214/25-aoas2122 — Quantiled conditional variance, skewness, and kurtosis by Cornish–Fisher expansion

  • 作者: Ningning Zhang, Ke Zhu
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在时间序列条件下,针对条件方差、偏度与峰度的估计,传统参数模型易受误设与估计不稳定影响,本文提出基于分位条件矩(QCM)的半参数估计方法。该方法利用Cornish-Fisher展开将条件矩转化为关于条件分位数的线性回归,无需先验估计条件均值。通过对$n$个条件分位数估计值执行OLS,同时求解各阶QCMs;在允许分位数估计有偏的宽松条件下,证明了QCMs具有$n^{-1/2}$收敛率与一致性。实证应用于八大股指,揭示了条件峰度“新闻冲击曲线”的“非零拐点”现象并验证了COVID-19救市效果。对您而言,该文将Cornish-Fisher展开与分位数回归结合实现半参数矩估计的框架,可为半参数理论及经济时间序列应用提供新颖的函数逼近视角。
  • 关键技术: Cornish-Fisher expansion, conditional quantile regression, ordinary least squares, semiparametric moment estimation, n^{-1/2}-consistency
  • 为什么对您有用: 该文通过Cornish-Fisher展开与分位数回归结合实现半参数矩估计,直接契合您对半参数理论的兴趣;同时其实证部分对股指的分析也贴合您在经济理论(应用与数据集)方面的关注。

4. 10.1214/25-aoas2130 — Stratified regression analysis of zero-truncated recurrent event data

  • 作者: Anqi A. Chen, X. Joan Hu, Rhonda J. Rosychuk
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究零截断重复事件数据(zero-truncated recurrent events)的回归分析,设定为仅观测到至少发生一次事件的个体,且协变量信息部分依赖人口普查补充数据。提出一种创新的分层Cox回归模型(stratified Cox regression),以强度函数建模但对事件历史仅需摘要统计量,避免完整历史依赖。估计程序将零截断数据与补充信息整合,基于类偏似然方法构造估计量,并建立其一致性与渐近正态性。模拟表明相较于仅用零截断数据的MLE,所提估计量有限样本表现更优。全文以儿科精神健康急诊访问(PMHC)的流行病学行政数据库贯穿示例。对您而言,该文在半参数Cox模型下处理截断与补充信息融合的渐近理论推导,可迁移至流行病学队列研究中带截断结构的因果推断或生存分析场景。
  • 关键技术: stratified Cox regression, zero-truncated recurrent events, supplementary information integration, partial likelihood estimation, asymptotic normality
  • 为什么对您有用: 半参数Cox模型的渐近理论及截断数据与补充信息融合的估计策略,可迁移至您关注的流行病学应用中带截断/缺失结构的因果推断与生存分析问题。

5. 10.1214/26-aoas2150 — Dynamic classification of latent disease progression with auxiliary surrogate labels

  • 作者: Zexi Cai, Donglin Zeng, Karen S. Marder, Lawrence S. Honig, Yuanjia Wang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在潜在疾病状态不可观测的纵向设定下,目标是利用时变代理标签(surrogate labels)与健康标记动态分类潜在疾病进展,关键假设为代理标签条件依赖于潜在状态但可能被误设定。提出将传统隐马尔可夫模型(HMM,生成式)与时变判别分类模型整合的混合框架,避免对纵向标记边际分布的建模需求(传统前向-后向算法的必要条件),从而缓解生成式模型的误设定问题。开发了基于主观标签的自适应前向-后向算法进行参数估计,并利用修改的后验与Viterbi算法仅基于客观标记预测未来状态或新患者。建立了估计量的渐近性质,模拟显示有限样本下分类精度显著提升。对NACC神经病理学数据的分析表明区分LBD与AD的准确率大幅改善。对您而言,代理标签的处理思路与proximal CI中negative control设定有概念关联,且自适应前向-后向算法对纵向因果推断中潜在状态估计有方法迁移价值,NACC数据集对流行病学应用也有直接参考意义。
  • 关键技术: hidden Markov model, generative-discriminative hybrid, adaptive forward-backward algorithm, Viterbi algorithm, surrogate label correction, semiparametric avoidance of marginal modeling
  • 为什么对您有用: 代理标签的建模思路与proximal CI中negative control的identification逻辑相通,自适应前向-后向算法可迁移至纵向因果推断中含潜在变量的估计问题;NACC数据集对流行病学因果应用有直接价值。

6. 10.1214/25-aoas2128 — A data envelopment analysis approach for assessing fairness in resource allocation: Application to kidney exchange programs

  • 作者: Ali Kaazempur-Mofrad, Xiaowu Dai
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在肾脏交换项目的资源分配公平性评估问题中,本文提出基于数据包络分析(DEA)的多维度(优先级、可及性、结果)统一建模框架,关键假设是条件DEA与协变量调整的可识别性。核心方法结合条件DEA与协变量调整来量化不同族裔群体间的分配效率差异;在不确定性量化上,引入新颖的参考前沿映射(RFM)框架,并使用保形预测构建组条件预测区间,提供有限样本覆盖保证。基于UNOS数据的实证揭示了不同族裔在肾脏分配效率分布上的显著差异。对您可能有用:其条件DEA的协变量调整与保形预测的有限样本推断方法,对您在非参数理论及流行病学数据集(UNOS)上的应用有参考价值。
  • 关键技术: Data Envelopment Analysis (DEA), conditional DEA with covariate adjustment, conformal prediction, reference frontier mapping (RFM), finite-sample coverage guarantee
  • 为什么对您有用: 涉及非参数前沿估计(DEA)与保形预测的有限样本推断,且使用了UNOS流行病学/医疗分配数据集,对您在非参数理论及流行病学应用方向有数据集和方法借鉴价值。

7. 10.1214/26-aoas2141 — Regionalization of China’s PM2.5: A robust functional spatial clustering with angular depth

  • 作者: Tingyin Wang, Xueqin Wang, Xiaobo Guo, Heping Zhang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 本文针对中国PM2.5数据的空间异质性与异常值问题,提出基于角深度(angular depth)的稳健函数空间聚类框架,目标是在无限维空间中实现具有空间依赖性的函数数据分区。核心方法利用角深度作为函数数据的稳健中心性度量,在无限维空间中具备良好的理论性质,能够有效抵抗异常值干扰并结合空间信息进行聚类。该方法无需严格的参数分布假设,通过深度值刻画函数空间中的空间相似性与异质性,从而生成稳定且可解释的区域划分。实证将全国PM2.5数据划分为10个边界清晰、内部一致的污染区域,为环境政策提供科学依据。对您而言,该文在无限维空间中建立角深度理论性质的部分与非参数理论相关,同时PM2.5数据集对流行病学或环境健康的应用因果推断具有数据集价值。
  • 关键技术: angular depth, functional spatial clustering, robust centrality, infinite-dimensional theory, spatial similarity
  • 为什么对您有用: 文中关于无限维空间角深度的理论性质推导与非参数理论有一定交集;全国PM2.5区域化数据集对您在流行病学背景下的应用因果推断(如空间混淆控制或区域异质性处理效应)具有潜在数据价值。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1214/25-aoas2129 — Asymptotically efficient data-adaptive penalized shrinkage estimation with application to causal inference

  • 作者: Herbert P. Susmann, Yiting Li, Mara A. McAdams-DeMarco, Wenbo Wu, Iván Díaz
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 本文研究在因果推断中估计大量组别特异性处理效应时,如何通过惩罚收缩改善非参数估计量的有限样本MSE,同时保持渐近最优性。作者定义了一个新的惩罚参数作为保真度与惩罚项平衡的优化解,并推导了该惩罚参数的非参数效率界。基于此效率界,提出了数据自适应的L1和L2调谐参数选择方法,旨在最小化有限样本MSE。该惩罚调整可作为后处理步骤,直接应用于任何渐近正态且有效的估计量(如one-step或TMLE),无需重新拟合干扰参数。理论证明该调整在保持渐近效率的同时降低了有限样本MSE,模拟与透析中心质量评估的实证也验证了这一点。该工作将效率理论与收缩估计结合,为您在效率理论和因果推断的交叉研究提供了直接的理论扩展与计算后处理技巧。
  • 关键技术: semiparametric efficiency bound, L1/L2 penalized shrinkage, data-adaptive tuning, one-step estimator post-processing, group-specific treatment effects
  • 为什么对您有用: 直接连接您在效率理论和因果推断上的核心兴趣:推导了惩罚参数的semiparametric efficiency bound,并提供了一种可应用于任何efficient estimator的收缩后处理算法,在保持渐近效率的同时改善有限样本MSE,理论推导与计算技巧均有借鉴价值。

数理统计 / 假设检验 (hypothesis_testing, 3 篇)

1. 10.1214/25-aoas2123 — Ranking and selection in large-scale inference of heteroscedastic units

  • 作者: Bowen Gang, Luella Fu, Gareth M. James, Wenguang Sun
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在大规模异方差单元的排序与选择问题中,目标是识别既统计显著又实际重要的 top candidates,传统多重比较方法(如 BH)倾向于过度选择高方差子总体。本文提出新的多重比较框架,引入修正的 power 概念以优先选择重要效应,并设计新的 ranking metric 评估单元相对重要性。发展了 oracle 与 data-driven 两种算法,证明其在错误率控制下的最优性。数值模拟与真实数据表明,该框架实现了更均衡的选择以及更客观相关的排序方案。对您有用:该工作涉及大规模多重检验中异方差调整与 power 优化,与您 hypothesis testing 和高维统计的兴趣有方法学交叉,其 data-driven 算法设计思路可迁移至高维因果推断中多重 treatment 评估场景。
  • 关键技术: multiple comparison procedure, heteroscedasticity adjustment, modified power notion, ranking metric, oracle vs data-driven algorithm, error rate control
  • 为什么对您有用: 与您 primary interest 中的 hypothesis testing 和高维统计直接相关;异方差下多重检验的 power 优化与排序思路可迁移至高维因果推断中多重 treatment 评估或流行病学大规模筛查场景。

2. 10.1214/26-aoas2145 — Model-free inference for characterizing protein mutations through a coevolutionary lens

  • 作者: Fan F. Yang, Zhao Ren, Wen Zhou, Kejue Jia, Robert Jernigan
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在多序列比对(MSA)的蛋白质共进化分析中,现有方法多为模型驱动或算法驱动,缺乏对接触预测不确定性的统计推断。本文将接触预测转化为偏相关性检验问题:对one-hot编码的高维分类变量构建偏相关图,图中连边对应蛋白质接触位点。核心提出基于谱(spectrum-based)的检验统计量来检验两个位点是否偏相关,并进一步识别对相关性有贡献的氨基酸组合。理论方面证明了Type I error的控制及检验的power性质;数值实验与多蛋白质家族真实数据验证了方法有效性。对您有用之处在于:谱方法检验统计量的构造思路与高维RMT的spectrum工具紧密相关,且将图模型偏相关检验框架化可为高维假设检验提供可迁移的新视角。
  • 关键技术: spectrum-based test statistic, partial correlation graph, one-hot encoding of categorical variables, hypothesis testing for partial correlation, Type I error control, multiple sequence alignment
  • 为什么对您有用: 谱检验统计量的构造直接关联您的高维RMT与假设检验方向,偏相关图模型的高维检验框架可迁移至其他高维分类数据的推断问题。

3. 10.1214/26-aoas2147 — MANDERA: Malicious node detection in federated learning via ranking

  • 作者: Wanchuang Zhu, Benjamin Zi Hao Zhao, Simon Luo, Ke Deng
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在联邦学习设定下,研究高维梯度空间中拜占庭恶意节点的检测问题,目标是在无攻击节点数量先验的条件下识别所有恶意梯度。针对高维梯度各维度分布异质且良性/恶意梯度混合导致传统两样本检验失效的挑战,提出 MANDERA 方法。核心机制是将原始梯度更新空间转化为排序矩阵(ranking matrix),消除不同维度间的尺度差异,使高维良性梯度与恶意梯度在排序空间中可分。理论上证明了该方法在无历史信息条件下可高效检测所有恶意节点。实验在 IID 和 Non-IID 数据集的四种攻击场景下验证了其优于 SOTA 防御方法的效果。对您可能有用:该文将高维异质分布检验转化为非参数排序空间的分离问题,其高维排序变换的思想对您在高维统计假设检验交叉领域的研究(如高维两样本检验的稳健构造)具有方法论迁移价值。
  • 关键技术: ranking transformation, high-dimensional two-sample test, Byzantine robust aggregation, nonparametric detection, federated optimization
  • 为什么对您有用: 涉及高维假设检验与排序变换,与您在高维统计假设检验的 primary interests 有方法论重叠,其处理高维异质分布的排序技巧可为高维两样本检验提供新思路。

统计计算 / 算法 (stat_computing, 5 篇)

1. 10.1214/25-aoas2124 — Scalable magnetic resonance fingerprinting: Incremental inference of high-dimensional elliptical mixtures from large data volumes

  • 作者: Geoffroy Oudoumanessah, Thomas Coudert, Carole Lartizien, Michel Dojat, Thomas Christen, Florence Forbes
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在磁共振指纹(MRF)重建设定下,针对模拟字典规模随参数量指数增长导致的计算瓶颈,本文提出基于高维椭圆分布混合模型的概率字典学习框架。核心机制是将混合分量建模为低维子空间中的灵活椭圆形状,通过局部聚类实现信号降维以限制信息损失。为估计该混合模型,作者提出一种新的增量推断算法,可处理海量信号并突破标准实现的硬件内存限制。模拟与真实数据表明,该方法在维持组织特征化精度的同时显著降低了计算负担。对您而言,其增量推断算法与高维椭圆混合模型的局部降维策略,可为统计计算(大规模数据增量算法)与高维统计(高维混合模型子空间结构)提供方法借鉴。
  • 关键技术: incremental inference algorithm, high-dimensional elliptical mixtures, dictionary learning, local dimension reduction, subspace clustering
  • 为什么对您有用: 涉及高维混合模型与大规模数据的增量推断算法,直接对应您在统计计算(增量算法)与高维统计(子空间降维)方面的兴趣,其处理指数级字典膨胀的思路可迁移至其他高维参数空间问题。

2. 10.1214/25-aoas2108 — Bayesian image-on-image regression via deep kernel learning based Gaussian processes

  • 作者: Guoxuan Ma, Bangyao Zhao, Hasan Abu-Amara, Jian Kang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在 image-on-image regression (IIR) 设定下,本文目标是结合不同分辨率与空间域的影像预测变量(如 fALFF 与连接矩阵)对任务态 fMRI 进行预测。提出 BIRD-GP 方法,将深度核学习与高斯过程结合构建非参数贝叶斯回归模型。针对高维后验推断难题,采用 Stein 变分梯度下降(SVGD)实现高效计算。模拟与 HCP 数据分析表明,融合多模态预测变量可提升预测精度,并识别出角回等关键预测脑区。对您而言,本文的 SVGD 计算方法与 DKL-GP 非参数建模思路在统计计算与半/非参数理论方向有一定参考价值,但缺乏效率界或收敛率的深入理论结果。
  • 关键技术: deep kernel learning, Gaussian processes, Stein variational gradient descent, image-on-image regression, Bayesian nonparametrics
  • 为什么对您有用: 涉及统计计算(SVGD后验推断)与非参数建模(DKL-GP),对您在统计计算与半/非参数理论方向的算法实现有参考价值,但理论深度有限。

3. 10.1214/26-aoas2151 — Do large language models (really) need statistical foundations?

  • 作者: Weijie Su
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: survey
  • 摘要: 本文探讨大语言模型(LLM)的发展与应用是否真正需要统计学基础的支撑,设定为对 LLM 黑箱机制与数据依赖性的宏观反思。作者从两个角度给出肯定论证:一是 LLM 本质上是统计模型,其生成过程的随机性与对数据的深度依赖使得统计洞察不可或缺;二是 LLM 的黑箱性质导致纯机制分析不可行,必须依赖统计方法的灵活性与有效性。文章梳理了当前统计学在 LLM 研究中亟需介入的几个方向,包括对齐、水印、不确定性量化、评估以及数据混合优化。结论指出 LLM 的统计研究将呈现“马赛克”式的多样化专题,而非单一统一理论,并呼吁统计学界及时参与。对您而言,尽管本文缺乏硬核理论推导,但其对 LLM 不确定性量化与数据混合优化的梳理可为统计计算与效率理论在 AI 时代的应用提供前沿选题参考。
  • 关键技术: uncertainty quantification, data mixture optimization, LLM alignment, statistical watermarking, black-box evaluation
  • 为什么对您有用: 本文作为立场综述,虽无直接理论创新,但其指出的 LLM 不确定性量化与数据混合优化问题,与您在统计计算及效率理论方面的兴趣高度相关,可为这些传统理论在大模型场景下的迁移应用提供选题灵感。

4. 10.1214/26-aoas2146 — A partially collapsed Gibbs sampling algorithm for regression with misreported response

  • 作者: Jiaying Wang, Weining Shen, Yuan Wang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在响应变量存在误报的回归设定下,本文目标是识别真实响应的风险因素及误报发生的关联因素,基于华盛顿州青少年大麻使用调查(HYS)数据。方法上构建了一个双层潜变量线性回归的完全贝叶斯框架:顶层建模真实响应,第二层建模误报发生;并设计了信息先验以融入领域知识且降低先验误设风险。推断方面,提出了结合 Metropolis-Hastings 步骤的 partially collapsed Gibbs sampling 算法来抽样回归系数。模拟表明该方法在偏差和方差上优于替代方案,HYS 数据分析识别了多个关键风险因素。对您有用:其 partially collapsed Gibbs sampler 的计算技巧可迁移至其他潜变量或测量误差因果模型的 MCMC 推断,同时 HYS 数据集对流行病学应用因果推断有参考价值。
  • 关键技术: partially collapsed Gibbs sampler, Metropolis-Hastings step, two-level latent linear regression, informative prior, misreporting model
  • 为什么对您有用: 提出的 partially collapsed Gibbs sampling 算法属于统计计算兴趣范畴,可迁移至其他潜变量/测量误差因果模型的 MCMC 计算;同时 HYS 数据集及流行病学应用契合您的 secondary interest in epidemiology。

5. 10.1214/25-aoas2133 — A general framework for investigating neurodevelopment of brain functional networks using multisite and longitudinal neuroimaging

  • 作者: Joshua Lukemire, Yaotian Wang, Ying Guo
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在纵向、多中心神经影像设定下,目标是估计脑功能网络随时间的动态变化及协变量效应,需处理站点效应与个体异质性。提出贝叶斯框架 REMBRAiNDT,将站点效应与个体效应纳入网络分解(基于盲源分离/ICA),同时实现协变量效应估计与跨脑区信息借力。计算上采用 split-merge MCMC 算法处理高维矩阵/张量分解的后验抽样。将该方法应用于多中心纵向 ABCD 研究数据,发现高阶认知网络随年龄增长呈现功能整合增强的模式。对您而言,该文的多中心纵向建模思路与贝叶斯张量计算方法可提供统计计算层面的借鉴,但方法学核心偏向神经影像而非因果推断或效率理论。
  • 关键技术: Bayesian network decomposition, blind source separation, split-merge MCMC, longitudinal multi-site modeling, matrix/tensor factorization
  • 为什么对您有用: 涉及纵向数据的多中心建模与贝叶斯张量/矩阵计算(对应统计计算兴趣),但缺乏因果推断或半参数效率理论的核心贡献,方法可迁移性有限。

天体统计 (astrostats, 2 篇)

1. 10.1214/25-aoas2125 — Neural posterior estimation with autoregressive tiling for detecting objects in astronomical images

  • 作者: Jeffrey Regier
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 针对天文图像中微弱且重叠天体的检测与表征问题,提出了一种摊分变分推断程序,目标是在高分辨率天文图像的后验分布下进行推断。核心创新是提出一族空间自回归变分分布,利用 K-color 棋盘格模式对潜空间进行划分与排序,使其条件独立性与真实后验相匹配。该变分分布由卷积神经网络参数化,通过神经后验估计(NPE)最小化前向 KL 散度的期望来拟合。在斯隆数字巡天(SDSS)数据集上,该方法达到了 SOTA 性能,并显著提升了后验校准度。对您在天体统计方向的 SDSS 数据集实践有直接参考价值,其自回归变分族的设计思路也可迁移至其他高维潜变量模型的统计计算中。
  • 关键技术: neural posterior estimation, amortized variational inference, spatially autoregressive variational distribution, forward KL divergence, K-color checkerboard pattern
  • 为什么对您有用: 直接契合您在天体统计(astrostats)的次级兴趣,提供了 SDSS 数据集上的前沿实践案例;其基于棋盘格的自回归变分推断算法设计对高维潜变量模型的统计计算亦有启发。

2. 10.1214/25-aoas2109 — Moving towards automated interstellar boundary explorer data selection with LOTUS

  • 作者: Madeline A. Stricklin, Lauren J. Beesley, Brian P. Weaver, Kelly R. Moran, Dave Osthus, Paul H. Janzen et al.
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: application
  • 摘要: 本文针对星际边界探测器(IBEX)卫星数据中能量中性原子(ENA)与背景粒子的区分问题,目标是自动化替代耗时且主观的人工数据清洗过程。提出名为 LOTUS 的三阶段自动化清洗流程:第一阶段利用随机森林获取单次观测为真实 ENA 的概率;第二阶段在时间窗口内聚合这些概率;第三阶段对预测结果进行细化。方法核心是基于随机森林的分类与概率聚合,无复杂半参数或因果理论推导。实证通过与领域专家人工标签的多指标对比,证明 LOTUS 能有效标准化并加速数据筛选。对您而言,该文主要价值在于提供了 IBEX 卫星高能粒子天体物理数据集及天统应用场景,方法学创新有限。
  • 关键技术: random forest classification, probability aggregation, time-window smoothing, automated data culling
  • 为什么对您有用: 契合您在 astrostatistics 的 secondary interest,提供了 IBEX 卫星真实数据集及天体物理数据清洗的应用视角;但方法学上仅为标准 RF 应用,无理论创新。

经济理论 / 应用 (econ_theory, 2 篇)

1. 10.1214/25-aoas2126 — Random forests and mixed effects random forests for small area estimation of general parameters: A poverty mapping case study in Mozambique

  • 作者: Patrick Krennmair, Nora Würz, Timo Schmid, Nikos Tzavidis
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在小区域估计(SAE)设定下,针对标准随机森林(RF)无法捕捉区域间异质性的问题,本文提出混合效应随机森林(MERF)以估计一般参数(如FGT贫困指标)。方法核心在RF中引入区域随机效应,并提出内嵌的自助法偏差校正估计RF残差方差。点估计使用涂抹估计器构建区域特定分布函数,均方误差(MSE)估计则依赖非参数分块自助法。莫桑比克家庭消费数据的实证表明,相比线性混合模型EBP与合成RF,MERF通过随机效应与数据变换提升了估计稳健性,且残差方差偏差校正不可或缺。对您而言,该文提供了经济应用(贫困地图)的数据集范例,其非参数混合效应与偏差校正机制对处理复杂调查数据的半参数推断有参考价值。
  • 关键技术: mixed effects random forests, smearing estimator, bootstrap bias correction, nonparametric block bootstrap, small area estimation
  • 为什么对您有用: 匹配您对经济理论(应用、数据集)的次级兴趣,提供了世界银行贫困地图的实证数据与方法对比;其非参数混合效应与偏差校正的思路对处理复杂调查数据的半参数推断有参考价值。

2. 10.1214/25-aoas2105 — Analysing dynamic cross-price dependencies with a Markov-switching spatial autoregressive model

  • 作者: Matteo Iacopini, Tamás Krisztin, Philipp Piribauer
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文提出了一种马尔可夫转换空间自回归(MS-SAR)模型,用于分析15个欧盟国家CPI三位数子类别之间的动态跨价格依赖性,假设空间权重矩阵与网络强度受隐马尔可夫链驱动而随时间演变。核心机制是引入区制转换以捕捉传统空间模型忽略的时变经济互联性,估计依赖于基于EM算法的极大似然框架来处理潜变量与空间交互效应。实证揭示了不同类别价格冲击传播的跨国差异,表明宏观冲击(如能源价格冲击)向通胀动态的传导具有显著异质性和时变性。对您可能有用:该文提供了经济理论(通胀动态)的模型与数据集,其时变空间权重的设定对您在经济应用或纵向因果推断中的网络结构建模有参考价值。
  • 关键技术: Markov-switching model, spatial autoregressive model, time-varying spatial weights, EM algorithm, inflation dynamics
  • 为什么对您有用: 契合您在 economic theory (application, data sets, model) 方面的兴趣,提供了欧盟CPI跨价格依赖的数据集与时变空间网络模型,对经济应用或纵向因果推断中的网络结构建模有参考价值。

流行病学 (epidemiology, 9 篇)

1. 10.1214/25-aoas2100 — Temporal models for estimation and short-term forecasting of neonatal mortality rates in sub-Saharan Africa

  • 作者: Katherine R. Paulson, Geir-Arne Fuglstad, Zehang Richard Li, Jonathan Wakefield
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 在缺乏完善生命登记的撒哈拉以南非洲国家,基于DHS和MICS家庭调查数据,目标是估计和预测1970-2030年的国家层面新生儿死亡率(NMR)。文章系统比较了五种潜时间模型:一阶/二阶随机游走(RW)、自回归(AR)、惩罚样条、自然样条和logit-linear模型。通过对41国调查数据的样本外验证及模拟研究,评估各模型的偏差与预测区间覆盖性质。结果显示二阶随机游走和惩罚样条具有最小偏差,且惩罚样条的短期预测区间更窄、样本外表现更优。实证分析表明41国中仅6国有望达成2030年可持续发展目标。对您而言,该文提供了流行病学大规模调查数据集(DHS/MICS)的时空建模范例,但方法学创新有限。
  • 关键技术: penalized spline, second-order random walk, latent temporal model, out-of-sample validation, DHS/MICS survey data
  • 为什么对您有用: 匹配您的secondary interest中的流行病学数据集与应用,提供了DHS/MICS数据的潜变量建模范例,但缺乏因果推断或高阶理论内容。

2. 10.1214/26-aoas2142 — Environmental risk assessment via nonhomogeneous hidden semi-Markov models with penalized vector autoregression

  • 作者: Marco Mingione, Pierfrancesco Alaimo Di Loro, Francesco Lagona, Antonello Maruotti
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 在非齐次隐半马尔可夫向量自回归(HSMM-VAR)框架下,本文研究多变量空气污染数据的潜在状态识别与风险归因,假设隐状态持续时间非指数分布且受时间协变量影响。模型利用隐半马尔可夫过程捕捉未观测环境条件,以 VAR 结构刻画时间自相关与跨污染物依赖,并允许时变条件影响污染物均值与状态驻留时间。参数估计采用定制的 EM 算法进行极大似然推断,并在状态特定的 VAR 中引入 ℓ₁ 惩罚以自动选择滞后阶数。风险评估环节创新性地使用 Shapley 值分解来量化各污染物的边际风险贡献。实证分析基于 Bergen 市的氮氧化物与颗粒物数据,验证了模型识别高污染事件的能力。对您而言,该文提供了环境流行病学多变量时间序列数据集与 Shapley 归因方法的参考,但缺乏您核心关注的半参数效率或高维推断理论。
  • 关键技术: Hidden Semi-Markov Model, Vector Autoregression, EM algorithm with L1 penalty, Shapley value decomposition
  • 为什么对您有用: 涉及环境流行病学数据集与多变量时间序列建模,Shapley值归因对因果敏感性分析有一定启发,但方法学理论深度较弱,主要价值在于应用数据集参考。

3. 10.1214/25-aoas2111 — Latent class analysis with discrete failure time model

  • 作者: Qinmengge Li, Kevin He, Lam C. Tsoi, Jian Kang
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 在离散生存分析框架下,为刻画隐藏的人群异质性,本文提出潜在类别离散生存(LaCDS)模型,基于有限混合模型与离散失效时间假设进行潜类别与生存参数的联合估计。核心机制为在离散失效时间模型中嵌入有限混合结构,并采用 EM 算法进行优化;模拟表明其在识别基线风险与系数异质性上优于现有方法,且对离散/连续底层机制稳健。实证部分将该方法应用于 OPTN 肾移植患者队列,验证了其亚组划分准确性。对您而言,该文提供了一个流行病学队列数据的潜类别生存分析应用案例,但方法学(标准 EM 与有限混合)理论创新有限。
  • 关键技术: finite mixture model, discrete failure time model, EM algorithm, latent class analysis, survival subgroup identification
  • 为什么对您有用: 匹配您的流行病学应用兴趣,提供了肾移植队列数据的潜类别生存分析案例与数据集,但方法学上主要基于标准 EM 算法与有限混合模型,理论深度较浅。

4. 10.1214/25-aoas2131 — A blockwise mixed membership model for multivariate longitudinal data: Discovering clinical heterogeneity and identifying Parkinson’s disease subtypes

  • 作者: Kai Kang, Yuqi Gu
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 针对帕金森病(PD)临床异质性导致的诊断与预后挑战,本文在多变量纵向数据设定下提出分块混合隶属度模型(BM3),旨在识别患者间、症状间与时间间的异质性。BM3 的核心机制是将纵向测量划分为不同块,使同块内测量共享潜在隶属度而跨块可变,从而将异质性测量分解为临床同质块。估计采用 EM 算法,理论部分给出了严格的模型可识别性证明以保证潜结构发现的可靠性。对 PPMI 数据(n=1531)的分析识别出三种疾病阶段、四个症状群和两个时期,并据此划分出具有临床意义的 PD 亚型。对您而言,该文提供了流行病学纵向队列(PPMI)的数据分析范例,其模型可识别性证明对潜变量模型的数学统计研究有参考价值,但方法学核心在潜变量建模而非因果或半参数理论。
  • 关键技术: blockwise mixed membership model, model identifiability, multivariate longitudinal data, latent structure discovery, EM algorithm
  • 为什么对您有用: 提供了流行病学(帕金森病)多变量纵向数据集(PPMI)的应用范例,其模型可识别性理论对潜变量数学统计有一定参考,但缺乏因果推断或半参数效率的核心贡献。

5. 10.1214/25-aoas2086 — A Bayesian joint model of multiple longitudinal and categorical outcomes with application to multiple myeloma using permutation-based variable importance

  • 作者: Danilo Alvares, Jessica K. Barrett, François Mercier, Jochen Schulze, Sean Yiu, Felipe Castro et al.
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 在多发性骨髓瘤临床设定下,本文提出针对多重纵向与多分类结局(如医生治疗选择)的贝叶斯联合模型,目标是识别预后因子。纵向生物标志物采用双指数非线性混合效应子模型捕捉非线性轨迹,多分类结局通过共享随机效应与纵向子模型关联。此外,文章提出基于置换的变量重要性策略对预后因子排序。方法依赖贝叶斯框架与MCMC计算,未涉及半参数效率界或因果识别理论。实证表明该模型在患者层面解释与变量排序上优于传统模型。对您而言,若关注流行病学纵向数据与多分类治疗选择的联合建模,该文提供了数据集与贝叶斯计算参考,但方法学理论创新有限。
  • 关键技术: Bayesian joint model, shared random effects, nonlinear mixed-effects model, bi-exponential submodel, permutation-based variable importance
  • 为什么对您有用: 涉及流行病学数据集与纵向建模,但缺乏因果推断与效率理论;仅可作为流行病学多分类治疗选择建模与贝叶斯计算的应用参考。

6. 10.1214/25-aoas2121 — Latent space modeling for human disease network with temporal variations: Analysis of medicare data

  • 作者: Guojun Zhu, Ruiyue Wang, Rong Li, Sanguo Zhang, Shuangge Ma, Guanzhong Qiao et al.
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: new_method
  • 摘要: 在人类疾病网络(HDN)的动态分析设定下,本文目标是刻画大量疾病间随时间变化的互联结构,采用潜在空间模型并引入惩罚项以识别网络结构的常数时段与平滑变化时段。核心方法为带时间惩罚的潜在空间模型,通过惩罚机制(类似 fused lasso)实现结构突变点检测与局部平滑估计。文章严格建立了该估计量的统计收敛性质与计算算法的收敛保证。实证部分基于 Medicare 数据库 1.33 亿次住院记录,揭示了疾病聚类与时间变异模式。对您而言,该文提供了流行病学超大规模 Medicare 数据集的应用范例,且其时间惩罚下的计算与统计性质推导对统计计算与高维惩罚估计有参考价值。
  • 关键技术: latent space model, temporal penalization, fused lasso type penalty, network analysis, computational convergence
  • 为什么对您有用: 契合您在流行病学(数据集、应用工作)上的次要兴趣,提供了 Medicare 超大规模医疗索赔数据集的获取与分析思路,同时其时间惩罚估计的计算与统计性质对统计计算方向有参考价值。

7. 10.1214/26-aoas2136 — Bridging the gap: Enhancing the generalizability of epigenetic clocks through transfer learning

  • 作者: Lan Luo, Lulu Shang, Jaclyn M. Goodrich, Karen E. Peterson, Peter X. K. Song
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: application
  • 摘要: 本文针对表观遗传时钟(如Horvath's clock)在不同人群和不同DNA甲基化检测平台(如EPIC 850K阵列)间泛化性差、存在系统性偏差的问题,提出基于迁移学习的校准框架。方法上,利用kriging和DNN进行特征适配,从多源数据集中借用共享知识以校准已有时钟的预测偏差。在ELEMENT研究(523个儿童青少年血液样本)上的实证表明,校准后的时钟显著提升了预测精度,且其表观遗传年龄加速与性成熟阶段的相关性更强。该研究为流行病学队列数据的跨平台校准提供了计算方案,对您在流行病学应用中的数据集处理和统计计算(DNN/kriging迁移学习)有参考价值,但方法学理论深度有限。
  • 关键技术: transfer learning, kriging-based feature adaptation, DNN-based feature adaptation, epigenetic clock calibration, cross-platform normalization
  • 为什么对您有用: 提供了流行病学队列(ELEMENT研究)的表观遗传数据集及跨平台校准应用,对您在流行病学方向的因果推断或应用研究有数据集参考价值;其DNN/kriging迁移学习框架属于统计计算范畴,但缺乏您关注的理论深度。

8. 10.1214/26-aoas2139 — Multilevel functional distributional models with applications to continuous glucose monitoring in diabetes clinical trials

  • 作者: Marcos Matabuena, Ciprian M. Crainiceanu
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文研究糖尿病临床试验中连续血糖监测(CGM)纵向分布数据的建模与推断问题,核心 estimand 是不同时间区间内 CGM 序列的累积分布函数(cdf)及其随协变量的变化。方法上,将个体内每四周的 CGM 数据转化为 cdf 作为基本观测单元,构建 multilevel functional model:对 cdf 施加单调性约束、通过概率网格上的函数回归捕捉同一个体内 cdf 的相关性、连续性及异质性误差结构(如中位数方差低于 0.99 分位数),并在纵向抽样下控制 family-wise error rate。实证分析基于 JDRF 大型临床试验 26 周数据,识别影响 T1D 患者血糖控制的因素及治疗响应者特征。对您而言,该文提供了流行病学纵向数据集及将分布函数作为分析单元的建模思路,可迁移至纵向因果推断中处理分布al treatment effect 的场景。
  • 关键技术: multilevel functional data model, monotone cdf regression, longitudinal distributional modeling, family-wise error control, differential error structure modeling
  • 为什么对您有用: 连接您 secondary interest 中的流行病学数据集与纵向因果推断:提供了大型糖尿病 CGM 纵向数据集,且将 cdf 作为观测单元的建模框架可迁移至纵向设定下分布al treatment effect 的 identification 与估计。

9. 10.1214/25-aoas2135 — Small area estimation of education levels in low- and middle-income countries

  • 作者: Yunhan Wu, Ameer Dharamshi, Jon Wakefield
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: application
  • 摘要: 在低收入和中等收入国家的教育水平估计中,现有指标(如平均受教育年限)缺乏队列特异性或时间粒度,且年轻队列因右删失导致严重向下偏差。本文提出基于出生队列的最终受教育年限(UYS)指标,将教育获得重新构建为 time-to-event 过程。在国家层面使用调查加权 logistic 回归估计离散时间生存模型参数;在更细空间分辨率下,将离散时间生存模型嵌入贝叶斯时空框架以提高小区域估计的稳定性与精度。将方法应用于 2022 年坦桑尼亚 DHS 数据,纠正了删失偏差并揭示了显著的次国家差异。方法论上主要组合了离散生存模型与贝叶斯小区域估计,理论新颖性有限;对您而言,其价值在于提供了 DHS 调查数据的建模范例,可用于流行病学或经济理论中关于教育作为处理/结局变量的因果推断应用。
  • 关键技术: discrete-time survival model, Bayesian spatiotemporal model, small area estimation, survey-weighted logistic regression, right-censoring correction
  • 为什么对您有用: 提供了 DHS 数据集的应用范例与右删失校正方法,对您在流行病学或经济理论中以教育为变量的应用因果工作有数据集和建模参考价值。

其他 (other, 3 篇)

1. 10.1214/25-aoas2110 — Functional mixture regression control chart

  • 作者: Christian Capezza, Fabio Centofanti, Davide Forcina, Antonio Lepore, Biagio Palumbo
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在多模态工业过程监控设定下,单一函数线性模型(FLM)无法捕捉不同工况下函数型质量特征与协变量的异质关系。本文提出函数混合回归控制图(FMRCC),利用FLM的混合模型刻画多种受控状态。基于似然比检验(LRT)构建监控策略,以检测偏离估计的受控异质总体的任何异常。蒙特卡洛模拟和汽车电阻点焊(RSW)案例验证了FMRCC相较于现有监控方案的优越性。对您而言,该文虽属工业统计应用,但其基于混合模型的LRT构造思路可为复杂异质数据下的假设检验提供参考,不过与您核心关注的高维/半参数效率理论关联较弱。
  • 关键技术: functional linear model, mixture regression, likelihood ratio test, profile monitoring
  • 为什么对您有用: 该文主要面向工业过程监控,与您核心的因果推断/高维推断/效率理论距离较远;仅其基于混合模型的LRT构造思路对数学统计中的假设检验方向有极微弱的参考价值。
  • 作者: C. Vladimir Rodríguez-Caballero, Esther Ruiz
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: application
  • 摘要: 在伊比利亚半岛68个地点1930-2020年月度温度(中心与对数极差)数据下,本文提出多层动态因子模型(ML-DFM)以捕捉全局与区域特定随机趋势。方法首先利用不可观测分量模型将温度分解为趋势、季节与瞬变成分,证明中心与对数极差独立演化并剔除季节性;中心温度趋势由带时变斜率的整合随机游走近似,对数极差则由随机水平捕捉。模型估计采用扩展的EM算法以适应非平稳因子结构。实证表明中心温度趋势共性显著,但区域成分在对数极差上仍不可忽视。对您而言,该文扩展的非平稳因子EM算法在统计计算层面有参考价值,但整体偏向气候时间序列应用,方法学新颖度有限。
  • 关键技术: Multilevel Dynamic Factor Model, Unobserved Component Models, EM algorithm for nonstationary factors, State-space time series, Integrated random walk
  • 为什么对您有用: 本文扩展的针对非平稳因子的EM算法属于统计计算范畴,对您在状态空间模型或因子模型的数值算法实现上有一定参考价值;但整体为气候时间序列应用,与您核心的因果推断或高维理论兴趣关联较弱。

3. 10.1214/25-aoas2132 — NFL ghosts: A framework for evaluating defender positioning with conditional density estimation

  • 作者: Ronald Yurko, Quang Nguyen, Konstantinos Pelechrinis
  • 期刊/来源: Annals of Applied Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: application
  • 摘要: 本文在美式橄榄球追踪数据设定下,提出基于“幽灵防守者”(基线分布)的防守评估框架,目标是量化观测位置相对于期望表现的差异。核心方法采用随机森林进行非参数条件密度估计(CDE),分别建模接球码数分布(计算期望价值)与基线防守者的二维空间分布。通过对比观测轨迹与幽灵基线的期望价值,构建了新的球员表现指标。该工作主要贡献在于应用与框架搭建,未涉及 CDE 的理论性质(如收敛率或效率界)推导。对您而言,若关注非参数条件密度估计在高维空间数据中的计算实现或体育计量应用,可作实证案例参考,但无直接理论收益。
  • 关键技术: conditional density estimation, random forest CDE, spatial baseline modeling, expected value estimation, tracking data analysis
  • 为什么对您有用: 本文属于体育统计应用,虽涉及非参数条件密度估计与统计计算,但缺乏理论推进;对您而言,仅在需要非参数条件密度估计的实证计算案例时具有边际参考价值,无直接理论或方法学收益。

Maintained by 陈星宇 · Homepage · Source on GitHub