AoAS — Vol 18 Issue 3 · 2026-06-24¶
- 共 8 篇 · Annals of Applied Statistics
- 目录核对 ⚠️ 疑似漏 35 篇(对照 OpenAlex 43 篇):10.1214/24-aoas1872、10.1214/23-aoas1863、10.1214/24-aoas1890、10.1214/24-aoas1877、10.1214/24-aoas1879 等
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期内容主要围绕生物医学领域的复杂数据建模展开,形成了半参数生存分析与纵向数据、高维与潜变量建模两条显见的主线,另有零星工作涉及预测推断与计数数据建模。具体而言,半参数方法主线聚焦于生存增益与成本轨迹,包括基于均值剩余寿命的移植效益评估与双变量时变系数模型;高维与潜变量主线则处理文本混杂、单细胞计数与肿瘤异质性推断;此外还有一篇针对经济固定事件预测的区间构造。
在半参数生存分析与纵向数据方面,本期工作侧重于因果参数的效率推断与复杂函数形式估计。针对肾脏移植分配问题,Evaluation of transplant benefits 一文将目标参数设定为协变量调整后的均值剩余寿命差,通过推导半参数效率界与构造 one-step estimator 实现了移植生存增益的高效估计;Bivariate functional patterns 则关注终末期肾病患者的医疗支出,将 profile weighted least squares 扩展至双变量时变系数设定,解决了移植前后双时间尺度的纵向轨迹建模问题。这两篇均利用 USRDS 数据,从生存时间和医疗成本两个维度展示了半参数方法在流行病学决策中的工具价值。
在高维与潜变量建模方面,重点在于处理超高维混杂与复杂相关性。Mixture conditional regression 针对实证法律研究中超高维文本协变量带来的维度灾难,提出混合条件回归模型,通过潜在类结构分离关键特征与文本混杂,保证了法外因素效应估计的渐近有效性。A flexible model for correlated count data 与 A novel Bayesian model 则分别利用泊松多元自适应收缩与贝叶斯分层结构,解决了单细胞测序数据中的多条件差异表达与肿瘤异质性推断问题。
对于关注因果推断与半参数效率理论的研究者,建议优先阅读 Evaluation of transplant benefits(半参数效率界与 one-step estimator)与 Mixture conditional regression(超高维混杂控制下的效应估计),这两篇在方法学构建上与因果推断核心议题结合最为紧密。
因果推断 (causal_inference, 1 篇)¶
1. 10.1214/24-aoas1893 · arXiv — Mixture conditional regression with ultrahigh dimensional text data for estimating extralegal factor effects¶
- 作者: Jiaxin Shi, Fang Wang, Yuan Gao, Xiaojun Song, Hansheng Wang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 3
- 相关性 7/10 · novelty:
new_method - 摘要: 在实证法律研究中,估计法外因素(extralegal factors)对判决的影响时,需要控制大量文本形式的协变量,导致维度超高。本文提出混合条件回归(Mixture Conditional Regression, MCR)方法,假设样本可分成若干潜在类,每类内用经典线性模型刻画关键特征与响应的关系,而超高维文本变量则通过朴素贝叶斯模型决定类成员概率。这样,控制变量维度可以任意高,而感兴趣参数(法外因素效应)的估计量在已知真实类成员时达到渐近有效。模型估计采用期望最大化(EM)算法,每一步迭代保持解析性。模拟和来自中国盗窃罪判决书的实际数据分析表明,MCR方法在控制超高维文本混杂后能更准确地估计法外因素效应。该工作直接关联您在高维统计和因果推断方面的兴趣——即将超高维控制变量的处理与因果参数估计结合,同时EM算法也属于您熟悉的统计计算范畴。
- 关键技术:
Mixture Conditional Regression (MCR),EM algorithm,Naive Bayes classifier,Ultrahigh-dimensional text data,Latent class model - 为什么对您有用: 本论文与您的primary interest“因果推断”高度相关:它试图在控制超高维文本混杂变量下估计法外因素(类似因果效应)的参数。您武器库中的“高维渐近”和“统计计算”可立即用于分析该方法的EM收敛性及扩展其理论性质。立即可做:您可直接实现MCR算法并验证其在其他法律场景或观测混杂(如流行病学)数据上的表现。
经济理论 / 应用 (econ_theory, 1 篇)¶
1. 10.1214/24-aoas1900 · arXiv — Prediction intervals for economic fixed-event forecasts¶
- 作者: Fabian Krüger, Hendrik Plett
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 3
- 相关性 6/10 · novelty:
application - 摘要: 本文关注经济政策中的固定事件预测问题——对同一预测目标进行序列预测,随着时间接近目标,预测难度递减。通常固定事件点预测缺乏定量不确定性度量,本文旨在通过构造预测区间来提供这种度量。作者开发了适用于固定事件情况的回归方法,引入受问题背景驱动的约束条件(如单调性、界值等)。方法基于预测后处理技术,结合回归约束以校准预测区间的覆盖率。应用部分对德国和美国的GDP增长率构造了预测区间,并评估了区间的覆盖率和平均宽度。结果显示,所提约束回归方法能够产生合理的预测区间,尤其在数据稀疏时优于无约束方法。对您有用:本文属于应用经济统计,连接您的经济理论次要兴趣;其中约束回归的思想可能对处理类似结构的数据(如面板预测)有启发。
- 关键技术:
forecast postprocessing,constrained regression,prediction intervals,fixed-event forecasting,GDP growth - 为什么对您有用: 本文连接您的次要兴趣——经济理论中的应用统计,具体是宏观经济预测的不确定性量化。武器库中的非参数统计和估计理论(very_familiar)可用来评估约束回归方法的渐近性质和覆盖率的合理性。本文是应用导向,工具门槛低,属于立即可做的入门阅读,值得花时间读全文以了解经济预测数据特点和分析流程。
流行病学 (epidemiology, 3 篇)¶
1. 10.1214/24-aoas1887 — Evaluation of transplant benefits with the U.S. Scientific Registry of Transplant Recipients by semiparametric regression of mean residual life¶
- 作者: Ge Zhao, Yanyuan Ma, Huazhen Lin, Yi Li
- 期刊/来源: Annals of Applied Statistics
- 机构: Portland State University · Pennsylvania State University · Southwestern University of Finance and Economics · University of Michigan
- 分类: vol 18 · issue 3
- 相关性 7/10 · novelty:
new_method - 摘要: 在肾脏移植分配决策的设定下,目标 estimand 是 covariate-adjusted mean residual life (MRL) 差值,用于量化移植带来的生存增益。作者提出一类 semiparametric covariate-dependent MRL 模型,对 covariate effects 使用单指标参数形式估计,对 baseline MRL function 采用非参数估计。理论贡献包括 semiparametric efficiency bound 的推导以及 efficient influence function 构造的 one-step estimator,在正则条件下达到 n^{-1/2}-CAN。实证分析基于 SRTR 数据库,发现单指标结构能较好 summarise 多个协变量的效应,并揭示了不同种族、性别、保险类型亚组间的生存增益不平等。对您而言,这是 semiparametric efficiency theory 在流行病学实际数据中的具体应用案例。
- 关键技术:
semiparametric efficiency bound,efficient influence function,one-step estimator,mean residual life model,single-index model,subgroup analysis - 为什么对您有用: 本文将您 primary interest 中的 semiparametric efficiency theory 应用于流行病学真实数据(SRTR 肾移植队列),展示了 efficient influence function 和 one-step estimator 在生存分析情境下的完整技术路线。您武器库中的 semiparametric theory(moderately_familiar)可直接对照本文的效率界推导和 estimator 构造过程进行验证和深化。属于中期可做:若想在此方向拓展,需在 moderately_familiar 的 semiparametric theory 上长肌肉,特别是 survival setting 下的 influence function 计算细节。
2. 10.1214/24-aoas1897 — Bivariate functional patterns of lifetime medicare costs among ESRD patients¶
- 作者: Yue Wang, Bin Nan, John D. Kalbfleisch
- 期刊/来源: Annals of Applied Statistics
- 机构: University of California, Irvine · University of Michigan
- 分类: vol 18 · issue 3
- 相关性 7/10 · novelty:
application - 摘要: 本文研究终末期肾病(ESRD)患者的终身 Medicare 支出轨迹,数据来自 USRDS(2007-2011),按肾移植状态分为三组进行比较。方法上采用半参数回归模型,包含固定效应和双变量时变系数,其中双变量分别为 ESRD 服务开始后的时间和肾移植后的时间。估计方面,作者将 profile weighted least squares (PWLS) 扩展到纵向数据设定,并提出两阶段估计方法处理不同起始时间的双变量时变系数模型。推断使用 sandwich variance estimator 构建置信区间,并通过模拟验证。实证发现:waitlisting 与初始较低的日均医疗费用相关但随时间递增,终身平均无组间差异;肾移植则在初始费用激增后显著降低医疗成本。对您而言,这是一个在流行病学数据集上应用半参数纵向模型的实例。
- 关键技术:
semiparametric regression,bivariate time-varying coefficients,profile weighted least squares,longitudinal data,sandwich variance estimator,conditional on survival time - 为什么对您有用: 本文属于流行病学应用,连接到您的 secondary interest(epidemiology datasets, applied causal work)。技术上涉及半参数纵向模型和时变系数估计,与您 moderately_familiar 的 semiparametric theory 和 M-estimation theory 有直接关联。作为 gateway reading:本文方法学 novelty 有限(novelty_flag = application),但数据集和模型设定清晰,适合作为了解 Medicare claims 数据结构和纵向半参数分析的入门读物。若您想进入流行病学纵向数据分析领域,武器库足够支撑;是否值得花时间取决于您对 ESRD/Medicare 数据的兴趣程度。
3. 10.1214/23-aoas1866 · arXiv — Learning and forecasting of age-specific period mortality via B-spline processes with locally-adaptive dynamic coefficients¶
- 作者: Federico Pavone, Sirio Legramanti, Daniele Durante
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 18 · issue 3
- 相关性 2/10 · novelty:
application - 摘要: 本文针对年龄别死亡率的预测问题,提出一种B样条过程模型,通过局部自适应动态系数捕捉死亡率随时间的变化趋势。模型将年龄别死亡计数建模为泊松对数正态分布,其均值由B样条基的线性组合构成,系数由随机微分方程驱动,从而允许不同年龄组的死亡率趋势具有不同的平滑性和变化速率。通过将模型近似为高斯状态空间模型,可以利用卡尔曼滤波进行封闭形式的平滑、预测和推断,同时得到系数一阶导数(死亡率变化率)的后验分布。在多个国家的死亡率数据上,该方法在点预测和预测区间校准方面均优于Lee-Carter等基准模型,并揭示了COVID-19期间不同年龄组的死亡率模式差异。该工作展示了非参数样条与状态空间结合在流行病学死亡率预测中的应用,与您的流行病学应用兴趣相契合,且其计算框架可借助您熟悉的统计计算技能快速复现。
- 关键技术:
B-spline processes,locally-adaptive dynamic coefficients,Poisson log-normal model,state-space model,Kalman filtering,stochastic differential equations,closed-form forecasting - 为什么对您有用: (1) 本文属于流行病学领域(secondary interest)中死亡率建模与预测的应用研究,直接对应您对流行病学数据与分析方法的关注。 (2) 技术层面,您已熟练掌握非参数统计和软件开发的工具:B样条基的逼近性质可以用非参数理论分析,状态空间模型的卡尔曼滤波计算可由您的统计计算技能直接实现(例如使用R包KFAS复现)。 (3) follow-up判为立即可做:只需整合现有软件包即可在类似数据集上复现预测流程,无需补充新武器;若未来希望扩展因果结构(如干预对死亡率的影响),则需先补充识别理论。
其他 (other, 3 篇)¶
1. 10.1214/24-aoas1894 — A flexible model for correlated count data, with application to multicondition differential expression analyses of single-cell RNA sequencing data¶
- 作者: Yusha Liu, Peter Carbonetto, Michihiro Takahama, Adam Gruenbaum, Dongyue Xie, Nicolas Chevrier et al.
- 期刊/来源: Annals of Applied Statistics
- 机构: University of North Carolina at Chapel Hill · University of Chicago · Institute for Health Metrics and Evaluation
- 分类: vol 18 · issue 3
- 相关性 3/10 · novelty:
application - 摘要: 该论文针对单细胞RNA测序数据中多条件差异表达分析问题,提出了一种新的统计模型和方法。传统方法通常只比较两组条件(如处理组与对照组),而该工作直接对所有条件的表达计数进行联合建模,并推断表达差异在不同条件间的共享模式。方法基于泊松分布假设,引入多元自适应收缩(Poisson multivariate adaptive shrinkage),以提升检测和估计精度。文章通过细胞因子刺激实验的真实数据展示了方法相比现有方法的显著性能提升。该方法以R包形式实现,便于实际应用。对于统计计算和软件开发的兴趣点,该论文提供了一个完整的应用工具箱,但方法学核心与您的主要研究方向(因果推断、高维U统计等)直接交集不大。
- 关键技术:
Poisson multivariate adaptive shrinkage,multicondition differential expression,multivariate adaptive shrinkage,R package implementation - 为什么对您有用: 本文属于应用统计,其多条件联合建模思想与高维count数据建模有交集,但并非您核心研究方向(因果推断、U统计、RMT等)的直接延伸。技术弹药库中'high-dimensional asymptotics'或'nonparametric statistics'对理解其模型可能有些帮助,但您缺乏单细胞数据分析的具体背景和管道,因此暂不可做——需要先在生物信息学数据处理和领域知识上补课。作为一种方法学应用文章,可作为扩展视野的阅读,不建议重点投入。
2. 10.1214/23-aoas1862 — A novel Bayesian model for assessing intratumor heterogeneity of tumor infiltrating leukocytes with multiregion gene expression sequencing¶
- 作者: Peng Yang, Shawna M. Hubert, P. Andrew Futreal, Xingzhi Song, Jianhua Zhang, J. Jack Lee et al.
- 期刊/来源: Annals of Applied Statistics
- 机构: Rice University · The University of Texas MD Anderson Cancer Center
- 分类: vol 18 · issue 3
- 相关性 2/10 · novelty:
application - 摘要: 本文提出一个贝叶斯分层模型ICeITH,用于从多区域基因表达测序数据推断肿瘤浸润白细胞(TILs)的比例并评估瘤内异质性。模型利用预先已知的细胞类型表达谱作为先验信息,通过分层结构分解混合的bulk基因表达数据,同时利用随机效应捕捉同一患者不同区域样本间的相关性。ICeITH采用Gibbs采样进行后验推断,输出每个区域的细胞比例估计,并通过区域间比例变异量化异质性。模拟研究表明,ICeITH在细胞相对丰度估计和异质性评估方面优于现有反卷积方法。应用到两个肺癌多区域基因表达数据集后,模型能够根据TILs异质性评分将患者分为不同风险组,并关联生存结局。虽然该工作主要解决生物医学问题而非发展新统计理论,但其多层次数据建模思路(多区域相关结构+先验融合)对于处理纵向或聚类数据中的异质性量化具有参考价值,尤其对流行病学数据分析有启发意义。
- 关键技术:
Bayesian hierarchical model,cell-type deconvolution,multiregion gene expression,prior knowledge incorporation,intratumor heterogeneity - 为什么对您有用: 该论文属于流行病学领域的应用工作,直接服务于肿瘤免疫微环境异质性的量化,这是流行病学中生物标志物评估的重要问题。武器库中“逆问题与随机噪声”(very_familiar)可用于分析细胞反卷积的不确定性,而“软件研发”(very_familiar)可帮助复现或扩展模型。暂不可做——核心贝叶斯计算(Gibbs采样、分层先验选择)不在当前武器库的熟练范围内,但可作为流行病学数据应用的入门阅读,了解多区域测序数据的分析范式,值得花时间读全文。
3. 10.1214/24-aoas1873 — A latent process model for monitoring progress toward hard-to-measure targets with applications to mental health and online educational assessments¶
- 作者: Minjeong Jeon, Michael Schweinberger
- 期刊/来源: Annals of Applied Statistics
- 机构: University of California, Los Angeles · Pennsylvania State University
- 分类: vol 18 · issue 3
- 相关性 2/10 · novelty:
new_method - 摘要: 针对难以直接测量的目标(如心理健康状态、在线学习目标)的个体进展监测问题,本文提出了一种新颖的潜在过程模型。该模型将个体和用于衡量进展的变量共同嵌入一个共享度量空间中,该空间被解释为交互图,用以捕捉个体与变量之间的交互模式。由于个体与目标变量处于同一度量空间,可以直接评估个体向目标的进展。通过仿真和实际心理健康、在线教育数据集的应用,模型展示了其在弱势群体监测中的有效性。与传统的潜变量模型相比,该模型提供了更直观的进展可视化,并可能通过共享空间揭示动态关系。该研究为流行病学或教育评估领域的纵向数据建模提供了新视角,但其贡献主要在模型构建与实证,而非因果推断或效率理论,与您的核心兴趣交集有限。
- 关键技术:
latent process model,shared metric space,interaction map,embedding individuals and variables,simulation-based validation,mental health assessment - 为什么对您有用: 本文关注的心理健康监测属于流行病学的应用范畴,与您的次要兴趣“流行病学(应用、数据集、因果推断)”中的数据集和分析模式相关。武器库中的“非参数统计”或“高维渐近”可能用于分析该模型的一致性,但本文仅提供仿真和实证,未给出理论保证;您目前很熟悉的工具不足以直接攻击该模型的渐近性质(因模型假设与度量空间选择缺乏标准框架),属于暂不可做的方向。若您对心理测量或教育评估的数据集感兴趣,可作为应用案例参考,但方法论迁移价值有限。
Maintained by 陈星宇 · Homepage · Source on GitHub