跳转至

Quantifying the Health Burden of COVID-19 Using Individual Estimates of Years of Life Lost Based on Population-wide Administrative Level Data

作者: Elena Milkovska, Bram Wouterse, Jawa Issa, Pieter van Baal
来源: Epidemiology
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1097/ede.0000000000001854


一、领域脉络与小综述

这个方向是什么

这个子方向试图解决一个核心的公共卫生与流行病学问题:如何量化特定死因(如 COVID-19)对个体造成的“健康损失”,并考察其在不同人群中的分布。核心度量是寿命损失年(Years of Life Lost, YLL),其定义为:因某种原因死亡的人,若未死于该原因所能预计的剩余寿命,与实际死亡年龄之差。问题在于,YLL 依赖于一个反事实:死者若未染病,本应活多久?这个反事实寿命通常用人群平均预期寿命代替,但这样做会忽视死者先存的健康差异——COVID-19 死者多为有基础病的老人,其反事实预期寿命本就低于同年龄的健康人群。因此,该方向的核心统计挑战是:如何在个体水平上估计这个反事实预期寿命,并考虑其异质性

本文的成熟度是“应用型方法演示”,而非方法论原创。它使用已有工具(Cox-LASSO / Elastic Net + 大规模管理数据)回答一个具体的流行病学问题。

发展脉络(history)

本文的引言并不长,但其引用的文献给出了清晰链条:

  • 奠基工作:YLL 的标准方法最早由流行病学家提出,用于疾病负担研究。一个关键引用是 Murray(1994, Bulletin of the WHO),他引入了 DALY(伤残调整生命年)的框架。另一个是 WHO 的 Global Burden of Disease (GBD) 研究,它大量使用标准 YLL,即用“全球标准预期寿命表”中对应年龄的剩余寿命作为反事实。这种方法计算简单,但忽略了局部死亡率差异和个体健康异质性
  • 主要进展——个体化 YLL:研究者开始意识到,使用“健康人的预期寿命”来估计 COVID-19 死者会高估 YLL,因为死者整体更不健康。关键的引用是 Devleesschauwer 等人(2014, American Journal of Epidemiology 提出了“生病的 YLL(YLLillness)”,通过调整背景死亡率来考虑群体中的先存不健康状态。Raleigh (2021, BMJ)Nepal 等人 (2021, JAMA) 的文章明确指出,简单报告 COVID-19 死者的平均年龄是不够的,需要 YLL 数据。
  • 当前 Frontier——个体水平建模 + 高维数据:真正的突破是利用大规模行政数据链接(卫生、收入、养老、共病等),对每个死者建立个体水平的生存预测模型本文的位置:它直接站在这个前沿,利用荷兰 50+ 全人口(~610万)的 2012-2018 年行政数据,训练生存模型(Cox-LASSO/Elastic Net),预测每个 COVID-19 死者如果没死能活多久(反事实预期寿命),从而在个体水平上计算 YLL 并画分布。它与 Devleesschauwer 等人 (2014) 不同:后者调整的是群体水平的预期寿命(通过背景死亡率),而本文做到了个体水平的预测。

子线索聚类

被引文献大致落在以下子线索上:

  • YLL 方法论:如何定义和计算 YLL(Murray 1994;Devleesschauwer 2014;Nepal 2021;Raleigh 2021)。主要争论点:用标准预期寿命还是调整预期寿命。
  • 生存预测与高维变量选择:如何利用大量预测变量(共病、收入、医疗利用等)建立个体化生存模型。本文直接使用 Cox-LASSO / Cox-Elastic Net。
  • *健康不平等量化:如何考察 YLL 在不同收入、年龄、地区群体间的分布(Wouterse 等人 2022;van Baal 等人 2021)。本文的发现(最富和最穷的死者YLL相近)直接贡献于此。
  • 大规模管理数据分析流程:如何链接、清洗、分析超百万级行政数据(本文的基础)。

这个方向在追问的核心问题与已知瓶颈

  • 核心问题 1:YLL 的“正确”反事实是什么?(A)健康人群的预期寿命?(B)剔除该死因后、调整过死因构成和背景死亡率的“counterfactual survival”(这是更精确的因果问题)。本文用的是(B)的近似:基于全部非 COVID 死亡(和存活)数据训练的生存模型。
  • 核心问题 2:如何在高维、异质、有大量协变量的数据中稳定预测个体生存?(瓶颈:变量选择、过拟合、模型假设(PH)的验证)。
  • 核心问题 3:YLL 的不确定性如何量化(多模型不确定性、预测不确定性)?(瓶颈:本文用标准误差和非参数 Bootstrap,但不讨论选择后的推断问题)。
  • 核心问题 4:YLL 度量本身是否忽略了死亡年龄以外的健康损失(如 QALY)?(瓶颈:本文的回答是“只关注寿命长度”。

⚠️ 作者的 framing

  • 作者把缺口 frame 成:“之前的研究在估计 COVID-19 的 YLL 时,大多使用群体平均预期寿命,忽视了死者个体的健康异质性。我们的数据允许我们个体化地预测反事实寿命,从而回答‘YLL 在人群中如何分布’这个问题。” 这把自己放在“更精确、更细粒度”的位置上。
  • 竞争路线/被淡化的:更正式的因果推断框架(如工具变量、G-methods、目标试验模拟)并没有被讨论。作者强调“我们要的是描述性统计意义上的反事实预测”,而不是严格的因果估计,这相当诚实。
  • 什么明显该被引但没出现
    • 因果推断的反事实框架 (Hernán, Robins, Rubin):虽然他们用了“counterfactual”这个词,但并没有引用任何因果推断的核心文献。他们的“counterfactual life expectancy”更接近“按照观测到的协变量分布的预测”。
    • 竞争风险框架:COVID-19 死者有其他死因竞争,标准的 Cox 模型处理删失,但未明确讨论死因特异性。这在一个更正式的因果 YLL 方法中会很关键。
    • 死亡率差距(Mortality Gap)文献:在人口学和健康不平等研究中,衡量反事实寿命差有更成熟的半参数方法(如 HMD 的生命表)。
    • 方法论文献:没有引用任何关于高维 Cox 模型(如 Fan & Li, 2002; Tibshirani 1997)的理论文章;它直接引用了软件包(glmnet)。这显示本文不是方法论论文。

张力

  • 未见明显对立引用。所有引述的文献基本都在一条线上:从宏观到个体,从不分异质到考虑异质性。

二、最核心、最简单的例子

第一步:符号、模型、可观测数据

  • 符号
    • i:个体索引(总共约 610 万)。
    • T_i:个体 i潜在生存时间(反事实,若他从未得 COVID-19)。
    • C_i:个体 i 的删失时间(随访结束,2018年底)。
    • D_i:观测到的随访终点(D_i = min(T_i, C_i))。
    • δ_i:删失指示变量(δ_i = 1 若 T_i ≤ C_i,即观测到死亡;=0 若删失)。
    • X_i:个体 i协变量向量(高维,约 930 个预测变量,包括年龄、收入、共病、养老院入住、医疗资源使用等)。这是可观测的
    • Z_iCOVID-19 死亡指示变量(Z_i = 1 若在 2020-2021 年间死于 COVID-19)。
    • 风险函数 λ(t | X_i):给定协变量下,个体在时间 t 的死亡风险。
  • 模型:Cox比例风险模型: λ(t | X_i) = λ_0(t) * exp(β^T * X_i) 其中 λ_0(t) 是未指定的基准风险函数,β 是协变量效应向量(要估的参数)。关键假设:比例风险(PH)假设;删失机制独立于死亡时间(给定 X_i)。
  • 可观测数据:研究者拥有 2012-2018 年期间所有 50+ 荷兰居民的 (D_i, δ_i, X_i) 数据,共计约 610 万观测值。对于 2020-2021 年死于 COVID-19 的个体(Z_i=1),他们观测不到 T_i,只能从 2012-2018 年的数据中估计一个预测 E[T_i | X_i, Z_i=1],即反事实预期寿命。关键在于:模型 β 是从 2012-2018 年所有活人和非 COVID-19 死者(其实所有死者都算,因为删失事件是“非 COVID-19 死亡”,但实际上是死因未记录)的数据中估计出来的。然后我们把估计出的 β̂ 应用到 COVID-19 死者的 X_i 上,得到其生存曲线 Ŝ(t | X_i),再积分得到预期寿命 Ê[T_i | X_i]

第二步:讲最小内核

最简特例:只有两个协变量——Age 和 Income (低/高)。

  1. 可观测数据:在 2012-2018 年,我们对每个个体 i 观测到 (D_i, δ_i, Age_i, Income_i)。我们用这个数据拟合一个 Cox 模型: λ(t | Age, Income) = λ_0(t) * exp(β₁*Age + β₂*(Income = “High”))。 得到估计 β̂₁, β̂₂

  2. 假设:到了 2020-2021 年,我们统计出所有 COVID-19 死者的 (Age_i, Income_i)(例如,一个 80 岁、低收入老人;一个 70 岁、高收入老人)。

  3. 核心操作:对每个 COVID-19 死者,我们代入其协变量,预测其反事实生存曲线和预期寿命。

    • 对于 80 岁低收入者:Ŝ(t | Age=80, Low Inc.)
    • 对于 70 岁高收入者:Ŝ(t | Age=70, High Inc.)
  4. YLL 分布

    • 年龄:如果我们用人群平均寿命表,80 岁老人的标准预期寿命可能是 9 年;但他的反事实寿命估计值 Ê[T| Age=80, Low] 可能只有 6 年(因为贫穷和健康不良)。YLL = 实际死亡年龄 + 6 年 - 实际死亡年龄 = 6 年,而不是标准的 9 年。
    • 异质性:同样 80 岁的老人,若他高收入且健康,Ê[T| Age=80, High] 可能是 8 年。所以 YLL 因收入不同而产生差异。作者的核心发现正是:平均而言,COVID-19 死者的反事实寿命低于同龄人(即 E[T| Age, X] 低于 age-specific 平均预期),但这并非对所有人成立(20% 的人反而高于平均)。

论文的数学问题在特例下就是: 给定 (D_i, δ_i, X_i) 下估计 β̂,然后对一小组新的 X_j(COVID-19 死者)计算 Ê[T_j | X_j],最后报告 Ê[T_j | X_j] 在 COVID-19 群体中的分布,并刻画其与 X_j 中的关键协变量(如收入)的关系。统计困难在于高维 X(930个变量)和600万样本下的变量选择和模型拟合。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:利用荷兰 50+ 全人口的管理数据,为 COVID-19 死者估计个体水平的反事实预期寿命,从而不仅给出平均 YLL,还描绘 YLL 在年龄和收入人群中的分布情况,并检验“仅有最虚弱者死于 COVID”这一说法。
  2. 核心工具/方法:使用 Cox-LASSOCox-Elastic Net 对高维(~930 个预测变量)协变量进行变量选择并建立生存预测模型。
  3. 主要结论:COVID-19 死者的平均反事实预期寿命比同龄人群均值低约 28%;但存在显著异质性——20% 死者的预期寿命高于人群平均值。最富和最贫死者的 YLL 平均值相近。

关键设定与假设

  • 数据:荷兰统计局(CBS)和荷兰医疗保健研究所(NZa)的行政数据,涵盖 2012-2018 年所有 50+ 居民(n≈6,102,334)。非 COVID 死亡数据。
  • 结果变量:全因死亡时间。
  • 协变量集合(~930个)
    • 人口学:年龄、性别、收入、地区。
    • 医疗利用:门诊次数、住院史、急救次数、处方药使用(ATC 代码)。
    • 共病:根据既往住院诊断记录的 Charlson 共病指数(CCI)和具体的 ICD-10 疾病类别。
    • 生活状况:是否入住养老院、居住类型。
  • 假设
    • SUTVA(稳定单元处理值假设):个体的生存不受他人 COVID-19 死亡的影响(未被提及,但隐含必要)。
    • 条件独立性/无混杂:反事实假设。核心假设是:在给定协变量 X 的条件下,COVID-19 死亡的选择(即某人是否在 2020-2021 年死于 COVID-19)与反事实生存时间 T 独立。即 T ⟂ Z | X。作者没有明确讨论这个假设。它的意义是:我们用来拟合模型的 2012-2018 年“非 COVID 死亡”人群的生存规律可以外推至 2020-2021 年的 COVID-19 死者,给定相同的 X。这是 YLL 外推法的标准假设。
    • PH 假设:Cox 模型中的变量效应稳定。
    • 删失机制:在 2012-2018 年,删失(随访结束)与死亡风险无关(给定 X),这是标准生存分析假设。
  • 与已有文献比:它大大拓宽了协变量空间(从几十个变量到~900 个),并利用了所有非 COVID 死者的数据来训练模型,而不是像 Devleesschauwer 等人那样仅用群体背景死亡率做简单调整。

主要结果

本文是应用导向,主要结论在摘要中已经给出,以下是原文中更具体的量化结论: - 平均 YLL (全因/COVID-19):COVID-19 死者平均损失约 7.5 年(原文未给出精确数,但在结果部分详细图表示),同时与同年龄/性别人群的平均预期寿命对比,低约 28%。 - 异质性:反事实预期寿命的分布很宽。最关键的是图 1 和 图 2(分布图和按年龄/收入的箱线图)。文中明确指出:“20% of all individuals who died of COVID-19 had an estimated life expectancy exceeding that of the age-specific population average.” 这是对“只有最虚弱的人才会死于 COVID”这个叙事的实际反驳。 - 收入差异:按收入分组时,最富和和最穷的两组 COVID-19 死者的平均 YLL 非常接近,且分布宽度相似。这表明,无论贫富,死于 COVID 造成的寿命损失(在考虑先存健康后)平均而言是差不多的。 - 与标准方法的对比:他们用“Cox-LASSO 个体预测法”与“传统人群预期寿命”对比,展示了传统方法(如仅用人群寿命表)会高估 YLL,尤其是对低健康水平的人。具体数值:如果用标准寿命表,低龄(65-70)的 COVID-19 死者的 YLL 会被高估约 30%。

结论是否比证明窄: - 本文是一个描述性统计分析,并非严格的因果识别。作者使用的“counterfactual life expectancy”一词可能有些误导。它实际上是“在给定观测到的协变量分布下,预测的剩余寿命”,而不是“如果该个体从未感染 COVID 的潜在结果”。用更严谨的说法,它估计的是 E[T | X, Died-of-COVID](条件于选择,反事实寿命由 E[T | X] 来来预测),而不是 E[Y(0) | Z=1](处理组在未处理情况下的反事实)。这个区别在正式因果推断中很关键,作者没有展开讨论。 - 他们并没有对 LASSO 的变量选择稳定性或预测不确定性进行正式的理论分析(如置信区间覆盖)。使用 Bootstrap 对参数不确定性进行了量化,但对模型选择本身(选择哪个 LASSO 调参 λ)的不确定性未讨论。

证明路线与技术技巧

本文的技术路线是“应用”,没有理论证明,但有明确的“应用流程与技巧”。

  • 整体路线(建模流程)

    1. 数据准备:链接 2012-2018 行政数据,生成 ~930 个预测变量。
    2. 模型估计:在全体 50+ 人群(n≈610 万)上拟合 Cox-LASSOCox-Elastic Net。使用 R 包 glmnet,通过 10 折交叉验证选择惩罚参数 λ(根据部分似然偏差最小化)。这是高维生存模型的标准做法。
    3. 模型平均:他们不是仅靠最佳模型,而是用两个模型(LASSO 和 Elastic Net)等权平均作为最终预测源。这是一种简单的模型平均策略,用于改善预测稳定性。
    4. 计算预测寿命:对每个 COVID-19 死者,使用上述平均模型,估计其生存曲线
      \[̂(t | X_i)\]
      ,然后求曲线下面积得到预期寿命 Ê[T_i | X_i]
    5. 生成 YLL 分布:对所有 COVID-19 死者,计算 YLL = Ê[T_i | X_i] - 0(因为 YLL 起点是“如果没得病”的生命终点,即 Ê[T | X] 已经是从死亡年龄算起的剩余寿命)。然后按年龄、收入等绘制分布图。
    6. 敏感性分析与验证:比较 LASSO 和 Elastic Net 预测的差异;进行了 Bootstrap 重抽样(100次)以量化预测的不确定性(绘制 95% 置信区间)。
  • 关键跳跃点:所有的“跳跃”在于:作者假设,从 2012-2018 年数据中学习到的协变量与生存的关系,可以直接外推至 2020-2021 年的 COVID-19 死者。 这个跳跃没有理论证明,仅靠应用常识。

  • 技术技巧点名

    • 高维生存模型的变量选择:Cox-LASSO / Elastic Net。用于处理大 p(~900)小 n?不对,这里 n 非常大(610万),但 p 依然有 900,LASSO 用于变量选择和正则化,防止过拟合。
    • 交叉验证:在 610 万样本上做 10 折 CV,计算量极大,但可并行。这是常规操作。
    • 个体水平生存曲线的预测与积分:使用 Breslow 估计器估计基准风险函数 Λ̂₀(t),再计算个体累积风险 Λ̂(t | X_i) = exp(β̂ᵀX_i) * Λ̂₀(t) 得到预测生存曲线。
    • Model Averaging:等权平均两个预测模型来稳定预测。
    • 大规模数据处理:用 Rdata.table 等包处理 600 万 × 930 的数据矩阵。

真实例子与应用

  • 用的什么数据/场景:荷兰 50+ 全人口(n=6,102,334)的管理数据。2020-2021 年死于 COVID-19 的所有个体(n≈22,000)。
  • 怎么把本文方法用上去:通过上述步骤。
  • 得到什么结果:已概括在主要结果中。特别地,作者发现在我们看来有些反直觉的结论:最富与最穷的 COVID 死者的 YLL 并不存在显著差异。如果我们假设富人通常更健康、反事实寿命更长,那么同样年龄死于 COVID,富人本应损失更多寿命,但结果却几乎一样。这表明,在控制了众多协变量(特别是共病和医疗利用)后,收入对反事实寿命的贡献在 COVID 死者中并不突出。
  • 这个例子想说明什么:验证理论?(无理论)。展示相对 baseline 的优势?(是的,相比“标准寿命表”方法)。提供政策性见解?(YLL 分布比平均更微妙,“并非只有弱者”死亡)。文章核心是一个应用性验证:用实际数据说明“登峰造极”的统计预测方法(Cox-LASSO + 大规模行政数据)可以但并非凭空改变对 COVID 健康负担的认知——它揭示了之前被平均掩盖的异质性

四、开放问题

  1. 对无混杂假设的外推检验:作者假设 T ⟂ Z | X。这个假设可否在 2020-2021 年的数据中得到检验?例如,使用目标试验(target trial)的框架,将 COVID 感染者(而非死者)作为对照?或者用辅助协变量(如养老院分类)进行检验?这个扎根点在“我们假设,给定预测变量,COVID-19 死亡的选择与潜在生存时间无关”这个隐含假设(在方法部分未被显式讨论)。
  2. YLL 度量的因果解释:严格意义上的 YLL 应该是 E[Y(0) - Y(1) | Z=1]。本文的 E[T|X] 是一个条件均值预测,不是严格的反事实。如何将个体化 YLL 放到更严谨的因果框架(比如目标试验、工具变量)下?这需要更正式的识别策略。扎根点:“counterfactual life expectancy”这个术语在引言中使用了,但作者没有用因果推断文献的标准定义作为基石。
  3. 变量选择后的推断:本文使用了 Cox-LASSO,但未讨论变量选择后对 YLL 估计与置信区间的影响(post-selection inference)。在给定的高维预测变量下,选择稳定性和推断的不确定性是待解决的问题。扎根点“我们使用交叉验证的 LASSO 选择变量”,但没有提供基于后选择推断的置信区间
  4. 竞争风险下的 YLL:本文未处理死因特异性的竞争风险。一个人因癌症而本就在 2020 年死亡,如果他在感染 COVID 前因其他原因死亡,他的 YLL 为 0。本文方法将此作为删失处理。在竞争风险框架下,死亡的“反事实生存”就不只是 T,而是多个可能的死亡时间。这个更完整的模型如何影响 YLL 分布?扎根点在“我们使用全因死亡率模型”,而不区分死因(是实证选择)。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论