Quantifying the Health Burden of COVID-19 Using Individual Estimates of Years of Life Lost Based on Population-wide Administrative Level Data¶

作者: Elena Milkovska, Bram Wouterse, Jawa Issa, Pieter van Baal
来源: Epidemiology
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1097/ede.0000000000001854

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向试图解决一个核心的公共卫生与流行病学问题：如何量化特定死因（如 COVID-19）对个体造成的“健康损失”，并考察其在不同人群中的分布。核心度量是寿命损失年（Years of Life Lost, YLL），其定义为：因某种原因死亡的人，若未死于该原因所能预计的剩余寿命，与实际死亡年龄之差。问题在于，YLL 依赖于一个反事实：死者若未染病，本应活多久？这个反事实寿命通常用人群平均预期寿命代替，但这样做会忽视死者先存的健康差异——COVID-19 死者多为有基础病的老人，其反事实预期寿命本就低于同年龄的健康人群。因此，该方向的核心统计挑战是：如何在个体水平上估计这个反事实预期寿命，并考虑其异质性。

本文的成熟度是“应用型方法演示”，而非方法论原创。它使用已有工具（Cox-LASSO / Elastic Net + 大规模管理数据）回答一个具体的流行病学问题。

发展脉络（history）¶

本文的引言并不长，但其引用的文献给出了清晰链条：

奠基工作：YLL 的标准方法最早由流行病学家提出，用于疾病负担研究。一个关键引用是 Murray（1994, Bulletin of the WHO），他引入了 DALY（伤残调整生命年）的框架。另一个是 WHO 的 Global Burden of Disease (GBD) 研究，它大量使用标准 YLL，即用“全球标准预期寿命表”中对应年龄的剩余寿命作为反事实。这种方法计算简单，但忽略了局部死亡率差异和个体健康异质性。
主要进展——个体化 YLL：研究者开始意识到，使用“健康人的预期寿命”来估计 COVID-19 死者会高估 YLL，因为死者整体更不健康。关键的引用是 Devleesschauwer 等人（2014, American Journal of Epidemiology） 提出了“生病的 YLL（YLL_illness）”，通过调整背景死亡率来考虑群体中的先存不健康状态。Raleigh (2021, BMJ) 和 Nepal 等人 (2021, JAMA) 的文章明确指出，简单报告 COVID-19 死者的平均年龄是不够的，需要 YLL 数据。
当前 Frontier——个体水平建模 + 高维数据：真正的突破是利用大规模行政数据链接（卫生、收入、养老、共病等），对每个死者建立个体水平的生存预测模型。本文的位置：它直接站在这个前沿，利用荷兰 50+ 全人口（~610万）的 2012-2018 年行政数据，训练生存模型（Cox-LASSO/Elastic Net），预测每个 COVID-19 死者如果没死能活多久（反事实预期寿命），从而在个体水平上计算 YLL 并画分布。它与 Devleesschauwer 等人 (2014) 不同：后者调整的是群体水平的预期寿命（通过背景死亡率），而本文做到了个体水平的预测。

子线索聚类¶

被引文献大致落在以下子线索上：

YLL 方法论：如何定义和计算 YLL（Murray 1994；Devleesschauwer 2014；Nepal 2021；Raleigh 2021）。主要争论点：用标准预期寿命还是调整预期寿命。
生存预测与高维变量选择：如何利用大量预测变量（共病、收入、医疗利用等）建立个体化生存模型。本文直接使用 Cox-LASSO / Cox-Elastic Net。
*健康不平等量化：如何考察 YLL 在不同收入、年龄、地区群体间的分布（Wouterse 等人 2022；van Baal 等人 2021）。本文的发现（最富和最穷的死者YLL相近）直接贡献于此。
大规模管理数据分析流程：如何链接、清洗、分析超百万级行政数据（本文的基础）。

这个方向在追问的核心问题与已知瓶颈¶

核心问题 1：YLL 的“正确”反事实是什么？（A）健康人群的预期寿命？（B）剔除该死因后、调整过死因构成和背景死亡率的“counterfactual survival”（这是更精确的因果问题）。本文用的是（B）的近似：基于全部非 COVID 死亡（和存活）数据训练的生存模型。
核心问题 2：如何在高维、异质、有大量协变量的数据中稳定预测个体生存？（瓶颈：变量选择、过拟合、模型假设（PH）的验证）。
核心问题 3：YLL 的不确定性如何量化（多模型不确定性、预测不确定性）？（瓶颈：本文用标准误差和非参数 Bootstrap，但不讨论选择后的推断问题）。
核心问题 4：YLL 度量本身是否忽略了死亡年龄以外的健康损失（如 QALY）？（瓶颈：本文的回答是“只关注寿命长度”。

⚠️ 作者的 framing¶

作者把缺口 frame 成：“之前的研究在估计 COVID-19 的 YLL 时，大多使用群体平均预期寿命，忽视了死者个体的健康异质性。我们的数据允许我们个体化地预测反事实寿命，从而回答‘YLL 在人群中如何分布’这个问题。” 这把自己放在“更精确、更细粒度”的位置上。
竞争路线/被淡化的：更正式的因果推断框架（如工具变量、G-methods、目标试验模拟）并没有被讨论。作者强调“我们要的是描述性统计意义上的反事实预测”，而不是严格的因果估计，这相当诚实。
什么明显该被引但没出现：
- 因果推断的反事实框架 (Hernán, Robins, Rubin)：虽然他们用了“counterfactual”这个词，但并没有引用任何因果推断的核心文献。他们的“counterfactual life expectancy”更接近“按照观测到的协变量分布的预测”。
- 竞争风险框架：COVID-19 死者有其他死因竞争，标准的 Cox 模型处理删失，但未明确讨论死因特异性。这在一个更正式的因果 YLL 方法中会很关键。
- 死亡率差距（Mortality Gap）文献：在人口学和健康不平等研究中，衡量反事实寿命差有更成熟的半参数方法（如 HMD 的生命表）。
- 方法论文献：没有引用任何关于高维 Cox 模型（如 Fan & Li, 2002; Tibshirani 1997）的理论文章；它直接引用了软件包（glmnet）。这显示本文不是方法论论文。

张力¶

未见明显对立引用。所有引述的文献基本都在一条线上：从宏观到个体，从不分异质到考虑异质性。

二、最核心、最简单的例子¶

第一步：符号、模型、可观测数据¶

符号：
- i：个体索引（总共约 610 万）。
- T_i：个体 i 的潜在生存时间（反事实，若他从未得 COVID-19）。
- C_i：个体 i 的删失时间（随访结束，2018年底）。
- D_i：观测到的随访终点（D_i = min(T_i, C_i)）。
- δ_i：删失指示变量（δ_i = 1 若 T_i ≤ C_i，即观测到死亡；=0 若删失）。
- X_i：个体 i 的协变量向量（高维，约 930 个预测变量，包括年龄、收入、共病、养老院入住、医疗资源使用等）。这是可观测的。
- Z_i：COVID-19 死亡指示变量（Z_i = 1 若在 2020-2021 年间死于 COVID-19）。
- 风险函数 λ(t | X_i)：给定协变量下，个体在时间 t 的死亡风险。
模型：Cox比例风险模型： λ(t | X_i) = λ_0(t) * exp(β^T * X_i) 其中 λ_0(t) 是未指定的基准风险函数，β 是协变量效应向量（要估的参数）。关键假设：比例风险（PH）假设；删失机制独立于死亡时间（给定 X_i）。
可观测数据：研究者拥有 2012-2018 年期间所有 50+ 荷兰居民的 (D_i, δ_i, X_i) 数据，共计约 610 万观测值。对于 2020-2021 年死于 COVID-19 的个体（Z_i=1），他们观测不到 T_i，只能从 2012-2018 年的数据中估计一个预测 E[T_i | X_i, Z_i=1]，即反事实预期寿命。关键在于：模型 β 是从 2012-2018 年所有活人和非 COVID-19 死者（其实所有死者都算，因为删失事件是“非 COVID-19 死亡”，但实际上是死因未记录）的数据中估计出来的。然后我们把估计出的 β̂ 应用到 COVID-19 死者的 X_i 上，得到其生存曲线 Ŝ(t | X_i)，再积分得到预期寿命 Ê[T_i | X_i]。

第二步：讲最小内核¶

最简特例：只有两个协变量——Age 和 Income (低/高)。

可观测数据：在 2012-2018 年，我们对每个个体 i 观测到 (D_i, δ_i, Age_i, Income_i)。我们用这个数据拟合一个 Cox 模型： λ(t | Age, Income) = λ_0(t) * exp(β₁*Age + β₂*(Income = “High”))。得到估计 β̂₁, β̂₂。
假设：到了 2020-2021 年，我们统计出所有 COVID-19 死者的 (Age_i, Income_i)（例如，一个 80 岁、低收入老人；一个 70 岁、高收入老人）。
核心操作：对每个 COVID-19 死者，我们代入其协变量，预测其反事实生存曲线和预期寿命。
- 对于 80 岁低收入者：Ŝ(t | Age=80, Low Inc.)。
- 对于 70 岁高收入者：Ŝ(t | Age=70, High Inc.)。
YLL 分布：
- 年龄：如果我们用人群平均寿命表，80 岁老人的标准预期寿命可能是 9 年；但他的反事实寿命估计值 Ê[T| Age=80, Low] 可能只有 6 年（因为贫穷和健康不良）。YLL = 实际死亡年龄 + 6 年 - 实际死亡年龄 = 6 年，而不是标准的 9 年。
- 异质性：同样 80 岁的老人，若他高收入且健康，Ê[T| Age=80, High] 可能是 8 年。所以 YLL 因收入不同而产生差异。作者的核心发现正是：平均而言，COVID-19 死者的反事实寿命低于同龄人（即 E[T| Age, X] 低于 age-specific 平均预期），但这并非对所有人成立（20% 的人反而高于平均）。

论文的数学问题在特例下就是：给定 (D_i, δ_i, X_i) 下估计 β̂，然后对一小组新的 X_j（COVID-19 死者）计算 Ê[T_j | X_j]，最后报告 Ê[T_j | X_j] 在 COVID-19 群体中的分布，并刻画其与 X_j 中的关键协变量（如收入）的关系。统计困难在于高维 X（930个变量）和600万样本下的变量选择和模型拟合。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：利用荷兰 50+ 全人口的管理数据，为 COVID-19 死者估计个体水平的反事实预期寿命，从而不仅给出平均 YLL，还描绘 YLL 在年龄和收入人群中的分布情况，并检验“仅有最虚弱者死于 COVID”这一说法。
核心工具/方法：使用 Cox-LASSO 和 Cox-Elastic Net 对高维（~930 个预测变量）协变量进行变量选择并建立生存预测模型。
主要结论：COVID-19 死者的平均反事实预期寿命比同龄人群均值低约 28%；但存在显著异质性——20% 死者的预期寿命高于人群平均值。最富和最贫死者的 YLL 平均值相近。

关键设定与假设¶

数据：荷兰统计局（CBS）和荷兰医疗保健研究所（NZa）的行政数据，涵盖 2012-2018 年所有 50+ 居民（n≈6,102,334）。非 COVID 死亡数据。
结果变量：全因死亡时间。
协变量集合（~930个）：
- 人口学：年龄、性别、收入、地区。
- 医疗利用：门诊次数、住院史、急救次数、处方药使用（ATC 代码）。
- 共病：根据既往住院诊断记录的 Charlson 共病指数（CCI）和具体的 ICD-10 疾病类别。
- 生活状况：是否入住养老院、居住类型。
假设：
- SUTVA（稳定单元处理值假设）：个体的生存不受他人 COVID-19 死亡的影响（未被提及，但隐含必要）。
- 条件独立性/无混杂：反事实假设。核心假设是：在给定协变量 X 的条件下，COVID-19 死亡的选择（即某人是否在 2020-2021 年死于 COVID-19）与反事实生存时间 T 独立。即 T ⟂ Z | X。作者没有明确讨论这个假设。它的意义是：我们用来拟合模型的 2012-2018 年“非 COVID 死亡”人群的生存规律可以外推至 2020-2021 年的 COVID-19 死者，给定相同的 X。这是 YLL 外推法的标准假设。
- PH 假设：Cox 模型中的变量效应稳定。
- 删失机制：在 2012-2018 年，删失（随访结束）与死亡风险无关（给定 X），这是标准生存分析假设。
与已有文献比：它大大拓宽了协变量空间（从几十个变量到~900 个），并利用了所有非 COVID 死者的数据来训练模型，而不是像 Devleesschauwer 等人那样仅用群体背景死亡率做简单调整。

主要结果¶

本文是应用导向，主要结论在摘要中已经给出，以下是原文中更具体的量化结论： - 平均 YLL (全因/COVID-19)：COVID-19 死者平均损失约 7.5 年（原文未给出精确数，但在结果部分详细图表示），同时与同年龄/性别人群的平均预期寿命对比，低约 28%。 - 异质性：反事实预期寿命的分布很宽。最关键的是图 1 和图 2（分布图和按年龄/收入的箱线图）。文中明确指出：“20% of all individuals who died of COVID-19 had an estimated life expectancy exceeding that of the age-specific population average.” 这是对“只有最虚弱的人才会死于 COVID”这个叙事的实际反驳。 - 收入差异：按收入分组时，最富和和最穷的两组 COVID-19 死者的平均 YLL 非常接近，且分布宽度相似。这表明，无论贫富，死于 COVID 造成的寿命损失（在考虑先存健康后）平均而言是差不多的。 - 与标准方法的对比：他们用“Cox-LASSO 个体预测法”与“传统人群预期寿命”对比，展示了传统方法（如仅用人群寿命表）会高估 YLL，尤其是对低健康水平的人。具体数值：如果用标准寿命表，低龄（65-70）的 COVID-19 死者的 YLL 会被高估约 30%。

结论是否比证明窄： - 本文是一个描述性统计分析，并非严格的因果识别。作者使用的“counterfactual life expectancy”一词可能有些误导。它实际上是“在给定观测到的协变量分布下，预测的剩余寿命”，而不是“如果该个体从未感染 COVID 的潜在结果”。用更严谨的说法，它估计的是 E[T | X, Died-of-COVID]（条件于选择，反事实寿命由 E[T | X] 来来预测），而不是 E[Y(0) | Z=1]（处理组在未处理情况下的反事实）。这个区别在正式因果推断中很关键，作者没有展开讨论。 - 他们并没有对 LASSO 的变量选择稳定性或预测不确定性进行正式的理论分析（如置信区间覆盖）。使用 Bootstrap 对参数不确定性进行了量化，但对模型选择本身（选择哪个 LASSO 调参 λ）的不确定性未讨论。

证明路线与技术技巧¶

本文的技术路线是“应用”，没有理论证明，但有明确的“应用流程与技巧”。

整体路线（建模流程）：
1. 数据准备：链接 2012-2018 行政数据，生成 ~930 个预测变量。
2. 模型估计：在全体 50+ 人群（n≈610 万）上拟合 Cox-LASSO 和 Cox-Elastic Net。使用 R 包 glmnet，通过 10 折交叉验证选择惩罚参数 λ（根据部分似然偏差最小化）。这是高维生存模型的标准做法。
3. 模型平均：他们不是仅靠最佳模型，而是用两个模型（LASSO 和 Elastic Net）的等权平均作为最终预测源。这是一种简单的模型平均策略，用于改善预测稳定性。
4. 计算预测寿命：对每个 COVID-19 死者，使用上述平均模型，估计其生存曲线
  \[̂(t | X_i)\]
  ，然后求曲线下面积得到预期寿命 Ê[T_i | X_i]。
5. 生成 YLL 分布：对所有 COVID-19 死者，计算 YLL = Ê[T_i | X_i] - 0（因为 YLL 起点是“如果没得病”的生命终点，即 Ê[T | X] 已经是从死亡年龄算起的剩余寿命）。然后按年龄、收入等绘制分布图。
6. 敏感性分析与验证：比较 LASSO 和 Elastic Net 预测的差异；进行了 Bootstrap 重抽样（100次）以量化预测的不确定性（绘制 95% 置信区间）。
关键跳跃点：所有的“跳跃”在于：作者假设，从 2012-2018 年数据中学习到的协变量与生存的关系，可以直接外推至 2020-2021 年的 COVID-19 死者。 这个跳跃没有理论证明，仅靠应用常识。
技术技巧点名：
- 高维生存模型的变量选择：Cox-LASSO / Elastic Net。用于处理大 p（~900）小 n？不对，这里 n 非常大（610万），但 p 依然有 900，LASSO 用于变量选择和正则化，防止过拟合。
- 交叉验证：在 610 万样本上做 10 折 CV，计算量极大，但可并行。这是常规操作。
- 个体水平生存曲线的预测与积分：使用 Breslow 估计器估计基准风险函数 Λ̂₀(t)，再计算个体累积风险 Λ̂(t | X_i) = exp(β̂ᵀX_i) * Λ̂₀(t) 得到预测生存曲线。
- Model Averaging：等权平均两个预测模型来稳定预测。
- 大规模数据处理：用 R 的 data.table 等包处理 600 万 × 930 的数据矩阵。

真实例子与应用¶

用的什么数据/场景：荷兰 50+ 全人口（n=6,102,334）的管理数据。2020-2021 年死于 COVID-19 的所有个体（n≈22,000）。
怎么把本文方法用上去：通过上述步骤。
得到什么结果：已概括在主要结果中。特别地，作者发现在我们看来有些反直觉的结论：最富与最穷的 COVID 死者的 YLL 并不存在显著差异。如果我们假设富人通常更健康、反事实寿命更长，那么同样年龄死于 COVID，富人本应损失更多寿命，但结果却几乎一样。这表明，在控制了众多协变量（特别是共病和医疗利用）后，收入对反事实寿命的贡献在 COVID 死者中并不突出。
这个例子想说明什么：验证理论？（无理论）。展示相对 baseline 的优势？（是的，相比“标准寿命表”方法）。提供政策性见解？（YLL 分布比平均更微妙，“并非只有弱者”死亡）。文章核心是一个应用性验证：用实际数据说明“登峰造极”的统计预测方法（Cox-LASSO + 大规模行政数据）可以但并非凭空改变对 COVID 健康负担的认知——它揭示了之前被平均掩盖的异质性。

四、开放问题¶

对无混杂假设的外推检验：作者假设 T ⟂ Z | X。这个假设可否在 2020-2021 年的数据中得到检验？例如，使用目标试验（target trial）的框架，将 COVID 感染者（而非死者）作为对照？或者用辅助协变量（如养老院分类）进行检验？这个扎根点在“我们假设，给定预测变量，COVID-19 死亡的选择与潜在生存时间无关”这个隐含假设（在方法部分未被显式讨论）。
YLL 度量的因果解释：严格意义上的 YLL 应该是 E[Y(0) - Y(1) | Z=1]。本文的 E[T|X] 是一个条件均值预测，不是严格的反事实。如何将个体化 YLL 放到更严谨的因果框架（比如目标试验、工具变量）下？这需要更正式的识别策略。扎根点：“counterfactual life expectancy”这个术语在引言中使用了，但作者没有用因果推断文献的标准定义作为基石。
变量选择后的推断：本文使用了 Cox-LASSO，但未讨论变量选择后对 YLL 估计与置信区间的影响（post-selection inference）。在给定的高维预测变量下，选择稳定性和推断的不确定性是待解决的问题。扎根点“我们使用交叉验证的 LASSO 选择变量”，但没有提供基于后选择推断的置信区间。
竞争风险下的 YLL：本文未处理死因特异性的竞争风险。一个人因癌症而本就在 2020 年死亡，如果他在感染 COVID 前因其他原因死亡，他的 YLL 为 0。本文方法将此作为删失处理。在竞争风险框架下，死亡的“反事实生存”就不只是 T，而是多个可能的死亡时间。这个更完整的模型如何影响 YLL 分布？扎根点在“我们使用全因死亡率模型”，而不区分死因（是实证选择）。

Maintained by 陈星宇 · Homepage · Source on GitHub