Estimating global and country-specific excess mortality during the Covid-19 pandemic¶

作者: Victoria Knutson, Serge Aleshin-Guendel, Ariel Karlinsky, William Msemburi, Jon Wakefield
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么
超额死亡率（excess mortality）定义为实际全因死亡数与“正常时期”预期死亡数之差，是COVID-19大流行冲击的客观量化指标，免受检测能力与报告政策影响。根本科学问题：在全球范围内，面对不同国家的死亡登记完整性天差地别（从完整月度数据到完全无数据），如何统一估计预期死亡数并量化不确定性，从而给出各国及全球的超额死亡估计。该方向当前成熟度：已有大量建模尝试，但尚无公认的“金标准”；WHO官方估计（本文所描述的方法）代表当前最大规模的系统努力，但仍在持续改进。

发展脉络
- 奠基工作：全球疾病负担（GBD，Murray等 2020）[1]建立了系统性的疾病与死因估计框架，提供了历史死因率和协变量数据，为预期死亡建模打下基础。留下：GBD专注死因构成，不直接回答“总超额”问题。
- 主要进展：Karlinsky & Kobak (2021) [2] 构建了World Mortality Dataset（WMD），汇总103个国家/地区的全因死亡数据，首次实现跨国超额死亡的频更计算。留下：WMD覆盖有限，大量低中收入国家无数据。Jha等 (2022) [3] 通过全国代表性电话调查与卫生设施死亡数据，估计印度COVID死亡为官方报告的6-7倍，揭示官方数据严重低估——但这类调查方法昂贵且难以规模化。
- 当前frontier：Németh等 (2021) [8] 为HMD的STMF项目开发了可视化分析工具；Adair & Lopez (2018) [6] 和Zeng等 (2020) [14] 提出估计死亡登记完整度的经验方法——这些工作聚焦于数据质量，但未给出全球统一估计。
- 本文位置：本文（Knutson等，2023）是WHO官方预估报告（Msemburi等，2022 [12]）的方法论文，首次在统一贝叶斯框架下同时处理三类国家：有完整月度数据、仅有次国家数据、完全无数据，并发布可复现的推断结果。

子线索聚类
1. 数据整合与登记完整度估计：Adair & Lopez (2018) [6]、Zeng等 (2020) [14]、Rao & Gupta (2020) [9] 构建预测死亡登记完整度的统计模型，为数据缺失国家提供调整因子。
2. 局部定点调查：Jha等 (2022) [3]（印度）、Hanifi等 (2021) [4]（孟加拉）、Mwananyanda等 (2021) [5]（赞比亚）、Besson等 (2021) [7]（也门）、Moser等 (2021) [10]（苏丹）、DeGennaro等 (2021) [11]（海地）、Watson等 (2021) [15]（叙利亚）——通过特定人群调查或尸检、墓地卫星图等方式，估算局部超额死亡，揭示官方严重低估。
3. 全球统一建模框架：Msemburi等 (2022) [12] 给出WHO官方估计，本文为其方法学基础。

核心问题与已知瓶颈
- Q1：如何从历史死亡率数据中可靠地预测“正常”预期死亡数？瓶颈：历史数据本身存在登记不完整、时间趋势变化（如老龄化、流行病预处理）、模型误设定。
- Q2：如何利用部分国家（有数据）的信息推断完全无数据国家？瓶颈：协变量需同时有预测能力且所有国家可获取；模型可迁移性无法验证。
- Q3：次国家数据如何外推全国总数？瓶颈：次区域死亡比例随时间变化的假设是否稳健？
- Q4：不确定性如何从预期死亡估计传递到超额死亡的最后区间？瓶颈：多重不确定性源（登记完整性、模型参数、预测噪声）的复合量化。

⚠️ 作者的 framing
作者将缺口 frame 成“需要一种相对简单、可解释且透明的模型，来同时处理三类不同数据质量的国家，并量化不确定性”。他们淡化的是：协变量选择的主观性（文中用GBD历史数据中可得的变量，未讨论变量选择敏感度）；模型对历史趋势外推的强依赖（log-linear假设+时变系数，但未检验非线性替代）。哪些明显该被引用却没出现：① 近年来关于结构性时间序列模型（如 Prophet、STL 分解）在流行病死亡率预测中的应用（例如 CDC 的 flu forecasting 文献）；② 半参数双重稳健方法在反事实预测中的使用（与因果推断中的 IPTW/DR 对应）；③ 针对死亡率报数延迟（delay in reporting）的现时统计（nowcasting）方法（如 Zepeda-Tello 等 2022 的 nowcasting 模型）。这些缺失可能限制模型的及时性与灵活性。

张力
未见明显理论层面的对立结论。但在估计值层面存在显著差异：如印度官方 vs Jha 等（2022）估计相差6-7倍；赞比亚官方 vs Mwananyanda 等（2021）尸检调查。这些差异主要源于数据来源不同，而非方法对立，但揭示了数据质量假设的关键性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚

符号
\( i = 1,\dots, n \)：国家/地区索引
\( t = 1,\dots, T \)：时间点（月份），其中 \( t=1,\dots,T_0 \) 为历史期（pre-pandemic），\( t=T_0+1,\dots,T \) 为 pandemic 期
\( Y_{it} \)：i 国 t 月的实际全因死亡数（部分国家缺失）
\( \widetilde{Y}_{it} \)：i 国 t 月实际全因死亡数的可观测值（注意：对很多国家不可观测）
\( E_{it} \)：期望死亡数，即“正常时期”的条件期望（稍后建模）
\( \mu_{it} \)：posited 泊松均值 \( \mathbb{E}[Y_{it} \mid \text{history}, \text{covariates}] \)
\( \mathbf{x}_{it} \)：p 维时变协变量向量（如人均GDP、医疗资源、老龄化指数）
\( \beta_t \)：p 维时变回归系数（时间变化）
\( \phi \)：过分散参数（overdispersion）
\( \delta_{it} = Y_{it} - E_{it} \)：超额死亡数（目标 estimand）
\( p_{ijt} \)：在第 i 国中，子区域 j 在 t 月的死亡比例（用于次国家模型）
维数：n≈200（国家），T 按月计（historical 约 60-120 月，pandemic 约 24 月）
模型
对于有历史全因死亡数据的国家：\( Y_{it} \sim \text{Overdispersed Poisson}(\mu_{it}) \)，其中 \( \log \mu_{it} = \log E_{it} + \mathbf{x}_{it}^\top \beta_t + \epsilon_{it} \)，\( \epsilon_{it} \) 为过分散随机效应。
预期死亡 \( E_{it} \) 也需建模：用历史期（2015-2019）数据拟合 \( Y_{it} \sim \text{Pois}(\widetilde{E}_{it}) \) 得到 \( \widetilde{E}_{it} \) 作为基准，然后 pandemic 期假定人口结构与历史趋势不变，用时间序列（如季节性 ARIMA）或简单线性外推得 \( E_{it} \) 的预测（本文采用后者，并在 Bayesian 框架中整合其不确定性）。
对于无数据国家：用有数据国家的联合数据拟合 \( \beta_t \) 和 \( \phi \)，然后基于该国协变量预测 \( \mu_{it} \) 作为 \( E_{it} \) 的后验均值。
对于仅次国家数据国家：假设比例 \( p_{ijt} \approx p_{ij} \) 不随时间大幅变化，用多项模型从子区域死亡数推断全国总数。
可观测数据
有完整月度全因死亡数据的国家：观测到 \( \{Y_{it}: t \in \text{historical} \cup \text{pandemic}\} \)，同时有协变量 \( \mathbf{x}_{it} \)。
仅有次国家数据的国家：观测到子区域 j 的历年死亡总数，或 pandemic 期某些子区域的总死亡。
无任何全因死亡数据的国家：只观测到协变量 \( \mathbf{x}_{it} \)。
不可观测量：任何国家的 true “counterfactual” 预期死亡数 \( E_{it} \)（严格反事实），以及超额死亡 \( \delta_{it} \)。它们只能通过模型识别。

第二步：最小内核——两个国家、无协变量、无次国家数据

特例设定：假设只有两个国家 A 和 B。国家 A 有 2015-2019 历史月度全因死亡数据（120 个月）和 2020-2021 数据（24 个月）；国家 B 完全无全因死亡数据（只有2020-2021的协变量，这里暂时忽略）。

期望建模：对国家 A，用 2015-2019 数据拟合一个简单的过分散 Poisson 模型，仅含时间趋势项（如线性趋势 + 12个月季节 dummy）。假设模型为

\[Y_{At} \mid \lambda_{At} \sim \text{Pois}(\lambda_{At}), \quad \log \lambda_{At} = \alpha + \gamma t + \sum_{m=1}^{12} \zeta_m I_{\text{month}(t)=m}.\]

未来预测（2020-2021）下的期望死亡数 \( E_{A,t} = \exp(\widehat{\alpha} + \widehat{\gamma}t + \sum \widehat{\zeta}_m)\)。超额死亡 \( \delta_{A,t} = Y_{A,t} - E_{A,t} \)。

传递到国家 B：假设两个国家有相似的“基础死亡率模式”（即回归系数 α,γ,ζ 可共享），但需对国别固定效应调整。这等价于假设 \( \log \mu_{Bt} = \alpha_B + \gamma t + \sum \zeta_m \)，其中 \( \alpha_B \) 从国家B的协变量来预测（例如用其平均GDP、老龄化指数拟合一个线性回归 \( \alpha_B = \mathbf{x}_B^\top \theta \)）。实际上论文使用了更多协变量和时变系数。

这个最简例子的核心思路：用有数据国家的历史时间序列估计预测死亡率方程，然后借协变量“移植”到无数据国家，预测其预期死亡数；超额死亡等于（如果真实死亡数已知）或（如果未知）进一步预测真实死亡数比较。本文的一般情形只是这个最小外壳加上时变系数、贝叶斯不确定性量化、次国家数据外推、多个国家联合建模的扩展。数学上的核心困难不在于泊松回归本身，而在于数据缺失模式多样、不确定性复合、模型假设在不同国家间的可迁移性未经经验验证。

三、这篇论文做了什么¶

三句话
① 研究了COVID-19疫情期间全球194个WHO成员国的超额死亡估计问题，针对不同数据可用性（完整月度数据、次国家数据、无数据）设计了统一的过分散Poisson贝叶斯框架。
② 核心工具：对有数据国家建立时变系数对数线性预测模型（INLA实现），对次国家数据用多项比例模型（Stan实现），通过协变量将模型外推至无数据国家，并整合预期死亡估计的不确定性。
③ 主要结论：2020-2021年全球超额死亡点数估计为1480万，95%可信区间（13.2-16.6百万），其中中低等收入国家贡献最大。

关键设定与假设（在第二节记号下补全）
- 假设1（过分散Poisson计数）：\( Y_{it} \sim \text{Pois}(\mu_{it}) \) 但允许额外方差 \( \phi \)，实际采用NB2型负二项（方差 = \( \mu_{it} + \phi \mu_{it}^2 \)）。
- 假设2（对数线性模型）：\( \log \mu_{it} = \log E_{it} + \mathbf{x}_{it}^\top \beta_t \)。其中 \( E_{it} \) 是已知的基线预期死亡数（来源于GBD 2019的人口死亡率预测）。注意：\( E_{it} \) 本身是模型输出而非观测数据。
- 假设3（时变系数）：\( \beta_t \) 随时间平滑变化，建模为随机游走（Random Walk）先验。相比于固定系数，允许pandemic期间死亡率结构变化。
- 假设4（协变量集）：包括人均GDP、65岁以上人口比例、糖尿病患病率、吸烟率、医院床位数等20+个变量，全部来源GBD与World Bank，所有国家均有。
- 假设5（次国家比例常数）：对于仅有次国家数据的国家（如印度、中国），子区域j的死亡比例 \( p_{ij} \) 在历史期与pandemic期近似不变。这是很强的假设，论文在补充材料中做敏感性分析（允许轻微变化）。
- 假设6（缺失数据随机的弱化）：无数据国家被视为“模型条件可预测”，即协变量足以解释其与有数据国家之间的系统性差异——但作者承认这无法验证。

相比已有文献：相对于GBD方法（仅死因分解）、WMD（仅使用可得的103国）、WHO简单的线性外推，本文首次实现全部国家的覆盖，且量化了预期死亡不确定性。但对于延时（nowcasting）的处理，本文未像流感预报那样加入延迟校正。

主要结果
- 全球点估计：2020-2021超额死亡 14.8 M（95% CI 13.2-16.6 M）。作者报告“全球超额死亡率”为 120 / 10万人年。
- 国家分布：超额最多的国家是印度（点估4.7 M，区间3.8-5.6 M）、中国（点估0.79 M，区间0.42-1.26 M，讨论中承认不确定较大）、埃及、巴基斯坦、越南等。
- 与官方COVID死亡对比：全球14.8 M vs 官方报告5.4 M（2020-2021），暗示隐性超额巨大。
- 结果稳健性：补充材料中测试了不同预期死亡建模方式（线性 vs 对数线性 vs 季节性ARIMA），超额全球点估计在13.8-15.7 M范围内，灵敏度较小。
- 次国家模型验证：对印度，用次国家模型得到的全国超额死亡率与Jha等（2022）电话调查结果在方向一致但量级偏低（4.7 M vs 3.2-3.4 M的Jha区间）。

证明路线与技术技巧（本文无传统定理证明，但推断路线可拆为技术步骤）
整体路线：数据处理 → 预期死亡建模 → 国家分类建模 → 后验预测 → 发布。
1. 数据组装：从WMD、HMD、GBD收集全因死亡时间序列，从GBD等提取协变量；对缺失数据做插补（如用CRVS完整度调整）。
2. 预期死亡建模：对每个国家，基于2015-2019年数据拟合过分散Poisson模型（只含基础趋势和季节项），得到后验预测均值 \( \hat{E}_{it} \)。这一步骤的不确定性被保留为后验分布。
3. pandemic期建模：使用2020-2021数据，对有完整月度数据的国家拟合联合模型：\( \log \mu_{it} = \log \hat{E}_{it} + \mathbf{x}_{it}^\top \beta_t + \epsilon_{it} \)；对无数据/次国家数据用从步骤3得到的后验分布推得预测。
4. 次级分类：对次国家模型，假设比例常数后，用多项式似然函数 \( Y_{jt} \mid Y_{it} \sim \text{Multinomial}(Y_{it}, p_{j}) \)。本质上是一种贝叶斯因子分解。
5. 不确定性聚合：通过先验抽样—后验推断—预测模拟，得到每个国家的 \( \mu_{it} \) 后验分布，再计算 \( \delta_{it} = Y_{it} - \mu_{it} \)（若\( Y_{it} \)已知）或仅用预测 \( \mu_{it} \) （若未知），最后加总全球。

关键跳跃点：
- 将预期死亡 \( E_{it} \) 视为已知且带有不确定性——这在一般回归中会被忽略，但作者通过贝叶斯框架的“预测分布”将两层不确定性（历史建模 → 预期；预期 → 超额）复合起来。
- 次国家比例常数假设：若该假设违反（如人口大规模迁徙），外推结果会偏差。论文用印度数据做了局部检验（将国家按大州划分，显示历史比例相对稳定），但未做正式假设检验。
- 模型对无数据国家的预测：完全依赖协变量线性关系可迁移，没有后验预测验证，只有通过留一法（leave-one-country-out）检查有数据国家被当作无数据时的预测误差，这一交叉验证未被强调但存在于补充材料。

技术技巧点名：
- INLA (Integrated Nested Laplace Approximation) [13]：用于有数据国家的联合模型贝叶斯推断，利用latent Gaussian模型结构实现快速近似（替代MCMC）。它允许将时间随机游走先验高效编码为稀疏精度矩阵，计算数分钟内完成。
- Stan MCMC：用于次国家多类模型，因该部分参数空间小，MCMC可接受。
- 模型组合：两步法——先估计 \( E_{it} \) 再进回归，实际上是两阶段贝叶斯传播，作者用后验预测模拟整合，而非直接联合推断——这是计算妥协（否则全联合模型会因数据规模过大而不可行）。

真实例子与应用
- 完整数据国：如英国、法国的月度全因死亡来自WMD，直接拟合预期模型得出超额。
- 次国家数据——印度：印度没有全国月度全因死亡登记，但33个州/邦有历史年度数据；pandemic期部分州有高死亡报告。模型假设各州死亡比例保持2015-2019平均水平，然后从已知的一些州疫情死亡数反推全国总和。结果：2020-2021超额约470万。
- 无数据国：如索马里、南苏丹，没有全因死亡时间序列；模型根据其协变量（GDP, 年龄结构, 医院床位数）预测预期死亡率，再与（同样预测的）真实死亡数比较。这类国家的可信区间宽度很大（如索马里区间从0.02M到0.17M）。
- 说明：这个例子想验证理论框架在极端数据缺失下的可操作性，同时警示不确定性量化不可或缺。

🔎 结论是否比证明窄
本文没有传统统计定理（无收敛率、无假设检验），所以“证明”不存在直接问题。但两类声明值得注意：
- 文中称“次国家模型基于比例恒定假设”引入“small sensitivity”（补充材料第6节），但未给出比例偏离多大时导致多大规模偏差的界——对印度，作者承认高估了某些邦的比例变化产生的误差（具体：西孟加拉邦死亡比例从4.8%升到5.7%，导致全国低估约3%），但没有正式敏感性界。
- 文中结论“全球超额1480万”被很多媒体报道为“官方估计”，但作者在文中明确强调“模型假设不可检验，真实值可能落在区间外”——这点在媒体报道中常被忽略。建议研究者亲自去读Msemburi等(2022)报道的新闻稿，看结论是否比论文声明更紧。

四、开放问题¶

预期死亡建模的替代方法
本文只用简单的时间趋势+季节模型拟合历史数据。是否可以用非参数结构（如GBD的时空GP回归、Robinhood的STL分解）给出更稳健的基线？本文在intro中承认这个问题但未尝试。（扎根于论文§3.1“我们采用简洁模型以便透明”，但未说明为什么非参数方法不可行）
次国家比例恒定假设的检验与放宽
若某些区域因疫情出现大规模迁徙（如印度返乡务工潮），比例恒定假设会系统性地低估/高估。如何构建一个对比例变化鲁棒的模型？允许比例有平滑变化或随机游走，同时识别性是否保持？（扎根于§3.3“我们假设比例在历史期与疫情期近似不变”）
报数延迟（reporting delay）的校正
许多国家死亡数据有3-12个月的延迟录入，本文使用“截至2022年3月的可用数据”，未做现时统计（nowcasting）。这导致2021年末的估计可能偏低。如何将死亡登记延迟的分布信息纳入模型？（扎根于§5.1 Limitations：“我们的估计基于截止到2022年3月可获取的数据，可能低估近期死亡”）
模型可迁移性的验证策略
对有数据国家做leave-one-out预测时，论文未提供系统结果。能否构建类似meta-learning中的校准检验，验证明明在不同的国家簇（如西非 vs 东欧）的参数是否显著不同？这可能引出更深的统计问题：如何在缺失回归响应时验证外推假设。（扎根于§5.2“对无数据国家的预测依赖协变量外推，此假设不可验证”）

Maintained by 陈星宇 · Homepage · Source on GitHub

Estimating global and country-specific excess mortality during the Covid-19 pandemic¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论