Estimating global and country-specific excess mortality during the Covid-19 pandemic¶
作者: Victoria Knutson, Serge Aleshin-Guendel, Ariel Karlinsky, William Msemburi, Jon Wakefield
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么
超额死亡率(excess mortality)定义为实际全因死亡数与“正常时期”预期死亡数之差,是COVID-19大流行冲击的客观量化指标,免受检测能力与报告政策影响。根本科学问题:在全球范围内,面对不同国家的死亡登记完整性天差地别(从完整月度数据到完全无数据),如何统一估计预期死亡数并量化不确定性,从而给出各国及全球的超额死亡估计。该方向当前成熟度:已有大量建模尝试,但尚无公认的“金标准”;WHO官方估计(本文所描述的方法)代表当前最大规模的系统努力,但仍在持续改进。
发展脉络
- 奠基工作:全球疾病负担(GBD,Murray等 2020)[1]建立了系统性的疾病与死因估计框架,提供了历史死因率和协变量数据,为预期死亡建模打下基础。留下:GBD专注死因构成,不直接回答“总超额”问题。
- 主要进展:Karlinsky & Kobak (2021) [2] 构建了World Mortality Dataset(WMD),汇总103个国家/地区的全因死亡数据,首次实现跨国超额死亡的频更计算。留下:WMD覆盖有限,大量低中收入国家无数据。Jha等 (2022) [3] 通过全国代表性电话调查与卫生设施死亡数据,估计印度COVID死亡为官方报告的6-7倍,揭示官方数据严重低估——但这类调查方法昂贵且难以规模化。
- 当前frontier:Németh等 (2021) [8] 为HMD的STMF项目开发了可视化分析工具;Adair & Lopez (2018) [6] 和Zeng等 (2020) [14] 提出估计死亡登记完整度的经验方法——这些工作聚焦于数据质量,但未给出全球统一估计。
- 本文位置:本文(Knutson等,2023)是WHO官方预估报告(Msemburi等,2022 [12])的方法论文,首次在统一贝叶斯框架下同时处理三类国家:有完整月度数据、仅有次国家数据、完全无数据,并发布可复现的推断结果。
子线索聚类
1. 数据整合与登记完整度估计:Adair & Lopez (2018) [6]、Zeng等 (2020) [14]、Rao & Gupta (2020) [9] 构建预测死亡登记完整度的统计模型,为数据缺失国家提供调整因子。
2. 局部定点调查:Jha等 (2022) [3](印度)、Hanifi等 (2021) [4](孟加拉)、Mwananyanda等 (2021) [5](赞比亚)、Besson等 (2021) [7](也门)、Moser等 (2021) [10](苏丹)、DeGennaro等 (2021) [11](海地)、Watson等 (2021) [15](叙利亚)——通过特定人群调查或尸检、墓地卫星图等方式,估算局部超额死亡,揭示官方严重低估。
3. 全球统一建模框架:Msemburi等 (2022) [12] 给出WHO官方估计,本文为其方法学基础。
核心问题与已知瓶颈
- Q1:如何从历史死亡率数据中可靠地预测“正常”预期死亡数?瓶颈:历史数据本身存在登记不完整、时间趋势变化(如老龄化、流行病预处理)、模型误设定。
- Q2:如何利用部分国家(有数据)的信息推断完全无数据国家?瓶颈:协变量需同时有预测能力且所有国家可获取;模型可迁移性无法验证。
- Q3:次国家数据如何外推全国总数?瓶颈:次区域死亡比例随时间变化的假设是否稳健?
- Q4:不确定性如何从预期死亡估计传递到超额死亡的最后区间?瓶颈:多重不确定性源(登记完整性、模型参数、预测噪声)的复合量化。
⚠️ 作者的 framing
作者将缺口 frame 成“需要一种相对简单、可解释且透明的模型,来同时处理三类不同数据质量的国家,并量化不确定性”。他们淡化的是:协变量选择的主观性(文中用GBD历史数据中可得的变量,未讨论变量选择敏感度);模型对历史趋势外推的强依赖(log-linear假设+时变系数,但未检验非线性替代)。哪些明显该被引用却没出现:① 近年来关于结构性时间序列模型(如 Prophet、STL 分解)在流行病死亡率预测中的应用(例如 CDC 的 flu forecasting 文献);② 半参数双重稳健方法在反事实预测中的使用(与因果推断中的 IPTW/DR 对应);③ 针对死亡率报数延迟(delay in reporting)的现时统计(nowcasting)方法(如 Zepeda-Tello 等 2022 的 nowcasting 模型)。这些缺失可能限制模型的及时性与灵活性。
张力
未见明显理论层面的对立结论。但在估计值层面存在显著差异:如印度官方 vs Jha 等(2022)估计相差6-7倍;赞比亚官方 vs Mwananyanda 等(2021)尸检调查。这些差异主要源于数据来源不同,而非方法对立,但揭示了数据质量假设的关键性。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据交代清楚
- 符号
- \( i = 1,\dots, n \):国家/地区索引
- \( t = 1,\dots, T \):时间点(月份),其中 \( t=1,\dots,T_0 \) 为历史期(pre-pandemic),\( t=T_0+1,\dots,T \) 为 pandemic 期
- \( Y_{it} \):i 国 t 月的实际全因死亡数(部分国家缺失)
- \( \widetilde{Y}_{it} \):i 国 t 月实际全因死亡数的可观测值(注意:对很多国家不可观测)
- \( E_{it} \):期望死亡数,即“正常时期”的条件期望(稍后建模)
- \( \mu_{it} \):posited 泊松均值 \( \mathbb{E}[Y_{it} \mid \text{history}, \text{covariates}] \)
- \( \mathbf{x}_{it} \):p 维时变协变量向量(如人均GDP、医疗资源、老龄化指数)
- \( \beta_t \):p 维时变回归系数(时间变化)
- \( \phi \):过分散参数(overdispersion)
- \( \delta_{it} = Y_{it} - E_{it} \):超额死亡数(目标 estimand)
- \( p_{ijt} \):在第 i 国中,子区域 j 在 t 月的死亡比例(用于次国家模型)
-
维数:n≈200(国家),T 按月计(historical 约 60-120 月,pandemic 约 24 月)
-
模型
- 对于有历史全因死亡数据的国家:\( Y_{it} \sim \text{Overdispersed Poisson}(\mu_{it}) \),其中 \( \log \mu_{it} = \log E_{it} + \mathbf{x}_{it}^\top \beta_t + \epsilon_{it} \),\( \epsilon_{it} \) 为过分散随机效应。
- 预期死亡 \( E_{it} \) 也需建模:用历史期(2015-2019)数据拟合 \( Y_{it} \sim \text{Pois}(\widetilde{E}_{it}) \) 得到 \( \widetilde{E}_{it} \) 作为基准,然后 pandemic 期假定人口结构与历史趋势不变,用时间序列(如季节性 ARIMA)或简单线性外推得 \( E_{it} \) 的预测(本文采用后者,并在 Bayesian 框架中整合其不确定性)。
- 对于无数据国家:用有数据国家的联合数据拟合 \( \beta_t \) 和 \( \phi \),然后基于该国协变量预测 \( \mu_{it} \) 作为 \( E_{it} \) 的后验均值。
-
对于仅次国家数据国家:假设比例 \( p_{ijt} \approx p_{ij} \) 不随时间大幅变化,用多项模型从子区域死亡数推断全国总数。
-
可观测数据
- 有完整月度全因死亡数据的国家:观测到 \( \{Y_{it}: t \in \text{historical} \cup \text{pandemic}\} \),同时有协变量 \( \mathbf{x}_{it} \)。
- 仅有次国家数据的国家:观测到子区域 j 的历年死亡总数,或 pandemic 期某些子区域的总死亡。
- 无任何全因死亡数据的国家:只观测到协变量 \( \mathbf{x}_{it} \)。
- 不可观测量:任何国家的 true “counterfactual” 预期死亡数 \( E_{it} \)(严格反事实),以及超额死亡 \( \delta_{it} \)。它们只能通过模型识别。
第二步:最小内核——两个国家、无协变量、无次国家数据
特例设定:假设只有两个国家 A 和 B。国家 A 有 2015-2019 历史月度全因死亡数据(120 个月)和 2020-2021 数据(24 个月);国家 B 完全无全因死亡数据(只有2020-2021的协变量,这里暂时忽略)。
期望建模:对国家 A,用 2015-2019 数据拟合一个简单的过分散 Poisson 模型,仅含时间趋势项(如线性趋势 + 12个月季节 dummy)。假设模型为
未来预测(2020-2021)下的期望死亡数 \( E_{A,t} = \exp(\widehat{\alpha} + \widehat{\gamma}t + \sum \widehat{\zeta}_m)\)。超额死亡 \( \delta_{A,t} = Y_{A,t} - E_{A,t} \)。
传递到国家 B:假设两个国家有相似的“基础死亡率模式”(即回归系数 α,γ,ζ 可共享),但需对国别固定效应调整。这等价于假设 \( \log \mu_{Bt} = \alpha_B + \gamma t + \sum \zeta_m \),其中 \( \alpha_B \) 从国家B的协变量来预测(例如用其平均GDP、老龄化指数拟合一个线性回归 \( \alpha_B = \mathbf{x}_B^\top \theta \))。实际上论文使用了更多协变量和时变系数。
这个最简例子的核心思路:用有数据国家的历史时间序列估计预测死亡率方程,然后借协变量“移植”到无数据国家,预测其预期死亡数;超额死亡等于(如果真实死亡数已知)或(如果未知)进一步预测真实死亡数比较。本文的一般情形只是这个最小外壳加上时变系数、贝叶斯不确定性量化、次国家数据外推、多个国家联合建模的扩展。数学上的核心困难不在于泊松回归本身,而在于数据缺失模式多样、不确定性复合、模型假设在不同国家间的可迁移性未经经验验证。
三、这篇论文做了什么¶
三句话
① 研究了COVID-19疫情期间全球194个WHO成员国的超额死亡估计问题,针对不同数据可用性(完整月度数据、次国家数据、无数据)设计了统一的过分散Poisson贝叶斯框架。
② 核心工具:对有数据国家建立时变系数对数线性预测模型(INLA实现),对次国家数据用多项比例模型(Stan实现),通过协变量将模型外推至无数据国家,并整合预期死亡估计的不确定性。
③ 主要结论:2020-2021年全球超额死亡点数估计为1480万,95%可信区间(13.2-16.6百万),其中中低等收入国家贡献最大。
关键设定与假设(在第二节记号下补全)
- 假设1(过分散Poisson计数):\( Y_{it} \sim \text{Pois}(\mu_{it}) \) 但允许额外方差 \( \phi \),实际采用NB2型负二项(方差 = \( \mu_{it} + \phi \mu_{it}^2 \))。
- 假设2(对数线性模型):\( \log \mu_{it} = \log E_{it} + \mathbf{x}_{it}^\top \beta_t \)。其中 \( E_{it} \) 是已知的基线预期死亡数(来源于GBD 2019的人口死亡率预测)。注意:\( E_{it} \) 本身是模型输出而非观测数据。
- 假设3(时变系数):\( \beta_t \) 随时间平滑变化,建模为随机游走(Random Walk)先验。相比于固定系数,允许pandemic期间死亡率结构变化。
- 假设4(协变量集):包括人均GDP、65岁以上人口比例、糖尿病患病率、吸烟率、医院床位数等20+个变量,全部来源GBD与World Bank,所有国家均有。
- 假设5(次国家比例常数):对于仅有次国家数据的国家(如印度、中国),子区域j的死亡比例 \( p_{ij} \) 在历史期与pandemic期近似不变。这是很强的假设,论文在补充材料中做敏感性分析(允许轻微变化)。
- 假设6(缺失数据随机的弱化):无数据国家被视为“模型条件可预测”,即协变量足以解释其与有数据国家之间的系统性差异——但作者承认这无法验证。
相比已有文献:相对于GBD方法(仅死因分解)、WMD(仅使用可得的103国)、WHO简单的线性外推,本文首次实现全部国家的覆盖,且量化了预期死亡不确定性。但对于延时(nowcasting)的处理,本文未像流感预报那样加入延迟校正。
主要结果
- 全球点估计:2020-2021超额死亡 14.8 M(95% CI 13.2-16.6 M)。作者报告“全球超额死亡率”为 120 / 10万人年。
- 国家分布:超额最多的国家是印度(点估4.7 M,区间3.8-5.6 M)、中国(点估0.79 M,区间0.42-1.26 M,讨论中承认不确定较大)、埃及、巴基斯坦、越南等。
- 与官方COVID死亡对比:全球14.8 M vs 官方报告5.4 M(2020-2021),暗示隐性超额巨大。
- 结果稳健性:补充材料中测试了不同预期死亡建模方式(线性 vs 对数线性 vs 季节性ARIMA),超额全球点估计在13.8-15.7 M范围内,灵敏度较小。
- 次国家模型验证:对印度,用次国家模型得到的全国超额死亡率与Jha等(2022)电话调查结果在方向一致但量级偏低(4.7 M vs 3.2-3.4 M的Jha区间)。
证明路线与技术技巧(本文无传统定理证明,但推断路线可拆为技术步骤)
整体路线:数据处理 → 预期死亡建模 → 国家分类建模 → 后验预测 → 发布。
1. 数据组装:从WMD、HMD、GBD收集全因死亡时间序列,从GBD等提取协变量;对缺失数据做插补(如用CRVS完整度调整)。
2. 预期死亡建模:对每个国家,基于2015-2019年数据拟合过分散Poisson模型(只含基础趋势和季节项),得到后验预测均值 \( \hat{E}_{it} \)。这一步骤的不确定性被保留为后验分布。
3. pandemic期建模:使用2020-2021数据,对有完整月度数据的国家拟合联合模型:\( \log \mu_{it} = \log \hat{E}_{it} + \mathbf{x}_{it}^\top \beta_t + \epsilon_{it} \);对无数据/次国家数据用从步骤3得到的后验分布推得预测。
4. 次级分类:对次国家模型,假设比例常数后,用多项式似然函数 \( Y_{jt} \mid Y_{it} \sim \text{Multinomial}(Y_{it}, p_{j}) \)。本质上是一种贝叶斯因子分解。
5. 不确定性聚合:通过先验抽样—后验推断—预测模拟,得到每个国家的 \( \mu_{it} \) 后验分布,再计算 \( \delta_{it} = Y_{it} - \mu_{it} \)(若\( Y_{it} \)已知)或仅用预测 \( \mu_{it} \) (若未知),最后加总全球。
关键跳跃点:
- 将预期死亡 \( E_{it} \) 视为已知且带有不确定性——这在一般回归中会被忽略,但作者通过贝叶斯框架的“预测分布”将两层不确定性(历史建模 → 预期;预期 → 超额)复合起来。
- 次国家比例常数假设:若该假设违反(如人口大规模迁徙),外推结果会偏差。论文用印度数据做了局部检验(将国家按大州划分,显示历史比例相对稳定),但未做正式假设检验。
- 模型对无数据国家的预测:完全依赖协变量线性关系可迁移,没有后验预测验证,只有通过留一法(leave-one-country-out)检查有数据国家被当作无数据时的预测误差,这一交叉验证未被强调但存在于补充材料。
技术技巧点名:
- INLA (Integrated Nested Laplace Approximation) [13]:用于有数据国家的联合模型贝叶斯推断,利用latent Gaussian模型结构实现快速近似(替代MCMC)。它允许将时间随机游走先验高效编码为稀疏精度矩阵,计算数分钟内完成。
- Stan MCMC:用于次国家多类模型,因该部分参数空间小,MCMC可接受。
- 模型组合:两步法——先估计 \( E_{it} \) 再进回归,实际上是两阶段贝叶斯传播,作者用后验预测模拟整合,而非直接联合推断——这是计算妥协(否则全联合模型会因数据规模过大而不可行)。
真实例子与应用
- 完整数据国:如英国、法国的月度全因死亡来自WMD,直接拟合预期模型得出超额。
- 次国家数据——印度:印度没有全国月度全因死亡登记,但33个州/邦有历史年度数据;pandemic期部分州有高死亡报告。模型假设各州死亡比例保持2015-2019平均水平,然后从已知的一些州疫情死亡数反推全国总和。结果:2020-2021超额约470万。
- 无数据国:如索马里、南苏丹,没有全因死亡时间序列;模型根据其协变量(GDP, 年龄结构, 医院床位数)预测预期死亡率,再与(同样预测的)真实死亡数比较。这类国家的可信区间宽度很大(如索马里区间从0.02M到0.17M)。
- 说明:这个例子想验证理论框架在极端数据缺失下的可操作性,同时警示不确定性量化不可或缺。
🔎 结论是否比证明窄
本文没有传统统计定理(无收敛率、无假设检验),所以“证明”不存在直接问题。但两类声明值得注意:
- 文中称“次国家模型基于比例恒定假设”引入“small sensitivity”(补充材料第6节),但未给出比例偏离多大时导致多大规模偏差的界——对印度,作者承认高估了某些邦的比例变化产生的误差(具体:西孟加拉邦死亡比例从4.8%升到5.7%,导致全国低估约3%),但没有正式敏感性界。
- 文中结论“全球超额1480万”被很多媒体报道为“官方估计”,但作者在文中明确强调“模型假设不可检验,真实值可能落在区间外”——这点在媒体报道中常被忽略。建议研究者亲自去读Msemburi等(2022)报道的新闻稿,看结论是否比论文声明更紧。
四、开放问题¶
-
预期死亡建模的替代方法
本文只用简单的时间趋势+季节模型拟合历史数据。是否可以用非参数结构(如GBD的时空GP回归、Robinhood的STL分解)给出更稳健的基线?本文在intro中承认这个问题但未尝试。(扎根于论文§3.1“我们采用简洁模型以便透明”,但未说明为什么非参数方法不可行) -
次国家比例恒定假设的检验与放宽
若某些区域因疫情出现大规模迁徙(如印度返乡务工潮),比例恒定假设会系统性地低估/高估。如何构建一个对比例变化鲁棒的模型?允许比例有平滑变化或随机游走,同时识别性是否保持?(扎根于§3.3“我们假设比例在历史期与疫情期近似不变”) -
报数延迟(reporting delay)的校正
许多国家死亡数据有3-12个月的延迟录入,本文使用“截至2022年3月的可用数据”,未做现时统计(nowcasting)。这导致2021年末的估计可能偏低。如何将死亡登记延迟的分布信息纳入模型?(扎根于§5.1 Limitations:“我们的估计基于截止到2022年3月可获取的数据,可能低估近期死亡”) -
模型可迁移性的验证策略
对有数据国家做leave-one-out预测时,论文未提供系统结果。能否构建类似meta-learning中的校准检验,验证明明在不同的国家簇(如西非 vs 东欧)的参数是否显著不同?这可能引出更深的统计问题:如何在缺失回归响应时验证外推假设。(扎根于§5.2“对无数据国家的预测依赖协变量外推,此假设不可验证”)
Maintained by 陈星宇 · Homepage · Source on GitHub