The cumulative incidence and infection hospitalization risk of SARS-CoV-2 by variant: a longitudinal study in England¶

作者: Charlotte Gaughan, David Braunholtz, Leanne Massie, Tarnjit Khera, Paul J Birrell et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: University of Cambridge（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf203

一、领域脉络与小综述¶

这个方向是什么：本子方向聚焦于利用大规模、纵向、概率抽样的监测调查数据，在人口水平上估计急性呼吸道传染病（如 COVID-19）的累计发病率（一段时期内总的新感染比例）和感染住院风险（IHR，感染后住院的概率）。其根本科学问题是：在存在无症状感染、有症状感染者检测行为差异、以及随时间急剧变化的流行态势（变异株更替、疫苗引入、自然免疫力波动）时，如何从设计的纵向检测数据中，尽可能无偏地估计这些关键流行病学参数？当前成熟度**：在 COVID-19 大流行期间，该方向方法论得到极大推动，从依赖医疗系统病例报告的被动监测，转向主动设计、概率抽样的纵向队列。MRP（multilevel regression and poststratification）已成为处理此类复杂调查数据的标准方法之一。
发展脉络（history）：
1. 奠基工作——概率抽样调查与发病率估计：在 COVID-19 之前，估计传染病发病率的基石是血清流行病学调查。这些工作通常使用横截面或短期的概率抽样，结合血清学阳性率指标，但难以很好地区分新发感染与既往感染，且对快速传播的呼吸道疾病，横截面设计会滞后于流行病学动态。本文直接引用了几项关键的英国 COVID-19 监测工作，尤其是Pouwels et al. (2020-2021) 的报告（本文引用句："The COVID-19 Infection Survey (CIS) was a large, longitudinal survey... primary analysis... presented in a series of reports...") 这些报告奠定了 CIS 的设计和早期病毒流行率的描述性分析。Vihta et al. (2021-2022) 的工作（同样被本文引用，主要引用于方法部分，用于定义病毒变异株主导时期）展示了如何基于基因组监测数据，将时间轴划分为以不同变异株（Alpha， Delta, Omicron）主导的“epoch”，这一划分本身就是当时的方法创新。
2. 主要进展——MRP 方法引入流行病学：MRP 被广泛用于将调查数据中的非代表性样本推断至总体。本文引用了 Gelman et al. (2018) 等关于 MRP 的经典教材和软件包，但更重要的是，他们直接提到了 Zhang et al. (2021) 的论文：“Multilevel regression and poststratification for estimating the number of SARS-CoV-2 infections in the United States”。这篇被引文献（摘要中提及）正是将 MRP 系统性地应用于美国 COVID-19 流行的先驱工作。本文引用了它，暗示该方法论基础在该领域已被建立并被接受。
3. 当前 frontier——通过纵向模型和感染持续时间分布估计累积发病率：直接从每日阳性率估计累积发病率需要解决一个核心困难——个体感染的“重复检测”和“检测阳性状态的持续时间”未知。之前主要进展提供了流行的静态横截面信息 (prevalence)，而本文则结合了阳性持续时间分布从纵向数据中估计累计发病率 (incidence)。作者自行开发的思路是使用“pseudo-cohort”方法，将每日阳性率 (prevalence) 的估计值，结合从纵向个体层面估计的阳性持续时间分布 (duration of positivity, 由另一个模型给出) 来反推 incidence。引用句“(2) a distribution of the duration of positivity from regular testing data.” 口子在于：这个持续时间分布仅基于感染者检测阳性的数据（subset），并且假设其在所有未观察感染者中一致，这会导致对 incide 估计的偏倚，特别是对无症状/轻症感染者，其阳性持续时间可能更短。
4. 本文的位置：本文直接将上述三个工作流——概率抽样队列、MRP 估计每日流行率、感染持续时间分布——结合起来，形成一套完整的、从纵向抽样数据到累计发病率和 IHR 的估计 pipeline。它是这一 Pipelining 方法的具体应用和验证，而不是方法论上的基础性突破。它连接了前人工作，并提供了一个有清晰代码和数据（虽是英国特有）的可复现范例。
子线索聚类：
- 线索 A：感染状态流行率估计（该类工作主要贡献是“状态估计”） : 使用 MRP 或类似分层贝叶斯模型，结合纵向调查数据（如 CIS、US COVID-19 Household Pulse Survey），估计每日/每周的检测阳性率（prevalence）。典型工作：Pouwels et al. (CIS)， Zhang et al. (2021, US)。
- 线索 B：感染过程和参数估计（“进程估计”） : 建模感染本身的时间过程——从暴露到传染性出现、检测阳性持续期限、症状出现和消退。这通常需要密集的检测队列或家庭接触者追踪数据。典型工作：Kissler et al. 的建模研究，但本文使用的是来自 CIS 同一数据集的内部估计。Cauchemez et al. 提出的使用重复检测数据的模型，本文可能间接借鉴。
- 线索 C：社会的人口层面的风险分层（“干预效果估计”） : 估计感染后住院、死亡或入住 ICU 的风险（IHR, IFR）。这些风险随时间、年龄、变异株、疫苗状态、既往感染而急剧变化。这是本文最终回答的核心流行病学问题。它依赖于线索 A 和 B 的产出作为 denominator (总感染人数)。
这个方向在追问的核心问题：
1. 偏差 vs. 精度权衡：主动调查队列（如 CIS）会选择样本，但无应答、自选择（参加后更可能检测，有症状者更可能同意）会引入偏倚。如何建模并校正这些偏倚？本文用 MRP 修正 poststratification 变量（年龄、地域、性别、种族等可观测特征），但对不可观测的“检测意愿”和“感染后自动退队”这类更隐蔽的偏倚，几乎未做处理。
2. 感染持续时间分布的泛化性：阳性持续时间分布对疫苗、变异株、个体免疫史等高度敏感，且数据中仅包括已检测的人。对于一个对所有感染都估计 universal 的持续时间分布，会严重低估那些不经常检测、症状较轻者的感染持续，导致 incidence 的高估。本文是否验证了这一假设的稳健性？
3. Cumulative Incidence 的累积误差：累计发病率是从每日 incidence 累积的。每日 incidence 的估计误差会累积，导致长时期（如整个 Omicron 纪元）的累计发病率估计方差巨大且难以量化。本文对这点是如何处理的？
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）：
- 作者的缺口：他们 framing 为“尽管纵向调查可以直接测量 prevalence，但要得到 cumulatie incidence 需要结合感染持续时间分布，后者常被忽视”。这是他们文章最核心的 gap claim，也是他们方法论贡献的“显然的下一步”。
- 被淡化或回避的竞争路线：作者完全没有讨论或引用基于病例报告与低估因子校正 (under-reporting factor) 的替代性估计方法。例如，WHO 或 ECDC 常采用的基于流感死亡模型或血清阳性率的间接估计。他们有意地把自己框定在“只用纵向调查数据，绕过医疗系统病例报告”的方法论阵营里。这既是优势（无偏？）也是局限（只覆盖住宅人群，无法处理养老院/医院人群）。
- 什么明显该被引 / 该存在、却没出现在 intro 里？：论文没有引用或对比同一数据集（CIS）同时期的其他方法论文。例如，有没有人用反事实回归法 (contrastive learning) 或G-computation 来校正因检测行为差异导致的 catch-up bias？由于同一数据集有多家研究团队在用，缺少横向对比是一个明确的“值得研究者去查”的 gap（用户应去 Google Scholar 搜索 "COVID-19 Infection Survey incidence estimate **method** 2022/2023" 看有无类似工作）。
张力：未见明显对立引用。所有主要引用都指向一个共识——纵向调查 + MRP 是主流方法，而感染持续时间分布是关键的未建模变量。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚：
- 符号：
  - \( t \) (下标, 时间): 研究进行的天数，从2020年4月26日至2023年3月13日，共约1060天。
  - \( i \) (下标, 个体): 451,079 名参与者。
  - \( Y_{it} \): 一个二元变量 (1 = 阳性, 0 = 阴性 / 未检测)，是核心随机变量。观测到的是个体在检测日的检测结果。
  - \( X_i \): 个体 \( i \) 的固定特征（年龄、性别、地域、种族、居住密度等），是observational，用于 MRP。
  - \( Z_i \): 个体 \( i \) 可能随时间变化的状态（疫苗接种状态、既往感染史），用于分层。
  - \( \beta(t) \): 要估的的参数。代表时间 \( t \) 点未调整人群总体阳性风险的对数优势截距（MRP模型的核心 coefficient）。
  - \( \theta_j \): 要估的。从 MRP 模型估计的各后分层变量（如年龄70+ vs 30-39）的随机效应截距。最终每日阳性率 \( \hat{p}_{t} \) 是由 \( \beta(t) + \sum \theta_j \) 预测的。
  - \( N_c \): poststratification 的每个 stratum \( c \) 在总体中的数量（已知，来自 Office of National Statistics）。
  - \( D_{pos} \): 一个随机变量，描述感染后被检测为阳性的持续时间（天）。本文引入的重点——不是已观测到的，而是由另一个模型从纵向数据中估计的（\( \hat{f}(d) \)）。它的分布是：\( D \sim \) Gamma, Weibull 等，形状/尺度参数被估计。
  - \( r_{t} \): 要估的目标参数之一——在时间 \( t \) 的每日新发感染率（incidence）。直接观测不到，需要由 \( p_t \) 和分布 \( D \) 的逆卷积（反推）（见下）。
  - IHR: 感染住院比值（Infection Hospitalization Ratio）——一次感染导致住院的风险，要估的。计算方式 = (某时期内的COVID住院人数) / (该时期内的总新发感染人数)。前者来自行政数据（住院记录），后者来自上述的累计发病率估计。
- 模型：
  1. MRP模型：最简单的逻辑回归 (Logistic regression) 模型拟合在观测数据集上，但包含个人水平随机效应。时变截距 \( \beta(t) \) 是平滑的（采用时间样条）。
    \[logit(P(Y_{it}=1|X_i, Z_{it})) = \beta(t) + \sum_{j} \theta_j(X_{ij}, Z_{ijt})\]
    其中 \( \theta_j \) 是按后分层变量分组的随机效应。然后用这个模型对所有后分层单元格 \( c \) 预测它们每日的阳性概率 \( \hat{P}_{ct} \)，再用已知总体数量 \( N_c \) 做加权平均，就得到每日总体阳性率 \( \hat{p}_t \):
    \[\hat{p}_t = \frac{\sum_{c} N_c \cdot \hat{P}_{ct}}{\sum_{c} N_c}\]
  2. 感染持续时间模型：感染后阳性持续时间 \( D \) 分布是外部估计的，例如，使用阴性对照检测结果和阳性后的复阴检测来拟合一个参数分布。作者没有具体选用哪个参数族（Gamma, Weibull 等），方法引用的是内部报告。
  3. 累积发病率计算 (关键逆卷积)：根据“流”平衡方程，库存 = 流入 - 流出。在流行病学中，瞬时阳性人数（库存）等于新进来的（每日 incidence）乘上他们在阳性池里的停留时间。更精确的逆卷积公式 (Botto et al. 2005, 被引 cited):
    \[p_t = \sum_{d=0}^{\infty} r_{t-d} \cdot S_{d}\]
    其中 \( S_d \) 是一个感染者在阳性后持续至少 \( d \) 天的概率（由 \( \hat{f}(d) \) 计算得出）。那么，可通过解这个卷积方程从 \( \hat{p}_t \) 反推出 \( \hat{r}_t \)。然后 \( Cumulative Incidence = \sum_{t} \hat{r}_t / N_{total} \)。
- 可观测数据：
  - 直接观测到：
    1. 在时间 \( t \) 对个体 \( i \) 做的 PCR 检测结果 \( Y_{it} \)（阳性/阴性）及其日期。
    2. 个体的静态变量 \( X_i \)（年龄，居住区域，性别）及随时间变化的 \( Z_{it} \)（疫苗剂量，既往阳性检测日期）。
    3. 来自 NHS 的住院数据库，包含新冠相关入院事件（日期、年龄、地域）。
  - 观测不到：
    - 真正的感染时间。检测阳性是在感染一段时间后才会出现。
    - 无症状感染者的感染时间，如果不测就永远不知道。
    - 个体层面的真实感染持续时间 \( D_{i} \)——即使频繁检测，一个个体变为阴性的时间点也是离散化且不确定的（连续检测间有间隔）。
    - 未参与调查的人群（如养老院中的老年人）的感染状况和被检测意愿的偏倚效应。
第二步：讲最小内核：支撑整篇论文的最小内核在于一个“逆卷积”过程，它连接了容易估的“流行率” 和真正想要的“发病率”。
- 最简特例：假设感染后所有人阳性恰好持续固定天数，比如 \( D=10 \) 天。并且假设每日流行率 \( p_t \) 已被完美估计。那么，要估计时间 \( t \) 的发病率 \( r_t \)。根据流平衡，时间 \( t \) 的流行率 \( p_t \) 等于时间 \( t \) 新感染的人，加上过去 \( 10-1=9 \) 天里每天新感染的人（因为他们还处在阳性期）：
  \[p_t = r_t + r_{t-1} + r_{t-2} + \dots + r_{t-9}\]
  这是一个非常简单的方程组。如果我知道了所有这些 \( r \) 我没法一下子推出。但我们可以追踪检验，因为有新的 \( p \) 序列。
  
  实际上，期望可以写成简单的递推：
  \[r_t = p_t - p_{t-1} + r_{t-10}\]
  证明：\( p_t - p_{t-1} = (r_t + r_{t-1} + \dots + r_{t-9}) - (r_{t-1} + r_{t-2} + \dots + r_{t-10}) = r_t - r_{t-10} \) → \( r_t = (p_t - p_{t-1}) + r_{t-10} \)。
  
  这个递推中，\( r_{t-10} \) 是未知的。但对于早期（t < 10），可以设定初始值（如 \( r_1 = p_1 \), \( r_2 = p_2 - p_1 \) 等）并使用脉冲。现实中，我们不知道确切的 D，而是有分布。
- 一般化：最小内核就是只改变 D 为随机分布 \( \text{Pr}(D = d) = f_d \)。上式变为：
  \[p_t = \sum_{d=0}^{\infty} r_{t-d} \cdot \text{Pr}(D \geq d) = \sum_{d=0}^{\infty} r_{t-d} \cdot S_d\]
  其中 \( S_d = \sum_{k=d}^{\infty} f_k \) 是存活概率（阳性状态持续至少 d 天的概率）。解这个卷积方程（反卷积）尤其新意。如果 \( S_0 = 1 \)，则：
  \[p_t = \sum_{d=0}^{\infty} S_d \cdot r_{t-d} = r_t + \sum_{d=1}^{\infty} S_d \cdot r_{t-d}\]
  本文的关键想法就是：在每个时刻 \( t \)，通过 MRP 我们得到 \( p_t \)；通过纵向数据我们得到 \( S_d \) (定义在可以被参数化的分布族上)。然后利用反卷积的计算（Botto 2005) 来同时识别并解出 \( r_t \) 序列。这要求 \( S \) 的分布是“已知”的（建模参数被估计），这是一个很强的假设（infection duration 在人群水平是个常数分布）。这篇论文在数学上干的事就是把这个从理想、均匀的逆卷积过程应用到了有随机持续时间和非连续检测的实际数据中，并生成了累积发病率。

三、这篇论文做了什么（本次重心）¶

三句话：
1. 研究了什么问题：在纵向概率抽样调查（COVID-19 Infection Survey）数据基础上，估计了2020年4月至2023年3月英格兰不同SARS-CoV-2变异株（Alpha, Delta, Omicron）主导时期内的累计发病率与各年龄段的感染住院风险。
2. 核心工具 / 方法：多层回归与后分层 (MRP) 被用于从非完美代表性调查数据推断每日人群阳性流行率；结合从同一调查纵向数据估计的检测阳性持续时间分布，应用反卷积（Botto模型）从阳性流行率估计每日新发感染率；再与住院数据结合估计感染住院风险 (IHR)。
3. 主要结论：累计发病率在不同变异株时期差异巨大，Omicron 时期最高（如 BA.2时期达31%人口新感染）；感染住院风险（IHR）在疫苗出现和 Delta 后明显下降并维持低位，但存在显著的年龄梯度（儿童最低，老年人最高），且这一梯度随时间保持不变。
关键设定与假设：
- 数据来源假设：CIS 的住宅人口（排除养老院等机构）能够代表全英格兰人口。这是一个强假设，因为养老院是高危人群。作者未加讨论。
- MRP模型假设：
  1. 可忽略性 (ignorability)：给定观测到的地域、年龄、性别等后分层变量后，个体是否参与检测和检测结果相关（即“检测意愿”带来的偏倚可以完全被这些变量解释）。这在流行病学中不必然成立：不参与检测的人群可能是无症状或害怕住院，其阳性风险与有症状被检测人群的系统性差异不能由这些观测到的变量解释。
  2. 时间平滑假设：在 MRP 模型中，主时间效应 \( \beta(t) \) 被建模为平滑样条。这意味着大的流行波动被假设为平滑可预测的，但实际感染高峰可能很锐利。
- 感染持续时间分布假设：这个分布 D 是从整个调查数据（病毒载量序列）估算的。它被假设为（1）在整个人群中唯一且恒定（不随变异株、疫苗状态、年龄变化而变化），（2）从那些有多次检测数据（即被密集跟踪的个体）得出的分布，能代表所有感染者的分布。这是本文最关键也最可能偏倚的假设——从感染到检测阳性、到转阴的时间，在变异株更替、疫苗诱导免疫下变化巨大。如果 Omicron 时期阳性持续普遍缩短（如文献支持），这一未加区分的持续时间分布会导致显著高估 incidence。作者在 "Abstract" 中写“should be complemented by dense sampling to estimate duration of infection”，间接承认了这一局限。
- 住院数据完整性：所有被感染且住院的事件都会被准确记录到NHS 数据中。无明显的二流检测、医院转院漏报。
主要结果：
1. 累计发病率估计：
  - 在Pre-Alpha (2020年4月-2021年5月) 时期，累计感染率为7.5%。
  - 在Alpha (2020年11月-2021年5月) 时期，上升到9.4%。
  - 到Delta (2021年5月-2021年12月) 时期，已达18.3%。
  - 到Omicron BA.1 (2021年12月-2022年3月) 时期，惊人地攀升到 62.4%；Omicron BA.2 (2022年3月-2022年6月) 再攀升到 88.7%。
  - 解释：这表明每次新变异株（尤其是Omicron）带来大范围的再感染，既往感染对此保护有限（"High cumulative incidences in successive Omicron-dominant epochs are consistent with lack of protection from previous infections"）。
2. 感染住院风险 (IHR) 估计：
  - 整体 IHR：在 Pre-Alpha 时期最高 (2.0%)，到 Delta 时下降到 1.0%，到 Omicron 时期维持低位（BA.1: 0.6%， BA.2: 0.4%）。这里与基线对比强烈：疫苗 + 变异株内在毒力下降，让 IHR 下降>5倍。
  - 年龄分层 IHR：这是本文最重要的分层结果。年龄梯度极其显著：在 Omicron 时期，0-17 岁的 IHR 为 0.02%，18-49 岁为 0.07%，50-64 岁为 0.2%，65-74 为 0.6%，75+ 为 3%。这意味着最年长组的感染住院风险是最年轻组的100多倍，且这个梯度随时间几乎没有缩小。
  - 稳健性：论文未详细进行敏感性分析（如改变感染持续时间分布参数或 MRP 的 poststratification 变量），这更像是单一的“研究结果”而非“方法稳健性论证”。读者需要信任他们的方法是准确的。
证明路线 / 方法路线：
- 类型：应用型（实证）。无严格的“证明路线”。但分析方法本身可以结构化理解：
  1. 数据清洗与分层变量定义：合并检测数据、疫苗接种状态、地域、人口统计数据。将时间轴划分至 epochs。
  2. MRP 模型拟合：使用 R 包 brms 拟合贝叶斯多层回归模型。预测所有后分层单元格的每日阳性概率，加权求和后得到每日流行率（prevalence）估计 \( \hat{p}_t \)。
  3. 估计感染持续时间分布：利用调查中高频检测队列的数据（曾在阳性后有多次检测记录者），估计阳性持续时间分布 (Duration of positivity) ，参数化一个生存模型（可能是对数正态或伽玛）得到 \( S_d \)。
  4. 反卷积与累积发病率：应用 Bottso模型（投稿 & 使用逆乘法），从 \( \{\hat{p}_t\} \) 和 \( \{S_d\} \) 解卷积，得到每日 incidence 的估计 \( \hat{r}_t \)。对所有 t 累加 \( \hat{r}_t \)，得到总时期内的累积新发感染数，除以人口总数得到累积发病率。
  5. 估计 IHR：从 NHS 获得各时期、各年龄组的Covid住院计数。除以（同期）总新发感染（即累积发病率×当时人口数），得 IHR。
- 关键跳跃点：从可观测的每日流行率 跳过不可观测的每日发病率的桥梁，就是对外部估计的感染持续时间分布的依赖。这是作者对于解决该问题最核心的方法论证。但如前所述，它也是最强假设落点。
- 技术技巧点名：
  - MRP (多变量/多层回归 + 后分层)：这是流行病学中的标准工具。主要用于在非完美调查数据中，用贝叶斯模型调整已知的 confounding（年龄，地域，种族等），做人数加权，从而推断总体。
  - 反卷积 (Deconvolution)：用于从 time series 的 “库存”（prevalence）和 “库存停留时间”（positivity duration, \( S_d \)）来反推“流入”（incidence）。这里使用了 Bortol (2005) 提供的方法，不是作者自创。
  - 生存分析的右删失与外部估计：估计感染持续时间的部分是生存分析的经典问题。但由于数据是被动随访的（检测时间不等），他们只能估计在观察到的阳性期（所谓 truncated），所以该方法可能高估或低估真正持续时间，取决于删失模式和检测密度。
真实例子与应用（有就一定要讲）：
- 用的什么数据 / 场景：英格兰 COVID-19 感染调查（CIS），2020年4月26日 - 2023年3月13日。评估不同变异株主导时期，英格兰住宅人口（约5600万）的感染负担与风险。
- 怎么把本文方法用上去：作者实际是分析了完整数据：
  - 将时间轴划分成6个 epochs: Pre-Alpha, Alpha, Delta, Omicron BA.1， BA.2， BA.4/BA.5。
  - 对每个 epoch 分别估计累积发病率，并对整个研究期间的所有感染事件，按年龄阶层估计感染住院风险。
  - 这里关于方法的重点：IHR 是“一个数”（风险），而不是一个随时间波动的曲线。累计发病率是累积的。这意味着他们的分析是分块的。例如Omicron BA.1时期累计发病率高，则除非住院人数猛增，否则 IHR 自动降低；如果我们知道Omicron本身的感染人数基数巨大，IHR 为0.4%意味着仅在英格兰就有约59万人住院？这一结果似乎合理。
- 得到什么结果：见前面“主要结果”部分。主要结果揭示了巨大的变异株时间异质性和年龄梯度。
- 这个例子想说明什么：
  1. 验证理论/方法价值：展示纵向队列（CIS）的价值——它提供了比病例报告更全的感染数据，能定量“真正的”无症状感染和新发感染。
  2. 展示相对 baseline 的优势：对比单纯的病例报告统计，他们能估计在高感染下的低住院风险，否则仅看病例报告会在感染低谷时高估IHR。通过清晰地估计incidence（分母），使得更准确的风险评估成为可能。
🔎结论是否比证明窄？ 是的，最关键的是：
- 他们在 IHR 计算中假设所有感染（由他们的方法识别）面临的住院风险是一个常数，与其发生时的疫苗接种状态、年龄、既往感染史无关。他们在文中虽做了年龄分层，但没有做年龄疫苗接种状态变异株的分层。这明显比假设要更窄——他们无法估计接种疫苗对这个风险的效应。文中有一句“remained low after the Delta-dominant epoch and vaccine introduction”仅将时间与“疫苗引入”混为一谈，但没有分解是疫苗还是感染导致的免疫力。这在因果关系上是重大局限。
- 他们从未对“一个感染者在时间 t 的急性感染的持续时间跟你用总人群的数据估计的持续时间一样长”这个假设进行敏感性分析。但他们在摘要明说是“局部数据估计”，使用了“regular testing data”，但对于那些因有症状而频繁检测的病例，阳性的持续时间可能更长，从而系统性偏倚分母。

四、开放问题（点到为止，扎根具体语句）¶

忽略内部变异株异质性对IHR的影响：论文将变异株分为 epochs，但同一 epoch 内可能同时有多种变异株以不同比例流行。他们是否通过建模它来更准确估计 IHR？扎根在论文时长划分的论述处——它只是粗略的“dominant epoch”，但真实流行病学是混合的。一个开放问题是：能否对非主导变异株的干扰（co-circulation）进行校正？ 比如用基因组数据做更精细的时间建模。
选择偏倚的敏感性分析：论文用 MRP 修正了观测 variables 的 bias，但对“因担心住院或因无症状而选择性不参加调查”的不可观测偏倚缺乏建模。一个开放问题是：能否开发一个具有倾向性得分校正或双稳健估计的 incidence 估计框架？这需要研究者查看 “sensitivity analysis for selection bias in cumulative incidence” 相关文献。本文完全没有做此类分析。作者仅在抽象中模糊提到“should be complemented by dense sampling”，但这不是校正方案。
MRP 作为 incidence 估计基础的替代方案：他们用 MRP 估计 prevalence，但假如 MRP 中拟合的模型不正确（时间趋势假设被打破），产生的影响会被放大到 incidence 估计。一个更稳健的方法是：用不假定具体建模形式的非参数/半参数飘移模型来估计 incidence。比如，用反事实回归 (Contrastive Regression) 或 倾向评分匹配 在某个后分层单元格上，而不是依赖对数回归的随机效应模型。探索这种替代方法是否存在比 MRP 更好的偏倚-方差权衡，是一个非常 open 的统计问题。
长期累积免疫的估计：Omicron 高峰后，很大一部分人已感染。反复感染、短期保护与长期免疫记忆如何综合影响未来风险？本文判断仅局限于疫情防控阶段，而未对后续出现新的变种时，人群免疫基础的数据进行建模估计。 这个开放问题是扎根于“High cumulative incidences in successive Omicron-dominant epochs are consistent with lack of protection from previous infections”这一句——它只说了既往感染保护有限，但它没有定量地、数学上地说“保护的大小和衰减速度是多少”。这是一个既有长期队列，就能被更好地解决的建模问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

The cumulative incidence and infection hospitalization risk of SARS-CoV-2 by variant: a longitudinal study in England¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（本次重心）¶

四、开放问题（点到为止，扎根具体语句）¶

评论