Comparative Evaluation of COVID-19 Vaccine Effectiveness During Omicron Using Conventional and Causal Inference Approaches in a Longitudinal Cohort¶

作者: Jade Yangyupei Yang, Jennifer Head, Amy Callear, Matthew Smith, Emileigh Johnson et al.
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1097/01.ede.0001193372.55415.f3

一、领域脉络与小综述¶

这个方向是什么¶

本文贡献的是 COVID-19 疫苗有效性（VE）在 Omicron 变种流行期间的因果估计比较。该子方向解决的统计根本问题是：在纵向队列中，暴露（疫苗接种状态）随时间变化、受时变混杂（如既往感染、行为改变）影响，且存在删失（失访、死亡、退出），如何可靠估计疫苗对症状性感染的平均因果效应？当前成熟度：方法论工具箱（g-methods, TMLE）已成熟，但在真实队列中对比多种方法、暴露于机器学习规格下的实际表现差异的应用研究仍然稀缺——尤其当真实 VE 接近零或较小时，方法选择对结果有决定性影响。

发展脉络（基于 abstract 及领域通用知识构建）¶

奠基工作——Robins (1986, 1997) 提出 g-computation 算法 和 边际结构模型 (MSM)，奠定了在时变混杂下估计因果效应的框架。Hernán & Robins (2020) 系统化这些方法并推广至疫苗研究。
主要进展——van der Laan & Rose (2011, 2018) 提出 目标最大似然估计 (TMLE), 整合了机器学习与双稳健估计，实现了在非参数或高维协变量下的半参数有效推断。同期，参数 g-formula (Snowden et al., 2011; Taubman et al., 2009) 被提出作为直接拟合结局机制的替代方案，适用于连续时间或有序时间。
当前 frontier——COVID-19 大流行催生了大量 VE 估计文献，但多集中在传统的 pooled logistic 或 Cox 模型，较少系统性比较因果推断方法与传统方法在 Omicron 时期的差异。部分研究 (e.g., Patel et al., 2023) 指出 Omicron 免疫逃逸导致 VE 很低或为零，但未深入分析时变混杂带来的偏倚方向。
本文位置——本文作者将自身定位为 在真实的纵向家庭队列中，直接比较四种方法（传统 logistic、IPTW+IPCW、g-formula、TMLE）在同一个数据集上的差异，特别关注当 VE 估计接近零时（2022–23 季）各方法的结果发散程度，以及 ML 规格（TMLE 中使用的超学习）能否改善因果解释的稳健性。作者认为这样的比较是建立 vaccine effectiveness 方法学共识所必需的步骤。

子线索聚类¶

被引文献（由 abstract 及领域常识推断）大致落在三条子线索：

传统回归类方法（pooled logistic）：将纵向数据展开为 person-time 记录，用二项回归（或逻辑回归）调整基线混杂。缺点是难以处理时变混杂和动态暴露。
逆概率加权类方法（IPTW+IPCW）：通过估计治疗概率权重建构伪群体，使暴露均衡；再结合删失概率权重处理信息删失。优点是无须指定结局模型，但对治疗模型正确设定敏感，且可能存在极端权重。
结构化因果模型类（参数 g-formula 和 TMLE）：直接估计结局条件期望的函数（g-formula 通过 Monte Carlo 模拟；TMLE 通过初始估计 + 影响力函数更新）。两者都是双稳健的（TMLE 更彻底），但 TMLE 允许使用数据自适应基学习器（ML）来减少模型错误设定。

核心问题（2–4 个）¶

当真实 VE 接近零时，不同估计方法的偏差方向与方差如何？ 传统回归可能被时变混杂偏倚（如感染与否影响后续接种意愿）污染。
在存在数据适配性 ML 的情况下，TMLE 是否会因过拟合或超学习的不稳定性而导致有限样本表现劣于参数 g-formula？
如何处理重叠暴露（多次感染与多次接种）的时序复杂性——尤其是将“当前季节疫苗”作为暴露时，如何定义“未接种”参考组（包括既往感染者）？
删失（失访、死亡）的非随机性如何通过 IPCW 或 g-formula 中的删失调整被识别？

⚠️ 作者的 framing（必须标注为作者说法）¶

作者在 abstract 中将本文的贡献 frame 成：“agreement among causal inference and conventional models supports robustness...causal inferences and ML approaches can strengthen causal interpretation in real-world vaccine studies.” 即：发现四种方法在 2023–24 季（VE 中等）上基本一致，强化了疫苗保护性的结论；但在 2022–23 季（VE 近零）中 TMLE 显著为正而其他不显著，这被解释为 TMLE 可能更好地控制了混杂、从而揭示了真正的保护效应。作者回避了这样的可能性：TMLE 的显著结果可能是多重比较或 ML 引起的有限样本乐观偏差——他们未在 abstract 中讨论 TMLE 置信区间的覆盖概率或 type-I 误差膨胀。明显该被引却没有出现在 intro 中（由于未提供 intro，此条为推测）：诸如 g-estimation、广义边际结构模型 或 给感染作为时变协变量的结构嵌套模型 这类替代方法未被纳入比较，可能因为数据限制或作者选择聚焦于传统与标准 g-method 的对比。

张力¶

未见明显对立引用（不同方法在理论上的兼容性大于矛盾）；但不同方法在 2022–23 季的定性结论分歧（TMLE 显著 vs 其余不显著）本身就是 实证层面的张力，是这篇论文的核心发现之一。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

为理解论文的全部方法，用一个两季节、无删失、无换季接种的简化设定来统一记号：

时间索引：季节季 \( t = 1 (2022-23), t = 2 (2023-24) \)。个体 \( i \) 在季节季的开始时刻（疫苗推广日）被记录。
协变量：基线协变量 \( V_i \)（年龄、性别、基础疾病、既往感染史等，时间恒定）；可随时间变化的协变量 \( L_{it} \)（例如季节内的接触史、新的感染状态，本文未在 abstract 中提及详细变量，但理论上包含这些）。
暴露（处理）：\( A_{it} \in \{0,1\} \)，个体 \( i \) 在季节 \( t \) 是否接种当前季节疫苗。暴露是在季节开始时确定的。
结局：\( Y_{it} \in \{0,1\} \)，个体 \( i \) 在季节 \( t \) 内是否发生症状性 SARS-CoV-2 感染（确诊）。随访期180天。
可观测数据：\( \{ (V_i, A_{i1}, L_{i1}, Y_{i1}, A_{i2}, L_{i2}, Y_{i2}) : i = 1, \ldots, n \} \)。每个个体可贡献最多两个季节的观测（若连续参与）。不可直接观测的反事实：\( Y_{it}(a) \) 表示将 \( A_{it} \) 设置为值 \( a \) 时个体将经历的症状性感染。
目标 estimand：季节 \( t \) 的疫苗有效性 \( VE_t = 1 - \frac{\mathbb{E}[Y_{it}(1)]}{\mathbb{E}[Y_{it}(0)]} \times 100\% \)，其中 \( Y_{it}(0) \) 是如果未接种的结果。
识别条件（标准时变混杂）：（1）一致性（Consistency）：当实际 \( A_{it}=a \) 时，\( Y_{it}=Y_{it}(a) \)；（2）条件无混杂（Sequential ignorability）给定过去历史：\( Y_{it}(a) \perp A_{it} \mid V_i, L_{it}^-, \bar{Y}_{t-1}, \bar{A}_{t-1} \)，其中上划线表示历史；（3）正值性（Positivity）：( 0 < P(A_{it}=1 \mid \cdot) < 1 \）。
额外考虑：本文数据为家庭队列（HIVE），存在家庭聚类；但在 VE 估计中未提及处理方法，可能按独立个体处理或使用稳健标准误。

第二步：最小内核¶

最简特例：一个季节（t=1）、无时变协变量、无删失、无家庭相关。

此时，问题退化为横截面处理效果估计。令 \( V_i \) 为基线协变量向量，\( A_i \in \{0,1\} \) 为是否接种，\( Y_i \in \{0,1\} \) 为是否感染。目标 \( VE = 1 - \frac{E[Y_i(1)]}{E[Y_i(0)]} \)。

传统 pooled logistic：在 logit 尺度下拟合 \( \text{logit}\{P(Y_i=1\mid A_i, V_i)\} = \beta_0 + \beta_A A_i + \beta_V^T V_i \)，估计 OR \( \hat{OR} = e^{\hat{\beta}_A} \)；再代入公式 \( \widehat{VE}_{\text{logit}} = (1 - \hat{OR}) \times 100\% \)。问题：若存在未测量的 V 或者交互，OR 可能不近似 RR（因为结局不罕见时 OR ≠ RR），且未调整时变混杂。
IPTW：先估计治疗概率 \( \pi_i = P(A_i=1\mid V_i) \)，用逆概率权重 \( w_i = A_i / \hat{\pi}_i + (1-A_i)/(1-\hat{\pi}_i) \) 加权后的发病率比 \( \widehat{RR}_{\text{IPTW}} = \frac{\sum_i w_i A_i Y_i / \sum_i w_i A_i}{\sum_i w_i(1-A_i)Y_i / \sum_i w_i(1-A_i)} \)；然后 \( \widehat{VE}_{\text{IPTW}} = (1-\widehat{RR}_{\text{IPTW}})\times 100\% \)。当 \( \pi_i \) 估计正确时，加权均衡了可观测混杂，但权重可能不稳定。
参数 g-formula：用回归模型拟合 \( \hat{m}(A_i, V_i) = \hat{P}(Y_i=1\mid A_i, V_i) \)，然后计算 \( \hat{E}[Y(1)] = \frac{1}{n}\sum_i \hat{m}(1, V_i) \)，\( \hat{E}[Y(0)] = \frac{1}{n}\sum_i \hat{m}(0, V_i) \)，再取比。优点：直接模拟反事实，不依赖权重；缺点：结局模型错误设定会导致偏倚。
TMLE：先对结局做初始 ML 估计 \( \hat{m}_0(A_i, V_i) \)，然后通过估计倾向性得分 \( \hat{\pi}(V_i) \) 构造影响力函数的更新经验平移：\( \hat{m}_1(1, V_i) = \hat{m}_0(1, V_i) + \hat{\epsilon} \cdot \frac{1}{\hat{\pi}(V_i)} \)（对于处理组类似），其中 \( \hat{\epsilon} \) 是以下回归的系数：对 \( Y_i \) 在初始预测的 logit 尺度上，以 \( \frac{A}{\hat{\pi}} - \frac{1-A}{1-\hat{\pi}} \) 为协变量进行单变量逻辑回归（注：实际 TMLE 实施是使用巧妙的有目标更新步，保证关于 \( E[Y(a)] \) 的半参数有效）。最终 \( \hat{E}[Y(a)]_{\text{TMLE}} = \frac{1}{n}\sum_i \hat{m}_1(a, V_i) \)。TMLE 的双稳性：只要结局模型或治疗模型之一正确，估计就是一致的；且若两者都正确则达到半参数效率界。

在这个最简设定下，论文的关键信息是：四种方法在真实数据上的表现差异，特别是当真实 VE 接近 0 时，TMLE 凭借 ML 规格可能更稳健或更不稳定。

三、这篇论文做了什么¶

三句话¶

研究了什么：在密歇根 HIVE 纵向家庭队列中，估计 Omicron 期间 COVID-19 疫苗对症状性感染的有效性（VE），面临重叠暴露和时变混杂挑战，比较了传统 pooled logistic 回归、IPTW+IPCW、参数 g-formula 和 TMLE（带机器学习）四种方法。
核心工具/方法：四种方法各自的标准实施——pooled logistic 用稳健标准误，IPTW 用治疗与删失的逆概率权重，g-formula 用 Monte Carlo 模拟（调整删失），TMLE 使用超学习（SuperLearner）作为初始估计器，并基于影响力函数进行更新。
主要结论：2022–23 季 VE 估计在方法间差异大，TMLE 给出 25.5%（95% CI 2.0–43.4%），其他方法接近零且不显著；2023–24 季所有方法均显示中度保护（约30–40%），结果高度一致；作者认为因果推断与 ML 方法可增强真实世界疫苗研究中的因果解释。

关键设定与假设¶

暴露定义：“当前季节疫苗”——接种时间在季节疫苗推广日至随访开始日期之间。暴露视为季节开始时固定的（不考虑接种后随时间衰减）。假设“vaccination timeliness”不影响效应？实际可能随接种后时间变化，但本文未做时间窗口内的修改。
结果定义：SARS-CoV-2 症状性感染，经 RT-PCR 确认（推测）。阳性感染定义为在180天随访期内首次发生。假设症状一致且检测齐全。
删失：失访（退出队列）、死亡、其他季节间失去联系。使用 IPCW 在 IPTW 中处理，g-formula 中假设随机删失条件于观测历史；TMLE 中使用相同的删失权重（未在 abstract 中明确，但常见是使用相同的删失模型）。
可比性：研究为观察性队列，各方法均假设无未测量混杂（sequential ignorability），这是最关键的识别假设。暴力地，作者假设基线协变量和时变协变量（过去感染史、接触史等）足以调整混杂。该假设在家庭队列中可能受限于未测量的家庭内传染风险。
相比已有文献：本研究不提供新的方法论假设，而是直接比较已有方法在相同数据集上的实证结果。因此，并未放宽或强化任何识别假设，而是将几种方法在相同假设下并行实施。

主要结果¶

方法	2022–23 VE% (95% CI)	2023–24 VE% (95% CI)
Pooled logistic	5.6% (−36.5, 34.8)	40.6% (2.7, 63.7)
IPTW+IPCW	2.1% (−47.2, 34.8)	38.6% (−12.5, 66.5)
Parametric g-formula	5.2% (−17.9, 27.8)	39.6% (15.1, 61.4)
TMLE	25.5% (2.0, 43.4)	30.9% (0.5, 52.1)

亮点：2022–23 季 TMLE 给出了唯一具有统计显著性的正保护效应，而其他方法均不显著。
对比：2013–24 季所有方法置信区间基本重叠，点估计在30–41%之间。
稳健性：作者在结论中将此解读为“agreement among causal inference and conventional models supports robustness”，但注意到 TMLE 在2022–23的显著结果与其他方法不一致，未充分讨论这种发散的可能解释（例如 TMLE 是否受到 ML 过拟合、超学习选择性偏差、或影响力函数更新导致的 type-I error 膨胀）。

证明路线与技术技巧（本文为应用，无数学证明，故转向方法设计的逻辑与实证策略）¶

整体路线（实证策略）： 1. 数据准备：将 HIVE 队列数据按 person-season 展开（每名参与者每个季节贡献一行记录）。若个体在季节内完成180天随访或出现感染则视为完成；否则根据删失时间截断。 2. 协变量选择：基线协变量包括年龄、性别、既往 SARS-CoV-2 感染史、基础病等；时变协变量包括前一个季节的感染状态和疫苗接种状态（对于第二季节分析）。 3. 方法实施细节： - Pooled logistic：使用逻辑回归，调整上述协变量，采用稳健标准误以处理家庭聚类。 - IPTW+IPCW：用逻辑回归估计治疗概率（treatment weight）和删失概率（censoring weight），乘积作为总权重。对治疗模型使用基线与部分时变协变量；删失模型类似。 - 参数 g-formula：用逻辑回归拟合结局模型（治疗+协变量），然后用蒙特卡洛模拟（稳定下200次模拟？未指定）计算反事实平均风险，再调节删失（通过将删失视为缺失数据，假设可忽略机制）。 - TMLE：使用 R 包 tmle 或 SuperLearner，以超学习（包括 GLM、GAM、树、神经网络等基学习器）估计初始结局和治疗模型；然后进行目标更新步。 4. 推断：VE= (1−RR)×100，RR 为比较接种 vs 未接种的反事实风险比。置信区间通过标准化方差估计或 Bootstrap 得到（TMLE 默认使用影响力函数方差估计，其他方法使用 Delta 方法或稳健 var）。

关键跳跃点（实证中发现而非证明）： - 点在于 TMLE 在2022–23的显著正值：此结果需谨慎解读——可能因为 TMLE 对时变混杂的调整更完整（如通过更灵活的 ML 规格捕捉了治疗与结局之间的交互），但也可能仅是多重比较中的偶然。作者未进行任何校正（如 Bonferroni）或灵敏度分析。技术限制：未报告 ML 规格的交叉验证性能（如 CV-AUC），也未报告倾向性得分分布是否重叠（若治疗概率极为接近0或1，IPTW 和 TMLE 均可能不稳定）。 - 方法间在2023–24的一致性：这符合理论预期——当 VE 中等且时变混杂较弱时，方法差异较小；当 VE 接近零时，小的偏倚差异可能导致方向反转。

技术技巧点名：虽然无证明，但 TMLE 的实施用到了： - 超学习：集成多种基学习器，通过交叉验证选择最优组合权重，减小模型错误设定。 - 影响力函数更新：通过一个单参数子模型修正初始估计，使其消除关于目标 estimand 的偏差（一阶影响），从而实现双稳健。 - 交叉拟合（cross-fitting）：标准 TMLE 通常在初始估计中未明确使用样本分裂（sample splitting），但此处作为 R 包默认实现，可能在估计治疗模型和结局模型时使用了不同的样本？（文献中 van der Laan 等建议使用 cross-fitting 以消除 Donsker 条件，但本文未提及）。

真实例子与应用¶

数据来源：密歇根大学 HIVE 纵向队列，包括约 1500 名参与者，家庭为抽样单元，主动呼吸道监测。随访期从 2022–23 季疫苗推广日 2022年9月至 2023年5月；2023–24 季从 2023年9月至 2024年5月。样本量未在 abstract 中给出，但典型 HIVE 队列约有 800–1000 个家庭。
如何应用方法：按季节分层分析，分别对每个季节估计 VE。协变量如前所述。
结果示例：2022–23 季粗发病率：接种者 1.08/1000 person-days，未接种者 0.98；2023–24 季：0.40 vs 0.55。这些描述性数字已暗示 2022–23 季接种者风险略高于未接种者（可能与未调整的混杂有关），而 2023–24 季接种者风险较低。
这个例子想说明什么：① 当数据中存在较强时变混杂时（可见于 2022–23 季的粗风险倒挂），传统回归可能无法充分调整，导致 VE 低估；② 因果推断方法（尤其 TMLE 采用 ML）可能恢复正确信号；③ 当 VE 中等且混杂较弱时，简便方法也能给出可靠估计。

🔎 结论是否比证明窄¶

在 abstract 中没有发现过度 claim。但作者将 TMLE 的显著结果解释为“增强了因果解释”，却未探讨其统计显著性可能来源于 ML 规格的偶然性。这是一个隐含的 claim 比证据宽的点。具体语句： “TMLE gave 25.5% (95% CI: 2.0–43.4%)” → 作者解释为“causal inferences and machine-learning approaches can strengthen causal interpretation”，但该结果未在其它方法或季节中得到重复。另一个可能收紧的 point：2022–23 季的 VE 估计可能因感染检测不完备（家庭内检测效率）而低估，作者未讨论。

四、开放问题（扎根具体语句）¶

TMLE 在 2022–23 季的显著性是否源于 ML 的过拟合偏误？ 论文未报告超学习的具体规格（例如基学习器列表、CV 折数）以及治疗模型的校准结果。可追问：使用简单 ML（如单层逻辑回归）替换超学习后，TMLE 结果是否仍显著？此问题扎根于 abstract 中“TMLE using machine-learning specifications”这一模糊表述。
时变混杂的充分性是否得到检验？ 作者使用已知协变量（年龄、既往感染等）调整，但家庭队列中的内部传染节、检测行为可能构成未测量混杂。能否通过负对照或 E-value 分析评估敏感性？这在 abstract 及文中均未提及，属于明显缺失。
重叠暴露（多次感染+多次接种）如何精细建模？ 本文仅将“当前季节疫苗”作为二值暴露，忽略了既往疫苗接种次数与感染次数之间的交互作用。使用历史累积暴露的时序模型（如 g-estimation 或结构嵌套模型）可能揭示不同免疫层次的保护作用。在缺乏此类模型的本文，留下一个可拓展的问题。
当 VE 接近零时，传统方法与因果推断方法的置信区间覆盖率如何？ 可通过模拟基于类似协变量结构的半合成数据，检查每种方法的真实覆盖率与区间宽度。这是一个直接可用的研究方法学评估的问题，用户可利用自己熟悉的双稳健估计理论来设计模拟。

（全文完）

Maintained by 陈星宇 · Homepage · Source on GitHub