Identification and Estimation of Vaccine Effectiveness in the Test-Negative Design Under Equi-confounding¶

作者: Christopher B. Boyer, Kendrick Qijun Li, Xu Shi, Eric J. Tchetgen Tchetgen
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 检验阴性设计（Test-Negative Design, TND）是流行病学中评估疫苗真实世界效果（Vaccine Effectiveness, VE）的主流观察性研究框架。其根本统计/科学问题在于：在无法随机分配疫苗的情况下，如何利用因出现类似症状而前往就医并接受检测的人群，仅比较检测阳性者（病例）与检测阴性者（对照）的疫苗接种史，来无偏估计目标人群中的疫苗因果效果？TND 的核心承诺是"通过限制在已寻求医疗检测的人群中，自动抵消未测量的健康寻求行为带来的混杂"，但这一承诺长期缺乏基于潜在结果的严格因果形式化，且学界持续担忧"以接受检测为条件"本身可能引入选择偏倚。当前该方向的成熟度处于"方法被极广泛使用（数百篇实证论文），但理论根基刚被系统梳理且仍存争议"的阶段。

发展脉络 - 奠基与直觉阶段：TND 最初在流感 VE 评估中普及。Sullivan et al. (2014) 与 Chua et al. (2020) 的系统综述梳理了 TND 的实证变体，指出尽管有 68 种不同的统计模型被使用，但对其理论有效性的共识仍停留在"它能减少健康寻求行为混杂"的直觉上。 - 理论质疑与初步形式化：Lewnard et al. (2018) 首次对 TND 的逻辑进行了数学推导，指出 TND 估计量要恢复疫苗直接效果，需满足两个条件：1) 接种决策与对检测阳性/阴性病原体的暴露/易感性无关；2) 疫苗提供"全或无"保护。若不满足则产生偏倚。Lewnard et al. (2021) 与 Patel et al. (2020) 进一步针对 COVID-19 指出，TND 可能无法完全消除混杂，且以检测为条件可能引入碰撞器偏倚。Schnitzer (2022) 首次用 DAG 和反事实框架明确写出 TND 的 estimand，给出了逆概率加权（IPTW）估计量以处理效应修饰，但未解决未测量混杂与选择偏倚的根本识别问题。 - 阴性对照与碰撞器偏倚的应对：Lipsitch et al. (2010) 引入阴性对照概念；Shi et al. (2020) 系统综述了阴性对照框架；Sofer et al. (2016) 将 DID 解读为阴性对照结果；Piccininni et al. (2024) 提出阴性对照人群。针对 TND 的碰撞器偏倚，Li et al. (2022) 提出双阴性对照（Double Negative Control）框架，利用一对阴性暴露与阴性结果来消除 TND 中因选择引入的潜在偏倚，这是当前一条有力的竞争路线。 - 等混杂框架的引入：Tchetgen Tchetgen et al. (2023) 提出 Universal DID，将经典的平行趋势假设替换为"优势比等混杂"（Odds Ratio Equi-confounding），在二值/计数结局下恢复了因果识别。本文（Boyer et al.）正是将这一等混杂思想移植到 TND 情境，为 TND 提供了不依赖双阴性对照的另一种理论出路。

子线索聚类 1. TND 实证与设计变体：Thompson et al. (2021), Olson et al. (2022), Israel et al. (2021), Skowronski et al. (2021), Hitchings et al. (2021) 等。这一簇在用 TND 产出 VE 数字，模型多为条件 Logistic 回归，对理论假设关注少。 2. TND 理论偏倚分析：Lewnard et al. (2018, 2021), Schnitzer (2022), Dean et al. (2021), Wang et al. (2022)。这一簇在用 DAG 和反事实拆解 TND 的偏倚来源（混杂、碰撞器、误分类），但给出的识别条件往往很强（如无未测量混杂）。 3. 阴性对照与等混杂补救路线：Li et al. (2022) 的双阴性对照路线；Sofer et al. (2016) 与 Tchetgen Tchetgen et al. (2023) 的等混杂/DID 路线；Cowling et al. (2012), Sundaram et al. (2013), Feng et al. (2017) 对病毒干扰（阴性对照有效性）的实证检验。本文属于第 3 簇的等混杂分支。

核心追问与瓶颈 - 追问 1：TND 的条件优势比，在什么假设下等于目标人群的边际因果风险比？当前瓶颈：经典假设（无未测量混杂 + 无选择偏倚）在现实中几乎不成立。 - 追问 2：以寻求医疗检测为条件（碰撞器），如何不引入新的偏倚？当前瓶颈：Li et al. (2022) 要求找到一对合格的阴性对照，这在很多 VE 数据中不可得。 - 追问 3：若存在未测量混杂（如健康寻求行为），能否用比"平行趋势"更弱的假设恢复识别？当前瓶颈：平行趋势在二值结局下逻辑不自洽（概率差可负），Tchetgen Tchetgen et al. (2023) 提出的 OR 等混杂解决了逻辑问题，但尚未在 TND 的选择偏倚结构下被验证。

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为"TND 被广泛使用但缺乏潜在结果的正式形式化，且对选择偏倚的担忧缺乏代数解"，从而将自己的 OR 等混杂假设呈现为"显然的下一步"——既形式化了健康寻求行为的直觉，又代数上消解了选择偏倚。 - 被淡化的竞争路线：Li et al. (2022) 的双阴性对照路线在 intro 中被引，但作者强调其"需要额外的阴性对照变量"，暗示这在实践中不易获取，从而凸显自己"只需一个等混杂假设、无需额外数据"的优势。然而，等混杂假设本身（未测量混杂对阳性/阴性结局的 OR 影响相等）是否比找到一对阴性对照更可信，作者并未直接对比，留给读者判断。 - 缺失的引用：未见 Finkelstein et al. (2015) 对 TND 与队列设计等效性的早期数学工作；未见 Dufault & Jewell (2020) 对集群 TND 的随机化推断框架（Wang et al. 2022 引了，但 intro 未聚焦）；未见 Dawid (2003) 或 Pearl (2009) 对选择偏倚的早期 DAG 拆解。这些是研究者值得去查的文献。

张力未见明显对立引用。Lewnard et al. (2018) 说 TND 需"无混杂 + 全或无保护"才无偏，而本文说"有混杂也行，只要 OR 等混杂"。两者不矛盾，而是本文在更弱条件下给出了识别，但条件弱化是否意味着假设更难验证，存在隐含张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据 - \(A\)：疫苗接种状态（二值，\(A=1\) 接种，\(A=0\) 未接种）。 - \(Y\)：目标病原体检测结果（二值，\(Y=1\) 阳性/病例，\(Y=0\) 阴性/对照）。 - \(W\)：可观测协变量（如年龄、地区、时间，向量）。 - \(U\)：未测量混杂（如健康寻求行为、易感性，不可观测）。 - \(S\)：是否进入 TND 样本（是否寻求医疗并接受检测，二值，\(S=1\) 进入，\(S=0\) 未进入）。 - \(Y^a\)：潜在结果：若强制接种状态为 \(a\)，目标病原体的检测结果。 - \(Y_N^a\)：潜在结果：若强制接种状态为 \(a\)，非目标病原体（导致类似症状的其他病原体）的检测结果。注意：\(Y_N\) 正是 TND 中检测阴性者的实际结局状态。 - \(VE\)：疫苗效果，定义为接种者边际风险比（Marginal Risk Ratio among the Vaccinated）：\(VE = 1 - E[Y^1 \mid A=1, W] / E[Y^0 \mid A=1, W]\)。核心 estimand 是 \(RR^V(W) = E[Y^1 \mid A=1, W] / E[Y^0 \mid A=1, W]\)。 - 可观测数据：研究者只能观测到 \(\{A, Y, W\}\) 在 \(S=1\) 子集上的样本。\(U\) 不可观测，\(Y^0\) 对 \(A=1\) 者不可观测（反事实），\(S=0\) 者完全不可见。

模型与数据生成机制 个体具有 \((W, U, A, Y^1, Y^0, Y_N^1, Y_N^0, S)\)。接种决策 \(A\) 依赖 \((W, U)\)；结局 \(Y\) 与 \(Y_N\) 依赖 \((W, U, A)\)；寻求检测 \(S\) 依赖 \((W, U, Y, Y_N)\)（有症状才去检测）。TND 的采样机制是：只保留 \(S=1\) 的个体。因此，可观测分布是 \(P(A, Y, W \mid S=1)\)。

第二步：最小内核 剥掉所有协变量 \(W\) 和一般性讨论，考虑最简特例：无协变量、二值结局、二值疫苗、单一未测量混杂 \(U\)。

在这个特例下，TND 实践者直接算的是条件优势比：

\[OR_{TND} = \frac{P(Y=1 \mid A=1, S=1) / P(Y=0 \mid A=1, S=1)}{P(Y=1 \mid A=0, S=1) / P(Y=0 \mid A=0, S=1)}\]

他们希望这个 \(OR_{TND}\) 等于目标因果量 \(RR^V = E[Y^1 \mid A=1] / E[Y^0 \mid A=1]\)。

核心数学困难：由于 \(U\) 同时影响 \(A\) 和 \(Y\)（混杂），且 \(U\) 影响 \(S\)（选择偏倚/碰撞器），\(OR_{TND}\) 一般既不等于 \(RR^V\)，也不等于任何可解释的因果量。

本文的破局点——OR 等混杂假设：作者引入的关键假设是：未测量混杂 \(U\) 对目标病原体阳性 \(Y=1\) 和非目标病原体阳性（即 \(Y=0\) 但因其他病原体有症状，\(Y_N=1\)）的影响，在优势比尺度上相等。数学上写成：

\[\frac{P(Y^0=1 \mid A=1, U=u, W) / P(Y^0=0 \mid A=1, U=u, W)}{P(Y^0=1 \mid A=0, U=u, W) / P(Y^0=0 \mid A=0, U=u, W)} = \frac{P(Y_N^0=1 \mid A=1, U=u, W) / P(Y_N^0=0 \mid A=1, U=u, W)}{P(Y_N^0=1 \mid A=0, U=u, W) / P(Y_N^0=0 \mid A=0, U=u, W)}\]

（即 \(U\) 对 \(Y^0\) 的 OR 与对 \(Y_N^0\) 的 OR 相等，对所有 \(u\) 成立）。

最小内核的证明直觉：在无 \(W\) 的最简情形下，若上述 OR 等混杂成立，且疫苗对非目标病原体无效果（\(Y_N^1 = Y_N^0\)，即无病毒干扰），那么： 1. 检测阴性者的接种优势比 \(OR_{neg} = \frac{P(A=1 \mid Y=0, S=1)}{P(A=0 \mid Y=0, S=1)}\) 恰好等于 \(U\) 对 \(A\) 的混杂偏倚量（在 OR 尺度上）。 2. 检测阳性者的接种优势比 \(OR_{pos} = \frac{P(A=1 \mid Y=1, S=1)}{P(A=0 \mid Y=1, S=1)}\) 等于真实因果 OR 乘以同样的混杂偏倚量。 3. 因此，\(OR_{TND} = OR_{pos} / OR_{neg}\)，混杂偏倚被代数消去！ 4. 再结合罕见病假设（\(P(Y=1)\) 小，OR 近似 RR），\(OR_{TND}\) 近似等于目标因果风险比 \(RR^V\)。

一句话总结最小内核：在 OR 等混杂下，TND 的条件 OR 恰好是混杂偏倚的分子分母同乘，偏倚被除法消去，从而恢复因果量。

三、这篇论文做了什么¶

三句话 ① 研究了 TND 中 VE 的因果识别与估计问题，核心是解决未测量混杂与选择偏倚的双重威胁；② 核心工具是 odds ratio equi-confounding 假设与半参数双稳健估计；③ 主要结论是在 OR 等混杂下，TND 的条件 OR 可识别接种者边际风险比，且提出的双稳健估计量在结果模型或暴露模型之一正确时一致。

关键设定与假设 在第二节记号基础上补全： - 假设 1（SUTVA & 一致性）：无干扰，观测结局等于对应潜在结果。 - 假设 2（条件独立性 / 无测量混杂）：\(A \perp (Y^1, Y^0, Y_N^1, Y_N^0) \mid W, U\)。即给定 \(W\) 和 \(U\)，接种与潜在结局独立。这是标准混杂分解的前提，\(U\) 承载了所有未测量混杂。 - 假设 3（OR 等混杂）：对几乎所有 \(u, w\)，

\[OR_{Y^0 \sim A \mid U=u, W=w} = OR_{Y_N^0 \sim A \mid U=u, W=w}\]

统计含义：未测量混杂 \(U\) 对"若未接种则感染目标病原体"的 OR 影响，等于对"若未接种则感染非目标病原体"的 OR 影响。相比已有文献（Lewnard 2018 要求 \(U\) 与 \(A\) 独立，即无未测量混杂），本文允许有未测量混杂，但要求其在阳性/阴性结局上的 OR 效应对称。相比 Tchetgen Tchetgen (2023) 的 Universal DID，本文将等混杂从时间维度（前/后测）移植到了病原体维度（目标/非目标病原体），并额外处理了 TND 特有的选择偏倚（以 \(S=1\) 为条件）。 - 假设 4（疫苗对非目标病原体无效果）：\(Y_N^1 = Y_N^0\) 几乎处处成立。统计含义：无病毒干扰。这与 Cowling et al. (2012) 的担忧相反，但与 Sundaram et al. (2013) 的实证发现一致。 - 假设 5（选择机制的代数消解）：作者证明，在 TND 的 outcome-dependent sampling 下，只要寻求检测的行为 \(S\) 依赖 \(Y\) 和 \(Y_N\) 的方式在接种组与非接种组间满足特定对称性（实质上是 \(U\) 对 \(S\) 的影响也被等混杂覆盖），以 \(S=1\) 为条件引入的碰撞器偏倚同样在 OR 尺度上被消去。

主要结果 - 定理 1（识别）：在假设 1-5 下，TND 样本中的条件优势比

\[OR_{TND}(W) = \frac{P(Y=1 \mid A=1, W, S=1) / P(Y=0 \mid A=1, W, S=1)}{P(Y=1 \mid A=0, W, S=1) / P(Y=0 \mid A=0, W, S=1)}\]

等于接种者边际因果优势比 \(OR^V(W) = E[Y^1 \mid A=1, W] / E[Y^0 \mid A=1, W]\)（在罕见病假设下近似 \(RR^V(W)\)）。直觉：等混杂使得未测量混杂对阳性与阴性的 OR 偏倚同乘同除，选择偏倚同理被消解。必要条件：OR 等混杂 + 无病毒干扰 + 罕见病。 - 定理 2（估计量的双稳健性）：提出三种估计量估计 \(RR^V(W)\)： 1. 结果模型（OM）：建模 \(P(Y=1 \mid A, W, S=1)\)，代入公式。 2. 逆概率加权（IPW）：建模 \(P(A=1 \mid W, S=1)\)，构造 Horvitz-Thompson 型估计量。 3. 半参数双稳健（DR）：结合 OM 与 IPW，形式为 \(\hat{RR}^{DR} = \frac{E_n[\hat{m}_1(W) + \frac{A}{\hat{\pi}(W)}(Y - \hat{m}_1(W)) \mid A=1]}{E_n[\hat{m}_0(W) + \frac{1-A}{1-\hat{\pi}(W)}(Y - \hat{m}_0(W)) \mid A=1]}\)。在 OM 或 IPW 之一正确指定时一致。这是对 Schnitzer (2022) IPTW 估计量的直接半参数升级。

证明路线与技术技巧 - 整体路线： 1. 写出 \(P(Y=1 \mid A=a, W, S=1)\) 的全概率公式，对 \(U\) 积分。 2. 利用贝叶斯定理将 \(P(U \mid A=a, W, S=1)\) 转写为 \(P(A=a \mid U, W, S=1) P(U \mid W, S=1) / P(A=a \mid W, S=1)\)。 3. 引入 OR 等混杂，证明 \(P(A=1 \mid U, W, Y=1, S=1) / P(A=0 \mid U, W, Y=1, S=1)\) 与 \(P(A=1 \mid U, W, Y=0, S=1) / P(A=0 \mid U, W, Y=0, S=1)\) 的比值中，\(U\) 的混杂效应精确抵消。 4. 代入 \(OR_{TND}\) 定义，消去 \(U\) 的分布，得到 \(OR_{TND} = OR^V\)。 5. 对 \(RR^V\) 构造 DR 估计量，用标准半参数理论证明双稳健性。 - 关键跳跃点：从 \(P(Y \mid A, W, S=1)\) 中消去 \(U\) 的积分。难点在于 \(U\) 同时出现在分子（结局模型）和分母（暴露模型+选择权重）中，且 \(S=1\) 的条件改变了 \(U\) 的分布（碰撞器）。作者利用 OR 等混杂将 \(U\) 对结局的 OR 效应与对暴露的 OR 效应配对，再用 Bayes inversion 将暴露模型中的 \(U\) 替换为结局条件下的 \(U\)，使得分子分母的 \(U\) 项形成代数对消。 - 技术技巧点名： - Bayes inversion / 条件概率重写：用于将 \(P(U \mid A, S=1)\) 转为 \(P(A \mid U, S=1)\)，暴露出混杂的 OR 结构。 - Odds ratio factorization：将联合 OR 分解为混杂 OR 与因果 OR 的乘积，这是 Tchetgen Tchetgen (2023) Universal DID 的核心工具，本文直接移植。 - Efficient influence function (EIF) 构造：用于推导 DR 估计量。作者写出了 \(RR^V\) 在 TND 采样下的 EIF，并据此构造了一阶去偏估计量。 - Conditional rare disease approximation：在定理最后一步，用 \(P(Y=1 \mid W)\) 小的假设将 OR 近似为 RR，这是流行病学 TND 文献的标准操作，但本文明确标注了其必要性。

真实例子与应用 - 模拟研究：本文无真实数据例子，但包含大规模模拟实验。 - 场景设计：设定 \(W\) 为 2 维连续，\(U\) 为 1 维连续，\(A\) 依赖 \((W, U)\)，\(Y\) 与 \(Y_N\) 依赖 \((W, U, A)\)，\(S\) 依赖 \((Y, Y_N, U)\)。通过参数化模型控制混杂强度、选择偏倚强度、疫苗效果大小、罕见病程度。 - 对比 baseline：对比了传统 Logistic 回归估计的 VE、Schnitzer (2022) 的 IPTW、本文的 OM/IPW/DR。 - 结果：在等混杂成立时，DR 估计量偏倚最小、覆盖率接近名义水平；当 OM 或 IPW 之一错指定时，DR 仍一致，而单一模型估计量偏倚显著。在等混杂不成立时（敏感性分析），偏倚随偏离参数 \(\delta\) 线性增长。 - 想说明什么：验证 DR 估计量的双稳健性质在有限样本下成立，且展示等混杂偏离对 VE 估计的定量影响。

🔎 结论是否比证明窄 - 作者在定理陈述中明确标注了"罕见病假设"是 OR 近似为 RR 的必要条件，但在 abstract 和 discussion 中有泛泛 claim "TND 可以评估 VE"的语句，未每次重申罕见病假设的局限。对于非罕见病（如 COVID 住院率在某些高峰期可达 20%），OR 与 RR 的偏离不可忽略，此时定理只识别了 OR，而非 RR，这一点在正文中承认但未在标题/摘要中强调。

四、开放问题（点到为止）¶

非罕见病下的 RR 识别：当 \(P(Y=1 \mid W)\) 不小时，OR 等混杂只能识别因果 OR，而非因果 RR。能否在 OR 等混杂基础上，利用 \(Y_N\) 的额外信息（如检测阴性者的病原体分布）构造 RR 的无偏识别？扎根在 Section 5 "The rare disease assumption is necessary for the odds ratio to approximate the risk ratio"。
等混杂假设的可检验性：OR 等混杂本身是否可利用阴性对照暴露/结果的数据进行部分检验？Li et al. (2022) 的双阴性对照框架提供了检验思路，但本文未结合。扎根在 Section 6 "Future work might explore the testability of the equi-confounding assumption"。
病毒干扰的放松：假设 4（\(Y_N^1 = Y_N^0\)）在 Cowling et al. (2012) 的流感数据中被质疑。能否在允许疫苗影响非目标病原体风险（但效应结构已知）时，修正识别公式？扎根在 Section 3 "We assume no virus interference; relaxing this would require modeling the vaccine effect on non-target pathogens"。
纵向/变异株 VE 的等混杂扩展：当前理论限于单时间点、单病原体。在变异株涌现或 VE 随时间衰减的纵向设定下，OR 等混杂如何随时间/变异株演化？扎根在 Section 6 "Extension to longitudinal settings with waning VE is an open question"。

Maintained by 陈星宇 · Homepage · Source on GitHub

Identification and Estimation of Vaccine Effectiveness in the Test-Negative Design Under Equi-confounding¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论