跳转至

Identification and Estimation of Vaccine Effectiveness in the Test-Negative Design Under Equi-confounding

作者: Christopher B. Boyer, Kendrick Qijun Li, Xu Shi, Eric J. Tchetgen Tchetgen
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么 检验阴性设计(Test-Negative Design, TND)是流行病学中评估疫苗真实世界效果(Vaccine Effectiveness, VE)的主流观察性研究框架。其根本统计/科学问题在于:在无法随机分配疫苗的情况下,如何利用因出现类似症状而前往就医并接受检测的人群,仅比较检测阳性者(病例)与检测阴性者(对照)的疫苗接种史,来无偏估计目标人群中的疫苗因果效果?TND 的核心承诺是"通过限制在已寻求医疗检测的人群中,自动抵消未测量的健康寻求行为带来的混杂",但这一承诺长期缺乏基于潜在结果的严格因果形式化,且学界持续担忧"以接受检测为条件"本身可能引入选择偏倚。当前该方向的成熟度处于"方法被极广泛使用(数百篇实证论文),但理论根基刚被系统梳理且仍存争议"的阶段。

发展脉络 - 奠基与直觉阶段:TND 最初在流感 VE 评估中普及。Sullivan et al. (2014) 与 Chua et al. (2020) 的系统综述梳理了 TND 的实证变体,指出尽管有 68 种不同的统计模型被使用,但对其理论有效性的共识仍停留在"它能减少健康寻求行为混杂"的直觉上。 - 理论质疑与初步形式化:Lewnard et al. (2018) 首次对 TND 的逻辑进行了数学推导,指出 TND 估计量要恢复疫苗直接效果,需满足两个条件:1) 接种决策与对检测阳性/阴性病原体的暴露/易感性无关;2) 疫苗提供"全或无"保护。若不满足则产生偏倚。Lewnard et al. (2021) 与 Patel et al. (2020) 进一步针对 COVID-19 指出,TND 可能无法完全消除混杂,且以检测为条件可能引入碰撞器偏倚。Schnitzer (2022) 首次用 DAG 和反事实框架明确写出 TND 的 estimand,给出了逆概率加权(IPTW)估计量以处理效应修饰,但未解决未测量混杂与选择偏倚的根本识别问题。 - 阴性对照与碰撞器偏倚的应对:Lipsitch et al. (2010) 引入阴性对照概念;Shi et al. (2020) 系统综述了阴性对照框架;Sofer et al. (2016) 将 DID 解读为阴性对照结果;Piccininni et al. (2024) 提出阴性对照人群。针对 TND 的碰撞器偏倚,Li et al. (2022) 提出双阴性对照(Double Negative Control)框架,利用一对阴性暴露与阴性结果来消除 TND 中因选择引入的潜在偏倚,这是当前一条有力的竞争路线。 - 等混杂框架的引入:Tchetgen Tchetgen et al. (2023) 提出 Universal DID,将经典的平行趋势假设替换为"优势比等混杂"(Odds Ratio Equi-confounding),在二值/计数结局下恢复了因果识别。本文(Boyer et al.)正是将这一等混杂思想移植到 TND 情境,为 TND 提供了不依赖双阴性对照的另一种理论出路。

子线索聚类 1. TND 实证与设计变体:Thompson et al. (2021), Olson et al. (2022), Israel et al. (2021), Skowronski et al. (2021), Hitchings et al. (2021) 等。这一簇在用 TND 产出 VE 数字,模型多为条件 Logistic 回归,对理论假设关注少。 2. TND 理论偏倚分析:Lewnard et al. (2018, 2021), Schnitzer (2022), Dean et al. (2021), Wang et al. (2022)。这一簇在用 DAG 和反事实拆解 TND 的偏倚来源(混杂、碰撞器、误分类),但给出的识别条件往往很强(如无未测量混杂)。 3. 阴性对照与等混杂补救路线:Li et al. (2022) 的双阴性对照路线;Sofer et al. (2016) 与 Tchetgen Tchetgen et al. (2023) 的等混杂/DID 路线;Cowling et al. (2012), Sundaram et al. (2013), Feng et al. (2017) 对病毒干扰(阴性对照有效性)的实证检验。本文属于第 3 簇的等混杂分支。

核心追问与瓶颈 - 追问 1:TND 的条件优势比,在什么假设下等于目标人群的边际因果风险比?当前瓶颈:经典假设(无未测量混杂 + 无选择偏倚)在现实中几乎不成立。 - 追问 2:以寻求医疗检测为条件(碰撞器),如何不引入新的偏倚?当前瓶颈:Li et al. (2022) 要求找到一对合格的阴性对照,这在很多 VE 数据中不可得。 - 追问 3:若存在未测量混杂(如健康寻求行为),能否用比"平行趋势"更弱的假设恢复识别?当前瓶颈:平行趋势在二值结局下逻辑不自洽(概率差可负),Tchetgen Tchetgen et al. (2023) 提出的 OR 等混杂解决了逻辑问题,但尚未在 TND 的选择偏倚结构下被验证。

⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为"TND 被广泛使用但缺乏潜在结果的正式形式化,且对选择偏倚的担忧缺乏代数解",从而将自己的 OR 等混杂假设呈现为"显然的下一步"——既形式化了健康寻求行为的直觉,又代数上消解了选择偏倚。 - 被淡化的竞争路线:Li et al. (2022) 的双阴性对照路线在 intro 中被引,但作者强调其"需要额外的阴性对照变量",暗示这在实践中不易获取,从而凸显自己"只需一个等混杂假设、无需额外数据"的优势。然而,等混杂假设本身(未测量混杂对阳性/阴性结局的 OR 影响相等)是否比找到一对阴性对照更可信,作者并未直接对比,留给读者判断。 - 缺失的引用:未见 Finkelstein et al. (2015) 对 TND 与队列设计等效性的早期数学工作;未见 Dufault & Jewell (2020) 对集群 TND 的随机化推断框架(Wang et al. 2022 引了,但 intro 未聚焦);未见 Dawid (2003) 或 Pearl (2009) 对选择偏倚的早期 DAG 拆解。这些是研究者值得去查的文献。

张力 未见明显对立引用。Lewnard et al. (2018) 说 TND 需"无混杂 + 全或无保护"才无偏,而本文说"有混杂也行,只要 OR 等混杂"。两者不矛盾,而是本文在更弱条件下给出了识别,但条件弱化是否意味着假设更难验证,存在隐含张力。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据 - \(A\):疫苗接种状态(二值,\(A=1\) 接种,\(A=0\) 未接种)。 - \(Y\):目标病原体检测结果(二值,\(Y=1\) 阳性/病例,\(Y=0\) 阴性/对照)。 - \(W\):可观测协变量(如年龄、地区、时间,向量)。 - \(U\):未测量混杂(如健康寻求行为、易感性,不可观测)。 - \(S\):是否进入 TND 样本(是否寻求医疗并接受检测,二值,\(S=1\) 进入,\(S=0\) 未进入)。 - \(Y^a\):潜在结果:若强制接种状态为 \(a\),目标病原体的检测结果。 - \(Y_N^a\):潜在结果:若强制接种状态为 \(a\),非目标病原体(导致类似症状的其他病原体)的检测结果。注意:\(Y_N\) 正是 TND 中检测阴性者的实际结局状态。 - \(VE\):疫苗效果,定义为接种者边际风险比(Marginal Risk Ratio among the Vaccinated):\(VE = 1 - E[Y^1 \mid A=1, W] / E[Y^0 \mid A=1, W]\)。核心 estimand 是 \(RR^V(W) = E[Y^1 \mid A=1, W] / E[Y^0 \mid A=1, W]\)。 - 可观测数据:研究者只能观测到 \(\{A, Y, W\}\)\(S=1\) 子集上的样本。\(U\) 不可观测,\(Y^0\)\(A=1\) 者不可观测(反事实),\(S=0\) 者完全不可见。

模型与数据生成机制 个体具有 \((W, U, A, Y^1, Y^0, Y_N^1, Y_N^0, S)\)。接种决策 \(A\) 依赖 \((W, U)\);结局 \(Y\)\(Y_N\) 依赖 \((W, U, A)\);寻求检测 \(S\) 依赖 \((W, U, Y, Y_N)\)(有症状才去检测)。TND 的采样机制是:只保留 \(S=1\) 的个体。因此,可观测分布是 \(P(A, Y, W \mid S=1)\)

第二步:最小内核 剥掉所有协变量 \(W\) 和一般性讨论,考虑最简特例:无协变量、二值结局、二值疫苗、单一未测量混杂 \(U\)

在这个特例下,TND 实践者直接算的是条件优势比:

\[OR_{TND} = \frac{P(Y=1 \mid A=1, S=1) / P(Y=0 \mid A=1, S=1)}{P(Y=1 \mid A=0, S=1) / P(Y=0 \mid A=0, S=1)}\]

他们希望这个 \(OR_{TND}\) 等于目标因果量 \(RR^V = E[Y^1 \mid A=1] / E[Y^0 \mid A=1]\)

核心数学困难:由于 \(U\) 同时影响 \(A\)\(Y\)(混杂),且 \(U\) 影响 \(S\)(选择偏倚/碰撞器),\(OR_{TND}\) 一般既不等于 \(RR^V\),也不等于任何可解释的因果量。

本文的破局点——OR 等混杂假设: 作者引入的关键假设是:未测量混杂 \(U\) 对目标病原体阳性 \(Y=1\) 和非目标病原体阳性(即 \(Y=0\) 但因其他病原体有症状,\(Y_N=1\))的影响,在优势比尺度上相等。数学上写成:

\[\frac{P(Y^0=1 \mid A=1, U=u, W) / P(Y^0=0 \mid A=1, U=u, W)}{P(Y^0=1 \mid A=0, U=u, W) / P(Y^0=0 \mid A=0, U=u, W)} = \frac{P(Y_N^0=1 \mid A=1, U=u, W) / P(Y_N^0=0 \mid A=1, U=u, W)}{P(Y_N^0=1 \mid A=0, U=u, W) / P(Y_N^0=0 \mid A=0, U=u, W)}\]
(即 \(U\)\(Y^0\) 的 OR 与对 \(Y_N^0\) 的 OR 相等,对所有 \(u\) 成立)。

最小内核的证明直觉: 在无 \(W\) 的最简情形下,若上述 OR 等混杂成立,且疫苗对非目标病原体无效果(\(Y_N^1 = Y_N^0\),即无病毒干扰),那么: 1. 检测阴性者的接种优势比 \(OR_{neg} = \frac{P(A=1 \mid Y=0, S=1)}{P(A=0 \mid Y=0, S=1)}\) 恰好等于 \(U\)\(A\) 的混杂偏倚量(在 OR 尺度上)。 2. 检测阳性者的接种优势比 \(OR_{pos} = \frac{P(A=1 \mid Y=1, S=1)}{P(A=0 \mid Y=1, S=1)}\) 等于真实因果 OR 乘以同样的混杂偏倚量。 3. 因此,\(OR_{TND} = OR_{pos} / OR_{neg}\),混杂偏倚被代数消去! 4. 再结合罕见病假设(\(P(Y=1)\) 小,OR 近似 RR),\(OR_{TND}\) 近似等于目标因果风险比 \(RR^V\)

一句话总结最小内核:在 OR 等混杂下,TND 的条件 OR 恰好是混杂偏倚的分子分母同乘,偏倚被除法消去,从而恢复因果量。


三、这篇论文做了什么

三句话 ① 研究了 TND 中 VE 的因果识别与估计问题,核心是解决未测量混杂与选择偏倚的双重威胁;② 核心工具是 odds ratio equi-confounding 假设与半参数双稳健估计;③ 主要结论是在 OR 等混杂下,TND 的条件 OR 可识别接种者边际风险比,且提出的双稳健估计量在结果模型或暴露模型之一正确时一致。

关键设定与假设 在第二节记号基础上补全: - 假设 1(SUTVA & 一致性):无干扰,观测结局等于对应潜在结果。 - 假设 2(条件独立性 / 无测量混杂)\(A \perp (Y^1, Y^0, Y_N^1, Y_N^0) \mid W, U\)。即给定 \(W\)\(U\),接种与潜在结局独立。这是标准混杂分解的前提,\(U\) 承载了所有未测量混杂。 - 假设 3(OR 等混杂):对几乎所有 \(u, w\)

\[OR_{Y^0 \sim A \mid U=u, W=w} = OR_{Y_N^0 \sim A \mid U=u, W=w}\]
统计含义:未测量混杂 \(U\) 对"若未接种则感染目标病原体"的 OR 影响,等于对"若未接种则感染非目标病原体"的 OR 影响。相比已有文献(Lewnard 2018 要求 \(U\)\(A\) 独立,即无未测量混杂),本文允许有未测量混杂,但要求其在阳性/阴性结局上的 OR 效应对称。相比 Tchetgen Tchetgen (2023) 的 Universal DID,本文将等混杂从时间维度(前/后测)移植到了病原体维度(目标/非目标病原体),并额外处理了 TND 特有的选择偏倚(以 \(S=1\) 为条件)。 - 假设 4(疫苗对非目标病原体无效果)\(Y_N^1 = Y_N^0\) 几乎处处成立。统计含义:无病毒干扰。这与 Cowling et al. (2012) 的担忧相反,但与 Sundaram et al. (2013) 的实证发现一致。 - 假设 5(选择机制的代数消解):作者证明,在 TND 的 outcome-dependent sampling 下,只要寻求检测的行为 \(S\) 依赖 \(Y\)\(Y_N\) 的方式在接种组与非接种组间满足特定对称性(实质上是 \(U\)\(S\) 的影响也被等混杂覆盖),以 \(S=1\) 为条件引入的碰撞器偏倚同样在 OR 尺度上被消去。

主要结果 - 定理 1(识别):在假设 1-5 下,TND 样本中的条件优势比

\[OR_{TND}(W) = \frac{P(Y=1 \mid A=1, W, S=1) / P(Y=0 \mid A=1, W, S=1)}{P(Y=1 \mid A=0, W, S=1) / P(Y=0 \mid A=0, W, S=1)}\]
等于接种者边际因果优势比 \(OR^V(W) = E[Y^1 \mid A=1, W] / E[Y^0 \mid A=1, W]\)(在罕见病假设下近似 \(RR^V(W)\))。直觉:等混杂使得未测量混杂对阳性与阴性的 OR 偏倚同乘同除,选择偏倚同理被消解。必要条件:OR 等混杂 + 无病毒干扰 + 罕见病。 - 定理 2(估计量的双稳健性):提出三种估计量估计 \(RR^V(W)\): 1. 结果模型(OM):建模 \(P(Y=1 \mid A, W, S=1)\),代入公式。 2. 逆概率加权(IPW):建模 \(P(A=1 \mid W, S=1)\),构造 Horvitz-Thompson 型估计量。 3. 半参数双稳健(DR):结合 OM 与 IPW,形式为 \(\hat{RR}^{DR} = \frac{E_n[\hat{m}_1(W) + \frac{A}{\hat{\pi}(W)}(Y - \hat{m}_1(W)) \mid A=1]}{E_n[\hat{m}_0(W) + \frac{1-A}{1-\hat{\pi}(W)}(Y - \hat{m}_0(W)) \mid A=1]}\)。在 OM 或 IPW 之一正确指定时一致。这是对 Schnitzer (2022) IPTW 估计量的直接半参数升级。

证明路线与技术技巧 - 整体路线: 1. 写出 \(P(Y=1 \mid A=a, W, S=1)\) 的全概率公式,对 \(U\) 积分。 2. 利用贝叶斯定理将 \(P(U \mid A=a, W, S=1)\) 转写为 \(P(A=a \mid U, W, S=1) P(U \mid W, S=1) / P(A=a \mid W, S=1)\)。 3. 引入 OR 等混杂,证明 \(P(A=1 \mid U, W, Y=1, S=1) / P(A=0 \mid U, W, Y=1, S=1)\)\(P(A=1 \mid U, W, Y=0, S=1) / P(A=0 \mid U, W, Y=0, S=1)\) 的比值中,\(U\) 的混杂效应精确抵消。 4. 代入 \(OR_{TND}\) 定义,消去 \(U\) 的分布,得到 \(OR_{TND} = OR^V\)。 5. 对 \(RR^V\) 构造 DR 估计量,用标准半参数理论证明双稳健性。 - 关键跳跃点:从 \(P(Y \mid A, W, S=1)\) 中消去 \(U\) 的积分。难点在于 \(U\) 同时出现在分子(结局模型)和分母(暴露模型+选择权重)中,且 \(S=1\) 的条件改变了 \(U\) 的分布(碰撞器)。作者利用 OR 等混杂将 \(U\) 对结局的 OR 效应与对暴露的 OR 效应配对,再用 Bayes inversion 将暴露模型中的 \(U\) 替换为结局条件下的 \(U\),使得分子分母的 \(U\) 项形成代数对消。 - 技术技巧点名: - Bayes inversion / 条件概率重写:用于将 \(P(U \mid A, S=1)\) 转为 \(P(A \mid U, S=1)\),暴露出混杂的 OR 结构。 - Odds ratio factorization:将联合 OR 分解为混杂 OR 与因果 OR 的乘积,这是 Tchetgen Tchetgen (2023) Universal DID 的核心工具,本文直接移植。 - Efficient influence function (EIF) 构造:用于推导 DR 估计量。作者写出了 \(RR^V\) 在 TND 采样下的 EIF,并据此构造了一阶去偏估计量。 - Conditional rare disease approximation:在定理最后一步,用 \(P(Y=1 \mid W)\) 小的假设将 OR 近似为 RR,这是流行病学 TND 文献的标准操作,但本文明确标注了其必要性。

真实例子与应用 - 模拟研究:本文无真实数据例子,但包含大规模模拟实验。 - 场景设计:设定 \(W\) 为 2 维连续,\(U\) 为 1 维连续,\(A\) 依赖 \((W, U)\)\(Y\)\(Y_N\) 依赖 \((W, U, A)\)\(S\) 依赖 \((Y, Y_N, U)\)。通过参数化模型控制混杂强度、选择偏倚强度、疫苗效果大小、罕见病程度。 - 对比 baseline:对比了传统 Logistic 回归估计的 VE、Schnitzer (2022) 的 IPTW、本文的 OM/IPW/DR。 - 结果:在等混杂成立时,DR 估计量偏倚最小、覆盖率接近名义水平;当 OM 或 IPW 之一错指定时,DR 仍一致,而单一模型估计量偏倚显著。在等混杂不成立时(敏感性分析),偏倚随偏离参数 \(\delta\) 线性增长。 - 想说明什么:验证 DR 估计量的双稳健性质在有限样本下成立,且展示等混杂偏离对 VE 估计的定量影响。

🔎 结论是否比证明窄 - 作者在定理陈述中明确标注了"罕见病假设"是 OR 近似为 RR 的必要条件,但在 abstract 和 discussion 中有泛泛 claim "TND 可以评估 VE"的语句,未每次重申罕见病假设的局限。对于非罕见病(如 COVID 住院率在某些高峰期可达 20%),OR 与 RR 的偏离不可忽略,此时定理只识别了 OR,而非 RR,这一点在正文中承认但未在标题/摘要中强调。


四、开放问题(点到为止)

  1. 非罕见病下的 RR 识别:当 \(P(Y=1 \mid W)\) 不小时,OR 等混杂只能识别因果 OR,而非因果 RR。能否在 OR 等混杂基础上,利用 \(Y_N\) 的额外信息(如检测阴性者的病原体分布)构造 RR 的无偏识别?扎根在 Section 5 "The rare disease assumption is necessary for the odds ratio to approximate the risk ratio"。
  2. 等混杂假设的可检验性:OR 等混杂本身是否可利用阴性对照暴露/结果的数据进行部分检验?Li et al. (2022) 的双阴性对照框架提供了检验思路,但本文未结合。扎根在 Section 6 "Future work might explore the testability of the equi-confounding assumption"。
  3. 病毒干扰的放松:假设 4(\(Y_N^1 = Y_N^0\))在 Cowling et al. (2012) 的流感数据中被质疑。能否在允许疫苗影响非目标病原体风险(但效应结构已知)时,修正识别公式?扎根在 Section 3 "We assume no virus interference; relaxing this would require modeling the vaccine effect on non-target pathogens"。
  4. 纵向/变异株 VE 的等混杂扩展:当前理论限于单时间点、单病原体。在变异株涌现或 VE 随时间衰减的纵向设定下,OR 等混杂如何随时间/变异株演化?扎根在 Section 6 "Extension to longitudinal settings with waning VE is an open question"。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论