跳转至

Targeted maximum likelihood estimation of vaccine effectiveness and immune correlates in test-negative design studies with missing data

作者: Leah I. B. Andrews, Lars van der Laan, Peter B. Gilbert
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2605.21793


一、核心问题与贡献

①研究了 test-negative design (TND) 观测研究中存在混杂和暴露变量缺失时,如何估计医疗寻求人群的因果条件风险比。②核心方法是构建基于部分线性 logistic 回归模型的 TMLE,通过沿最不利子模型扰动初始估计以求解有效得分方程。③主要贡献在于证明了在 TND 特定因果假设与 MAR 下,观测条件 OR 等于因果条件 RR,并构造出达到半参数有效界的 \(n^{-1/2}\)-CAN 估计量,实现了数据驱动的混杂控制与缺失数据处理。

二、基础设定

  • 核心概念与符号
  • \(O_F = (A, Y, W, D, X)\):全数据(暴露、感染、其他致病因子、症状、协变量)。
  • \(O = (S, \Delta, \Delta A, Y, X)\):观测 TND 数据(检测行为、缺失指示、观测暴露、感染、协变量),条件于 \(D=1, S=1\)
  • \(RR(P_{F,ca})(x) = \frac{P_{F,ca}(Y(1)=1, D(1)=1|X=x)}{P_{F,ca}(Y(0)=1, D(0)=1|X=x)}\):目标因果参数,医疗寻求人群中的因果条件风险比。
  • \(\mu_P(y, x) = P(A=1|D=1, S=1, \Delta=1, Y=y, X=x)\):TND 队列中的暴露条件概率。
  • \(OR(P)(x)\):观测条件 OR,在部分线性模型下等于 \(\exp(\beta(P)^T f(x))\)
  • 关键假设
  • Assumption 4 & 5 (MAR)\(S \perp\!\!\!\perp A | D=1, Y, X\)\(\Delta \perp\!\!\!\perp A | D=1, S=1, Y, X\)。统计学含义为选择与缺失仅依赖于观测变量,允许 two-phase sampling 下的无偏推断。
  • Assumption 6 (Noncase Exchangeability)\(P_F(Y=0, D=1|A=1, X) = P_F(Y=0, D=1|A=0, X)\)。核心 TND 假设,要求暴露不影响其他原因引发的症状,且无混杂。这是 TND 中 OR 识别 RR 的关键,比标准的无混杂假设更强,因为它涉及对非目标疾病 \(W\) 的因果约束。
  • Assumption 9-11:一致性、无干扰、无未测混杂(标准因果假设)。
  • 问题背景:传统 TND 分析依赖参数 logistic 回归,存在模型误设风险,且无法处理暴露变量缺失(如 two-phase sampling 测量免疫标志物)。与 Westreich et al. [30] 引入 ML 的 TND 方法相比,本文提供了严格的半参数有效推断;与 van der Laan and Gilbert [43] 的 case-only TMLE 相比,本文将目标参数扩展至 TND 的因果条件 RR,并整合了缺失数据机制。

三、主要定理 / 核心结果

  1. Theorem 1 & 2 (Identification)
  2. 原文陈述:在 Assumptions 1-8 (或 1-11) 下,\(OR(P)(x) = RR(P_F)(x) = RR(P_{F,ca})(x)\)
  3. 直观解释:在 TND 选择结构下(\(D=1, S=1\)),非病例组中暴露的分布不受暴露对目标疾病因果效应的影响(由 A6 保证),使得观测 OR 折叠为医疗寻求人群的因果 RR。
  4. 技术难点:处理选择偏倚(\(S=1\))与缺失(\(\Delta\))的联合作用,确保在条件概率测度下的等式推导不引入不可识别项。
  5. 局限:A6 假设极强,若疫苗对其他呼吸道疾病有非特异性效应(如旁观者免疫),则识别失效。

  6. Theorem 3 (Efficient Influence Function)

  7. 原文陈述\(\beta(P)\) 的 EIF 为 \(D_P(o) = (\Lambda_P f(x)) \circ \delta H_P(y, x) [\delta a - \mu_P(y, x)]\),其中 \(\Lambda_P\) 为缩放矩阵,\(H_P(y,x)\) 为 Clever Covariate。
  8. 直观解释:EIF 由暴露模型的残差 \(a - \mu_P\) 构成,通过方差权重和设计矩阵 \(f(x)\) 进行缩放,反映了在 TND 缺失数据结构下估计 \(\beta\) 的局部最陡下降方向。

  9. Theorem 4 & 5 (Asymptotic Properties)

  10. 原文陈述:在 Conditions 1-4 下,\(\sqrt{n}(\beta(P_n^*) - \beta(P)) \xrightarrow{d} N(0, \text{cov}(D_P(O)))\),且 \(\log OR\) 具有类似渐近正态性。
  11. 直观解释:TMLE 是渐近线性估计量,达到半参数有效界。
  12. 适用条件与局限:Condition 4 要求干扰参数(\(\mu_P, e\pi_P\))以 \(o_P(n^{-1/4})\) 速率收敛。若使用高维/ML方法,需满足 Donsker 条件或使用 cross-fitting 以消除经验过程项。

四、证明框架 / 方法设计

  • 识别与估计主干逻辑
  • 测度变换:从全数据 \(P_F\) 出发,利用 Bayes 法则与条件独立性(A4, A5),将目标参数 \(RR(P_{F,ca})\) 转化为观测数据 \(P\) 下的 \(OR(P)\)
  • 模型嵌入:施加部分线性 logistic 模型 \(\text{logit}(\mu_P) = y\beta^T f(x) + h(x)\),将 \(OR(P)\) 参数化为 \(\exp(\beta^T f(x))\)
  • EIF 推导:在 TND 缺失数据结构下,通过投影计算 \(\beta\) 的 EIF。
  • TMLE 迭代:构造 logistic 扰动子模型 \(\text{logit}(\mu_P(\epsilon)) = \text{logit}(\mu_P) + \epsilon^T f(x) H_P(y,x)\),通过 MLE 更新 \(\epsilon\) 直至得分方程 \(\frac{1}{n}\sum D_{P_n^*}(O_i) \approx 0\)
  • 最关键的技巧性"跳跃点"
  • Clever Covariate \(H_P(y,x)\) 的构造\(H_P(y,x) = \frac{y - E_P[Y\sigma_P^{-2}(1,x)|\Delta=1, X=x]}{E_P[\sigma_P^{-2}(Y,x)|\Delta=1, X=x]}\)。这一构造不仅保证了扰动子模型得分与 EIF 对齐,还通过条件期望的逆方差加权,在 TND 的 outcome-dependent sampling 下实现了有效性的校正。
  • 数学工具评价:经典半参数理论与 TMLE 框架的标准化应用,其新颖性在于将部分线性 logistic 模型与 TND 的特定选择偏倚结构(\(D=1, S=1\))及缺失指示(\(\Delta\))深度融合,推导出特定于该观测结构的 EIF 解析形式。

五、与研究者兴趣的关联

  • 连接子方向:半参数有效推断 与 缺失数据/选择偏倚下的因果识别。
  • 可借鉴的核心思路
  • 在有偏采样(如 TND 的 outcome-dependent sampling 或 two-phase design)下,通过部分线性模型将目标因果参数(RR)与观测参数(OR)绑定,并利用逆方差加权的 Clever Covariate 构造 EIF,这一思路可直接迁移到 Proximal CI 中处理 negative control 的选择偏倚,或在 Mediation 分析中处理中间变量的缺失。
  • A6 (Noncase Exchangeability) 的违背是 TND 的核心痛点,这为引入 Sensitivity Analysis 提供了天然切入点:可借鉴此框架,将 A6 的违背参数化,推导其对应的 EIF 与修正 TMLE。
  • 值得精读的关键参考文献
  • van der Laan and Gilbert [43]:本文的直接理论前身,展示了 case-only 设计下的 TMLE,对理解本文 EIF 推导的演进至关重要。
  • Westreich et al. [30]:TND 中引入 ML 的早期工作,对比本文可清晰看出 semiparametric efficiency 理论在提供有效置信区间上的优势。

六、延伸思考与练习

  • 假设扰动:若 Assumption 6 (Noncase Exchangeability) 放宽,即暴露 \(A\) 影响其他原因 \(W\)(例如疫苗引发旁观者免疫效应),此时 \(OR(P)(x)\) 不再等于 \(RR(P_{F,ca})(x)\)。结论将产生选择偏倚。技术上需要引入敏感性参数 \(\delta(x) = \frac{P_F(Y=0, D=1|A=1, X=x)}{P_F(Y=0, D=1|A=0, X=x)}\),重新推导目标参数的识别公式及对应的 EIF,构造带敏感性参数的 TMLE。
  • 开放问题:在高维协变量 \(X\) 设置下(如基因组或大量临床指标),Condition 4 要求的 \(o_P(n^{-1/4})\) 收敛速率难以保证。如何结合 Debiased ML / Double Machine Learning 框架,在 TND 缺失数据结构下构造 Neyman-orthogonal score,以放松对 Donsker 条件的依赖?
  • 理解检测题:在本文的 TND 设置中,若缺失机制 \(\Delta\) 不仅依赖于 \((Y, X)\),还依赖于未观测的暴露 \(A\) 本身(即 MNAR),但在 Proximal CI 框架下存在一个 Negative Control Exposure \(Z\) 满足 \(Z \perp\!\!\!\perp Y | A, X\)\(Z \not\!\!\!\perp\!\!\!\perp \Delta | Y, X\)。请基于本文的部分线性模型框架,写出利用 \(Z\) 识别 \(\beta(P)\) 的必要假设,并定性描述此时 EIF 中 Clever Covariate 的结构应如何修改。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论