Targeted maximum likelihood estimation of vaccine effectiveness and immune correlates in test-negative design studies with missing data¶

作者: Leah I. B. Andrews, Lars van der Laan, Peter B. Gilbert
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2605.21793

一、核心问题与贡献¶

①研究了 test-negative design (TND) 观测研究中存在混杂和暴露变量缺失时，如何估计医疗寻求人群的因果条件风险比。②核心方法是构建基于部分线性 logistic 回归模型的 TMLE，通过沿最不利子模型扰动初始估计以求解有效得分方程。③主要贡献在于证明了在 TND 特定因果假设与 MAR 下，观测条件 OR 等于因果条件 RR，并构造出达到半参数有效界的 \(n^{-1/2}\)-CAN 估计量，实现了数据驱动的混杂控制与缺失数据处理。

二、基础设定¶

核心概念与符号：
\(O_F = (A, Y, W, D, X)\)：全数据（暴露、感染、其他致病因子、症状、协变量）。
\(O = (S, \Delta, \Delta A, Y, X)\)：观测 TND 数据（检测行为、缺失指示、观测暴露、感染、协变量），条件于 \(D=1, S=1\)。
\(RR(P_{F,ca})(x) = \frac{P_{F,ca}(Y(1)=1, D(1)=1|X=x)}{P_{F,ca}(Y(0)=1, D(0)=1|X=x)}\)：目标因果参数，医疗寻求人群中的因果条件风险比。
\(\mu_P(y, x) = P(A=1|D=1, S=1, \Delta=1, Y=y, X=x)\)：TND 队列中的暴露条件概率。
\(OR(P)(x)\)：观测条件 OR，在部分线性模型下等于 \(\exp(\beta(P)^T f(x))\)。
关键假设：
Assumption 4 & 5 (MAR)：\(S \perp\!\!\!\perp A | D=1, Y, X\) 及 \(\Delta \perp\!\!\!\perp A | D=1, S=1, Y, X\)。统计学含义为选择与缺失仅依赖于观测变量，允许 two-phase sampling 下的无偏推断。
Assumption 6 (Noncase Exchangeability)：\(P_F(Y=0, D=1|A=1, X) = P_F(Y=0, D=1|A=0, X)\)。核心 TND 假设，要求暴露不影响其他原因引发的症状，且无混杂。这是 TND 中 OR 识别 RR 的关键，比标准的无混杂假设更强，因为它涉及对非目标疾病 \(W\) 的因果约束。
Assumption 9-11：一致性、无干扰、无未测混杂（标准因果假设）。
问题背景：传统 TND 分析依赖参数 logistic 回归，存在模型误设风险，且无法处理暴露变量缺失（如 two-phase sampling 测量免疫标志物）。与 Westreich et al. [30] 引入 ML 的 TND 方法相比，本文提供了严格的半参数有效推断；与 van der Laan and Gilbert [43] 的 case-only TMLE 相比，本文将目标参数扩展至 TND 的因果条件 RR，并整合了缺失数据机制。

三、主要定理 / 核心结果¶

Theorem 1 & 2 (Identification)：
原文陈述：在 Assumptions 1-8 (或 1-11) 下，\(OR(P)(x) = RR(P_F)(x) = RR(P_{F,ca})(x)\)。
直观解释：在 TND 选择结构下（\(D=1, S=1\)），非病例组中暴露的分布不受暴露对目标疾病因果效应的影响（由 A6 保证），使得观测 OR 折叠为医疗寻求人群的因果 RR。
技术难点：处理选择偏倚（\(S=1\)）与缺失（\(\Delta\)）的联合作用，确保在条件概率测度下的等式推导不引入不可识别项。
局限：A6 假设极强，若疫苗对其他呼吸道疾病有非特异性效应（如旁观者免疫），则识别失效。
Theorem 3 (Efficient Influence Function)：
原文陈述：\(\beta(P)\) 的 EIF 为 \(D_P(o) = (\Lambda_P f(x)) \circ \delta H_P(y, x) [\delta a - \mu_P(y, x)]\)，其中 \(\Lambda_P\) 为缩放矩阵，\(H_P(y,x)\) 为 Clever Covariate。
直观解释：EIF 由暴露模型的残差 \(a - \mu_P\) 构成，通过方差权重和设计矩阵 \(f(x)\) 进行缩放，反映了在 TND 缺失数据结构下估计 \(\beta\) 的局部最陡下降方向。
Theorem 4 & 5 (Asymptotic Properties)：
原文陈述：在 Conditions 1-4 下，\(\sqrt{n}(\beta(P_n^*) - \beta(P)) \xrightarrow{d} N(0, \text{cov}(D_P(O)))\)，且 \(\log OR\) 具有类似渐近正态性。
直观解释：TMLE 是渐近线性估计量，达到半参数有效界。
适用条件与局限：Condition 4 要求干扰参数（\(\mu_P, e\pi_P\)）以 \(o_P(n^{-1/4})\) 速率收敛。若使用高维/ML方法，需满足 Donsker 条件或使用 cross-fitting 以消除经验过程项。

四、证明框架 / 方法设计¶

识别与估计主干逻辑：
测度变换：从全数据 \(P_F\) 出发，利用 Bayes 法则与条件独立性（A4, A5），将目标参数 \(RR(P_{F,ca})\) 转化为观测数据 \(P\) 下的 \(OR(P)\)。
模型嵌入：施加部分线性 logistic 模型 \(\text{logit}(\mu_P) = y\beta^T f(x) + h(x)\)，将 \(OR(P)\) 参数化为 \(\exp(\beta^T f(x))\)。
EIF 推导：在 TND 缺失数据结构下，通过投影计算 \(\beta\) 的 EIF。
TMLE 迭代：构造 logistic 扰动子模型 \(\text{logit}(\mu_P(\epsilon)) = \text{logit}(\mu_P) + \epsilon^T f(x) H_P(y,x)\)，通过 MLE 更新 \(\epsilon\) 直至得分方程 \(\frac{1}{n}\sum D_{P_n^*}(O_i) \approx 0\)。
最关键的技巧性"跳跃点"：
Clever Covariate \(H_P(y,x)\) 的构造：\(H_P(y,x) = \frac{y - E_P[Y\sigma_P^{-2}(1,x)|\Delta=1, X=x]}{E_P[\sigma_P^{-2}(Y,x)|\Delta=1, X=x]}\)。这一构造不仅保证了扰动子模型得分与 EIF 对齐，还通过条件期望的逆方差加权，在 TND 的 outcome-dependent sampling 下实现了有效性的校正。
数学工具评价：经典半参数理论与 TMLE 框架的标准化应用，其新颖性在于将部分线性 logistic 模型与 TND 的特定选择偏倚结构（\(D=1, S=1\)）及缺失指示（\(\Delta\)）深度融合，推导出特定于该观测结构的 EIF 解析形式。

五、与研究者兴趣的关联¶

连接子方向：半参数有效推断与缺失数据/选择偏倚下的因果识别。
可借鉴的核心思路：
在有偏采样（如 TND 的 outcome-dependent sampling 或 two-phase design）下，通过部分线性模型将目标因果参数（RR）与观测参数（OR）绑定，并利用逆方差加权的 Clever Covariate 构造 EIF，这一思路可直接迁移到 Proximal CI 中处理 negative control 的选择偏倚，或在 Mediation 分析中处理中间变量的缺失。
A6 (Noncase Exchangeability) 的违背是 TND 的核心痛点，这为引入 Sensitivity Analysis 提供了天然切入点：可借鉴此框架，将 A6 的违背参数化，推导其对应的 EIF 与修正 TMLE。
值得精读的关键参考文献：
van der Laan and Gilbert [43]：本文的直接理论前身，展示了 case-only 设计下的 TMLE，对理解本文 EIF 推导的演进至关重要。
Westreich et al. [30]：TND 中引入 ML 的早期工作，对比本文可清晰看出 semiparametric efficiency 理论在提供有效置信区间上的优势。

六、延伸思考与练习¶

假设扰动：若 Assumption 6 (Noncase Exchangeability) 放宽，即暴露 \(A\) 影响其他原因 \(W\)（例如疫苗引发旁观者免疫效应），此时 \(OR(P)(x)\) 不再等于 \(RR(P_{F,ca})(x)\)。结论将产生选择偏倚。技术上需要引入敏感性参数 \(\delta(x) = \frac{P_F(Y=0, D=1|A=1, X=x)}{P_F(Y=0, D=1|A=0, X=x)}\)，重新推导目标参数的识别公式及对应的 EIF，构造带敏感性参数的 TMLE。
开放问题：在高维协变量 \(X\) 设置下（如基因组或大量临床指标），Condition 4 要求的 \(o_P(n^{-1/4})\) 收敛速率难以保证。如何结合 Debiased ML / Double Machine Learning 框架，在 TND 缺失数据结构下构造 Neyman-orthogonal score，以放松对 Donsker 条件的依赖？
理解检测题：在本文的 TND 设置中，若缺失机制 \(\Delta\) 不仅依赖于 \((Y, X)\)，还依赖于未观测的暴露 \(A\) 本身（即 MNAR），但在 Proximal CI 框架下存在一个 Negative Control Exposure \(Z\) 满足 \(Z \perp\!\!\!\perp Y | A, X\) 且 \(Z \not\!\!\!\perp\!\!\!\perp \Delta | Y, X\)。请基于本文的部分线性模型框架，写出利用 \(Z\) 识别 \(\beta(P)\) 的必要假设，并定性描述此时 EIF 中 Clever Covariate 的结构应如何修改。

Maintained by 陈星宇 · Homepage · Source on GitHub