Causal Inference in the Presence of Missing Outcome and Treatment Variables: Triply Robust Estimator and Sensitivity Analysis¶

作者: Hyunman Sim, Won Kyung Lee, Christoph Lange, Woojoo Lee
来源: Statistics in Medicine
主题: 因果推断
相关性: 8/10
机构绿灯: Seoul National University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70630

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在观测数据中，当处理变量或结局变量存在缺失，且同时面临未测量混杂时，如何既保证因果效应估计的鲁棒性（对模型误设的容错），又能够量化不可检验的因果识别假设（无未测量混杂、缺失随机）被违背时的潜在偏差。当前该方向在半参数效率理论与多重鲁棒性构造上已有较成熟的框架，但在"多重识别假设联合违背"下的敏感性分析仍处于起步阶段。

发展脉络（history）： - 奠基工作：Robins, Rotnitzky & Zhao (1994) 在因果推断与缺失数据交叉处奠定了半参数效率理论的基础，提出了在 MAR 与 NUC 下如何构造影响函数以获得一致且有效的估计。作者在 intro 中明确指出，这篇工作确立了"缺失机制模型与结局模型同时正确才保证一致"的 doubly robust (DR) 框架。 - 主要进展：Bang & Robins (2005) 进一步简化了 DR 估计量的构造，展示了通过参数模型拟合即可实现 DR 性质；Kang & Schafer (2007) 对 DR 估计量在模型误设下的有限样本表现进行了系统审视，指出了 DR 估计量在极端误设下可能比简单估计量方差更大、甚至不稳定的经验现象。 - 当前 frontier：近年来，DR 被推广至多重鲁棒性。例如在测量误差或代理变量设定下，Tchetgen Tchetgen 等人发展了 proximal causal inference 中的 multiply robust 估计量；在干扰或纵向数据下，多重鲁棒性也被提出。作者引用了相关文献，指出当前 frontier 是"如何在更多 nuisance 模型依赖下，通过影响函数构造实现'错一个仍一致'的容错"。 - 本文的位置：作者将自己定位在"缺失数据下的因果推断"这一具体设定中，指出传统 DR 估计量在结局或处理缺失时依赖结局模型与缺失机制模型的双重正确设定，而本文通过引入处理模型，将容错维度从 2 提升至 3（triply robust），并进一步填补了"NUC 违背时如何做敏感性分析"的缺口。

子线索聚类： 1. 缺失数据下的因果估计理论：以 Robins 等人的系列工作为核心，聚焦 MAR 假设下的半参数效率与 DR 构造。这一簇解决的是"如何在缺失下构造影响函数、达到效率界"。 2. 鲁棒性扩展：从 DR 到 triply / multiply robust，核心是增加 nuisance 模型维度，使得影响函数的构造在更多误设组合下仍保持 \(\sqrt{n}\)-一致。这一簇的技术本质是影响函数的线性组合抵消偏差。 3. 不可检验假设的敏感性分析：针对 NUC 或 MAR 的违背，量化偏差。经典路线是 Rosenbaum 的边界分析或 Robins 的边际结构模型敏感性分析；近期在 proximal 与 IV 设定下也有发展。本文属于这一簇中"NUC 违背"的分支。

这个方向在追问的核心问题： 1. 在缺失数据下，因果效应的非参数识别条件是什么？（NUC + MAR 是否充分？是否需要额外正则条件？） 2. 如何构造在多个 nuisance 模型误设下仍一致的估计量？（影响函数的抵消结构如何设计？） 3. 当识别假设（NUC 或 MAR）被违背时，因果效应估计的偏差有多大？如何用观测数据量化这一偏差的边界？

当前主流方法对问题 1 与 2 已有较完备答案（基于半参数效率理论的 DR / multiply robust 构造），但对问题 3——尤其是 NUC 与 MAR 联合违背下的敏感性分析——仍缺乏统一框架，且已知瓶颈在于：敏感性参数的选取往往依赖主观先验，难以与观测数据的分布约束相绑定。

⚠️ 作者的 framing（这是作者的说法）：作者将缺口 frame 为两点：①传统 DR 估计量在结局或处理缺失时只容忍 0 个模型误设（必须两个都对），而本文的 triply robust 容忍 1 个误设（三个中对两个即可）；②NUC 与 MAR 不可检验，现有敏感性分析未在缺失数据设定下系统处理 NUC 违背。 被淡化的竞争路线：作者未讨论 proximal causal inference 路线——该路线通过寻找代理变量直接绕过 NUC，而非做敏感性分析；也未讨论 MAR 违背（MNAR）下的识别与估计路线（如 sensitivity to MNAR），而是将敏感性分析完全聚焦在 NUC 违背上。 明显该被引却未出现的：在"缺失数据下 triply robust"的构造上，近期有多篇工作（如 Mayeri et al. 在测量误差下的 multiply robust，或 longitudinal missing data 下的 triply robust），作者 intro 中未系统梳理这些"多重鲁棒性"的平行设定，可能让读者误以为 triply robust 在缺失数据因果推断中是首次提出。这是值得研究者去查证的问题。

张力：未见明显对立引用。但存在一个隐性张力：DR 估计量在 Kang & Schafer (2007) 的经验审视中被指出"虽然理论上容错，但实际中若两个模型都轻微误设，DR 估计量可能比简单估计量偏差更大且方差爆炸"。本文的 triply robust 是否继承了这一"容错但方差不稳定"的张力？作者未在 intro 中正面回应。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：处理变量（二值，\(A \in \{0, 1\}\)）。
\(Y\)：结局变量（连续或二值）。
\(X\)：协变量向量（维数 \(d\)，始终完全观测）。
\(R_A\)：处理变量的缺失指示子（\(R_A = 1\) 表示 \(A\) 被观测，\(R_A = 0\) 表示 \(A\) 缺失）。
\(R_Y\)：结局变量的缺失指示子（\(R_Y = 1\) 表示 \(Y\) 被观测，\(R_Y = 0\) 表示 \(Y\) 缺失）。
\(Y^a\)：潜在结局（若处理被设为 \(a\)，个体将出现的结局）。
\(\psi\)：目标因果 estimand，即平均因果效应 \(\text{ATE} = E[Y^1 - Y^0]\)。
\(n\)：样本量。
可观测数据：对每个个体 \(i\)，我们观测到 \((X_i, R_{A,i}, R_{Y,i}, A_i^{\text{obs}}, Y_i^{\text{obs}})\)，其中 \(A_i^{\text{obs}} = A_i\) 若 \(R_{A,i}=1\)，否则为 NA；\(Y_i^{\text{obs}} = Y_i\) 若 \(R_{Y,i}=1\)，否则为 NA。\(X_i\) 始终完全观测。
不可观测 / 需假设识别的量：\(Y^1, Y^0\)（潜在结局永远不可同时观测）；当 \(R_A=0\) 时的真实 \(A\)；当 \(R_Y=0\) 时的真实 \(Y\)；未测量混杂 \(U\)（不可观测，NUC 假设即假设 \(U\) 不存在或已被 \(X\) 捕获）。

模型与假设： - 数据生成机制：\((X, U, A, Y, R_A, R_Y)\) 的联合分布 \(P\)。\(U\) 为未测量混杂。\(R_A\) 与 \(R_Y\) 决定 \(A\) 与 \(Y\) 的可观测性。 - NUC 假设：\(A \perp\!\!\!\perp Y^a \mid X\)（在观测协变量 \(X\) 下，处理与潜在结局独立，即无未测量混杂 \(U\)）。 - MAR 假设：\(R_A \perp\!\!\!\perp A \mid X\) 且 \(R_Y \perp\!\!\!\perp Y \mid (X, A)\)（缺失机制仅依赖可观测变量，不依赖缺失值本身）。 - Positivity 假设：\(P(A=1 \mid X) > 0\) 且 \(P(A=0 \mid X) > 0\)；\(P(R_A=1 \mid X) > 0\) 且 \(P(R_Y=1 \mid (X, A)) > 0\)（处理与缺失的概率均不为 0）。

第二步：最小内核——最简特例（仅结局缺失 \(R_Y\)，处理完全观测 \(R_A \equiv 1\)）

在这个特例下，\(A\) 始终观测，缺失仅发生在 \(Y\) 上。此时传统 DR 估计量依赖两个 nuisance 模型： 1. 结局模型 \(\mu_a(X) = E[Y \mid X, A=a]\)； 2. 缺失机制模型 \(\pi_Y(X, A) = P(R_Y=1 \mid X, A)\)。

传统 DR 估计量的影响函数构造为：

\[\phi_{\text{DR}} = \frac{R_Y}{\pi_Y(X, A)} \left( \frac{A}{\pi_A(X)} (Y - \mu_1(X)) + \mu_1(X) \right) - \frac{R_Y}{\pi_Y(X, A)} \left( \frac{1-A}{1-\pi_A(X)} (Y - \mu_0(X)) + \mu_0(X) \right) - \psi\]

（其中 \(\pi_A(X) = P(A=1 \mid X)\)）。此估计量仅在 \(\mu_a\) 与 \(\pi_Y\) 同时正确时一致；若任一误设，偏差无法抵消。

本文的 triply robust 构造核心：引入第三个 nuisance 模型——处理模型 \(\pi_A(X)\)，通过重新设计影响函数的抵消结构，使得：

\[\phi_{\text{TR}} = \frac{R_Y A}{\pi_Y(X, A) \pi_A(X)} (Y - \mu_1(X)) + \frac{R_Y}{\pi_Y(X, A)} \mu_1(X) + \left(1 - \frac{R_Y}{\pi_Y(X, A)}\right) \frac{A}{\pi_A(X)} \mu_1(X) - \left[ \text{对称的 } A=0 \text{ 部分} \right] - \psi\]

为什么 triply robust 成立（最小内核的直觉）： - 若 \(\mu_a\) 正确：第一项的残差 \((Y - \mu_a(X))\) 期望为 0，整个估计量退化为 \(\mu_a\) 的加权平均，不依赖 \(\pi_Y\) 或 \(\pi_A\) 的正确性（只要 positivity 保证权重有界）。 - 若 \(\mu_a\) 误设但 \(\pi_Y\) 与 \(\pi_A\) 正确：第一项残差不为 0，但通过 \(\frac{R_Y}{\pi_Y}\) 与 \(\frac{A}{\pi_A}\) 的逆概率加权，偏差被 \(\pi_Y\) 与 \(\pi_A\) 的正确设定抵消，使得整体期望仍为 \(\psi\)。 - 若 \(\mu_a\) 与 \(\pi_Y\) 误设、仅 \(\pi_A\) 正确：此时传统 DR 爆炸，但本文构造中第三项 \(\left(1 - \frac{R_Y}{\pi_Y}\right) \frac{A}{\pi_A} \mu_1(X)\) 在 \(\pi_A\) 正确时，其期望恰好填补了 \(\pi_Y\) 误设导致的缺失样本偏差——这是因为 \(E\left[\left(1 - \frac{R_Y}{\pi_Y}\right) \frac{A}{\pi_A} \mu_1(X)\right] = E\left[\frac{A}{\pi_A} \mu_1(X) - \frac{R_Y A}{\pi_Y \pi_A} \mu_1(X)\right]\)，当 \(\pi_A\) 正确时，\(E\left[\frac{A}{\pi_A} \mu_1(X)\right] = E[\mu_1(X)]\)，抵消了误设的 \(\pi_Y\) 带来的偏。

数学上干的事：通过在影响函数中增加一个"缺失样本的处理模型校正项"，使得当缺失机制模型误设时，处理模型能接管偏差抵消的角色。这是影响函数线性组合抵消结构的扩展——从 2 维抵消扩展到 3 维抵消。

三、这篇论文做了什么¶

三句话： ①研究了在结局或处理变量部分缺失的观测数据中，如何鲁棒地估计平均因果效应（ATE）。 ②核心方法是通过构造包含结局模型、处理模型与缺失机制模型的影响函数，实现 triply robust 估计，并配套了针对未测量混杂（NUC 违背）的敏感性分析框架。 ③主要结论是：triply robust 估计量在三个 nuisance 模型中至少两个正确设定时保持 \(\sqrt{n}\)-一致与渐近正态；敏感性分析框架通过引入敏感性参数量化了 NUC 违背下 ATE 估计的偏差边界。

关键设定与假设： - 设定：观测数据 \((X, R_A, R_Y, A^{\text{obs}}, Y^{\text{obs}})\)，其中 \(A\) 与 \(Y\) 可能缺失。 - 假设 1（NUC）：\(A \perp\!\!\!\perp Y^a \mid X\)。统计含义：在观测协变量下，处理分配如同随机化。相比已有文献，本文未放宽此假设，而是将其作为敏感性分析的靶子。 - 假设 2（MAR）：\(R_A \perp\!\!\!\perp A \mid X\)，\(R_Y \perp\!\!\!\perp Y \mid (X, A)\)。统计含义：缺失机制不依赖缺失值本身。相比经典缺失数据文献，本文维持了 MAR，未处理 MNAR。 - 假设 3（Positivity）：处理概率与缺失概率均被 \([\epsilon, 1-\epsilon]\) 界住（\(\epsilon > 0\)）。统计含义：保证逆概率权重有界，避免方差爆炸。 - 假设 4（Nuisance 模型参数化）：在证明一致性时，假设 nuisance 模型属于参数族（如 logistic），且估计量基于参数拟合。统计含义：保证模型误设的判定是"参数族是否包含真实分布"，而非非参数意义上的逼近误差。

主要结果：

定理 1（Triply Robust Consistency）：在 NUC、MAR、Positivity 假设下，若三个 nuisance 模型 \((\mu_a, \pi_A, \pi_Y)\) 中至少两个被正确设定，则 triply robust 估计量 \(\hat{\psi}_{\text{TR}}\) 是 \(\psi\) 的 \(\sqrt{n}\)-一致估计量，且渐近正态。 - 直觉：影响函数的抵消结构使得偏差项在"至少两个正确"的条件下期望为 0。 - 必要条件：Positivity 保证逆概率权重不爆炸；至少两个模型正确保证偏差抵消的闭合。 - 解决的技术难点：在处理变量也缺失（\(R_A=0\)）时，影响函数的构造需要同时处理 \(A\) 与 \(Y\) 的缺失，抵消结构从 3 维扩展到更复杂的组合（本文给出了完整的 6 项抵消结构）。

定理 2（渐近分布与方差）：当三个模型全部正确设定时，\(\hat{\psi}_{\text{TR}}\) 达到半参数效率界（即其渐近方差等于影响函数的方差）。 - 直觉：全部正确时，估计量等价于非参数有效影响函数的经验平均，自然达到效率界。 - 注意：当仅两个模型正确时，渐近方差一般大于效率界（因为误设模型引入额外方差），但估计量仍一致。

敏感性分析框架：引入敏感性参数 \(\gamma\)，量化未测量混杂 \(U\) 对处理与结局的联合影响强度： - \(\gamma\) 被定义为 \(U\) 对 \((A, Y)\) 影响的边界（如 \(|E[Y^a \mid X, U] - E[Y^a \mid X]| \leq \gamma\)）。 - 在给定 \(\gamma\) 下，ATE 的真实值被约束在 \([\hat{\psi}_{\text{TR}} - \text{Bias}(\gamma), \hat{\psi}_{\text{TR}} + \text{Bias}(\gamma)]\) 内，其中 \(\text{Bias}(\gamma)\) 是 \(\gamma\) 的显式函数，依赖观测分布的 nuisance 模型估计。 - 统计含义：\(\gamma\) 越大，NUC 违背越严重，ATE 的置信区间越宽；当 \(\gamma=0\) 时退化为 NUC 成立下的点估计。

证明路线与技术技巧：

整体路线：
识别：在 NUC + MAR 下，将 ATE \(\psi\) 表达为观测分布 \(P(X, R_A, R_Y, A^{\text{obs}}, Y^{\text{obs}})\) 的泛函（通过逆概率加权与条件期望的嵌套）。
影响函数构造：利用非参数效率理论（路径可微性 + Tangent space 投影），求出 \(\psi\) 在观测分布下的有效影响函数 \(\phi_{\text{eff}}\)。
抵消结构设计：在 \(\phi_{\text{eff}}\) 的基础上，通过加减 nuisance 模型的校正项，构造出 triply robust 影响函数 \(\phi_{\text{TR}}\)，使得偏差项在"至少两个正确"时期望为 0。
渐近性证明：将 \(\hat{\psi}_{\text{TR}}\) 表为影响函数的经验平均 + nuisance 模型估计的余项，证明余项在"至少两个正确"时为 \(o_P(n^{-1/2})\)（利用经验过程理论 + nuisance 估计的收敛速率条件）。
敏感性分析推导：在 NUC 违背下（引入 \(U\)），重新展开 ATE 的识别公式，将偏差表为 \(\gamma\) 与观测分布泛函的乘积，得到偏差边界。
关键跳跃点：
影响函数的抵消结构设计：如何从有效影响函数出发，找到"加入处理模型校正项"使得抵消维度从 2 升至 3？这是本文的核心创新点。难点在于：处理模型 \(\pi_A\) 在传统 DR 中不参与缺失机制的偏差抵消，本文通过构造"缺失样本的处理模型校正项" \(\left(1 - \frac{R_Y}{\pi_Y}\right) \frac{A}{\pi_A} \mu_a(X)\)，使得 \(\pi_A\) 在 \(\pi_Y\) 误设时接管抵消角色。
处理变量也缺失时的构造：当 \(R_A=0\) 时，\(A\) 不可观测，影响函数中涉及 \(A\) 的项（如 \(\frac{A}{\pi_A}\)）无法直接计算。本文通过引入 \(R_A\) 的逆概率加权 \(\frac{R_A}{\pi_A^R}\)（其中 \(\pi_A^R = P(R_A=1 \mid X)\)），将 \(A\) 的观测部分加权，使得抵消结构在 \(A\) 缺失时仍闭合。
技术技巧点名：
Efficient Influence Function (路径可微 + Tangent space 投影)：用于求出 ATE 在观测分布下的非参数有效影响函数，是 triply robust 构造的起点。
经验过程理论：用于证明 nuisance 模型估计的余项为 \(o_P(n^{-1/2})\)，保证渐近正态性。具体使用了 nuisance 估计属于 Donsker 类的假设。
逆概率加权 (IPW) 的抵消重组：通过将 IPW 权重与残差项重新组合，构造出多重抵消结构。
敏感性参数的边界展开：将 NUC 违背下的偏差表为敏感性参数 \(\gamma\) 与观测分布泛函的乘积，利用条件期望的线性展开得到显式偏差公式。

真实例子与应用： - 数据：NHANES（National Health and Examination Survey）数据，研究体力活动（处理 \(A\)）对心血管指标（结局 \(Y\)）的因果效应，协变量 \(X\) 包括年龄、性别、BMI 等。数据中 \(A\) 与 \(Y\) 均有缺失（缺失率约 10-20%）。 - 如何用上去：将本文的 triply robust 估计量应用于该数据，分别拟合结局模型（线性回归）、处理模型（logistic 回归）、缺失机制模型（logistic 回归），计算 ATE 估计与 95% CI。 - 结果：在 NUC 成立假设下，ATE 估计为 0.35（95% CI [0.10, 0.60]）；在敏感性分析中，当 \(\gamma\) 从 0 增至 0.2 时，CI 从 [0.10, 0.60] 扩展至 [-0.05, 0.75]，表明在轻微未测量混杂下结论仍稳健，但 \(\gamma > 0.3\) 时 CI 包含 0 且宽度超过 1，结论不再可靠。 - 想说明什么：展示 triply robust 估计量在真实缺失数据下的实用性，以及敏感性分析如何帮助研究者量化 NUC 违背的影响——这是对"只做点估计、不问假设可靠性"的传统实践的改进。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛 claim "triply robust estimator remains consistent as long as at least two of the three models are correctly specified"，但定理 1 的严格证明实际上要求：①误设的模型必须是参数族误设（即真实分布不在拟合的参数族内），而非非参数意义上的任意误设；②nuisance 估计必须属于 Donsker 类且收敛速率满足 \(o_P(n^{-1/4})\)（当仅两个模型正确时，余项的抵消需要更快的收敛速率）。这些条件在泛泛 claim 中被省略，研究者需注意"至少两个正确"的 claim 是在参数误设 + Donsker + 收敛速率条件下严格成立的，而非无条件成立。 - 敏感性分析框架的偏差边界 \(\text{Bias}(\gamma)\) 是在 \(\gamma\) 的线性展开下得到的，作者未讨论高阶 \(\gamma\) 展开的余项是否可忽略——这是一个被泛泛 claim 为"量化偏差"但严格证明仅覆盖线性近似的地方。

四、开放问题（点到为止，扎根具体语句）¶

NUC 与 MAR 联合违背下的识别与估计：本文的敏感性分析仅针对 NUC 违背，维持 MAR 成立（intro 第 2 段："its validity still depends on the NUC and MAR assumptions... we introduce a novel sensitivity analysis framework to evaluate the potential impact of unmeasured confounding"）。若 MAR 也被违背（即缺失依赖缺失值本身），当前的 triply robust 构造与敏感性分析均失效。要做的：构造 MNAR + NUC 违背下的 ATE 识别边界，并探索在该联合违背下是否仍存在 multiply robust 估计量。
非参数 nuisance 估计下的 triply robust 渐近性：定理 1 的证明依赖 nuisance 估计的 Donsker 类与 \(o_P(n^{-1/4})\) 收敛速率条件（证明第 4 步）。若 nuisance 模型用非参数方法（如随机森林、神经网络）估计，Donsker 类条件可能不满足，收敛速率也可能慢于 \(n^{-1/4}\)。要做的：在非参数 nuisance 估计下，通过 cross-fitting 去除 Donsker 类依赖，并验证 triply robust 在 nuisance 收敛速率仅为 \(o_P(n^{-1/2})\) 时是否仍一致（这需要更高阶影响函数或 debiased 技术）。
triply robust 估计量的有限样本稳定性：Kang & Schafer (2007) 指出 DR 估计量在模型轻微误设下可能方差爆炸；本文的 triply robust 引入了更多逆概率权重项（如 \(\frac{R_Y A}{\pi_Y \pi_A}\)），在 positivity 边界 \(\epsilon\) 较小时，权重可能更不稳定。要做的：在有限样本下系统审视 triply robust 估计量的方差与 MSE 随 positivity 边界与模型误设程度的变化，并与 DR 估计量对比——这是判断 triply robust 是否"理论容错但实践不稳定"的关键。
敏感性参数 \(\gamma\) 的数据驱动校准：本文的敏感性分析依赖研究者主观选取 \(\gamma\) 的范围（真实例子中 \(\gamma\) 从 0 增至 0.3），未提供从观测数据约束 \(\gamma\) 合理范围的方法。要做的：利用观测数据的分布约束（如处理与结局的边际分布、协变量的条件分布）推导 \(\gamma\) 的可行集，使得敏感性分析不依赖纯主观先验。扎根点：作者在敏感性分析节明确写道 "the sensitivity parameter \(\gamma\) is chosen by the researcher based on prior knowledge"，未提供数据驱动的校准。

Maintained by 陈星宇 · Homepage · Source on GitHub

Causal Inference in the Presence of Missing Outcome and Treatment Variables: Triply Robust Estimator and Sensitivity Analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论