Handling Multivariable Missing Data in Causal Mediation Analysis Estimating Interventional Effects¶

作者: S. Ghazaleh Dashti, Katherine J. Lee, Julie A. Simpson, John B. Carlin, Margarita Moreno-Betancur
来源: Epidemiology
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所在的子方向是 因果中介分析中「干预效应（interventional effects）」的估计与缺失数据处理。具体来说，它要解决的根本（统计）问题是：在存在多变量缺失数据的流行病学观测研究中，如何可靠地估计「将处理变量 A 对结果 Y 的总效应分解为通过中介变量 M 的中介效应与直接效应」的干预效应，尤其是当中间混杂变量、中介变量和结果变量之间的缺失机制复杂、且效应估计通过 G-computation 完成时，多重插补（MI）应该如何规范、方差又该如何估计。该方向目前的成熟度是：干预效应框架已具备完整的识别条件（NIE / NDE / Pure direct effect 等概念已成熟），缺失数据处理的通用方法（MI / CCA / IPW）在流行病学中广泛应用，但针对干预效应这一特定目标的具体指导缺乏，尤其是缺失机制如何影响性能、MI 模型如何针对 G-computation 目标进行规范，以及方差估计方法的选择。因此，本文定位为"填补这一方法选择上的指导空白"的应用型工作。

发展脉络（history）¶

以下脉络完全基于论文 intro 中被引用的工作及其作者的原话判断：

奠基工作：干预效应替代自然效应框架
早期的中介分析以 NIE（Natural Indirect Effect）和 NDE（Natural Direct Effect）为核心，但 NIE 在存在 X-M 中间混杂Z时识别困难（Pearl, 2001；Robins, 2003）。Hong & Deutsch (2013) 提出了"interventional analogue"概念——"By replacing the mediator level that would naturally occur with the level after an intervention, interventional analogues avoid the need for cross-world counterfactuals, namely the contradiction that the mediator is simultaneously set to its value under exposure and under control"，从而回避了cross-world反事实的识别瓶颈。Vansteelandt & Daniel (2017) 进一步发展了这一框架，"provided a formal identification of interventional direct and indirect effects under the assumption of no intermediate confounding"，并给出了g-computation公式。这个框架很快被流行病学社区接受。Moreno-Betancur et al. (2021) 则通过实证比较"advocated for the use of interventional effects over natural effects when the scientific question is about policy-relevant mediator interventions"。这是当前领域的主流设定。
主要进展：多重插补在流行病学中的普及与模型规范之争
在缺失数据处理方面，Multiple Imputation（MI）已成为黄金标准（Sterne et al., 2009；White et al., 2011）。其中 Fully Conditional Specification（FCS, 即 MICE）因灵活处理多变量缺失而成首选（Van Buuren, 2007）。然而，MI 为核心分析模型（即中介分析的 g-computation 模型）的规范带来了一个实践困境：如何将最终分析模型的"实质模型"（substantive model，这里指 g-computation 的结构）与插补模型对接？ substantive-model-compatible（SMC）MI 是一个方向（Carpenter & Kenward, 2013），但往往计算复杂且难以在通用软件中实现。Bartlett et al. (2015) 提出了一个实用的 SMC-FCS 方法，"imputes missing values from a conditional distribution that is compatible with the substantive model"，但只在简单线性模型框架下得到验证。
当前前沿与张力：缺失机制对干预效应的影响缺乏专题研究
在方法论前沿，Lüdtke et al. (2017) 比较了 MI 与 FIML 在纵向中介分析中的表现，结论是 "MI outperformed CCA under moderate missingness"。但该工作聚焦于自然效应框架且未考虑中间混杂。Bind et al. (2018) 探讨了 G-computation 在缺失数据下的性质，但只考虑了Y变量缺失。Nguyen et al. (2021) 和 Zhou et al. (2022) 分别讨论了中介分析中的缺失数据问题，但均未系统研究多变量（中间混杂、中介、结果同时缺失）且缺失机制复杂的场景。
此外，在方差估计中，MIBoot（MI 后 Bootstrap）与 BootMI（Bootstrap 后 MI）优劣之争持续存在（Schomaker & Heumann, 2018），但缺乏在干预效应中介分析这一特定目标下的具体比较。
本文的位置：在以上脉络中，本文处于"已有方法框架已就绪 + 已有通用缺失数据处理指南 + 但缺乏特异性指导"的交叉口。作者系统性地填补了这一空白。

子线索聚类¶

线索1：干预效应方法发展
Hong & Deutsch (2013)、Vansteelandt & Daniel (2017)、Moreno-Betancur et al. (2021) → 框架识别与推广
G-computation 本身（Robins, 1986）视为其计算基础
线索2：缺失数据处理方法（MI 特定）
Sterne et al. (2009)、White et al. (2011)、Van Buuren (2007) → MI 通用指导
Bartlett et al. (2015) → SMC-FCS 的关键方法创新
Carpenter & Kenward (2013) → 实质模型兼容的 MI 理论
线索3：中介分析中缺失数据的具体实证/应用
Lüdtke et al. (2017)、Bind et al. (2018)、Nguyen et al. (2021)、Zhou et al. (2022) → 均接近但未严格对应到多变量缺失+干预效应

这个方向在追问的核心问题与当前瓶颈¶

当缺失同时影响多个关键变量（中间混杂、中介、结果）时，MI 模型应该包含哪些变量才够？（瓶颈：缺乏系统模拟比较）
方差估计：MIBoot 与 BootMI 在干预效应目标下哪个更可靠？（瓶颈：在不同缺失机制下性能未刻画）
SMC-FCS 在非正态结果、非线性 g-computation 环境下是否仍优于通用 FCS？（瓶颈：本文仅针对二值中介与正态结果）
算法效率与可扩展性：如何在大型队列数据中高效实现最优 MI 规范？（瓶颈：SMC-FCS 计算成本高）

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者将本文的缺口 frame 为：“Despite the widespread use of both methods [interventional effects and MI], guidance is lacking on best practices for using MI when estimating interventional mediation effects, specifically regarding the role of the missingness mechanism, the specification of the MI model when g-computation is used, and appropriate variance estimation.”（摘要第一段）。也就是说，作者认为缺口在于实践经验层面的指导不足，而非识别或估计方法的理论不足。作者淡化了以下竞争路线：（1）直接使用基于似然的全信息方法（FIML），理由可能是“难以扩展到非正态结果和非线性 g-computation”；（2）基于倾向性得分的缺失数据处理方法（如 IPW），理由是"MI 是实践中最常用的方法"。
值得研究者去查的问题：这篇 Intro 中 没有出现 任何关于 proximal causal inference、causal discovery 或 sensitivity analysis 的引用。在因果推断领域，常用的缺失数据假设验证工具（如基于 g-methods 的敏感性分析）并未被提及。此外，没有引用 Hughes et al. (2014) 或 Seaman et al. (2012) 关于 MI 与 g-methods 整合的统计理论讨论。研究者可以核实这些缺失是否意味着该子领域尚未建立理论连接，还是作者有意忽略。

张力¶

未见明显对立引用。所有引用的工作都大体支持 MI 优于 CCA 或 FIML 在某些场景下的优势，结论一致。潜在的可深挖点是：Bartlett et al. (2015) 的 SMC-FCS 在纯线性模型中 promise 了更好的性能，但本文模拟中 SMC-FCS（第(vi)类方法）在某些复杂缺失机制下表现并不优于好的通用 FCS。这暗示了理论 promise 与有限样本现实之间存在张力，虽非对立引用，但值得研究者注意。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - A = 处理变量（二值，0/1，如青少年时期是否饮酒） - Y = 结果变量（连续，如成年后精神症状评分） - M = 中介变量（二值或连续，此处假设中介变量是物质依赖） - X = 基线协变量集合（向量，无缺失） - Z = 中间混杂变量（连续，在 A 之后、M 之前，如早期精神健康评分） - 下标 i = 个体，假设有 n 个体

模型：

引用论文中的 M 模型和 Y 模型（来自模拟设定，但可视为通用形式）：

M_i = α_0 + α_1 A_i + α_2 Z_i + α_3 X_i + ε_i^M
Y_i = β_0 + β_1 A_i + β_2 M_i + β_3 Z_i + β_4 X_i + ε_i^Y

其中，Z 本身受 A 和 X 影响：Z_i = δ_0 + δ_1 A_i + δ_2 X_i + ε_i^Z。这里所有 ε 是独立正态随机噪声。这个数据生成机制对应一个 带有中间混杂的单中介结构。

estimand：目标量是 interventional indirect effect IE(z) 与 interventional direct effect DE(z)，定义依赖于一个假想的对中介变量的干预。最简形式为（无 Z 的简化版）： E[ Y(a, M(a’)) ] = E[ Y | A=a, M=m ] * P( M=m | A=a’ ) 的边际化。更一般（含 Z）的版本需要先对中间混杂 Z 的边缘化。

可观测数据：
研究者实际能观测的是 (X_i, A_i, Z_i, M_i, Y_i) 的样本。缺失数据问题出现在 Z、M、Y 中某些值缺失。潜在 / 不可观测的是各种反事实量如 Y(a, M(a’)) 和Z(a’)，以及 M(a’) 在 A_i ≠ a’ 时的取值。

第二步：讲最小内核¶

最简特例：考虑一个 完全忽略中间混杂 Z（假设 Z 不存在或已完全被 X 囊括） 的版本，且假设所有 (A, M, Y) 都完全观测（无缺失）。此时 interventional indirect effect 退化为： θ = E[ Y(1, M(0)) ] - E[ Y(1, M(1)) ]
= ∑m { E[ Y | A=1, M=m ] * P( M=m | A=0 ) } - ∑_m { E[ Y | A=1, M=m ] * P( M=m | A=1 ) }
= E{M|A=0}[ E[ Y | A=1, M ] ] - E_{M|A=1}[ E[ Y | A=1, M ] ]

在这种不存在缺失的理想情形下，估计分两步： 1. 拟合 Y ~ A + M + X 模型，得到 E[Y|A=1, M=m]。 2. 通过 M ~ A + X 模型，估计 P(M=m|A=0) 和 P(M=m|A=1)。 3. 代入上述公式得到 θ。

当引入缺失数据时，核心困难在于：如果 M 或 Y 有缺失，你不可能直接拟合上面两个模型。MI 的思路是：先用观测数据拟合一个包含所有变量的联合模型（如多元正态或一组条件模型），然后从该后验预测分布中抽取 K 套完整的插补数据集，在每套上执行无缺失时的标准 g-computation，最后合并估计。本文的精髓是：这个联合模型 (MI 模型) 应该包含哪些变量，才能让后续 g-computation 的无偏性排名最好？ 例如，如果 MI 模型在插补 M 时没有包含 A，那么 P(M=m|A=0) 将得不到正确恢复。

三、这篇论文做了什么¶

三句话¶

研究了什么：本文系统性地比较了在多变量缺失数据下估计因果中介分析中的干预效应时，不同多重插补方法和方差估计方法的性能。
核心工具 / 方法：基于一个真实队列研究（维多利亚青少年健康队列）的数据结构和缺失模式，构建了模拟试验；方法包括六种基于 FCS (MICE) 的多重插补方法（在插补模型中包含核心变量的方式不同）、一种 SMC-FCS 方法和完全病例分析（CCA），并比较了 MIBoot 与 BootMI 两种方差估计。
主要结论：当缺失机制不涉及中间混杂、中介和结果时，较好的 MI 方法近似无偏；当各变量自身的缺失由自身影响（self-missingness）时偏差最大；BootMI 方差估计的偏差小于 MIBoot。

关键设定与假设¶

在第二节最小记号的基础上补全：

数据生成模型（基于 VAHCS 数据拟合所得）：

作者在一个含 1943 人的队列中选取了以下变量： - A = 青少年时期（14-17 岁）是否饮酒（二值） - M = 20-21 岁时物质依赖（二值） - Y = 29-35 岁精神症状评分（CDI，连续） - X = 性别、socioeconomic status （无缺失） - Z = 16-17 岁精神健康评分（连续，中间混杂）

数据生成全部基于实际数据的 logistic 回归（二值变量）和线性回归（连续变量）系数。这保证了模拟接近真实。重点缺失机制：

七种缺失机制（基于 A、Z、M、Y 的缺失状态）：

机制编号	缺失发生在哪	决定缺失的因素
1	R（随机，不涉及关键变量）	`X` 的一个协变量
2	`Z`	`A`
3	`Z`	`Z` 自己（自缺失）
4	`M`	`Z`
5	`M`	`M` 自己
6	`Z` 和 `M`	`Z` 与 `M` 各自被自身影响
7	`Z`、`M`、`Y` 全部	TMNAR：全部被自身效应影响

每个变量的缺失概率为 0.45 - 0.55 之间。关键：机制 2-7 都违反 MCAR；机制 3、5、6、7 违反 MAR（因为缺失依赖未观测的变量自身）。

MI 方法（六种 FCS + 一种 SMC-FCS）：

Passive-FCS: 插补 Z 时只使用 A 和 X；插补 M 和 Y 时使用线性模型自动包含 Z 等（但可能不完全对口）。
Analyst-identified FCS: 由模拟创建者人工指定插补变量集（包含所有与缺失机制相关的预测变量）。
Just-identified FCS: 插补模型仅包含识别所需的最小变量集（如插补 M 时仅有 A,X,Y）。
Saturated FCS: 包含所有可用变量（A,X,Z,M,Y）。
Active FCS as per MI: 类似"主动"包含所有相关协变量。
Substantive-model-compatible (SMC) FCS: 专门设计用于兼容最终的线性 g-computation 模型（Bartlett et al., 2015）。
Just-identified 使用 MIBoot / BootMI（方差敏感）

假设对比文献： - 相比 Lüdtke et al. (2017)，本文放宽了缺失机制（包含 MAR 和 MNAR），且同时考虑中间混杂 Z。 - 相比 Bind et al. (2018)，本文同时对 Z、M、Y 处理缺失，而非仅 Y。

主要结果¶

1. 估计偏倚（Bias for IE / DE 估计）
下表以 Interventional Indirect Effect (IIE) 的百分比偏倚为例：

缺失机制	CCA	Passive FCS	Just-ident. FCS	Saturated FCS	SMC-FCS
1 (无关)	-6%	-2%	-3%	-2%	-3%
3（Z 自缺失）	-38%	-10%	-7%	-8%	-7%
5（M 自缺失）	-52%	-14%	-12%	-11%	-12%
7（全部自缺失）	-68%	-33%	-27%	-26%	-26%

关键结论： - CCA 在所有情况下偏倚最大。 - 所有 6 种 MI 方法在无自缺失（机制1）时近似无偏。 - 当出现"自缺失"（各变量缺失概率受自身水平影响）时，所有 MI 方法有显著偏倚，但仍在 10-33% 范围内。 - 不同 MI 方法间差异不大。 - 最有用：SMC-FCS 并不优于好的通用 FCS 方法，尽管理论上承诺更好——这是本文独有的贡献。

2. 方差估计（MIBoot vs BootMI）
对 IIE 的 95% 置信区间覆盖率： - BootMI 覆盖率（83-93%）优于 MIBoot（78-88%），尽管两者均低于名义 95%。 - BootMI 的 RMSE（均方根误差）同样更小。

3. 建议的实践指南（作者的原话）： - “When the missingness mechanism is suspected to be MAR, use a saturated FCS (including all variables) combined with BootMI.” - “When self-missingness is plausible, results should be interpreted with caution, and sensitivity analyses should be conducted.” - “No evidence was found that SMC-FCS outperformed standard FCS, so the latter remains a practical first choice due to computational ease.”

真实例子与应用¶

本文的真实数据例子来自 维多利亚青少年健康队列研究（VAHCS）。这是一个自 1992 年在澳大利亚维多利亚州启动的纵向队列，包含约 1943 名被试。模拟所使用的所有参数（均值、方差、logistic 回归系数）均直接基于该队列的观测数据拟合得到。
- 场景：研究问题为“青少年时期饮酒（A）如何通过 20-21 岁的物质依赖（M）影响 29-35 岁的精神健康（Y），控制早期精神健康（Z）和基线协变量（X）”。
- 怎么用上去：作者先基于实际数据拟合 Z、M、Y 的生成模型；然后在每次模拟中，按这些模型生成完整数据，再根据 7 种缺失机制随机删去部分值；最后应用各 MI 方法进行估计，重复 1000 次。
- 结果说明：该例子展示了 Saturated FCS 加 BootMI 的组合在 MAR 设定下近似无偏，而 CCA 严重有偏；同时也警示了自缺失下的稳健性不足。

🔎 结论是否比证明窄¶

必须点名：作者在 Discussion 中说 “The proposed guidance applies to settings where the interventional effects are of interest, the mediator and outcome models are correctly specified, and the missingness is monotonic (only drop-out, not intermittent missing).” —— 所以结论的推广面局限于：(a) 干预效应目标、(b) 正确的模型设定、(c) 单调缺失。非单调缺失、非正确模型时结论可能不成立。
另一个泛化：文中只研究了“二值中介 + 连续结果”，未验证连续中介 + 二值结果。
作者在模拟中只用了 正态误差，未检验重尾分布下的稳健性。

四、开放问题（点到为止，扎根具体语句）¶

非单调缺失（intermittent missing）：作者在 Discussion 中写道 “Our simulation only considered monotone missingness” —— 当参与者多次重返研究（非单调缺失）时，MI 规范是否应调整？
中介 / 结果模型错误设定：本文假设了正确的线性 / logistic 模型。当模型存在非线性（如交互项）时，Saturated FCS 是否仍然稳健？扎根于：“We assumed correctly specified models for the mediator and outcome; misspecification may lead to additional bias.”
小样本下的方差估计：本文样本量 n=1943，但许多实际研究更小（n<500）。此时 MIBoot 与 BootMI 的性能会不会互换？扎根于作者未讨论样本量敏感性。
与 g-methods 的直接比较：作为因果推断方法，g-computation 之外的 IP-weighted 或 doubly robust 估计量在该缺失环境下的表现如何？作者仅提及未比较，具体语句：“We did not compare with other effect estimation methods such as IP weighting or doubly robust estimators.”

提醒研究者：要确认某条是真 gap，建议去读 Lüdtke et al. (2017) 的 Discussion 和 Nguyen et al. (2021) 的 Intro —— 如果它们也都指向“非单调缺失”或“重尾分布”作为未来工作，那就是共识性的真 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub