On the use of auxiliary variables in multiple imputation when estimating the average causal effect with missing data¶

作者: Jiaxin Zhang, S. Ghazaleh Dashti, John B. Carlin, Katherine J. Lee, Margarita Moreno-Betancur
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.22016

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的根本问题是：在观测数据存在缺失（missing data）时，如何正确估计平均因果效应（ACE）。它的核心挑战是“可恢复性”（recoverability）——即给定一个关于缺失机制的因果图假设（m-DAG），目标效应能否被唯一地表示为可观测数据分布的某个函数。一旦可恢复性有了，下一个问题是：哪种数据处理方法（完整案例分析、多重插补、加权等）能实际地、无偏地（或近似无偏地）估计这个效应。该方向在因果推断与缺失数据文献中已是一个成熟子领域，包含大量关于不同缺失机制下可恢复性条件的图形准则与模拟指南。
发展脉络（history）：
- 奠基工作：
  - Mohan & Pearl (2014) [4] 系统建立了用缺失有向无环图（m-DAG）描述缺失机制、并用图形准则判断目标量是否可恢复的框架。这是本文所有可恢复性推导的数学基础。
  - Hernán & Robins (2020) [1] 给出因果推断的标准定义与识别假设（一致性、正性、无混杂），是本文 ACE 的定义与 g-formula 的源头。
- 主要进展（m-DAG 下的可恢复性与 MI 模拟）：
  - Moreno-Betancur et al. (2018) [5] 引入了“规范因果图”（canonical causal diagrams）的概念，刻画了多种典型的多变量缺失机制，并首次系统地在这些 m-DAG 下评估了 MI 与 CCA 的表现。
  - Zhang et al. (2024) [6] 在同一批作者下补全了更多 m-DAG 的可恢复性表达式，并研究了 MI 在不同相容性程度（compatibility）下的偏差——这是本文最直接的“前篇”之一。
  - Dashti et al. (2024) [12] 将目标最大似然估计（TMLE）引入到此设定中，作为 MI 与 CCA 之外的另一种估计方法。
- 当前 frontier 与本文的位置：所有这些工作考虑的都是“可恢复性不需要辅助变量”的设定——也就是说，m-DAG 中的 biasing paths 靠分析模型已有变量就足以阻断。然而，在真实流行病学研究中，至关重要的是那些只有依赖辅助变量（auxiliary variables）才能阻断路径的缺失机制。Mathur & Shpitser (2024) [15] 提出了 sufficient adjustment set (SAS) 准则，从理论上描述了当辅助变量不是中介时如何通过调整它们来消除选择偏误；Mathur, VanderWeele & Shpitser (2025) [19] 进一步将它形式化。但上述工作还未从 m-DAG 驱动的模拟评估角度系统回答：当辅助变量本身是中介时，应当怎么做？MI 的哪些实现（REG / PMM / CART / SMCFCS）在此类设定下依然近似无偏？本文正是在这里切入：它为多种带辅助变量的典型 m-DAG 导出了可恢复性表达式，并在模拟中对比了不同 MI 实现的偏差，最终推荐了非参数（CART）与半相容性（A-SMCFCS）方法。
子线索聚类：
1. 可恢复性的图形准则：以 Mohan & Pearl (2014, 2013 [27])、Moreno-Betancur et al. (2018, 2025 [7])、Zuo et al. (2025 [8]) 为代表。这一簇主要在用 m-DAG / 因果关系图写“什么条件下 ACE 是可恢复的”。
2. MI 的实现与相容性问题：以 Bartlett et al. (2015 [21])（SMCFCS）、Van Buuren (2007 [30])（FCS）、Tilling et al. (2016 [29])（交互项的处理）为主。这一簇关注在给定可恢复性条件后，MI 的具体算法步骤是否会导致偏差。
3. 辅助变量的选择与使用：以 Mathur & Shpitser (2024 [15], 2025 [44])、Thoemmes & Rose (2014 [16])、Curnow et al. (2023, 2024 [17, 18])、Mainzer et al. (2024 [43]) 为主。这一簇更偏实用，讨论哪些变量应该或不应该被放入 MI 作为辅助变量，以及它们引入新偏差的风险。本文是这一簇与第 1、2 簇的交叉点。
这个方向在追问的核心问题：
1. 可恢复性条件：在给定的 m-DAG（含辅助变量）下，ACE 能否写为可观测数据分布的某个函数？如果辅助变量是中介，该函数是否有变化？
2. 实际估计方法：虽从理论可恢复性出发，但实践中极少直接用可恢复性表达式做估计（因表达式复杂且依赖强假设）；什么情况下简单的 CCA、A-CCA、或 MI 能达到近似无偏？
3. MI 的相容性：当辅助变量出现在 MI 模型却不出现在最终分析模型时，半相容性（semi-compatibility）是否足以避免偏差？非参数方法（CART）是否对（不可避免的）不相容更鲁棒？
4. 辅助变量的类型：中介型 vs 非中介型辅助变量是否应该用完全不同的方法（A-CCA 对中介确实危险）？
⚠️ 作者的 framing：作者把缺口 frame 成：已有研究没有考虑“辅助变量对可恢复性必要”的 m-DAG。他们在这里补上了 m-DAG I(b)、II(a) 等设定，并声称这是“显然的下一步”。他们淡化了 Mathur et al. (2024, 2025 [15, 19]) 的工作，只把它定位为“A-CCA”的理论基础，没有深入讨论 SAS 准则是否可以完全替代 m-DAG 推导。值得研究者查的问题：Mathur et al. 的 SAS 准则对中介辅助变量可能给出什么结论？如果 SAS 准则已经给出 ACE 的不可恢复性，那么本文的“MI 仍能做”是多大的实际近似？另外，完全条件规范（FCS）与 joint model 之间的关系（如 Liu et al. 2014 [28]）被引了但仅在相容性讨论中略提——这是一个被他们简化的竞争路线。未见明显对立引用——所有被引工作彼此兼容，没有在同一设定下给出矛盾结论的。唯一的张力存在于辅助变量的“危险”方向：Thoemmes & Rose (2014 [16]) 与 Curnow et al. (2023, 2024 [17, 18]) 指出了含辅助变量可能反而引入偏差，但本文用 m-DAG 解说了这种偏差的源头，并推荐了规避它的方法。这不是矛盾，而是补充。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（先交代清楚）¶

符号：
- \(X\) = 暴露（exposure），二进制（0/1）。目标 estimand 比较的是 \(X=1\) 与 \(X=0\) 的平均潜在结果之差。
- \(Y\) = 结局（outcome），此处是连续变量。
- \(C\) = 完全观测的混杂变量（complete confounders），例如教育、离婚、反社会行为等。
- \(Z\) = 部分缺失的混杂变量（incomplete confounders），如饮酒（\(Z_1\)）、青少年抑郁（\(Z_2\)）。
- \(Y_x\) = 潜在结局（potential outcome），如果暴露被设为 \(x\)。
- \(\delta = \mathbb{E}[Y_{x=1}] - \mathbb{E}[Y_{x=0}]\) = 平均因果效应（ACE）。
- \(A_1, A_2\) = 辅助变量，完全观测。\(A_1\) 是非中介辅助变量（暴露不引起它），例如学业成绩；\(A_2\) 是中介辅助变量（暴露引起它），例如睡眠问题。
- \(M_{\text{变量}}\) = 缺失指示器，1=缺失，0=观测到。例如 \(M_Y=1\) 表示结局缺失。\(M_{\text{all}}=0\) 当且仅当所有分析变量（\(X, Y, Z\)）都被观测到（完全案例）。
- \(U\) = 不可观测的混杂（如基因/家庭环境）。
- \(W\) = 不可观测的缺失指示器之间的共同原因。
模型：
- 潜在结果框架：假设一致性（\(Y = Y_X\)）、正性（\(\Pr(X=x \mid C=c) > 0\)）、无混杂（\(Y_x \perp X \mid C\)），则在无缺失时 ACE 由 g-formula 识别：
  \[\mathbb{E}[Y_x] = \int \mathbb{E}[Y \mid X=x, C=c] \; dF_C(c).\]
- 在缺失存在时，额外假设缺失机制由 m-DAG 刻画。m-DAG 中的节点包括所有变量 + 缺失指示器，有向边代表因果或缺失原因关系。
可观测数据：
- 研究者观测到：暴露 \(X\)（有时缺失）、结局 \(Y\)（有时缺失）、完全混杂 \(C\)（几乎完全）、不完全混杂 \(Z_1, Z_2\)（有时缺失）、辅助变量 \(A_1, A_2\)（完全或接近完全）、以及每种缺失指示器 \(M_X, M_Y, M_{Z_1}, M_{Z_2}\)。
- 想估计但观测不到的是：潜在结局 \(Y_{x=1}\) 与 \(Y_{x=0}\) 的真实分布，以及 \(\delta\) 本身。缺失机制（具体哪些协变量导致缺失）也是未知但假设为已知的 m-DAG 结构。

第二步：最小内核——以 m-DAG II(a)（中介辅助变量，结局缺失）为最简特例¶

这个特例抓住了本文的核心挑战：辅助变量是中介，且缺失只在结局上（单变量缺失）。将一般设定剥掉直到只剩：一个暴露 \(X\)（二分）、一个完全混杂 \(C\)、一个中介辅助变量 \(A_2\)（由 \(X\) 引起，也影响 \(Y\) 和 \(M_Y\)）、结局 \(Y\) 有缺失。没有 \(Z\)，没有 \(A_1\)，没有 \(U, W\)，且只有 \(M_Y\)（缺失指示器被 \(A_2\) 和 \(X\) 直接影响）。

要证/要估的是什么：此时的 ACE \(\delta = \mathbb{E}[Y_{x=1}] - \mathbb{E}[Y_{x=0}]\) 是否可恢复？如果可恢复，它的可观测数据表达式是什么？

可恢复性推导（来自文献）：作者在 Table 2 中给出该 m-DAG II(a) 的可恢复性表达式：

\[\mathbb{P}(y_x) = \sum_{a_2, c} \mathbb{P}(y \mid x, a_2, c, M_Y=0) \cdot \mathbb{P}(a_2 \mid x, c) \cdot \mathbb{P}(c).\]

但这里的核心困难是：分母里出现了 \(\mathbb{P}(a_2 \mid x, c)\)——这是一个涉及中介 \(A_2\) 被暴露 \(X\) 影响的分布。条件在 \(M_Y=0\) 上本身是允许的（因为 \(A_2\) 和 \(C\) 完全观测且阻断了路径），但关键是这个表达式无法被 A-CCA（将 \(A_2\) 当普通协变量调整）忠实地估计：如果直接做一个包含 \(A_2\) 的回归 \(\mathbb{E}[Y \mid X, A_2, C]\)，那么由于 \(A_2\) 在暴露-结局路径上，将 \(A_2\) 纳入回归会过度调整，部分阻断暴露对结局的直接因果效应（或者说控制了中介，这是刻画总因果效应 ACE 时不该做的）。所以 A-CCA 在这里必然有偏。

本文的关键想法：既然 A-CCA 会偏，就需要一种能在不把中介当协变量用于最终分析模型的前提下，仍然利用 \(A_2\) 来纠正缺失选择偏误的方法。MI 天然就是做这个的——它只利用 \(A_2\) 在 imputation 阶段预测缺失值，但在最终分析（g-computation 不带 \(A_2\)）中不出现 \(A_2\)。只要 MI 的 imputation 模型对 \(Y\) 的缺失值做了基于 \(A_2, X, C\) 的合理预测，那么填补后的数据集如果用的是不含 \(A_2\) 的分析模型，就避免了过度调整，同时又借 \(A_2\) 阻断了路径。这个思路在 m-DAG II(a) 上就是整个论文的最小内核：辅助变量如果是中介，它必须要通过 MI（而不是通过 A-CCA）来使用。

三、这篇论文做了什么¶

三句话：
1. 研究了在多种含辅助变量的缺失机制（由 m-DAG 刻画）下，ACE 的可恢复性条件以及不同的 MI 实现（CART、REG、PMM、SMCFCS 及其变种 A-SMCFCS、SMCFCS-manual）与完整案例/调整-完整案例方法的表现。
2. 核心工具是 m-DAG 驱动的可恢复性推导 + 大规模模拟比较 + VAHC 队列数据实证。
3. 主要结论：含有半相容性假设的 SMCFCS（A-SMCFCS）与基于分类回归树（CART）的非参数 MI 在大多数 m-DAG 下近似无偏，是推荐的实用方法，而 A-CCA 在中介辅助变量下会极端有偏，不应使用。
关键设定与假设（在第二节符号基础上补全）：
- 定义：ACE 由 g-computation 估计，基模型是正态线性回归，含暴露-混杂交互项（如在模拟中设了 \(X \times Z_2\) 或 \(X \times C\)）。
- 假设：
  - 一致性 & 正性：标准因果识别假设。
  - 无混杂给定混杂物：\(Y_x \perp X \mid (C, Z)\)，图 1 的结构确保这一点。
  - 缺失机制：由每个 m-DAG 的具体箭头刻画。缺失指示器只依赖于观测到的变量（即 MAR-like——但这里的 m-DAG 允许缺失依赖于部分未观测量，如 \(M_Y\) 可能依赖 \(A_2\) 但 \(A_2\) 是完全观测的，所以实际可处理为 MAR 的一个子类）。
  - 结局模型正确：对 g-computation 使用的线性回归中的暴露、混杂及交互项正确设定。
  - 统计模型与 m-DAG 一致：模拟时据生成模型（如式 4, 5）产生数据，这些生成模型本身与 m-DAG 相容。
- 与已有文献比：相比 Moreno-Betancur et al. (2018, 2025) 与 Zhang et al. (2024) ——他们未考虑“辅助变量对可恢复必要”的 m-DAG；相比 Mathur & Shpitser (2024) ——他们主要关注 SAS 准则与 A-CCA，未系统的考察 MI 的中介辅助变量极端偏差。
主要结果：
1. 精确结果：Table 2 给出了 8 种 m-DAG 下的可恢复性表达式。这些表达式都是可观测分布的有限混合/条件概率乘积，理论上若正确建模各分布，ACE 可一致估计（但作者明确说这是不实用的）。
2. 模拟结果：
  - 单变量缺失 + 强关联：m-DAG II(a)（中介辅助变量，结局缺失）——A-CCA 偏差 >20%，所有 MI（含辅助变量）近似无偏。m-DAG I(b)（非中介辅助变量，暴露缺失）——MI 中只有 SMCFCS-manual 在交互场景下无偏，其他 MI 有偏。
  - 多变量缺失 + 现实关联：A-SMCFCS、CART、普通 SMCFCS 一致近似无偏（|RB|<10%），且 BE 覆盖率接近 95%。其他方法（REG、PMM、A-CCA 在中介辅助时）覆盖率低，偏差大。截止在 m-DAG V（两个辅助变量）下，CART 与 A-SMCFCS 继续稳定。
3. 实证结果（VAHC 数据）：所有方法给出的 ACE 估计落在 0.22–0.32 之间，置信区间重叠很大，说明在该数据下不同方法的差异没有大到改变结论但展示了模式的一致性。
证明路线与技术技巧：
- 本质上是模拟+设计研究，非纯理论证明。因此没有“证明路线”，但有设计路线：
  1. 生成机制：基于真实数据（VAHCS）拟合回归，得到现实参数用于生成数据。
  2. m-DAG 约束的缺失机制生成：每个 m-DAG 下，缺失指示器由特定的 logit 模型生成——确保箭头关系与 m-DAG 一致。例如 m-DAG II(a) 中 \(M_Y\) 由 \(X, C, A_2\) 生成（无 \(M_X\)）。
  3. 从每组数据进行 MI 与 A-CCA 估计。
  4. 指标计算：相对偏差（RB，%）、经验 SE、模型 SE、MSE、偏差消除覆盖率。
- 关键“跳跃”点（非数学跳跃，而是方法设计跳跃）：
  - 如何定义“半相容性”（semi-compatibility）——即 imputation 模型是分析模型的扩张（含辅助变量）而不是冲突。逻辑：因为 imputation 模型变量集比分析模型更大，不会从分析模型中发现冲突，但不保证分析模型本身不偏。
  - 如何避免 SMCFCS-manual 的偏差——当辅助变量是中介且被手动加入 proposal 时，因目标模型是非含中介的分析模型，会产生似相冲突。这是模拟中 m-DAG II(b) 与 IV(b) 下 SMCFCS-manual 有偏的直接原因。
- 技术技巧：
  - 使用SMCFCS——Bartlett et al. (2015) 的算法，通过马尔可夫链从条件目标分布抽样，保证 imputed 值的分布与分析模型一致。这里被应用于辅助变量情形。
  - 使用 CART——Breiman et al. (2017) 的非参数递归分割，不需要显式设定交互项，也无法通过参数判断相容性，但在模拟中跨场景表现最稳定。
  - 使用 bootstrap SE——对于 MI 后的 SE，Bartlett & Hughes (2020) 的 bootstrap 方法被用来处理半相容性下的方差估计问题。
真实例子：
- 用的数据：VAHCS——1992-1993 年维多利亚州 14-15 岁女性学生（n=1000），跟踪至青年期（20 岁）。暴露：频繁大麻使用（>1 次/周）。结局：青年期心理健康（CIS-R 标准分）。
- 怎么用的：假设缺失机制为 m-DAG V（含中介 \(A_2\) 睡眠问题、非中介 \(A_1\) 学业成绩），以年龄 \(U\) 作为额外辅助变量（可提高精度但不是恢复性必需）。对每个 MI 实现，分别用无辅助变量、只有 \(A_1\)、只有 \(A_2\)、两者皆用四种设置。最终比较点估计与 SE。
- 得到什么：估计值都提示大麻使用对心理健康有害效应（0.2-0.3 SD）。A-CCA 在使用中介 \(A_2\) 时的点估计最低（0.22）。不同方法之间点估计差异在 0.1 SD 以内，结论定性一致但定量可供取舍。
- 这个例子想说明：证明在实际数据中，不同方法的结果差异不是巨大的，但模拟揭示的方法偏向性在真实数据中未必能一眼看出，所以要结合模拟结论选方法。
🔎 结论是否比证明窄：作者多次承认“模拟范围有限”并定量说明“在极端单变量缺失设定下 MI (+辅助变量) 有偏”在 m-DAG I(b) 场景中被辨识出来，但在多变量缺失设定中此偏差消失（或极小化）。这是一个需要确认的信号：结论比证明窄？实际上，这不是证明的结论超出证明的覆盖，而是模拟设定限制，作者写得坦诚。但有个地方需指出：Table 2 的可恢复性表达式被称作“理论上可以用”，但作者没有证明基于这些表达式构造的估计量是有效且一致的（因为需要估计过度多分布）。他们略去了说“既然表达式复杂就求实用方法”，但这是从理论识别到实际估计的一个跳跃——值得后续理论探究：在那些表达式中如果某些分布一致地被误设定，可恢复性给出的估计量还会是 \(\sqrt{n}\)-consistent 吗？还是一致但效率极差？

四、开放问题¶

不完备的辅助变量：本文假设辅助变量 \(A_1, A_2\) 完全观测。但在现实场景中它们往往也有缺失。作者明确说“这是未解决的开放问题”（Section 7, 倒数第二段，引用 Mathur & Shpitser (2025)）。需要探究：如果辅助变量部分缺失，可恢复性表达式如何变化？MI 应该如何同时处理辅助变量自身的缺失值？
纵向/时变暴露与结局：作者明确指出“时间变化暴露与结局”未涵盖在本研究范围（Section 7，倒数第三段，引用 Holovchak et al. (2025)）。纵轴研究中早期测量结果本身就是中介辅助变量的经典来源——需开发对这一类 m-DAG 的可恢复性准则与 MI 策略。
理论偏差因子的可计算性：在作者识别出的 m-DAG I(b) 场景下 MI 有偏，但在多变量缺失中这一偏差消失。作者说“可能是较弱的关联也可能是多变量特性”并呼吁“future research further examining the theoretical basis for this”。扎在本文最后一段。这是开放问题：能否推导出 MI 在给定 m-DAG 下的渐近偏差（bias 作为 misspecification 程度）？这会是一个有意思半参数/理论问题。
其他估计方法（doubly robust / TMLE）：Dashti et al. (2024) 已评估了 TMLE 在无辅助变量的设定下，但本文未将这类方法与含辅助变量的场景衔接。作者特意指出值得继续探索（Section 7, 另起一段）。

Maintained by 陈星宇 · Homepage · Source on GitHub