Using directed acyclic graphs to determine whether multiple imputation or subsample-multiple imputation estimates of an exposure-outcome association are unbiased¶

作者: Paul Madley-Dowd, Rachael A Hughes, Maya B Mathur, Jon Heron, Kate Tilling
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向解决的根本问题是：在流行病学观察性研究中，当多个变量同时存在缺失数据时，多重插补（Multiple Imputation, MI）在什么条件下能无偏估计暴露-结局（exposure-outcome）的关联参数。传统教科书认为“MI在MAR下有效”，但MAR在多元缺失时的定义高度技术化，且不保证对任意分析模型都无偏。这个方向当前的状态是：已有图形化（DAG，有向无环图）的条件框架用于判断可恢复性（recoverability），但缺少被应用研究者直接拿去判断“在这个具体多变量缺失的DAG下，我该不该用MI”的实操算法。本文正填补了这一空白。

发展脉络（History）¶

奠基工作：Rubin (1976) 的缺失数据理论：奠定了MCAR、MAR、MNAR的分类，以及likelihood-based inference在MAR下可忽略缺失机制的条件。这是所有后续工作的根，但如Seaman et al. (2013) [13] 所指出，MAR定义在不同上下文中有歧义，且“valid inference”的含义不统一。
MAR的条件够用但不必要；CRA也有用武之地：Bartlett et al. (2015) [15] 重新挖掘出logistic回归下完整记录分析（CRA）能在比MAR更宽的条件下无偏（暴露关联）。Hughes et al. (2019) [11] 更明确指出，在某些MNAR下CRA反而比假设MAR的MI更无偏，并用因果图解说了这一反直觉的现象。这打破了“MI总是比CRA好”的迷思。
图形化替代MAR-MNAR二分法的兴起：Moreno-Betancur et al. (2018) [17] 系统构造了“典型缺失DAG”（m-DAG），定义了“可恢复性”（recoverability）——目标参数能否表达为可观测数据分布的函数，并给出了一系列常见DAG下的可恢复性结论。Lee et al. (2023) [18] 强势指出，多变量缺失时MAR不仅难以评估，而且比一般认识到的更严苛；建议用DAG替代MAR/MNAR分类来指导分析计划。这两篇是本文的最直接前驱。
子样本MI的提出与早期分析：Little和Zhang提出的“subsample MI”被Curnow et al. (2023) [2] 在模拟研究中证实：在特定缺失数据模式下，只对部分变量（即只对有完整观测的个体）进行插补反而能获得无偏估计，而全样本MI却会偏。但缺乏系统判断何时该用子样本MI的规则。
本文位置：在上述图形的可恢复性框架与子样本MI的实证信号之间，本文提供了一个可直接套用的算法，用DAG检验MI/子样本MI在给定DAG下是否无偏。它将可恢复性条件从“存在性”落实为“检验性”。

子线索聚类¶

线索A：多元缺失的MAR定义与图形替代 — 核心贡献者是Seaman (2013)、Moreno-Betancur (2018)、Lee (2023)、Nabi (2022)。这条线在概念层面论证：用DAG而不是MAR类别来做缺失数据处理决策是更好的实践。本文继承了这一概念基础。
线索B：MI/CRA/子样本MI的偏倚实证 — 核心贡献者是Hughes (2019)、Curnow (2023)、Madley-Dowd (2023)（本文作者自己 [23]）。这条线用模拟和真实数据检验不同方法的实际偏倚，发现CRA在某些MNAR下更好，子样本MI在某些多变量缺失模式下必要。本文用算法把这些分散的实证结论统一在一个图形化决策工具下。
线索C：实际应用指南与流程 — Lee & Tilling (2021) “TARMOS”框架 [1]、Austin (2020) 教程 [7]、Jakobsen (2017) 流程图 [5]。这些是给应用研究者的操作指南，本文补上了它们中“如何系统判断MI是否无偏”这一缺失的决策子模块。

这个方向在追问的核心问题¶

给定一个具体的缺失数据DAG（m-DAG），目标参数（暴露-结局系数）是否可恢复（即存在一致估计量）？ — Lee (2023) 和 Moreno-Betancur (2018) 已经给出了部分可恢复性的图形准则，但一般化算法仍在发展中。
MI（或子样本MI）是否足以无偏估计暴露-结局系数？ — 这是本文的核心。区别于可恢复性（存在某个估计量可无偏），MI是一种特定的估计量，其无偏要求更严格（正确设定插补模型）。本文回答的是“在这一具体DAG下，默认MI会偏吗？”
何时应选择子样本MI而非全样本MI？ — Little & Zhang的理论仅针对特定场景，本文将其扩展为一般的图形检验。
偏倚的方向和大小能否预测？ — 所有工作停留在“有偏/无偏”的二分判断，大小与方向被明确列为未来工作（本文最后的limitation）。

⚠️ 作者的Framing¶

作者把缺口Frame成：虽然已有DAG-based的可恢复性理论，但应用研究者需要一个直接检查MI无偏性的算法，而且当前指导中缺少同时处理多变量缺失和子样本MI选择的实用工具。

淡化/回避： - （淡化）MI有效性高度依赖插补模型的正确指定：作者只说“如果数据是MAR（在给定DAG意义上），且插补模型正确，则MI无偏”。但Curnow (2023) [2] 已经证明，即使数据在MAR意义上可恢复，错定插补模型（例如假设线性关系而实际非线性）会导致严重偏倚。作者在算法中把“正确指定插补模型”作为隐含前提，但并未给出如何检查这一前提的操作。 - （回避）与半参数效率理论的连接：可恢复性框架自然地与半参数估计（如Efficient Influence Function）连接，用于构造缺失数据下的高效估计量。作者完全没有提及这一方向，只讨论MI的无偏性，不提效率。

明显该被引却不在引言里的工作： - Nabi & Bhattacharya & Shpitser (2022) [22] 这篇被引在文末参考文献，但引言中没有正面讨论其贡献：他们将缺失数据问题视为一个counterfactual标识问题，与因果推断建立严格对应，并给出一个完整的图形化标识算法（包含干预运算）。本文的算法本质上是该算法对“MI估计量是否无偏”这一子问题的简化、特化版本。作者没有在引言中对比或指出这一关系，是一个值得注意的缺失。

张力¶

未见明显对立引用。所有被引工作一致认为：MAR是MI有效的充分条件但不是必要条件，DAG是比MAR更好的分析框架。作者的工作与之前一致，没有矛盾。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

考虑一个最简单的研究场景： - 目标参数（Estimand）：暴露变量 \(X\) 对结局变量 \(Y\) 的条件回归系数 \(\beta\)，来自回归模型

\[\mathbb{E}[Y \mid X, W] = \alpha + \beta X + \gamma^\top W\]

其中 \(W\) 是一个协变量（可能为高维，但最简例子中我们假设 \(W\) 是单变量）。

完整数据（Full data）：每个个体 \(i\) 应有 \((Y_i, X_i, W_i)\)。
可观测数据：设 \(R_i^Y, R_i^X, R_i^W\) 是三个缺失指示变量：
\(R_i^Y = 1\) 如果 \(Y_i\) 被观测到，否则 \(0\)。
类似地 \(R_i^X, R_i^W\)。
研究者实际观测到的是 \((Y_i R_i^Y, X_i R_i^X, W_i R_i^W, R_i^Y, R_i^X, R_i^W)\) —— 即观测到的数值 + 缺失模式。某些变量的数值丢失了，但缺失模式本身是被观测到的。
不可观测/潜在量：
缺失的 \(Y, X, W\) 值是未知的。
缺失机制（Missingness mechanism）：给定完整数据 \((Y, X, W)\)，缺失模式 \((R^Y, R^X, R^W)\) 的条件分布。这是不能从数据中检验的。
模型设定：
在“最小内核”中，我们假设一个最简单的生成机制：
- 完整数据 \((Y, X, W)\) 服从一个联合正态分布或线性模型 \(Y = \alpha + \beta X + \gamma W + \varepsilon\), \(\varepsilon \perp (X,W)\)。
- 缺失机制由DAG指定。例如，最简情况是 \(W\) 完全观测，\(X\) 和 \(Y\) 的部分缺失由 \(W\) 和 \(X\) 决定（即\(R^Y\) 由 \(W\) 和 \(X\) 决定，而非由未观测的 \(Y\) 决定；这是MAR的一种图形化表达）。

第二步：讲最小内核¶

最简特例：

设 \(d=1\)，只有 \(X, Y, W\) 三个变量。DAG如下：

X → Y ← W
    ↑    ↑
    R_Y  R_X

其中 \(R_X\)（X的缺失指示）影响 \(R_Y\)（Y的缺失指示），且\(R_X\)与\(R_Y\)间有箭头？更标准的最简例子来自本文的Figure 1/2：假设所有协变量 \(W\) 完全观测，暴露 \(X\) 的部分缺失，结局 \(Y\) 的部分缺失。缺失机制是：\(R^Y\) 只有通过 \(W\) 和 \(X\) 才能影响，即数据是 MAR（在联合分布意义上）：

\[(R^Y, R^X) \perp (Y_\text{mis}, X_\text{mis}) \mid (W, X_\text{obs}, Y_\text{obs})\]

问题是：用MI（同时插补 \(X\) 和 \(Y\)）是否能无偏估计 \(\beta\)？

根据本文的算法（稍后详述），在这一DAG下，全样本MI是有偏的，而仅在 \(Y\) 上做子样本MI（只对有 \(X\) 完整记录的个体插补 \(Y\)，不对 \(X\) 做插补）是无偏的。

为什么？ 直觉上，\(X\) 的缺失模式 \(R_X\) 既影响 \(R_Y\) 又被 \(X\) 本身影响，因此 \(X\) 的缺失也是信息性的——部分个体因为 \(X\) 值低而缺失 \(X\)，而这些个体恰好也倾向于缺失 \(Y\)。全样本MI试图从观测到的 \(X\) 和 \(W\) 来预测所有缺失的 \(X\)，但因为缺失机制依赖 \(X\) 的值（MX？其实是最简例子中缺失机制是 \(R_X\) 依赖于 \(W\) 和 \(Y\)？这需要引入图结构）...作者给出的范例（Figure 1）是 \(R_X\) 受 \(W\) 影响，\(R_Y\) 受 \(R_X\) 影响。在这种结构下，CRA（只用 \(X,Y,W\) 都完整的个体）是无偏的，而MI却会引入偏倚。这一个最简例子的结论直接支撑了本文算法中“CRA足够好的场景下MI反而是有偏的”这一反直觉结论。

三、这篇论文做了什么¶

三句话¶

本文提出了一个基于DAG的算法，帮助应用流行病学家判断：在多个变量缺失时，使用MI（多重插补）或无偏的子样本-MI（仅对部分变量插补）是否能无偏地估计暴露-结局的回归系数。
核心工具是将MAR的图形化条件（用“m-DAG”表达缺失机制与变量间因果关系）嵌入到一个三步决策算法中：①画出m-DAG；②在DAG上检查MI是否无偏（通过检验缺失方是否“被观测变量阻断”）；③若全样本MI有偏，检查子样本MI是否可行。
主要结论是：算法能系统性地识别出CRA无偏而MI却有偏的情形，并能指导“何时子样本MI是唯一可行的无偏估计”。

关键设定与假设¶

设定：一个观察性研究，有多个变量（暴露X、结局Y、协变量W），各变量可能都有缺失。目标是通过MI（或子样本-MI）来估计回归系数 \(\beta_{Y \mid X, W}\)（条件回归模型中的暴露系数）。
核心假设：
分析模型指定正确：回归模型 \(\mathbb{E}[Y \mid X, W]\) 的形式（如线性）是正确的，且所有相关交互项/非线性都已包含。若模型错定，MI即使满足所有条件也是偏的（作者的算法不处理这个问题）。
插补模型正确指定：用于MI的条件分布（如 \(X \mid Y, W, R\)）也被正确建模。作者将此列为隐含前提。
缺失机制可图形化表示：所有影响缺失的因果路径都包含在画出的DAG中，且DAG符合无环性。
相比已有文献放宽/强化：
相比Moreno-Betancur (2018)：本文不讨论“是否存在某个一致估计量”，而讨论“MI这个特定估计量是否无偏”——更窄但更实用。
强化了插补模型必须正确的隐含假设（而Curnow 2023已证明强化是必要的）。

主要结果¶

算法（分三步，可直接套用）： 1. 构建m-DAG：画一个DAG，在其中包含变量之间的因果箭头（\(X \to Y\)等）以及缺失指示器（\(R_X, R_Y, R_W\)等）之间的箭头。用图形表示“缺失数据的生成机制”。 2. 检验全样本MI是否能无偏估计暴露-结局系数： - 检查：在DAG中，从每一个缺失的变量到它的缺失指示器的直接路径上，是否存在一个被观测变量（观测到的变量或缺失指示器本身）能阻断该路径。如果是，则该缺失变量在给定观测值下的缺失是条件独立的（MAR的条件），MI可能无偏。但还需要检查：任何同时影响\(R_X\)和\(R_Y\)（或影响\(R_X\)和\(Y\)）的未观测公共原因是否存在。如存在，MI可能有偏。 - 更正式的操作为：遍历所有未观测变量（缺失的变量）与缺失指示器之间的路径，看是否有路径未被“观测变量集”阻断。 - 输出：若所有路径都被阻断，则MI无偏；若有未被阻断的路径，MI有偏（偏倚不可消除）。 3. 若全样本MI有偏，检查子样本MI（subsample-MI）： - 选择子样本：仅保留某些变量“完整记录”的个体（例如，只保留 \(X\) 完整的个体）。 - 在子样本中，构建新的DAG，该DAG只包含那些在子样本中被视为“完全观测”的变量及其缺失指示器。 - 对子样本重复步骤2：如果在这个子样本的DAG中所有路径都被阻断，那么用这个子样本做子样本-MI是无偏的。

真实例子：来自ALSPAC队列研究（Avon Longitudinal Study of Parents and Children, 作者自己的数据）。研究问题是：“孕期吸烟（暴露X）与儿童智商（结局Y）之间的关联，用MI估计是否会偏？”协变量W包括母亲教育水平、生育年龄等。多个变量有缺失。作者先画出一个复杂的m-DAG。然后用算法判断：全样本MI是有偏的（因为X的缺失与Y的缺失之间有一条未被观测变量阻断的路径）。进一步，算法发现：如果将分析限制在“X和协变量W都完整记录”的子样本上，然后只对结局Y做MI插补，这个子样本-MI是无偏的。这个例子说明：即使所有变量都缺失，但通过精心选择子样本（保留完整记录的变量），仍可能找到一条无偏估计路径。该例子直接对应作者之前对同一数据的分析（Cornish, 2015 [21]——其中用了链接到教育数据的代理变量来验证MI结果有偏）。

证明路线与技术技巧¶

论文类型：应用/方法导向，不是纯理论证明论文。没有复杂的数学证明。证明/正确性依据于对DAG的性质、d-separation与条件独立关系的已有理论（Pearl, 2000; Mohan & Pearl, 2021等）的组合使用，配合引用已证明的recoverability条件（Moreno-Betancur, 2018）来断言MI下无偏的充分条件。

整体路线：作者的方法本质上是一种图形化算法验证，而非创新性定理证明。他们做了以下几步： 1. 将“MI是否能无偏估计参数\(\beta\)”的问题，等价于“在给定m-DAG下，参数\(\beta\)是否为可恢复的（由观测数据分布唯一标识），且是否估计量（MI）可达”。 2. 然后用d-separation准则检查，是否存在从缺失变量到缺失指示器的不应开放路径。 3. 对于子样本MI，他们对子样本“重写”m-DAG，使外部缺失被视为固定、截断，再检查新DAG中参数是否可恢复。

关键跳跃点：唯一的数学技巧点是如何判断一个DAG下的条件独立是否可以由MI算法实现。作者借鉴了Moreno-Betancur (2018) 中“可恢复性”的充要条件，并指出MI中“插补模型正确指定”等价于“DAG中从缺失变量到其他变量的后门路径被观测变量阻断”，从而将DAG的d-separation翻译为MI有效与否的可操作条件。

技术技巧：没有用到复杂的概率论或统计渐近技术（如expirical process）。主要技术是图形模型中的d-separation（graphical criteria for conditional independence）和Markov condition（DAG蕴含的条件独立性）。

🔎 结论是否比证明窄¶

是的。论文的“结论”部分（摘要和正文讨论）声称“算法决定MI是否无偏”，但核心证明部分（实际上是论证）只在一个特定条件下成立： - 作者在“方法”部分明确指出：“We assume that the imputation models are correctly specified.”（假设插补模型正确指定） - 但在“讨论”部分说“Our algorithm determines when MI estimates are unbiased”，却几乎未讨论插补模型被错定条件下的偏倚问题。 - 这意味着：算法声称“无偏”时，实际上是说“在插补模型正确且缺失机制满足DAG条件时，无偏”。如果用户使用了错误形式的插补模型（如忽略交互项或非线性），即使满足了DAG条件，MI仍可能有偏（Curnow, 2023 [2]已证明）。这是一个典型的“结论比证明宽”的情形。

另一个窄处：算法只针对条件线性回归系数（exposure-outcome回归的\(\beta\)）。对于更复杂的分析模型（如logistic回归、Cox模型、带有随机效应的模型），该算法的适用性没有在文中明确证明，但被暗示可以推广。实际的推广等价性需要用类似Bartlett (2015) [15]的推理单独验证。

四、开放问题（点到为止）¶

偏倚的大小与方向：算法只给出“有偏/无偏”的二值分类。在实际数据中，有偏的估计可能偏量很小、方向已知，依然可用。如何预测给定DAG下MI偏倚的符号与幅度？——来自论文limitation: “Further work could focus on the likely size and direction of biases”（原文）。
不同缺失模式的影响：现实中的缺失往往是单调或间歇性的。单调缺失（如纵向研究中的失访）vs. 非单调缺失（部分回访）下，该算法能否简化或需调整？——来自论文limitation: “impact of different missing data patterns”。
与半参数效率理论的连接：可恢复性框架下，可以构造比MI更高效（更小渐近方差）的估计量（如使用Efficient Influence Function）。是否可以在保持无偏的同时，通过选择不同的估计量（而非MI）获得更小的置信区间？——这是与研究者“半参数效率理论”兴趣的直接连接，文中被完全回避。
插补模型错定的敏感性：当插补模型与实际条件分布不匹配时，即使满足DAG条件MI仍会有偏。能否用敏感性分析量化这种偏倚？可否引入图形化的模型诊断？——扎根于Curnow (2023) [2]中“模型错定导致MI有偏”的结论，以及本文算法未覆盖这一点的缺陷。

Maintained by 陈星宇 · Homepage · Source on GitHub