Using directed acyclic graphs to determine whether multiple imputation or subsample-multiple imputation estimates of an exposure-outcome association are unbiased¶
作者: Paul Madley-Dowd, Rachael A Hughes, Maya B Mathur, Jon Heron, Kate Tilling
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本方向解决的根本问题是:在流行病学观察性研究中,当多个变量同时存在缺失数据时,多重插补(Multiple Imputation, MI)在什么条件下能无偏估计暴露-结局(exposure-outcome)的关联参数。传统教科书认为“MI在MAR下有效”,但MAR在多元缺失时的定义高度技术化,且不保证对任意分析模型都无偏。这个方向当前的状态是:已有图形化(DAG,有向无环图)的条件框架用于判断可恢复性(recoverability),但缺少被应用研究者直接拿去判断“在这个具体多变量缺失的DAG下,我该不该用MI”的实操算法。本文正填补了这一空白。
发展脉络(History)¶
- 奠基工作:Rubin (1976) 的缺失数据理论:奠定了MCAR、MAR、MNAR的分类,以及likelihood-based inference在MAR下可忽略缺失机制的条件。这是所有后续工作的根,但如Seaman et al. (2013) [13] 所指出,MAR定义在不同上下文中有歧义,且“valid inference”的含义不统一。
- MAR的条件够用但不必要;CRA也有用武之地:Bartlett et al. (2015) [15] 重新挖掘出logistic回归下完整记录分析(CRA)能在比MAR更宽的条件下无偏(暴露关联)。Hughes et al. (2019) [11] 更明确指出,在某些MNAR下CRA反而比假设MAR的MI更无偏,并用因果图解说了这一反直觉的现象。这打破了“MI总是比CRA好”的迷思。
- 图形化替代MAR-MNAR二分法的兴起:Moreno-Betancur et al. (2018) [17] 系统构造了“典型缺失DAG”(m-DAG),定义了“可恢复性”(recoverability)——目标参数能否表达为可观测数据分布的函数,并给出了一系列常见DAG下的可恢复性结论。Lee et al. (2023) [18] 强势指出,多变量缺失时MAR不仅难以评估,而且比一般认识到的更严苛;建议用DAG替代MAR/MNAR分类来指导分析计划。这两篇是本文的最直接前驱。
- 子样本MI的提出与早期分析:Little和Zhang提出的“subsample MI”被Curnow et al. (2023) [2] 在模拟研究中证实:在特定缺失数据模式下,只对部分变量(即只对有完整观测的个体)进行插补反而能获得无偏估计,而全样本MI却会偏。但缺乏系统判断何时该用子样本MI的规则。
- 本文位置:在上述图形的可恢复性框架与子样本MI的实证信号之间,本文提供了一个可直接套用的算法,用DAG检验MI/子样本MI在给定DAG下是否无偏。它将可恢复性条件从“存在性”落实为“检验性”。
子线索聚类¶
- 线索A:多元缺失的MAR定义与图形替代 — 核心贡献者是Seaman (2013)、Moreno-Betancur (2018)、Lee (2023)、Nabi (2022)。这条线在概念层面论证:用DAG而不是MAR类别来做缺失数据处理决策是更好的实践。本文继承了这一概念基础。
- 线索B:MI/CRA/子样本MI的偏倚实证 — 核心贡献者是Hughes (2019)、Curnow (2023)、Madley-Dowd (2023)(本文作者自己 [23])。这条线用模拟和真实数据检验不同方法的实际偏倚,发现CRA在某些MNAR下更好,子样本MI在某些多变量缺失模式下必要。本文用算法把这些分散的实证结论统一在一个图形化决策工具下。
- 线索C:实际应用指南与流程 — Lee & Tilling (2021) “TARMOS”框架 [1]、Austin (2020) 教程 [7]、Jakobsen (2017) 流程图 [5]。这些是给应用研究者的操作指南,本文补上了它们中“如何系统判断MI是否无偏”这一缺失的决策子模块。
这个方向在追问的核心问题¶
- 给定一个具体的缺失数据DAG(m-DAG),目标参数(暴露-结局系数)是否可恢复(即存在一致估计量)? — Lee (2023) 和 Moreno-Betancur (2018) 已经给出了部分可恢复性的图形准则,但一般化算法仍在发展中。
- MI(或子样本MI)是否足以无偏估计暴露-结局系数? — 这是本文的核心。区别于可恢复性(存在某个估计量可无偏),MI是一种特定的估计量,其无偏要求更严格(正确设定插补模型)。本文回答的是“在这一具体DAG下,默认MI会偏吗?”
- 何时应选择子样本MI而非全样本MI? — Little & Zhang的理论仅针对特定场景,本文将其扩展为一般的图形检验。
- 偏倚的方向和大小能否预测? — 所有工作停留在“有偏/无偏”的二分判断,大小与方向被明确列为未来工作(本文最后的limitation)。
⚠️ 作者的Framing¶
作者把缺口Frame成:虽然已有DAG-based的可恢复性理论,但应用研究者需要一个直接检查MI无偏性的算法,而且当前指导中缺少同时处理多变量缺失和子样本MI选择的实用工具。
淡化/回避: - (淡化)MI有效性高度依赖插补模型的正确指定:作者只说“如果数据是MAR(在给定DAG意义上),且插补模型正确,则MI无偏”。但Curnow (2023) [2] 已经证明,即使数据在MAR意义上可恢复,错定插补模型(例如假设线性关系而实际非线性)会导致严重偏倚。作者在算法中把“正确指定插补模型”作为隐含前提,但并未给出如何检查这一前提的操作。 - (回避)与半参数效率理论的连接:可恢复性框架自然地与半参数估计(如Efficient Influence Function)连接,用于构造缺失数据下的高效估计量。作者完全没有提及这一方向,只讨论MI的无偏性,不提效率。
明显该被引却不在引言里的工作: - Nabi & Bhattacharya & Shpitser (2022) [22] 这篇被引在文末参考文献,但引言中没有正面讨论其贡献:他们将缺失数据问题视为一个counterfactual标识问题,与因果推断建立严格对应,并给出一个完整的图形化标识算法(包含干预运算)。本文的算法本质上是该算法对“MI估计量是否无偏”这一子问题的简化、特化版本。作者没有在引言中对比或指出这一关系,是一个值得注意的缺失。
张力¶
未见明显对立引用。所有被引工作一致认为:MAR是MI有效的充分条件但不是必要条件,DAG是比MAR更好的分析框架。作者的工作与之前一致,没有矛盾。
二、最核心、最简单的例子/数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
考虑一个最简单的研究场景: - 目标参数(Estimand):暴露变量 \(X\) 对结局变量 \(Y\) 的条件回归系数 \(\beta\),来自回归模型
-
完整数据(Full data):每个个体 \(i\) 应有 \((Y_i, X_i, W_i)\)。
-
可观测数据:设 \(R_i^Y, R_i^X, R_i^W\) 是三个缺失指示变量:
- \(R_i^Y = 1\) 如果 \(Y_i\) 被观测到,否则 \(0\)。
- 类似地 \(R_i^X, R_i^W\)。
-
研究者实际观测到的是 \((Y_i R_i^Y, X_i R_i^X, W_i R_i^W, R_i^Y, R_i^X, R_i^W)\) —— 即观测到的数值 + 缺失模式。某些变量的数值丢失了,但缺失模式本身是被观测到的。
-
不可观测/潜在量:
- 缺失的 \(Y, X, W\) 值是未知的。
-
缺失机制(Missingness mechanism):给定完整数据 \((Y, X, W)\),缺失模式 \((R^Y, R^X, R^W)\) 的条件分布。这是不能从数据中检验的。
-
模型设定:
- 在“最小内核”中,我们假设一个最简单的生成机制:
- 完整数据 \((Y, X, W)\) 服从一个联合正态分布或线性模型 \(Y = \alpha + \beta X + \gamma W + \varepsilon\), \(\varepsilon \perp (X,W)\)。
- 缺失机制由DAG指定。例如,最简情况是 \(W\) 完全观测,\(X\) 和 \(Y\) 的部分缺失由 \(W\) 和 \(X\) 决定(即\(R^Y\) 由 \(W\) 和 \(X\) 决定,而非由未观测的 \(Y\) 决定;这是MAR的一种图形化表达)。
第二步:讲最小内核¶
最简特例:
设 \(d=1\),只有 \(X, Y, W\) 三个变量。DAG如下:
X → Y ← W
↑ ↑
R_Y R_X
问题是:用MI(同时插补 \(X\) 和 \(Y\))是否能无偏估计 \(\beta\)?
根据本文的算法(稍后详述),在这一DAG下,全样本MI是有偏的,而仅在 \(Y\) 上做子样本MI(只对有 \(X\) 完整记录的个体插补 \(Y\),不对 \(X\) 做插补)是无偏的。
为什么? 直觉上,\(X\) 的缺失模式 \(R_X\) 既影响 \(R_Y\) 又被 \(X\) 本身影响,因此 \(X\) 的缺失也是信息性的——部分个体因为 \(X\) 值低而缺失 \(X\),而这些个体恰好也倾向于缺失 \(Y\)。全样本MI试图从观测到的 \(X\) 和 \(W\) 来预测所有缺失的 \(X\),但因为缺失机制依赖 \(X\) 的值(MX?其实是最简例子中缺失机制是 \(R_X\) 依赖于 \(W\) 和 \(Y\)?这需要引入图结构)...作者给出的范例(Figure 1)是 \(R_X\) 受 \(W\) 影响,\(R_Y\) 受 \(R_X\) 影响。在这种结构下,CRA(只用 \(X,Y,W\) 都完整的个体)是无偏的,而MI却会引入偏倚。这一个最简例子的结论直接支撑了本文算法中“CRA足够好的场景下MI反而是有偏的”这一反直觉结论。
三、这篇论文做了什么¶
三句话¶
- 本文提出了一个基于DAG的算法,帮助应用流行病学家判断:在多个变量缺失时,使用MI(多重插补)或无偏的子样本-MI(仅对部分变量插补)是否能无偏地估计暴露-结局的回归系数。
- 核心工具是将MAR的图形化条件(用“m-DAG”表达缺失机制与变量间因果关系)嵌入到一个三步决策算法中:①画出m-DAG;②在DAG上检查MI是否无偏(通过检验缺失方是否“被观测变量阻断”);③若全样本MI有偏,检查子样本MI是否可行。
- 主要结论是:算法能系统性地识别出CRA无偏而MI却有偏的情形,并能指导“何时子样本MI是唯一可行的无偏估计”。
关键设定与假设¶
- 设定:一个观察性研究,有多个变量(暴露X、结局Y、协变量W),各变量可能都有缺失。目标是通过MI(或子样本-MI)来估计回归系数 \(\beta_{Y \mid X, W}\)(条件回归模型中的暴露系数)。
- 核心假设:
- 分析模型指定正确:回归模型 \(\mathbb{E}[Y \mid X, W]\) 的形式(如线性)是正确的,且所有相关交互项/非线性都已包含。若模型错定,MI即使满足所有条件也是偏的(作者的算法不处理这个问题)。
- 插补模型正确指定:用于MI的条件分布(如 \(X \mid Y, W, R\))也被正确建模。作者将此列为隐含前提。
- 缺失机制可图形化表示:所有影响缺失的因果路径都包含在画出的DAG中,且DAG符合无环性。
- 相比已有文献放宽/强化:
- 相比Moreno-Betancur (2018):本文不讨论“是否存在某个一致估计量”,而讨论“MI这个特定估计量是否无偏”——更窄但更实用。
- 强化了插补模型必须正确的隐含假设(而Curnow 2023已证明强化是必要的)。
主要结果¶
算法(分三步,可直接套用): 1. 构建m-DAG:画一个DAG,在其中包含变量之间的因果箭头(\(X \to Y\)等)以及缺失指示器(\(R_X, R_Y, R_W\)等)之间的箭头。用图形表示“缺失数据的生成机制”。 2. 检验全样本MI是否能无偏估计暴露-结局系数: - 检查:在DAG中,从每一个缺失的变量到它的缺失指示器的直接路径上,是否存在一个被观测变量(观测到的变量或缺失指示器本身)能阻断该路径。如果是,则该缺失变量在给定观测值下的缺失是条件独立的(MAR的条件),MI可能无偏。但还需要检查:任何同时影响\(R_X\)和\(R_Y\)(或影响\(R_X\)和\(Y\))的未观测公共原因是否存在。如存在,MI可能有偏。 - 更正式的操作为:遍历所有未观测变量(缺失的变量)与缺失指示器之间的路径,看是否有路径未被“观测变量集”阻断。 - 输出:若所有路径都被阻断,则MI无偏;若有未被阻断的路径,MI有偏(偏倚不可消除)。 3. 若全样本MI有偏,检查子样本MI(subsample-MI): - 选择子样本:仅保留某些变量“完整记录”的个体(例如,只保留 \(X\) 完整的个体)。 - 在子样本中,构建新的DAG,该DAG只包含那些在子样本中被视为“完全观测”的变量及其缺失指示器。 - 对子样本重复步骤2:如果在这个子样本的DAG中所有路径都被阻断,那么用这个子样本做子样本-MI是无偏的。
真实例子:来自ALSPAC队列研究(Avon Longitudinal Study of Parents and Children, 作者自己的数据)。研究问题是:“孕期吸烟(暴露X)与儿童智商(结局Y)之间的关联,用MI估计是否会偏?”协变量W包括母亲教育水平、生育年龄等。多个变量有缺失。作者先画出一个复杂的m-DAG。然后用算法判断:全样本MI是有偏的(因为X的缺失与Y的缺失之间有一条未被观测变量阻断的路径)。进一步,算法发现:如果将分析限制在“X和协变量W都完整记录”的子样本上,然后只对结局Y做MI插补,这个子样本-MI是无偏的。这个例子说明:即使所有变量都缺失,但通过精心选择子样本(保留完整记录的变量),仍可能找到一条无偏估计路径。该例子直接对应作者之前对同一数据的分析(Cornish, 2015 [21]——其中用了链接到教育数据的代理变量来验证MI结果有偏)。
证明路线与技术技巧¶
论文类型:应用/方法导向,不是纯理论证明论文。没有复杂的数学证明。证明/正确性依据于对DAG的性质、d-separation与条件独立关系的已有理论(Pearl, 2000; Mohan & Pearl, 2021等)的组合使用,配合引用已证明的recoverability条件(Moreno-Betancur, 2018)来断言MI下无偏的充分条件。
整体路线:作者的方法本质上是一种图形化算法验证,而非创新性定理证明。他们做了以下几步: 1. 将“MI是否能无偏估计参数\(\beta\)”的问题,等价于“在给定m-DAG下,参数\(\beta\)是否为可恢复的(由观测数据分布唯一标识),且是否估计量(MI)可达”。 2. 然后用d-separation准则检查,是否存在从缺失变量到缺失指示器的不应开放路径。 3. 对于子样本MI,他们对子样本“重写”m-DAG,使外部缺失被视为固定、截断,再检查新DAG中参数是否可恢复。
关键跳跃点:唯一的数学技巧点是如何判断一个DAG下的条件独立是否可以由MI算法实现。作者借鉴了Moreno-Betancur (2018) 中“可恢复性”的充要条件,并指出MI中“插补模型正确指定”等价于“DAG中从缺失变量到其他变量的后门路径被观测变量阻断”,从而将DAG的d-separation翻译为MI有效与否的可操作条件。
技术技巧:没有用到复杂的概率论或统计渐近技术(如expirical process)。主要技术是图形模型中的d-separation(graphical criteria for conditional independence)和Markov condition(DAG蕴含的条件独立性)。
🔎 结论是否比证明窄¶
是的。论文的“结论”部分(摘要和正文讨论)声称“算法决定MI是否无偏”,但核心证明部分(实际上是论证)只在一个特定条件下成立: - 作者在“方法”部分明确指出:“We assume that the imputation models are correctly specified.”(假设插补模型正确指定) - 但在“讨论”部分说“Our algorithm determines when MI estimates are unbiased”,却几乎未讨论插补模型被错定条件下的偏倚问题。 - 这意味着:算法声称“无偏”时,实际上是说“在插补模型正确且缺失机制满足DAG条件时,无偏”。如果用户使用了错误形式的插补模型(如忽略交互项或非线性),即使满足了DAG条件,MI仍可能有偏(Curnow, 2023 [2]已证明)。这是一个典型的“结论比证明宽”的情形。
另一个窄处:算法只针对条件线性回归系数(exposure-outcome回归的\(\beta\))。对于更复杂的分析模型(如logistic回归、Cox模型、带有随机效应的模型),该算法的适用性没有在文中明确证明,但被暗示可以推广。实际的推广等价性需要用类似Bartlett (2015) [15]的推理单独验证。
四、开放问题(点到为止)¶
-
偏倚的大小与方向:算法只给出“有偏/无偏”的二值分类。在实际数据中,有偏的估计可能偏量很小、方向已知,依然可用。如何预测给定DAG下MI偏倚的符号与幅度?——来自论文limitation: “Further work could focus on the likely size and direction of biases”(原文)。
-
不同缺失模式的影响:现实中的缺失往往是单调或间歇性的。单调缺失(如纵向研究中的失访)vs. 非单调缺失(部分回访)下,该算法能否简化或需调整?——来自论文limitation: “impact of different missing data patterns”。
-
与半参数效率理论的连接:可恢复性框架下,可以构造比MI更高效(更小渐近方差)的估计量(如使用Efficient Influence Function)。是否可以在保持无偏的同时,通过选择不同的估计量(而非MI)获得更小的置信区间?——这是与研究者“半参数效率理论”兴趣的直接连接,文中被完全回避。
-
插补模型错定的敏感性:当插补模型与实际条件分布不匹配时,即使满足DAG条件MI仍会有偏。能否用敏感性分析量化这种偏倚?可否引入图形化的模型诊断?——扎根于Curnow (2023) [2]中“模型错定导致MI有偏”的结论,以及本文算法未覆盖这一点的缺陷。
Maintained by 陈星宇 · Homepage · Source on GitHub