Resurrecting complete-case analysis: a defense¶
作者: Maya B Mathur, Ilya Shpitser, Tyler J VanderWeele
来源: American Journal of Epidemiology
主题: 因果推断
相关性: 9/10
机构绿灯: Boston University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/aje/kwaf284
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处理的是因果推断(尤其是处理效应估计)中的缺失数据问题。根本的统计/科学问题在于:当结局变量(Outcome)存在缺失时,如何在不引入系统性偏差的前提下估计因果效应?传统统计学视角将缺失机制分为MCAR(完全随机缺失)、MAR(随机缺失)与MNAR(非随机缺失),并基于可忽略性给出识别条件;而因果推断视角则试图利用图模型(DAG)与结构假设,刻画缺失过程的因果结构,从而在MNAR下寻找新的识别路径与偏差消除策略。当前该方向在理论层面已有较系统的图模型识别框架,但在流行病学实践与教学中的共识仍停留在“CCA仅MCAR下有效、必须用MAR下的MI替代”的旧范式,理论与实践之间存在明显断层。
发展脉络(history): - 奠基工作:Rubin (1976) 提出了缺失数据的分类体系(MCAR/MAR/MNAR)与可忽略性概念,奠定了整个缺失数据推断的理论基石。这一工作确立了“CCA仅在MCAR下无偏”的经典论断。 - 主要进展(MAR路线):基于Rubin的MAR假设,多重插补(MI)方法被发展为主流应对方案(如Schafer 1997, van Buuren 2018的实操指南)。在流行病学与统计学教材中,MI被广泛推荐为处理缺失的标准工具,CCA则被边缘化。 - 主要进展(因果/图模型路线):Pearl (1995, 2009) 与 Spirtes et al. (2000) 建立了结构因果模型与DAG语言,为缺失数据提供了非参数识别的新视角。随后,Mohan et al. (2013, 2014) 与 Shpitser et al. (近期工作) 专门针对缺失数据构建了因果图识别理论,证明了在某些MNAR结构下,目标分布依然可识别。 - 当前 frontier 与本文位置:当前前沿在于如何将因果图模型的识别理论转化为流行病学实践中的可操作指南,特别是针对CCA与MI的优劣重估。本文(Mathur, Shpitser, VanderWeele 2023)正是站在这一断层上:它不发明新的图模型识别定理,而是将已有的因果图逻辑(特别是Mohan与Shpitser的识别条件)应用于“CCA+协变量调整”这一被长期忽视的旧方法,论证其在MNAR下的偏差消除潜力,并以此挑战“MI优于CCA”的实践共识。
子线索聚类: 1. MAR范式与多重插补(MI):以Rubin的可忽略性为基石,发展出MI、全信息最大似然(FIML)等方法。这一簇假设缺失机制仅依赖于已观测数据,核心瓶颈在于MAR假设在结局变量缺失时极难验证,且若真实机制为MNAR,MI将产生偏差。 2. 因果图缺失数据识别理论:以Pearl的do算子与Mohan的缺失图模型为基石,研究在何种DAG结构下,即便缺失机制与结局变量直接相关(MNAR),目标因果效应依然可通过条件化或恢复公式被非参数识别。核心瓶颈在于识别条件往往需要特定的图结构(如无特定路径),且实践中如何选择调整集缺乏明确指南。 3. CCA的协变量调整策略:本文独辟的线索。传统CCA被视为无条件化(直接扔掉缺失样本)的粗笨方法;本文则将其改造为“条件化CCA”(在协变量子集上调整后扔掉缺失样本),并利用因果图的混杂控制逻辑,论证这种调整在特定MNAR结构下可消除或减小偏差。
这个方向在追问的核心问题: 1. 识别问题:在结局变量MNAR下,处理效应是否依然可识别?识别条件在DAG中如何刻画?(当前主流:Mohan的图模型识别准则;瓶颈:条件苛刻,实践中难以确认图结构)。 2. 偏差消除问题:若无法完全识别,何种估计策略能最小化偏差?CCA+协变量调整在何种条件下偏差为零?(当前主流:依赖MAR下的MI;瓶颈:MAR不成立时MI偏差可能比CCA更大)。 3. 实践共识问题:流行病学教材与论文是否过度排斥CCA而盲目信任MI?如何为研究者提供不依赖MAR的敏感性分析工具?(当前瓶颈:教学与文献中的“CCA=MCAR”论断过于绝对,忽视了协变量调整的潜力)。
⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口frame为“流行病学界对CCA的妖魔化与对MI的盲目信任”,认为这种共识源于对Rubin分类的误读——只关注了缺失机制分类,却忽视了因果结构下的协变量调整逻辑。作者声称,只要用处理混杂时同样的逻辑去选择CCA的调整集,CCA就能在MNAR下甚至优于MI,因此CCA应被“复活”为一种原则性方法与MI的敏感性分析。 - 哪些竞争路线被他淡化或回避了:作者主要对比了CCA与MI,但回避了其他MNAR下的专门方法(如Selection Model、Pattern-Mixture Model、共享参数模型等),也未深入讨论FIML。此外,作者将CCA的偏差消除依赖于特定的DAG结构(如缺失指示变量R_Y与结局Y之间无直接因果箭头,或被协变量阻断),但未讨论当这些图结构假设不成立时,CCA与上述MNAR专门方法的偏差对比。 - 什么明显该被引 / 该存在、却没出现在 intro 里:经典的MNAR建模文献(如Diggle & Kenward 1994的Selection Model,Little 1993的Pattern-Mixture Model)未在intro中被系统对比;此外,半参数效率理论下的缺失数据估计文献(如Robins et al. 1994的IPW与增强IPW)未被提及——这些方法同样不依赖MI,且在MAR下可达到半参数效率界,作者未解释为何CCA在效率上劣于这些方法时,仍应被“复活”。
张力: 未见明显对立引用。Mohan的图模型识别理论与Rubin的MAR范式在前提假设上互斥(前者允许MNAR,后者假设MAR),但本文并未将它们视为对立,而是将它们视为互补(CCA在MNAR下可能有效,MI在MAR下有效,两者互为敏感性分析)。真正的张力在于:作者声称CCA在MNAR下可消除偏差,但这依赖于特定的DAG结构;而MI的倡导者可能反驳说,在同样的DAG结构下,若MAR成立,MI的效率远高于CCA。本文未正面解决这一效率与偏差的权衡张力。
二、最核心、最简单的例子 / 数学问题¶
在展开全文技术细节前,先用最简例子把核心逻辑讲透。
第一步:符号、模型、可观测数据交代清楚
- \(A\):处理变量(Treatment,如二值用药指示)。
- \(Y\):结局变量(Outcome,如疗效)。
- \(L\):协变量集合(Covariates,如年龄、性别、基线病情)。
- \(R_Y\):缺失指示变量(Missingness indicator for \(Y\)),取1表示\(Y\)被观测到,取0表示\(Y\)缺失。
- \(Y_{obs}\):实际观测到的结局值。当\(R_Y=1\)时,\(Y_{obs}=Y\);当\(R_Y=0\)时,\(Y_{obs\)为空/NA。
- 目标估计量:处理\(A\)对结局\(Y\)的平均因果效应(ACE),如\(E[Y(A=1) - Y(A=0)]\)或条件效应。
- 数据生成机制:\(A, L, Y, R_Y\)服从某个联合分布\(P\),其因果结构由DAG刻画。\(Y\)的缺失由\(R_Y\)决定,\(R_Y\)的取值可能依赖于\(L\)、\(A\)甚至\(Y\)本身(MNAR)。
- 可观测数据:研究者只能看到\((A, L, R_Y, Y_{obs})\)的\(n\)个独立样本。当\(R_Y=0\)时,\(Y\)的潜在值永远不可见。CCA仅使用\(R_Y=1\)的子样本(完整案例)。
第二步:最小内核——为何CCA+协变量调整能在MNAR下消除偏差
剥掉所有一般性讨论,论文的核心数学内核是一个极其具体的DAG结构与条件化逻辑:
最简特例(MNAR下CCA无偏的DAG): 假设只有三个变量:\(L\)(协变量),\(A\)(处理),\(Y\)(结局)。缺失机制为:\(R_Y\)仅依赖于\(L\)和\(Y\)(这是典型的MNAR,因为缺失直接依赖于结局本身)。DAG结构为:\(L \rightarrow A\), \(L \rightarrow Y\), \(A \rightarrow Y\), \(L \rightarrow R_Y\), \(Y \rightarrow R_Y\)。注意:\(R_Y\)与\(Y\)之间有直接因果箭头,这违反了MAR(MAR要求\(R_Y\)不依赖\(Y\))。
在这个MNAR结构下,传统观点认为CCA必然有偏,因为缺失与结局直接相关。但本文的核心洞察是:如果我们在\(L\)上条件化,偏差可以消失。
数学证明的最简路线: 1. CCA估计的目标是\(E[Y \mid A, R_Y=1]\)(完整样本中\(A\)对\(Y\)的回归)。 2. 我们想估计的真实因果效应需要识别\(E[Y \mid A]\)(全样本下的期望)。 3. 偏差来源于:\(E[Y \mid A, R_Y=1] \neq E[Y \mid A]\)。 4. 根据DAG,\(R_Y\)与\(A\)之间没有直接箭头,它们之间的关联仅通过\(L\)产生的路径传导(\(A \leftarrow L \rightarrow R_Y\))。 5. 因此,在\(L\)上条件化后,\(A\)与\(R_Y\)变得d-分离:\(A \perp R_Y \mid L\)。 6. 这意味着:\(E[Y \mid A, L, R_Y=1] = E[Y \mid A, L]\)(因为在\(L\)下,\(R_Y\)不再提供关于\(Y\)的额外信息,因为\(R_Y\)对\(Y\)的影响路径被\(L\)阻断?更精确的论证:在\(L\)下,\(A\)与\(R_Y\)独立,且\(Y\)与\(R_Y\)的关联仅通过未条件化的路径;但这里关键在于,如果我们在\(L\)上调整,CCA估计的是\(E[Y \mid A, L, R_Y=1]\),而真实因果效应在\(L\)上的条件效应是\(E[Y(A=1) \mid L] - E[Y(A=0) \mid L]\)。由于\(A\)与\(R_Y\)在\(L\)下独立,\(R_Y=1\)这个条件不改变\(A\)对\(Y\)的条件分布)。 7. 因此,在\(L\)上条件化的CCA,即\(\sum_l E[Y \mid A, L=l, R_Y=1] P(L=l)\),恰好等于\(\sum_l E[Y \mid A, L=l] P(L=l) = E[Y \mid A]\)。偏差被完全消除。
核心数学困难与破局点: 困难在于,MNAR下\(Y\)与\(R_Y\)直接相关,直觉上“缺失总是有偏的”。破局点在于区分两类关联:\(R_Y\)与\(A\)的关联(导致选择偏差,可通过条件化阻断)与\(R_Y\)与\(Y\)的关联(导致信息缺失,但若\(A\)与\(R_Y\)在调整集下独立,则条件效应的识别不受\(R_Y\)影响)。只要调整集\(L\)能d-分离\(A\)与\(R_Y\),且满足混杂控制条件(阻断\(A\)与\(Y\)的后门路径),CCA在\(L\)上的条件效应就是无偏的。即使\(R_Y\)与\(Y\)直接相连(MNAR),只要\(A\)与\(R_Y\)在\(L\)下独立,\(R_Y=1\)这个筛选条件就不改变\(A\)对\(Y\)的因果机制。
三、这篇论文做了什么¶
三句话: ①研究了结局变量缺失时,完整案例分析(CCA)在何种因果结构下能消除或减小偏差; ②核心工具是有向无环图(DAG)与d-分离原则,用于刻画协变量调整如何阻断处理变量与缺失指示变量之间的路径; ③主要结论是:在MNAR下,只要调整集能d-分离处理与缺失指示变量并控制混杂,CCA可完全消除偏差;即使不能完全消除,调整后的CCA也常能减小偏差,并可作为MAR下多重插补(MI)的敏感性分析。
关键设定与假设: - 缺失数据图模型:采用Mohan et al. (2013) 的框架,将缺失指示变量\(R_Y\)显式纳入DAG,作为\(Y\)的子节点。\(Y\)本身被视为潜在变量,\(Y_{obs}\)为\(R_Y=1\)时的观测实现。 - 假设1:因果马尔可夫条件:DAG中所有变量服从局部马尔可夫条件(给定父节点,变量与所有非后代独立)。这是非参数识别的基础。 - 假设2:可忽略的缺失机制(针对处理变量):本文未假设\(R_Y\)与\(Y\)独立(即不要求MAR),但核心定理要求在调整集\(L\)下,\(A\)与\(R_Y\)独立(即\(A \perp R_Y \mid L\),DAG中\(A\)到\(R_Y\)的所有路径被\(L\)阻断)。 - 假设3:混杂控制:调整集\(L\)需满足后门准则,即阻断\(A\)与\(Y\)之间的所有非因果路径。 - 假设4: positivity (正性条件):在调整集\(L\)的每个层次\(l\)下,\(P(R_Y=1 \mid A=a, L=l) > 0\),即完整案例在每一层中都存在。 - 统计含义:假设2是本文的灵魂——它允许\(R_Y\)依赖于\(Y\)(MNAR),但要求缺失机制与处理变量在协变量下独立。这比MAR弱得多(MAR要求\(R_Y\)与\(Y\)在所有协变量下独立),但比MCAR强(MCAR要求\(R_Y\)与一切独立)。相比已有文献,本文放宽了“CCA仅MCAR有效”的旧假设,但引入了特定的图结构假设。
主要结果: - 定理/命题1(CCA偏差消除的图条件):若调整集\(L\)满足:(i) 阻断\(A\)与\(R_Y\)之间的所有路径(\(A \perp R_Y \mid L\));(ii) 阻断\(A\)与\(Y\)之间的所有后门路径;则基于\(L\)调整的CCA对条件因果效应\(E[Y(a) \mid L]\)与边缘因果效应\(E[Y(a)]\)的估计无偏。直觉:只要处理变量与缺失机制在协变量下独立,缺失筛选不改变处理效应的分布。必要条件:\(L\)必须包含\(A\)与\(R_Y\)之间的所有混杂因子。 - 定理/命题2(CCA偏差减小的图条件):若\(L\)不能完全阻断\(A\)与\(R_Y\)之间的路径,但部分阻断,则CCA的偏差通常比未调整的CCA小。直觉:部分d-分离减少了选择偏差的方差。本文未给出偏差减小的定量界,但通过DAG路径分析定性论证。 - 定理/命题3(CCA与MI的偏差对比):在MNAR下,MI(基于MAR假设)有偏;若此时CCA的调整集满足定理1条件,CCA无偏而MI有偏。即使CCA不满足定理1,若MNAR机制使得MI的偏差方向与CCA相反,CCA可能比MI偏差更小。直觉:MAR假设本身在MNAR下引入偏差,而CCA的偏差可通过协变量调整控制。
证明路线与技术技巧: - 整体路线: 1. 建立缺失数据的DAG模型,将\(R_Y\)与\(Y\)的关系显式化。 2. 利用do算子与后门准则,写出因果效应\(E[Y(a)]\)的识别公式(在全样本下)。 3. 写出CCA估计的目标公式\(E[Y \mid A=a, R_Y=1]\)(在完整样本下)。 4. 比较两者,分解偏差来源:\(E[Y \mid A=a, R_Y=1] - E[Y \mid A=a]\)。 5. 利用d-分离原则,证明当\(A \perp R_Y \mid L\)时,\(E[Y \mid A=a, L=l, R_Y=1] = E[Y \mid A=a, L=l]\),从而偏差为零。 6. 对比MI的识别公式,证明在MNAR下MI的偏差不可通过协变量调整消除。 - 关键跳跃点:从“\(A \perp R_Y \mid L\)”推导“\(E[Y \mid A, L, R_Y=1] = E[Y \mid A, L]\)”这一步。难点在于,\(R_Y\)与\(Y\)可能直接相关(MNAR),直觉上\(R_Y=1\)筛选了\(Y\)的分布。破局点在于:我们关心的不是\(Y\)的边缘分布,而是\(Y\)在\(A\)与\(L\)下的条件分布。只要\(A\)与\(R_Y\)在\(L\)下独立,\(R_Y\)的筛选就不改变\(A\)对\(Y\)的条件关系——这类似于“选择偏差不影响条件效应,只要选择机制与处理在条件化下独立”。 - 技术技巧点名: - d-分离:用于判断\(A\)与\(R_Y\)在\(L\)下是否独立,是偏差消除的核心判据。 - 后门准则:用于选择控制混杂的协变量子集,与d-分离结合,给出调整集\(L\)的充分条件。 - 反事实/潜在变量分解:将\(Y\)视为潜在变量,\(Y_{obs}\)为\(R_Y=1\)时的实现,用于区分“真实因果效应”与“完整样本下的条件效应”。
真实例子与应用: 本文为纯理论/概念性论文,无实证例子或模拟实验。所有论证通过DAG图例与数学推导完成。文中给出了多个DAG图例(如Figure 1-4),展示不同缺失结构下CCA与MI的偏差情况,但这些是假设的图结构,而非真实数据集。本文的“应用”指向流行病学实践中的方法论建议,而非数据分析。
🔎 结论是否比证明窄: - 本文在定理1中严格证明了“\(A \perp R_Y \mid L\)且后门准则满足时,CCA无偏”,但在命题2中仅定性声称“部分阻断路径常减小偏差”,未给出偏差减小的定量界或严格证明。这一声称依赖于“路径阻断越多,偏差越小”的直觉,但在复杂DAG中(如存在交互效应或多个缺失路径),这一直觉可能不成立。 - 本文声称“调整后的CCA应作为MI的敏感性分析”,这一结论超出了定理的证明范围——定理仅证明在特定MNAR下CCA无偏,但未证明CCA与MI的偏差方向一定相反或互补。敏感性分析的合理性依赖于实践逻辑,而非数学必然。
四、开放问题(点到为止,扎根具体语句)¶
- 偏差减小的定量界:命题2声称部分d-分离常减小偏差,但未给出定量界。要证什么:在\(A\)与\(R_Y\)之间有未被阻断的路径时,CCA偏差的绝对上界是什么?扎根点:文中“Even when CCA is biased, principled covariate adjustment often reduces the bias”这一句,缺乏定理支撑。
- 效率与偏差的权衡:本文未讨论CCA的效率损失(CCA丢弃缺失样本,方差增大)。要估什么:在CCA无偏的MNAR结构下,CCA相对于MAR下MI或IPW的相对效率是多少?扎根点:intro中回避了对Robins et al. IPW效率理论的引用,留下“CCA何时在偏差-效率权衡上优于IPW”的缺口。
- 高维协变量下的调整集选择:本文假设调整集\(L\)已知且满足图条件,但在高维数据中,\(L\)的选择需依赖数据驱动方法(如DAG发现算法)。要算什么:在高维下,如何用数据驱动方法选择满足\(A \perp R_Y \mid L\)与后门准则的\(L\),且保证选择误差不破坏CCA的无偏性?扎根点:文中“principles for choosing adjustment covariates”一节仅给出图逻辑,未涉及数据驱动选择。
- CCA与MNAR专门方法的系统对比:本文仅对比了CCA与MI,但未对比CCA与Selection Model、Pattern-Mixture Model等MNAR专门方法。要证什么:在CCA无偏的MNAR结构下,CCA是否比这些专门方法更稳健或更易实施?扎根点:intro中缺失了对Diggle & Kenward等经典MNAR文献的引用与对比。
Maintained by 陈星宇 · Homepage · Source on GitHub