A common-cause principle for eliminating selection bias in causal estimands through covariate adjustment¶

讲者: Maya Mathur
讨论人: Eric Tchetgen Tchetgen and Nan Laird [new format]
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-11-14
主题: 因果推断
视频: https://youtu.be/UCT47LTtUj4

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

本报告属于因果推断中由选择性进入分析（selection into analysis）引发的偏差的识别与调整这一子方向。选择偏差的来源可分为两类：内部偏差（在所选子样本内，条件于选择指标后，暴露与结局之间出现因分层而产生的虚假关联，如 collider bias）和外部偏差（所选子样本中的因果效应与总体效应不同，通常由效应修饰或选择指标与结局的共同原因引起）。

经典背景：选择偏差的传统处理方法包括 Heckman 型样本选择模型（需指定选择机制 parametric form）、倾向性得分加权（IPW）、多重插补（MI）。对于缺失数据，长期教条是“完整案例分析（CCA）仅在数据完全随机缺失（MCAR）下无偏”，因此推荐使用基于缺失随机（MAR）假设的方法（如 MI）。但该教条已被若干工作质疑——例如 Nan Laird（1988）指出 CCA 在非随机缺失下仍可能对特定参数无偏；更近期，Mohan & Pearl (2014) 等利用图形模型（污损图 / m-graph）刻画缺失机制。本报告站在该支流上，试图用 DAG/SWIG 框架推广“何时协变量调整可消除选择偏差”的充分条件，并提出一个与混淆调整中“共同原因原则”相平行的选择偏差共同原因原则。

讲者位置：讲者 Mathur 及其合作者（Ilia Spitzer, Tyler VanderWeele）主要贡献是给出了不依赖完全已知因果结构的实用充分条件——只要收集并调整结局 Y 与选择指标 R 的所有共同原因（排除暴露及其后代），即可消除选择偏差（当充分调整集存在时）。该结果与熟悉的混淆共同原因原则对称，为实际数据分析提供了一个可操作的检查清单。报告同时指出两类“不可靠”结构（类型 D：Y→R 或 R→Y 的直接路径；类型 M：R 受暴露影响的中间变量），在这两类下协变量调整无法完全消除偏差，但调整共同原因仍可能减少偏差。

相关参考文献（根据报告提及及领域常识）： - Pearl (2009). Causality —— 共同原因原则及 back-door 调整。 - Shpitser & Pearl (2006). “Identification of conditional interventional distributions” —— 条件 ID 算法。 - Mohan & Pearl (2014). “Graphical models for missing data” —— 用图模型分析缺失机制。 - Smith & VanderWeele (2019). “Selection bias sensitivity analysis” —— 选择偏差的敏感性分析。 - Laird (1988). “Missing data in longitudinal studies” —— 早期指出 CCA 在非随机缺失下仍可无偏。 - Heckman (1979). “Sample selection bias as a specification error” —— 经典参数选择模型。

二、最小内核 / 一个最简例子¶

目标是找到协变量集 Q，使得 β(Q) = Δ(Q)，即选择偏差被消除。

最简 DAG：

A：暴露（如药物），Y：结局（如血压），R：选择指示（1=被观测，0=缺失）。
V：共同影响 A 和 Y 的混淆因子（已测量）。此外，这里 R 是 A 和 Y 的一个后代（collider），受两者共同影响。
如果仅调整 V 并做 CCA（即只保留 R=1 的样本），β(V) 是否等于 Δ(V)？在本结构下，是的。因为 V 阻断了 A 与 Y 之间的混淆路径，同时 V 也是 Y 与 R 的共同原因（Y 和 R 的唯一共同原因是 V），所以根据共同原因原则，调整 V 就够了。

更直观：若我们只分析 R=1 的个体，R=1 等价于“A 和 Y 取值使得 R=1”，从而可能引入 collider bias。但如果我们把 V 放在回归中（即调整 V），就能打破这个 collider 路径，恢复无偏估计。

符号： - 可观测数据：(A, Y, V, R)，R=1 的单元被观测到全部变量，R=0 时变量部分缺失。 - 潜在结果：Y(a) for a=0,1。 - 识别所需假设：条件于 V 和 R=1，A 与 Y(a) 独立吗？这里由于 V 是混淆因子且同时是 R 的共同原因，调整 V 即可满足条件交换性（在 R=1 的子总体中），再加上 positivity（P(R=1|A,V)>0），即可识别。

三、报告主体：讲者讲了什么¶

以下按时间顺序整理讲者的主线内容，并标注大致时间点。

[0:00-0:05] 开场与背景 - 讲者 Maya Mathur 介绍合作者 Ilya Shpitser（字幕拼作“Ilia Spitzer”，实际应为 Ilya Shpitser）和 Tyler VanderWeele。 - 说明选择偏差的来源：数据收集方式（病例对照、基于健康条件选择）、分析阶段（完整案例分析、条件于后处理变量）。 - 目标：寻找与混淆调整相似的图形准则，以判断哪些协变量调整可消除选择偏差。

[0:06-0:14] 混淆的共同原因原则回顾 - “共同原因原则”（Pearl）：调整所有同时影响暴露 A 和结局 Y 的变量（即共同原因），即可消除混淆。 - 两个简单 DAG 示例：一个共同原因 V，两个共同原因 V 和 W，调整它们均充分。

[0:15-0:20] 选择偏差的共同原因原则雏形 - 关键洞察：当因果结构允许协变量调整消除选择偏差时，调整 Y 和选择指示器 R 的所有共同原因（排除暴露及其后代）即可。 - 对缺失数据启示：许多文献（NEJM, JAMA）声称 CCA 仅在 MCAR 下无偏，因此劣于 MI。但讲者指出这种说法过于简化——恰当调整的 CCA 即使在 MNAR 下也可能无偏。

[0:21-0:35] 内部 vs 外部选择偏差分解 - 引入近期工作（未明确标明）中将选择偏差分解为两部分： - 外部偏差：效应修饰导致的子总体效应与总体效应之差（例如因 U 是 V 的效应修饰）。 - 内部偏差：在子总体内，因 collider 分层导致的偏差（例如通过 R 的 A-Y 关联）。 - 用 M-bias 型结构举例：R 是 A 和 Y 的 collider，条件于 R 本身会打开 A→Y 的 collider 路径（内部偏差）。同时存在 V→Y 和 V→R 路径导致外部偏差。

[0:36-0:44] 正式符号与目标 - 定义潜在结果 Y(a)，总体的条件平均处理效应 Δ(Q) = E[Y(1)-Y(0)|Q]；子样本估计量 β(Q) = E[Y|A=1,R=1,Q] - E[Y|A=0,R=1,Q]。 - 目标：找到 Q 使得 β(Q)=Δ(Q)。 - 如果完全知道因果结构，可用已有方法（如 Shpitser & Pearl 的条件 ID 算法、SWIG 准则）得到充分调整集。

[0:45-1:00] SWIG 准则（具体细节较模糊） - 基于 SWIG（单世界干预图）的两个条件用于判别内部与外部选择偏差： 1. 在条件于 Q 和 R 下，A 和 Y(a) 之间没有 back-door 路径 → 无内部偏差。 2. 在条件于 Q 下，Y(a) 和 R 之间没有路径 → 无外部偏差。 - 举例说明不同结构下哪些变量集充分。

[1:01-1:10] 当选择受暴露影响时的复杂情况 - 若 R 是后处理变量（post-treatment selection），分解内部/外部偏差不再指代事实 R=1 群体内的效应，而是净处理差异（net treatment difference）：依赖于对全体成员施加 A=1 与 A=0 后，所选群体构成的变化。这不属于因果效应定义。 - 可以改用主分层（principal stratification）思路（如幸存者平均因果效应 SACE）。

[1:11-1:15] 不完全已知因果结构时的困扰 - 选择偏差的可能结构繁多（R 是 A 的后代、R 是 Y 的后代、R 是 A 和 Y 的共同后代、R 是中介的后代等），实践中难以确定属于哪一种。 - 讲者因此提出一个不依赖于完全已知结构的简化方法。

[1:16-1:28] 主要结果1：共同原因原则（定理） - 若存在某个充分调整集（足以消除选择偏差），则所有 Y 和 R 的共同原因（排除暴露及其后代）也是一个充分调整集。 - 举例：简单 DAG 中共同原因就是 V，而 V 在各种不同结构下都充分（只要该结构本身允许充分调整）。 - 该结果的实用价值：研究者只需判断哪些变量同时影响 Y 和 R，而不必区分具体图结构。

[1:29-1:40] 结果2：当充分集不存在时的分类 - 如果没有任何协变量调整集能消除选择偏差，则属于以下两种类型之一（或二者兼有）： - D 型不充分：存在从 Y 到 R 或从 R 到 Y 的直接路径（或未观测中介路径）。 - M 型不充分：R 是暴露的中间变量（mediator）或受暴露影响的后代（即后处理选择）。 - 举例说明：动脉粥样硬化研究中的脱落（dropout），若 atherosclerosis(Y) 本身不影响脱落与否（Y→R 不合理），而 exercise 作为中介影响脱落（M 型不充分），则协变量调整可能不完全消除偏差，但仍可减少偏差。

[1:41-1:52] 模拟结果与对 CCA 的再评估 - 模拟显示：即使充分集不存在，调整共同原因仍减少偏差（但未必消除）。 - 在 MNAR 场景下，恰当的协变量调整后的 CCA 有时优于 MI（后者通常假设 MAR）。 - 因此，讲者建议应在常规分析中同时进行精心调整的 CCA 和基于 MAR 的方法，并比较结果，避免自动假定 CCA 是错误的。

[1:53-2:00] 实践建议 1. 判断充分集是否可能存在：问“结局是否影响选择”、“选择是否影响结局”、“选择是否是中介或被暴露影响”。 2. 尽量收集与 Y 和 R 的共同原因相关的变量（注意这可能在暴露后，如中介-结局混淆因子）。 3. 模拟中即使无充分集，调整共同原因也有帮助。 4. 将 CCA（经协变量调整）作为常规分析与 MI 等方法并列使用。

[2:01-讨论部分] - 问答阶段：回答关于“M 不充分下直接效应是否可识别”的问题（不一定，取决于推理目标）。 - 讨论人 Nan Laird： - 评论：DAG 是一个有用的工具，但需要注意扰动项（disturbances）。 - 指出讲者模拟中设定了条件 ATE 等于总体 ATE（避免非可压缩性），但在现实中不一定成立。 - 提到 Margaret Wu 的早年工作：在随机效应模型中，CCA 在缺失取决于随机斜率/截距时仍可无偏。 - 对讲者的模拟结果表示兴趣：调整 CCA 在小样本下表现良好，MAR 方法也在无调整时表现不错。 - 讨论人 Eric Tchetgen Tchetgen： - 批评：仅关注“调整”对于缺失数据问题过于局限，忽略了 IPW、g-formula 等其他识别方法。 - 特别指出后处理协变量调整对 CCA 的风险（如 M 不充分图表中的结构），建议用 IPW 或 g-formula 处理脱落。 - 提醒在非单调缺失模式中 CCA 会严重损失样本，效率极低，不应作为常规推荐。 - 讲者回应：赞同这些观点，承认当前工作基于单一选择指示器的图，正在拓展到多变量缺失图。 - 结束。

四、对应论文与开放问题¶

对应论文¶

主论文：Mathur, M., Shpitser, I., & VanderWeele, T. (2023 or 2024). “A common-cause principle for eliminating selection bias in causal estimands through covariate adjustment.” 据讲者提及，幻灯片和论文链接（短链接）已在报告页面公布。arxiv 编号未在转写中明确，但很可能可在其网站找到。
相关自引：讲者提到自己关于缺失数据敏感性分析的工作（Mathur & VanderWeele, 2023?）。
讨论中提及的相关文献：
Laird (1988) 关于 CCA 在非随机缺失下的无偏性。
Wu (1980) 关于随机效应模型中 CCA 的无偏性。
Mohan & Pearl (2014) 缺失数据图形模型。
不确定信息：合作者“Ilia Spitzer”应为 Ilya Shpitser，确认来自 Johns Hopkins。（转写拼写错误）

开放问题（扎根于转写）¶

当充分集不存在时，调整共同原因能多大程度减少偏差？ ——转写中讲者仅说“often substantially outperforms MI”但未给出理论保证或界限（时间点 [0:32:50]）。这可引出量化偏差上界或最坏情况分析的问题。
非单调缺失模式下的 CCA 与 MI 比较 ——Eric 指出在非单调缺失中 CCA 几乎不可行，讲者承认其局限性，并说正在拓展到多变量缺失图（[0:58:00]）。未来工作可能包括开发鲁棒的调整策略。
如何将 SWIG 准则推广到部分已知结构？ ——讲者主要依赖共同原因原则（不要求全图已知），但 SWIG 准则需要全图。是否存在介于两者之间的部分知识假设下可操作的选择偏差调整准则？
效应度量尺度（风险比、优势比）下的共同原因原则是否仍成立？ ——讲者提到结果适用于任何尺度，但未展开非可压缩性的影响（Nan 指出模拟中设定了条件 ATE 等于总体 ATE 来避免此问题，[0:49:00]）。实证应用中如何处理非可压缩性？
与 Heckman 类型选择模型的连接 ——问答中提及 Heckman 但未深入。是否存在将 Heckman 的误差项相关性假设与图形共同原因原则统一的理论？
敏感性分析的具体形式 ——讲者提及可借鉴 Smith & VanderWeele 的选择偏差敏感性分析，但未在报告中展开（[0:28:10]）。一条具体可行问题：如何将共同原因原则转化为可操作的 E-value 类敏感性指标？

Maintained by 陈星宇 · Homepage · Source on GitHub