Joint Causal Inference: A Unifying Perspective on Causal Discovery¶

讲者: Joris Mooij
讨论人: Philip Dawid
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-08
主题: 因果推断
视频: https://www.youtube.com/watch?v=NgxQkFwve70 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向定位：这场报告位于因果发现（causal discovery） 这个子领域——即从数据出发推断变量之间的因果图（是否存在边、边的方向、是否存在潜在混杂）。这个方向的基础问题是：在仅观测到系统变量（如基因表达、经济指标）的前提下，能否重建出背后的因果结构？经典奠基工作包括 Pearl (2000) 的 DAG 与 do-calculus、Spirtes, Glymour & Scheines (2000) 的约束基础方法（PC、FCI 等）、以及 Cooper (1997) 的局部因果发现（LCD）。

主流路线： - 纯观测方法：只利用单一条件下的观测数据，通过条件独立性检验 + 忠实性假设来约束可能的图。这个方向的主要瓶颈是可识别性弱：即使样本无限大，也只能将因果图确定为一个 Markov 等价类；而且对潜在混杂的处理非常有限（例如 FCI 可输出 PAG，但代价高昂）。 - 实验方法：利用随机对照试验（RCT）或准实验设计（IV 等）来直接锁定边缘方向。RCT 是黄金标准，但实验成本高、伦理限制多。 - 结合多来源数据的统一框架：近年来兴起的方向，典型工作包括 Invariant Causal Prediction（ICP, Peters et al., 2016）等。

JCI 站在哪里：Mooij 等人提出的 Joint Causal Inference (JCI) 试图将 RCT、LCD、ICP 以及纯观测方法统一在一个框架下。其核心洞见是：将系统变量和上下文变量（如干预指派 / 分组指示 / 时间戳）建模为一个联合的 meta-system，然后对这一联合系统应用标准的约束基础因果发现算法（如 FCI、ASD），并在发现过程中显式利用两类先验知识——“系统不影响上下文”（JCI 假设 1）和“上下文与系统无混杂”（JCI 假设 2，可选）。该方法不要求事先知道干预目标或干预类型，自然地适用于多上下文、多系统变量、以及含环（cycles）的场景（在简单 SEM 子类下）。

技术基础：报告依赖 结构性因果模型（SCM） 的形式化（Bongers et al., 2020 给出的现代定义），并扩展了σ-分离（代替 d-分离）来处理环。这与当前因果推断主流（线性 DAG、潜在结果框架）有显著不同，其数学构造更为一般（但代价是直观性下降）。

关键先行工作（不确定性的标注见下）： - Pearl (2000) Causality：DAG 与 do-calculus 的奠基。 - Spirtes, Glymour & Scheines (2000) Causation, Prediction, and Search：约束基础方法。 - Bongers et al. (2020) “Foundations of structural causal models with cycles and latent variables”：提供了 SCM 的现代一般定义，以及简单 SEM 的子类。 - Cooper (1997) “A simple constraint-based algorithm for finding causal relations” / LCD 的原始论文。 - Peters, Bühlmann & Meinshausen (2016) “Causal inference using invariant prediction”：ICP。 - Hyttinen et al. (2014) “A SAT-based approach to causality”：ASD 算法。 - Forré & Mooij (2017, 2018, 2019)：σ-分离、广义 do-calculus、环下的因果发现。 - Mooij & Claassen (2020) “Consistency of FCI-JCI”: UAI 论文，证明一致性。

二、最小内核 / 一个最简例子¶

符号与模型（基于 JCI 框架的简化特例）：

符号	含义	说明
\(C\)	上下文变量（一个二值干预指示）	可观测随机变量，例如分组标识（0=对照，1=干预）
\(X\)	系统变量（单个结果变量）	可观测随机变量
\(X_C, X_X\)	内生变量集合：\(\{C, X\}\)	联合建模
\(E\)	潜在外生变量（独立扰动项）	不可观测
\(f_C, f_X\)	结构性方程（causal mechanisms）	假定 acyclic、faithful
\(G\)	因果图（有向边 + 双向边表示潜在混杂）	目标：推断边是否存在及方向
JCI 假设 1	从 X 到 C 的无向边不存在	“系统不影响上下文”
JCI 假设 2	C 与 X 之间无双向边（无混杂）	可选假设，对应 RCT 中的无混杂

最简特例：一个 RCT 场景。

可观测数据：\((C_i, X_i)\)，\(i=1,\dots,n\)。其中 \(C\) 是随机分配的干预（0/1），\(X\) 是观测到的结果。
JCI 假设：假设 1（结果不影响分组）显然成立（分组发生在结果测量之前）；假设 2（分组与结果无混杂）由随机化保证。
核心问题：能否从数据中推断出 \(C \to X\)（即分组是结果的一个原因）？
JCI 的解：将 \((C, X)\) 作为一个联合系统，应用标准约束基础方法。因为 JCI 假设固定了 C 与 X 之间没有反向边和双向边，唯一可能的图是 \(C \to X\) 或 \(C\) 与 \(X\) 无连接。如果观测到 \(C \not\perp X\)（通过独立性检验），则排除无连接的情况，从而推断 \(C \to X\)。此时因果效应等于条件概率：\(P(X \mid do(C=c)) = P(X \mid C=c)\)。
直观：JCI 把“把 C 当作随机变量来建模”等价于“把分组当作一个特征纳入联合系统”——这就是 Philip Dawid 讨论中强调的“把干预指示当作非随机节点”与 JCI 的“当作随机变量”之间的概念区别。

延伸理解：当有多个系统变量与多个上下文变量时，JCI 直接把所有变量放进一个表里，跑标准条件独立性检验，然后利用 JCI 假设来限制搜索空间。算例中，这种方法在 4 个系统 + 2 个上下文的模拟中精度远高于纯观测方法。

三、报告主体：讲者讲了什么¶

[0:00-0:26] 开场与设定 - 寒暄、介绍合作者 Sara Magliacane 和 Tom Claassen。 - 给出报告目标：JCI 是一个统一因果发现的框架。

[0:27-0:55] SCM 基础 - 定义 SCM：元组 ⟨I, J, X, E, f, P_E⟩。内生变量 X 由方程 \(X_i = f_i(X, E)\) 定义，E 是独立外生变量。 - 图表示：增强图（含 E 节点）→ 压缩为普通的因果图（只保留内生节点及有向 / 双向边）。 - 干预定义：完美干预 do(X_I = ξ_I) — 完全覆盖被干预变量的方程，其余不变。 - 例：耦合谐振子系统（[0:53-1:03]）：给出一个环的自然例子：两个质量块的平衡高度 Q1 和 Q2 互为因果，其 SCM 方程是耦合的。 - 简单 SCM 子类：在环下仍保持唯一可解性，且保留 d-分离的泛化性质（σ-分离）。 - 因果解释 + Markov 性质：d-分离→条件独立性（已知的因果推断基石）。

[1:03-1:19] 因果发现的三条路线 1. RCT：[1:03-1:07] 经典逻辑：\(C\) 随机化→\(C \not\perp X\) ⇒ \(C \to X\)；用 SCM 给出了一个证明草图（枚举可能图，排除不兼容的）。 2. 纯观测方法：[1:07-1:12] 约束基础方法（FCI 算法）、超指数级增长的搜索空间（表格列出 DAG 计数）、ASD 算法（利用 SAT 求解器）。 3. 局部因果发现（LCD）：[1:12-1:18] 用三个变量场景与额外背景知识（X_j, X_k 不造成 X_i）推断 X_j → X_k。给出了 COVID-19 口罩例子（牙医 C → 戴口罩 X → 感染 Y）。 - 讲者明确说：LCD 与工具变量法类似但不相同（允许 C 与 X 有混杂，但不允许 X 与 Y 有混杂）。

[1:19-1:30] JCI 框架核心 - 核心想法：把系统 + 上下文变量联合建模（纳入同一 SCM）。 - JCI 假设： 1. 系统不影响上下文（无向边从 X_i 到 C_k）； 2. 系统与上下文无混杂（无双向边连接 X_i 与 C_k）。 3. 假设 1 通常易满足，假设 2 可选。 - 操作方法：对汇总数据（pooled data，含上下文变量）运行标准约束基础算法，并利用 JCI 假设（作为背景知识）来约束搜索空间。 - 统一视角：声称 RCT（1 context, 1 system）、LCD（1 context, ≥2 systems）、ICP（1 context, ≥2 systems）、纯观测（0 contexts）都是 JCI 的特例。

[1:30-1:35] 模拟结果 - 4个系统变量 + 2个上下文变量的随机 SCM。JCI 方法（ASD-JCI、FCI-JCI）的精度-召回率远高于纯观测方法（ASD-obs、FCI-obs）。 - 更重要的是：增加上下文数量（从 0 到 5）带来的帮助远大于增加观测样本量——表明扰动系统是理解系统的关键。

[1:35-1:38] 一致性理论 - 定理（来自 Mooij & Claassen 2020, UAI）：在标准假设下，FCI-JCI 提供对 directed PAG 的一致估计，进而可一致地推断：有无（间接）因果边、有无混杂、有无直接边；在 JCI 假设 1+2 下还可一致推断干预目标与非目标。

[1:38-1:41] 扩展到环 - 简单 SEM 子类保留了所有便利属性（泛化 Markov 性质 / do-calculus），且 JCI 框架直接适用，现有算法（RCT/ASD/LCD/ICP/FCI/ASD-JCI/FCI-JCI）可轻易迁移。

[1:41-1:50] 真实数据验证 - 蛋白质信号数据（Sachs et al., 2005）：11个蛋白 + 8个上下文（1个观测 + 7个干预）。FCI-JCI 恢复了比纯观测 FCI 更合理的网络，并成功推断出干预目标（如 Psitectorigenin → PIP2），与已知生物学知识一致。 - 酵母基因敲除数据（Meinshausen et al., 2016）：6500 个系统变量 + 1500 个插值上下文（单基因敲除）+ 1 个观测上下文（260 样本）。应用 ICP 和高维版 LCD 来预测未观测过的敲除效应：ROC 曲线显示远优于随机（第一个大规模验证了纯观测因果发现的可行性）。

[1:50-1:54] 总结 - JCI 不需要事先知道干预目标或类型；利用实验数据的强信号；已催生新算法；适用于环。

讨论（Philip Dawid）：

[0:48-1:04] 讨论内容 - Dawid 的核心批评：不认可 SCM 的必要性。他认为只需要一个概率 DAG + 模块性/不变性假设（即条件分布在不同上下文中不变），即可进行相同的联合因果推断；这样可避免 SCM 中的“误差项”这种他觉得很模糊的实体。 - 他提出一种替代图表示：“增广”DAG——将干预/上下文指示变量以方形节点加入，作为非随机节点；然后利用 extended conditional independence（混合随机+非随机）来编码模块性假设。他认为这比 SCM 更透明、更易批评。

讲者的回应（〜[3:41]后）： - Mooij 基本同意 CIs 足够，但辩护选用 SCM 的理由是：它可以统一地处理环和潜在混杂。尤其对于“非随机上下文变量与系统变量之间的潜在混杂”，他一时想不出在 Dawid 的框架下如何处理。 - 他认为可以将上下文变量当作随机变量处理——因为“实际收集数据时，总有一些机制（可随机或不随机）决定了上下文的选择”，这样可直接利用标准概率论，而不需要 extended CI。

四、对应论文与开放问题¶

对应论文（有依据，但仍有不确定性）： 1. Mooij, J.M., Magliacane, S., & Claassen, T. (2020). “Joint Causal Inference: A Unifying Perspective on Causal Discovery.” Journal of Machine Learning Research, 21(135):1–53. [讲者明确提及 JMLR 论文] 2. Mooij, J.M. & Claassen, T. (2020). “Consistency of FCI-JCI: A unified approach to causal discovery in the presence of multiple experimental contexts.” Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence (UAI). [讲者明确提及 UAI 论文] 3. Bongers, S., Forré, P., Peters, J., & Mooij, J.M. (2020). “Foundations of structural causal models with cycles and latent variables.” Annals of Statistics. [讲者引用 Bongers et al. (2020)] 4. Forré, P. & Mooij, J.M. (2017). “σ-separation: A general Markov property for structural causal models with cycles.” UAI. [幻灯片引用] 5. Forré, P. & Mooij, J.M. (2019). “Identification of causal effects in cyclic models.” UAI. [幻灯片引用]

开放问题（每条扎根在转写）： 1. 如何处理非随机上下文变量与系统变量之间的潜在混杂？ [Dawid 讨论中提出：如果用非随机节点表示上下文，那么无混杂假设不易编码；讲者也承认这对他的框架是个挑战。] 2. JCI 假设 2（上下文与系统无混杂）在实际应用中是否可检验或可放松？ [讲者在[0:34:30-0:34:40]中指出该假设“can be harder to justify”，但未给出检验或放松方法。] 3. 在高维系统（p >> n）下，JCI 的适用性如何？ [虽然讲者在基因数据中展示了 p=6500 的结果（仅用了 ICP 和 LCD 子类），但未讨论完全 JCI（ASD-JCI/FCI-JCI）在高维下的计算可行性或统计一致性。] 4. 环下的因果发现：σ-分离相关的条件独立性检验在实际中如何实现？ [讲者只是说“一切可扩展到简单 SEM”，但未给出具体检验方法。CIs 测试在非 acyclic 图上可能更复杂。] 5. 在缺乏足够多样性上下文时（例如只有一个观测 + 一个干预上下文），JCI 是否能比传统 DAG 方法提供额外的识别力？ [模拟中展示的都是 2+ 上下文场景，但许多真实应用只有 2 个上下文（control vs treatment）。罗列性讨论，不做判断。]

Maintained by 陈星宇 · Homepage · Source on GitHub

Joint Causal Inference: A Unifying Perspective on Causal Discovery¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论