跳转至

Joint Causal Inference: A Unifying Perspective on Causal Discovery

讲者: Joris Mooij
讨论人: Philip Dawid
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-08
主题: 因果推断
视频: https://www.youtube.com/watch?v=NgxQkFwve70 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

方向定位:这场报告位于因果发现(causal discovery) 这个子领域——即从数据出发推断变量之间的因果图(是否存在边、边的方向、是否存在潜在混杂)。这个方向的基础问题是:在仅观测到系统变量(如基因表达、经济指标)的前提下,能否重建出背后的因果结构?经典奠基工作包括 Pearl (2000) 的 DAG 与 do-calculus、Spirtes, Glymour & Scheines (2000) 的约束基础方法(PC、FCI 等)、以及 Cooper (1997) 的局部因果发现(LCD)。

主流路线: - 纯观测方法:只利用单一条件下的观测数据,通过条件独立性检验 + 忠实性假设来约束可能的图。这个方向的主要瓶颈是可识别性弱:即使样本无限大,也只能将因果图确定为一个 Markov 等价类;而且对潜在混杂的处理非常有限(例如 FCI 可输出 PAG,但代价高昂)。 - 实验方法:利用随机对照试验(RCT)或准实验设计(IV 等)来直接锁定边缘方向。RCT 是黄金标准,但实验成本高、伦理限制多。 - 结合多来源数据的统一框架:近年来兴起的方向,典型工作包括 Invariant Causal Prediction(ICP, Peters et al., 2016)等。

JCI 站在哪里:Mooij 等人提出的 Joint Causal Inference (JCI) 试图将 RCT、LCD、ICP 以及纯观测方法统一在一个框架下。其核心洞见是:将系统变量和上下文变量(如干预指派 / 分组指示 / 时间戳)建模为一个联合的 meta-system,然后对这一联合系统应用标准的约束基础因果发现算法(如 FCI、ASD),并在发现过程中显式利用两类先验知识——“系统不影响上下文”(JCI 假设 1)和“上下文与系统无混杂”(JCI 假设 2,可选)。该方法不要求事先知道干预目标或干预类型,自然地适用于多上下文、多系统变量、以及含环(cycles)的场景(在简单 SEM 子类下)。

技术基础:报告依赖 结构性因果模型(SCM) 的形式化(Bongers et al., 2020 给出的现代定义),并扩展了σ-分离(代替 d-分离)来处理环。这与当前因果推断主流(线性 DAG、潜在结果框架)有显著不同,其数学构造更为一般(但代价是直观性下降)。

关键先行工作(不确定性的标注见下): - Pearl (2000) Causality:DAG 与 do-calculus 的奠基。 - Spirtes, Glymour & Scheines (2000) Causation, Prediction, and Search:约束基础方法。 - Bongers et al. (2020) “Foundations of structural causal models with cycles and latent variables”:提供了 SCM 的现代一般定义,以及简单 SEM 的子类。 - Cooper (1997) “A simple constraint-based algorithm for finding causal relations” / LCD 的原始论文。 - Peters, Bühlmann & Meinshausen (2016) “Causal inference using invariant prediction”:ICP。 - Hyttinen et al. (2014) “A SAT-based approach to causality”:ASD 算法。 - Forré & Mooij (2017, 2018, 2019):σ-分离、广义 do-calculus、环下的因果发现。 - Mooij & Claassen (2020) “Consistency of FCI-JCI”: UAI 论文,证明一致性。


二、最小内核 / 一个最简例子

符号与模型(基于 JCI 框架的简化特例):

符号 含义 说明
\(C\) 上下文变量(一个二值干预指示) 可观测随机变量,例如分组标识(0=对照,1=干预)
\(X\) 系统变量(单个结果变量) 可观测随机变量
\(X_C, X_X\) 内生变量集合:\(\{C, X\}\) 联合建模
\(E\) 潜在外生变量(独立扰动项) 不可观测
\(f_C, f_X\) 结构性方程(causal mechanisms) 假定 acyclic、faithful
\(G\) 因果图(有向边 + 双向边表示潜在混杂) 目标:推断边是否存在及方向
JCI 假设 1 从 X 到 C 的无向边不存在 “系统不影响上下文”
JCI 假设 2 C 与 X 之间无双向边(无混杂) 可选假设,对应 RCT 中的无混杂

最简特例:一个 RCT 场景。

  1. 可观测数据\((C_i, X_i)\)\(i=1,\dots,n\)。其中 \(C\) 是随机分配的干预(0/1),\(X\) 是观测到的结果。
  2. JCI 假设:假设 1(结果不影响分组)显然成立(分组发生在结果测量之前);假设 2(分组与结果无混杂)由随机化保证。
  3. 核心问题:能否从数据中推断出 \(C \to X\)(即分组是结果的一个原因)?
  4. JCI 的解:将 \((C, X)\) 作为一个联合系统,应用标准约束基础方法。因为 JCI 假设固定了 C 与 X 之间没有反向边和双向边,唯一可能的图是 \(C \to X\)\(C\)\(X\) 无连接。如果观测到 \(C \not\perp X\)(通过独立性检验),则排除无连接的情况,从而推断 \(C \to X\)。此时因果效应等于条件概率:\(P(X \mid do(C=c)) = P(X \mid C=c)\)
  5. 直观:JCI 把“把 C 当作随机变量来建模”等价于“把分组当作一个特征纳入联合系统”——这就是 Philip Dawid 讨论中强调的“把干预指示当作非随机节点”与 JCI 的“当作随机变量”之间的概念区别。

延伸理解:当有多个系统变量与多个上下文变量时,JCI 直接把所有变量放进一个表里,跑标准条件独立性检验,然后利用 JCI 假设来限制搜索空间。算例中,这种方法在 4 个系统 + 2 个上下文的模拟中精度远高于纯观测方法。


三、报告主体:讲者讲了什么

[0:00-0:26] 开场与设定 - 寒暄、介绍合作者 Sara Magliacane 和 Tom Claassen。 - 给出报告目标:JCI 是一个统一因果发现的框架。

[0:27-0:55] SCM 基础 - 定义 SCM:元组 ⟨I, J, X, E, f, P_E⟩。内生变量 X 由方程 \(X_i = f_i(X, E)\) 定义,E 是独立外生变量。 - 图表示:增强图(含 E 节点)→ 压缩为普通的因果图(只保留内生节点及有向 / 双向边)。 - 干预定义:完美干预 do(X_I = ξ_I) — 完全覆盖被干预变量的方程,其余不变。 - 例:耦合谐振子系统([0:53-1:03]):给出一个的自然例子:两个质量块的平衡高度 Q1 和 Q2 互为因果,其 SCM 方程是耦合的。 - 简单 SCM 子类:在环下仍保持唯一可解性,且保留 d-分离的泛化性质(σ-分离)。 - 因果解释 + Markov 性质:d-分离→条件独立性(已知的因果推断基石)。

[1:03-1:19] 因果发现的三条路线 1. RCT:[1:03-1:07] 经典逻辑:\(C\) 随机化→\(C \not\perp X\)\(C \to X\);用 SCM 给出了一个证明草图(枚举可能图,排除不兼容的)。 2. 纯观测方法:[1:07-1:12] 约束基础方法(FCI 算法)、超指数级增长的搜索空间(表格列出 DAG 计数)、ASD 算法(利用 SAT 求解器)。 3. 局部因果发现(LCD):[1:12-1:18] 用三个变量场景与额外背景知识(X_j, X_k 不造成 X_i)推断 X_j → X_k。给出了 COVID-19 口罩例子(牙医 C → 戴口罩 X → 感染 Y)。 - 讲者明确说:LCD 与工具变量法类似但不相同(允许 C 与 X 有混杂,但不允许 X 与 Y 有混杂)。

[1:19-1:30] JCI 框架核心 - 核心想法:把系统 + 上下文变量联合建模(纳入同一 SCM)。 - JCI 假设: 1. 系统不影响上下文(无向边从 X_i 到 C_k); 2. 系统与上下文无混杂(无双向边连接 X_i 与 C_k)。 3. 假设 1 通常易满足,假设 2 可选。 - 操作方法:对汇总数据(pooled data,含上下文变量)运行标准约束基础算法,并利用 JCI 假设(作为背景知识)来约束搜索空间。 - 统一视角:声称 RCT(1 context, 1 system)、LCD(1 context, ≥2 systems)、ICP(1 context, ≥2 systems)、纯观测(0 contexts)都是 JCI 的特例。

[1:30-1:35] 模拟结果 - 4个系统变量 + 2个上下文变量的随机 SCM。JCI 方法(ASD-JCI、FCI-JCI)的精度-召回率远高于纯观测方法(ASD-obs、FCI-obs)。 - 更重要的是:增加上下文数量(从 0 到 5)带来的帮助远大于增加观测样本量——表明扰动系统是理解系统的关键

[1:35-1:38] 一致性理论 - 定理(来自 Mooij & Claassen 2020, UAI):在标准假设下,FCI-JCI 提供对 directed PAG 的一致估计,进而可一致地推断:有无(间接)因果边、有无混杂、有无直接边;在 JCI 假设 1+2 下还可一致推断干预目标与非目标。

[1:38-1:41] 扩展到环 - 简单 SEM 子类保留了所有便利属性(泛化 Markov 性质 / do-calculus),且 JCI 框架直接适用,现有算法(RCT/ASD/LCD/ICP/FCI/ASD-JCI/FCI-JCI)可轻易迁移。

[1:41-1:50] 真实数据验证 - 蛋白质信号数据(Sachs et al., 2005):11个蛋白 + 8个上下文(1个观测 + 7个干预)。FCI-JCI 恢复了比纯观测 FCI 更合理的网络,并成功推断出干预目标(如 Psitectorigenin → PIP2),与已知生物学知识一致。 - 酵母基因敲除数据(Meinshausen et al., 2016):6500 个系统变量 + 1500 个插值上下文(单基因敲除)+ 1 个观测上下文(260 样本)。应用 ICP 和高维版 LCD 来预测未观测过的敲除效应:ROC 曲线显示远优于随机(第一个大规模验证了纯观测因果发现的可行性)。

[1:50-1:54] 总结 - JCI 不需要事先知道干预目标或类型;利用实验数据的强信号;已催生新算法;适用于环。

讨论(Philip Dawid)

[0:48-1:04] 讨论内容 - Dawid 的核心批评:不认可 SCM 的必要性。他认为只需要一个概率 DAG + 模块性/不变性假设(即条件分布在不同上下文中不变),即可进行相同的联合因果推断;这样可避免 SCM 中的“误差项”这种他觉得很模糊的实体。 - 他提出一种替代图表示:“增广”DAG——将干预/上下文指示变量方形节点加入,作为非随机节点;然后利用 extended conditional independence(混合随机+非随机)来编码模块性假设。他认为这比 SCM 更透明、更易批评。

讲者的回应(〜[3:41]后): - Mooij 基本同意 CIs 足够,但辩护选用 SCM 的理由是:它可以统一地处理潜在混杂。尤其对于“非随机上下文变量与系统变量之间的潜在混杂”,他一时想不出在 Dawid 的框架下如何处理。 - 他认为可以将上下文变量当作随机变量处理——因为“实际收集数据时,总有一些机制(可随机或不随机)决定了上下文的选择”,这样可直接利用标准概率论,而不需要 extended CI。


四、对应论文与开放问题

对应论文(有依据,但仍有不确定性): 1. Mooij, J.M., Magliacane, S., & Claassen, T. (2020). “Joint Causal Inference: A Unifying Perspective on Causal Discovery.” Journal of Machine Learning Research, 21(135):1–53. [讲者明确提及 JMLR 论文] 2. Mooij, J.M. & Claassen, T. (2020). “Consistency of FCI-JCI: A unified approach to causal discovery in the presence of multiple experimental contexts.” Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence (UAI). [讲者明确提及 UAI 论文] 3. Bongers, S., Forré, P., Peters, J., & Mooij, J.M. (2020). “Foundations of structural causal models with cycles and latent variables.” Annals of Statistics. [讲者引用 Bongers et al. (2020)] 4. Forré, P. & Mooij, J.M. (2017). “σ-separation: A general Markov property for structural causal models with cycles.” UAI. [幻灯片引用] 5. Forré, P. & Mooij, J.M. (2019). “Identification of causal effects in cyclic models.” UAI. [幻灯片引用]

开放问题(每条扎根在转写): 1. 如何处理非随机上下文变量与系统变量之间的潜在混杂? [Dawid 讨论中提出:如果用非随机节点表示上下文,那么无混杂假设不易编码;讲者也承认这对他的框架是个挑战。] 2. JCI 假设 2(上下文与系统无混杂)在实际应用中是否可检验或可放松? [讲者在[0:34:30-0:34:40]中指出该假设“can be harder to justify”,但未给出检验或放松方法。] 3. 在高维系统(p >> n)下,JCI 的适用性如何? [虽然讲者在基因数据中展示了 p=6500 的结果(仅用了 ICP 和 LCD 子类),但未讨论完全 JCI(ASD-JCI/FCI-JCI)在高维下的计算可行性或统计一致性。] 4. 环下的因果发现:σ-分离相关的条件独立性检验在实际中如何实现? [讲者只是说“一切可扩展到简单 SEM”,但未给出具体检验方法。CIs 测试在非 acyclic 图上可能更复杂。] 5. 在缺乏足够多样性上下文时(例如只有一个观测 + 一个干预上下文),JCI 是否能比传统 DAG 方法提供额外的识别力? [模拟中展示的都是 2+ 上下文场景,但许多真实应用只有 2 个上下文(control vs treatment)。罗列性讨论,不做判断。]


Maintained by 陈星宇 · Homepage · Source on GitHub

评论