跳转至

Causal Inference as a Logical Problem

讲者: Thomas Icard
讨论人: Jiji Zhang
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-04-07
主题: 因果推断
视频: https://youtu.be/bHXGL9UlevA · 幻灯片

官方摘要:The goal of this talk will be to show how problems of causal inference can be usefully and precisely understood as logical problems. Adapting tools and concepts from mathematical and computational logic affords new perspectives, raises new questions, and sheds light on some practical and theoretical issues in causal inference. We illustrate with several examples, including some ways in which a logical lens can help clarify the empirical status of assumptions sufficient to bridge gaps between limited data and substantive causal conclusions.

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告的工作线是用数理逻辑(模型论与证明论)的核心概念——可公理化性 (axiomatization) 与可定义性 (definability)——重新审视与刻画因果推断中的识别(identification)问题。它不是提供一个新的因果估计量或算法,而是为已有的因果推理(如 front-door、LATE、do-calculus)提供一个统一的逻辑句法与语义框架,从而揭示因果推断问题本质上是“在给定假设+数据(作为前提)下,因果结论是否必然成立(作为逻辑后承)”的问题。

子方向定位:这项工作属于“因果推断的形式化基础”,与以下路线交织: - 经典因果推理形式化:Pearl (2009) 的 do-calculus、Galles & Pearl (1998) 的 SCM 公理化、Halpern (1998) 的因果逻辑。Icard 的工作直接建立在这些之上,并系统地将 Rubin 因果模型也纳入同一个逻辑框架。 - 因果分层 (causal hierarchy):Bareinboim 等人 (2020, 2022) 提出的“三个层级”——关联(association)、干预(intervention)、反事实(counterfactual)。Icard 用 L1/L2/L3 这种语法层次正式刻画了它,并证明“几乎处处不可还原”(collapse set 为测度零 / 无处稠密),这是对 Hume 式怀疑论的一种精确逻辑表达。 - 框架比较:Rubin 因果模型 vs. Structural Causal Models(SCM)。许多工作探讨两者关系(如 Richardson & Robins 2013 的 SWIGs),但 Icard 和合作者(Ibeling)严格证明了:Rubin 模型可被 SCM 表示当且仅当它满足 Composition 与 Reversibility 两条公理([0:22:02]–[0:24:12])。同时,每个 Rubin 模型都是某个可表示模型的“精化”(coarsening),这暗示违反这些公理的模型本质上可能是粗粒化造成的表象。 - 逻辑中的概率逻辑 (probability logic):将 Tarski 关于实数理论的完备性定理(实闭域理论)搬来作为概率推理的底层。这不新奇,但 Icard 明确用这套工具来完成对因果语言(L1, L2, L3)的完备公理化。

与用户兴趣的交叉:用户对因果推断的识别理论(identification)、半参数理论较为熟悉,这工作虽非统计性(不涉及估计与推断),但它在逻辑层面厘清了“什么可以被识别(作为逻辑后承)”这个根本问题,其结论(如 L2 → L3 几乎处处不可还原)对用户设计识别策略、理解“需要多少额外假设才能识别反事实”有启示。


二、最小内核 / 一个最简例子

核心思想:因果推断可以看作 “在给定的形式语言中,一组假设(+数据)是否能逻辑地蕴含一个因果结论”。这相当于在问:是否存在任何可能的世界(模型),使得假设与数据都成立但结论不成立?如果不存在,结论就是“被识别”的。

最简例子:考虑最简单的二值处理(X ∈ {0,1})与二值结果(Y ∈ {0,1}),无混淆。我们想说“平均处理效应 (ATE) 可由观察数据识别”。

  • 可观测数据:P(X, Y) —— 联合分布。

  • 目标:E[Y_{x=1} - Y_{x=0}] = θ (因果 estimand)。

  • 假设:Y_{x} ⟂⟂ X (无混淆 / 无隐藏 confounder)。这个假设是一个因果陈述,不是纯观察的。

  • 逻辑表述

  • 语言 L2 中有符号 P(Y_x = y)。
  • 假设用 L2 公式表示:P(Y_x = y | X = x') = P(Y_x = y) (对所有 x, x', y)。
  • 数据用 L1 公式表示:P(Y=y, X=x) = p_obs(y,x)。
  • 结论(识别公式):P(Y_{x=1}=y) = ∑_{x} P(Y=y | X=x) P(X=x) 等等。

  • 核心逻辑事实:无混淆假设 + 观察数据 → 逻辑上蕴含 E[Y_1] 的计算公式。这就是识别 = 逻辑蕴涵

为什么这有益:它把一个统计识别问题转化为了“在一个形式逻辑系统中,一个目标术语能否由一组前提术语定义”的问题,并对语言(L1, L2, L3)的分层给出清晰刻画:L1 永远不足以唯一确定 L2,L2 几乎总是不足以唯一确定 L3。


三、报告主体:讲者讲了什么

[0:00:00–0:01:01] 开场与悼念 Joe Halpern(1953–2026),他是因果逻辑领域的奠基人之一。

[0:01:01–0:03:40] 背景:逻辑的两个核心问题,以及经典数理结构中的实例。 - 逻辑研究的是形式语言与数学结构之间的关系。 - 两个关键问题: 1. 可公理化性 (Axiomatization):该领域的推理能否被一组有限的、完备的公理捕捉? 2. 可定义性 (Definability):给定一种语言,我们能在该结构中“定义”出哪些子集 / 概念? - 举例:实数 R 的一阶理论 - Tarski (1936):R 可被完全公理化——有序域公理 + “每个正数有平方根” + “每个奇次多项式有根”。方法(Tarski–Seidenberg 定理):半代数集在投影下封闭。 - 对比:自然数 N 的一阶理论 - Gödel (1931):不可公理化(不完备定理)。但 Gödel 用 + 和 × 定义了指数,进而可定义可计算序列(算术化语法)→ 自指 → 不完备。 - Robinson (1948):N 可在 Q(有理数)中定义 → Q 也不可公理化。 - 箭头:逻辑不仅研究数,也研究拓扑、图、程序、概率空间等结构。

[0:10:59–0:13:30] 因果推断作为逻辑问题的结构图。 - 核心图式:Assumptions + Data ⊢ Causal Conclusion。 - “⊢”是逻辑后承关系:任何同时满足假设与数据的“因果模型(数学结构)”,也必须满足结论。 - 例子种类:因果效应 bounds、因果方向、反事实概率等;数据类型:观察、实验、准实验;假设类型:函数形式、图形结构、噪声分布等。

[0:13:59–0:15:54] 两个经典例子展示这种结构: - 前门准则 (Front-door) (Pearl 1995):给定 front-door 图结构(→ 某些概率等式成立,如 P(x_z) = P(x), P(z_x)=P(z|x), 等等),观察数据可识别因果效应 E[Y_x - Y_{x'}]。 - 局部平均处理效应 (LATE) (Angrist & Imbens 1994):给定排他性约束、单调性,加上准实验数据,LATE = ITT₁ / ITT₂ 可被识别。 - 讲者强调:这些“识别”都是逻辑蕴涵,是最强意义上的必然性,而非统计推断中的一致性。

[0:16:34–0:18:35] 建立形式语言(语法)。 - 语法层级: - α ::= Y_x = y | ¬α | α ∧ α (反事实原子 + 布尔组合) - t ::= P(α) | t + t | t × t (概率项 + 多项式) - φ ::= t ≥ t | ¬φ | φ ∧ φ (不等式 + 布尔组合) - 这是一阶型的语言(无量词,但概率 + 多项式可达 Tarski 的实闭域力量)。

[0:18:35–0:21:08] 两种语义框架: - Rubin 因果模型(RCM):⟨U, V, O, F, P⟩,U 为单位集,V 为变量,O 为所有潜在结果,F 为每个 Y_x 分配一个函数 f: U → Val(Y),P 为 U 上的概率。P(α) 为 α 下集合的推前测度。 - 结构因果模型(SCM):⟨U, V, F, P⟩,U 外生变量,V 内生变量,F 为每个 V 的结构方程(函数),P 为外生分布。潜在结果由“干预”(将方程替换为常数)定义。 - 两种框架都解释同一形式语言 → 自然引出问题:“对于同一个‘理论’,这两个框架在逻辑上是等价描述吗?”

[0:22:02–0:24:12] 框架比较:表示定理 (Representation Theorem)。 - 定理 (基于 Galles & Pearl 1998, Halpern 1998):一个 Rubin 因果模型可被某个 SCM“表示”(即:二者在潜在结果概率上完全一致),当且仅当它(扩展后)满足两条公理: - Composition (组合):y_w ∧ z_w → z_{w,y}(如果你干预 w 实现 y 且干预 w 实现 z,那么干预 w 与 y·后仍实现 z)。 - Reversibility (可逆性):y_{w,z} ∧ z_{w,y} → y_w(反事实依赖的“方向不可逆”)。 - 核心修正:两种模型都可被完全公理化:在概率逻辑(实闭域)基础上加上这两条(对 SCM)或仅用概率逻辑(无假设的 Rubin 模型)。

[0:24:12–0:26:26] 组合公理的例子:LATE 识别依赖于假设组合公理。 - Ibeling & Icard (NeurIPS 2023):LATE = ITT₁ / ITT₂ 这个经典识别式,需要有组合公理在背景下成立;无此公理时,即使单调性 + 排他性成立,也可能有反例。 - 精化定理:每个不满足 composition / reversibility 的 Rubin 模型,其实是某个满足它们的模型在变量集上的粗化(abstraction)。换言之,违反这两条公理可能是“粒度不够细”的表现,而非因果结构本身的特质。

[0:26:26–0:29:00] 暂停 & 第一个 Q&A(关于“因果作为数学子领域”的问题)。讲者回应:20世纪完成了因果的数学化,这允许精密的数学分析,但这仍是一个既关于世界又可以用数学研究的领域。

[0:29:02–0:34:00] 可定义性与因果层级 (L1 / L2 / L3) 的逻辑刻画。 - 嵌套反事实(如 P(Y_{z}, X_{z}=y))可以用基础语言中的布尔组合 + 求和重新定义 → 语言本身没有因此增强,([0:30:03–0:31:22])。 - 但可以考察更弱(而非更强)的语言: - L1:α 限于 Y=y(布尔组合);只有观察分布。 - L2:α 限于 Y_x = y(原子反事实);允许干预分布,但无反事实布尔组合。 - L3:α 可以是一般布尔组合的反事实;全语言。 - 这对应 Pearl 的因果层级(关联 → 干预 → 反事实)。 - 核心关心:L_i 假设 + L_i 数据 ⊢ L_{i+1} 结论?这即层级之间的可还原性(collapse)。

[0:34:00–0:39:17] 层级间的坍塌集 (collapse set) 定理。 - L2 → L1 的空集 (Bareinboim, Correa, Ibeling, & I. 2022):L1 永远无法确定 L2(纯 Hume 式结论,形式化:collapse set = ∅)。 - L3 → L2 的极小集: - 测度零(任意光滑测度下)([0:38:10]–[0:38:18]) - 无处稠密(拓扑学意义上)([0:38:18]–[0:38:24]) - 结论:用所有可能的干预实验(L2),几乎总不足以唯一确定全部反事实(L3)—— 但反例非常罕见,属于 measure zero / nowhere dense 集合。 - 讲者将“可识别性”直接等同于“L_i 定义 L_{i+1} 中的某个等级”——这是逻辑层面上的 identifiability。

[0:39:28–0:43:21] 图的逻辑:L₁(G) 的公理化与开放问题。 - 对于固定 DAG G(仅考虑 Markovian SCM),定义 L_i(G) 为所有 L_i 公式中在 G 上有效的那些句子。 - 命题:L₁(G) 可被“概率逻辑 + 所有由 d-分离蕴含的条件独立语句”完全公理化([0:40:51]–[0:41:39])(经典结果,Geiger 等人)。 - 开放问题包括: - 非 Markovian 图 / ADMG 的 L₁、L₂、L₃ 理论是否有类似 completeness? - L₂ 理论中,do-calculus 是否已经完备?(可能,但未证明)([0:42:40]–[0:43:05]) - L₃(图) 理论:反事实层级如何被图结构公理化?

[0:43:21–0:45:28] 总结:成功将已知因果推理结果重铸为逻辑问题;既产生正面的完备公理化,也给出负面的不可还原性(L2→L3 几乎处处不可能),这正是逻辑最擅长的。并预告了与解释性(abstraction, neural network analysis)的交叉。

[0:45:28–1:02:00] 讨论环节(Jiji Zhang):主要集中在 Rubin vs. SCM 比较,特别是 composition、reversibility 的角色,以及精化定理的含义。(详见第四部分问题)


四、对应论文与开放问题

对应论文(按时间提及顺序、可信度递减排列): - 核心工作(框架比较 + L3 坍塌集):Bareinboim, Correa, Ibeling, & Icard. "On Pearl’s Hierarchy and the Foundations of Causal Inference." 据转写提到 NeurIPS 2022;具体标题待查(arXiv:可信来源)。
→ 另见 Ibeling & Icard (2021). "Collapse of the Causal Hierarchy." 在转写 [0:36:00–0:38:55] 和幻灯片中被多次提及。 - Rubin vs. SCM 表示定理 + LATE 依赖 composition:Ibeling & Icard, NeurIPS 2023(标题待查,可能为 "Composition Matters ...")。 - 关于复杂性的工作:Julian Derler (德国博士论文),提到求和算子对复杂度的影响([1:01:00]–[1:04:23])。未给出论文名。 - 幻灯片还提到了 Galles & Pearl (1998), Halpern (1998) 作为公理化基础,以及 Spirtes, Glymour, Scheines (1993) 的图模型经典工作。

开放问题(扎根在转写,仅罗列): 1. L₂(图) 的完备公理化:do-calculus 对于决定 L₂ 理论是否完备?(“[0:42:40]–[0:43:05] 一个自然问题,我不知答……但似乎是合理猜想”) 2. 非 Markovian 模型 / ADMGs 的 L₁、L₂、L₃ 理论:已知 Markovian DAG 的 L₁ 公理是 d-分离条件独立;但“非 Markovian?” “ADMGs?” “L₃(G)?”(幻灯片末尾列出,[0:41:28]–[0:43:05])。 3. Rubin 模型违反 composition/reversibility 的精化定理的解释地位:Jiji Zhang 问“这个精化结果到底意味着什么?” Icard 答“暗示违反可能是粗粒化造成,但如何在这个意义上确凿使用它?我不确定”([0:58:28]–[0:59:11])。 4. 提高复杂度下界的实际自动化应用:有听众问“这个公理化能否用于自动发现新结果?” Icard 回答含有求和算子时复杂性 > NP,需要更大努力来实用化([1:01:00]–[1:04:12])。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论