A Measure-Theoretic Axiomatisation of Causality¶
讲者: Krikamol Muandet
讨论人: Ricardo Silva - Q&A moderator: Junhyung Park
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-26
主题: 因果推断
视频: https://youtu.be/uiFdGZcKbSY · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2305.17139 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这条工作线追问的是:因果关系的底层数学结构是什么? 能否像 Kolmogorov 公理化概率论那样,给出一个同样严谨、普遍适用的因果性公理体系?
主流路线:当前因果推断的实践几乎完全建立在两个框架之上——(a) 结构因果模型 (SCM, Pearl) ——通过有向无环图和结构方程 X_i = f_i(PA_i, U_i) 编码因果机制,其出发点是有向图 + 结构方程 + 外生噪声分布,观测分布和干预分布都由这些原始对象推导而来;(b) 潜在结果框架 (Neyman-Rubin) ——核心是单位水平的反事实变量和分配机制。
这些框架的基石:它们都预设了有限个的随机变量/处理水平,且(在标准形式下)要求无循环 (acyclic) 和无连续时间/不可数索引集。DAG-based SCM 将因果信息编码为“系统如何影响子系统”(即每个变量的父节点通过结构方程决定该变量)。
这场报告站在哪里:它回到比 SCM 更底层的地方——概率空间 (Ω, H, P)——作为起点,然后通过一个额外的结构——一族“转移概率核”(causal kernels)——将干预能力直接植入概率空间本身。这是一种“自底向上”的公理化:将观测分布 P 和干预机制 K 都视为原始对象,而不是从结构方程推导出来。报告称得到的结构为因果空间 (causal space)。
奠基与关键相关工作:报告明示以 Kolmogorov (1933) 的概率论公理化为出发点;晚近的类似尝试包括 Constantinou & Dawid (2017, arXiv) 等人提出的“干预变量与条件独立性”语法体系(Ricardo Silva 在讨论中提到了这一点,[~0:47:30]),以及 Dawid (2007, 2010) 的 decision-theoretic causality (将因果推理还原为基于决策变量的情形条件独立性)。因果空间与这些工作的核心区别在于:它的原始对象是转移核族,而不是变量级的条件独立性陈述。这在处理循环关系和连续时间随机过程时具有形式上的优势(见第三节例)。
准备好的读者:如果对 Kolmogorov 概率论(尤其是转移核、条件分布的正规测度论定义)感到舒适,那么这篇的核心定义就不难理解。报告的主要贡献在概念/基础层面,而非算法或计算层面。
二、最小内核 / 一个最简例子¶
2.1 符号与模型设定¶
- 索引集
T:报告用一个任意集合T来标记系统的“组成部分”。它可以是一个有限集(对应有限个随机变量),也可以是一个连续时间轴。整个系统对应的可测空间是乘积空间:Ω = ×_{t∈T} E_t(每个E_t是一个可测空间,例如R),H = ⊗_{t∈T} E_t(乘积 σ‑代数)。
- 子 σ‑代数
H_S:对应于S ⊆ T的、H的子 σ‑代数。直觉上,H_S就是系统中由S这部分变量所能生成的所有事件的集合。 - 转移概率核
K_S : (Ω, H_S) → (Ω, H):- 对于每个
x ∈ Ω,K_S(x, ·)是(Ω, H)上的一个概率测度。 - 对于每个固定的事件
A ∈ H,x ↦ K_S(x, A)是H_S-可测的。 - 直觉:
K_S描述了已知子系统S的状态为x时,整个系统Ω的概率分布。它类似于“条件分布”,但注意它是原始对象,不一定等于由P导出的条件概率。
- 对于每个
2.2 因果空间的定义 (Causal Space)¶
一个因果空间是一个四元组 (Ω, H, P, K):
1. (Ω, H, P) 是一个概率空间(这里的 P = 观测分布 P_obs);
2. K = { K_S : S ∈ P(T) } 是一个因果核族,每个 K_S 是如上定义的转移概率核,且满足两条公理:
- 公理 1 (平凡干预): 对于所有 A∈H 和 x∈Ω,K_∅(x, A) = P(A)。 ——干预空集等于不干预,变回观测分布。
- 公理 2 (一致性): 对于所有 A∈H_S 和 x∈Ω,K_S(x, A) = 1_A(x)。 ——如果只看被干预的子系统 S 内部的事件,因果核给出的概率就是“x 已经处于那个状态”的确证(即事情真的发生了)。
2.3 最简特例:两个二值变量,无循环¶
- 设定:
T = {X, Y},E_X = E_Y = {0,1},Ω = {0,1}×{0,1},H为幂集。观测概率P任意(比如P(0,0)=0.25,等等)。 - 因果核:我们想编码“X 是 Y 的原因,而 Y 不是 X 的原因”。
- 自然的方法:
K_X(x, A) = 1_{x ∈ A_X} · P_Y|X=x(A_Y)。即在固定X为某值后,Y以P(Y | X=x)分布变化。 K_Y(y, A) = P(A)(因为Y不导致X,干预Y不影响X,所以回到观测分布P)。
- 自然的方法:
- 干预(报告关键): 要干预“固定
X=1”:- 选择子 σ‑代数
H_U,对应U={X}。 - 在
(Ω, H_U)上放一个测度Q = δ_{X=1}(即“把 X 设为 1”)。 - 新因果空间的观测分布
P_do(X=1)(A) = ∫ Q(dω) K_X(ω, A) = K_X((1,·), A) = P(A | X=1),这正是我们期望的干预分布。 - 注意:无需画图、无需结构方程。循环的设定(如“X 和 Y 相互因果”)在此框架下同样可以定义:只需指定
K_X和K_Y使得双方都依赖于对方——不存在 SCM 中那种解方程的问题,因为K是直接给的。
- 选择子 σ‑代数
这个特例展示了因果空间如何直接编码“子系统 → 系统”的影响,而不需要假设无环或结构方程可解。
三、报告主体:讲者讲了什么¶
[0:00–0:06:00] 开篇与动机
- 讲者 (Krikamol Muandet) 欢迎与会者,介绍这是与 Junhyung Park, Simon Buchholz, Bernhard Schölkopf 合作的论文,最近被 NeurIPS 2023 (?) 接收。强调该工作聚焦于因果性 (causality) 而非因果推断 (causal inference)——即正向的“数据如何由因果机制生成”部分。讲者用 Pearl 的因果关系阶梯(关联 / 干预 / 反事实)定位:这项工作在第二级(干预)上把概率空间扩展为因果空间,并未触及第三级。幻灯片对应 [slides 3–10]。
[0:06:00–0:12:00] 概率空间回顾与介入思想
- 回顾 Kolmogorov 概率空间三要素 (Ω, H, P)。指出概率论与统计学的区别(forward vs. inverse),类比了“因果性 vs. 因果推断”。引用 Pearl & Mackenzie (2018) 的 causality ladder [slide 8–9]。核心思想:“系统受到干预时会发生什么?”——这是概率论不能回答的,所以需要加入干预概念。
[0:12:00–0:16:00] 因果空间定义
- 引入索引集 T、乘积空间、子 σ‑代数 H_S [slides 12]。定义转移概率核 K_S(从 (Ω, H_S) 到 (Ω, H)),直觉上是“条件分布”。正式定义因果空间 (Ω, H, P, K) [slide 13]:公理 1(空集干预 = P)和公理 2(在干预子集上一致 = 1_A)。
[0:16:00–0:19:00] 干预的数学形式化
- 干预定义为:选择一个子 σ‑代数 H_U,在其上放一个任意测度 Q(可以是单点测度,也可以是一个随机分布)。结果形成一个新因果空间 (Ω, H, P_do(U,Q), K_do(U,Q)),其中 P_do(U,Q) 由 Q 与因果核 K_U 积分得到 [slide 14]。讲者解释:这让你在干预后既得到了新的观测分布,也得到了新的因果核族。用公理解释:“干预空集 = 无事发生”;“干预后,被干预部分的分布就是你放上去的 Q”。
[0:19:00–0:23:00] 例子 1:冰淇凌与离岸流事故
- 讲者展示两变量(ice cream sales, fatal rip current accidents)之间有相关性但无因果关系。用因果空间建模:设 K_ice(x, A) = P(A) 对所有 A∈H_acc 且 K_acc(y , B) = P(B) 对所有 B∈H_ice [slide 18]。这直接编码了“变量间无因果方向”的关系,而不需要引入第三个共因变量。这与 SCM 对比:SCM 为了表示相关性必须引入一个隐藏共因(如温度、经济、世界状态)才得到无向的关联图 [slide 19],而因果空间可以“原生地”只陈述相关性,不引入未观测变量。【讲者强调:这凸显了因果空间在建模上的简洁性——你不必被迫引入共因。】
[0:23:00–0:28:00] 例子 2:水稻产量与价格(循环因果)
- 一个经典的循环系统:产量影响价格,价格影响产量(通过农民激励机制)。讲者展示观测数据 [slide 20]:高产量对应低价格。模拟两种干预:(a) 政府将水稻产量固定为 3 (百万吨):K_price(3, A) = N(4.5, 1) [slide 21];(b) 将价格固定为 6:K_yield(6, B) = N(4, 1) [slide 22]。讲者指出:这个例子在标准 SCM 中是“有问题”的,因为循环结构方程不一定存在唯一解,而因果空间直接定义 K,无需解方程。幻灯片 [23] 展示了 SCM 对应的循环图,但因果空间可以不依赖结构方程生存。
[0:28:00–0:30:00] 例子 3:一维布朗运动(连续时间)
- 讲者指出:标准 SCM 无法处理连续时间随机过程(因为每个“时间点”的父节点在紧邻两时刻间有无穷多点)。因果空间用索引集 T = R^+ 可以直接建模:Ω 是所有路径的乘积空间;P 是 Wiener 测度;因果核 K_s 给出给定时刻 s 的值后,未来路径的分布(即布朗桥/马尔可夫转移核)[slide 24]。讲者强调“过去影响未来,未来不影响过去”在此框架下被因果核自然地表达。
[0:30:00–0:34:00] 问答时间:与现有框架比较 - 听众询问“你们的框架相比潜在结果或图形方法有何优势”。讲者与合作者 Junhyung Park 共同回应:他们的主要动机不是替代现有框架,而是提供一个测度论上严格的基础层,仿照概率论本身。 潜在结果和 SCM 在因果推断的实践层面更直接、更成熟。因果空间的优点是:可以用同一套语言处理循环、潜在变量和连续时间过程,而这些都是现有框架的盲区。但讲者承认,目前没有给出实际的因果推断方法。
[0:34:00–0:37:00] 讨论与未来方向 - 讲者列出未来工作: - 反事实:如何用这个框架处理第三级阶梯(幻灯片末)。 - 可识别性与迁移性:在因果空间中是否也有类似 do‑calculus 的工具? - 抽象 / 表示:不同粒度的表示之间如何关联。 - 不精确概率:若放松 Kolmogorov 的可加性公理(如 Choquet 积分),如何定义因果空间和多源干预。
[0:37:00–0:53:00] 官方讨论:Ricardo Silva
- Ricardo 从三个角度予以评价:
1. 不变性:因果建模的核心是干预下的不变模块(如“父节点 → 子节点”关系在干预其他变量时不变)。因果空间的 K 族直接编码了所有可能干预下的行为,但如何从中提取一个简洁的“不变种子集” 是一个挑战。
2. 与 Dawid / Constantinou 方法的联系:Dawid 学派用“干预变量与观测变量之间的条件独立性”做推理,这自然导向 DAG。而因果空间是用转移核家族做整体描述——前者更“组合”,后者更“整体”。
3. 连续时间过程与局部独立性:Ricardo 提到 Didelez (2007, 2008) 关于“局部独立性”(local independence) 的工作(用于多变量点过程),其中在连续时间下,过滤 (filtration) 取代了静态图中“父节点”的角色。他问因果空间能否为局部独立性提供一个更基本的定义。Junhyung 在回应中强调:因果空间不依赖于“父节点”概念,而是定义“子集对整个系统的贡献”——这在连续时间下避免了“父节点被无穷多中间点模糊”的问题。
[0:53:00–0:57:00] 结束语 - 主持人感谢并宣布下一周谈 CRAM 方法。无实质性新内容。
四、对应论文与开放问题¶
4.1 对应论文¶
- arXiv 2305.17139 (标题: A Measure-Theoretic Axiomatisation of Causality,作者: Junhyung Park, Simon Buchholz, Bernhard Schölkopf, Krikamol Muandet)。
- 被接受为 NeurIPS 2023 展示(讲者提到,[0:02:31])。讲者的合作者“Jun”即第一作者 Junhyung Park。其他合作者姓名拼写:按幻灯片与论文确认。
4.2 开放问题(每条问题来自转写中的具体提及)¶
-
反事实的建模:如何用因果空间捕获第三级(反事实)阶梯?讲者说“still unclear”且“we have initial discussion in the paper”,但因为时间未展开 [~0:35:00]。直觉:在因果空间中,反事实可能需要考虑“在同一系统下,给定 (实际发生的)
x条件下,若U的干预取Q,则Y的分布”,这可能需要一个类似于 SCM 中结构方程的可逆机制。 -
可识别性 (identifiability) 与传输性 (transportability):与 do‑calculus 类似,在因果空间中,何时可以从观测分布和某些干预分布唯一推断出另一个干预分布?讲者将其列为“important part” [~0:35:20]。
-
不精确概率 (imprecise probability) 下的因果性:如果放弃 Kolmogorov 的可加性,采用 Choquet 容量/概率箱等,因果空间如何扩展?讲者提及以此为未来方向 [~0:35:40–0:36:05]。潜在挑战:此时
K_S(x, ·)不再是概率测度而是容量,公理需要重写。 -
实用因果推断算法:如何从因果空间框架中导出可计算的估计量(例如,类似 do‑calculus + DML 的 pipeline)?讲者坦白“don’t have a practical way … yet” [~0:30:15–0:30:30]。这是进入统计层面最重要但最不清晰的方向。
-
与局部独立性 (local independence) 的联系:Ricardo Silva 提出的衔接点——能否用因果空间为连续时间过程中的渐进因果结构(如多变量点过程的 Granger 因果)提供一个更底层、更统一的定义 [~0:51:00–0:52:00]?讲者 Junhyung 回应说因果空间不依赖“父节点”,因此可能提供一个自然的方式来定义这些结构。
Maintained by 陈星宇 · Homepage · Source on GitHub