A Measure-Theoretic Axiomatisation of Causality¶

讲者: Krikamol Muandet
讨论人: Ricardo Silva - Q&A moderator: Junhyung Park
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-26
主题: 因果推断
视频: https://youtu.be/uiFdGZcKbSY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2305.17139 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这条工作线追问的是：因果关系的底层数学结构是什么？ 能否像 Kolmogorov 公理化概率论那样，给出一个同样严谨、普遍适用的因果性公理体系？

主流路线：当前因果推断的实践几乎完全建立在两个框架之上——(a) 结构因果模型 (SCM, Pearl) ——通过有向无环图和结构方程 X_i = f_i(PA_i, U_i) 编码因果机制，其出发点是有向图 + 结构方程 + 外生噪声分布，观测分布和干预分布都由这些原始对象推导而来；(b) 潜在结果框架 (Neyman-Rubin) ——核心是单位水平的反事实变量和分配机制。

这些框架的基石：它们都预设了有限个的随机变量/处理水平，且(在标准形式下)要求无循环 (acyclic) 和无连续时间/不可数索引集。DAG-based SCM 将因果信息编码为“系统如何影响子系统”(即每个变量的父节点通过结构方程决定该变量)。

这场报告站在哪里：它回到比 SCM 更底层的地方——概率空间 (Ω, H, P)——作为起点，然后通过一个额外的结构——一族“转移概率核”(causal kernels)——将干预能力直接植入概率空间本身。这是一种“自底向上”的公理化：将观测分布 P 和干预机制 K 都视为原始对象，而不是从结构方程推导出来。报告称得到的结构为因果空间 (causal space)。

奠基与关键相关工作：报告明示以 Kolmogorov (1933) 的概率论公理化为出发点；晚近的类似尝试包括 Constantinou & Dawid (2017, arXiv) 等人提出的“干预变量与条件独立性”语法体系（Ricardo Silva 在讨论中提到了这一点，[~0:47:30]），以及 Dawid (2007, 2010) 的 decision-theoretic causality (将因果推理还原为基于决策变量的情形条件独立性)。因果空间与这些工作的核心区别在于：它的原始对象是转移核族，而不是变量级的条件独立性陈述。这在处理循环关系和连续时间随机过程时具有形式上的优势（见第三节例）。

准备好的读者：如果对 Kolmogorov 概率论（尤其是转移核、条件分布的正规测度论定义）感到舒适，那么这篇的核心定义就不难理解。报告的主要贡献在概念/基础层面，而非算法或计算层面。

二、最小内核 / 一个最简例子¶

2.1 符号与模型设定¶

索引集 T：报告用一个任意集合 T 来标记系统的“组成部分”。它可以是一个有限集（对应有限个随机变量），也可以是一个连续时间轴。整个系统对应的可测空间是乘积空间：
- Ω = ×_{t∈T} E_t（每个 E_t 是一个可测空间，例如 R），
- H = ⊗_{t∈T} E_t（乘积 σ‑代数）。
子 σ‑代数 H_S：对应于 S ⊆ T 的、H 的子 σ‑代数。直觉上，H_S 就是系统中由 S 这部分变量所能生成的所有事件的集合。
转移概率核 K_S : (Ω, H_S) → (Ω, H)：
- 对于每个 x ∈ Ω，K_S(x, ·) 是 (Ω, H) 上的一个概率测度。
- 对于每个固定的事件 A ∈ H，x ↦ K_S(x, A) 是 H_S-可测的。
- 直觉：K_S 描述了已知子系统 S 的状态为 x 时，整个系统 Ω 的概率分布。它类似于“条件分布”，但注意它是原始对象，不一定等于由 P 导出的条件概率。

2.2 因果空间的定义 (Causal Space)¶

一个因果空间是一个四元组 (Ω, H, P, K): 1. (Ω, H, P) 是一个概率空间（这里的 P = 观测分布 P_obs）； 2. K = { K_S : S ∈ P(T) } 是一个因果核族，每个 K_S 是如上定义的转移概率核，且满足两条公理： - 公理 1 (平凡干预): 对于所有 A∈H 和 x∈Ω，K_∅(x, A) = P(A)。 ——干预空集等于不干预，变回观测分布。 - 公理 2 (一致性): 对于所有 A∈H_S 和 x∈Ω，K_S(x, A) = 1_A(x)。 ——如果只看被干预的子系统 S 内部的事件，因果核给出的概率就是“x 已经处于那个状态”的确证（即事情真的发生了）。

2.3 最简特例：两个二值变量，无循环¶

设定：T = {X, Y}，E_X = E_Y = {0,1}，Ω = {0,1}×{0,1}，H 为幂集。观测概率 P 任意（比如 P(0,0)=0.25，等等）。
因果核：我们想编码“X 是 Y 的原因，而 Y 不是 X 的原因”。
- 自然的方法：K_X(x, A) = 1_{x ∈ A_X} · P_Y|X=x(A_Y)。即在固定 X 为某值后，Y 以 P(Y | X=x) 分布变化。
- K_Y(y, A) = P(A)（因为 Y 不导致 X，干预 Y 不影响 X，所以回到观测分布 P）。
干预（报告关键）: 要干预“固定 X=1”：
- 选择子 σ‑代数 H_U，对应 U={X}。
- 在 (Ω, H_U) 上放一个测度 Q = δ_{X=1}（即“把 X 设为 1”）。
- 新因果空间的观测分布 P_do(X=1)(A) = ∫ Q(dω) K_X(ω, A) = K_X((1,·), A) = P(A | X=1)，这正是我们期望的干预分布。
- 注意：无需画图、无需结构方程。循环的设定（如“X 和 Y 相互因果”）在此框架下同样可以定义：只需指定 K_X 和 K_Y 使得双方都依赖于对方——不存在 SCM 中那种解方程的问题，因为 K 是直接给的。

这个特例展示了因果空间如何直接编码“子系统 → 系统”的影响，而不需要假设无环或结构方程可解。

三、报告主体：讲者讲了什么¶

[0:00–0:06:00] 开篇与动机 - 讲者 (Krikamol Muandet) 欢迎与会者，介绍这是与 Junhyung Park, Simon Buchholz, Bernhard Schölkopf 合作的论文，最近被 NeurIPS 2023 (?) 接收。强调该工作聚焦于因果性 (causality) 而非因果推断 (causal inference)——即正向的“数据如何由因果机制生成”部分。讲者用 Pearl 的因果关系阶梯（关联 / 干预 / 反事实）定位：这项工作在第二级（干预）上把概率空间扩展为因果空间，并未触及第三级。幻灯片对应 [slides 3–10]。

[0:06:00–0:12:00] 概率空间回顾与介入思想 - 回顾 Kolmogorov 概率空间三要素 (Ω, H, P)。指出概率论与统计学的区别（forward vs. inverse），类比了“因果性 vs. 因果推断”。引用 Pearl & Mackenzie (2018) 的 causality ladder [slide 8–9]。核心思想：“系统受到干预时会发生什么？”——这是概率论不能回答的，所以需要加入干预概念。

[0:12:00–0:16:00] 因果空间定义 - 引入索引集 T、乘积空间、子 σ‑代数 H_S [slides 12]。定义转移概率核 K_S（从 (Ω, H_S) 到 (Ω, H)），直觉上是“条件分布”。正式定义因果空间 (Ω, H, P, K) [slide 13]：公理 1（空集干预 = P）和公理 2（在干预子集上一致 = 1_A）。

[0:16:00–0:19:00] 干预的数学形式化 - 干预定义为：选择一个子 σ‑代数 H_U，在其上放一个任意测度 Q（可以是单点测度，也可以是一个随机分布）。结果形成一个新因果空间 (Ω, H, P_do(U,Q), K_do(U,Q))，其中 P_do(U,Q) 由 Q 与因果核 K_U 积分得到 [slide 14]。讲者解释：这让你在干预后既得到了新的观测分布，也得到了新的因果核族。用公理解释：“干预空集 = 无事发生”；“干预后，被干预部分的分布就是你放上去的 Q”。

[0:19:00–0:23:00] 例子 1：冰淇凌与离岸流事故 - 讲者展示两变量（ice cream sales, fatal rip current accidents）之间有相关性但无因果关系。用因果空间建模：设 K_ice(x, A) = P(A) 对所有 A∈H_acc 且 K_acc(y , B) = P(B) 对所有 B∈H_ice [slide 18]。这直接编码了“变量间无因果方向”的关系，而不需要引入第三个共因变量。这与 SCM 对比：SCM 为了表示相关性必须引入一个隐藏共因（如温度、经济、世界状态）才得到无向的关联图 [slide 19]，而因果空间可以“原生地”只陈述相关性，不引入未观测变量。【讲者强调：这凸显了因果空间在建模上的简洁性——你不必被迫引入共因。】

[0:23:00–0:28:00] 例子 2：水稻产量与价格（循环因果） - 一个经典的循环系统：产量影响价格，价格影响产量（通过农民激励机制）。讲者展示观测数据 [slide 20]：高产量对应低价格。模拟两种干预：(a) 政府将水稻产量固定为 3 (百万吨)：K_price(3, A) = N(4.5, 1) [slide 21]；(b) 将价格固定为 6：K_yield(6, B) = N(4, 1) [slide 22]。讲者指出：这个例子在标准 SCM 中是“有问题”的，因为循环结构方程不一定存在唯一解，而因果空间直接定义 K，无需解方程。幻灯片 [23] 展示了 SCM 对应的循环图，但因果空间可以不依赖结构方程生存。

[0:28:00–0:30:00] 例子 3：一维布朗运动（连续时间） - 讲者指出：标准 SCM 无法处理连续时间随机过程（因为每个“时间点”的父节点在紧邻两时刻间有无穷多点）。因果空间用索引集 T = R^+ 可以直接建模：Ω 是所有路径的乘积空间；P 是 Wiener 测度；因果核 K_s 给出给定时刻 s 的值后，未来路径的分布（即布朗桥/马尔可夫转移核）[slide 24]。讲者强调“过去影响未来，未来不影响过去”在此框架下被因果核自然地表达。

[0:30:00–0:34:00] 问答时间：与现有框架比较 - 听众询问“你们的框架相比潜在结果或图形方法有何优势”。讲者与合作者 Junhyung Park 共同回应：他们的主要动机不是替代现有框架，而是提供一个测度论上严格的基础层，仿照概率论本身。 潜在结果和 SCM 在因果推断的实践层面更直接、更成熟。因果空间的优点是：可以用同一套语言处理循环、潜在变量和连续时间过程，而这些都是现有框架的盲区。但讲者承认，目前没有给出实际的因果推断方法。

[0:34:00–0:37:00] 讨论与未来方向 - 讲者列出未来工作： - 反事实：如何用这个框架处理第三级阶梯（幻灯片末）。 - 可识别性与迁移性：在因果空间中是否也有类似 do‑calculus 的工具？ - 抽象 / 表示：不同粒度的表示之间如何关联。 - 不精确概率：若放松 Kolmogorov 的可加性公理（如 Choquet 积分），如何定义因果空间和多源干预。

[0:37:00–0:53:00] 官方讨论：Ricardo Silva - Ricardo 从三个角度予以评价： 1. 不变性：因果建模的核心是干预下的不变模块（如“父节点 → 子节点”关系在干预其他变量时不变）。因果空间的 K 族直接编码了所有可能干预下的行为，但如何从中提取一个简洁的“不变种子集” 是一个挑战。 2. 与 Dawid / Constantinou 方法的联系：Dawid 学派用“干预变量与观测变量之间的条件独立性”做推理，这自然导向 DAG。而因果空间是用转移核家族做整体描述——前者更“组合”，后者更“整体”。 3. 连续时间过程与局部独立性：Ricardo 提到 Didelez (2007, 2008) 关于“局部独立性”(local independence) 的工作（用于多变量点过程），其中在连续时间下，过滤 (filtration) 取代了静态图中“父节点”的角色。他问因果空间能否为局部独立性提供一个更基本的定义。Junhyung 在回应中强调：因果空间不依赖于“父节点”概念，而是定义“子集对整个系统的贡献”——这在连续时间下避免了“父节点被无穷多中间点模糊”的问题。

[0:53:00–0:57:00] 结束语 - 主持人感谢并宣布下一周谈 CRAM 方法。无实质性新内容。

四、对应论文与开放问题¶

4.1 对应论文¶

arXiv 2305.17139 (标题: A Measure-Theoretic Axiomatisation of Causality，作者: Junhyung Park, Simon Buchholz, Bernhard Schölkopf, Krikamol Muandet)。
被接受为 NeurIPS 2023 展示（讲者提到，[0:02:31]）。讲者的合作者“Jun”即第一作者 Junhyung Park。其他合作者姓名拼写：按幻灯片与论文确认。

4.2 开放问题（每条问题来自转写中的具体提及）¶

反事实的建模：如何用因果空间捕获第三级（反事实）阶梯？讲者说“still unclear”且“we have initial discussion in the paper”，但因为时间未展开 [~0:35:00]。直觉：在因果空间中，反事实可能需要考虑“在同一系统下，给定 (实际发生的) x 条件下，若 U 的干预取 Q，则 Y 的分布”，这可能需要一个类似于 SCM 中结构方程的可逆机制。
可识别性 (identifiability) 与传输性 (transportability)：与 do‑calculus 类似，在因果空间中，何时可以从观测分布和某些干预分布唯一推断出另一个干预分布？讲者将其列为“important part” [~0:35:20]。
不精确概率 (imprecise probability) 下的因果性：如果放弃 Kolmogorov 的可加性，采用 Choquet 容量/概率箱等，因果空间如何扩展？讲者提及以此为未来方向 [~0:35:40–0:36:05]。潜在挑战：此时 K_S(x, ·) 不再是概率测度而是容量，公理需要重写。
实用因果推断算法：如何从因果空间框架中导出可计算的估计量（例如，类似 do‑calculus + DML 的 pipeline）？讲者坦白“don’t have a practical way … yet” [~0:30:15–0:30:30]。这是进入统计层面最重要但最不清晰的方向。
与局部独立性 (local independence) 的联系：Ricardo Silva 提出的衔接点——能否用因果空间为连续时间过程中的渐进因果结构（如多变量点过程的 Granger 因果）提供一个更底层、更统一的定义 [~0:51:00–0:52:00]？讲者 Junhyung 回应说因果空间不依赖“父节点”，因此可能提供一个自然的方式来定义这些结构。

Maintained by 陈星宇 · Homepage · Source on GitHub