Learning and Using Causal Representations¶

讲者: Kun Zhang
讨论人: C osma Shalizi
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-03-16
主题: 因果推断
视频: https://youtu.be/_MVi6XzOdD0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告讲述的是 因果表示学习（Causal Representation Learning） 这一研究路线，更具体地说，是 从观测数据中发现因果关系 (Causal Discovery) 及其在机器学习和领域自适应中的应用。讲者 Kun Zhang 是这一领域非常活跃的研究者，他的工作覆盖了从传统的因果发现算法到利用非平稳/异质数据特性进行因果关系推断的多个前沿方向。

这个子方向在追问什么？
核心问题是：在没有实验干预、仅凭观测数据的情况下，能否恢复变量之间（以及隐藏变量与观测变量之间）的因果结构和因果机制？如果可以，需要哪些数学和统计假设？如何量化推断的不确定性？

奠基与主流路线： - 基于约束的方法 (Constraint-based)： - 奠基工作：Spirtes, Glymour, and Scheines 的《Causation, Prediction, and Search》(1993) ，以及后来发展的 PC 算法和 FCI (Fast Causal Inference) 算法。 - 核心思想：利用数据中的条件独立性关系，推断一个与这些关系一致的图结构（通常是偏序关系，即马尔可夫等价类）。对混淆变量有部分处理能力（如 FCI），但通常只能得到部分方向的判断。 - 基于功能因果模型的方法 (Functional Causal Model-based)： - 奠基工作：Shimizu et al. 的 LiNGAM (Linear Non-Gaussian Acyclic Model) (JMLR, 2006)；Hoyer et al. 的 Additive Noise Model (NIPS'08)。 - 核心思想：通过对因果机制（函数形式 + 噪声分布）施加额外的假设（如非高斯性、噪声独立于原因），打破因果方向上的对称性，从而能够 唯一地 确定因果方向。 - 这一路线的核心在于寻找“可识别性”条件。

当前 frontier（这场报告站的位置）： - Zhang 的报告处于 “超越标准功能因果模型” 的前沿。他回顾了后非线性因果模型 (Post-Nonlinear, PNL) 及其识别性理论（Zhang & Hyvärinen, UAI'09），这是比 LiNGAM 和 Additive Noise 更一般的模型，能够更准确地逼近真实生成过程并保持因果方向的可识别性。 - 更重要的是，报告介绍了他和他的合作者在 应对现实数据中的各种挑战 方面的工作，包括： - 测量误差中的因果发现 (Zhang et al., UAI'18, PSA'18)。 - 选择偏差下的因果发现 (Zhang et al., UAI'16)。 - 隐藏因果表示学习：这是从观测变量中恢复隐藏变量及其因果关系的框架，是因果表示学习的核心。 - 非平稳/异质数据下的因果发现 (Zhang et al., IJCAI'17; Huang et al., ICML'19) ：这是该领域的一个关键进展。其核心洞见是，如果数据来自不同的分布，那么这些分布的变化往往源于因果机制（条件分布）的“独立变化”。利用这一特性，可以比单分布数据发现更丰富的因果信息（如确定因果方向，识别变化的机制）。这一思想也是连接因果发现和迁移学习的桥梁。

二、最小内核 / 一个最简例子¶

核心模型与符号 (以功能因果模型为例)：

潜在不可观测量：因果结构（即一个有向无环图 DAG，节点是变量，边表示直接因果关系）和每个节点的因果机制。我们假设存在一个潜在的生成过程。
可观测数据：从变量 X 和 Y 的联合分布中抽取的独立同分布样本 (x_i, y_i)。没有额外的时间信息。
参数 / Estimand：因果方向（是 X → Y 还是 Y → X？）以及因果机制的具体形式（如 Y = f(X) + E 中的函数 f）。
核心假设 (以 Additive Noise Model (ANM) 为例)：
- 如果 X 是 Y 的原因，存在一个函数 f 和一个与 X 独立的随机噪声 E，使得 Y = f(X) + E。
- 反之，如果 Y 是 X 的原因，那么存在一个函数 g 和独立的噪声 F，使得 X = g(Y) + F。

最简特例 (d=1, 两个时间点 / 变量：X 和 Y，假设已知内部关系是线性的但噪声非高斯)：

因果假设：数据由线性非高斯模型生成。假设 X → Y，那么有： X := E_X (E_X 是独立噪声，非高斯) Y := a * X + E_Y (E_Y 是与 X 和 E_X 独立的非高斯噪声)
问题：我们只观测到 X 和 Y 的样本，不知道因果方向。想判断是 X → Y 还是 Y → X。
核心思想 (Causal Asymmetry via Independence Condition)：
- 尝试正向 (假设 X → Y)：用线性回归将 Y 拟合为 X 的函数：Ŷ = âX。计算残差 R = Y - Ŷ。由于数据生成自 Y = aX + E_Y，如果我们的模型（线性）是正确且无混淆的，那么残差 R 应该代表 E_Y，并且应该与 X（原因）独立。
- 尝试反向 (假设 Y → X)：用线性回归将 X 拟合为 Y 的函数：X̂ = b̂Y。计算残差 S = X - X̂。如果 Y 不是原因（实际是 X → Y），那么因果结构对应的模型反向时，模型是错误的。此时解释变量 Y 中包含了由原因 X 带来的噪音，因此残差 S 与 Y 将 不独立（会呈现非线性模式）。例如，在讲者展示的非高斯均匀分布例子中，反向回归的残差与 Y 的散点图呈现依赖关系（如方差随 Y 变化）。
结论：通过检验哪个方向的残差与假设的“原因”独立，就可以唯一地确定因果方向。这是 LiNGAM (Shimizu et al., 2006) 的核心思想。

因此，从“一个最简例子”来看，这场报告讲的主要是：

通过将生成机制的结构假设（如独立性噪声条件）转化为可检验的统计量（如独立性检验），我们可以把 无干预下的因果发现 这个看似不可能的任务，转化为一个 模型选择 问题（选择哪个因果方向能更好地满足模型的约束）。

三、报告主体：讲者讲了什么¶

[H:MM] 时间点均为近似，基于转写稿上下文推断。

[0:00 - 0:05] 开场与动机 - 讲者介绍自己来自 CMU，报告主题是“学习与使用因果表示”。 - 从具体实例出发：2015年 Google Photos 将黑人照片误标为“大猩猩”[0:02:28]，以及对抗性攻击问题 [0:03:00]。 - 指出问题根源：机器学习的底层表征与人类使用的“因果表征”存在差异。

[0:05 - 0:08] 什么是智能？ - 提出智能系统应当具备的能力：理解（能控制/干预）、分解、信息融合、少样本学习和外推（extrapolation）。 - 从进化与选择视角定义智能，强调其需要两个关键组件： - 内紧致表征 (Inner compact representation)：用于进行良好预测。 - 因果表征 (Causal representation)：用于创造性地改变环境、实现增长。

[0:08 - 0:11] 因果发现：传统约束类方法 (PC算法) - 核心问题：给定观测数据，如何恢复因果结构？ - 关键假设：因果马尔可夫条件 (Causal Markov Condition) 和忠实性 (Faithfulness)。即：因果结构蕴含了数据中的所有条件独立关系。 - PC算法示例（[0:11:40]）： 1. 从完全图开始。 2. 通过条件独立性检验（如 X1 ⟂ X5 | X3）移除边，得到骨架。 3. 通过寻找V结构（如 X2 → X3 ← X4）确定部分方向。 4. 通过传入规则传播方向，最终得到部分有向图（马尔可夫等价类）。 - PC算法局限：无法处理所有方向的确定，且不能识别部分隐藏混淆变量。

[0:14 - 0:17] 处理混淆变量（未观测的共同原因） - 展示两个例子，说明如何通过条件独立性信息推断是否存在混淆变量。 - 例子一：蛛网状结构 X1 → X3 ← X4。即使有隐藏变量，也能通过条件独立性检验排除“混淆变量”的存在。 - 例子二：导出矛盾冲突的一种结构模式，可以推测存在隐藏变量，如 X2 ⟂ X4（直接原因或效应都不符合），因此推断存在隐藏共同原因，而非直接因果。 - 这些观点被整合在 FCI (Fast Causal Inference) 算法中。

[0:17 - 0:21] QA：条件独立性检验的可靠性 - 问题：是否能信任条件独立性检验的结果？ - 回答：取决于样本量。样本量大时可以用很小的alpha控制一类错误。非线性情况需要更多数据（300-500点）。提到可以搜索“FDR control in causal discovery”相关的文献。

[0:21 - 0:28] 功能因果模型：确定唯一因果方向 - 动机：克服PC算法无法唯一确定方向的限制。 - 核心模型： - LiNGAM (线性非高斯)：Y = aX + E，E 非高斯。利用非高斯性在反向回归时产生残留依赖。 - Post-Nonlinear (后非线性) 模型 [0:24:52]：X_i = f_i2(f_i1(Pa_i) + E_i)，包含线性、加性噪声、乘性噪声等模型作为特例。这提供了非常一般且可识别的模型框架。 - 识别性理论 [0:27:00]： - 除了五种退化的特例（包括线性高斯），后非线性模型下因果方向通常是可识别的。 - 这提供理论支撑，即通过检验“原因”是否与噪声独立，能唯一地确定因果方向，从而完全恢复DAG。

[0:28 - 0:35] 实际挑战与隐藏变量学习 - 实际挑战：介绍了在实际中遇到的各类数据问题，包括非线性、离散/混合变量、测量误差、选择偏差、缺失值、时间序列的时滞与聚合（sub-sampling）以及非平稳/异质数据。 - 隐藏因果表示学习 [0:32:43]： - 问题：观测变量反映的是隐藏变量，我们想恢复隐藏变量及其因果结构。这是一个经典的潜在因子模型与因果发现的结合。 - 方法：利用独立条件 (Independent Condition) 推广版本，检测特定变量的线性组合的独立性，从而识别共享同一隐藏父节点的变量群集（cluster）及其因果顺序。 - 应用：用于分析教师职业倦怠问卷数据（28个问题变量），恢复出隐藏的“职业倦怠”结构，结果与专家假设模型高度一致。

[0:35 - 0:40] 非平稳/异质数据中的因果发现 - 核心思想 [0:36:00]：当数据来自不同的分布（如不同时间点、不同地点），因果机制（条件分布）可能变化，但重要的特性是这些变化是“独立”的。 - 应用：通过分析数据分布的变化，可以识别出哪些因果机制发生了改变，从而推断出真正的因果结构。例如，分析纽交所股票（2008金融危机前）的日收益数据。 - 优势：只用观测数据就能识别方向，并且能发现“改变的机制”，揭示变化的驱动因素。

[0:40 - 0:45] 迁移学习与领域自适应 - 动机：传统ML假设训练/测试分布相同，但现实常不同（domain shift）。 - 因果视角：如果知道因果方向（如标签Y是原因，特征是X效果），即使不知道联合分布，也可以仅从目标域的特征分布推断联合分布 P(X,Y)，从而进行迁移（target shift）。这比反向预测更容易。 - 数据驱动领域自适应 [0:43:00]：利用从非平稳因果发现中得到的“模块化表示”（如哪些条件分布是变化的），建立概率图模型。领域自适应可以被形式化为该图模型下的推理问题（给定目标域特征值，推断目标标签的后验分布）。实验显示，这种方法在模拟和真实数据上都显著优于传统方法（如SEARCHERASAER）。

[0:45 - 0:50] 总结与未来方向 - 总结： - 约束类方法可以恢复马尔可夫等价类。 - 功能因果模型（加噪声类）可以唯一确定因果图。 - 非平稳数据提供更多信息，可识别变化的因果机制。 - 因果表示可以用于领域自适应。 - 未来思路 [0:45:30]：找到能够连接不同场景和任务的统一紧凑表征，该表征可能具有因果解释。

四、对应论文与开放问题¶

(a) 对应论文

这场报告是 Kun Zhang 及其合作者在因果发现领域一系列工作的综述，而非单篇论文。报告幻灯片列出的关键论文包括：

约束类方法：Spirtes, Glymour, and Scheines. (1993) Causation, Prediction, and Search.
LiNGAM：Shimizu, Hoyer, Hyvarinen, and Kerminen. (2006) "A linear non-Gaussian acyclic model for causal discovery." JMLR.
后非线性因果模型 (PNL Causal Model)：Zhang and Hyvärinen. (2009) "On the identifiability of the post-nonlinear causal model." UAI 2009. （字幕可能有误，待核实）
非线性加噪声模型：Hoyer, Janzing, Mooij, Peters, and Schölkopf. (2008) "Nonlinear causal discovery with additive noise models." NIPS.
隐藏变量学习：Zhang and Chan. (2006) "Extensions of ICA for Causality Discovery in the Hong Kong Stock Market." ICONIP. (可能是相关工作)
非平稳/异质数据：Zhang et al. (2017) "Causal discovery from nonstationary/heterogeneous data." IJCAI.
测量误差：Zhang et al. (2018) "Causal discovery in the presence of measurement error." UAI 2018; PSA 2018.
选择偏差：Zhang et al. (2016) "Causal discovery from data with outcome-dependent selection." UAI 2016.

(b) 开放问题 (每条扎根于转写)

模型误设定的鲁棒性 (转写 [0:38:36] 的QA)：
- 问题：各种方法对模型误设定（如假设线性但实际非线性，或使用了错误的函数形式）有多敏感？这是实际应用中的核心挑战。
条件独立性检验的统计功效与误差控制 (转写 [0:16:18] 与 [0:21:02] 的QA)：
- 问题：在有限样本下，如何保证约束类方法和功能类方法（它们依赖于独立性检验或回归残差独立性检验）的误差可控？是否有通用的FDR或P值校准方法？
后选择推断 (转写 [0:58:15] 讨论者 Cosma Shalizi 的讨论):
- 问题：在同样的数据上先进行因果结构选择，再在此结构下进行因果效果估计（parameter estimation），会导致严重的后选择推断问题。如何恰当地量化并纠正这种偏差？是否可以通过数据分割（data splitting）或自举来解决？
领域自适应的前提假设 (转写 [0:44:48] 与 [0:46:56])：
- 问题：基于因果表示的领域自适应技术，其核心假设是“存在一些（因果）机制是跨域不变的”。如果这个假设不成立（即所有机制都在变化），那么该技术会失效。如何系统地检测和应对这种更复杂的变化？如何判断何时必须引入更高层次的表征才能使其“不变”？
隐藏变量学习的“先验知识” (转写 [0:36:00] 的教师数据应用)：
- 问题：隐藏变量数量或它们的因果结构在何种条件下是可识别、可唯一恢复的？报告中的方法是基于线性非高斯假设（LiNGAM的推广）的，能否将其扩展到更一般的非线性隐藏因果模型？这在高维数据中是关键。

Maintained by 陈星宇 · Homepage · Source on GitHub

Learning and Using Causal Representations¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论