Methodological advances in causal representation learning¶

讲者: Kun Zhang
讨论人: Victor Veitch
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-11-01
主题: 因果推断
视频: https://youtu.be/oBiGEfEPMH0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

【方向定位】
这场报告系统性地介绍了因果表示学习（Causal Representation Learning）这一子方向。该方向的核心问题是：能否仅从观测数据（可能含大量潜在混杂变量）中，恢复出产生那些数据的潜在因果变量及其因果结构，而不仅仅停留在预测或关联层面？ 它与传统因果发现（causal discovery）的差异在于：更侧重于从低层观测变量（如像素、问卷得分） 推断高层潜在因果变量（如物体的位置、心理特质） 及其关系。

【奠基与主流路线】
- 约束基方法（constraint-based approaches, 如 PC 算法, Spirtes, Glymour, Scheines, 1993）：利用条件独立性测试，从观测变量间恢复部分定向的因果图（Markov equivalence class）。要求无潜在混杂（PC）或允许潜在混杂（FCI）。 - 函数因果模型（functional causal models, FCM）：引入对因果机制的结构性假设（如线性非高斯、加性噪声、后非线性模型），使得因果方向变得可识别。代表性工作包括 Shimizu et al. (2006) 的 LinGAM、Hoyer et al. (2009) 的加性噪声模型、以及讲者参与的后非线性模型（Zhang & Hyvärinen, 2008, 2009）。 - 潜在变量学习：当观测变量由潜在变量生成时，利用条件独立性与分布非高斯特性的组合（如 Silva et al., 2006 的 tetrad 条件；Xie, Cai, Huang, et al., 2019, 2020 的广义独立噪声条件 (GIN)）来发现潜在变量及其因果排序。 - 时间序列/异质数据：利用时间延迟（Granger causality, Hyvärinen et al., 2010）或多个环境下的“独立变化”原则（CD-NOD, Zhang et al., 2010 起）来增强可识别性。

【当前前沿与这场报告的站位】
这场报告给出的统一框架将问题划分为三个维度：(1) 数据的性质（i.i.d. vs 非平稳/异质），(2) 是否引入参数化约束（如线性非高斯、加性噪声），(3) 是否允许潜在混杂变量。它系统总结了在不同“格子点”上（如i.i.d.线性非高斯含潜变量、时间序列无即时效应、多环境下的独立变化）当前可达到的可识别性类型（MEC、唯一可识别、变分子空间可识别等）。报告不仅梳理了已有成果（包括讲者自己大量的工作），也通过讨论（Veitch的点评与讲者的回应）暴露了该领域与大规模模型（foundation models） 以及分布外泛化之间的张力——“因果表示学习在实践中的收益尚不明确”，这本身即是当前前沿争论的焦点。

二、最小内核/一个最简例子¶

核心思想：通过对因果机制施加“模块性”与“独立变化”的结构性假设，从观测数据的统计特性中恢复因果变量与方向。

【一个最简例子：二值变量线性非高斯模型】
- 可观测数据：一对变量 \((X, Y)\)，独立同分布观测 \(n\) 次。 - 潜在真实因果模型（假设 \(X \to Y\)）：

\[Y = aX + E, \quad E \perp\!\!\!\perp X\]

其中 \(a\) 是因果效应参数，\(E\) 是独立于 \(X\) 的非高斯噪声。 - 记法： - \(X\)：原因（随机变量，分布任意，非高斯） - \(Y\)：结果 - \(E\)：结构误差（独立于 \(X\)，非高斯） - 可识别目标：因果方向（\(X \to Y\) vs \(Y \to X\)）

【为什么方向可识别？】
- 正向回归：计算 \(Y\) 对 \(X\) 的回归残差 \(R_{Y|X} = Y - \hat{a}X\)。若模型正确，\(R_{Y|X} \perp\!\!\!\perp X\)（独立）。 - 反向回归：计算 \(X\) 对 \(Y\) 的回归残差 \(R_{X|Y} = X - \hat{b}Y\)。此时，因为 \(X\) 和 \(E\) 独立但 \(Y = aX + E\)，反向残差 \(R_{X|Y}\) 一般与 \(Y\) 相关。只有当 \(a=0\) 或 \(X\) 与 \(E\) 都是高斯时（此时独立与不相关等价），反向才有可能满足独立性。 - 识别原则：哪一侧的残差与假设的“原因”独立，那一侧即为正确的因果方向。独立噪声条件使因果方向在非高斯情形下唯一可识别（除了幻灯片列出的5种退化情形，如线性高斯）。幻灯片指出，该模型可推广为后非线性模型（\(Y = f_2(f_1(X) + E)\)），覆盖更多非线性与乘性噪声情形，方向可识别性依然成立（Zhang & Hyvärinen, 2009）。

三、报告主体：讲者讲了什么¶

结构总览：[H:MM] — 讲者从“依赖vs因果”出发，按 i.i.d. 观测、时间序列、异质/非平稳数据三类数据场景组织内容，并穿插讨论者 Veitch 的评述与回应。

【Part 1: 为什么需要因果表示】（[0:01:30] - [0:09:00]）
- [0:01:30] 以雨-湿地面-滑倒的经典三变量例子，说明同一依赖模式可对应不同的因果模型，但不同模型在干预下的行为截然不同。
- [0:03:00] 给出几个动机性例子：肺癌干预、推荐系统中的混杂（Simpson's paradox）、50年前女大学生智商偏见（选择偏差）。
- [0:05:00] 提出对抗攻击的例子（给熊猫加微小噪声变成“长臂猿”），说明若机器学习只学关联特征而非因果特征，易受这种攻击。引出 Kant 的形而上学（[0:07:47] — “世界如我们经验的那样是由因果结构构建的”），来源于 Clark Glymour，作为为何追求因果表示的一个哲学动机。

【Part 2: 因果系统的“足迹”】（[0:09:00] - [0:13:00]）
- [0:09:47] 三大统计特性： 1. 条件独立性（Markov condition）：因果图蕴含的 d-分离给出条件独立性约束。 2. 独立噪声条件（independent noise condition）：因果机制中的误差独立于原因（在无混条件下）。 3. 最小与独立变化原则（principle of minimal & independent changes）：在非平稳/多环境下，不同因果模块的变化是独立的；用错误的因果表示会引入更多的人为变化。 - [0:13:24] 用一张表格总结，这三个条件分别对应不同的方法。

【Part 3: i.i.d. 观测数据下的方法】（[0:13:50] - [0:38:30]）
- [0:14:00] 因果发现 vs 因果表示学习：前者侧重恢复整个因果图，后者侧重恢复潜在变量及其因果结构。讲者将后者视为前者的子任务。
- [0:16:29] 应用于考古学数据（Marlijn Noback 的 250 具骨架，8个特征变量，[0:16:30]）。
- [0:17:47] PC算法演示：从条件独立性测试逐步构建骨架与 v-structure。例子：颅骨大小、气候、饮食等关系的发现（[0:19:57] 给出结果图）。
- [0:20:03] 处理潜在混杂：用两个四变量小例展示 FCI 算法的逻辑。
- [0:23:58] 例1：通过特定条件独立模式，推断出变量间不存在潜在混杂（如“湿地面”直接引起“滑倒”）。
- [0:24:04] 例2：另一模式则一定需要潜在混杂（如“我在会议室”、“你在会议室”的关联背后是“共同参加的 seminar”）。
- [0:25:38] 函数因果模型与方向识别：以线性非高斯、后非线性、加性噪声模型为例，说明“独立噪声条件”如何产生因果不对称性。
- [0:28:01] 例子：海拔 vs 降水量（300个城市），由方向不对称性可知海拔是原因。
- [0:31:00] 讲者提到一个“负”结果：通过求解微分方程，找出了仅有的5种（包括线性高斯情形）因果方向不可识别的情形（Zhang & Hyvärinen, 2009），说明对于后非线性模型，方向一般可识别。
- [0:32:10] 潜在变量学习（从i.i.d.数据）：
- [0:32:17] 心理测量学背景：观测变量（如问卷得分）由潜在心理变量生成。
- [0:33:12] 广义独立噪声条件（GIN, Xie et al., 2020）：存在某个线性组合 \(w^\top Y\) 与另一组变量 \(Z\) 独立 \(\Rightarrow\) 该组合对应于某个共同潜在父变量的因果代理。
- [0:34:13] 用例子图解：两个子集 \(Y\) 和 \(Z\) 满足 GIN，意味着 \(Y\) 的外生潜在父集 d-分离 \(Y\) 与 \(Z\)。
- [0:35:16] 应用：教师职业倦怠数据（28 个观测变量），发现潜变量及其因果顺序，与心理学专家的假设模型一致。
- [0:36:00] 扩展：恢复深层层级结构（Xie et al., 2022; Huang et al., 2022）。用 GIN 或秩约束一步步向上构建潜变量层次。
- [0:36:45] 理论结果：Adams, Hansen, Zhang (NeurIPS 2021) 确定了含潜变量图的必要且充分的可识别条件，例如哪些含2个潜变量的有向图能用3个观测变量恢复（幻灯片显示出22种可识别图之一）。

【Part 4: 时间序列与异质数据】（[0:38:30] - [0:48:00]）
- [0:38:39] 时间序列：利用时间延迟 + 无即时效应假设（分辨率足够高时因果影响需要时间）。
- [0:39:23] LEAP（Yao et al., 2022）：观测 \(\mathbf{x}_t = g(\mathbf{z}_t)\)，\(\mathbf{z}_t\) 是低维潜变量，服从“时间滞后因果过程”（如 VAR）且无即时效应。可识别潜变量及因果关系。
- [0:41:36] 示例结果：KITTI Mask 视频（恢复3个潜变量：水平运动、垂直运动、大小）；Mass-Spring 视频（恢复5个小球的 X/Y 坐标及其弹簧连接关系）。
- [0:41:27] 异质/非平稳数据：利用不同环境/时间段下因果模块的独立变化。
- [0:42:27] 核心想法：若因果机制是模块化的，则不同模块的变化应独立。用这个想法可以同时识别结构、方向、以及变化的低维表示。
- [0:43:24] 应用实例：纽约证交所 80 只股票数据，恢复出变化的低维表示，与 TED 利差（市场风险）一致。
- [0:44:09] 用于域适应（domain adaptation）：先发现因果结构（等于学习数据如何变化），再在新的目标域上做推断。
- [0:45:41] 一个警示（讲者特别强调）：从数据学习的“表示”不一定就是因果的。例子：“症状-疾病-医院分类”下，病人按症状分到医院，此时“从症状预测疾病”的机制看似稳定，但潜模型图与真正的因果图完全不同（因为医院分配是依据症状而非疾病）。
- [0:46:57] 非线性 ICA 与多域/非平稳：通过对潜变量施加“少数潜变量改变、映射函数不变”的假设，可实现非线性 ICA 的可识别性（讲者此前的工作）。

【Part 5: 讨论者 Veitch 的评述与讲者回应】（[0:52:00] - [1:08:00]）
- [0:52:10] Veitch 以“非常主观的高层视角”提出两个挑战： 1. 域适应中的因果方法并未战胜简单基线：在真实域适应基准中，用大模型（ERM，无因果技巧）往往表现最好或持平。
2. 大规模模型（如 DALL·E）似乎自动学到了丰富的因果结构（生成“紫色牛吹萨克斯在火星上”），尽管训练目标毫无因果性。
- [0:55:30] Veitch 展示了“即使因果关系绝对稳定”，应当用因果父集来预测 Y 的最优策略也只对应于众多因果结构中的一种特例；其他结构下，因果正确与域鲁棒并不简单等价。
- [1:04:32] 讲者回应： - [1:04:50] 域适应与因果学习本质上是不同的问题；域适应只关心分布如何变化，不关心潜图是否真正反映物理因果。
- [1:05:10] “因果特征更稳定”的说法并非普遍成立；X→Y 的机制本身也可因环境而变。
- [1:05:45] 因果表示学习只能在合适的假设下完成；若假设不成立，学习到的表示不是因果的，但对域适应可能仍有帮助。
- [1:07:26] 讲者对自己关于域适应的观点被 Veitch 认作“更负面”感到认可，但强调关系比“完全不相干”更复杂。

【核心技术技巧 / 证明草图】：
- 独立噪声条件（[0:10:13]）：讲者没有给形式化证明，但在幻灯片中明确指出，对于后非线性模型，仅对线性高斯等少数退化情形（5种[0:31:00]）方向不可识别——该结论来自 求解泛函方程（微分方程）。
- GIN 条件的图论解释（[0:33:12]）：线性非高斯模型的谱的稀疏性导致 \(w^\top Y\) 与 \(Z\) 独立，等价于 \(Y\) 的外生潜在父集 d-分离 \(Y\) 与 \(Z\)。
- 时间序列的可识别性（LEAP，[0:39:23]）：关键在于“无即时效应假设”——时间滞后关系的某些特性能使观测值的非线性混合可被分离，即时间延迟导致因果结构在谱上留下可辨识的印记。

四、对应论文与开放问题¶

【对应论文】（讲者已清晰列出，幻灯片上给出了全文献信息；以下仅列出本研究领域最相关者，所有标题/年份来自幻灯片，不确定性极低）： - GIN 与潜在变量因果图：Xie, Cai, Huang, Glymour, Hao, Zhang, “Generalized Independent Noise Condition for Estimating Linear Non-Gaussian Latent Variable Causal Graphs”, NeurIPS 2020.
- 三元组约束：Cai, Xie, Glymour, Hao, Zhang, “Triad Constraints for Learning Causal Structure of Latent Variables”, NeurIPS 2019.
- 潜变量层级结构：
- Xie, Huang, Chen, He, Geng, Zhang, “Estimation of Linear Non-Gaussian Latent Hierarchical Structure”, ICML 2022.
- Huang, Low, Xie, Glymour, Zhang, “Latent Hierarchical Causal Structure Discovery with Rank Constraints”, NeurIPS 2022.
- 部分观测的线性因果模型：Adams, Hansen, Zhang, “Identification of Partially Observed Linear Causal Models: Graphical Conditions for the Non-Gaussian and Heterogeneous Cases”, NeurIPS 2021.
- 时间序列的潜因果过程：Yao, Chen, Zhang, “Causal Disentanglement for Time Series”, NeurIPS 2022; Yao, Sun, Ho, Sun, Zhang, “Learning Temporally causal latent processes from general temporal data”, ICLR 2022.
- 非线性 ICA 与多域：讲者提及“自己之前的工作”，但未给出具体引用。
- CD-NOD 方法（非平稳/异质数据）：Zhang et al., “Causal Discovery from Nonstationary/Heterogeneous Data”, 约 2010 年起的一系列工作；幻灯片中使用了“scatter diagram shrinking subspace”图。

【剩余开放问题】（每条基于转写中的具体陈述，只罗列，不评判可行性）： 1. [0:49:30] 非线性函数估计的误差对因果发现的影响（Q&A 中的问题）：若估计的非线性函数不精确，是否导致错误的方向判断？讲者回答不够充分——“先看数据分布特点选择函数类，最好从更一般的函数类开始”。这本质上是一个去偏/后选择推断问题：在拟合一个复杂 FCM 后，如何检验因果方向？ 2. [1:04:32] 大规模模型（如 DALL·E）是否通过纯统计学习获得了因果结构？ 如果是，那么因果表示学习的“附加价值”是什么？（Veitch 的提问）讲者回应：域适应与因果问题是不同的问题，但并未正面回答“大模型为何能生成复杂因果组合”。
3. [1:05:10] 异质/非平稳数据下，如何区分“因果机制变化”与“混杂变化”？ 即当前 CD-NOD 方法中“独立变化”原则何时失效？讲者提到了反例（症状-疾病-医院分类），但并未讨论如何系统诊断假设违反。
4. [1:06:40] 在域适应中，有时“伪因果表示”比真实的因果表示更有用——这一点与关于“intervention”的最优预测目标如何调和？讲者未深入。
5. [0:31:00] “可识别性定理”的有限样本版本：后非线性模型的5种退化情形在有限样本下是否可检测？目前理论只给出了渐近不可区分性。

Maintained by 陈星宇 · Homepage · Source on GitHub

Methodological advances in causal representation learning¶

一、这场报告在讲哪条工作线¶

二、最小内核/一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论