Methodological advances in causal representation learning¶
讲者: Kun Zhang
讨论人: Victor Veitch
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-11-01
主题: 因果推断
视频: https://youtu.be/oBiGEfEPMH0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
【方向定位】
这场报告系统性地介绍了因果表示学习(Causal Representation Learning)这一子方向。该方向的核心问题是:能否仅从观测数据(可能含大量潜在混杂变量)中,恢复出产生那些数据的潜在因果变量及其因果结构,而不仅仅停留在预测或关联层面? 它与传统因果发现(causal discovery)的差异在于:更侧重于从低层观测变量(如像素、问卷得分) 推断高层潜在因果变量(如物体的位置、心理特质) 及其关系。
【奠基与主流路线】
- 约束基方法(constraint-based approaches, 如 PC 算法, Spirtes, Glymour, Scheines, 1993):利用条件独立性测试,从观测变量间恢复部分定向的因果图(Markov equivalence class)。要求无潜在混杂(PC)或允许潜在混杂(FCI)。
- 函数因果模型(functional causal models, FCM):引入对因果机制的结构性假设(如线性非高斯、加性噪声、后非线性模型),使得因果方向变得可识别。代表性工作包括 Shimizu et al. (2006) 的 LinGAM、Hoyer et al. (2009) 的加性噪声模型、以及讲者参与的后非线性模型(Zhang & Hyvärinen, 2008, 2009)。
- 潜在变量学习:当观测变量由潜在变量生成时,利用条件独立性与分布非高斯特性的组合(如 Silva et al., 2006 的 tetrad 条件;Xie, Cai, Huang, et al., 2019, 2020 的广义独立噪声条件 (GIN))来发现潜在变量及其因果排序。
- 时间序列/异质数据:利用时间延迟(Granger causality, Hyvärinen et al., 2010)或多个环境下的“独立变化”原则(CD-NOD, Zhang et al., 2010 起)来增强可识别性。
【当前前沿与这场报告的站位】
这场报告给出的统一框架将问题划分为三个维度:(1) 数据的性质(i.i.d. vs 非平稳/异质),(2) 是否引入参数化约束(如线性非高斯、加性噪声),(3) 是否允许潜在混杂变量。它系统总结了在不同“格子点”上(如i.i.d.线性非高斯含潜变量、时间序列无即时效应、多环境下的独立变化)当前可达到的可识别性类型(MEC、唯一可识别、变分子空间可识别等)。报告不仅梳理了已有成果(包括讲者自己大量的工作),也通过讨论(Veitch的点评与讲者的回应)暴露了该领域与大规模模型(foundation models) 以及分布外泛化之间的张力——“因果表示学习在实践中的收益尚不明确”,这本身即是当前前沿争论的焦点。
二、最小内核/一个最简例子¶
核心思想:通过对因果机制施加“模块性”与“独立变化”的结构性假设,从观测数据的统计特性中恢复因果变量与方向。
【一个最简例子:二值变量线性非高斯模型】
- 可观测数据:一对变量 \((X, Y)\),独立同分布观测 \(n\) 次。
- 潜在真实因果模型(假设 \(X \to Y\)):
【为什么方向可识别?】
- 正向回归:计算 \(Y\) 对 \(X\) 的回归残差 \(R_{Y|X} = Y - \hat{a}X\)。若模型正确,\(R_{Y|X} \perp\!\!\!\perp X\)(独立)。
- 反向回归:计算 \(X\) 对 \(Y\) 的回归残差 \(R_{X|Y} = X - \hat{b}Y\)。此时,因为 \(X\) 和 \(E\) 独立但 \(Y = aX + E\),反向残差 \(R_{X|Y}\) 一般与 \(Y\) 相关。只有当 \(a=0\) 或 \(X\) 与 \(E\) 都是高斯时(此时独立与不相关等价),反向才有可能满足独立性。
- 识别原则:哪一侧的残差与假设的“原因”独立,那一侧即为正确的因果方向。独立噪声条件使因果方向在非高斯情形下唯一可识别(除了幻灯片列出的5种退化情形,如线性高斯)。幻灯片指出,该模型可推广为后非线性模型(\(Y = f_2(f_1(X) + E)\)),覆盖更多非线性与乘性噪声情形,方向可识别性依然成立(Zhang & Hyvärinen, 2009)。
三、报告主体:讲者讲了什么¶
结构总览:[H:MM] — 讲者从“依赖vs因果”出发,按 i.i.d. 观测、时间序列、异质/非平稳数据三类数据场景组织内容,并穿插讨论者 Veitch 的评述与回应。
【Part 1: 为什么需要因果表示】([0:01:30] - [0:09:00])
- [0:01:30] 以雨-湿地面-滑倒的经典三变量例子,说明同一依赖模式可对应不同的因果模型,但不同模型在干预下的行为截然不同。
- [0:03:00] 给出几个动机性例子:肺癌干预、推荐系统中的混杂(Simpson's paradox)、50年前女大学生智商偏见(选择偏差)。
- [0:05:00] 提出对抗攻击的例子(给熊猫加微小噪声变成“长臂猿”),说明若机器学习只学关联特征而非因果特征,易受这种攻击。引出 Kant 的形而上学([0:07:47] — “世界如我们经验的那样是由因果结构构建的”),来源于 Clark Glymour,作为为何追求因果表示的一个哲学动机。
【Part 2: 因果系统的“足迹”】([0:09:00] - [0:13:00])
- [0:09:47] 三大统计特性:
1. 条件独立性(Markov condition):因果图蕴含的 d-分离给出条件独立性约束。
2. 独立噪声条件(independent noise condition):因果机制中的误差独立于原因(在无混条件下)。
3. 最小与独立变化原则(principle of minimal & independent changes):在非平稳/多环境下,不同因果模块的变化是独立的;用错误的因果表示会引入更多的人为变化。
- [0:13:24] 用一张表格总结,这三个条件分别对应不同的方法。
【Part 3: i.i.d. 观测数据下的方法】([0:13:50] - [0:38:30])
- [0:14:00] 因果发现 vs 因果表示学习:前者侧重恢复整个因果图,后者侧重恢复潜在变量及其因果结构。讲者将后者视为前者的子任务。
- [0:16:29] 应用于考古学数据(Marlijn Noback 的 250 具骨架,8个特征变量,[0:16:30])。
- [0:17:47] PC算法演示:从条件独立性测试逐步构建骨架与 v-structure。例子:颅骨大小、气候、饮食等关系的发现([0:19:57] 给出结果图)。
- [0:20:03] 处理潜在混杂:用两个四变量小例展示 FCI 算法的逻辑。
- [0:23:58] 例1:通过特定条件独立模式,推断出变量间不存在潜在混杂(如“湿地面”直接引起“滑倒”)。
- [0:24:04] 例2:另一模式则一定需要潜在混杂(如“我在会议室”、“你在会议室”的关联背后是“共同参加的 seminar”)。
- [0:25:38] 函数因果模型与方向识别:以线性非高斯、后非线性、加性噪声模型为例,说明“独立噪声条件”如何产生因果不对称性。
- [0:28:01] 例子:海拔 vs 降水量(300个城市),由方向不对称性可知海拔是原因。
- [0:31:00] 讲者提到一个“负”结果:通过求解微分方程,找出了仅有的5种(包括线性高斯情形)因果方向不可识别的情形(Zhang & Hyvärinen, 2009),说明对于后非线性模型,方向一般可识别。
- [0:32:10] 潜在变量学习(从i.i.d.数据):
- [0:32:17] 心理测量学背景:观测变量(如问卷得分)由潜在心理变量生成。
- [0:33:12] 广义独立噪声条件(GIN, Xie et al., 2020):存在某个线性组合 \(w^\top Y\) 与另一组变量 \(Z\) 独立 \(\Rightarrow\) 该组合对应于某个共同潜在父变量的因果代理。
- [0:34:13] 用例子图解:两个子集 \(Y\) 和 \(Z\) 满足 GIN,意味着 \(Y\) 的外生潜在父集 d-分离 \(Y\) 与 \(Z\)。
- [0:35:16] 应用:教师职业倦怠数据(28 个观测变量),发现潜变量及其因果顺序,与心理学专家的假设模型一致。
- [0:36:00] 扩展:恢复深层层级结构(Xie et al., 2022; Huang et al., 2022)。用 GIN 或秩约束一步步向上构建潜变量层次。
- [0:36:45] 理论结果:Adams, Hansen, Zhang (NeurIPS 2021) 确定了含潜变量图的必要且充分的可识别条件,例如哪些含2个潜变量的有向图能用3个观测变量恢复(幻灯片显示出22种可识别图之一)。
【Part 4: 时间序列与异质数据】([0:38:30] - [0:48:00])
- [0:38:39] 时间序列:利用时间延迟 + 无即时效应假设(分辨率足够高时因果影响需要时间)。
- [0:39:23] LEAP(Yao et al., 2022):观测 \(\mathbf{x}_t = g(\mathbf{z}_t)\),\(\mathbf{z}_t\) 是低维潜变量,服从“时间滞后因果过程”(如 VAR)且无即时效应。可识别潜变量及因果关系。
- [0:41:36] 示例结果:KITTI Mask 视频(恢复3个潜变量:水平运动、垂直运动、大小);Mass-Spring 视频(恢复5个小球的 X/Y 坐标及其弹簧连接关系)。
- [0:41:27] 异质/非平稳数据:利用不同环境/时间段下因果模块的独立变化。
- [0:42:27] 核心想法:若因果机制是模块化的,则不同模块的变化应独立。用这个想法可以同时识别结构、方向、以及变化的低维表示。
- [0:43:24] 应用实例:纽约证交所 80 只股票数据,恢复出变化的低维表示,与 TED 利差(市场风险)一致。
- [0:44:09] 用于域适应(domain adaptation):先发现因果结构(等于学习数据如何变化),再在新的目标域上做推断。
- [0:45:41] 一个警示(讲者特别强调):从数据学习的“表示”不一定就是因果的。例子:“症状-疾病-医院分类”下,病人按症状分到医院,此时“从症状预测疾病”的机制看似稳定,但潜模型图与真正的因果图完全不同(因为医院分配是依据症状而非疾病)。
- [0:46:57] 非线性 ICA 与多域/非平稳:通过对潜变量施加“少数潜变量改变、映射函数不变”的假设,可实现非线性 ICA 的可识别性(讲者此前的工作)。
【Part 5: 讨论者 Veitch 的评述与讲者回应】([0:52:00] - [1:08:00])
- [0:52:10] Veitch 以“非常主观的高层视角”提出两个挑战:
1. 域适应中的因果方法并未战胜简单基线:在真实域适应基准中,用大模型(ERM,无因果技巧)往往表现最好或持平。
2. 大规模模型(如 DALL·E)似乎自动学到了丰富的因果结构(生成“紫色牛吹萨克斯在火星上”),尽管训练目标毫无因果性。
- [0:55:30] Veitch 展示了“即使因果关系绝对稳定”,应当用因果父集来预测 Y 的最优策略也只对应于众多因果结构中的一种特例;其他结构下,因果正确与域鲁棒并不简单等价。
- [1:04:32] 讲者回应:
- [1:04:50] 域适应与因果学习本质上是不同的问题;域适应只关心分布如何变化,不关心潜图是否真正反映物理因果。
- [1:05:10] “因果特征更稳定”的说法并非普遍成立;X→Y 的机制本身也可因环境而变。
- [1:05:45] 因果表示学习只能在合适的假设下完成;若假设不成立,学习到的表示不是因果的,但对域适应可能仍有帮助。
- [1:07:26] 讲者对自己关于域适应的观点被 Veitch 认作“更负面”感到认可,但强调关系比“完全不相干”更复杂。
【核心技术技巧 / 证明草图】:
- 独立噪声条件([0:10:13]):讲者没有给形式化证明,但在幻灯片中明确指出,对于后非线性模型,仅对线性高斯等少数退化情形(5种[0:31:00])方向不可识别——该结论来自 求解泛函方程(微分方程)。
- GIN 条件的图论解释([0:33:12]):线性非高斯模型的谱的稀疏性导致 \(w^\top Y\) 与 \(Z\) 独立,等价于 \(Y\) 的外生潜在父集 d-分离 \(Y\) 与 \(Z\)。
- 时间序列的可识别性(LEAP,[0:39:23]):关键在于“无即时效应假设”——时间滞后关系的某些特性能使观测值的非线性混合可被分离,即时间延迟导致因果结构在谱上留下可辨识的印记。
四、对应论文与开放问题¶
【对应论文】(讲者已清晰列出,幻灯片上给出了全文献信息;以下仅列出本研究领域最相关者,所有标题/年份来自幻灯片,不确定性极低):
- GIN 与潜在变量因果图:Xie, Cai, Huang, Glymour, Hao, Zhang, “Generalized Independent Noise Condition for Estimating Linear Non-Gaussian Latent Variable Causal Graphs”, NeurIPS 2020.
- 三元组约束:Cai, Xie, Glymour, Hao, Zhang, “Triad Constraints for Learning Causal Structure of Latent Variables”, NeurIPS 2019.
- 潜变量层级结构:
- Xie, Huang, Chen, He, Geng, Zhang, “Estimation of Linear Non-Gaussian Latent Hierarchical Structure”, ICML 2022.
- Huang, Low, Xie, Glymour, Zhang, “Latent Hierarchical Causal Structure Discovery with Rank Constraints”, NeurIPS 2022.
- 部分观测的线性因果模型:Adams, Hansen, Zhang, “Identification of Partially Observed Linear Causal Models: Graphical Conditions for the Non-Gaussian and Heterogeneous Cases”, NeurIPS 2021.
- 时间序列的潜因果过程:Yao, Chen, Zhang, “Causal Disentanglement for Time Series”, NeurIPS 2022; Yao, Sun, Ho, Sun, Zhang, “Learning Temporally causal latent processes from general temporal data”, ICLR 2022.
- 非线性 ICA 与多域:讲者提及“自己之前的工作”,但未给出具体引用。
- CD-NOD 方法(非平稳/异质数据):Zhang et al., “Causal Discovery from Nonstationary/Heterogeneous Data”, 约 2010 年起的一系列工作;幻灯片中使用了“scatter diagram shrinking subspace”图。
【剩余开放问题】(每条基于转写中的具体陈述,只罗列,不评判可行性):
1. [0:49:30] 非线性函数估计的误差对因果发现的影响(Q&A 中的问题):若估计的非线性函数不精确,是否导致错误的方向判断?讲者回答不够充分——“先看数据分布特点选择函数类,最好从更一般的函数类开始”。这本质上是一个去偏/后选择推断问题:在拟合一个复杂 FCM 后,如何检验因果方向?
2. [1:04:32] 大规模模型(如 DALL·E)是否通过纯统计学习获得了因果结构? 如果是,那么因果表示学习的“附加价值”是什么?(Veitch 的提问)讲者回应:域适应与因果问题是不同的问题,但并未正面回答“大模型为何能生成复杂因果组合”。
3. [1:05:10] 异质/非平稳数据下,如何区分“因果机制变化”与“混杂变化”? 即当前 CD-NOD 方法中“独立变化”原则何时失效?讲者提到了反例(症状-疾病-医院分类),但并未讨论如何系统诊断假设违反。
4. [1:06:40] 在域适应中,有时“伪因果表示”比真实的因果表示更有用——这一点与关于“intervention”的最优预测目标如何调和?讲者未深入。
5. [0:31:00] “可识别性定理”的有限样本版本:后非线性模型的5种退化情形在有限样本下是否可检测?目前理论只给出了渐近不可区分性。
Maintained by 陈星宇 · Homepage · Source on GitHub