Learning and Using Causal Representations¶
讲者: Kun Zhang
讨论人: C osma Shalizi
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-03-16
主题: 因果推断
视频: https://youtu.be/_MVi6XzOdD0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告讲述的是 因果表示学习(Causal Representation Learning) 这一研究路线,更具体地说,是 从观测数据中发现因果关系 (Causal Discovery) 及其在机器学习和领域自适应中的应用。讲者 Kun Zhang 是这一领域非常活跃的研究者,他的工作覆盖了从传统的因果发现算法到利用非平稳/异质数据特性进行因果关系推断的多个前沿方向。
这个子方向在追问什么?
核心问题是:在没有实验干预、仅凭观测数据的情况下,能否恢复变量之间(以及隐藏变量与观测变量之间)的因果结构和因果机制?如果可以,需要哪些数学和统计假设?如何量化推断的不确定性?
奠基与主流路线: - 基于约束的方法 (Constraint-based): - 奠基工作:Spirtes, Glymour, and Scheines 的《Causation, Prediction, and Search》(1993) ,以及后来发展的 PC 算法和 FCI (Fast Causal Inference) 算法。 - 核心思想:利用数据中的条件独立性关系,推断一个与这些关系一致的图结构(通常是偏序关系,即马尔可夫等价类)。对混淆变量有部分处理能力(如 FCI),但通常只能得到部分方向的判断。 - 基于功能因果模型的方法 (Functional Causal Model-based): - 奠基工作:Shimizu et al. 的 LiNGAM (Linear Non-Gaussian Acyclic Model) (JMLR, 2006);Hoyer et al. 的 Additive Noise Model (NIPS'08)。 - 核心思想:通过对因果机制(函数形式 + 噪声分布)施加额外的假设(如非高斯性、噪声独立于原因),打破因果方向上的对称性,从而能够 唯一地 确定因果方向。 - 这一路线的核心在于寻找“可识别性”条件。
当前 frontier(这场报告站的位置): - Zhang 的报告处于 “超越标准功能因果模型” 的前沿。他回顾了后非线性因果模型 (Post-Nonlinear, PNL) 及其识别性理论(Zhang & Hyvärinen, UAI'09),这是比 LiNGAM 和 Additive Noise 更一般的模型,能够更准确地逼近真实生成过程并保持因果方向的可识别性。 - 更重要的是,报告介绍了他和他的合作者在 应对现实数据中的各种挑战 方面的工作,包括: - 测量误差中的因果发现 (Zhang et al., UAI'18, PSA'18)。 - 选择偏差下的因果发现 (Zhang et al., UAI'16)。 - 隐藏因果表示学习:这是从观测变量中恢复隐藏变量及其因果关系的框架,是因果表示学习的核心。 - 非平稳/异质数据下的因果发现 (Zhang et al., IJCAI'17; Huang et al., ICML'19) :这是该领域的一个关键进展。其核心洞见是,如果数据来自不同的分布,那么这些分布的变化往往源于因果机制(条件分布)的“独立变化”。利用这一特性,可以比单分布数据发现更丰富的因果信息(如确定因果方向,识别变化的机制)。这一思想也是连接因果发现和迁移学习的桥梁。
二、最小内核 / 一个最简例子¶
核心模型与符号 (以功能因果模型为例):
- 潜在不可观测量:因果结构(即一个有向无环图 DAG,节点是变量,边表示直接因果关系)和每个节点的因果机制。我们假设存在一个潜在的生成过程。
- 可观测数据:从变量
X和Y的联合分布中抽取的独立同分布样本(x_i, y_i)。没有额外的时间信息。 - 参数 / Estimand:因果方向(是 X → Y 还是 Y → X?)以及因果机制的具体形式(如
Y = f(X) + E中的函数f)。 - 核心假设 (以 Additive Noise Model (ANM) 为例):
- 如果 X 是 Y 的原因,存在一个函数
f和一个与 X 独立的随机噪声E,使得Y = f(X) + E。 - 反之,如果 Y 是 X 的原因,那么存在一个函数
g和独立的噪声F,使得X = g(Y) + F。
- 如果 X 是 Y 的原因,存在一个函数
最简特例 (d=1, 两个时间点 / 变量:X 和 Y,假设已知内部关系是线性的但噪声非高斯):
-
因果假设:数据由线性非高斯模型生成。假设 X → Y,那么有:
X := E_X(E_X 是独立噪声,非高斯)Y := a * X + E_Y(E_Y 是与 X 和 E_X 独立的非高斯噪声) -
问题:我们只观测到
X和Y的样本,不知道因果方向。想判断是 X → Y 还是 Y → X。 -
核心思想 (Causal Asymmetry via Independence Condition):
- 尝试正向 (假设 X → Y):用线性回归将 Y 拟合为 X 的函数:
Ŷ = âX。计算残差R = Y - Ŷ。由于数据生成自Y = aX + E_Y,如果我们的模型(线性)是正确且无混淆的,那么残差R应该代表E_Y,并且应该与X(原因)独立。 - 尝试反向 (假设 Y → X):用线性回归将 X 拟合为 Y 的函数:
X̂ = b̂Y。计算残差S = X - X̂。如果 Y 不是原因(实际是 X → Y),那么因果结构对应的模型反向时,模型是错误的。此时解释变量 Y 中包含了由原因 X 带来的噪音,因此残差S与Y将 不独立(会呈现非线性模式)。例如,在讲者展示的非高斯均匀分布例子中,反向回归的残差与 Y 的散点图呈现依赖关系(如方差随 Y 变化)。
- 尝试正向 (假设 X → Y):用线性回归将 Y 拟合为 X 的函数:
-
结论:通过检验哪个方向的残差与假设的“原因”独立,就可以唯一地确定因果方向。这是 LiNGAM (Shimizu et al., 2006) 的核心思想。
因此,从“一个最简例子”来看,这场报告讲的主要是:
通过将生成机制的结构假设(如独立性噪声条件)转化为可检验的统计量(如独立性检验),我们可以把 无干预下的因果发现 这个看似不可能的任务,转化为一个 模型选择 问题(选择哪个因果方向能更好地满足模型的约束)。
三、报告主体:讲者讲了什么¶
[H:MM] 时间点均为近似,基于转写稿上下文推断。
[0:00 - 0:05] 开场与动机
- 讲者介绍自己来自 CMU,报告主题是“学习与使用因果表示”。
- 从具体实例出发:2015年 Google Photos 将黑人照片误标为“大猩猩”[0:02:28],以及对抗性攻击问题 [0:03:00]。
- 指出问题根源:机器学习的底层表征与人类使用的“因果表征”存在差异。
[0:05 - 0:08] 什么是智能? - 提出智能系统应当具备的能力:理解(能控制/干预)、分解、信息融合、少样本学习和外推(extrapolation)。 - 从进化与选择视角定义智能,强调其需要两个关键组件: - 内紧致表征 (Inner compact representation):用于进行良好预测。 - 因果表征 (Causal representation):用于创造性地改变环境、实现增长。
[0:08 - 0:11] 因果发现:传统约束类方法 (PC算法)
- 核心问题:给定观测数据,如何恢复因果结构?
- 关键假设:因果马尔可夫条件 (Causal Markov Condition) 和忠实性 (Faithfulness)。即:因果结构蕴含了数据中的所有条件独立关系。
- PC算法示例([0:11:40]):
1. 从完全图开始。
2. 通过条件独立性检验(如 X1 ⟂ X5 | X3)移除边,得到骨架。
3. 通过寻找V结构(如 X2 → X3 ← X4)确定部分方向。
4. 通过传入规则传播方向,最终得到部分有向图(马尔可夫等价类)。
- PC算法局限:无法处理所有方向的确定,且不能识别部分隐藏混淆变量。
[0:14 - 0:17] 处理混淆变量(未观测的共同原因)
- 展示两个例子,说明如何通过条件独立性信息推断是否存在混淆变量。
- 例子一:蛛网状结构 X1 → X3 ← X4。即使有隐藏变量,也能通过条件独立性检验排除“混淆变量”的存在。
- 例子二:导出矛盾冲突的一种结构模式,可以推测存在隐藏变量,如 X2 ⟂ X4(直接原因或效应都不符合),因此推断存在隐藏共同原因,而非直接因果。
- 这些观点被整合在 FCI (Fast Causal Inference) 算法中。
[0:17 - 0:21] QA:条件独立性检验的可靠性 - 问题:是否能信任条件独立性检验的结果? - 回答:取决于样本量。样本量大时可以用很小的alpha控制一类错误。非线性情况需要更多数据(300-500点)。提到可以搜索“FDR control in causal discovery”相关的文献。
[0:21 - 0:28] 功能因果模型:确定唯一因果方向
- 动机:克服PC算法无法唯一确定方向的限制。
- 核心模型:
- LiNGAM (线性非高斯):Y = aX + E,E 非高斯。利用非高斯性在反向回归时产生残留依赖。
- Post-Nonlinear (后非线性) 模型 [0:24:52]:X_i = f_i2(f_i1(Pa_i) + E_i),包含线性、加性噪声、乘性噪声等模型作为特例。这提供了非常一般且可识别的模型框架。
- 识别性理论 [0:27:00]:
- 除了五种退化的特例(包括线性高斯),后非线性模型下因果方向通常是可识别的。
- 这提供理论支撑,即通过检验“原因”是否与噪声独立,能唯一地确定因果方向,从而完全恢复DAG。
[0:28 - 0:35] 实际挑战与隐藏变量学习
- 实际挑战:介绍了在实际中遇到的各类数据问题,包括非线性、离散/混合变量、测量误差、选择偏差、缺失值、时间序列的时滞与聚合(sub-sampling)以及非平稳/异质数据。
- 隐藏因果表示学习 [0:32:43]:
- 问题:观测变量反映的是隐藏变量,我们想恢复隐藏变量及其因果结构。这是一个经典的潜在因子模型与因果发现的结合。
- 方法:利用独立条件 (Independent Condition) 推广版本,检测特定变量的线性组合的独立性,从而识别共享同一隐藏父节点的变量群集(cluster)及其因果顺序。
- 应用:用于分析教师职业倦怠问卷数据(28个问题变量),恢复出隐藏的“职业倦怠”结构,结果与专家假设模型高度一致。
[0:35 - 0:40] 非平稳/异质数据中的因果发现
- 核心思想 [0:36:00]:当数据来自不同的分布(如不同时间点、不同地点),因果机制(条件分布)可能变化,但重要的特性是这些变化是“独立”的。
- 应用:通过分析数据分布的变化,可以识别出哪些因果机制发生了改变,从而推断出真正的因果结构。例如,分析纽交所股票(2008金融危机前)的日收益数据。
- 优势:只用观测数据就能识别方向,并且能发现“改变的机制”,揭示变化的驱动因素。
[0:40 - 0:45] 迁移学习与领域自适应
- 动机:传统ML假设训练/测试分布相同,但现实常不同(domain shift)。
- 因果视角:如果知道因果方向(如标签Y是原因,特征是X效果),即使不知道联合分布,也可以仅从目标域的特征分布推断联合分布 P(X,Y),从而进行迁移(target shift)。这比反向预测更容易。
- 数据驱动领域自适应 [0:43:00]:利用从非平稳因果发现中得到的“模块化表示”(如哪些条件分布是变化的),建立概率图模型。领域自适应可以被形式化为该图模型下的推理问题(给定目标域特征值,推断目标标签的后验分布)。实验显示,这种方法在模拟和真实数据上都显著优于传统方法(如SEARCHERASAER)。
[0:45 - 0:50] 总结与未来方向
- 总结:
- 约束类方法可以恢复马尔可夫等价类。
- 功能因果模型(加噪声类)可以唯一确定因果图。
- 非平稳数据提供更多信息,可识别变化的因果机制。
- 因果表示可以用于领域自适应。
- 未来思路 [0:45:30]:找到能够连接不同场景和任务的统一紧凑表征,该表征可能具有因果解释。
四、对应论文与开放问题¶
(a) 对应论文
这场报告是 Kun Zhang 及其合作者在因果发现领域一系列工作的综述,而非单篇论文。报告幻灯片列出的关键论文包括:
- 约束类方法:Spirtes, Glymour, and Scheines. (1993) Causation, Prediction, and Search.
- LiNGAM:Shimizu, Hoyer, Hyvarinen, and Kerminen. (2006) "A linear non-Gaussian acyclic model for causal discovery." JMLR.
- 后非线性因果模型 (PNL Causal Model):Zhang and Hyvärinen. (2009) "On the identifiability of the post-nonlinear causal model." UAI 2009. (字幕可能有误,待核实)
- 非线性加噪声模型:Hoyer, Janzing, Mooij, Peters, and Schölkopf. (2008) "Nonlinear causal discovery with additive noise models." NIPS.
- 隐藏变量学习:Zhang and Chan. (2006) "Extensions of ICA for Causality Discovery in the Hong Kong Stock Market." ICONIP. (可能是相关工作)
- 非平稳/异质数据:Zhang et al. (2017) "Causal discovery from nonstationary/heterogeneous data." IJCAI.
- 测量误差:Zhang et al. (2018) "Causal discovery in the presence of measurement error." UAI 2018; PSA 2018.
- 选择偏差:Zhang et al. (2016) "Causal discovery from data with outcome-dependent selection." UAI 2016.
(b) 开放问题 (每条扎根于转写)
- 模型误设定的鲁棒性 (转写 [0:38:36] 的QA):
- 问题:各种方法对模型误设定(如假设线性但实际非线性,或使用了错误的函数形式)有多敏感?这是实际应用中的核心挑战。
- 条件独立性检验的统计功效与误差控制 (转写 [0:16:18] 与 [0:21:02] 的QA):
- 问题:在有限样本下,如何保证约束类方法和功能类方法(它们依赖于独立性检验或回归残差独立性检验)的误差可控?是否有通用的FDR或P值校准方法?
- 后选择推断 (转写 [0:58:15] 讨论者 Cosma Shalizi 的讨论):
- 问题:在同样的数据上先进行因果结构选择,再在此结构下进行因果效果估计(parameter estimation),会导致严重的后选择推断问题。如何恰当地量化并纠正这种偏差?是否可以通过数据分割(data splitting)或自举来解决?
- 领域自适应的前提假设 (转写 [0:44:48] 与 [0:46:56]):
- 问题:基于因果表示的领域自适应技术,其核心假设是“存在一些(因果)机制是跨域不变的”。如果这个假设不成立(即所有机制都在变化),那么该技术会失效。如何系统地检测和应对这种更复杂的变化?如何判断何时必须引入更高层次的表征才能使其“不变”?
- 隐藏变量学习的“先验知识” (转写 [0:36:00] 的教师数据应用):
- 问题:隐藏变量数量或它们的因果结构在何种条件下是可识别、可唯一恢复的?报告中的方法是基于线性非高斯假设(LiNGAM的推广)的,能否将其扩展到更一般的非线性隐藏因果模型?这在高维数据中是关键。
Maintained by 陈星宇 · Homepage · Source on GitHub