Learning Representations Using Causal Invariance¶
讲者: Leon Bottou
讨论人: Dominik Rothenhäusler
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-06-08
主题: 因果推断
视频: https://youtu.be/Rewr4GmkYEk
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
-
子方向:利用环境不变性进行分布外泛化(Out-of-Distribution Generalization, OOD) 这场报告的核心是不变性风险最小化(Invariant Risk Minimization, IRM)。这个子方向试图回答一个根本性的机器学习问题:如何训练模型,使其在面对与训练数据分布不同的测试数据时,依然表现良好?传统的经验风险最小化(Empirical Risk Minimization, ERM)假设训练和测试数据独立同分布(i.i.d.),这在现实世界中往往不成立。IRM的关键洞察是:利用来自多个不同环境(或域)的数据,学习一个数据表示(representation),使得基于该表示的最优预测器(分类器/回归器)在所有环境中都相同(即,条件分布
P(Y|Φ(X))是环境不变的)。 -
奠基与主流路线
- 奠基工作: 该方向的核心思想深深植根于因果推断。正如报告引用和讨论者(Dominik Rothenhäusler)所述,在因果模型
Y = f(Pa(Y), ε)中,给定因变量Y的直接原因(其父节点)后,Y的条件分布在任何对非直接原因变量的干预下都是不变的 [Peters et al., 2016]。- Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: identification and confidence intervals. Journal of the Royal Statistical Society: Series B (Statistical Methodology).(该工作提出在已知变量集合的情况下,寻找直接因果父节点的集合——ICP)。
- 主流路线之一:分布鲁棒优化(DRO)。 即在最坏情况的某个分布邻域内最小化损失。报告提到了 DRO,并明确指出它的局限性:它只能保证在训练环境构成的“凸包”内有效,无法保证在凸包外的外推能力 [0:08:26]。
- 主流路线之二:对抗性域适应(Adversarial Domain Adaptation)。 通过一个对抗性训练过程,迫使特征表示
Φ(X)的分布本身在所有环境中相同(即Φ(X) ⟂ E)。报告批评了这一点,认为这是个“过强”的要求,因为不同环境下的协变量分布自然不同,迫使Φ的边际分布不变会丢失大量信息 [0:17:18]。
- 奠基工作: 该方向的核心思想深深植根于因果推断。正如报告引用和讨论者(Dominik Rothenhäusler)所述,在因果模型
- 本报告站在哪:
- IRM 站在上述两条主线的交叉点上。它比 DRO(只在凸包内保证)更具野心,因为它追求的是基于不变性的外推能力(extrapolation power)。它比对抗性域适应(强制边际分布相同)更柔和,因为它只要求条件分布
P(Y|Φ(X))跨环境不变,而不是P(Φ(X))本身不变。 - 报告试图建立 IRM 与因果发现之间的枢纽:如果找到的表示
Φ(X)是条件不变的,它在某些条件下能够恢复Y的因果父节点(direct causes)[0:16:30]。 这场报告重点揭示了 IRM 在理论上和实践中的陷阱与未解之谜。
- IRM 站在上述两条主线的交叉点上。它比 DRO(只在凸包内保证)更具野心,因为它追求的是基于不变性的外推能力(extrapolation power)。它比对抗性域适应(强制边际分布相同)更柔和,因为它只要求条件分布
二、最小内核 / 一个最简例子¶
为了直观理解 IRM 的核心思想,我们构造一个最简单的线性高斯例子。
-
符号与模型
- 可观测数据:
(X, Y, E),其中X是 p 维协变量(X = (X₁, X₂, ..., X_p)),Y是结果变量(标量),E ∈ {1, ..., M}是环境的离散标签。 - 潜在数据生成机制:存在一组“因果变量”(
X_c)直接生成Y,以及一组“非因果/混淆/干扰变量”(X_s),这些变量与Y之间存在虚假相关(spurious correlation),这种相关会随着环境的变化而变化。理想情况下,我们希望模型能忽略X_s,只依赖X_c。 - 目标:找到一个特征表示函数
Φ: ℝᵖ → ℝᵈ和一个线性预测器g: ℝᵈ → ℝ(对于线性情况),使得在所有环境中,损失函数的期望最小点都相同。更具体地,对于线性平方损失,我们希望找到参数对(Φ, w),其中Φ是特征投影矩阵,g(z) = wᵀ z,使得:w ∈ argmin_{{w' ∈ ℝᵈ}} 𝔼_{e}[ (Y - w'ᵀ Φ(X))² ]对于所有的环境e都成立。
- 可观测数据:
-
最简特例(d=1, p=2, M=2) 设
X = (X₁, X₂),其中:X₁是导致Y的因果变量:Y = X₁ + εX₂是非因果的干扰变量,它只是Y的某个函数加噪声,例如X₂ = α_e * Y + δ,其中α_e在不同的环境中变化。这意味着X₂和Y的线性相关性随环境改变。- 环境分为
e=1和e=2。假设训练时α₁ = 0.9, α₂ = 0.1。这意味着在环境1中,X₂几乎是Y的强信号(相关性高);在环境2中,相关性很弱。
-
ERM 会失败:如果直接用
Y对X=(X₁, X₂)做线性回归(ERM),模型会“发现”在环境1和2的联合数据中,X₂是一个很强的预测因子。因此它会赋予X₂很大的权重。但当测试环境出现一个完全不同的α值时(例如逆相关),模型会失效。 -
IRM 的核心思想:
- 表示学习:我们希望学习一个表示
Φ(X),例如Φ(X) = X₁(即理想情况下,只保留因果变量)。或者,更一般地,学到一个能投影到一维空间的映射。 - 不变性条件:我们希望找到一个
Φ和一个w,使得g(Φ(X)) = w * Φ(X)的损失在所有环境中都有一个共同的驻点。在线性情况下,这意味着Y在给定Φ(X)后的条件期望(最优线性预测器)对所有环境都相同。 - 为什么它有效? 对于
Φ(X)=X₁,E[Y | X₁] = X₁在所有环境中都成立(因为Y的生成机制没变)。这意味着从X₁到Y的映射是不变的。而任何试图使用X₂的表示(如Φ(X) = (X₁, X₂)),其最优线性预测器w将会包含一个依赖于α_e的权重(对X₂的系数),从而无法在所有环境中同时达到相同的最优点。 - 噪声的必条件:报告反复强调 [0:12:30],IRM 的威力只在噪声存在时才得以体现。如果
Var(ε)=0(即无噪声情况),存在一个完美的Φ使得Y可以被完全预测,此时不变性条件变得平凡(任何能完美预测的Φ都满足不变性),导致有无穷多解。因此,噪声是让“不变性”成为一个约束,从而获得非平凡解的必要条件。
- 表示学习:我们希望学习一个表示
三、报告主体:讲者讲了什么¶
- [0:01:55] 动机:统计正确的局限性 讲者(Leon Bottou)从一个机器学习场景出发(AI for AI [字幕转写者注]),指出统计模型在代理任务(proxy problem)中表现优异,但与真实任务存在差距。核心例子是识别“在打电话”的人——模型实际上是学习了“有电话+有人”这一虚假相关(spurious correlation),而非真正理解“把手机放在耳边”这一动作。他指出,当数据集太大无法精挑细选(curated)时,算法会无孔不入地利用这些虚假相关。
- [0:06:14] 核心问题:异质性环境中的不变性
讲者提出,现实世界的数据收集于不同时间、地点、实验条件(如来自不同社交平台的文本),将它们简单的i.i.d.混在一起就是“损失信息”。他建议我们应利用这种异质性(heterogeneity):数据被收集于多个环境
e,各有不同分布Pₑ。目标不是拟合混合分布,而是找到一个在各个环境的Pₑ下都成立的共同规律。 - [0:07:02] 现有方法(DRO)的局限 讲者讨论了分布鲁棒优化(DRO)。他指出,最小化最坏情况下的损失等价于以一组特定的mix比例混合所有环境。但DRO只能保证在训练数据分布的凸包(convex hull)内有效,无法保证外推。他举了一个搜索查询分类的例子 [0:08:54],其中查询的流行度随时间变化(常数、上升、下降),而DRO只能内插,无法应对“仅在将来出现”的新环境。
- [0:12:41] IRM 的核心定义
这是报告最核心的定义。讲者提出寻找一个双参数模型:
Φ: X → ℝᵈ(表示函数)和g : ℝᵈ → Y(决策函数)。IRM的目标是:找到一个表示Φ,使得所有环境e下的最优预测器gₑ(通过最小化本环境内Eₑ[(Y - g(Φ(X)))²]得到)都是同一个g。 用数学语言:w ∈ argmin_{w'} ℛₑ(w∘Φ)对所有环境e成立。 - [0:19:06] IRMv1:一个简单的实现技巧
由于上述约束优化问题在非凸空间中非常难以求解,讲者介绍了一个名为 IRMv1 的实用变体。其关键在于利用函数族的冗余性(例如,当
g是线性且Φ的最后一层是线性时,我们可以吸收任意可逆矩阵)。通过约定g为恒等函数(即g(z)=z),问题转化为:训练Φ使得对于每个环境e,Φ都恰好是跨环境不变的回归器的驻点。minΦ Σₑ ℛₑ(Φ) + λ * ||F(Φ, e)||²,其中F(Φ, e)是一个“不变性惩罚”,比如F(Φ, e) = ∇w|w=1.0 ℛₑ(w * Φ)。这个惩罚项迫使跨环境Φ都恰好是各自环境中风险函数的驻点。该惩罚项是非凸的,且不连续(因为一旦不满足,它会完全忽略噪声 [字幕可能有误,噪音对应不同环境下的风险函数驻点])。 - [0:20:54] 示例:Colored MNIST
这是IRM的经典验证实验。
- 设置:MNIST 数字分为两类(0-4 vs 5-9),添加了25%的随机标签噪声(使问题本质不可分)。给每个数字添加颜色(红色/绿色),颜色与标签的相关性在训练环境中反向且不同。例如,环境1中,红色对应45%真实标签,绿色对应55%;环境2中,这个比例反过来。这样一来,颜色特征比数字本身的形状特征在训练集上更可靠,但跨环境是变化的。测试时,颜色相关性被完全反转。
- 结果:ERM会在训练环境上表现极好(因为它学会了利用颜色),但测试时完全失效(约10%准确率)。IRM在训练环境上的准确率稍低,但在测试环境上性能稳定(约70%准确率),证明它成功学到了基于数字形状的、跨环境不变的表示。
- [0:24:51] 理论分析:线性情形的数学原理
讲者回到了最简的线性情况,用线性代数进行精细分析。
- 线性情形:
Φ(x) = S x(S是d×p矩阵),g(z) = w ᵀ z。因此整个模型是wᵀ S x。问题变为寻找S和w。 - 不变性条件:一个必要充分条件是:
w必须与 所有环境下的风险函数的梯度 正交。这意味着,w必须位于所有环境梯度的零空间(null space)里。这个零空间是这些梯度张成的空间的正交补。因此,表示矩阵S的零空间必须包含所有这些梯度。 - 方程计数与唯一性:对于d维表示,需要跨
M个环境。Rota [1:02:55] 包含了一个关键的线性代数洞察:如果M足够大(超过某个维度差),那么满足不变性条件的解集是离散的(finite),这为实现从零维不变性中找到唯一正确的解奠定了基础 [0:30:13]。 - 噪声的作用:在无噪声时,解集的结构变得复杂,出现了一个“纯粹解决方案”集合,这对应于报告开头提到的“噪不够大”的情况 [0:32:10]。
- 线性情形:
- [0:33:14] 实践中的惨痛教训 讲者坦率承认,将IRM扩展到真实复杂数据(如图像)的效果并不好。David和Nishan的基准测试显示,经过适当超参数搜索的ERM难以被超越。IRM在实际问题中往往只能带来微小的改进 [0:24:31]。这揭示了理论和实践之间的巨大鸿沟。
四、对应论文与开放问题¶
-
(a)对应论文 该报告无疑基于以下核心论文(及其后续工作)。演讲者提到 Martin Arjovsky、Leon Bottou、Ishan Deshpande、David Lopez-Paz 等:
- Arjovsky, M., Bottou, L., Gulrajani, I., & Lopez-Paz, D. (2019). Invariant Risk Minimization. arXiv preprint arXiv:1907.02893.
- (演讲者也在后续工作中进一步分析了线性情形。)
- 尚不确定名字:Dominik Rothenhäusler 提到的其研究者“May have not [found]”的工作,可能关联到其对鲁棒性和因果推断的观点。
-
(b)开放问题(扎根于转写)
- 非线性与非平凡噪音下的理论保证 [0:12:30]: 报告沿其逻辑指出,IRM 非平凡的解决方法只在噪音存在时才存在。然而,对于线性高斯之外的一般非线性情况,如何给出一个可计算的、有理论保证的不变性条件,并分析其样本复杂度,依然开放。
- “大部分ML问题是现实可实现的,而非概率的”之辨 [0:21:24]:讲者指出,许多实际 ML 问题并非反事实(非可证明的正确标签产生),而是“数据充足,特征提取困难”的可实现问题。在可实现的情况下,IRM 的有效性是否会急剧下降?如何解决这个问题?
- 算法不稳定性与优化 [0:23:11]: IRMv1 的惩罚项是非凸且高度非连续的,这导致其在数值优化上极其困难 [0:30:24]。如何设计更适合优化的不变性目标是显著挑战。
- 泛化性 vs. 保守性(insurance analogy) [0:40:03 讨论者]: 讨论者(Dominik)提出的“保险”类比非常精妙。IRM 在“购入”对某些分布偏移的鲁棒性的同时,是否可能增加了对其他方向的敏感性?如何理性选择要鲁棒化的环境,并量化这种权衡?在低维环境中,加入保险的代价可能很高 [0:49:57]。
- 潜藏混杂的机制 [0:54:31]: Bottou 对“潜藏混杂”的看法颇具启发性:许多声称的潜藏混杂并非真的不可观测,而是我们尚未从已有的高维数据中“抽出”出来。这一观点将问题还原为:如何从大规模、高维的混乱数据中,自动发现导致 Simpson 悖论的那些关键变量(即通常所说的潜藏混杂)——这更像是表示学习的问题而非识别问题。
Maintained by 陈星宇 · Homepage · Source on GitHub