跳转至

Learning Representations Using Causal Invariance

讲者: Leon Bottou
讨论人: Dominik Rothenhäusler
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-06-08
主题: 因果推断
视频: https://youtu.be/Rewr4GmkYEk

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

  • 子方向:利用环境不变性进行分布外泛化(Out-of-Distribution Generalization, OOD) 这场报告的核心是不变性风险最小化(Invariant Risk Minimization, IRM)。这个子方向试图回答一个根本性的机器学习问题:如何训练模型,使其在面对与训练数据分布不同的测试数据时,依然表现良好?传统的经验风险最小化(Empirical Risk Minimization, ERM)假设训练和测试数据独立同分布(i.i.d.),这在现实世界中往往不成立。IRM的关键洞察是:利用来自多个不同环境(或域)的数据,学习一个数据表示(representation),使得基于该表示的最优预测器(分类器/回归器)在所有环境中都相同(即,条件分布 P(Y|Φ(X)) 是环境不变的)。

  • 奠基与主流路线

    • 奠基工作: 该方向的核心思想深深植根于因果推断。正如报告引用和讨论者(Dominik Rothenhäusler)所述,在因果模型 Y = f(Pa(Y), ε) 中,给定因变量 Y 的直接原因(其父节点)后,Y 的条件分布在任何对非直接原因变量的干预下都是不变的 [Peters et al., 2016]。
      • Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: identification and confidence intervals. Journal of the Royal Statistical Society: Series B (Statistical Methodology).(该工作提出在已知变量集合的情况下,寻找直接因果父节点的集合——ICP)。
    • 主流路线之一:分布鲁棒优化(DRO)。 即在最坏情况的某个分布邻域内最小化损失。报告提到了 DRO,并明确指出它的局限性:它只能保证在训练环境构成的“凸包”内有效,无法保证在凸包外的外推能力 [0:08:26]。
    • 主流路线之二:对抗性域适应(Adversarial Domain Adaptation)。 通过一个对抗性训练过程,迫使特征表示 Φ(X) 的分布本身在所有环境中相同(即 Φ(X) ⟂ E)。报告批评了这一点,认为这是个“过强”的要求,因为不同环境下的协变量分布自然不同,迫使 Φ 的边际分布不变会丢失大量信息 [0:17:18]。
  • 本报告站在哪:
    • IRM 站在上述两条主线的交叉点上。它比 DRO(只在凸包内保证)更具野心,因为它追求的是基于不变性的外推能力(extrapolation power)。它比对抗性域适应(强制边际分布相同)更柔和,因为它只要求条件分布 P(Y|Φ(X)) 跨环境不变,而不是 P(Φ(X)) 本身不变。
    • 报告试图建立 IRM 与因果发现之间的枢纽:如果找到的表示 Φ(X) 是条件不变的,它在某些条件下能够恢复 Y 的因果父节点(direct causes)[0:16:30]。 这场报告重点揭示了 IRM 在理论上和实践中的陷阱与未解之谜。

二、最小内核 / 一个最简例子

为了直观理解 IRM 的核心思想,我们构造一个最简单的线性高斯例子。

  1. 符号与模型

    • 可观测数据:(X, Y, E),其中 X 是 p 维协变量(X = (X₁, X₂, ..., X_p)),Y 是结果变量(标量),E ∈ {1, ..., M} 是环境的离散标签。
    • 潜在数据生成机制:存在一组“因果变量”(X_c)直接生成 Y,以及一组“非因果/混淆/干扰变量”(X_s),这些变量与 Y 之间存在虚假相关(spurious correlation),这种相关会随着环境的变化而变化。理想情况下,我们希望模型能忽略 X_s,只依赖 X_c
    • 目标:找到一个特征表示函数 Φ: ℝᵖ → ℝᵈ 和一个线性预测器 g: ℝᵈ → ℝ(对于线性情况),使得在所有环境中,损失函数的期望最小点都相同。更具体地,对于线性平方损失,我们希望找到参数对 (Φ, w),其中 Φ 是特征投影矩阵,g(z) = wᵀ z,使得: w ∈ argmin_{{w' ∈ ℝᵈ}} 𝔼_{e}[ (Y - w'ᵀ Φ(X))² ] 对于所有的环境 e 都成立。
  2. 最简特例(d=1, p=2, M=2)X = (X₁, X₂),其中:

    • X₁ 是导致 Y因果变量Y = X₁ + ε
    • X₂非因果的干扰变量,它只是 Y 的某个函数加噪声,例如 X₂ = α_e * Y + δ,其中 α_e 在不同的环境中变化。这意味着 X₂Y 的线性相关性随环境改变。
    • 环境分为 e=1e=2。假设训练时 α₁ = 0.9, α₂ = 0.1。这意味着在环境1中,X₂ 几乎是 Y 的强信号(相关性高);在环境2中,相关性很弱。
  3. ERM 会失败:如果直接用 YX=(X₁, X₂) 做线性回归(ERM),模型会“发现”在环境1和2的联合数据中,X₂ 是一个很强的预测因子。因此它会赋予 X₂ 很大的权重。但当测试环境出现一个完全不同的 α 值时(例如逆相关),模型会失效。

  4. IRM 的核心思想

    • 表示学习:我们希望学习一个表示 Φ(X),例如 Φ(X) = X₁(即理想情况下,只保留因果变量)。或者,更一般地,学到一个能投影到一维空间的映射。
    • 不变性条件:我们希望找到一个 Φ 和一个 w,使得 g(Φ(X)) = w * Φ(X) 的损失在所有环境中都有一个共同的驻点。在线性情况下,这意味着 Y 在给定 Φ(X) 后的条件期望(最优线性预测器)对所有环境都相同。
    • 为什么它有效? 对于 Φ(X)=X₁E[Y | X₁] = X₁ 在所有环境中都成立(因为 Y 的生成机制没变)。这意味着从 X₁Y 的映射是不变的。而任何试图使用 X₂ 的表示(如 Φ(X) = (X₁, X₂)),其最优线性预测器 w 将会包含一个依赖于 α_e 的权重(对 X₂ 的系数),从而无法在所有环境中同时达到相同的最优点。
    • 噪声的必条件:报告反复强调 [0:12:30],IRM 的威力只在噪声存在时才得以体现。如果 Var(ε)=0(即无噪声情况),存在一个完美的 Φ 使得 Y 可以被完全预测,此时不变性条件变得平凡(任何能完美预测的 Φ 都满足不变性),导致有无穷多解。因此,噪声是让“不变性”成为一个约束,从而获得非平凡解的必要条件。

三、报告主体:讲者讲了什么

  • [0:01:55] 动机:统计正确的局限性 讲者(Leon Bottou)从一个机器学习场景出发(AI for AI [字幕转写者注]),指出统计模型在代理任务(proxy problem)中表现优异,但与真实任务存在差距。核心例子是识别“在打电话”的人——模型实际上是学习了“有电话+有人”这一虚假相关(spurious correlation),而非真正理解“把手机放在耳边”这一动作。他指出,当数据集太大无法精挑细选(curated)时,算法会无孔不入地利用这些虚假相关。
  • [0:06:14] 核心问题:异质性环境中的不变性 讲者提出,现实世界的数据收集于不同时间、地点、实验条件(如来自不同社交平台的文本),将它们简单的i.i.d.混在一起就是“损失信息”。他建议我们应利用这种异质性(heterogeneity):数据被收集于多个环境 e,各有不同分布 Pₑ。目标不是拟合混合分布,而是找到一个在各个环境的 Pₑ 下都成立的共同规律。
  • [0:07:02] 现有方法(DRO)的局限 讲者讨论了分布鲁棒优化(DRO)。他指出,最小化最坏情况下的损失等价于以一组特定的mix比例混合所有环境。但DRO只能保证在训练数据分布的凸包(convex hull)内有效,无法保证外推。他举了一个搜索查询分类的例子 [0:08:54],其中查询的流行度随时间变化(常数、上升、下降),而DRO只能内插,无法应对“仅在将来出现”的新环境。
  • [0:12:41] IRM 的核心定义 这是报告最核心的定义。讲者提出寻找一个双参数模型:Φ: X → ℝᵈ(表示函数)和 g : ℝᵈ → Y(决策函数)。IRM的目标是:找到一个表示 Φ,使得所有环境 e 下的最优预测器 gₑ(通过最小化本环境内 Eₑ[(Y - g(Φ(X)))²] 得到)都是同一个 g 用数学语言:w ∈ argmin_{w'} ℛₑ(w∘Φ) 对所有环境 e 成立。
  • [0:19:06] IRMv1:一个简单的实现技巧 由于上述约束优化问题在非凸空间中非常难以求解,讲者介绍了一个名为 IRMv1 的实用变体。其关键在于利用函数族的冗余性(例如,当 g 是线性且 Φ 的最后一层是线性时,我们可以吸收任意可逆矩阵)。通过约定 g 为恒等函数(即 g(z)=z),问题转化为:训练 Φ 使得对于每个环境 eΦ 都恰好是跨环境不变的回归器的驻点。 minΦ Σₑ ℛₑ(Φ) + λ * ||F(Φ, e)||²,其中 F(Φ, e) 是一个“不变性惩罚”,比如 F(Φ, e) = ∇w|w=1.0 ℛₑ(w * Φ)。这个惩罚项迫使跨环境 Φ 都恰好是各自环境中风险函数的驻点。该惩罚项是非凸的,且不连续(因为一旦不满足,它会完全忽略噪声 [字幕可能有误,噪音对应不同环境下的风险函数驻点])。
  • [0:20:54] 示例:Colored MNIST 这是IRM的经典验证实验。
    • 设置:MNIST 数字分为两类(0-4 vs 5-9),添加了25%的随机标签噪声(使问题本质不可分)。给每个数字添加颜色(红色/绿色),颜色与标签的相关性在训练环境中反向且不同。例如,环境1中,红色对应45%真实标签,绿色对应55%;环境2中,这个比例反过来。这样一来,颜色特征比数字本身的形状特征在训练集上更可靠,但跨环境是变化的。测试时,颜色相关性被完全反转。
    • 结果:ERM会在训练环境上表现极好(因为它学会了利用颜色),但测试时完全失效(约10%准确率)。IRM在训练环境上的准确率稍低,但在测试环境上性能稳定(约70%准确率),证明它成功学到了基于数字形状的、跨环境不变的表示。
  • [0:24:51] 理论分析:线性情形的数学原理 讲者回到了最简的线性情况,用线性代数进行精细分析。
    • 线性情形Φ(x) = S x(S是d×p矩阵),g(z) = w ᵀ z。因此整个模型是 wᵀ S x。问题变为寻找 Sw
    • 不变性条件:一个必要充分条件是:w 必须与 所有环境下的风险函数的梯度 正交。这意味着,w 必须位于所有环境梯度的零空间(null space)里。这个零空间是这些梯度张成的空间的正交补。因此,表示矩阵 S 的零空间必须包含所有这些梯度。
    • 方程计数与唯一性:对于d维表示,需要跨 M 个环境。Rota [1:02:55] 包含了一个关键的线性代数洞察:如果 M 足够大(超过某个维度差),那么满足不变性条件的解集是离散的(finite),这为实现从零维不变性中找到唯一正确的解奠定了基础 [0:30:13]。
    • 噪声的作用:在无噪声时,解集的结构变得复杂,出现了一个“纯粹解决方案”集合,这对应于报告开头提到的“噪不够大”的情况 [0:32:10]。
  • [0:33:14] 实践中的惨痛教训 讲者坦率承认,将IRM扩展到真实复杂数据(如图像)的效果并不好。David和Nishan的基准测试显示,经过适当超参数搜索的ERM难以被超越。IRM在实际问题中往往只能带来微小的改进 [0:24:31]。这揭示了理论和实践之间的巨大鸿沟。

四、对应论文与开放问题

  • (a)对应论文 该报告无疑基于以下核心论文(及其后续工作)。演讲者提到 Martin Arjovsky、Leon Bottou、Ishan Deshpande、David Lopez-Paz 等:

    • Arjovsky, M., Bottou, L., Gulrajani, I., & Lopez-Paz, D. (2019). Invariant Risk Minimization. arXiv preprint arXiv:1907.02893.
    • (演讲者也在后续工作中进一步分析了线性情形。)
    • 尚不确定名字:Dominik Rothenhäusler 提到的其研究者“May have not [found]”的工作,可能关联到其对鲁棒性和因果推断的观点。
  • (b)开放问题(扎根于转写)

    1. 非线性与非平凡噪音下的理论保证 [0:12:30]: 报告沿其逻辑指出,IRM 非平凡的解决方法只在噪音存在时才存在。然而,对于线性高斯之外的一般非线性情况,如何给出一个可计算的、有理论保证的不变性条件,并分析其样本复杂度,依然开放。
    2. “大部分ML问题是现实可实现的,而非概率的”之辨 [0:21:24]:讲者指出,许多实际 ML 问题并非反事实(非可证明的正确标签产生),而是“数据充足,特征提取困难”的可实现问题。在可实现的情况下,IRM 的有效性是否会急剧下降?如何解决这个问题?
    3. 算法不稳定性与优化 [0:23:11]: IRMv1 的惩罚项是非凸且高度非连续的,这导致其在数值优化上极其困难 [0:30:24]。如何设计更适合优化的不变性目标是显著挑战。
    4. 泛化性 vs. 保守性(insurance analogy) [0:40:03 讨论者]: 讨论者(Dominik)提出的“保险”类比非常精妙。IRM 在“购入”对某些分布偏移的鲁棒性的同时,是否可能增加了对其他方向的敏感性?如何理性选择要鲁棒化的环境,并量化这种权衡?在低维环境中,加入保险的代价可能很高 [0:49:57]。
    5. 潜藏混杂的机制 [0:54:31]: Bottou 对“潜藏混杂”的看法颇具启发性:许多声称的潜藏混杂并非真的不可观测,而是我们尚未从已有的高维数据中“抽出”出来。这一观点将问题还原为:如何从大规模、高维的混乱数据中,自动发现导致 Simpson 悖论的那些关键变量(即通常所说的潜藏混杂)——这更像是表示学习的问题而非识别问题

Maintained by 陈星宇 · Homepage · Source on GitHub

评论