Learning Representations Using Causal Invariance¶

讲者: Leon Bottou
讨论人: Dominik Rothenhäusler
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-06-08
主题: 因果推断
视频: https://youtu.be/Rewr4GmkYEk

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：利用环境不变性进行分布外泛化（Out-of-Distribution Generalization, OOD） 这场报告的核心是不变性风险最小化（Invariant Risk Minimization, IRM）。这个子方向试图回答一个根本性的机器学习问题：如何训练模型，使其在面对与训练数据分布不同的测试数据时，依然表现良好？传统的经验风险最小化（Empirical Risk Minimization, ERM）假设训练和测试数据独立同分布（i.i.d.），这在现实世界中往往不成立。IRM的关键洞察是：利用来自多个不同环境（或域）的数据，学习一个数据表示（representation），使得基于该表示的最优预测器（分类器/回归器）在所有环境中都相同（即，条件分布 P(Y|Φ(X)) 是环境不变的）。
奠基与主流路线
- 奠基工作： 该方向的核心思想深深植根于因果推断。正如报告引用和讨论者（Dominik Rothenhäusler）所述，在因果模型 Y = f(Pa(Y), ε) 中，给定因变量 Y 的直接原因（其父节点）后，Y 的条件分布在任何对非直接原因变量的干预下都是不变的 [Peters et al., 2016]。
  - Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: identification and confidence intervals. Journal of the Royal Statistical Society: Series B (Statistical Methodology).（该工作提出在已知变量集合的情况下，寻找直接因果父节点的集合——ICP）。
- 主流路线之一：分布鲁棒优化（DRO）。 即在最坏情况的某个分布邻域内最小化损失。报告提到了 DRO，并明确指出它的局限性：它只能保证在训练环境构成的“凸包”内有效，无法保证在凸包外的外推能力 [0:08:26]。
- 主流路线之二：对抗性域适应（Adversarial Domain Adaptation）。 通过一个对抗性训练过程，迫使特征表示 Φ(X) 的分布本身在所有环境中相同（即 Φ(X) ⟂ E）。报告批评了这一点，认为这是个“过强”的要求，因为不同环境下的协变量分布自然不同，迫使 Φ 的边际分布不变会丢失大量信息 [0:17:18]。
本报告站在哪：
- IRM 站在上述两条主线的交叉点上。它比 DRO（只在凸包内保证）更具野心，因为它追求的是基于不变性的外推能力（extrapolation power）。它比对抗性域适应（强制边际分布相同）更柔和，因为它只要求条件分布 P(Y|Φ(X)) 跨环境不变，而不是 P(Φ(X)) 本身不变。
- 报告试图建立 IRM 与因果发现之间的枢纽：如果找到的表示 Φ(X) 是条件不变的，它在某些条件下能够恢复 Y 的因果父节点（direct causes）[0:16:30]。这场报告重点揭示了 IRM 在理论上和实践中的陷阱与未解之谜。

二、最小内核 / 一个最简例子¶

为了直观理解 IRM 的核心思想，我们构造一个最简单的线性高斯例子。

符号与模型
- 可观测数据：(X, Y, E)，其中 X 是 p 维协变量（X = (X₁, X₂, ..., X_p)），Y 是结果变量（标量），E ∈ {1, ..., M} 是环境的离散标签。
- 潜在数据生成机制：存在一组“因果变量”（X_c）直接生成 Y，以及一组“非因果/混淆/干扰变量”（X_s），这些变量与 Y 之间存在虚假相关（spurious correlation），这种相关会随着环境的变化而变化。理想情况下，我们希望模型能忽略 X_s，只依赖 X_c。
- 目标：找到一个特征表示函数 Φ: ℝᵖ → ℝᵈ 和一个线性预测器 g: ℝᵈ → ℝ（对于线性情况），使得在所有环境中，损失函数的期望最小点都相同。更具体地，对于线性平方损失，我们希望找到参数对 (Φ, w)，其中 Φ 是特征投影矩阵，g(z) = wᵀ z，使得： w ∈ argmin_{{w' ∈ ℝᵈ}} 𝔼_{e}[ (Y - w'ᵀ Φ(X))² ] 对于所有的环境 e 都成立。
最简特例（d=1, p=2, M=2） 设 X = (X₁, X₂)，其中：
- X₁ 是导致 Y 的因果变量：Y = X₁ + ε
- X₂ 是非因果的干扰变量，它只是 Y 的某个函数加噪声，例如 X₂ = α_e * Y + δ，其中 α_e 在不同的环境中变化。这意味着 X₂ 和 Y 的线性相关性随环境改变。
- 环境分为 e=1 和 e=2。假设训练时 α₁ = 0.9, α₂ = 0.1。这意味着在环境1中，X₂ 几乎是 Y 的强信号（相关性高）；在环境2中，相关性很弱。
ERM 会失败：如果直接用 Y 对 X=(X₁, X₂) 做线性回归（ERM），模型会“发现”在环境1和2的联合数据中，X₂ 是一个很强的预测因子。因此它会赋予 X₂ 很大的权重。但当测试环境出现一个完全不同的 α 值时（例如逆相关），模型会失效。
IRM 的核心思想：
- 表示学习：我们希望学习一个表示 Φ(X)，例如 Φ(X) = X₁（即理想情况下，只保留因果变量）。或者，更一般地，学到一个能投影到一维空间的映射。
- 不变性条件：我们希望找到一个 Φ 和一个 w，使得 g(Φ(X)) = w * Φ(X) 的损失在所有环境中都有一个共同的驻点。在线性情况下，这意味着 Y 在给定 Φ(X) 后的条件期望（最优线性预测器）对所有环境都相同。
- 为什么它有效？ 对于 Φ(X)=X₁，E[Y | X₁] = X₁ 在所有环境中都成立（因为 Y 的生成机制没变）。这意味着从 X₁ 到 Y 的映射是不变的。而任何试图使用 X₂ 的表示（如 Φ(X) = (X₁, X₂)），其最优线性预测器 w 将会包含一个依赖于 α_e 的权重（对 X₂ 的系数），从而无法在所有环境中同时达到相同的最优点。
- 噪声的必条件：报告反复强调 [0:12:30]，IRM 的威力只在噪声存在时才得以体现。如果 Var(ε)=0（即无噪声情况），存在一个完美的 Φ 使得 Y 可以被完全预测，此时不变性条件变得平凡（任何能完美预测的 Φ 都满足不变性），导致有无穷多解。因此，噪声是让“不变性”成为一个约束，从而获得非平凡解的必要条件。

三、报告主体：讲者讲了什么¶

[0:01:55] 动机：统计正确的局限性 讲者（Leon Bottou）从一个机器学习场景出发（AI for AI [字幕转写者注]），指出统计模型在代理任务（proxy problem）中表现优异，但与真实任务存在差距。核心例子是识别“在打电话”的人——模型实际上是学习了“有电话+有人”这一虚假相关（spurious correlation），而非真正理解“把手机放在耳边”这一动作。他指出，当数据集太大无法精挑细选（curated）时，算法会无孔不入地利用这些虚假相关。
[0:06:14] 核心问题：异质性环境中的不变性 讲者提出，现实世界的数据收集于不同时间、地点、实验条件（如来自不同社交平台的文本），将它们简单的i.i.d.混在一起就是“损失信息”。他建议我们应利用这种异质性（heterogeneity）：数据被收集于多个环境 e，各有不同分布 Pₑ。目标不是拟合混合分布，而是找到一个在各个环境的 Pₑ 下都成立的共同规律。
[0:07:02] 现有方法（DRO）的局限 讲者讨论了分布鲁棒优化（DRO）。他指出，最小化最坏情况下的损失等价于以一组特定的mix比例混合所有环境。但DRO只能保证在训练数据分布的凸包（convex hull）内有效，无法保证外推。他举了一个搜索查询分类的例子 [0:08:54]，其中查询的流行度随时间变化（常数、上升、下降），而DRO只能内插，无法应对“仅在将来出现”的新环境。
[0:12:41] IRM 的核心定义 这是报告最核心的定义。讲者提出寻找一个双参数模型：Φ: X → ℝᵈ（表示函数）和 g : ℝᵈ → Y（决策函数）。IRM的目标是：找到一个表示 Φ，使得所有环境 e 下的最优预测器 gₑ（通过最小化本环境内 Eₑ[(Y - g(Φ(X)))²] 得到）都是同一个 g。 用数学语言：w ∈ argmin_{w'} ℛₑ(w∘Φ) 对所有环境 e 成立。
[0:19:06] IRMv1：一个简单的实现技巧 由于上述约束优化问题在非凸空间中非常难以求解，讲者介绍了一个名为 IRMv1 的实用变体。其关键在于利用函数族的冗余性（例如，当 g 是线性且 Φ 的最后一层是线性时，我们可以吸收任意可逆矩阵）。通过约定 g 为恒等函数（即 g(z)=z），问题转化为：训练 Φ 使得对于每个环境 e，Φ 都恰好是跨环境不变的回归器的驻点。 minΦ Σₑ ℛₑ(Φ) + λ * ||F(Φ, e)||²，其中 F(Φ, e) 是一个“不变性惩罚”，比如 F(Φ, e) = ∇w|w=1.0 ℛₑ(w * Φ)。这个惩罚项迫使跨环境 Φ 都恰好是各自环境中风险函数的驻点。该惩罚项是非凸的，且不连续（因为一旦不满足，它会完全忽略噪声 [字幕可能有误，噪音对应不同环境下的风险函数驻点]）。
[0:20:54] 示例：Colored MNIST 这是IRM的经典验证实验。
- 设置：MNIST 数字分为两类（0-4 vs 5-9），添加了25%的随机标签噪声（使问题本质不可分）。给每个数字添加颜色（红色/绿色），颜色与标签的相关性在训练环境中反向且不同。例如，环境1中，红色对应45%真实标签，绿色对应55%；环境2中，这个比例反过来。这样一来，颜色特征比数字本身的形状特征在训练集上更可靠，但跨环境是变化的。测试时，颜色相关性被完全反转。
- 结果：ERM会在训练环境上表现极好（因为它学会了利用颜色），但测试时完全失效（约10%准确率）。IRM在训练环境上的准确率稍低，但在测试环境上性能稳定（约70%准确率），证明它成功学到了基于数字形状的、跨环境不变的表示。
[0:24:51] 理论分析：线性情形的数学原理 讲者回到了最简的线性情况，用线性代数进行精细分析。
- 线性情形：Φ(x) = S x（S是d×p矩阵），g(z) = w ᵀ z。因此整个模型是 wᵀ S x。问题变为寻找 S 和 w。
- 不变性条件：一个必要充分条件是：w 必须与 所有环境下的风险函数的梯度 正交。这意味着，w 必须位于所有环境梯度的零空间（null space）里。这个零空间是这些梯度张成的空间的正交补。因此，表示矩阵 S 的零空间必须包含所有这些梯度。
- 方程计数与唯一性：对于d维表示，需要跨 M 个环境。Rota [1:02:55] 包含了一个关键的线性代数洞察：如果 M 足够大（超过某个维度差），那么满足不变性条件的解集是离散的（finite），这为实现从零维不变性中找到唯一正确的解奠定了基础 [0:30:13]。
- 噪声的作用：在无噪声时，解集的结构变得复杂，出现了一个“纯粹解决方案”集合，这对应于报告开头提到的“噪不够大”的情况 [0:32:10]。
[0:33:14] 实践中的惨痛教训 讲者坦率承认，将IRM扩展到真实复杂数据（如图像）的效果并不好。David和Nishan的基准测试显示，经过适当超参数搜索的ERM难以被超越。IRM在实际问题中往往只能带来微小的改进 [0:24:31]。这揭示了理论和实践之间的巨大鸿沟。

四、对应论文与开放问题¶

（a）对应论文 该报告无疑基于以下核心论文（及其后续工作）。演讲者提到 Martin Arjovsky、Leon Bottou、Ishan Deshpande、David Lopez-Paz 等：
- Arjovsky, M., Bottou, L., Gulrajani, I., & Lopez-Paz, D. (2019). Invariant Risk Minimization. arXiv preprint arXiv:1907.02893.
- （演讲者也在后续工作中进一步分析了线性情形。）
- 尚不确定名字：Dominik Rothenhäusler 提到的其研究者“May have not [found]”的工作，可能关联到其对鲁棒性和因果推断的观点。
（b）开放问题（扎根于转写）
1. 非线性与非平凡噪音下的理论保证 [0:12:30]： 报告沿其逻辑指出，IRM 非平凡的解决方法只在噪音存在时才存在。然而，对于线性高斯之外的一般非线性情况，如何给出一个可计算的、有理论保证的不变性条件，并分析其样本复杂度，依然开放。
2. “大部分ML问题是现实可实现的，而非概率的”之辨 [0:21:24]：讲者指出，许多实际 ML 问题并非反事实（非可证明的正确标签产生），而是“数据充足，特征提取困难”的可实现问题。在可实现的情况下，IRM 的有效性是否会急剧下降？如何解决这个问题？
3. 算法不稳定性与优化 [0:23:11]： IRMv1 的惩罚项是非凸且高度非连续的，这导致其在数值优化上极其困难 [0:30:24]。如何设计更适合优化的不变性目标是显著挑战。
4. 泛化性 vs. 保守性（insurance analogy） [0:40:03 讨论者]： 讨论者（Dominik）提出的“保险”类比非常精妙。IRM 在“购入”对某些分布偏移的鲁棒性的同时，是否可能增加了对其他方向的敏感性？如何理性选择要鲁棒化的环境，并量化这种权衡？在低维环境中，加入保险的代价可能很高 [0:49:57]。
5. 潜藏混杂的机制 [0:54:31]： Bottou 对“潜藏混杂”的看法颇具启发性：许多声称的潜藏混杂并非真的不可观测，而是我们尚未从已有的高维数据中“抽出”出来。这一观点将问题还原为：如何从大规模、高维的混乱数据中，自动发现导致 Simpson 悖论的那些关键变量（即通常所说的潜藏混杂）——这更像是表示学习的问题而非识别问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

Learning Representations Using Causal Invariance¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论