BISCUIT: Causal Representation Learning from Binary Interactions¶

讲者: Sara Magliacane, Phillip Lippe
讨论人: Sébastien Lachapelle
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-19
主题: 因果推断
视频: https://youtu.be/vPpfExqOdCE · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这条工作线在追问什么： 如何从高维观测（如图像）中无监督地学习到有因果结构的低维表示。具体来说，假设观测到的数据（X_t，如图像帧）是由一组潜在的、有因果联系的“因果变量”（C_1,...,C_K，如物体的位置、开关状态）经由一个未知的、可逆的混合函数生成的。目标是从序列数据中同时学习到：① 这个可逆函数（即“解码”），从而将图像映射回该组因果变量；② 这些因果变量之间的动态因果图（即Dynamic Bayesian Network, DBN）。

奠基与主流路线： 这个话题是 Causal Representation Learning (CRL) 在时序/交互设定下的一个子问题。其理论基础紧密关联于非线性独立成分分析（Nonlinear ICA） 的可识别性。经典路线（如Hyvärinen等人的iVAE [Khemakhem et al., 2020]）通过引入一个辅助变量 u（如时间索引），假设给定 u 后潜在变量条件独立，并通过参数化（如条件指数族）前提和“充分变化”条件来逼近可识别性。Lachapelle等人 [2022, 2024] 沿着这条路线但放松了参数假设。另一条路线（如Yao等人的LEAP [2022]）利用环境之间的非平稳性（如不同的干预或分布偏移）来实现非参数可识别性。

BISCUIT站在哪： BISCUIT站在一个更具体、也更具应用导向的设定上——agent与环境之间存在二元交互。其核心洞见是：如果agent与每个因果变量的相互作用可以用一个二元变量（0=观察机制，1=干预机制）来描述，那么这种机制切换本身就构成了一个强大的、非参数的可识别信号。这与iVAE/LEAP等方法的“充分变化”假设不同：它不要求所有变量在所有时间点上都要有足够的变化，而是要求agent的交互模式在变量之间足够不同（distinct interaction patterns）。BISCUIT实际上是讲者团队的先前工作CITRIS [Lippe et al., 2022] 的一个关键放松：CITRIS假设观测到干预目标（即知道哪个变量被干预了），而BISCUIT去掉了这个假设，将其视为需要从数据中学习的潜在变量。这使得它更接近真实的强化学习和机器人环境，其中agent知道自己的动作（action），但不知道哪个底层变量会因此被干预。

二、最小内核 / 一个最简例子¶

让研究者能快速理解BISCUIT模型的核心概念，而不陷入复杂架构。

符号与假设：

可观测到的数据：
- X_t: t 时刻的高维观测，如图像。
- R_t: t 时刻的动作信息（agent执行的action），而非干预目标。
潜在不可观测量（目标：学习它们）：
- C_t^1, ..., C_t^K: K 个潜在的因果变量（如物体是否被拿起、颜色、位置百分比等）。它们共同决定了观测 X_t。假设 X_t = h(C_t^1, ..., C_t^K)，其中 h 是双射（观察函数可逆）。
- I_t^1, ..., I_t^K: 对应于每个因果变量的潜在二元交互变量（1 = 该变量被agent干预，0 = 未干预）。这是报告的核心创新。
核心假设（最简化版）：
- 时序动态演化：C_t 与 C_{t-1} 之间存在因果图。
- 二元交互机制：在时间步骤 t，agent的动作 R_t 对每个因果变量 C_t 的影响，仅通过切换其生成机制来实现。具体来说：
  - 如果 I_t^k = 0（未干预），C_t^k 按照“观察机制”演化，仅由其历史父节点决定：C_t^k ~ p_obs(C_t^k | Pa(C_t^k))。
  - 如果 I_t^k = 1（被干预），C_t^k 按照“干预机制”演化，不受其因果父节点的影响，可能被设定到某个新值：C_t^k ~ p_int(C_t^k | p_other)。关键在于，这个干预机制 p_int 是不同于观察机制的。
- 可识别条件（最简版）：对于任两个不同因果变量 i 和 j，它们的交互变量 I_t^i 和 I_t^j 不是完全同步的。比如，存在一些动作只干预 i，一些只干预 j，还有一些同时干预两者或都不干预。如果两个变量总是同时被干预或未被干预，就无法区分它们（只能分到一组）。

一个最简例子（K=2, 二值变量）：

假设你的厨房有两个潜在因果变量：C^1 = “微波炉门的状态”（0=关，1=开），C^2 = “炉灶状态”（0=关，1=开）。你只能看到厨房的图像（X_t），并且知道你执行的动作（R_t，例如“点击图像左上角”或“点击图像右下角”）。

未干预： 什么都不做，门状态和炉灶状态凭“物理规律”演化（通常是保持上次状态）。
干预：
- 动作1（点击左上角）：很大概率导致 C^1 被干预（门打开），但 C^2 保持不变（I_1=1, I_2=0）。
- 动作2（点击右下角）：很大概率导致 C^2 被干预（炉灶开关切换），但 C^1 保持不变（I_1=0, I_2=1）。
- 动作3（点击中间区域）：可能两个都干预，也可能都不干预（I_1=I_2）。

BISCUIT如何工作： BISCUIT的VAE训练过程会强制学习的潜在空间 Z_t （充当 C_t 的替代）遵循一个因式分解的过渡先验（factorized transition prior）。这个先验的核心是一个由小网络（从 Z_{t-1}, R_t 预测）输出的 连续松弛的二元变量 A^k_t（模拟 I_t^k）。过渡概率 p(Z_t^k | Z_{t-1}, R_t) 被建模为两个机制（A_t^k = -1 和 A_t^k = +1）的混合。由于每个因果变量 C^k 都只用两个机制（观察 vs. 干预）来描述，而agent动作 R_t 对不同 C^k 的影响模式（即 I_t^k 的取值模式）不同，使得这些影响模式本身成为“标签”，帮助解开变量之间的纠缠。

三、报告主体：讲者讲了什么¶

[0:06 - 0:16] 第一部分 (Sara Magliacane) — 设定与背景
- [0:06 - 0:16] 介绍Causal Representation Learning (CRL) 在时序设定下的动机：这是一个自然的“干预学习”环境（观察到“前”和“后”），常见于机器人、强化学习、规划等。
- [0:16 - 0:23] 引入动态贝叶斯网络 (DBN)：一种在时序上表示因果关系的模板化图模型。莎拉解释了其关键假设——1-Markov假设（过去仅影响现在一步）、平稳性（边随时间重复）、和无即时效应（同一时刻内无边）。
- [0:23 - 0:26] 通过一个具体的厨房环境设定（微波炉、鸡蛋、炉灶等）动态展示了BISCUIT想学习的内容：从图像中识别出物体的状态（因果变量），学习这些变量间的因果图（如微波炉可以加热鸡蛋），并将动作映射到对应的干预。
- [0:26 - 0:30] 快速回顾了几种主流时序CRL方法：iVAE [Khemakhem et al., 2020]（基于辅助变量和条件指数族）、DMS-VAE [Lachapelle et al., 2022]（放松参数假设，但仍有指数族）、LEAP [Yao et al., 2022]（利用非平稳性，非参数，但要求有多个环境/机制）。Sara明确指出这些方法要么有强参数假设，要么需要已知的“环境切换”。
- [0:30 - 0:36] 介绍了她们自己的先前工作，CITRIS [Lippe et al., 2022] 和 iCITRIS [Lippe et al., 2023]，这些工作假设观测到干预目标（I_t向量）。她强调了CITRIS的强大之处（无参数假设，支持多维因果变量，识别到分量变换），但指出了关键缺点：需要已知干预目标（know intervention targets），这激发了后续的BISCUIT。
[0:36 - 1:01] 第二部分 (Phillip Lippe) — BISCUIT核心
- [0:36 - 0:43] 核心设定：考虑一个具备二进制交互（Binary Interaction） 的设定。agent与环境中每个因果对象的交互本质上是一个二元开关 —— 要么处于“观察模式”（机制不变），要么处于“干预模式”（机制改变，比如因操作导致物体被随机放置）。引出的挑战：虽然知道agent执行的“动作”，但不知道哪些动作对应了哪个因果变量的干预。
- [0:43 - 0:51] 核心洞见与识别机制：Phillip通过一个“高斯加性噪声”的例子解释了为什么二元交互假设导致识别。如果噪声方差固定，那么旋转后的高斯变量看起来一样（无法识别）。但如果我们引入两种不同方差（对应观察 vs. 干预机制），那么旋转后的变量会有超过两种模式，这就破坏了混淆的可能性。Phillip用更实时的解释：正是因为每个因果变量只对应两种机制，这些机制模式本身（干预模式 vs. 非干预模式）就提供了一个强大的“标签”，使识别成为可能。
- [0:51 - 0:60] 关键假设与识别定理：
  1. 二元交互假设：agent对因果变量的影响可以简化为一个二元变量。
  2. 充分且多样的交互模式：每个因果变量都必须被不同的交互模式子集（distinct interaction pattern subset）所干预，也就是说，不能有任意两个因果变量的干预模式向量总是完全相关（标识为0或1的情况）。模式数量随因果变量数 K 呈对数级增长（O(log K)）。
  3. 没有即时效应（同CITRIS）。
  4. 机制有效性假设：干预机制和观察机制在所有因果变量的时间动态中是不相同的（保证二元变量标识的是真实切换）。结论：在以上假设下，BISCUIT可以将因果变量识别到置换（permutation）和元素级变换（element-wise transformations） 的程度。这个定理结果同CITRIS，但在更困难的（未知干预目标）条件下。
- [0:60 - 1:10] BISCUIT架构（VAE基础）：
  - 输入：当前观测 X_t，前一步观测 X_{t-1}，以及动作 R_t。
  - 编码器：将 X_t 编码为潜在变量 Z_t (高维潜在表示，期望其对应因果变量 C 的置换/双射变换)。
  - 过渡先验：定义了 p(Z_t | Z_{t-1}, R_t)。核心在于此先验对潜在特征空间的每个维度是因式分解的：p(Z_t | Z_{t-1}, R_t) = ∏_k p(Z_k^t | Z_{t-1}, A_k^t)，其中 A_k^t 是一个从 (Z_{t-1}, R_t) 预测的连续松弛（tanh）的潜在二元变量，模拟 I_t^k。关键工程技巧：为了让模型可微分，A_k 不是硬离散的（0/1），而是一个通过温度退火（temperature annealing）从连续过渡到二值的变量。
- [1:10 - 1:20] 实验结果：
  - 合成数据：在有固定加性噪声的非线性因果图合成数据上，对比了iVAE、LEAP、DMS-VAE和BISCUIT。结果显示BISCUIT取得了很高的可识别性（R² > 0.9），优于有更强假设（如已知干预目标、充分变化性）的方法。
  - 三指操纵器（Tri-finger）：一个机器人环境，agent控制三根手指随意互动。BISCUIT成功从图像和动作输入中学习到了“立方体颜色”、“背景”、“手指颜色”等因果变量，并且模型预测的干预变量与事实干预有很高的对应关系（特别是静态交互如物体颜色；对于动态碰撞存在不确定性，因为从当前图像难以判断下次碰撞是否发生）。
  - iGibson模拟器（Embodied AI）：一个更复杂的家居环境，agent通过点击坐标来交互。BISCUIT将10个因果变量（开关灯泡、打开橱柜、加热物体等）正确分离开来。更令人印象深刻的成果是，通过学习到的解耦表示，可以进行组合生成：从两张不同的图像中分别取因果变量A和B，然后组合成一张从未见过的图像（如将鸡蛋放到未加热的烤盘上，而训练数据中必然鸡蛋加热后才会被切换状态）。这说明BISCUIT学到的表示确实是因果父子解开的。
[1:20 - 1:40] 讨论部分（由Sébastien Lachapelle主持）
- [1:20] Sebastian 提问：
  1. 如何利用CRL提升强化学习（RL）效果？ 即解耦表示除了可解释性外，对下游任务的样本效率或泛化性能有何贡献？
  2. 工程技巧与理论/实践的鸿沟：理论假设（如可逆观察函数、无即时效应）与现实差距如何？
  3. 迈向更宏大的应用（如自动驾驶） 的下一步是什么？
- [1:25 - 1:30] 讲师回应 (Phillip 和 Sara)：
  - 对RL的提升：解耦的因果表示可以用于注意力/奖励降维（只关注与奖励相关的因果变量），并且对任务无关的因果机制变化具有鲁棒性。
  - 理论与实践的差距：现实世界的对象会出帧（物体消失）、非确定性交互、视角变化（非双射观测）。BISCUIT在这些条件下可能开始失效，但像“放松二元约束（连续松弛）”这样的工程技巧（梯度平滑）至关重要。此外理论假设（二元）和现实的非确定性之间存在张力，目前主要通过近似或工程适配。
  - 对自动驾驶：目前的理论框架太“派对”（可爱的合成世界）了。真正的难点在于，观察函数 h 在许多真实场景（特别是多视角或物体部分遮挡时）不是双射，而“无即时效应”假设在自动驾驶中几乎不成立（事件几乎瞬间发生）。BISCUIT的设定目前更适用于模拟环境、单元操纵任务或受限的机器人世界，离自动驾驶还有较远距离。
  - 额外讨论点（关于过参数化）：Sebastian提到“识别性”迫使模型不够过参数化（需要限制容量），这与深度学习社区“越参越好优化越好”的直觉相悖。BISCUIT的方法是有意义地用大的维度过参数化：学到更多的潜在特征，再利用因果约束（二元机制）去压缩/合并相关的特征（partial identifiability）。这是一个很好的理论-实践平衡点。

四、对应论文与开放问题¶

(a) 对应论文 这场报告的核心论文是： * BISCUIT: Causal Representation Learning from Binary Interactions. * arXiv/出版：Phillip Lippe, Sara Magliacane, et al. 发表于 UAI 2023。 * arXiv链接：可通过 arXiv 搜索 “BISCUIT: Causal Representation Learning from Binary Interactions” 或 “Lippe BISCUIT” 找到。

董事会也强烈关联了以下论文（以供核查核心背景）： * CITRIS (ICML 2022) * iCITRIS (ICLR 2023) * iVAE (AISTATS 2020) * DMS-VAE (CLeaR 2022) * LEAP (ICLR 2022) * Lachapelle et al. 2024 (arXiv:2401.04890)

(b) 开放问题 Ro可能的延伸方向 * 超越无即时效应假设 (讨论部分，[1:33])：BISCUIT假设没有即时效应（不出在同一个时间步，依赖于跨时间步的差异）。报告及讨论中提及，真实世界（尤其是复杂的物理引擎，如自动驾驶）中存在同时发生的因果关系。这是否要求引入新的理论（如动力学系统意义上的连续时间？）？ * 处理非双射观测函数 ([1:36])：BISCUIT假设 X = h(C) 是双射。真实世界中，物体消失、视角切换、遮挡都意味着 h 不是双射（一个观测可能对应多个潜在状态，或潜在状态的某些部分不可观测）。这使得理论上的识别性定义需要完全重写。如何定义“部分可识别的因果变量”？ * 从二元交互到更一般的交互 (Phillip在[0:46]的举例)：BISCUIT的一个核心假设是“交互是二进制的”——要么观察要么干预。如果有复杂的连续控制（如agent对物体的力控制，力度大小不同会触发非二元的“机制”），二元机制假设失效。如何引入更复杂的，但仍有可识别性的机制结构（如“多机制”模型）？ * 为RL学习的有向图带来的下游挑战 （由Sebastian的提问引向Phillip的结尾回答 [1:25]）：目前尚未有一个令人信服的基准（benchmark）能证明，在强化学习场景中，使用BISCUIT的解耦Causal RL（因果强化学习）表示比标准的world model（世界模型）（如DreamerV3、TD-MPC等）在样本效率上显著提升。研究者可以提出一个实验设计，在某个关注因果关系的benchmark（如METAWORLD、CraftEnv）上，对比使用BISCUIT表示训练的RL agent和标准RL agent的回报。

Maintained by 陈星宇 · Homepage · Source on GitHub

BISCUIT: Causal Representation Learning from Binary Interactions¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论