BISCUIT: Causal Representation Learning from Binary Interactions¶
讲者: Sara Magliacane, Phillip Lippe
讨论人: Sébastien Lachapelle
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-19
主题: 因果推断
视频: https://youtu.be/vPpfExqOdCE · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这条工作线在追问什么: 如何从高维观测(如图像)中无监督地学习到有因果结构的低维表示。具体来说,假设观测到的数据(X_t,如图像帧)是由一组潜在的、有因果联系的“因果变量”(C_1,...,C_K,如物体的位置、开关状态)经由一个未知的、可逆的混合函数生成的。目标是从序列数据中同时学习到:① 这个可逆函数(即“解码”),从而将图像映射回该组因果变量;② 这些因果变量之间的动态因果图(即Dynamic Bayesian Network, DBN)。
奠基与主流路线: 这个话题是 Causal Representation Learning (CRL) 在时序/交互设定下的一个子问题。其理论基础紧密关联于非线性独立成分分析(Nonlinear ICA) 的可识别性。经典路线(如Hyvärinen等人的iVAE [Khemakhem et al., 2020])通过引入一个辅助变量 u(如时间索引),假设给定 u 后潜在变量条件独立,并通过参数化(如条件指数族)前提和“充分变化”条件来逼近可识别性。Lachapelle等人 [2022, 2024] 沿着这条路线但放松了参数假设。另一条路线(如Yao等人的LEAP [2022])利用环境之间的非平稳性(如不同的干预或分布偏移)来实现非参数可识别性。
BISCUIT站在哪: BISCUIT站在一个更具体、也更具应用导向的设定上——agent与环境之间存在二元交互。其核心洞见是:如果agent与每个因果变量的相互作用可以用一个二元变量(0=观察机制,1=干预机制)来描述,那么这种机制切换本身就构成了一个强大的、非参数的可识别信号。这与iVAE/LEAP等方法的“充分变化”假设不同:它不要求所有变量在所有时间点上都要有足够的变化,而是要求agent的交互模式在变量之间足够不同(distinct interaction patterns)。BISCUIT实际上是讲者团队的先前工作CITRIS [Lippe et al., 2022] 的一个关键放松:CITRIS假设观测到干预目标(即知道哪个变量被干预了),而BISCUIT去掉了这个假设,将其视为需要从数据中学习的潜在变量。这使得它更接近真实的强化学习和机器人环境,其中agent知道自己的动作(action),但不知道哪个底层变量会因此被干预。
二、最小内核 / 一个最简例子¶
让研究者能快速理解BISCUIT模型的核心概念,而不陷入复杂架构。
符号与假设:
- 可观测到的数据:
X_t: t 时刻的高维观测,如图像。R_t: t 时刻的动作信息(agent执行的action),而非干预目标。
- 潜在不可观测量(目标:学习它们):
C_t^1, ..., C_t^K: K 个潜在的因果变量(如物体是否被拿起、颜色、位置百分比等)。它们共同决定了观测X_t。假设X_t = h(C_t^1, ..., C_t^K),其中h是双射(观察函数可逆)。I_t^1, ..., I_t^K: 对应于每个因果变量的潜在二元交互变量(1 = 该变量被agent干预,0 = 未干预)。这是报告的核心创新。
- 核心假设(最简化版):
- 时序动态演化:
C_t与C_{t-1}之间存在因果图。 - 二元交互机制:在时间步骤
t,agent的动作R_t对每个因果变量C_t的影响,仅通过切换其生成机制来实现。具体来说:- 如果
I_t^k = 0(未干预),C_t^k按照“观察机制”演化,仅由其历史父节点决定:C_t^k ~ p_obs(C_t^k | Pa(C_t^k))。 - 如果
I_t^k = 1(被干预),C_t^k按照“干预机制”演化,不受其因果父节点的影响,可能被设定到某个新值:C_t^k ~ p_int(C_t^k | p_other)。关键在于,这个干预机制p_int是不同于观察机制的。
- 如果
- 可识别条件(最简版):对于任两个不同因果变量
i和j,它们的交互变量I_t^i和I_t^j不是完全同步的。比如,存在一些动作只干预i,一些只干预j,还有一些同时干预两者或都不干预。如果两个变量总是同时被干预或未被干预,就无法区分它们(只能分到一组)。
- 时序动态演化:
一个最简例子(K=2, 二值变量):
假设你的厨房有两个潜在因果变量:C^1 = “微波炉门的状态”(0=关,1=开),C^2 = “炉灶状态”(0=关,1=开)。你只能看到厨房的图像(X_t),并且知道你执行的动作(R_t,例如“点击图像左上角”或“点击图像右下角”)。
- 未干预: 什么都不做,门状态和炉灶状态凭“物理规律”演化(通常是保持上次状态)。
- 干预:
- 动作1(点击左上角):很大概率导致
C^1被干预(门打开),但C^2保持不变(I_1=1, I_2=0)。 - 动作2(点击右下角):很大概率导致
C^2被干预(炉灶开关切换),但C^1保持不变(I_1=0, I_2=1)。 - 动作3(点击中间区域):可能两个都干预,也可能都不干预(
I_1=I_2)。
- 动作1(点击左上角):很大概率导致
BISCUIT如何工作: BISCUIT的VAE训练过程会强制学习的潜在空间 Z_t (充当 C_t 的替代)遵循一个因式分解的过渡先验(factorized transition prior)。这个先验的核心是一个由小网络(从 Z_{t-1}, R_t 预测)输出的 连续松弛的二元变量 A^k_t(模拟 I_t^k)。过渡概率 p(Z_t^k | Z_{t-1}, R_t) 被建模为两个机制(A_t^k = -1 和 A_t^k = +1)的混合。由于每个因果变量 C^k 都只用两个机制(观察 vs. 干预)来描述,而agent动作 R_t 对不同 C^k 的影响模式(即 I_t^k 的取值模式)不同,使得这些影响模式本身成为“标签”,帮助解开变量之间的纠缠。
三、报告主体:讲者讲了什么¶
-
[0:06 - 0:16] 第一部分 (Sara Magliacane) — 设定与背景
- [0:06 - 0:16] 介绍Causal Representation Learning (CRL) 在时序设定下的动机:这是一个自然的“干预学习”环境(观察到“前”和“后”),常见于机器人、强化学习、规划等。
- [0:16 - 0:23] 引入动态贝叶斯网络 (DBN):一种在时序上表示因果关系的模板化图模型。莎拉解释了其关键假设——1-Markov假设(过去仅影响现在一步)、平稳性(边随时间重复)、和无即时效应(同一时刻内无边)。
- [0:23 - 0:26] 通过一个具体的厨房环境设定(微波炉、鸡蛋、炉灶等)动态展示了BISCUIT想学习的内容:从图像中识别出物体的状态(因果变量),学习这些变量间的因果图(如微波炉可以加热鸡蛋),并将动作映射到对应的干预。
- [0:26 - 0:30] 快速回顾了几种主流时序CRL方法:iVAE [Khemakhem et al., 2020](基于辅助变量和条件指数族)、DMS-VAE [Lachapelle et al., 2022](放松参数假设,但仍有指数族)、LEAP [Yao et al., 2022](利用非平稳性,非参数,但要求有多个环境/机制)。Sara明确指出这些方法要么有强参数假设,要么需要已知的“环境切换”。
- [0:30 - 0:36] 介绍了她们自己的先前工作,CITRIS [Lippe et al., 2022] 和 iCITRIS [Lippe et al., 2023],这些工作假设观测到干预目标(
I_t向量)。她强调了CITRIS的强大之处(无参数假设,支持多维因果变量,识别到分量变换),但指出了关键缺点:需要已知干预目标(know intervention targets),这激发了后续的BISCUIT。
-
[0:36 - 1:01] 第二部分 (Phillip Lippe) — BISCUIT核心
- [0:36 - 0:43] 核心设定:考虑一个具备二进制交互(Binary Interaction) 的设定。agent与环境中每个因果对象的交互本质上是一个二元开关 —— 要么处于“观察模式”(机制不变),要么处于“干预模式”(机制改变,比如因操作导致物体被随机放置)。引出的挑战:虽然知道agent执行的“动作”,但不知道哪些动作对应了哪个因果变量的干预。
- [0:43 - 0:51] 核心洞见与识别机制:Phillip通过一个“高斯加性噪声”的例子解释了为什么二元交互假设导致识别。如果噪声方差固定,那么旋转后的高斯变量看起来一样(无法识别)。但如果我们引入两种不同方差(对应观察 vs. 干预机制),那么旋转后的变量会有超过两种模式,这就破坏了混淆的可能性。Phillip用更实时的解释:正是因为每个因果变量只对应两种机制,这些机制模式本身(干预模式 vs. 非干预模式)就提供了一个强大的“标签”,使识别成为可能。
- [0:51 - 0:60] 关键假设与识别定理:
- 二元交互假设:agent对因果变量的影响可以简化为一个二元变量。
- 充分且多样的交互模式:每个因果变量都必须被不同的交互模式子集(distinct interaction pattern subset)所干预,也就是说,不能有任意两个因果变量的干预模式向量总是完全相关(标识为0或1的情况)。模式数量随因果变量数
K呈对数级增长(O(log K))。 - 没有即时效应(同CITRIS)。
- 机制有效性假设:干预机制和观察机制在所有因果变量的时间动态中是不相同的(保证二元变量标识的是真实切换)。 结论:在以上假设下,BISCUIT可以将因果变量识别到置换(permutation)和元素级变换(element-wise transformations) 的程度。这个定理结果同CITRIS,但在更困难的(未知干预目标)条件下。
- [0:60 - 1:10] BISCUIT架构(VAE基础):
- 输入:当前观测
X_t,前一步观测X_{t-1},以及动作R_t。 - 编码器:将
X_t编码为潜在变量Z_t(高维潜在表示,期望其对应因果变量C的置换/双射变换)。 - 过渡先验:定义了
p(Z_t | Z_{t-1}, R_t)。核心在于此先验对潜在特征空间的每个维度是因式分解的:p(Z_t | Z_{t-1}, R_t) = ∏_k p(Z_k^t | Z_{t-1}, A_k^t),其中A_k^t是一个从(Z_{t-1}, R_t)预测的连续松弛(tanh)的潜在二元变量,模拟I_t^k。关键工程技巧:为了让模型可微分,A_k不是硬离散的(0/1),而是一个通过温度退火(temperature annealing)从连续过渡到二值的变量。
- 输入:当前观测
- [1:10 - 1:20] 实验结果:
- 合成数据:在有固定加性噪声的非线性因果图合成数据上,对比了iVAE、LEAP、DMS-VAE和BISCUIT。结果显示BISCUIT取得了很高的可识别性(R² > 0.9),优于有更强假设(如已知干预目标、充分变化性)的方法。
- 三指操纵器(Tri-finger):一个机器人环境,agent控制三根手指随意互动。BISCUIT成功从图像和动作输入中学习到了“立方体颜色”、“背景”、“手指颜色”等因果变量,并且模型预测的干预变量与事实干预有很高的对应关系(特别是静态交互如物体颜色;对于动态碰撞存在不确定性,因为从当前图像难以判断下次碰撞是否发生)。
- iGibson模拟器(Embodied AI):一个更复杂的家居环境,agent通过点击坐标来交互。BISCUIT将10个因果变量(开关灯泡、打开橱柜、加热物体等)正确分离开来。更令人印象深刻的成果是,通过学习到的解耦表示,可以进行组合生成:从两张不同的图像中分别取因果变量A和B,然后组合成一张从未见过的图像(如将鸡蛋放到未加热的烤盘上,而训练数据中必然鸡蛋加热后才会被切换状态)。这说明BISCUIT学到的表示确实是因果父子解开的。
-
[1:20 - 1:40] 讨论部分(由Sébastien Lachapelle主持)
- [1:20] Sebastian 提问:
- 如何利用CRL提升强化学习(RL)效果? 即解耦表示除了可解释性外,对下游任务的样本效率或泛化性能有何贡献?
- 工程技巧与理论/实践的鸿沟:理论假设(如可逆观察函数、无即时效应)与现实差距如何?
- 迈向更宏大的应用(如自动驾驶) 的下一步是什么?
- [1:25 - 1:30] 讲师回应 (Phillip 和 Sara):
- 对RL的提升:解耦的因果表示可以用于注意力/奖励降维(只关注与奖励相关的因果变量),并且对任务无关的因果机制变化具有鲁棒性。
- 理论与实践的差距:现实世界的对象会出帧(物体消失)、非确定性交互、视角变化(非双射观测)。BISCUIT在这些条件下可能开始失效,但像“放松二元约束(连续松弛)”这样的工程技巧(梯度平滑)至关重要。此外理论假设(二元)和现实的非确定性之间存在张力,目前主要通过近似或工程适配。
- 对自动驾驶:目前的理论框架太“派对”(可爱的合成世界)了。真正的难点在于,观察函数
h在许多真实场景(特别是多视角或物体部分遮挡时)不是双射,而“无即时效应”假设在自动驾驶中几乎不成立(事件几乎瞬间发生)。BISCUIT的设定目前更适用于模拟环境、单元操纵任务或受限的机器人世界,离自动驾驶还有较远距离。 - 额外讨论点(关于过参数化):Sebastian提到“识别性”迫使模型不够过参数化(需要限制容量),这与深度学习社区“越参越好优化越好”的直觉相悖。BISCUIT的方法是有意义地用大的维度过参数化:学到更多的潜在特征,再利用因果约束(二元机制)去压缩/合并相关的特征(partial identifiability)。这是一个很好的理论-实践平衡点。
- [1:20] Sebastian 提问:
四、对应论文与开放问题¶
(a) 对应论文 这场报告的核心论文是: * BISCUIT: Causal Representation Learning from Binary Interactions. * arXiv/出版:Phillip Lippe, Sara Magliacane, et al. 发表于 UAI 2023。 * arXiv链接:可通过 arXiv 搜索 “BISCUIT: Causal Representation Learning from Binary Interactions” 或 “Lippe BISCUIT” 找到。
董事会也强烈关联了以下论文(以供核查核心背景): * CITRIS (ICML 2022) * iCITRIS (ICLR 2023) * iVAE (AISTATS 2020) * DMS-VAE (CLeaR 2022) * LEAP (ICLR 2022) * Lachapelle et al. 2024 (arXiv:2401.04890)
(b) 开放问题 Ro可能的延伸方向
* 超越无即时效应假设 (讨论部分,[1:33]):BISCUIT假设没有即时效应(不出在同一个时间步,依赖于跨时间步的差异)。报告及讨论中提及,真实世界(尤其是复杂的物理引擎,如自动驾驶)中存在同时发生的因果关系。这是否要求引入新的理论(如动力学系统意义上的连续时间?)?
* 处理非双射观测函数 ([1:36]):BISCUIT假设 X = h(C) 是双射。真实世界中,物体消失、视角切换、遮挡都意味着 h 不是双射(一个观测可能对应多个潜在状态,或潜在状态的某些部分不可观测)。这使得理论上的识别性定义需要完全重写。如何定义“部分可识别的因果变量”?
* 从二元交互到更一般的交互 (Phillip在[0:46]的举例):BISCUIT的一个核心假设是“交互是二进制的”——要么观察要么干预。如果有复杂的连续控制(如agent对物体的力控制,力度大小不同会触发非二元的“机制”),二元机制假设失效。如何引入更复杂的,但仍有可识别性的机制结构(如“多机制”模型)?
* 为RL学习的有向图带来的下游挑战 (由Sebastian的提问引向Phillip的结尾回答 [1:25]):目前尚未有一个令人信服的基准(benchmark)能证明,在强化学习场景中,使用BISCUIT的解耦Causal RL(因果强化学习)表示比标准的world model(世界模型)(如DreamerV3、TD-MPC等)在样本效率上显著提升。研究者可以提出一个实验设计,在某个关注因果关系的benchmark(如METAWORLD、CraftEnv)上,对比使用BISCUIT表示训练的RL agent和标准RL agent的回报。
Maintained by 陈星宇 · Homepage · Source on GitHub