跳转至

BISCUIT: Causal Representation Learning from Binary Interactions

讲者: Sara Magliacane, Phillip Lippe
讨论人: Sébastien Lachapelle
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-03-19
主题: 因果推断
视频: https://youtu.be/vPpfExqOdCE · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这条工作线在追问什么: 如何从高维观测(如图像)中无监督地学习到有因果结构的低维表示。具体来说,假设观测到的数据(X_t,如图像帧)是由一组潜在的、有因果联系的“因果变量”(C_1,...,C_K,如物体的位置、开关状态)经由一个未知的、可逆的混合函数生成的。目标是从序列数据中同时学习到:① 这个可逆函数(即“解码”),从而将图像映射回该组因果变量;② 这些因果变量之间的动态因果图(即Dynamic Bayesian Network, DBN)。

奠基与主流路线: 这个话题是 Causal Representation Learning (CRL)时序/交互设定下的一个子问题。其理论基础紧密关联于非线性独立成分分析(Nonlinear ICA) 的可识别性。经典路线(如Hyvärinen等人的iVAE [Khemakhem et al., 2020])通过引入一个辅助变量 u(如时间索引),假设给定 u 后潜在变量条件独立,并通过参数化(如条件指数族)前提和“充分变化”条件来逼近可识别性。Lachapelle等人 [2022, 2024] 沿着这条路线但放松了参数假设。另一条路线(如Yao等人的LEAP [2022])利用环境之间的非平稳性(如不同的干预或分布偏移)来实现非参数可识别性。

BISCUIT站在哪: BISCUIT站在一个更具体、也更具应用导向的设定上——agent与环境之间存在二元交互。其核心洞见是:如果agent与每个因果变量的相互作用可以用一个二元变量(0=观察机制,1=干预机制)来描述,那么这种机制切换本身就构成了一个强大的、非参数的可识别信号。这与iVAE/LEAP等方法的“充分变化”假设不同:它不要求所有变量在所有时间点上都要有足够的变化,而是要求agent的交互模式在变量之间足够不同(distinct interaction patterns)。BISCUIT实际上是讲者团队的先前工作CITRIS [Lippe et al., 2022] 的一个关键放松:CITRIS假设观测到干预目标(即知道哪个变量被干预了),而BISCUIT去掉了这个假设,将其视为需要从数据中学习的潜在变量。这使得它更接近真实的强化学习和机器人环境,其中agent知道自己的动作(action),但不知道哪个底层变量会因此被干预。


二、最小内核 / 一个最简例子

让研究者能快速理解BISCUIT模型的核心概念,而不陷入复杂架构。

符号与假设:

  • 可观测到的数据:
    • X_t: t 时刻的高维观测,如图像。
    • R_t: t 时刻的动作信息(agent执行的action),而非干预目标。
  • 潜在不可观测量(目标:学习它们):
    • C_t^1, ..., C_t^K: K 个潜在的因果变量(如物体是否被拿起、颜色、位置百分比等)。它们共同决定了观测 X_t。假设 X_t = h(C_t^1, ..., C_t^K),其中 h 是双射(观察函数可逆)。
    • I_t^1, ..., I_t^K: 对应于每个因果变量的潜在二元交互变量(1 = 该变量被agent干预,0 = 未干预)。这是报告的核心创新。
  • 核心假设(最简化版):
    • 时序动态演化C_tC_{t-1} 之间存在因果图。
    • 二元交互机制:在时间步骤 t,agent的动作 R_t 对每个因果变量 C_t 的影响,仅通过切换其生成机制来实现。具体来说:
      • 如果 I_t^k = 0(未干预),C_t^k 按照“观察机制”演化,仅由其历史父节点决定:C_t^k ~ p_obs(C_t^k | Pa(C_t^k))
      • 如果 I_t^k = 1(被干预),C_t^k 按照“干预机制”演化,不受其因果父节点的影响,可能被设定到某个新值:C_t^k ~ p_int(C_t^k | p_other)关键在于,这个干预机制 p_int 是不同于观察机制的
    • 可识别条件(最简版):对于任两个不同因果变量 ij,它们的交互变量 I_t^iI_t^j 不是完全同步的。比如,存在一些动作只干预 i,一些只干预 j,还有一些同时干预两者或都不干预。如果两个变量总是同时被干预或未被干预,就无法区分它们(只能分到一组)。

一个最简例子(K=2, 二值变量):

假设你的厨房有两个潜在因果变量:C^1 = “微波炉门的状态”(0=关,1=开),C^2 = “炉灶状态”(0=关,1=开)。你只能看到厨房的图像(X_t),并且知道你执行的动作(R_t,例如“点击图像左上角”或“点击图像右下角”)。

  • 未干预: 什么都不做,门状态和炉灶状态凭“物理规律”演化(通常是保持上次状态)。
  • 干预:
    • 动作1(点击左上角):很大概率导致 C^1 被干预(门打开),但 C^2 保持不变(I_1=1, I_2=0)。
    • 动作2(点击右下角):很大概率导致 C^2 被干预(炉灶开关切换),但 C^1 保持不变(I_1=0, I_2=1)。
    • 动作3(点击中间区域):可能两个都干预,也可能都不干预(I_1=I_2)。

BISCUIT如何工作: BISCUIT的VAE训练过程会强制学习的潜在空间 Z_t (充当 C_t 的替代)遵循一个因式分解的过渡先验(factorized transition prior)。这个先验的核心是一个由小网络(从 Z_{t-1}, R_t 预测)输出的 连续松弛的二元变量 A^k_t(模拟 I_t^k)。过渡概率 p(Z_t^k | Z_{t-1}, R_t) 被建模为两个机制(A_t^k = -1A_t^k = +1)的混合。由于每个因果变量 C^k只用两个机制(观察 vs. 干预)来描述,而agent动作 R_t 对不同 C^k 的影响模式(即 I_t^k 的取值模式)不同,使得这些影响模式本身成为“标签”,帮助解开变量之间的纠缠。


三、报告主体:讲者讲了什么

  • [0:06 - 0:16] 第一部分 (Sara Magliacane) — 设定与背景

    • [0:06 - 0:16] 介绍Causal Representation Learning (CRL) 在时序设定下的动机:这是一个自然的“干预学习”环境(观察到“前”和“后”),常见于机器人、强化学习、规划等。
    • [0:16 - 0:23] 引入动态贝叶斯网络 (DBN):一种在时序上表示因果关系的模板化图模型。莎拉解释了其关键假设——1-Markov假设(过去仅影响现在一步)、平稳性(边随时间重复)、和无即时效应(同一时刻内无边)。
    • [0:23 - 0:26] 通过一个具体的厨房环境设定(微波炉、鸡蛋、炉灶等)动态展示了BISCUIT想学习的内容:从图像中识别出物体的状态(因果变量),学习这些变量间的因果图(如微波炉可以加热鸡蛋),并将动作映射到对应的干预。
    • [0:26 - 0:30] 快速回顾了几种主流时序CRL方法:iVAE [Khemakhem et al., 2020](基于辅助变量和条件指数族)、DMS-VAE [Lachapelle et al., 2022](放松参数假设,但仍有指数族)、LEAP [Yao et al., 2022](利用非平稳性,非参数,但要求有多个环境/机制)。Sara明确指出这些方法要么有强参数假设,要么需要已知的“环境切换”。
    • [0:30 - 0:36] 介绍了她们自己的先前工作,CITRIS [Lippe et al., 2022] 和 iCITRIS [Lippe et al., 2023],这些工作假设观测到干预目标I_t向量)。她强调了CITRIS的强大之处(无参数假设,支持多维因果变量,识别到分量变换),但指出了关键缺点:需要已知干预目标(know intervention targets),这激发了后续的BISCUIT。
  • [0:36 - 1:01] 第二部分 (Phillip Lippe) — BISCUIT核心

    • [0:36 - 0:43] 核心设定:考虑一个具备二进制交互(Binary Interaction) 的设定。agent与环境中每个因果对象的交互本质上是一个二元开关 —— 要么处于“观察模式”(机制不变),要么处于“干预模式”(机制改变,比如因操作导致物体被随机放置)。引出的挑战:虽然知道agent执行的“动作”,但不知道哪些动作对应了哪个因果变量的干预
    • [0:43 - 0:51] 核心洞见与识别机制:Phillip通过一个“高斯加性噪声”的例子解释了为什么二元交互假设导致识别。如果噪声方差固定,那么旋转后的高斯变量看起来一样(无法识别)。但如果我们引入两种不同方差(对应观察 vs. 干预机制),那么旋转后的变量会有超过两种模式,这就破坏了混淆的可能性。Phillip用更实时的解释:正是因为每个因果变量只对应两种机制,这些机制模式本身(干预模式 vs. 非干预模式)就提供了一个强大的“标签”,使识别成为可能。
    • [0:51 - 0:60] 关键假设与识别定理
      1. 二元交互假设:agent对因果变量的影响可以简化为一个二元变量。
      2. 充分且多样的交互模式每个因果变量都必须被不同的交互模式子集(distinct interaction pattern subset)所干预,也就是说,不能有任意两个因果变量的干预模式向量总是完全相关(标识为0或1的情况)。模式数量随因果变量数 K 呈对数级增长(O(log K))。
      3. 没有即时效应(同CITRIS)。
      4. 机制有效性假设:干预机制和观察机制在所有因果变量的时间动态中是不相同的(保证二元变量标识的是真实切换)。 结论:在以上假设下,BISCUIT可以将因果变量识别到置换(permutation)和元素级变换(element-wise transformations) 的程度。这个定理结果同CITRIS,但在更困难的(未知干预目标)条件下。
    • [0:60 - 1:10] BISCUIT架构(VAE基础)
      • 输入:当前观测 X_t,前一步观测 X_{t-1},以及动作 R_t
      • 编码器:将 X_t 编码为潜在变量 Z_t (高维潜在表示,期望其对应因果变量 C 的置换/双射变换)。
      • 过渡先验:定义了 p(Z_t | Z_{t-1}, R_t)。核心在于此先验对潜在特征空间的每个维度是因式分解的p(Z_t | Z_{t-1}, R_t) = ∏_k p(Z_k^t | Z_{t-1}, A_k^t),其中 A_k^t 是一个从 (Z_{t-1}, R_t) 预测的连续松弛(tanh)的潜在二元变量,模拟 I_t^k。关键工程技巧:为了让模型可微分,A_k 不是硬离散的(0/1),而是一个通过温度退火(temperature annealing)从连续过渡到二值的变量。
    • [1:10 - 1:20] 实验结果
      • 合成数据:在有固定加性噪声的非线性因果图合成数据上,对比了iVAE、LEAP、DMS-VAE和BISCUIT。结果显示BISCUIT取得了很高的可识别性(R² > 0.9),优于有更强假设(如已知干预目标、充分变化性)的方法。
      • 三指操纵器(Tri-finger):一个机器人环境,agent控制三根手指随意互动。BISCUIT成功从图像和动作输入中学习到了“立方体颜色”、“背景”、“手指颜色”等因果变量,并且模型预测的干预变量与事实干预有很高的对应关系(特别是静态交互如物体颜色;对于动态碰撞存在不确定性,因为从当前图像难以判断下次碰撞是否发生)。
      • iGibson模拟器(Embodied AI):一个更复杂的家居环境,agent通过点击坐标来交互。BISCUIT将10个因果变量(开关灯泡、打开橱柜、加热物体等)正确分离开来。更令人印象深刻的成果是,通过学习到的解耦表示,可以进行组合生成:从两张不同的图像中分别取因果变量A和B,然后组合成一张从未见过的图像(如将鸡蛋放到未加热的烤盘上,而训练数据中必然鸡蛋加热后才会被切换状态)。这说明BISCUIT学到的表示确实是因果父子解开的
  • [1:20 - 1:40] 讨论部分(由Sébastien Lachapelle主持)

    • [1:20] Sebastian 提问:
      1. 如何利用CRL提升强化学习(RL)效果? 即解耦表示除了可解释性外,对下游任务的样本效率或泛化性能有何贡献?
      2. 工程技巧与理论/实践的鸿沟:理论假设(如可逆观察函数、无即时效应)与现实差距如何?
      3. 迈向更宏大的应用(如自动驾驶) 的下一步是什么?
    • [1:25 - 1:30] 讲师回应 (Phillip 和 Sara)
      • 对RL的提升:解耦的因果表示可以用于注意力/奖励降维(只关注与奖励相关的因果变量),并且对任务无关的因果机制变化具有鲁棒性。
      • 理论与实践的差距:现实世界的对象会出帧(物体消失)、非确定性交互、视角变化(非双射观测)。BISCUIT在这些条件下可能开始失效,但像“放松二元约束(连续松弛)”这样的工程技巧(梯度平滑)至关重要。此外理论假设(二元)和现实的非确定性之间存在张力,目前主要通过近似或工程适配。
      • 对自动驾驶:目前的理论框架太“派对”(可爱的合成世界)了。真正的难点在于,观察函数 h 在许多真实场景(特别是多视角或物体部分遮挡时)不是双射,而“无即时效应”假设在自动驾驶中几乎不成立(事件几乎瞬间发生)。BISCUIT的设定目前更适用于模拟环境、单元操纵任务或受限的机器人世界,离自动驾驶还有较远距离。
      • 额外讨论点(关于过参数化):Sebastian提到“识别性”迫使模型不够过参数化(需要限制容量),这与深度学习社区“越参越好优化越好”的直觉相悖。BISCUIT的方法是有意义地用大的维度过参数化:学到更多的潜在特征,再利用因果约束(二元机制)去压缩/合并相关的特征(partial identifiability)。这是一个很好的理论-实践平衡点。

四、对应论文与开放问题

(a) 对应论文 这场报告的核心论文是: * BISCUIT: Causal Representation Learning from Binary Interactions. * arXiv/出版:Phillip Lippe, Sara Magliacane, et al. 发表于 UAI 2023。 * arXiv链接:可通过 arXiv 搜索 “BISCUIT: Causal Representation Learning from Binary Interactions” 或 “Lippe BISCUIT” 找到。

董事会也强烈关联了以下论文(以供核查核心背景): * CITRIS (ICML 2022) * iCITRIS (ICLR 2023) * iVAE (AISTATS 2020) * DMS-VAE (CLeaR 2022) * LEAP (ICLR 2022) * Lachapelle et al. 2024 (arXiv:2401.04890)

(b) 开放问题 Ro可能的延伸方向 * 超越无即时效应假设 (讨论部分,[1:33]):BISCUIT假设没有即时效应(不出在同一个时间步,依赖于跨时间步的差异)。报告及讨论中提及,真实世界(尤其是复杂的物理引擎,如自动驾驶)中存在同时发生的因果关系。这是否要求引入新的理论(如动力学系统意义上的连续时间?)? * 处理非双射观测函数 ([1:36]):BISCUIT假设 X = h(C) 是双射。真实世界中,物体消失、视角切换、遮挡都意味着 h 不是双射(一个观测可能对应多个潜在状态,或潜在状态的某些部分不可观测)。这使得理论上的识别性定义需要完全重写。如何定义“部分可识别的因果变量”? * 从二元交互到更一般的交互 (Phillip在[0:46]的举例):BISCUIT的一个核心假设是“交互是二进制的”——要么观察要么干预。如果有复杂的连续控制(如agent对物体的力控制,力度大小不同会触发非二元的“机制”),二元机制假设失效。如何引入更复杂的,但仍有可识别性的机制结构(如“多机制”模型)? * 为RL学习的有向图带来的下游挑战 (由Sebastian的提问引向Phillip的结尾回答 [1:25]):目前尚未有一个令人信服的基准(benchmark)能证明,在强化学习场景中,使用BISCUIT的解耦Causal RL(因果强化学习)表示比标准的world model(世界模型)(如DreamerV3、TD-MPC等)在样本效率上显著提升。研究者可以提出一个实验设计,在某个关注因果关系的benchmark(如METAWORLD、CraftEnv)上,对比使用BISCUIT表示训练的RL agent和标准RL agent的回报。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论