跳转至

Multi-Domain Causal Representation Learning

讲者: Young researchers' seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-02-25
主题: 因果推断
视频: https://youtu.be/PAXimAZbkPM · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2304.14545 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

子方向:基于多域(Interventional)数据的因果表示学习(Causal Representation Learning, CRL)可识别性

该子方向在追问什么:在观测高维数据 \(X\) 由低维潜变量 \(Z\) 经未知非线性混合 \(f\) 生成、且 \(Z\) 之间具有因果结构(有向无环图 \(G\))的条件下,能否仅凭数据唯一地恢复出 \(Z\) 及其因果图 \(G\)?经典结果(非线性ICA)指出,若潜变量独立(\(G\) 为空图)且仅用观测数据,除元素级非线性重参数化外不可识别。因此,主流路线是引入额外结构(如时间依赖、辅助变量、多视图、干预数据)来削弱模糊性。

奠基与主流路线: - 非线性ICA:Hyvärinen & Morioka (2016), Hyvärinen et al. (2019) 利用时间自相关或辅助变量实现条件独立下的可识别性。 - CRL:Schölkopf et al. (2021) 提出目标;Locatello et al. (2019) 证明无额外信息时强非可识别;Khemakhem et al. (2020) 通过辅助变量(如域标签)实现可识别。 - 干预视角:最近工作(如Ahuja et al. 2022, Brehmer et al. 2022, Lippe et al. 2022)利用多个环境/干预数据来恢复潜变量及图,但大多假设线性混合或参数化因果模型。

当前 frontier:在完全非参数(任意可逆混合、任意光滑因果机制)条件下,能否仅用每节点一次单节点干预(而不需要全联合分布变化)实现可识别?本报告声称可以,并提出 Causal Component Analysis (CauCA) ——已知图、仅学解混函数与因果机制——作为通往全CRL的中间台阶。

报告站在哪: - 讲者 Julius von Kügelgen(ETH Zürich)与合作者(除他自己外的作者包括 Wendong Liang, Armin Kekić, Julius von Kügelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Schölkopf 等)发表了 Causal Component Analysis(NeurIPS 2023)——核心论文;以及另一篇关于图未知的 CRL 的结果(arXiv 2405? 待核实,转写中提及 “David BL” 等可能为后续工作)。 - 主要贡献: 1. 严格定义 CauCA,并证明在已知图 + 每个节点一次完美单节点随机干预下,可识别性达到元素级重参数化(即最好可能的模糊性)。 2. 如果干预是不完美的(仍有父母依赖),则识别性降低为每个变量可混入其祖先变量。 3. 将局部干预的视角推广到 ICA 场景,比传统基于全联合分布变化的 ICA 需要的域更少(3个域 vs 7个域)。 4. 对图未知的二元情况,证明在一个观测域 + 每节点一次完美干预下,除非出现非泛型(degenerate)条件,可识别性达到图同构 + 元素级重参数化。 - 重要相关可查引证(听不清的人名/年份暂标疑): - 非线性ICA 不可识别:Hyvärinen & Pajunen (1999), 或 Locatello et al. (2019)。 - 干预视角:Ahuja et al. (2022) 或 Lippe et al. (2022) —— 但假设线性/参数化。 - CRL 图未知需要强假设:转写中提到 “counterfactual data, temporal, parametric, graph sparsity” 等广泛引用,具体参见幻灯片§1。幻灯片 §1 列出了详细的引用 (如 [1, 3, 9, 37, 54] 等)。


二、最小内核 / 一个最简例子

符号与模型: - \(d=2\) 个潜变量 \(Z=(Z_1, Z_2)\),由已知 DAG \(G: Z_1 \to Z_2\) 生成(\(Z_1\)\(Z_2\) 的父节点)。 - \(X = f(Z)\)\(f\) 是未知 \(C^1\) 微分同胚(可逆且光滑)从 \(\mathbb{R}^2\)\(\mathbb{R}^2\)。 - 观测域 \(k=0\)\(P_0(Z) = P_1(Z_1)P_2(Z_2|Z_1)\)(因果马尔可夫分解)。 - 干预域 \(k=1\):对 \(Z_1\) 进行完美随机干预\(Z_1\) 的机制变为 \(\tilde{P}_1(Z_1)\)(独立于其原父节点集 \(\emptyset\)),\(Z_2\) 的机制不变。 - 干预域 \(k=2\):对 \(Z_2\) 进行完美随机干预:机制变为 \(\tilde{P}_2(Z_2)\)\(Z_1\) 机制不变。 - 我们观测到来自三个域的数据 \(\{X^{(n,k)}\}_{n=1}^{N_k}\),且知道每个域的干预目标 \(\tau_1=\{1\}, \tau_2=\{2\}\)

可识别性目标:从这些数据中,能否唯一恢复出真实的潜变量 \(Z\)(或等价的 \(f\))?理想结果是找到 \(f^{-1}\) 使得其输出 \(\hat{Z}\) 与真实 \(Z\) 之间只差一个元素级非线性重参数化(即 \(\hat{Z}_1 = h_1(Z_1), \hat{Z}_2 = h_2(Z_2)\)\(h_i\)\(\mathbb{R}\) 上的微分同胚)。由于图已知且干预目标已知,不存在置换模糊性。

核心直觉(转写 [0:12:00]-[0:13:29]): - 干扰:如果干预分布与观测分布在某区域内一样(如图2左边),可以在该区域内施加一个“测度保持自同构”(如映射到高斯、旋转、再映射回),不改变观测分布且改变潜变量间的混合。因此需要干预偏离假设:对每个干预变量,其机制 \(p_i\) 与原始机制 \(\tilde{p}_i\) 的梯度之比几乎处处非零(即干预充分改变了密度形状)。 - 在本例中,完美干预 \(p_1\) 被替换为 \(\tilde{p}_1\),若它们满足条件 (4),则命题保证了从三个域的数据可识别到元素级重参数化。

为什么本例能展示核心思想:二元 + 完美干预已经把图的已知性利用到极致;模糊性只剩元素级标度(而不是任意混合),这正是 CauCA 可达到的最佳结果。


三、报告主体:讲者讲了什么

时间线 [0:00:06] ~ [0:30:44](仅 Julius 部分)

[0:00:06] - [0:01:26]:主持人开场,介绍 Julius von Kügelgen 和 Luigi Gresele(共同作者,现场回答问题)。

[0:01:26] - [0:02:11]:讲者致谢,列出两篇论文的共同作者(Wendong Liang, Armin Kekić, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Schölkopf,以及David Bl ... 可能是 David Blei?但讲者未明确说出全名,暂标待核实)。

[0:02:11] - [0:05:56]问题背景:CRL 是 ICA 的推广(图非空)。给出典型数据生成过程:观测 \(X\)(高维) = \(f(Z)\)\(Z\) 为低维因果潜变量。ICA 对应空图。纯粹无监督(仅有观测数据)无法识别非线性 ICA,必须引入额外结构。讲者综述四种主流假设(对应幻灯片中提及的多域/干预、多视图/反事实、时间结构),并指出本报告聚焦多域(干预)场景,目标是将现有结果推广到完全非参数设定。

[0:05:56] - [0:07:46]多域数据示意:举医疗影像为例,不同医院对应不同干预域。假设各域共享同一底层因果模型及混合函数,仅在某些变量上发生干预。用锤子符号表示干预变量。

[0:07:46] - [0:09:41]形式化建模: - 对每个域 \(k\),观测 \(X = f(Z^{(k)})\)\(Z^{(k)} \sim P_k\)。 - \(P_k\) 由因果贝叶斯网络定义:未干预节点机制共享,干预节点机制替换(可随机、可完美或不完美)。 - 假设:\(f\)\(C^1\) 微分同胚,密度连续可微且全支撑,无参数化

[0:09:41] - [0:11:03]引入 CauCA:首先研究已知图的中间问题——“Causal Component Analysis”。它夹在 ICA 与 CRL 之间:已知图(不必为空),学解混函数和因果机制。优点:CauCA 的任何不可识别结果必然传递到 CRL,而正结果可作为步骤。

[0:11:03] - [0:13:29]可识别性挑战与关键假设: - 讲者说明“spurious solutions”的存在:当干预分布与观测分布在某区域重合时,可在该区域施加测量保持变换(例如映射到高斯→旋转→逆映射),不改变观测分布却混合潜变量。这要求干预偏离假设(Assumption 4.1):对每对被干预变量,其前后密度的部分导数之比几乎处处非零。 - 幻灯片给出严格公式:\(\partial(\ln p_{\tau_k})/\partial z_{\tau_k} \neq \partial(\ln \tilde{p}_{\tau_k})/\partial z_{\tau_k}\) a.e.

[0:13:29] - [0:14:53]主要结果概述(CauCA): - 每个节点一次完美单节点随机干预 \(\to\) 可识别到元素级重参数化(\(\mathcal{S}_{\text{scaling}}\))。 - 每个节点一次不完美单节点干预 \(\to\) 可识别到祖先混合(\(\mathcal{S}_G\):每个变量可含其祖先)。 - 这些结果在完全非线性非参数下成立(Thm 4.2, Prop 4.3, Thm 4.5)。 - 幻灯片表总结了不同干预类型下的识别性(图略)。

[0:14:53] - [0:16:05]ICA 作为特例的新结果:将干预视角应用到 ICA(空图),可减少所需域的数量:3个域(观测+每个变量一次单节点干预)vs 传统非线性 ICA 需要 ≥7 个域(如 Hyvärinen et al. 2019 要求每变量对应一个辅助变量,相当于 7 个域)。因为干预直接对应某变量机制变化,而非整个联合分布变化。

[0:16:05] - [0:16:37]必要性结果:若这些假设任一被违反(如某节点无干预、两节点同时无干预、干预不满足偏离假设),则无法实现元素级可识别。这限定了可识别性的边界。

[0:16:37] - [0:18:44]实验(CauCA): - 采用极大似然 + 归一化流,其 base distribution 根据因果图结构化(未干预机制跨域共享)。 - 纵轴:mean correlation coefficient (MCC) 衡量提取变量与真实变量的相似度。 - 横轴:因果强度(线性?按转写为 strength of causal relationships)。 - 结果:CauCA 方法(深蓝/灰色?)在全因果强度下表现优良,而 ICA(忽略因果依赖,黄色)在强因果关系时失败。 - 讲者称此验证了纳入因果结构的必要性。

[0:18:44] - [0:21:29]进入全 CRL(图未知): - 现在同时需要学习图 \(G\)、干预目标 \(\tau_k\)、解混函数。 - 讲者简化为二元潜变量 + 完美单节点干预(即每个域仅一个节点被完美干预)。定义等价类:图同构 + 元素级非线性重参数化。

[0:21:29] - [0:23:16]等价类的意义:虽然不能得到绝对尺度,但某些因果影响度量(如 Janzing et al. 提出的信息理论因果影响“causal influence”在等价类下不变(等变于置换、不变于重参数化)。这使得学到的表示具有语义可解释性。

[0:23:16] - [0:25:39]主要结果(CRL 二元情况): - 假设:观测域 + 每个节点一次完美单节点随机干预,加上一个泛型条件(genericity condition)。该条件要求存在某个函数 \(\phi\) 使得 \(\mathbb{E}_{P_0}[\phi(Z_1)] \neq \mathbb{E}_{P_{\text{int on }Z_1}}[\phi(Z_1)]\)(类似地对于 \(Z_2\))。讲者以 \(\phi(z)=z^2\) 为例,该条件等价于观察分布与干预分布的二阶矩不同。泛型条件防止了“参数细调”导致假阴性。 - 结论:除这种退化情况外,系统在非参数设置下可识别到图同构 + 元素级重参数化。

[0:25:39] - [0:26:17]对多变量的延伸:若图更复杂,一个节点仅一次干预可能不够,但若每个节点有多个干预域,事情更容易。但没有给出一般定理。

[0:26:17] - [0:27:48]CRL 实验: - 二元情况,共4种可能的图(包括空图、两种单向图、双向图)。 - 方法:逐一枚举图与干预目标(此处二元,仅4个组合),对每种假设运行 CauCA 的归一化流方法,计算对数似然并选择最优。 - 结果:正确模型(蓝色)的对数似然几乎总是大于其他模型(右图),且正确模型下的 MCC 接近1(左图)。这表明模型选择可行。

[0:27:48] - [0:30:44]结论与开放问题: - 泛型条件只在二元情况下完全刻画,更大图时预计有类似但更复杂条件;讲者猜测一次干预每节点在泛型条件下足够。 - 局限:已知潜变量个数、混合函数可逆、等等。 - 枚举方法不可扩展到 >3-4 个变量;需要更高效的搜索策略。 - 最后鼓励听众查阅其他近期工作(未具体列出)。


四、对应论文与开放问题

(a)对应论文

内容 论文信息
Causal Component Analysis (CauCA) 讲者幻灯片明确:Liang Wendong, Armin Kekić, Julius von Kügelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Schölkopf. Causal Component Analysis. NeurIPS 2023. arXiv: 未见在转写中给出,但可推测为 2304.xxxxx(与用户提供的 arXiv 摘要 2304.14545 不是同一篇——后者是 David Bruns-Smith 的 augmented balancing weights,属于第二半场)。该论文的确切 arXiv ID 应在报告中 2304.14545 被误用,需核实
Multi-domain Causal Representation Learning (图未知结果) 讲者提及其共同作者 David BL(Blei?)等;可查近期文章:von Kügelgen, J., et al. 可能发表在 AISTATS 2024 或 NeurIPS 2024 等,标题含 “Causal Representation Learning with Interventions”。转写中无确切 arXiv。
实验代码 https://github.com/akekic/causal-component-analysis (幻灯片底部)

注意:用户提供的 arXiv 2304.14545 摘要内容与讲者内容完全无关(那是 David 部分的论文),可能是误放。请研究者自行核查 Julius 对应论文的 arXiv 号(建议搜索“Causal Component Analysis”). 可查到的论文:arXiv:2306.05998 (Causal Component Analysis, NeurIPS 2023) (这是我根据领域知识推测,非转写提供,需核实)。

(b)报告留下的开放问题

每条扎根于转写具体位置:

  1. 泛型条件对多变量的表征 [0:27:48-0:28:06]:报告提出在二元情况下完全刻画了泛型条件(即存在某种函数使得观察与干预的二阶矩不同),但更大图时“only characterize in bivariate setting ... it's not because we don't think the result would extend ... there's probably multiple such conditions”. 因此尚需一般定义。

  2. 单次干预每节点在 \(d>2\) 时是否充分 [0:28:04-0:28:10]:讲者“conjecture that also one intervention per node should be sufficient in that case”,但未证明。需证明或给出反例。

  3. 已知潜变量个数 [0:28:18-0:28:20]:当前假设潜变量个数已知,“which is not the case in practice”。开放:能否从数据推断维度?

  4. 混合函数可逆性假设 [0:28:25]:假设 \(f\) 为微分同胚,现实世界可能不满足。开放:若混合函数不可逆或只有局部可逆,能否有可识别性部分结果?

  5. 枚举图与干预目标的不可扩展性 [0:28:30-0:28:42]:枚举所有可能 DAG 及干预目标组合不可行(尤其 \(d \geq 4\))。需要更高效的结构学习或渐近性方法。

  6. 需否多干预每节点? [0:26:08-0:26:15]:报告指出若每个节点有多个干预域则事情变得简单;但未说明这种“多域”设置如何与单次干预结果冲突或如何缓解。开放:在多少额外干预下可简化条件?

非常具体的问题(源自用户因果推断背景,但报告中不涉及):
CauCA 与深层因果推断的接口——例如,如果潜变量 Z 之间存在中介结构,观测到干预后的多域数据能否帮助识别 总效应或直接效应?报告未讨论因果参数的可识别性,仅聚焦潜变量恢复。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论