Multi-Domain Causal Representation Learning¶

讲者: Young researchers' seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-02-25
主题: 因果推断
视频: https://youtu.be/PAXimAZbkPM · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2304.14545 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

子方向：基于多域（Interventional）数据的因果表示学习（Causal Representation Learning, CRL）可识别性

该子方向在追问什么：在观测高维数据 \(X\) 由低维潜变量 \(Z\) 经未知非线性混合 \(f\) 生成、且 \(Z\) 之间具有因果结构（有向无环图 \(G\)）的条件下，能否仅凭数据唯一地恢复出 \(Z\) 及其因果图 \(G\)？经典结果（非线性ICA）指出，若潜变量独立（\(G\) 为空图）且仅用观测数据，除元素级非线性重参数化外不可识别。因此，主流路线是引入额外结构（如时间依赖、辅助变量、多视图、干预数据）来削弱模糊性。

奠基与主流路线： - 非线性ICA：Hyvärinen & Morioka (2016), Hyvärinen et al. (2019) 利用时间自相关或辅助变量实现条件独立下的可识别性。 - CRL：Schölkopf et al. (2021) 提出目标；Locatello et al. (2019) 证明无额外信息时强非可识别；Khemakhem et al. (2020) 通过辅助变量（如域标签）实现可识别。 - 干预视角：最近工作（如Ahuja et al. 2022, Brehmer et al. 2022, Lippe et al. 2022）利用多个环境/干预数据来恢复潜变量及图，但大多假设线性混合或参数化因果模型。

当前 frontier：在完全非参数（任意可逆混合、任意光滑因果机制）条件下，能否仅用每节点一次单节点干预（而不需要全联合分布变化）实现可识别？本报告声称可以，并提出 Causal Component Analysis (CauCA) ——已知图、仅学解混函数与因果机制——作为通往全CRL的中间台阶。

报告站在哪： - 讲者 Julius von Kügelgen（ETH Zürich）与合作者（除他自己外的作者包括 Wendong Liang, Armin Kekić, Julius von Kügelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Schölkopf 等）发表了 Causal Component Analysis（NeurIPS 2023）——核心论文；以及另一篇关于图未知的 CRL 的结果（arXiv 2405? 待核实，转写中提及 “David BL” 等可能为后续工作）。 - 主要贡献： 1. 严格定义 CauCA，并证明在已知图 + 每个节点一次完美单节点随机干预下，可识别性达到元素级重参数化（即最好可能的模糊性）。 2. 如果干预是不完美的（仍有父母依赖），则识别性降低为每个变量可混入其祖先变量。 3. 将局部干预的视角推广到 ICA 场景，比传统基于全联合分布变化的 ICA 需要的域更少（3个域 vs 7个域）。 4. 对图未知的二元情况，证明在一个观测域 + 每节点一次完美干预下，除非出现非泛型（degenerate）条件，可识别性达到图同构 + 元素级重参数化。 - 重要相关可查引证（听不清的人名/年份暂标疑）： - 非线性ICA 不可识别：Hyvärinen & Pajunen (1999), 或 Locatello et al. (2019)。 - 干预视角：Ahuja et al. (2022) 或 Lippe et al. (2022) —— 但假设线性/参数化。 - CRL 图未知需要强假设：转写中提到 “counterfactual data, temporal, parametric, graph sparsity” 等广泛引用，具体参见幻灯片§1。幻灯片 §1 列出了详细的引用 (如 [1, 3, 9, 37, 54] 等)。

二、最小内核 / 一个最简例子¶

符号与模型： - \(d=2\) 个潜变量 \(Z=(Z_1, Z_2)\)，由已知 DAG \(G: Z_1 \to Z_2\) 生成（\(Z_1\) 是 \(Z_2\) 的父节点）。 - \(X = f(Z)\)，\(f\) 是未知 \(C^1\) 微分同胚（可逆且光滑）从 \(\mathbb{R}^2\)到\(\mathbb{R}^2\)。 - 观测域 \(k=0\)：\(P_0(Z) = P_1(Z_1)P_2(Z_2|Z_1)\)（因果马尔可夫分解）。 - 干预域 \(k=1\)：对 \(Z_1\) 进行完美随机干预：\(Z_1\) 的机制变为 \(\tilde{P}_1(Z_1)\)（独立于其原父节点集 \(\emptyset\)），\(Z_2\) 的机制不变。 - 干预域 \(k=2\)：对 \(Z_2\) 进行完美随机干预：机制变为 \(\tilde{P}_2(Z_2)\)，\(Z_1\) 机制不变。 - 我们观测到来自三个域的数据 \(\{X^{(n,k)}\}_{n=1}^{N_k}\)，且知道每个域的干预目标 \(\tau_1=\{1\}, \tau_2=\{2\}\)。

可识别性目标：从这些数据中，能否唯一恢复出真实的潜变量 \(Z\)（或等价的 \(f\)）？理想结果是找到 \(f^{-1}\) 使得其输出 \(\hat{Z}\) 与真实 \(Z\) 之间只差一个元素级非线性重参数化（即 \(\hat{Z}_1 = h_1(Z_1), \hat{Z}_2 = h_2(Z_2)\)，\(h_i\) 是 \(\mathbb{R}\) 上的微分同胚）。由于图已知且干预目标已知，不存在置换模糊性。

核心直觉（转写 [0:12:00]-[0:13:29]）： - 干扰：如果干预分布与观测分布在某区域内一样（如图2左边），可以在该区域内施加一个“测度保持自同构”（如映射到高斯、旋转、再映射回），不改变观测分布且改变潜变量间的混合。因此需要干预偏离假设：对每个干预变量，其机制 \(p_i\) 与原始机制 \(\tilde{p}_i\) 的梯度之比几乎处处非零（即干预充分改变了密度形状）。 - 在本例中，完美干预 \(p_1\) 被替换为 \(\tilde{p}_1\)，若它们满足条件 (4)，则命题保证了从三个域的数据可识别到元素级重参数化。

为什么本例能展示核心思想：二元 + 完美干预已经把图的已知性利用到极致；模糊性只剩元素级标度（而不是任意混合），这正是 CauCA 可达到的最佳结果。

三、报告主体：讲者讲了什么¶

时间线 [0:00:06] ~ [0:30:44]（仅 Julius 部分）

[0:00:06] - [0:01:26]：主持人开场，介绍 Julius von Kügelgen 和 Luigi Gresele（共同作者，现场回答问题）。

[0:01:26] - [0:02:11]：讲者致谢，列出两篇论文的共同作者（Wendong Liang, Armin Kekić, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Schölkopf，以及David Bl ... 可能是 David Blei？但讲者未明确说出全名，暂标待核实）。

[0:02:11] - [0:05:56]：问题背景：CRL 是 ICA 的推广（图非空）。给出典型数据生成过程：观测 \(X\)（高维） = \(f(Z)\)，\(Z\) 为低维因果潜变量。ICA 对应空图。纯粹无监督（仅有观测数据）无法识别非线性 ICA，必须引入额外结构。讲者综述四种主流假设（对应幻灯片中提及的多域/干预、多视图/反事实、时间结构），并指出本报告聚焦多域（干预）场景，目标是将现有结果推广到完全非参数设定。

[0:05:56] - [0:07:46]：多域数据示意：举医疗影像为例，不同医院对应不同干预域。假设各域共享同一底层因果模型及混合函数，仅在某些变量上发生干预。用锤子符号表示干预变量。

[0:07:46] - [0:09:41]：形式化建模： - 对每个域 \(k\)，观测 \(X = f(Z^{(k)})\)，\(Z^{(k)} \sim P_k\)。 - \(P_k\) 由因果贝叶斯网络定义：未干预节点机制共享，干预节点机制替换（可随机、可完美或不完美）。 - 假设：\(f\) 为 \(C^1\) 微分同胚，密度连续可微且全支撑，无参数化。

[0:09:41] - [0:11:03]：引入 CauCA：首先研究已知图的中间问题——“Causal Component Analysis”。它夹在 ICA 与 CRL 之间：已知图（不必为空），学解混函数和因果机制。优点：CauCA 的任何不可识别结果必然传递到 CRL，而正结果可作为步骤。

[0:11:03] - [0:13:29]：可识别性挑战与关键假设： - 讲者说明“spurious solutions”的存在：当干预分布与观测分布在某区域重合时，可在该区域施加测量保持变换（例如映射到高斯→旋转→逆映射），不改变观测分布却混合潜变量。这要求干预偏离假设（Assumption 4.1）：对每对被干预变量，其前后密度的部分导数之比几乎处处非零。 - 幻灯片给出严格公式：\(\partial(\ln p_{\tau_k})/\partial z_{\tau_k} \neq \partial(\ln \tilde{p}_{\tau_k})/\partial z_{\tau_k}\) a.e.

[0:13:29] - [0:14:53]：主要结果概述（CauCA）： - 每个节点一次完美单节点随机干预 \(\to\) 可识别到元素级重参数化（\(\mathcal{S}_{\text{scaling}}\)）。 - 每个节点一次不完美单节点干预 \(\to\) 可识别到祖先混合（\(\mathcal{S}_G\)：每个变量可含其祖先）。 - 这些结果在完全非线性非参数下成立（Thm 4.2, Prop 4.3, Thm 4.5）。 - 幻灯片表总结了不同干预类型下的识别性（图略）。

[0:14:53] - [0:16:05]：ICA 作为特例的新结果：将干预视角应用到 ICA（空图），可减少所需域的数量：3个域（观测+每个变量一次单节点干预）vs 传统非线性 ICA 需要 ≥7 个域（如 Hyvärinen et al. 2019 要求每变量对应一个辅助变量，相当于 7 个域）。因为干预直接对应某变量机制变化，而非整个联合分布变化。

[0:16:05] - [0:16:37]：必要性结果：若这些假设任一被违反（如某节点无干预、两节点同时无干预、干预不满足偏离假设），则无法实现元素级可识别。这限定了可识别性的边界。

[0:16:37] - [0:18:44]：实验（CauCA）： - 采用极大似然 + 归一化流，其 base distribution 根据因果图结构化（未干预机制跨域共享）。 - 纵轴：mean correlation coefficient (MCC) 衡量提取变量与真实变量的相似度。 - 横轴：因果强度（线性？按转写为 strength of causal relationships）。 - 结果：CauCA 方法（深蓝/灰色？）在全因果强度下表现优良，而 ICA（忽略因果依赖，黄色）在强因果关系时失败。 - 讲者称此验证了纳入因果结构的必要性。

[0:18:44] - [0:21:29]：进入全 CRL（图未知）： - 现在同时需要学习图 \(G\)、干预目标 \(\tau_k\)、解混函数。 - 讲者简化为二元潜变量 + 完美单节点干预（即每个域仅一个节点被完美干预）。定义等价类：图同构 + 元素级非线性重参数化。

[0:21:29] - [0:23:16]：等价类的意义：虽然不能得到绝对尺度，但某些因果影响度量（如 Janzing et al. 提出的信息理论因果影响“causal influence”在等价类下不变（等变于置换、不变于重参数化）。这使得学到的表示具有语义可解释性。

[0:23:16] - [0:25:39]：主要结果（CRL 二元情况）： - 假设：观测域 + 每个节点一次完美单节点随机干预，加上一个泛型条件（genericity condition）。该条件要求存在某个函数 \(\phi\) 使得 \(\mathbb{E}_{P_0}[\phi(Z_1)] \neq \mathbb{E}_{P_{\text{int on }Z_1}}[\phi(Z_1)]\)（类似地对于 \(Z_2\)）。讲者以 \(\phi(z)=z^2\) 为例，该条件等价于观察分布与干预分布的二阶矩不同。泛型条件防止了“参数细调”导致假阴性。 - 结论：除这种退化情况外，系统在非参数设置下可识别到图同构 + 元素级重参数化。

[0:25:39] - [0:26:17]：对多变量的延伸：若图更复杂，一个节点仅一次干预可能不够，但若每个节点有多个干预域，事情更容易。但没有给出一般定理。

[0:26:17] - [0:27:48]：CRL 实验： - 二元情况，共4种可能的图（包括空图、两种单向图、双向图）。 - 方法：逐一枚举图与干预目标（此处二元，仅4个组合），对每种假设运行 CauCA 的归一化流方法，计算对数似然并选择最优。 - 结果：正确模型（蓝色）的对数似然几乎总是大于其他模型（右图），且正确模型下的 MCC 接近1（左图）。这表明模型选择可行。

[0:27:48] - [0:30:44]：结论与开放问题： - 泛型条件只在二元情况下完全刻画，更大图时预计有类似但更复杂条件；讲者猜测一次干预每节点在泛型条件下足够。 - 局限：已知潜变量个数、混合函数可逆、等等。 - 枚举方法不可扩展到 >3-4 个变量；需要更高效的搜索策略。 - 最后鼓励听众查阅其他近期工作（未具体列出）。

四、对应论文与开放问题¶

（a）对应论文¶

内容	论文信息
Causal Component Analysis (CauCA)	讲者幻灯片明确：Liang Wendong, Armin Kekić, Julius von Kügelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Schölkopf. Causal Component Analysis. NeurIPS 2023. arXiv: 未见在转写中给出，但可推测为 2304.xxxxx（与用户提供的 arXiv 摘要 2304.14545 不是同一篇——后者是 David Bruns-Smith 的 augmented balancing weights，属于第二半场）。该论文的确切 arXiv ID 应在报告中 2304.14545 被误用，需核实。
Multi-domain Causal Representation Learning (图未知结果)	讲者提及其共同作者 David BL（Blei？）等；可查近期文章：von Kügelgen, J., et al. 可能发表在 AISTATS 2024 或 NeurIPS 2024 等，标题含 “Causal Representation Learning with Interventions”。转写中无确切 arXiv。
实验代码	https://github.com/akekic/causal-component-analysis （幻灯片底部）

注意：用户提供的 arXiv 2304.14545 摘要内容与讲者内容完全无关（那是 David 部分的论文），可能是误放。请研究者自行核查 Julius 对应论文的 arXiv 号（建议搜索“Causal Component Analysis”). 可查到的论文：arXiv:2306.05998 (Causal Component Analysis, NeurIPS 2023) （这是我根据领域知识推测，非转写提供，需核实）。

（b）报告留下的开放问题¶

每条扎根于转写具体位置：

泛型条件对多变量的表征 [0:27:48-0:28:06]：报告提出在二元情况下完全刻画了泛型条件（即存在某种函数使得观察与干预的二阶矩不同），但更大图时“only characterize in bivariate setting ... it's not because we don't think the result would extend ... there's probably multiple such conditions”. 因此尚需一般定义。
单次干预每节点在 \(d>2\) 时是否充分 [0:28:04-0:28:10]：讲者“conjecture that also one intervention per node should be sufficient in that case”，但未证明。需证明或给出反例。
已知潜变量个数 [0:28:18-0:28:20]：当前假设潜变量个数已知，“which is not the case in practice”。开放：能否从数据推断维度？
混合函数可逆性假设 [0:28:25]：假设 \(f\) 为微分同胚，现实世界可能不满足。开放：若混合函数不可逆或只有局部可逆，能否有可识别性部分结果？
枚举图与干预目标的不可扩展性 [0:28:30-0:28:42]：枚举所有可能 DAG 及干预目标组合不可行（尤其 \(d \geq 4\)）。需要更高效的结构学习或渐近性方法。
需否多干预每节点？ [0:26:08-0:26:15]：报告指出若每个节点有多个干预域则事情变得简单；但未说明这种“多域”设置如何与单次干预结果冲突或如何缓解。开放：在多少额外干预下可简化条件？

非常具体的问题（源自用户因果推断背景，但报告中不涉及）：
CauCA 与深层因果推断的接口——例如，如果潜变量 Z 之间存在中介结构，观测到干预后的多域数据能否帮助识别 总效应或直接效应？报告未讨论因果参数的可识别性，仅聚焦潜变量恢复。

Maintained by 陈星宇 · Homepage · Source on GitHub