Beyond identifiability in causal representation learning¶

讲者: Bryon Aragam
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-04-28
主题: 因果推断
视频: https://youtu.be/Xj2h0Z1qwms

官方摘要：Causal reasoning has long been recognized as a crucial skill needed to build intelligent systems. Whether or not current systems possess this skill is the subject of much debate: Recent years have witnessed a flurry of activity with both positive and negative results on this topic from both theoretical and empirical perspectives. This talk will highlight the challenges intrinsic to this endeavour, focusing on the difficulties in translating existing causal identifiability results into practical, finite-sample algorithms. We will focus on two concrete subproblems in causal representation learning, namely neighbourhood selection and factor modeling, and present recent progress towards resolving these challenges.

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向定位：因果表示学习（Causal Representation Learning, CRL）旨在从高维观测数据中恢复具有因果语义的潜表示（如物体颜色、背景等概念）。其核心困难是双重不可观测性：既不知道潜变量本身，也不知道潜变量间的因果结构。主流路线是利用干预数据（多环境、多任务）实现可识别性（identifiability）——在理想化无穷样本下，证明某些矩阵/图/函数可被唯一确定（up to permutation/scaling）。这方面的奠基性工作包括：

Silva et al. (2006)：提出LvLiNGAM，利用非高斯性及稀疏观测变量上的因果发现来间接推断潜变量。
Hyvärinen & Morioka (2016)：利用时间序列的非平稳性实现非线性ICA的可识别性。
Khemakhem et al. (2020)：假设潜变量上的条件指数族分布，利用辅助变量（如时间索引）证明非线性生成模型的可识别性。
Brehmer et al. (2022)：假设对潜变量进行已知单节点硬干预，证明整个非线性模型可识别。

当前frontier：可识别性结果已有大量积累（仅2023年就有十余篇），但有限样本下的估计与推断几乎未得到系统研究。讲者所在的芝加哥小组（Aragam等）正是要填补这个空白——即使在最简单的线性模型下，也会出现令人惊讶的统计和计算行为。本报告的两个子问题：

因子模型中的因果表示学习：用子线性（log D）个干预环境，在无分布假设、无稀疏性假设下，以根号 d log p / n 的速率恢复混合矩阵、潜变量和潜因果图。
结构方程模型中的邻域选择：抽象掉潜变量问题，研究因变量Y的父节点集合的选取。在协变量高度相关（即潜变量间存在因果依赖）时，标准方法（lasso、最优子集选择）或非最优或计算困难；讲者提出基于KL散度的子集选择器（KLBSS），其点态样本复杂度严格优于最优子集选择，且达到minimax最优，但多项式时间算法在标准假设下不存在。

本报告的位置：它位于“因果表示学习”和“统计学基础”的交叉点。讲者主张：“因果表示学习中最有趣的因果行为已经在线性情形中出现了”，而且“大多数实践者过于关注可识别性，忽略了有限样本下的挑战”。这与听众（尤其是因果推断研究者）的直觉一致：线性模型先搞懂，非线性后才能谈。报告相当于为该领域提供了第一套系统的有限样本理论框架——对因子模型和变量选择分别给出了最优速率和计算边界。

二、最小内核 / 一个最简例子¶

2.1 符号与数据生成模型（线性因果因子模型）¶

设潜变量 \(Z \in \mathbb{R}^d\) 满足线性结构方程模型（SEM）：

\[Z = A Z + \nu, \quad \nu_i \text{ 独立噪声, } \mathbb{E}[\nu \nu^\top] = \mathrm{diag}(\sigma^2_i)\]

其中 \(A\) 是严格下三角矩阵（对应有向无环图，DAG），所以 \((I - A)\) 可逆。

观测数据 \(X \in \mathbb{R}^p\) 通过一个未知满秩的线性混合矩阵 \(B \in \mathbb{R}^{p \times d}\) 生成：

\[X = B Z + \epsilon, \quad \epsilon \perp Z, \quad \mathbb{E}[\epsilon \epsilon^\top] = \sigma^2 I_p \text{ (同方差，但未知)}\]

其中噪声 \(\epsilon\) 和 \(\nu\) 均为次高斯（不需要指定具体分布）。

有 \(K\) 个环境（\(K \ll d\)），每个环境对应一种干预设置。环境 \(k\) 中，干预改变潜变量子集 \(I_k \subseteq \{1,\dots,d\}\) 的噪声方差（soft intervention），同时可能改变其均值（但这里只关心方差变化）。观测数据：从每个环境得到 \(n_k\) 个i.i.d.样本 \((X^{(k)}_1, \dots, X^{(k)}_{n_k})\)。所有环境的 \(A\) 和 \(B\) 相同，仅潜变量噪声方差 \(\sigma^{(k)}_i\) 可能不同。

Estimation目标：恢复 \(B\)（up to列缩放和重排）、恢复 \(Z\)（用其条件期望）、恢复图 \(G\)（由 \(A\) 的非零模式决定）。

2.2 最简特例（\(d=2, p\) 很大）¶

潜变量：\(Z = (Z_1, Z_2)^\top\)，图 \(A = \begin{pmatrix}0 & 0 \\ a_{21} & 0\end{pmatrix}\)（即 \(Z_1 \to Z_2\)）。
观测：\(X = B Z + \epsilon\)，\(B\) 是 \(p \times 2\) 满秩矩阵（例如随机生成）。
环境：\(K=2\)。环境0：无干预（观测）。环境1：干预 \(Z_1\)，即增大其噪声方差 \(\sigma^2_{1,\text{int}} \gg \sigma^2_{1,\text{obs}}\)，同时保持 \(Z_2\) 不变（仅通过 \(Z_1\) 间接受影响）。
分离系统条件：对潜变量对 \((Z_1, Z_2)\)，存在环境1使得 \(Z_1\) 被干预而 \(Z_2\) 未被干预；且需存在另一个环境（如环境0）使得 \(Z_1\) 未被干预而 \(Z_2\) 也未受干预（实际上只需要“对称性”来区分各变量，如此处环境0可视为“未干预任何一个”）。更精确地说，分离系统要求对每对变量，有一个环境正好只干预其中一个；对于 \(d=2\)，只需要环境1（干预节点1）和环境2（干预节点2）即可——但这里只有1个干预环境？讲者提到需要至少log D个环境，在d=2时log 2≈1，但实践中仍需要至少2个环境（观测+一个干预）来满足分离系统的基本要求。不过具体条件稍复杂，这里简化理解即可。

核心直觉：环境1中方差变大 \(\Rightarrow\) 观测协方差矩阵 \(\Sigma^{(1)} = B \mathrm{Cov}(Z^{(1)}) B^\top + \sigma^2 I\) 相比环境0有一低秩变化（rank-1，因为只干预了1个潜变量）。通过比较两个环境的样本协方差，可以检测出变化的方向，进而识别出 \(B\) 的第一列（up to scaling）。一旦知道 \(B\) 的列，就可以解出 \(Z\) 的估计（如用 \(\hat{Z} = (B^\top B)^{-1} B^\top X\)），然后从 \(\hat{Z}\) 中估计SEM系数 \(a_{21}\)（比如用回归 \(Z_2 \sim Z_1\) 得到斜率）。关键在于：传统因子分析只能识别 \(B\) 的列空间，但利用跨环境的协方差差异可以额外识别出列向量本身（因为干预的方差变化在低秩扰动中留下了“指纹”）。

三、报告主体：讲者讲了什么¶

[0:01:06 - 0:03:10] 动机与模型设置。展示了线性因果因子模型的结构图：潜变量 \(Z\) 遵从线性SEM（矩阵 \(A\)），通过线性解码器 \(B\) 加上高斯噪声得到观测 \(X\)。目标是同时恢复 \(B\)、\(Z\) 和 \(A\)（图 \(G\)）。指出该模型覆盖了经典线性SEM（当 \(B=I\)）、回归（当父节点被选为变量）和因子分析（忽略因果结构）。

[0:03:50 - 0:05:05] 与非线性生成模型的联系。一般非线性CRL模型将潜变量通过非线性函数映射到观测，本报告的线性模型是其可驾驭的特例，但已能揭示核心挑战。

[0:05:18 - 0:07:10] 听众提问与澄清：关于“representation”是潜变量还是观测数据的函数。讲者解释生成模型视角与估计视角的区别，并表示估计时确实会从观测数据计算表示。

[0:07:21 - 0:11:00] 历史回顾与当前热点。提到Pearl (1988)等早期工作。随后展示一个玩具示例：三种颜色概念（背景色、物体色、灯光色），目标是让模型学会在未见过的组合下生成图像（如干预背景色和物体色同时改变）。强调抽象（abstraction） 和组合（composition） 是两项核心能力，而组合本质上就是因果上的跨目标干预泛化。

[0:11:24 - 0:13:10] “今天的核心问题”：如何超越可识别性，理解有限样本下的估计与推断。指出尽管有很多可识别性结果，但在真实数据上现有方法表现不佳（引用ICML 2023的一篇benchmark）。认为原因在于问题位于潜变量模型、图模型和非参数统计的交叉点，每个子问题单独都很困难。

[0:13:28 - 0:15:03] 可识别性示例：多环境下的非线性模型。假设 \(Z \sim \mathcal{N}(0, \Sigma)\)，通过可逆非线性 \(f\) 映射到 \(X\)。若对每个潜变量都有一次单节点硬干预，则整个模型（包括 \(f\)、\(Z\) 和因果图）可唯一识别（up to permutation & scaling）。强调这种结果需要 \(d\) 个环境，但实际中 \(d\) 可达数千，不可能收集这么多环境。

[0:15:32 - 0:18:16] 统计硬度结果回顾。列举因果发现的已知困难：无一致检验、强忠实性集合测度很大、对根号n替代假设不可检验；潜变量模型的奇异渐近破坏均匀性、相位转换（如信号检测的低信噪比门限）、非参数潜变量模型的一致估计不存在（引用讲者自己2022年的论文）。这些结果表明即使是线性模型也不能掉以轻心。

[0:18:35 - 0:23:45] 贡献1：用子线性多个环境学习因果表示（arXiv preprint）。正式定义模型：\(X^{(k)} = B Z^{(k)} + \epsilon\)，\(Z^{(k)} = (I-A)^{-1} \nu^{(k)}\)，\(\nu^{(k)}\) 在各环境间不同（干预改变其方差）。关键假设： 1. 干预目标 \(\{I_k\}_{k=1}^K\) 构成一个分离系统——对任意两个潜变量，存在一个环境使其中一个被干预而另一个未受干预（反之亦然）。这是信息论下界要求的必要数量（\(\lceil \log_2 d \rceil\)即可满足）。 2. 噪声方差在各环境间的比值不完全相等（技术性条件，需要一定变化）。 3. 普遍性（pervasiveness）条件：矩阵 \(B\) 的奇异值不衰减太快（“足够多的因子在观测中留下来”）。若不考虑噪声，该条件可大幅放松。

讲者强调这些条件在随机生成时高概率成立。

[0:23:59 - 0:24:45] 听众提问：同方差假设、P vs D的维度。回答：同方差是标准因子模型设定；不需要p很大，但典型的有利设置是 \(p \gg d\)。

[0:24:46 - 0:28:30] 算法的核心步骤（高层面）： - 步骤1：构建去噪的协方差矩阵估计（处理未知噪声方差 \(\sigma^2\)）。 - 步骤2：通过比较环境间协方差矩阵的秩来提取干预目标集 \(I_k\)。这一步需要从跨环境的共享列空间的维度信息中推断。 - 步骤3：利用“未干预某个潜变量的环境”的共享子空间提取 \(B\) 的对应列（关键等式：列 \(B_j\) 正比于所有不干预 \(Z_j\) 的环境的协方差矩阵的公共列空间的生成元）。 - 步骤4：用伪逆估计潜变量 \(Z\)（若要求更优速率可用更精细方法）。 - 步骤5：通过一组广义特征值问题恢复矩阵 \(A\)（进而得到有向图 \(G\)）。

[0:28:30 - 0:34:00] 理论保证（定理）。对于混合矩阵 \(B\)，估计误差率为 \(O(\sqrt{d \log p / n})\)（未记入环境间对齐的额外代价，但最终速率与因子分析标准结果一致）；潜协方差矩阵（各环境）同样收敛；在信号强度足够大时，可以一致恢复整个潜在因果图。所有结果均需要 \(K = O(\log d)\) 个环境（匹配信息论下界）。

[0:34:27 - 0:35:04] 这是arXiv预印本（2023？），讲者称仍有更新。

[0:35:04 - 0:44:35] 贡献2：结构方程模型中的邻域选择（KLBSS）。抽象掉潜变量：现在考虑单个响应 \(Y\) 和一组可能的父节点 \(X_1,\dots,X_m\)。目标是恢复 \(Y\) 的真实父节点集合（支持集）。这是恢复潜在因果图所必需的子问题。

指出在此设置下： - Lasso由于协变量间的（因果）依赖性而不一致（不满足IRREP条件）。 - 最优子集选择（BSS）是一致且已知的几乎最优方法（已有结果证明它对于一类协方差矩阵是minimax最优的）。 - 但可以做得更好：用KLBSS，即在BSS的目标函数中加上一个源自KL散度第二项的正则化项，该项依赖于被排除变量在目标子模型下的部分回归系数。

[0:35:48 - 0:37:55] 关键直觉：在简单二变量模型中（\(X_1\) 是 \(Y\) 的真父，\(X_2\) 是 \(X_1\) 的子代），BSS的有效信号强度依赖于依赖强度 \(b\)（\(X_1\) 对 \(X_2\) 的回归系数），而KLBSS的有效信号强度与 \(b\) 无关。这意味着当协变量高度相关时，KLBSS的样本复杂度比BSS更小。

[0:38:11 - 0:39:08] 形式化定义：\(\hat{S}^{(KLBSS)}_s = \arg\min_{|T|=s} \left\{ \min_{\beta_T} \|Y - X_T\beta_T\|^2 + \min_{\gamma_{T^c}} \|Y - X_T\beta_T - X_{T^c}\gamma_{T^c}\|^2 \right\}\)。第二个min是BSS缺失的。

[0:39:37 - 0:42:48] 理论结果：KLBSS的点态样本复杂度以参数 \(k_k\)（更强）而非 \(k_b\)（偏弱）衡量，因此严格小于BSS的点态样本复杂度；同时KLBSS达到了该条件下的minimax最优率（与BSS相同，但实现了更小的具体常数）。

[0:42:52 - 0:44:35] 数值实验：在合成数据和基因表达真实数据上，KLBSS的恢复概率和预测均方误差均优于BSS和lasso。

[0:44:35 - 0:46:37] 听众问答：与信息准则（如AIC）的关系。讲者解释，对于固定模型大小，KLBSS的得分函数可直接比较；若模型大小可变，则需要添加复杂度惩罚，这与BSS的情况完全相同。

[0:46:47 - 0:47:27] 计算复杂性下界：在标准假设下（如与平均情况复杂度相关），没有任何多项式时间算法能有效解决这个变量选择问题（当协变量依赖性强时）。低度多项式障碍或类似准则适用。因此，在实践上我们必须接受要么使用指数时间（如子集选择），要么放弃精确恢复。

[0:47:30 - 0:48:40] 总结与展望：讲者重点强调“即使在最简单的线性模型中，也有令人惊讶的统计和计算行为”，并提倡更多关注CRL的有限样本基础。

[0:48:40 - end] 问答环节（略）。

四、对应论文与开放问题¶

4.1 对应论文（根据转写和领域常识，需核实）¶

“Learning causal representations with few environments”（因子模型部分）
合并arXiv: 转写中提及“我们要有一篇arXiv预印本”。讲者姓名为Bryon Aragam，合作者应为博士后和学生（名字被听成“beyond and tong”，可能为“Benyang? & Tong”之类的拼写）。最好在arXiv搜索“Aragam few environments causal representation”。
该论文尚未给出正式标题，但可暂定为“Learning Latent Causal Representations from a Sublinear Number of Interventions”。
“Kullback-Leibler Best Subset Selection”（邻域选择部分）
可能为Aragam等人2023或2024年的工作，标题类似“KLBSS: Exact minimax support recovery via KL divergence”。讲者提到“a separate paper we put out recently”。可用关键词“KLBSS Aragam”搜索。

注意：转写中未给出明确arXiv号或DOI，以上描述需研究者对照视频和讲者网站核实。一些具体名称（如“beyond and tong”）高度存疑。

4.2 开放问题（扎根于转写中的时间点）¶

[0:23:45 - 0:24:00] 异方差噪声的推广：在Q&A中，听众指出若噪声异方差，去噪步骤会不同，但提取B列的步骤或许仍类似。讲者表示认同，但未给出具体方案。开放问题：如何将算法扩展到异方差噪声？ 使用类似高维自适应阈值或多步去噪。
[0:35:04 - 0:37:55] 非线性巩固：邻域选择部分目前仅限于线性SEM。开放问题：能否将KLBSS的KL散度思想推广到非线性（如加性噪声模型）？ 这可能需要非线性版本的部分回归系数和二次型替代。
[0:46:47 - 0:47:27] 多项式时间算法的可行区域：讲者明确提到在依赖性强的情况下，精确恢复不支持多项式时间算法。开放问题：能否刻画精确恢复的算法-统计相变图（algorithmic-to-statistical phase transition）？ 即确定依赖强度与样本复杂度之间可计算的分界线。这正好匹配研究者对信息-计算差距的兴趣。
[0:44:35 - 0:46:37] 全联合似然的效率：听众提出使用全联合似然（即同时对X和Y建模）可能更有效。讲者表示不明确但认为这是可行的。开放问题：在正确指定协变量分布（如高斯图模型）时，能否构造出达到半参数有效界的变量选择过程？ 这涉及到是否可以利用边际似然中的信息进一步提升速率。
[0:17:16 - 0:18:16] 潜变量模型的一致估计必要条件：讲者引用了以往证明非参数潜变量模型不存在一致估计的结果。开放问题：在多大的附加假设（如稀疏性、结构变化）下，一致估计成为可能？

Maintained by 陈星宇 · Homepage · Source on GitHub