Latent Hierarchical Causal Structure Discovery with Rank Constraints¶

讲者: Biwei Huang
讨论人: Erich Kummerfeld
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-18
主题: 因果推断
视频: https://youtu.be/CCyR4pR83PY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2210.01798 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告位于「潜变量因果结构发现」（causal discovery with latent variables）这一子方向。该方向的核心追问是：当仅有部分变量被观测（通常是叶节点），且观测变量不一定是因果变量时，如何从观测数据的统计约束中恢复潜在的因果图和对应的潜变量？

奠基性工起步于 Spearman (1904) 的 Tetrad 条件：若两个潜变量各自至少有三个纯测量子节点（one-factor measurement model），则某些 2×2 协方差子矩阵的秩为 1，可区分不同的潜变量配置。Silva et al. (2006) 将其扩展为自动发现测量模型的算法（FOFC，Find One-Factor Clusters）；Kummerfeld (2016) 进一步优化。另一条线处理树结构潜变量图（每条变量对之间只有一条无向路径），如 Pearl (1988) 的树方法，Choi et al. (2011) 用 Tetrad 条件学习纯潜变量树。

近年来，Xie et al. (2020) 借助广义独立噪声（GIN）条件，利用高阶统计量（非高斯性）来识别潜变量间的因果方向，从而处理非树结构（如测量模型+潜变量间有直接边）。但 GIN 方法仍假设潜变量集内部没有多父节点，且结构上有一定限制。

本报告站在当前前沿： 它允许更一般的层次潜因果图（latent hierarchical causal graph）——潜变量的子节点仍然可以是潜变量，仅有叶节点被观测；每个变量（潜或观）可以有多个父节点；任意变量对之间可以有多条路径（即超越树结构）。核心假设是所有因果机制是线性的，且误差独立。工作基于秩约束（rank constraints），即观测变量协方差矩阵的秩亏缺程度，来同时定位潜变量（聚类下级变量）和识别潜变量间的因果结构（输出马尔可夫等价类）。关键的可识别性条件是：每个大小为 k 的潜变量集至少要有 k+1 个纯子节点（仅以此集为父节点）和 k+1 个邻居。这种方法首次允许潜变量层次图中存在多父节点和非树结构，且无需预设潜变量的个数或深度。

关键引用（根据转写和幻灯片）： - Spearman (1904) – Tetrad 条件 - Anderson & Rubin (1956) – 因子分析中秩约束的统计检验 - Silva et al. (2006) – FOFC 算法（NeuroImage 2006？） - Pearl (1988) – 树结构潜变量模型 - Choi et al. (2011) – 纯潜变量树学习（JMLR） - Xie et al. (2020) – 广义独立噪声条件（GIN）（NeurIPS 2020？） - 本报告论文：Huang, Low, Xie, Glymour, Zhang (NeurIPS 2022, arXiv 2210.01798)

二、最小内核 / 一个最简例子¶

符号与模型 - 可观测数据：p 个测量变量 \(X_1,\dots,X_p\)，为叶节点。 - 潜变量：\(L_1,\dots,L_m\) 有的为内部节点，有的为更高层潜变量的子节点。 - 因果结构：有向无环图（DAG），每个变量由其父节点的线性组合加上独立噪声生成：

\[V_i = \sum_{j \in \text{pa}(V_i)} w_{ji} V_j + \varepsilon_i, \quad \varepsilon_i \perp \text{所有父节点}\]

所有变量（潜/观）均满足此线性 SEM。 - 目标 estimand：潜变量图的马尔可夫等价类（包括聚类结构和部分方向）。 - 统计量：观测变量的协方差矩阵 \(\Sigma_X\) 及其子矩阵的秩。

最简特例：单个潜变量集 \(L=\{L_1\}\)（即 \(k=1\)） 假设真实图如下：

其中 \(X_1,X_2,X_3\) 是 \(L_1\) 的纯子节点（无其他父节点）。此时 Tetrad 条件适用：任何 2×2 协方差子矩阵（如 \(\text{Cov}(X_1,X_2)\) 与 \(\text{Cov}(X_3,X_4)\) 的构成）的秩为 1，可检测出单一潜因子。但报告处理的是层叠结构：潜变量的子节点仍可潜。考虑以下简单层次图：

       L2 (k=1)
      / \
     X1 X2

加上 \(L_2\) 的父节点 \(L_1\)：

此处 \(L_2\) 的纯子节点是 \(X_1,X_2\)（共 2 个），恰好满足 \(k+1=2\) 的条件。但 \(L_2\) 还需要至少 \(k+1=2\) 个邻居。在本图中，邻居可视为 \(L_1\) 和其他节点？实际上邻居是那些通过无向边与 \(L_2\) 相连且不是其纯子的节点。为满足条件，常需要更丰富的结构。报告所用示例（Slide 第 36 页）更典型：潜变量集 \(L=\{L_2,L_3\}\)（size \(k=2\)），其纯子节点有 \(\{L_6,L_7,L_8\}\)（共 3 个），邻居有 \(\{L_1,L_9,L_{10}\}\)（共 3 个）。由此，\(L_2,L_3\) 的协方差秩亏缺可被观测数据的子矩阵检测到，从而推断出 \(L_6,L_7,L_8\) 共同受到 \(\{L_2,L_3\}\) 的影响。该例直观展示了“纯子+邻居”条件如何保证秩亏缺的稳定识别。

三、报告主体：讲者讲了什么¶

[0:01:34–0:02:57] 动机 - 传统因果发现假设无潜变量，但现实中测量变量未必是因果变量（如问卷题项反映压力/应对/抑郁；图像像素反映对象概念）。 - 需要从观测数据中同时学习潜变量及其因果结构，称为因果表示学习（causal representation learning）。 - 先回顾观测变量因果发现：PC 算法用条件独立确定骨架；函数因果模型（如 LiNGAM）用非对称独立噪声确定方向；独立变化原理（如基于机制的独立性）也可定方向。

[0:02:57–0:05:51] 观测变量发现简要技术 - PC 算法基于条件独立检验，输出马尔可夫等价类。 - 函数因果模型（如 ANM、LiNGAM）要求噪声与父节点独立，且因果方向使这一性质成立。 - 独立变化原理（Minimal Change）指出正确因果分解时各条件分布的独立变化次数最少。

[0:06:55–0:09:29] 先前潜变量发现工作 - Tetrad 条件：对 2×2 协方差子矩阵（如 \(\text{Cov}(X_i,X_j)\) 与 \(\text{Cov}(X_k,X_l)\)）的差为零，反映潜变量分离。 - 一因子测量模型：每个潜变量至少 3 个纯测量子节点（Silva et al. 2006, Kummerfeld 2016）。 - 树结构：每条变量对间仅一条无向路径（Choi et al. 2011）。 - 高阶统计：GIN 条件用非高斯性处理非树潜变量图（Xie et al. 2020）。

[0:09:33–0:11:23] 本工作设定 - 线性 SEM，所有变量（潜+观）遵循线性机制。 - 层次潜图：潜变量子节点可为潜，仅叶节点被观测；每个变量允许多个父节点；变量对间可有多个路径（非树）。 - 两个子问题：① 定位潜变量（聚类下级变量）；② 识别潜变量间因果边。

[0:11:23–0:13:00] 核心思想：秩约束 - 对两组观测变量 \(X_A, X_B\)，计算其交叉协方差矩阵 \(\Sigma_{X_A,X_B}\)。若其秩为 \(r\)，则 \(X_A\) 和 \(X_B\) 在给定某个大小为 \(r\) 的潜变量集时条件独立（d-separated）。 - 这推广了 Tetrad 条件（仅 2×2 子矩阵）到任意大小子矩阵，从而可处理一般潜变量集。

[0:13:00–0:16:00] 算法第一步：贪心聚类与潜变量 cover 分配 - 从测量变量出发，递归测试秩亏缺：若某一组变量 \(X_A\) 与剩余变量 \(X_B\) 的交叉协方差秩为 \(k\)，则添加一组大小为 \(k\) 的潜变量（称为 cover）作为它们的父节点。 - 例：图例中 \(X_5\sim X_8\) 与剩余变量交叉协方差秩为 2，故添加潜变量 \(L_6,L_7\)（size 2）作为 cover。 - 之后将当前新增的潜变量视为“根节点”，用它们的测量后代作为代理，继续向上寻找 higher-level cover，直至无法再找。

[0:16:00–0:28:00] 第二步：纠正错误聚类 - 贪心搜索可能产生错误聚类（如将本应属于不同父集的变量合并）。 - 特征：若删除候选潜变量及其父节点，剩余图仍连通，则该聚类可能错误。算法通过检查删除后的子图是否分裂成多个不连通部分来检测。 - 例：第一步将 \(X_9,X_{10},X_{11}\) 置于同一 cover，但实际上 \(X_{11}\) 应与 \(L_6,L_7\) 聚类。修正后重新运行贪心步骤。

第三步：细化边并识别 v-结构 - 前两步未考虑不同 cover 之间的秩约束，可能导致潜变量间的边错误或方向未定。 - 通过测试交叉协方差秩在加入候选分离变量后是否增加，来判定潜变量间的 d-separation。 - 例：测试 \(L_2\) 和 \(L_3\) 是否由 \(L_1\) 分离：分别将子节点分入两组，比较包含/不包含 \(L_1\) 时的秩。若秩在加入 \(L_1\) 后由 1 变为 2，则证明 \(L_1\) 分离二者。 - 对三元组（如 \(L_2\rightarrow L_4\leftarrow L_3\)），通过比较包含/不包含 \(L_4\) 时两组秩的变化，确定 collider（v-结构）。 - 最终输出整个图的马尔可夫等价类（部分有向边可能方向不确定）。

[0:28:00–0:29:10] 主可识别性条件 - 对每个大小为 \(k\) 的潜变量集 \(L\)，要求：至少 \(k+1\) 个纯子节点（children 且无其他父节点），且至少 \(k+1\) 个邻居（与 \(L\) 有边相连但不是纯子的节点）。 - 直觉：这些条件保证子矩阵的秩亏缺稳健，且算法能通过分离邻居来检验边。

[0:29:10–0:30:37] 模拟实验 - 比较方法：FOFC（一因子聚类）、GIN（广义独立噪声）、本方法（RCD ？称 latent hierarchical with rank constraints）。 - 指标：测量变量聚类恢复率、全部变量聚类恢复率。 - 本方法在一般层次图（IR2H）、树结构、一因子测量模型上均优于对比方法；对一因子模型，本方法在小样本（2000）下优于 FOFC，大样本（10000）下两者相当。 - 注意：即使错分一个变量也被计为错误，指标很严格。 - 使用 oracle 协方差时算法表现良好，说明有限样本时协方差估计噪声是主要瓶颈（见讨论 [0:44:00]）。

[0:37:00–0:54:00] Q&A 与讨论（Eric Kummerfeld） - Q1 (Richard Burke)：识别的图是否唯一？答：满足条件时唯一，不满足时可能输出秩等价的另一图（[0:31:02–0:31:40]）。 - Q2：若条件被违反，是否返回一组可能结构？答：若存在秩等价图满足条件，则返回该图；否则返回错误图（[0:31:40–0:32:27]）。 - Q3 (pairwise comparison 问题)：测试过程是否有多重比较问题？答：有，类似于约束基础的 PC 算法，误差会传播（[0:33:29–0:34:00]）。 - Q4 (可扩展性)：当前只能处理 <100 个测量变量；未来可并行化秩测试来改进（[0:34:07–0:35:04]）。 - Q5 (潜变量数量)：通过秩自动确定，不预先设定（[0:35:10–0:35:32]）。 - Eric 讨论 (约 [0:37:20–0:53:00])： - 提议将算法与 GIN 结合以处理更一般图； - 强调秩测试可并行化，类似于 PC 算法的条件独立测试； - 样本量困惑：为何 2000 样本时性能不高？讲者回应：信号弱、噪声方差大；用 oracle 协方差则表现好； - 对未覆盖的图类（如三角形、蜘蛛图），秩条件可能相同，需要高阶统计或非高斯性来区分。 - 最后问答：非线性和非高斯性下可识别性条件会如何？答：高阶统计可弱化结构要求，但需对函数形式有约束（[0:53:18–0:53:55]）。

关键技术细节 - 秩检验：对交叉协方差矩阵 \(\Sigma_{X_A, X_B}\) 计算其秩（利用样本协方差，可能用奇异值分解或典型相关分析）。实际使用 Bonferroni 校正或 Bootstrap 来决定阈值。 - 代理变量：当待聚类的节点是潜变量时，用其所有测量后代的并集作为代理，计算秩。这是因为测量后代与潜变量之间是线性关系，秩性质可传递。 - 纯子节点定义：若变量 \(V\) 是 \(L\) 的子节点，并且 \(V\) 没有除 \(L\) 以外的父节点，则 \(V\) 是 \(L\) 的纯子节点。 - 邻居定义：与 \(L\) 有边相连，但不是纯子节点（可能属于其他父系）。

四、对应论文与开放问题¶

对应论文 - 标题及作者："Latent Hierarchical Causal Structure Discovery with Rank Constraints"，Biwei Huang, Charles Jia Han Low, Feng Xie, Clark Glymour, Kun Zhang. NeurIPS 2022. - arXiv: 2210.01798（核对无误） - 代码/数据：未在报告明确提及。

开放问题（均扎根于转写和讨论） 1. 秩约束不能区分某些图（[0:27:38–0:28:04]）：例如包含三角形的内部结构或测量变量间的直接边（共因模型 vs. 因果边），两组图可能秩等价。需要结合高阶统计（非高斯性）或分布偏移来打破等价。 2. 扩展至非线性因果机制（[0:28:37–0:29:10]）：当前线性假设强，非线性下可识别性条件需重新建立，可能与因果表示学习（如因果生成模型）相关。 3. 混合连续/离散数据（[0:28:55–0:29:05]）：秩约束基于协方差矩阵，离散变量需协方差定义兼容。 4. 大规模可扩展性（[0:34:07–0:35:04]）：当前 <100 测量节点，需并行化秩测试、改进协方差估计速度以应对 fMRI（数千/万）和基因表达数据。 5. 实际应用：fMRI 脑区自动聚类和信息流发现（[0:29:17–0:29:40]）：当前功能脑区多凭先验定义，本方法有望从体素数据自动导出层次结构。但需应对高维、噪声和潜在非线性。 6. 当可识别条件不满足时，算法输出行为的系统分析（Eric 提问，[0:45:20–0:46:40]）：若真图不满足条件，算法可能输出秩等价图或错误图。未来可研究秩等价类的完整刻画，并设计更稳健的准则。

Maintained by 陈星宇 · Homepage · Source on GitHub