跳转至

Latent Hierarchical Causal Structure Discovery with Rank Constraints

讲者: Biwei Huang
讨论人: Erich Kummerfeld
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-18
主题: 因果推断
视频: https://youtu.be/CCyR4pR83PY · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2210.01798 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告位于「潜变量因果结构发现」(causal discovery with latent variables)这一子方向。该方向的核心追问是:当仅有部分变量被观测(通常是叶节点),且观测变量不一定是因果变量时,如何从观测数据的统计约束中恢复潜在的因果图和对应的潜变量?

奠基性工起步于 Spearman (1904) 的 Tetrad 条件:若两个潜变量各自至少有三个纯测量子节点(one-factor measurement model),则某些 2×2 协方差子矩阵的秩为 1,可区分不同的潜变量配置。Silva et al. (2006) 将其扩展为自动发现测量模型的算法(FOFC,Find One-Factor Clusters);Kummerfeld (2016) 进一步优化。另一条线处理树结构潜变量图(每条变量对之间只有一条无向路径),如 Pearl (1988) 的树方法,Choi et al. (2011) 用 Tetrad 条件学习纯潜变量树。

近年来,Xie et al. (2020) 借助广义独立噪声(GIN)条件,利用高阶统计量(非高斯性)来识别潜变量间的因果方向,从而处理非树结构(如测量模型+潜变量间有直接边)。但 GIN 方法仍假设潜变量集内部没有多父节点,且结构上有一定限制。

本报告站在当前前沿: 它允许更一般的层次潜因果图(latent hierarchical causal graph)——潜变量的子节点仍然可以是潜变量,仅有叶节点被观测;每个变量(潜或观)可以有多个父节点;任意变量对之间可以有多条路径(即超越树结构)。核心假设是所有因果机制是线性的,且误差独立。工作基于秩约束(rank constraints),即观测变量协方差矩阵的秩亏缺程度,来同时定位潜变量(聚类下级变量)和识别潜变量间的因果结构(输出马尔可夫等价类)。关键的可识别性条件是:每个大小为 k 的潜变量集至少要有 k+1 个纯子节点(仅以此集为父节点)和 k+1 个邻居。这种方法首次允许潜变量层次图中存在多父节点和非树结构,且无需预设潜变量的个数或深度。

关键引用(根据转写和幻灯片): - Spearman (1904) – Tetrad 条件 - Anderson & Rubin (1956) – 因子分析中秩约束的统计检验 - Silva et al. (2006) – FOFC 算法(NeuroImage 2006?) - Pearl (1988) – 树结构潜变量模型 - Choi et al. (2011) – 纯潜变量树学习(JMLR) - Xie et al. (2020) – 广义独立噪声条件(GIN)(NeurIPS 2020?) - 本报告论文:Huang, Low, Xie, Glymour, Zhang (NeurIPS 2022, arXiv 2210.01798)

二、最小内核 / 一个最简例子

符号与模型 - 可观测数据:p 个测量变量 \(X_1,\dots,X_p\),为叶节点。 - 潜变量:\(L_1,\dots,L_m\) 有的为内部节点,有的为更高层潜变量的子节点。 - 因果结构:有向无环图(DAG),每个变量由其父节点的线性组合加上独立噪声生成:

\[V_i = \sum_{j \in \text{pa}(V_i)} w_{ji} V_j + \varepsilon_i, \quad \varepsilon_i \perp \text{所有父节点}\]
所有变量(潜/观)均满足此线性 SEM。 - 目标 estimand:潜变量图的马尔可夫等价类(包括聚类结构和部分方向)。 - 统计量:观测变量的协方差矩阵 \(\Sigma_X\) 及其子矩阵的

最简特例:单个潜变量集 \(L=\{L_1\}\)(即 \(k=1\) 假设真实图如下:

          L1
         /|\
        / | \
       X1 X2 X3
其中 \(X_1,X_2,X_3\)\(L_1\) 的纯子节点(无其他父节点)。此时 Tetrad 条件适用:任何 2×2 协方差子矩阵(如 \(\text{Cov}(X_1,X_2)\)\(\text{Cov}(X_3,X_4)\) 的构成)的秩为 1,可检测出单一潜因子。但报告处理的是层叠结构:潜变量的子节点仍可潜。考虑以下简单层次图:
       L2 (k=1)
      / \
     X1 X2
加上 \(L_2\) 的父节点 \(L_1\)
      L1
      |
      L2
     / \
    X1 X2
此处 \(L_2\) 的纯子节点是 \(X_1,X_2\)(共 2 个),恰好满足 \(k+1=2\) 的条件。但 \(L_2\) 还需要至少 \(k+1=2\) 个邻居。在本图中,邻居可视为 \(L_1\) 和其他节点?实际上邻居是那些通过无向边与 \(L_2\) 相连且不是其纯子的节点。为满足条件,常需要更丰富的结构。报告所用示例(Slide 第 36 页)更典型:潜变量集 \(L=\{L_2,L_3\}\)(size \(k=2\),其纯子节点有 \(\{L_6,L_7,L_8\}\)(共 3 个),邻居有 \(\{L_1,L_9,L_{10}\}\)(共 3 个)。由此,\(L_2,L_3\) 的协方差秩亏缺可被观测数据的子矩阵检测到,从而推断出 \(L_6,L_7,L_8\) 共同受到 \(\{L_2,L_3\}\) 的影响。该例直观展示了“纯子+邻居”条件如何保证秩亏缺的稳定识别。

三、报告主体:讲者讲了什么

[0:01:34–0:02:57] 动机 - 传统因果发现假设无潜变量,但现实中测量变量未必是因果变量(如问卷题项反映压力/应对/抑郁;图像像素反映对象概念)。 - 需要从观测数据中同时学习潜变量及其因果结构,称为因果表示学习(causal representation learning)。 - 先回顾观测变量因果发现:PC 算法用条件独立确定骨架;函数因果模型(如 LiNGAM)用非对称独立噪声确定方向;独立变化原理(如基于机制的独立性)也可定方向。

[0:02:57–0:05:51] 观测变量发现简要技术 - PC 算法基于条件独立检验,输出马尔可夫等价类。 - 函数因果模型(如 ANM、LiNGAM)要求噪声与父节点独立,且因果方向使这一性质成立。 - 独立变化原理(Minimal Change)指出正确因果分解时各条件分布的独立变化次数最少。

[0:06:55–0:09:29] 先前潜变量发现工作 - Tetrad 条件:对 2×2 协方差子矩阵(如 \(\text{Cov}(X_i,X_j)\)\(\text{Cov}(X_k,X_l)\))的差为零,反映潜变量分离。 - 一因子测量模型:每个潜变量至少 3 个纯测量子节点(Silva et al. 2006, Kummerfeld 2016)。 - 树结构:每条变量对间仅一条无向路径(Choi et al. 2011)。 - 高阶统计:GIN 条件用非高斯性处理非树潜变量图(Xie et al. 2020)。

[0:09:33–0:11:23] 本工作设定 - 线性 SEM,所有变量(潜+观)遵循线性机制。 - 层次潜图:潜变量子节点可为潜,仅叶节点被观测;每个变量允许多个父节点;变量对间可有多个路径(非树)。 - 两个子问题:① 定位潜变量(聚类下级变量);② 识别潜变量间因果边。

[0:11:23–0:13:00] 核心思想:秩约束 - 对两组观测变量 \(X_A, X_B\),计算其交叉协方差矩阵 \(\Sigma_{X_A,X_B}\)。若其秩为 \(r\),则 \(X_A\)\(X_B\) 在给定某个大小为 \(r\) 的潜变量集时条件独立(d-separated)。 - 这推广了 Tetrad 条件(仅 2×2 子矩阵)到任意大小子矩阵,从而可处理一般潜变量集。

[0:13:00–0:16:00] 算法第一步:贪心聚类与潜变量 cover 分配 - 从测量变量出发,递归测试秩亏缺:若某一组变量 \(X_A\) 与剩余变量 \(X_B\) 的交叉协方差秩为 \(k\),则添加一组大小为 \(k\) 的潜变量(称为 cover)作为它们的父节点。 - 例:图例中 \(X_5\sim X_8\) 与剩余变量交叉协方差秩为 2,故添加潜变量 \(L_6,L_7\)(size 2)作为 cover。 - 之后将当前新增的潜变量视为“根节点”,用它们的测量后代作为代理,继续向上寻找 higher-level cover,直至无法再找。

[0:16:00–0:28:00] 第二步:纠正错误聚类 - 贪心搜索可能产生错误聚类(如将本应属于不同父集的变量合并)。 - 特征:若删除候选潜变量及其父节点,剩余图仍连通,则该聚类可能错误。算法通过检查删除后的子图是否分裂成多个不连通部分来检测。 - 例:第一步将 \(X_9,X_{10},X_{11}\) 置于同一 cover,但实际上 \(X_{11}\) 应与 \(L_6,L_7\) 聚类。修正后重新运行贪心步骤。

第三步:细化边并识别 v-结构 - 前两步未考虑不同 cover 之间的秩约束,可能导致潜变量间的边错误或方向未定。 - 通过测试交叉协方差秩在加入候选分离变量后是否增加,来判定潜变量间的 d-separation。 - 例:测试 \(L_2\)\(L_3\) 是否由 \(L_1\) 分离:分别将子节点分入两组,比较包含/不包含 \(L_1\) 时的秩。若秩在加入 \(L_1\) 后由 1 变为 2,则证明 \(L_1\) 分离二者。 - 对三元组(如 \(L_2\rightarrow L_4\leftarrow L_3\)),通过比较包含/不包含 \(L_4\) 时两组秩的变化,确定 collider(v-结构)。 - 最终输出整个图的马尔可夫等价类(部分有向边可能方向不确定)。

[0:28:00–0:29:10] 主可识别性条件 - 对每个大小为 \(k\) 的潜变量集 \(L\),要求:至少 \(k+1\)纯子节点(children 且无其他父节点),且至少 \(k+1\)邻居(与 \(L\) 有边相连但不是纯子的节点)。 - 直觉:这些条件保证子矩阵的秩亏缺稳健,且算法能通过分离邻居来检验边。

[0:29:10–0:30:37] 模拟实验 - 比较方法:FOFC(一因子聚类)、GIN(广义独立噪声)、本方法(RCD ?称 latent hierarchical with rank constraints)。 - 指标:测量变量聚类恢复率、全部变量聚类恢复率。 - 本方法在一般层次图(IR2H)、树结构、一因子测量模型上均优于对比方法;对一因子模型,本方法在小样本(2000)下优于 FOFC,大样本(10000)下两者相当。 - 注意:即使错分一个变量也被计为错误,指标很严格。 - 使用 oracle 协方差时算法表现良好,说明有限样本时协方差估计噪声是主要瓶颈(见讨论 [0:44:00])。

[0:37:00–0:54:00] Q&A 与讨论(Eric Kummerfeld) - Q1 (Richard Burke):识别的图是否唯一?答:满足条件时唯一,不满足时可能输出秩等价的另一图([0:31:02–0:31:40])。 - Q2:若条件被违反,是否返回一组可能结构?答:若存在秩等价图满足条件,则返回该图;否则返回错误图([0:31:40–0:32:27])。 - Q3 (pairwise comparison 问题):测试过程是否有多重比较问题?答:有,类似于约束基础的 PC 算法,误差会传播([0:33:29–0:34:00])。 - Q4 (可扩展性):当前只能处理 <100 个测量变量;未来可并行化秩测试来改进([0:34:07–0:35:04])。 - Q5 (潜变量数量):通过秩自动确定,不预先设定([0:35:10–0:35:32])。 - Eric 讨论 (约 [0:37:20–0:53:00]): - 提议将算法与 GIN 结合以处理更一般图; - 强调秩测试可并行化,类似于 PC 算法的条件独立测试; - 样本量困惑:为何 2000 样本时性能不高?讲者回应:信号弱、噪声方差大;用 oracle 协方差则表现好; - 对未覆盖的图类(如三角形、蜘蛛图),秩条件可能相同,需要高阶统计或非高斯性来区分。 - 最后问答:非线性和非高斯性下可识别性条件会如何?答:高阶统计可弱化结构要求,但需对函数形式有约束([0:53:18–0:53:55])。

关键技术细节 - 秩检验:对交叉协方差矩阵 \(\Sigma_{X_A, X_B}\) 计算其秩(利用样本协方差,可能用奇异值分解或典型相关分析)。实际使用 Bonferroni 校正或 Bootstrap 来决定阈值。 - 代理变量:当待聚类的节点是潜变量时,用其所有测量后代的并集作为代理,计算秩。这是因为测量后代与潜变量之间是线性关系,秩性质可传递。 - 纯子节点定义:若变量 \(V\)\(L\) 的子节点,并且 \(V\) 没有除 \(L\) 以外的父节点,则 \(V\)\(L\) 的纯子节点。 - 邻居定义:与 \(L\) 有边相连,但不是纯子节点(可能属于其他父系)。

四、对应论文与开放问题

对应论文 - 标题及作者:"Latent Hierarchical Causal Structure Discovery with Rank Constraints",Biwei Huang, Charles Jia Han Low, Feng Xie, Clark Glymour, Kun Zhang. NeurIPS 2022. - arXiv: 2210.01798(核对无误) - 代码/数据:未在报告明确提及。

开放问题(均扎根于转写和讨论) 1. 秩约束不能区分某些图([0:27:38–0:28:04]):例如包含三角形的内部结构或测量变量间的直接边(共因模型 vs. 因果边),两组图可能秩等价。需要结合高阶统计(非高斯性)或分布偏移来打破等价。 2. 扩展至非线性因果机制([0:28:37–0:29:10]):当前线性假设强,非线性下可识别性条件需重新建立,可能与因果表示学习(如因果生成模型)相关。 3. 混合连续/离散数据([0:28:55–0:29:05]):秩约束基于协方差矩阵,离散变量需协方差定义兼容。 4. 大规模可扩展性([0:34:07–0:35:04]):当前 <100 测量节点,需并行化秩测试、改进协方差估计速度以应对 fMRI(数千/万)和基因表达数据。 5. 实际应用:fMRI 脑区自动聚类和信息流发现([0:29:17–0:29:40]):当前功能脑区多凭先验定义,本方法有望从体素数据自动导出层次结构。但需应对高维、噪声和潜在非线性。 6. 当可识别条件不满足时,算法输出行为的系统分析(Eric 提问,[0:45:20–0:46:40]):若真图不满足条件,算法可能输出秩等价图或错误图。未来可研究秩等价类的完整刻画,并设计更稳健的准则。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论