Greedy Relaxations of the Sparsest Permutation Algorithm¶
讲者: Wayne Lam
讨论人: Alex Markham
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-11-29
主题: 因果推断
视频: https://youtu.be/odV0jgcApi0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于因果结构学习(Causal Discovery)中一条特定的工作线:基于“稀疏排列”(Sparsest Permutation, SP)的DAG(有向无环图)学习。
-
这个方向追问什么:给定观测数据,能否在比经典“忠实性(Faithfulness)”更弱的假设下,恢复出数据生成机制的真实DAG(更准确说,是它的马尔可夫等价类 MEC)?忠实性假设要求分布中所有的条件独立关系都完全由DAG的 d-分离编码。但这个假设在实践中很容易被几乎违反(near-violations),因此人们想寻找更鲁棒(需要更弱假设)的算法。
-
奠基与主流路线:
- 主流方法(如 PC、GES)通常假设忠实性。GES(贪婪等价搜索)作为经典的贪心算法,通过在CPDAG空间中进行搜索来学习MEC。
- Sparsest Permutation (SP) 算法 [Raskutti & Uhler, 2018]:这是该路线的基础。SP算法的核心思想是:遍历所有可能的变量排列(causal order),对每个排列 π 通过条件独立性检验构造一个DAG G_π(该DAG必定是SGS-最小的马尔可夫图),然后返回所有构造出的DAG中最稀疏的那个(边数最少)。SP算法在“唯一稀疏性(u-frugality)”假设下是渐近正确的,这个假设严格弱于忠实性。但SP需要枚举所有m!个排列,计算量是超级指数级的,实际中最多只能处理约10个变量。
-
当前 Frontier 与这场报告的站位:
- 上一阶段工作 [Solus et al., 2021]:为了将SP从超级指数变为可扩展,Solus等人提出了两种贪心版本的SP算法:Triangle SP (TSP) 和 Edge SP (ESP)。TSP在 Chickering 序列(一种通过逆转或删除覆盖边连接的DAG序列)上做贪心深度优先搜索。ESP在“DAG associahedron”(一个由相邻转置连接排列构成的图,并进一步将生成相同DAG的排列坍缩后得到的几何结构)上做贪心搜索。关键结论是 ESP条件比TSP条件(等同于忠实性)严格更弱,但ESP需要预先计算出整个DAG associahedron,这本身就不具备可扩展性,因此他们并未实现ESP。
- 本场报告(讲者的工作):解决了ESP的“不可实现性”问题,并提出了更强的贪心算法 GRaSP (Greedy Relaxations of the Sparsest Permutation)。核心贡献包括:
- 引入了一个叫
tuck的排列操作,它能够高效地实现ESP的搜索(对应GRaSP1),而无需预先计算整个associahedron。 - 提出了GRaSP2,该操作不仅对“覆盖边”或“单一边”进行操作,而是对所有有向边应用
tuck,因此能探索比ESP更大的搜索空间,其正确性所需的假设(GRaSP2条件)严格弱于ESP条件(GRaSP1条件),但比u-frugality更强。 - 在模拟中,GRaSP2在有限样本下性能极其出色,甚至在小样本(n=1000, p=60)和高密度的场景下也近乎完美,计算时间在2分钟以内。
- 引入了一个叫
点名关键工作(有把握的): - Raskutti & Uhler, 2018: "Learning directed acyclic graph models based on sparsest permutations". Stat, 7. (SP算法奠基) - Uhler et al., 2013: "Geometry of the faithfulness assumption in causal inference". Annals of Statistics, 41. (指出忠实性假设在有限样本下的脆弱性) - Solus et al., 2021: "Consistency guarantees for greedy permutation-based causal inference algorithms". Biometrika, 108. (TSP和ESP的提出者) - Chickering, 2002: "Optimal structure identification with greedy search". Journal of Machine Learning Research, 3. (Chickering序列定理) - Zhang, 2013: "A comparison of three Occam's razors for Markovian causal models". British Journal for the Philosophy of Science, 64. (证明忠实性与唯一P-最小性是等价的)
二、最小内核 / 一个最简例子¶
核心问题:我们有m个观测变量V = {X₁, ..., X_m}。我们不知道它们的因果结构(DAG G),但我们能观测到它们的联合分布P。我们希望从P中恢复出G(或它的等价类MEC(G*))。
符号与模型:
- 可观测的:联合分布 P,以及从P中计算出的条件独立(CI)关系集合 I(P)。
- 不可观测的(潜在结构):真实的DAG G*,以及它编码的d-分离关系集合 I(G*)。
- 假设:
- (组成性)图可环(Graphoid):分布P需满足一些正则性条件(如对称性、分解、收缩等),这是SP算法工作所需的基础。
- 因果马尔可夫(Causal Markov):I(G*) ⊆ I(P)。(真实DAG的d-分离是分布中CI关系的子集,这是基本假设)。
- 唯一稀疏性(u-frugality,也称Sparsest Markov Representation):在所有与P马尔可夫的DAG中,稀疏的DAG(边数最少的)都是同一个MEC的(即G是这个MEC中的一员)。这比忠实性弱。
- Estimand / 目标:MEC(G)。
一个最简例子(d=3个变量,读者可以想象为 1 → 2 → 3):
1. 一个排列π是顶点集{v=1,2,3}的一个顺序,比如π = ⟨1, 2, 3⟩。这代表了一个可能的因果序(causal order)——即祖先必须在后代之前。
2. 如何从π和CI关系构建DAG G_π?规则RU(Verma & Pearl, 1988):
- 对于排列中的任意一对变量(j, k),且j排在k之前:
- 如果X_j ⊥/⊥ X_k | X_Pre(k,π) \ {j}(即j和k在控制了排在k前的所有其他变量后,仍然相关),则在G_π中添加有向边 j → k。
3. 举例(幻灯片第12页):
- 假设 I(P) = {⟨X₁, X₃ | ∅⟩} (只有X₁和X₃边缘独立)。
- 对于排列 π₁ = ⟨1, 2, 3⟩:
- 检查 (1,2): X₁ ⊥/⊥ X₂ | ∅(是的,相关) → 加边 1→2。
- 检查 (1,3): X₁ ⊥/⊥ X₃ | {X₂}(在控制了X₂后,1和3的原因2被block掉了,所以条件独立) → 不加边 1→3。
- 检查 (2,3): X₂ ⊥/⊥ X₃ | {X₁}(在控制了X₁后,2和3可能仍有其他路径,所以相关) → 加边 2→3。
- 得到的G_π₁是 1 → 2 → 3。
- 对于排列 π₂ = ⟨1, 3, 2⟩:
- 检查 (1,3): X₁ ⊥/⊥ X₃ | ∅(边缘独立) → 不加边 1→3。
- 检查 (1,2): X₁ ⊥/⊥ X₂ | {X₃}(在控制了X₃后,X₃作为“对撞子”会打开新的路径,所以可能相关) → 加边 1→2。
- 检查 (3,2): X₃ ⊥/⊥ X₂ | {X₁}(相关) → 加边 3→2。
- 得到的G_π₂是 3 → 2 ← 1(一个v-结构)。
-
核心思想:SP算法需要枚举所有6个排列,构造6个DAG,然后选出边数最少的。在这个例子里,G_π₁有2条边,G_π₂也有2条边,其他排列可能产生更多边。SP会返回这2个(如果唯一)或它们所属的MEC。
-
tuck操作的直观想法:这个操作作用于一个排列π,并选择其中一对变量(j,k),其中π中j在k之前,且G_π中有边j→k。它通过移动元素来产生一个新的排列π',旨在让新排列π'诱导出的DAG G_π'比原来的DAG 更稀疏(边数更少)。报告用了一个生动的“塞衬衫”比喻:γ(γ = k在G_π中的祖先)= 你的“内衣”,要先贴身塞好(移到k紧前面)。k= “衬衫”,塞在“内衣”外面。γ^c(k的非祖先)= “腰带”,压在“衬衫”上面(放在最外面)。j= 你要操作的“扣子”,把它从k前面移到k后面,看看这样“塞”之后,是否能让“衬衫”(DAG)更平整(更稀疏)。
三、报告主体:讲者讲了什么¶
[0:00:06 - 0:07:18] 背景与动机
- 介绍:讲者Wayne Lam(CMU哲学系)感谢OCIS邀请,介绍合作者Bryan Andrews和Joseph Ramsey。概述报告内容:因果发现、SP算法及其不可扩展性、TSP/ESP的提出。
- 核心动机:SP算法在理论上很美好(在u-frugality下渐近正确,假设弱于faithfulness),但计算上超级指数(m!),无法用于超过10个变量。我们需要正确但贪心的 SP版本。
- GRaSP的引入:讲者提出GRaSP,包含三个层次(GRaSP0/1/2)。GRaSP2是他们的创新,性能极其出色。关键在于引入 tuck 操作,能够高效探索DAG空间。
[0:07:19 - 0:18:36] 形式化定义与SP算法回顾
- [0:07:43] 定义了DAG G、顶点集、有向边、d-分离。定义了条件独立 I(P) 和d-分离 I(G)。
- [0:11:09] 回顾了因果马尔可夫(CMC)(I(G) ⊆ I(P))和因果忠实性(CFC)(I(G) = I(P))。说明算法通常目标输出是马尔可夫等价类(MEC)。忠实性虽好,但在有限样本下容易被几乎违反。
- [0:12:35] 幻灯片展示了假设强度的谱系:Faithfulness < u-frugality (u-frugality) < Markov。
- [0:15:50] 定义了稀疏性(Frugality)和唯一稀疏性(u-frugality)(又称Sparsest Markov Representation)。指出SP算法在唯一稀疏性下正确。
- [0:16:59] 回顾SP:枚举排列π,用规则RU (j→k) in G_π ⇔ j∈Pre(k,π) ∧ X_j ⊥/⊥ X_k | X_Pre(k,π) \{j} 构造DAG G_π,返回最稀疏的。
[0:18:37 - 0:30:22] TSP、ESP及其极限
- [0:18:37] 介绍基于排列的方法:π是因果序等价于生成DAG G_π。由UU构造的DAG G_π总是SGS-最小的(其任何子图都不能再与P马尔可夫)。
- [0:20:58] TSP (Triangle SP): 使用Chickering序列定理在DAG空间进行贪心深度优先搜索。每次操作可以反转或删除一条覆盖边。TSP保证输出P-最小的DAG。
- [0:21:06] 讲者指出核心理论问题:Solus等人(2021)声称TSP的条件比faithfulness弱,但这是错误的。Wayne等人证明 Faithfulness = u-P-minimality = TSP-condition。这意味着TSP的正确性仍然需要faithfulness,没有达到Weaken Faithfulness的目标。
- [0:26:53] ESP (Edge SP): 将搜索空间转换为排列hedron(permutohedron,通过相邻转置连接的排列图),然后压缩成DAG associahedron(将生成相同DAG的排列坍缩为一个点)。
- [0:28:37] ESP在这个associahedron上进行弱递减步长的贪心深度优先搜索。Solus等人(2021)证明 ESP-condition 严格弱于 TSP-condition (faithfulness)。
- [0:29:43] ESP的致命缺陷:需要预先完整地计算出整个DAG associahedron。这本身就不具备可扩展性,因此他们没有实现ESP。
- [0:30:11] 核心问题:是否存在一种高效的方式来实现ESP,使其可扩展?
[0:30:23 - 0:38:56] GRaSP:我们的工作
- [0:30:23] GRaSP的引入:提出GRaSP,通过一个核心操作 tuck,解决了ESP的效率问题,并延伸出性能更强的GRaSP2。
- [0:30:46] GRaSP的三层结构:t∈{0,1,2} 定义了tier。t=0只操作覆盖边(等价于TSP);t=1只操作单一边(singular edges,即没有其他路径的可达边,等价于ESP但更高效);t=2操作所有边(GRaSP2)。层级从低到高应用,且更高层级需要更弱的正确性假设。
- [0:31:40] tuck操作详解:给定排列π中一对(j,k)(j在k前且G_π中有j→k),tuck(π, j, k) 产生一个新排列。它把k在G_π中的所有祖先(γ) 放在k前面,然后移动j到k后面,再将非祖先部分(γ^c)放在j后面。这个操作旨在寻找更稀疏的DAG。
- [0:32:34] tuck的直观理解(衬衫比喻):γ(祖先)是内衣→先塞好;k是衬衫→塞在内衣外;γ^c(非祖先)是腰带→压住衬衫;j是扣子→从衬衫内移到衬衫外。目的是让整体更平整(更少边)。
- [0:34:58] GRaSP的伪代码:给定P、初始π、tier t和DFS深度d,它递归地尝试对所有边应用tuck,如果新排列诱导的DAG得分(负边数或BIC)不下降,则继续深入探索,否则返回得分更好的DAG。
- [0:37:44] 理论保证:
- GRaSP0(无界深度)= TSP。
- GRaSP1(无界深度)= ESP,但GRaSP1是高效的,因为它只需要通过tuck操作(作用于singular edges)来探索邻居,而无需预先计算整个associahedron。
- URG_aSP2 的正确性条件严格弱于 GRaSP1 条件 (ESP),但严格强于 u-frugality。它不能完全在唯一稀疏性下工作,但比忠实性宽松。幻灯片32页的因果剃刀谱系图清晰展示了这一包含关系。
- [0:38:56] 一个重要结论:u-frugality 对 GRaSP2 的正确性是必要但不充分的,存在反例。
[0:39:00 - 0:44:15] 模拟与应用 - [0:39:00] 讲者简要介绍了如何在有限样本下用Grow-Shrink算法识别马尔可夫边界来构造DAG(使用BIC评分替代条件独立检验)。 - [0:41:08] 模拟设置:线性高斯模型,BIC惩罚系数=2,GRaSP深度 d=3(覆盖边)/ d=2(非覆盖边),结果与真实CPDAG(MEC的图表示)比较。 - [0:42:36] 模拟结果: - 改变平均度数(p=60, n=1000):GRaSP2(方形点)的准确率极高,几乎不受图密度影响,远超GES、PC,也明显优于GRaSP0/1。 - 改变变量数(n=1000, 固定稀疏度):GRaSP2的性能同样卓越,即使在p=100时仍保持很高准确率。 - 运行时间(p=60):GRaSP2仅需不到2分钟,具有很好的可扩展性。相比,ESP需要预先计算associahedron,是不可行的。
[0:44:16 - 0:46:43] 未来工作 - 评分准则:是使用负边数还是BIC?在非参数模型中,最稀疏模型可能不是参数最少模型。也许应该假设唯一参数最小性(unique-parameter-minimality) 而非u-frugality。 - 减少贪心:当前只允许得分不下降的移动。是否可以允许一些暂时的得分下降,以跳出局部最优? - 潜变量:GRaSP如何扩展到存在潜变量的情况(如结合FCI算法)? - 更广泛比较:与更多算法、在离散和混合分布、真实数据上进行比较。
四、对应论文与开放问题¶
对应论文: - 本报告对应的论文很可能是: Lam, W., Andrews, B., & Ramsey, J. (2023). "Greedy Relaxations of the Sparsest Permutation Algorithm". 该论文可在 arXiv 上获取(具体链接可查),其内容与报告的幻灯片结构和理论结果高度吻合。合作者、机构(CMU哲学系)、年份都匹配。
开放问题(每条扎根于转写/幻灯片):
-
评分准则的唯一性理论 (幻灯片第38页,转写 [0:44:18]): > “The sparsest model may not have the fewest parameters… assume unique-parameter-minimality instead of u-frugality?” 问题:对于非高斯或非参数模型,参数个数与边数并不一致。是否存在一个比u-frugality(基于边数)更合理的“唯一稀疏性”概念,如“唯一参数最小性”?GRaSP2正确性所需的理论假设能否向这个方向更新?
-
GRaSP2的几何/组合解释 (讨论者Alex Markham在 [0:58:27 - 0:59:41],以及讲者在 [1:01:07-1:02:14] 的回应): > Alex: “GRaSP2 doesn’t just walk along the edges… it’s able to jump between points… can we give GRaSP2 a geometric interpretation like ESP?” > Wayne: “That is true. Because one edge you can have two different tuck operations… That is a difficulty of understanding what GRaSP2 is doing.” 问题:
tuck操作对于同一个DAG中的同一条边可能产生多个不同的新排列(因为γ和γ^c的划分可能不唯一),这导致GRaSP2的搜索空间不再是一个标准的“DAG associahedron”。能否定义一个更广义的、包含这种非确定性邻接关系的组合结构(如多面体或单纯复形的某种推广)来描述GRaSP2的搜索空间? 这个问题直接关系到对算法行为的理论理解。 -
GRaSP2的“弱贪心”与跳出局部最优 (幻灯片第38页,转写 [0:45:00]): > “Tolerate some score declines in the DFS procedure?” 问题:GRaSP1/2的贪心性质可能导致它陷入局部最优解。如果允许在搜索过程中短暂接受得分下降(例如模拟退火或束搜索),能否在理论上证明其可以在更弱的假设(如u-frugality)下正确?或者能否设计一个只需要简单假设但保证不陷入严重次优解的“温和贪心”版本?
-
扩展到含潜变量场景 (幻灯片第38页,转写 [0:45:31]): > “GRaSP with latent variables: GRaSP + FCI...” 问题:GRaSP基于“无混淆(因果充分性)”假设(无潜变量)。如何将GRaSP的
tuck操作与FCI(Fast Causal Inference)或其变体结合,使得能在允许潜变量和选择偏差的情况下进行可扩展的因果发现?这可能涉及定义一个新的“偏序”或“潜变量适应”的tuck操作。
Maintained by 陈星宇 · Homepage · Source on GitHub