What are we discovering? Two perspectives on interpretable evaluation of causal discovery algorithms¶
讲者: Anne Helby Petersen
讨论人: Vanessa Didelez
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-28
主题: 因果推断
视频: https://youtu.be/KfqEZdQwz2M · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2412.10039 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
本报告定位在因果发现算法的评估方法论这条子方向上。这个方向追问的核心问题是:当研究者声称一个因果发现算法“效果好”时,这个判断如何被量化证实?它的边界在哪里? 这条子方向在做什么、主流路线是什么、当前 frontier 在哪,以及这场报告站在哪个位置。
-
这条子方向在追问什么:因果发现(Causal Discovery)算法数量激增——PC 算法(Spirtes et al., 2000)、GES(Chickering, 2002)、NOTEARS(Zheng et al., 2018)、以及大量基于深度学习的变体。但在实证科学(特别是健康科学)中的实际应用极少。因此需系统回答:如何设计有信息量的模拟研究?如何跨研究对比?如何评判真实数据上的输出是否有用?
-
奠基与主流路线:传统评估方法高度依赖模拟与少量已知 ground truth 的真实数据(如 Sachs 蛋白信号数据集)。常用指标包括:结构汉明距离(SHD)、邻接/边/方向的 precision 与 recall、F1、以及近年提出的聚焦因果推断的指标如 Structural Intervention Distance(Peters & Bühlmann, 2015)和 Adjustment Identification Distance(Henckel, Würtzen & Weichwald, 2024)。主流做法是呈现一个绝对数值,问“算法做到了多少”。
-
当前 frontier / 共识的盲点:多个团队已发现 NOTEARS 的实证表现远不如其理论承诺——在 Sachs 数据上,其 SHD 与随机猜测不可区分(这份报告与 Janzing 等人不约而同的独立发现)。这揭示出一个根本性方法论缺陷:算法论文几乎从未报告其指标的信噪比——即算法输出与零知识基线之间的差距。结果是人们无法区分“问题容易/稀疏”与“算法真正有信号”。
-
这场报告站在哪:它提出一个极低但可精确定量的基线——随机猜测(random guessing),并称其为“负控制”(negative control 概念,源自流行病学,指在应无信号处设置对照)。核心贡献在于:对骨架(skeleton)估计,推导出 TP 在随机猜下的精确超几何分布,从而为 precision / recall / F1 等常见指标提供随机基线下的期望与区间,并可构造一个精确检验来回答“该结果是否好于随机”。在低维(小图)条件下该检验保守但仍可用。由此,报告分两部分:Part 1 将此框架推广至骨架之外的指标(如 SHD、lag 结构),Part 2 将其用于真实世界案例——与领域专家构建的 DAG 对比,并检验专家模型本身是否带有系统性偏向(如偏好 lag-1 的边)。
关键引用(含合作者、年份及一句话定位): - PC 算法:Spirtes, Glymour & Scheines (2000), Causation, Prediction, and Search. 约束基础的因果发现奠基性算法。 - GES:Chickering (2002), “Optimal structure identification with greedy search”,基于评分搜索。 - NOTEARS:Zheng, Aragam, Ravikumar & Xing (2018). 首次将 DAG 结构学习表述为连续优化问题,极大推动了该领域,但后续被指出在小样本、非高斯设定下表现不稳定。这恰好是这份报告中被当作反面数字引用的算法之一。 - Janzing et al. (2024?), 提出基于节点排列(node permutation)的随机化基线评估因果发现算法。同样用 Sachs + NOTEARS,结论惊人一致:better-than-random 是“surprisingly high bar”。
对应论文(需确认标题、作者、arXiv ID): - 已确认:arXiv 2412.10039,Anne Helby Petersen(单作者),“Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms”. - 报告 Part 2 提到的案例研究(与 Klas Ekström, Peter Spirtes, Merete Olesen 合作)尚有独立论文——“Metropolitan 队列案例”,具体标题待查(字幕里出现了 Metrolinx 但大概率是 Metropolitan 的口误)。
二、最小内核 / 一个最简例子¶
符号与可观测数据¶
- 有向图 \( G = (V, E) \),\(|V| = d\) 个节点。为了简化,假定无潜在混杂、无选择偏倚,即观测到的所有变量生成一个 DAG。
- 骨架(skeleton):忽略方向后的无向图。
- 核心可观测量:一个 2×2 邻接混淆矩阵(adjacency confusion matrix),仅针对骨架。
| 真图中是邻接 | 真图中非邻接 | 合计 | |
|---|---|---|---|
| 估计图中是邻接 | TP(真阳性) | FP(假阳性) | \(m_{est}\) |
| 估计图中非邻接 | FN(假阴性) | TN(真阴性) | – |
| 合计 | \(m_{true}\) | – | \(m_{max}\) |
其中: - \(m_{max} = \binom{d}{2} = \frac{1}{2}d(d-1)\),是完全图的边数,仅依赖 \(d\)。 - \(m_{true}\):真图中的边数(固定但未知,在模拟中已知)。 - \(m_{est}\):算法估计图中的边数(多数算法不是直接估计它,而是通过显著性水平或正则化隐式选定;报告在推导中先把它当作条件化已知量)。
最简特例:\(d=5\),二值邻接结构¶
- 真骨架:5 个节点,2 条边(\(m_{true}=2\))。
- 算法输出:估计骨架 4 条边(\(m_{est}=4\))。
问题:precision = TP/4 的观测值为 0.86,这是好还是坏?
随机猜的基准:如果算法是“在 5 个节点的所有可能 \(\binom{5}{2}=10\) 个位置中均匀随机放入 4 条边”,那么:
检验公式(精确的骨架拟合检验)¶
零假设 \(H_0\):估计图是通过均匀随机放置 \(m_{est}\) 条边得到的。
检验统计量:\(TP_{obs}\)(估计图与真图共享的邻接边数)。
单侧 p 值:\(P(X \ge TP_{obs})\),其中 \(X \sim \text{HyperGeom}(m_{max}, m_{true}, m_{est})\)。
由于离散性,检验是保守的。
三、报告主体:讲者讲了什么¶
[0:06–0:26] 引言与动机¶
- 因果发现的目标:从经验数据学习因果机制(假定无混杂和无选择),输出 DAG(或等价类)。
- 算法数量庞大,但实证科学中应用极少:PubMed 搜索显示,2023 年仅 12 篇含有“因果发现算法”的计算研究(非纯方法论文);而神经网络早在 1990 年就有 18 篇应用。暗示有“采用滞后期”问题。
[0:05:06–0:05:25] 可重现性危机的早期信号¶
- NOTEARS 算法在 Sachs 数据集上的原始 SHD 值为 22(真图有 11 节点、20 边;NOTEARS 输出 16 边)。
- Petersen 的负控制:生成 1000 个同规模随机 Erdős–Rényi DAG(11 节点、16 边),其 SHD 均值 27.4,95% CI 为 (22, 33)。NOTEARS 的 SHD=22 恰好落在该区间的下界——即不比随机好。
[0:11:43–0:18:59] Part 1:随机猜的正分布(关键方法论内核)¶
- 构造邻接混淆矩阵;指出 \(m_{max}\) 是纯图论量,\(m_{true}\) 是真图的边数(已知 at simulation;真实数据中未知但可设定),\(m_{est}\) 是算法输出的边数(虽然不是直接估计量,但多数算法隐含选择)。
- 核心定理(字幕 [0:16:45–0:17:10]):随机边放置下,
\[TP \mid m_{max}, m_{true}, m_{est} \sim \text{HyperGeom}(m_{max}, m_{true}, m_{est})\]这是精确分布,来自超几何抽样的瓮模型。
- 由此可以得到:
- 精确的骨架拟合检验([0:17:43–0:18:55]):单侧 p 值 \(P(X \ge TP_{obs})\),检验保守(离散性所致)。
- 常见指标的随机基线:precision, recall, NPV, F1 等均可表达为 TP 的线性(给定 \(m_{est}, m_{max}, m_{true}\)),从而直接获得期望与分位数区间,无需模拟。
- “免费午餐”警示([0:21:14–0:22:30]):在 5 节点图下,precision 与 recall 独立变化,F1 可仅靠增加 \(m_{est}\) 而升到很高——用一幅 3D 热图(\(m_{true}\) vs \(m_{est}\) vs 期望 F1)展示了该现象。
[0:23:58–0:25:05] 对约束的反思:\(m_{est}\) 是否应视为固定?¶
- 当算法被调参至匹配数据的稀疏度时(如 AIC/BIC 正则化),\(m_{est}\) 不再是固定量,超几何分布不再精确适用。建议替代方案:基于算法输出 \(m_{est}\) 的重复分布来采样随机图——但这种“条件化”可能偏向算法(因为算法试图输出合理的稀疏度)。讲者认为,由于零假设极粗糙,只要结果远高于随机基线,该偏向无需过度纠偏。
[0:25:58–0:40:36] Part 2:真实世界案例——Metropolitan 队列¶
- 合作者:Klas Ekström, Peter Spirtes, Merete Olesen。
- 数据:丹麦 Metropolitan 出生队列(生命历程变量从出生到早期老年),结局为抑郁与心脏病。
- 专家模型(经验流行病学家构建 DAG):要求加入置信度标签(中等/高);构建个体模型后再建立共识模型(temporal PC 算法,指定变量按时间顺序分层,约束箭头不能逆时间)。
- 精妙调参:估计图的边数 \(m_{est}\) 被调整至与专家共识模型的边数相等(30 条边),从而实现等基数的直接比较。
- 结果:
- 混淆矩阵:10 条边两模型共有;各 20 条对方没有的边。
- 高置信度的 7 条专家边中有 6 条被算法复现。
- 随机猜基线比较:观察到的 precision/recall ≈ 1/3;随机猜的期望 precision ≈ 0.13,95% CI 小,p 值 < 0.05——可排除随机猜。
- 算法新增的 20 条边事后文献回溯:3 条低 plausibility、6 条中、11 条高 plausibility。暗示算法发现了被专家系统性忽略的边。
- 二阶发现:专家模型明显偏好 lag-1 的边(相邻时间段),算法则偏向 lag-0 的边(同期),且算法在 lags 2–3 的边丰富度上与随机猜无显著差异。这揭示出专家可能存在 “时间顺序主义”的先验偏向(即认为因果关系必须发生在相邻时间之间)。
[0:40:36–0:45:16] 总结与行动号召¶
- 实验室评价要更难(mit mehr ambition):意识到仿真设计(密度、稀疏)极度影响指标值;报告必须附带随机猜基线;算法比较要先看问题难度是否可比。
- 真实世界评价要更谦虚(less ambitious):baseline 不应是 oracle 真值,而是“治疗常规”(treatment as usual),即领域专家在没有算法辅助时能做到什么。
- “因果发现算法是否已成熟到可被实际使用?” 讲者立场:若坚持等到完全成熟才试用,将永远得不到真实应用所需的洞见。NOTEARS 在 Sachs 上表现不佳正是信号,以识别问题偏向的契机。
四、对应论文与开放问题¶
(a) 对应论文¶
| 索引 | 论文 / 预印本 | 备注 |
|---|---|---|
| 1 | Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms (arXiv 2412.10039, Anne Helby Petersen, 2024) | 本报告的核心,涵盖 Part 1 的全部方法与 Part 2 的应用框架。 |
| 2 | Metropolitan 队列案例论文(合作者:Klas Ekström, Peter Spirtes, Merete Olesen) | 字幕中提到数次,但转写未给出正式标题。预计独立于 arXiv 2412.10039 发布或已投。 |
| 3 | 周边资源:Didelez (Vanessa D'Elous 的拼写修正:应为 Vanessa Didelez,Leibniz Institute for Prevention Research and Epidemiology) 已撰有关因果发现实践困难的综述文章。 | |
| 4 | Janzing et al. (2024?):基于节点排列的随机基线方法(报告讨论环节引用) | 与方法论互补。查询 Janzing, D. 在 UAI 2024 的 talk。 |
(b) 开放问题(仅罗列,不判断可行性)¶
-
条件化 \(m_{est}\) 之后的泛化:[0:24:31–0:25:14] 讲者承认当算法对稀疏度进行调参时,超几何分布不再精确;提出的替代方案(用算法输出的 \(m_{est}\) 分布采样)可能偏向算法。问题:能否构造一个非条件性的随机基线,即分布同时覆盖 \(m_{est}\) 和边缘的随机性?这涉及跨稀疏度领域的统计检验——是否可以用随机化检验框架取代现有的条件检验?
-
有方向(edge orientation)的随机基线:[0:46:30–0:46:59] 讨论环节中听众提问“能否扩展到部分有向图(PDAG、MAG、CG 等)”?讲者回答 skeleton 可推广,但 orientation 部分目前不太“有信息量”。问题:能否为边缘方向建立一个有意义的随机基线(例如,先随机生成骨架,再在骨架之上对所有可能的无撞方向(acyclic orientations)上均匀随机分配方向)?分布会变得复杂得多。
-
负控制 vs 随机控制:命名法还有实际使用:[0:56:56–0:57:28] Vanessa 质疑“负控制”用法,Petersen 答或应改称“随机控制”。但本质上,该随机基线只能排除“完全无信息”的最坏情况,不能检测出系统性偏差(如稳定性选择、FFS 等)。问题:若随机基线通过,接下来用什么来检验“算法输出是否比某些更聪明的 null(如非因果的关联性图)更有用”?——这涉及多重 null 层级结构。
-
检验的功耗与样本量:[0:18:35–0:18:50] 保守性在小 DAG 下严重——如何设计检验使其在有限样本下仍能保持合理对照?这或许是统计检验理论的一个直接问题(在大样本近似、连续校正、或随机化检验版本)。对于大 \(d\)(>100 节点),超几何分布向 Normal 收敛——能否给出特定的 sample-size 指导?
-
人工先验的后验评估:[0:38:00–0:40:10] 报告发现专家明显偏好 lag-1 边,分析属有趣;但这需⻓期后效验证(确定哪些数据发现是正确的因果推理)。问题:在流行病学研究中,存在自然实验或随机化对照试验时,哪些先验被证实/证伪?这可将 lag 选择权转化为可测试假设。
-
如何判定多个算法是否真比随机好,且彼此可比? 报告建议把随机基线作为低标准把关。但对多重算法比较尚无框架——若算法 A 与算法 B 均优于随机,但差异极小——可使用引入“随机基线校正”后的精度-召回差异的渐近检验。这需要导出超几何分布下的渐近分布,或使用 Bootstrapping。
-
将零假设拓展到“已发表方法”而非“完全随机” 更现实的基线:例如某个基础方法(PC 算法、GES)的整体表现在标准化基准集上的分布——低于此基线的方法应当被明确标记为“非改进”。对此框架尚无讨论。
Maintained by 陈星宇 · Homepage · Source on GitHub