跳转至

What are we discovering? Two perspectives on interpretable evaluation of causal discovery algorithms

讲者: Anne Helby Petersen
讨论人: Vanessa Didelez
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-28
主题: 因果推断
视频: https://youtu.be/KfqEZdQwz2M · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2412.10039 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

本报告定位在因果发现算法的评估方法论这条子方向上。这个方向追问的核心问题是:当研究者声称一个因果发现算法“效果好”时,这个判断如何被量化证实?它的边界在哪里? 这条子方向在做什么、主流路线是什么、当前 frontier 在哪,以及这场报告站在哪个位置。

  • 这条子方向在追问什么:因果发现(Causal Discovery)算法数量激增——PC 算法(Spirtes et al., 2000)、GES(Chickering, 2002)、NOTEARS(Zheng et al., 2018)、以及大量基于深度学习的变体。但在实证科学(特别是健康科学)中的实际应用极少。因此需系统回答:如何设计有信息量的模拟研究?如何跨研究对比?如何评判真实数据上的输出是否有用?

  • 奠基与主流路线:传统评估方法高度依赖模拟与少量已知 ground truth 的真实数据(如 Sachs 蛋白信号数据集)。常用指标包括:结构汉明距离(SHD)、邻接/边/方向的 precision 与 recall、F1、以及近年提出的聚焦因果推断的指标如 Structural Intervention Distance(Peters & Bühlmann, 2015)和 Adjustment Identification Distance(Henckel, Würtzen & Weichwald, 2024)。主流做法是呈现一个绝对数值,问“算法做到了多少”。

  • 当前 frontier / 共识的盲点:多个团队已发现 NOTEARS 的实证表现远不如其理论承诺——在 Sachs 数据上,其 SHD 与随机猜测不可区分(这份报告与 Janzing 等人不约而同的独立发现)。这揭示出一个根本性方法论缺陷:算法论文几乎从未报告其指标的信噪比——即算法输出与零知识基线之间的差距。结果是人们无法区分“问题容易/稀疏”与“算法真正有信号”。

  • 这场报告站在哪:它提出一个极低但可精确定量的基线——随机猜测(random guessing),并称其为“负控制”(negative control 概念,源自流行病学,指在应无信号处设置对照)。核心贡献在于:对骨架(skeleton)估计,推导出 TP 在随机猜下的精确超几何分布,从而为 precision / recall / F1 等常见指标提供随机基线下的期望与区间,并可构造一个精确检验来回答“该结果是否好于随机”。在低维(小图)条件下该检验保守但仍可用。由此,报告分两部分:Part 1 将此框架推广至骨架之外的指标(如 SHD、lag 结构),Part 2 将其用于真实世界案例——与领域专家构建的 DAG 对比,并检验专家模型本身是否带有系统性偏向(如偏好 lag-1 的边)。

关键引用(含合作者、年份及一句话定位): - PC 算法:Spirtes, Glymour & Scheines (2000), Causation, Prediction, and Search. 约束基础的因果发现奠基性算法。 - GES:Chickering (2002), “Optimal structure identification with greedy search”,基于评分搜索。 - NOTEARS:Zheng, Aragam, Ravikumar & Xing (2018). 首次将 DAG 结构学习表述为连续优化问题,极大推动了该领域,但后续被指出在小样本、非高斯设定下表现不稳定。这恰好是这份报告中被当作反面数字引用的算法之一。 - Janzing et al. (2024?), 提出基于节点排列(node permutation)的随机化基线评估因果发现算法。同样用 Sachs + NOTEARS,结论惊人一致:better-than-random 是“surprisingly high bar”。

对应论文(需确认标题、作者、arXiv ID): - 已确认:arXiv 2412.10039,Anne Helby Petersen(单作者),“Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms”. - 报告 Part 2 提到的案例研究(与 Klas Ekström, Peter Spirtes, Merete Olesen 合作)尚有独立论文——“Metropolitan 队列案例”,具体标题待查(字幕里出现了 Metrolinx 但大概率是 Metropolitan 的口误)。

二、最小内核 / 一个最简例子

符号与可观测数据

  • 有向图 \( G = (V, E) \)\(|V| = d\) 个节点。为了简化,假定无潜在混杂、无选择偏倚,即观测到的所有变量生成一个 DAG。
  • 骨架(skeleton):忽略方向后的无向图。
  • 核心可观测量:一个 2×2 邻接混淆矩阵(adjacency confusion matrix),仅针对骨架。
真图中是邻接 真图中非邻接 合计
估计图中是邻接 TP(真阳性) FP(假阳性) \(m_{est}\)
估计图中非邻接 FN(假阴性) TN(真阴性)
合计 \(m_{true}\) \(m_{max}\)

其中: - \(m_{max} = \binom{d}{2} = \frac{1}{2}d(d-1)\),是完全图的边数,仅依赖 \(d\)。 - \(m_{true}\):真图中的边数(固定但未知,在模拟中已知)。 - \(m_{est}\):算法估计图中的边数(多数算法不是直接估计它,而是通过显著性水平或正则化隐式选定;报告在推导中先把它当作条件化已知量)。

最简特例:\(d=5\),二值邻接结构

  • 真骨架:5 个节点,2 条边(\(m_{true}=2\))。
  • 算法输出:估计骨架 4 条边(\(m_{est}=4\))。

问题:precision = TP/4 的观测值为 0.86,这是好还是坏?

随机猜的基准:如果算法是“在 5 个节点的所有可能 \(\binom{5}{2}=10\) 个位置中均匀随机放入 4 条边”,那么:

\[TP \mid m_{max}, m_{true}, m_{est} \sim \text{HyperGeom}(m_{max}=10, m_{true}=2, m_{est}=4)\]
精确分布意味着:
\[\mathbb{E}[TP] = m_{est} \cdot \frac{m_{true}}{m_{max}} = 4 \cdot \frac{2}{10} = 0.8\]
因此:
\[\mathbb{E}[\text{precision} \mid \text{随机猜}] = \frac{\mathbb{E}[TP]}{m_{est}} = \frac{m_{true}}{m_{max}} = 0.2\]
95% 置信区间(通过超几何分位数)可快速算出。在 5 节点图中 precision 的随机猜基线极高,易达接近 1。因此 0.86 并不能证明算法优于随机。

检验公式(精确的骨架拟合检验)

零假设 \(H_0\):估计图是通过均匀随机放置 \(m_{est}\) 条边得到的。

检验统计量:\(TP_{obs}\)(估计图与真图共享的邻接边数)。

单侧 p 值:\(P(X \ge TP_{obs})\),其中 \(X \sim \text{HyperGeom}(m_{max}, m_{true}, m_{est})\)

由于离散性,检验是保守的。

三、报告主体:讲者讲了什么

[0:06–0:26] 引言与动机

  • 因果发现的目标:从经验数据学习因果机制(假定无混杂和无选择),输出 DAG(或等价类)。
  • 算法数量庞大,但实证科学中应用极少:PubMed 搜索显示,2023 年仅 12 篇含有“因果发现算法”的计算研究(非纯方法论文);而神经网络早在 1990 年就有 18 篇应用。暗示有“采用滞后期”问题。

[0:05:06–0:05:25] 可重现性危机的早期信号

  • NOTEARS 算法在 Sachs 数据集上的原始 SHD 值为 22(真图有 11 节点、20 边;NOTEARS 输出 16 边)。
  • Petersen 的负控制:生成 1000 个同规模随机 Erdős–Rényi DAG(11 节点、16 边),其 SHD 均值 27.4,95% CI 为 (22, 33)。NOTEARS 的 SHD=22 恰好落在该区间的下界——即不比随机好。

[0:11:43–0:18:59] Part 1:随机猜的正分布(关键方法论内核)

  • 构造邻接混淆矩阵;指出 \(m_{max}\) 是纯图论量,\(m_{true}\) 是真图的边数(已知 at simulation;真实数据中未知但可设定),\(m_{est}\) 是算法输出的边数(虽然不是直接估计量,但多数算法隐含选择)。
  • 核心定理(字幕 [0:16:45–0:17:10]):随机边放置下,
    \[TP \mid m_{max}, m_{true}, m_{est} \sim \text{HyperGeom}(m_{max}, m_{true}, m_{est})\]
    这是精确分布,来自超几何抽样的瓮模型。
  • 由此可以得到:
  • 精确的骨架拟合检验([0:17:43–0:18:55]):单侧 p 值 \(P(X \ge TP_{obs})\),检验保守(离散性所致)。
  • 常见指标的随机基线:precision, recall, NPV, F1 等均可表达为 TP 的线性(给定 \(m_{est}, m_{max}, m_{true}\)),从而直接获得期望与分位数区间,无需模拟。
  • “免费午餐”警示([0:21:14–0:22:30]):在 5 节点图下,precision 与 recall 独立变化,F1 可仅靠增加 \(m_{est}\) 而升到很高——用一幅 3D 热图(\(m_{true}\) vs \(m_{est}\) vs 期望 F1)展示了该现象。

[0:23:58–0:25:05] 对约束的反思:\(m_{est}\) 是否应视为固定?

  • 当算法被调参至匹配数据的稀疏度时(如 AIC/BIC 正则化),\(m_{est}\) 不再是固定量,超几何分布不再精确适用。建议替代方案:基于算法输出 \(m_{est}\) 的重复分布来采样随机图——但这种“条件化”可能偏向算法(因为算法试图输出合理的稀疏度)。讲者认为,由于零假设极粗糙,只要结果远高于随机基线,该偏向无需过度纠偏。

[0:25:58–0:40:36] Part 2:真实世界案例——Metropolitan 队列

  • 合作者:Klas Ekström, Peter Spirtes, Merete Olesen。
  • 数据:丹麦 Metropolitan 出生队列(生命历程变量从出生到早期老年),结局为抑郁与心脏病。
  • 专家模型(经验流行病学家构建 DAG):要求加入置信度标签(中等/高);构建个体模型后再建立共识模型(temporal PC 算法,指定变量按时间顺序分层,约束箭头不能逆时间)。
  • 精妙调参:估计图的边数 \(m_{est}\) 被调整至与专家共识模型的边数相等(30 条边),从而实现等基数的直接比较。
  • 结果:
  • 混淆矩阵:10 条边两模型共有;各 20 条对方没有的边。
  • 高置信度的 7 条专家边中有 6 条被算法复现。
  • 随机猜基线比较:观察到的 precision/recall ≈ 1/3;随机猜的期望 precision ≈ 0.13,95% CI 小,p 值 < 0.05——可排除随机猜。
  • 算法新增的 20 条边事后文献回溯:3 条低 plausibility、6 条中、11 条高 plausibility。暗示算法发现了被专家系统性忽略的边。
  • 二阶发现:专家模型明显偏好 lag-1 的边(相邻时间段),算法则偏向 lag-0 的边(同期),且算法在 lags 2–3 的边丰富度上与随机猜无显著差异。这揭示出专家可能存在 “时间顺序主义”的先验偏向(即认为因果关系必须发生在相邻时间之间)。

[0:40:36–0:45:16] 总结与行动号召

  • 实验室评价要更难(mit mehr ambition):意识到仿真设计(密度、稀疏)极度影响指标值;报告必须附带随机猜基线;算法比较要先看问题难度是否可比。
  • 真实世界评价要更谦虚(less ambitious):baseline 不应是 oracle 真值,而是“治疗常规”(treatment as usual),即领域专家在没有算法辅助时能做到什么。
  • “因果发现算法是否已成熟到可被实际使用?” 讲者立场:若坚持等到完全成熟才试用,将永远得不到真实应用所需的洞见。NOTEARS 在 Sachs 上表现不佳正是信号,以识别问题偏向的契机。

四、对应论文与开放问题

(a) 对应论文

索引 论文 / 预印本 备注
1 Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms (arXiv 2412.10039, Anne Helby Petersen, 2024) 本报告的核心,涵盖 Part 1 的全部方法与 Part 2 的应用框架。
2 Metropolitan 队列案例论文(合作者:Klas Ekström, Peter Spirtes, Merete Olesen) 字幕中提到数次,但转写未给出正式标题。预计独立于 arXiv 2412.10039 发布或已投。
3 周边资源:Didelez (Vanessa D'Elous 的拼写修正:应为 Vanessa Didelez,Leibniz Institute for Prevention Research and Epidemiology) 已撰有关因果发现实践困难的综述文章。
4 Janzing et al. (2024?):基于节点排列的随机基线方法(报告讨论环节引用) 与方法论互补。查询 Janzing, D. 在 UAI 2024 的 talk。

(b) 开放问题(仅罗列,不判断可行性)

  1. 条件化 \(m_{est}\) 之后的泛化:[0:24:31–0:25:14] 讲者承认当算法对稀疏度进行调参时,超几何分布不再精确;提出的替代方案(用算法输出的 \(m_{est}\) 分布采样)可能偏向算法。问题:能否构造一个非条件性的随机基线,即分布同时覆盖 \(m_{est}\) 和边缘的随机性?这涉及跨稀疏度领域的统计检验——是否可以用随机化检验框架取代现有的条件检验?

  2. 有方向(edge orientation)的随机基线:[0:46:30–0:46:59] 讨论环节中听众提问“能否扩展到部分有向图(PDAG、MAG、CG 等)”?讲者回答 skeleton 可推广,但 orientation 部分目前不太“有信息量”。问题:能否为边缘方向建立一个有意义的随机基线(例如,先随机生成骨架,再在骨架之上对所有可能的无撞方向(acyclic orientations)上均匀随机分配方向)?分布会变得复杂得多。

  3. 负控制 vs 随机控制:命名法还有实际使用:[0:56:56–0:57:28] Vanessa 质疑“负控制”用法,Petersen 答或应改称“随机控制”。但本质上,该随机基线只能排除“完全无信息”的最坏情况,不能检测出系统性偏差(如稳定性选择、FFS 等)。问题:若随机基线通过,接下来用什么来检验“算法输出是否比某些更聪明的 null(如非因果的关联性图)更有用”?——这涉及多重 null 层级结构。

  4. 检验的功耗与样本量:[0:18:35–0:18:50] 保守性在小 DAG 下严重——如何设计检验使其在有限样本下仍能保持合理对照?这或许是统计检验理论的一个直接问题(在大样本近似、连续校正、或随机化检验版本)。对于大 \(d\)(>100 节点),超几何分布向 Normal 收敛——能否给出特定的 sample-size 指导?

  5. 人工先验的后验评估:[0:38:00–0:40:10] 报告发现专家明显偏好 lag-1 边,分析属有趣;但这需⻓期后效验证(确定哪些数据发现是正确的因果推理)。问题:在流行病学研究中,存在自然实验或随机化对照试验时,哪些先验被证实/证伪?这可将 lag 选择权转化为可测试假设。

  6. 如何判定多个算法是否真比随机好,且彼此可比? 报告建议把随机基线作为低标准把关。但对多重算法比较尚无框架——若算法 A 与算法 B 均优于随机,但差异极小——可使用引入“随机基线校正”后的精度-召回差异的渐近检验。这需要导出超几何分布下的渐近分布,或使用 Bootstrapping。

  7. 将零假设拓展到“已发表方法”而非“完全随机” 更现实的基线:例如某个基础方法(PC 算法、GES)的整体表现在标准化基准集上的分布——低于此基线的方法应当被明确标记为“非改进”。对此框架尚无讨论。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论