What are we discovering? Two perspectives on interpretable evaluation of causal discovery algorithms¶

讲者: Anne Helby Petersen
讨论人: Vanessa Didelez
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-28
主题: 因果推断
视频: https://youtu.be/KfqEZdQwz2M · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2412.10039 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

本报告定位在因果发现算法的评估方法论这条子方向上。这个方向追问的核心问题是：当研究者声称一个因果发现算法“效果好”时，这个判断如何被量化证实？它的边界在哪里？ 这条子方向在做什么、主流路线是什么、当前 frontier 在哪，以及这场报告站在哪个位置。

这条子方向在追问什么：因果发现（Causal Discovery）算法数量激增——PC 算法（Spirtes et al., 2000）、GES（Chickering, 2002）、NOTEARS（Zheng et al., 2018）、以及大量基于深度学习的变体。但在实证科学（特别是健康科学）中的实际应用极少。因此需系统回答：如何设计有信息量的模拟研究？如何跨研究对比？如何评判真实数据上的输出是否有用？
奠基与主流路线：传统评估方法高度依赖模拟与少量已知 ground truth 的真实数据（如 Sachs 蛋白信号数据集）。常用指标包括：结构汉明距离（SHD）、邻接/边/方向的 precision 与 recall、F1、以及近年提出的聚焦因果推断的指标如 Structural Intervention Distance（Peters & Bühlmann, 2015）和 Adjustment Identification Distance（Henckel, Würtzen & Weichwald, 2024）。主流做法是呈现一个绝对数值，问“算法做到了多少”。
当前 frontier / 共识的盲点：多个团队已发现 NOTEARS 的实证表现远不如其理论承诺——在 Sachs 数据上，其 SHD 与随机猜测不可区分（这份报告与 Janzing 等人不约而同的独立发现）。这揭示出一个根本性方法论缺陷：算法论文几乎从未报告其指标的信噪比——即算法输出与零知识基线之间的差距。结果是人们无法区分“问题容易/稀疏”与“算法真正有信号”。
这场报告站在哪：它提出一个极低但可精确定量的基线——随机猜测（random guessing），并称其为“负控制”（negative control 概念，源自流行病学，指在应无信号处设置对照）。核心贡献在于：对骨架（skeleton）估计，推导出 TP 在随机猜下的精确超几何分布，从而为 precision / recall / F1 等常见指标提供随机基线下的期望与区间，并可构造一个精确检验来回答“该结果是否好于随机”。在低维（小图）条件下该检验保守但仍可用。由此，报告分两部分：Part 1 将此框架推广至骨架之外的指标（如 SHD、lag 结构），Part 2 将其用于真实世界案例——与领域专家构建的 DAG 对比，并检验专家模型本身是否带有系统性偏向（如偏好 lag-1 的边）。

关键引用（含合作者、年份及一句话定位）： - PC 算法：Spirtes, Glymour & Scheines (2000), Causation, Prediction, and Search. 约束基础的因果发现奠基性算法。 - GES：Chickering (2002), “Optimal structure identification with greedy search”，基于评分搜索。 - NOTEARS：Zheng, Aragam, Ravikumar & Xing (2018). 首次将 DAG 结构学习表述为连续优化问题，极大推动了该领域，但后续被指出在小样本、非高斯设定下表现不稳定。这恰好是这份报告中被当作反面数字引用的算法之一。 - Janzing et al. (2024?), 提出基于节点排列（node permutation）的随机化基线评估因果发现算法。同样用 Sachs + NOTEARS，结论惊人一致：better-than-random 是“surprisingly high bar”。

对应论文（需确认标题、作者、arXiv ID）： - 已确认：arXiv 2412.10039，Anne Helby Petersen（单作者），“Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms”. - 报告 Part 2 提到的案例研究（与 Klas Ekström, Peter Spirtes, Merete Olesen 合作）尚有独立论文——“Metropolitan 队列案例”，具体标题待查（字幕里出现了 Metrolinx 但大概率是 Metropolitan 的口误）。

二、最小内核 / 一个最简例子¶

符号与可观测数据¶

有向图 \( G = (V, E) \)，\(|V| = d\) 个节点。为了简化，假定无潜在混杂、无选择偏倚，即观测到的所有变量生成一个 DAG。
骨架（skeleton）：忽略方向后的无向图。
核心可观测量：一个 2×2 邻接混淆矩阵（adjacency confusion matrix），仅针对骨架。

	真图中是邻接	真图中非邻接	合计
估计图中是邻接	TP（真阳性）	FP（假阳性）	\(m_{est}\)
估计图中非邻接	FN（假阴性）	TN（真阴性）	–
合计	\(m_{true}\)	–	\(m_{max}\)

其中： - \(m_{max} = \binom{d}{2} = \frac{1}{2}d(d-1)\)，是完全图的边数，仅依赖 \(d\)。 - \(m_{true}\)：真图中的边数（固定但未知，在模拟中已知）。 - \(m_{est}\)：算法估计图中的边数（多数算法不是直接估计它，而是通过显著性水平或正则化隐式选定；报告在推导中先把它当作条件化已知量）。

最简特例：\(d=5\)，二值邻接结构¶

真骨架：5 个节点，2 条边（\(m_{true}=2\)）。
算法输出：估计骨架 4 条边（\(m_{est}=4\)）。

问题：precision = TP/4 的观测值为 0.86，这是好还是坏？

随机猜的基准：如果算法是“在 5 个节点的所有可能 \(\binom{5}{2}=10\) 个位置中均匀随机放入 4 条边”，那么：

\[TP \mid m_{max}, m_{true}, m_{est} \sim \text{HyperGeom}(m_{max}=10, m_{true}=2, m_{est}=4)\]

精确分布意味着：

\[\mathbb{E}[TP] = m_{est} \cdot \frac{m_{true}}{m_{max}} = 4 \cdot \frac{2}{10} = 0.8\]

因此：

\[\mathbb{E}[\text{precision} \mid \text{随机猜}] = \frac{\mathbb{E}[TP]}{m_{est}} = \frac{m_{true}}{m_{max}} = 0.2\]

95% 置信区间（通过超几何分位数）可快速算出。在 5 节点图中 precision 的随机猜基线极高，易达接近 1。因此 0.86 并不能证明算法优于随机。

检验公式（精确的骨架拟合检验）¶

零假设 \(H_0\)：估计图是通过均匀随机放置 \(m_{est}\) 条边得到的。

检验统计量：\(TP_{obs}\)（估计图与真图共享的邻接边数）。

单侧 p 值：\(P(X \ge TP_{obs})\)，其中 \(X \sim \text{HyperGeom}(m_{max}, m_{true}, m_{est})\)。

由于离散性，检验是保守的。

三、报告主体：讲者讲了什么¶

[0:06–0:26] 引言与动机¶

因果发现的目标：从经验数据学习因果机制（假定无混杂和无选择），输出 DAG（或等价类）。
算法数量庞大，但实证科学中应用极少：PubMed 搜索显示，2023 年仅 12 篇含有“因果发现算法”的计算研究（非纯方法论文）；而神经网络早在 1990 年就有 18 篇应用。暗示有“采用滞后期”问题。

[0:05:06–0:05:25] 可重现性危机的早期信号¶

NOTEARS 算法在 Sachs 数据集上的原始 SHD 值为 22（真图有 11 节点、20 边；NOTEARS 输出 16 边）。
Petersen 的负控制：生成 1000 个同规模随机 Erdős–Rényi DAG（11 节点、16 边），其 SHD 均值 27.4，95% CI 为 (22, 33)。NOTEARS 的 SHD=22 恰好落在该区间的下界——即不比随机好。

[0:11:43–0:18:59] Part 1：随机猜的正分布（关键方法论内核）¶

构造邻接混淆矩阵；指出 \(m_{max}\) 是纯图论量，\(m_{true}\) 是真图的边数（已知 at simulation；真实数据中未知但可设定），\(m_{est}\) 是算法输出的边数（虽然不是直接估计量，但多数算法隐含选择）。
核心定理（字幕 [0:16:45–0:17:10]）：随机边放置下，
\[TP \mid m_{max}, m_{true}, m_{est} \sim \text{HyperGeom}(m_{max}, m_{true}, m_{est})\]
这是精确分布，来自超几何抽样的瓮模型。
由此可以得到：
精确的骨架拟合检验（[0:17:43–0:18:55]）：单侧 p 值 \(P(X \ge TP_{obs})\)，检验保守（离散性所致）。
常见指标的随机基线：precision, recall, NPV, F1 等均可表达为 TP 的线性（给定 \(m_{est}, m_{max}, m_{true}\)），从而直接获得期望与分位数区间，无需模拟。
“免费午餐”警示（[0:21:14–0:22:30]）：在 5 节点图下，precision 与 recall 独立变化，F1 可仅靠增加 \(m_{est}\) 而升到很高——用一幅 3D 热图（\(m_{true}\) vs \(m_{est}\) vs 期望 F1）展示了该现象。

[0:23:58–0:25:05] 对约束的反思：\(m_{est}\) 是否应视为固定？¶

当算法被调参至匹配数据的稀疏度时（如 AIC/BIC 正则化），\(m_{est}\) 不再是固定量，超几何分布不再精确适用。建议替代方案：基于算法输出 \(m_{est}\) 的重复分布来采样随机图——但这种“条件化”可能偏向算法（因为算法试图输出合理的稀疏度）。讲者认为，由于零假设极粗糙，只要结果远高于随机基线，该偏向无需过度纠偏。

[0:25:58–0:40:36] Part 2：真实世界案例——Metropolitan 队列¶

合作者：Klas Ekström, Peter Spirtes, Merete Olesen。
数据：丹麦 Metropolitan 出生队列（生命历程变量从出生到早期老年），结局为抑郁与心脏病。
专家模型（经验流行病学家构建 DAG）：要求加入置信度标签（中等/高）；构建个体模型后再建立共识模型（temporal PC 算法，指定变量按时间顺序分层，约束箭头不能逆时间）。
精妙调参：估计图的边数 \(m_{est}\) 被调整至与专家共识模型的边数相等（30 条边），从而实现等基数的直接比较。
结果：
混淆矩阵：10 条边两模型共有；各 20 条对方没有的边。
高置信度的 7 条专家边中有 6 条被算法复现。
随机猜基线比较：观察到的 precision/recall ≈ 1/3；随机猜的期望 precision ≈ 0.13，95% CI 小，p 值 < 0.05——可排除随机猜。
算法新增的 20 条边事后文献回溯：3 条低 plausibility、6 条中、11 条高 plausibility。暗示算法发现了被专家系统性忽略的边。
二阶发现：专家模型明显偏好 lag-1 的边（相邻时间段），算法则偏向 lag-0 的边（同期），且算法在 lags 2–3 的边丰富度上与随机猜无显著差异。这揭示出专家可能存在 “时间顺序主义”的先验偏向（即认为因果关系必须发生在相邻时间之间）。

[0:40:36–0:45:16] 总结与行动号召¶

实验室评价要更难（mit mehr ambition）：意识到仿真设计（密度、稀疏）极度影响指标值；报告必须附带随机猜基线；算法比较要先看问题难度是否可比。
真实世界评价要更谦虚（less ambitious）：baseline 不应是 oracle 真值，而是“治疗常规”（treatment as usual），即领域专家在没有算法辅助时能做到什么。
“因果发现算法是否已成熟到可被实际使用？” 讲者立场：若坚持等到完全成熟才试用，将永远得不到真实应用所需的洞见。NOTEARS 在 Sachs 上表现不佳正是信号，以识别问题偏向的契机。

四、对应论文与开放问题¶

(a) 对应论文¶

索引	论文 / 预印本	备注
1	Are you doing better than random guessing? A call for using negative controls when evaluating causal discovery algorithms (arXiv 2412.10039, Anne Helby Petersen, 2024)	本报告的核心，涵盖 Part 1 的全部方法与 Part 2 的应用框架。
2	Metropolitan 队列案例论文（合作者：Klas Ekström, Peter Spirtes, Merete Olesen）	字幕中提到数次，但转写未给出正式标题。预计独立于 arXiv 2412.10039 发布或已投。
3	周边资源：Didelez (Vanessa D'Elous 的拼写修正：应为 Vanessa Didelez，Leibniz Institute for Prevention Research and Epidemiology) 已撰有关因果发现实践困难的综述文章。
4	Janzing et al. (2024?)：基于节点排列的随机基线方法（报告讨论环节引用）	与方法论互补。查询 Janzing, D. 在 UAI 2024 的 talk。

(b) 开放问题（仅罗列，不判断可行性）¶

条件化 \(m_{est}\) 之后的泛化：[0:24:31–0:25:14] 讲者承认当算法对稀疏度进行调参时，超几何分布不再精确；提出的替代方案（用算法输出的 \(m_{est}\) 分布采样）可能偏向算法。问题：能否构造一个非条件性的随机基线，即分布同时覆盖 \(m_{est}\) 和边缘的随机性？这涉及跨稀疏度领域的统计检验——是否可以用随机化检验框架取代现有的条件检验？
有方向（edge orientation）的随机基线：[0:46:30–0:46:59] 讨论环节中听众提问“能否扩展到部分有向图（PDAG、MAG、CG 等）”？讲者回答 skeleton 可推广，但 orientation 部分目前不太“有信息量”。问题：能否为边缘方向建立一个有意义的随机基线（例如，先随机生成骨架，再在骨架之上对所有可能的无撞方向（acyclic orientations）上均匀随机分配方向）？分布会变得复杂得多。
负控制 vs 随机控制：命名法还有实际使用：[0:56:56–0:57:28] Vanessa 质疑“负控制”用法，Petersen 答或应改称“随机控制”。但本质上，该随机基线只能排除“完全无信息”的最坏情况，不能检测出系统性偏差（如稳定性选择、FFS 等）。问题：若随机基线通过，接下来用什么来检验“算法输出是否比某些更聪明的 null（如非因果的关联性图）更有用”？——这涉及多重 null 层级结构。
检验的功耗与样本量：[0:18:35–0:18:50] 保守性在小 DAG 下严重——如何设计检验使其在有限样本下仍能保持合理对照？这或许是统计检验理论的一个直接问题（在大样本近似、连续校正、或随机化检验版本）。对于大 \(d\)（>100 节点），超几何分布向 Normal 收敛——能否给出特定的 sample-size 指导？
人工先验的后验评估：[0:38:00–0:40:10] 报告发现专家明显偏好 lag-1 边，分析属有趣；但这需⻓期后效验证（确定哪些数据发现是正确的因果推理）。问题：在流行病学研究中，存在自然实验或随机化对照试验时，哪些先验被证实/证伪？这可将 lag 选择权转化为可测试假设。
如何判定多个算法是否真比随机好，且彼此可比？ 报告建议把随机基线作为低标准把关。但对多重算法比较尚无框架——若算法 A 与算法 B 均优于随机，但差异极小——可使用引入“随机基线校正”后的精度-召回差异的渐近检验。这需要导出超几何分布下的渐近分布，或使用 Bootstrapping。
将零假设拓展到“已发表方法”而非“完全随机” 更现实的基线：例如某个基础方法（PC 算法、GES）的整体表现在标准化基准集上的分布——低于此基线的方法应当被明确标记为“非改进”。对此框架尚无讨论。

Maintained by 陈星宇 · Homepage · Source on GitHub