Living DAGs: the future of DAGs in epidemiology¶

作者: Robert J Reynolds
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1093/aje/kwag029

一、领域脉络与小综述¶

这个方向是什么：这个子方向探讨的是因果推断中 DAG（有向无环图）的科学基础设施角色，而非其数学性质。根本问题是：当 DAG 被用于协变量选择与 estimand 识别后，它是否应该作为可累积、可修正的科学知识库被保留与共享，还是继续作为一次性、静态的分析附件被丢弃？当前该方向的成熟度处于呼吁与零星实践并存的阶段：DAG 的数学定义与 d-分离等识别规则在统计与计算机科学中已完全成熟，但将其作为“活”的、跨研究共享的表征系统，在流行病学等应用领域仍属非主流实践。

发展脉络（history）： - 奠基工作：DAG 作为因果推断识别工具的奠基来自 Spirtes, Glymour & Scheines (2000) 与 Pearl (2009)，他们将 DAG 从数学对象转化为可以机械执行 d-分离、判定可识别性的计算工具。作者引用 Pearl 时的判断是将其定位为“提供了 DAG 与 do-算子的标准框架”。 - 主要进展（应用与扩展）：在流行病学内部，DAG 的普及主要靠 Greenland, Pearl & Robins (2006) 等将图语言引入混杂判定与协变量选择。随后， Hernán & Robins (2020) 在 Causal Inference 书中把 DAG 与潜在结果框架桥接。作者对 Hernán 的引用句强调其“将 DAG 用于定义因果 estimands 与选择协变量”的标准实践地位。 - 当前 frontier（动态与系统化）：近期开始出现将 DAG 超越单次分析的尝试。作者引用了 Ferguson 等（2020）在脑瘫研究中的工作，判断是“展示了跨研究整合 DAG 以形成共识因果模型的过程”；同时引用了 NASA 航天风险管理中的连续 DAG 修正实践（如 NASA Human Research Program 文档），判断是“在工程风险中已将 DAG 作为随时间修正、带证据标注的动态工具”。 - 本文的位置：本文是一篇 Opinion piece，不提供新定理或新算法。它把上述零星的跨领域实践（航天、脑瘫）抽象为一个统一主张：DAG 应成为“活”的、共享的、带证据等级标注的认识论基础设施，并呼吁流行病学界系统性采纳。

子线索聚类： 1. DAG 的数学与识别理论线：Pearl (2009), Spirtes et al. (2000), Hernán & Robins (2020)。这一簇在做什么：确立 DAG 作为因果识别的形式化工具（d-分离、do-算子、可识别性判定）。 2. 流行病学中的 DAG 实践线：Greenland et al. (2006), Hernán & Robins (2020)。这一簇在做什么：将图语言翻译为流行病学家可用的混杂判定与协变量选择指南，强调透明性与偏倚结构。 3. DAG 作为动态/共享知识库线：Ferguson et al. (2020), NASA Human Research Program 实践。这一簇在做什么：在具体应用中尝试跨研究整合、版本修正与证据标注，但尚未形成通用规范或软件生态。

这个方向在追问的核心问题： 1. 知识累积问题：如何防止每项流行病学研究从零开始画 DAG，而是能在前人 DAG 上增删节点与边？ 2. 证据标注问题：DAG 中的边（因果假设）如何与现有实证证据等级（如 RCT、观察性研究、专家意见）绑定，并随新证据动态更新？ 3. 协作与共享问题：缺乏共享 DAG 的社区标准与平台，导致同一疾病领域的不同研究团队画出的 DAG 常常互相矛盾且无法比对。当前主流方法仍是“单次研究、静态 DAG、随论文丢弃”；已知瓶颈是缺乏社区级标注规范、版本控制协议与中心化存储库。

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 为：DAG 目前被当作“study-specific and then discarded”的消耗品，而其潜力应是“epistemic infrastructure that supports cumulative science”。这让“呼吁建立活 DAG 基础设施”成为他眼中的显然下一步。 - 被淡化或回避的竞争路线：作者完全没有讨论自动因果发现算法（如 PC 算法、FCI、或基于高维回归的因果结构学习）。这些路线试图用数据驱动方式从样本中恢复 DAG，与作者主张的“专家画图 + 证据标注 + 人工修正”存在张力——如果结构学习算法足够可靠，是否还需要人工维护活 DAG？这是作者未提及的明显缺口。 - 明显该被引却未出现的：因果发现领域的经典文献（Spirtes et al. 2000 虽被引但只谈其 d-分离贡献，未谈其因果发现算法部分）；近期关于 DAG 可信度与可测试性的工作（如 Dawid 2001 的贝叶斯网测试语义）；以及软件生态如 DAGitty 的持续开发文献——这些如果出现，将迫使作者回应“数据驱动的结构发现”与“专家驱动的活 DAG”如何分工。

张力：未见明显对立引用。作者引用的各工作在“DAG 有用”这一前提上一致，分歧仅在“用完即弃”还是“持续维护”。但如上所述，与未被引的因果发现路线之间存在隐性张力。

二、最核心、最简单的例子 / 数学问题¶

本文是立场文章而非定理证明型论文，因此不存在“最小内核定理”。但为了把作者主张的“活 DAG”与您熟悉的因果识别理论对接，这里用最小记号把DAG 从静态识别工具到动态知识库的语义升级讲清楚。

第一步：符号、模型、可观测数据交代

\(G = (V, E)\)：有向无环图，\(V\) 为节点集（代表变量），\(E\) 为边集（代表因果方向，\(X \to Y\) 表示 \(X\) 直接因果影响 \(Y\)）。
\(\mathcal{I}(G)\)：由 \(G\) 通过 d-分离规则导出的条件独立蕴含集合。这是 DAG 的纯数学语义——只编码独立结构，不编码因果强度或证据等级。
\(X, Y, S\)：\(V\) 中的子集。\(X\) 通常为处理，\(Y\) 为结果，\(S\) 为协变量集。\(X \perp Y \mid S\) 在 \(G\) 中成立意味着 \(S\) 阻断了 \(X\) 到 \(Y\) 的所有路径。
可观测数据：\((X_i, Y_i, S_i)_{i=1}^n\)， iid 样本。研究者能观测到这些变量的联合分布 \(P_{\text{obs}}\)。
潜在/不可观测量：因果效应 estimand（如 \(\mathbb{E}[Y(x)]\) 或 \(\mathbb{E}[Y(x) - Y(x')]\)）无法直接从 \(P_{\text{obs}}\) 读取，必须依靠 DAG 的识别规则（如后门准则）判定 \(S\) 是否足以调整混杂，从而将 estimand 重写为 \(P_{\text{obs}}\) 上的可识别公式。
\(\text{Ev}(e)\)：本文新增的语义层——对边 \(e \in E\) 赋予的证据等级标注（如 RCT 支持、观察性研究支持、专家假设、无证据）。这是传统 DAG 数学定义中不存在的量，属于作者主张的“活”属性。

第二步：最小内核——从静态识别到活 DAG 的语义扩展

最简特例：二值处理与单一混杂子的后门识别

设 \(V = \{X, Y, Z\}\)，\(E = \{Z \to X, Z \to Y, X \to Y\}\)。这是最经典的混杂 DAG。 - 静态 DAG 做什么：通过 d-分离，\(X \not\perp Y\)（有混杂路径 \(X \leftarrow Z \to Y\)），但 \(X \perp Y \mid Z\)（调整 \(Z\) 阻断混杂）。由此判定 \(\mathbb{E}[Y(x)] = \mathbb{E}_Z[\mathbb{E}[Y \mid X=x, Z]]\) 可识别。DAG 的任务到此结束——它只回答“调整 \(Z\) 是否合法”，不回答“\(Z \to X\) 这条边是否有实证支持”或“如果新研究发现 \(W\) 也是混杂子，图该怎么改”。

活 DAG 做什么（作者主张）：
证据标注：对 \(Z \to X\) 标注 \(\text{Ev}(Z \to X) = \text{观察性研究，中等证据}\)；对 \(X \to Y\) 标注 \(\text{Ev}(X \to Y) = \text{RCT，强证据}\)。
版本修正：当新研究发现混杂子 \(W\) 时，将 \(V\) 扩展为 \(\{X, Y, Z, W\}\)，\(E\) 扩展加入 \(W \to X, W \to Y\)，并标注 \(\text{Ev}(W \to X) = \text{新研究，初步证据}\)。旧版本 \(G_{v1}\) 保留，新版本 \(G_{v2}\) 生成。
跨研究共享：不同团队在同一疾病领域（如脑瘫病因）的 DAG 可以比对节点与边集差异，聚焦争议假设而非各自重画。

核心数学问题（虽本文不证，但这是隐含的统计挑战）：当 DAG 从静态变为动态（\(G_t\) 随时间 \(t\) 修正），识别结论的稳健性如何量化？即：如果 \(G_t\) 与 \(G_{t+1}\) 在边集上相差一条边（如新增 \(W \to Y\)），因果 estimand 的识别公式是否改变？如果改变，估计量的差异有多大？这触及您熟悉的因果敏感性分析与部分识别理论，但本文未展开此数学。

三、这篇论文做了什么¶

三句话： ① 研究了流行病学中 DAG 的实践角色问题——为何 DAG 被当作一次性工具丢弃而非累积维护。 ② 核心工具是概念重构：将 DAG 从“分析工具”重新定义为“带证据标注、可版本修正、跨研究共享的认识论基础设施”。 ③ 主要结论是呼吁性主张：流行病学应采纳“活 DAG”实践，并以航天风险管理与脑瘫研究作为已存在的示范案例。

关键设定与假设：本文无形式化统计假设，但有几个隐含的概念前提： 1. DAG 可编码因果假设的完整性：假设专家可以画出覆盖关键变量的因果 DAG，且图的遗漏或错误可通过后续研究修正——这回避了高维场景下专家画图不可行的问题。 2. 证据等级可标注且有意义：假设对每条边赋予 RCT / 观察性 / 专家意见等等级是可行且有科学价值的——这回避了“同一边被不同等级的研究支持且结论矛盾时如何标注”的问题。 3. 社区共享可行：假设研究者愿意公开 DAG 并接受他人修正——这回避了学术激励结构（优先发表结论而非共享中间图）的阻碍。相比已有文献，本文未在数学设定上放宽或强化任何东西；它做的是语义层的扩展（从 \(\mathcal{I}(G)\) 到 \(\text{Ev}(E)\) 与版本序列 \(G_{v1}, G_{v2}, \dots\)）。

主要结果：本文无定理。核心主张可拆为三个量化/结构化结论： 1. DAG 的丢弃是知识浪费：当前多数流行病学研究在协变量选择与 estimand 识别完成后丢弃 DAG，导致后续研究无法在前人因果假设上迭代，必须从零重画（作者引用 Ferguson et al. 2020 的脑瘫共识 DAG 过程作为反例，展示跨研究整合的可行性与耗时节省）。 2. 活 DAG 的三要素：Living DAG = 共享 + 证据标注 + 版本修正。作者用 NASA 航天风险管理中的连续 DAG 更新流程（引用 NASA Human Research Program 文档）展示：工程领域已将 DAG 作为风险追踪的动态工具，每条边带有证据等级与不确定性评估，随新任务数据修正。 3. 从分析工具到问题设计框架：作者主张 DAG 不应只在数据分析阶段介入，而应在研究设计阶段就用于明确因果问题、划定可识别 estimand、预设需要测量的协变量集——这与 Hernán & Robins (2020) 的“target trial”框架呼应，但作者进一步要求 DAG 本身也应是跨研究累积的。

证明路线与技术技巧：本文为立场文章，无证明路线。但可以拆解其论证结构： 1. 现状诊断：列举当前 DAG 实践的三个局限（静态、单次、丢弃），引用 Greenland et al. (2006) 与 Hernán & Robins (2020) 确认 DAG 已普及但仅限于分析阶段。 2. 类比借力：引入航天风险管理中的“连续风险追踪 DAG”作为类比，证明“活 DAG”在工程领域已可行——这是论证的关键跳跃点，用跨领域类比替代了逻辑必然性。 3. 实证示范：引用 Ferguson et al. (2020) 脑瘫共识 DAG 过程，展示流行病学内部已有类似实践，但属零星特例而非规范。 4. 呼吁收尾：提出三步行动（共享、标注、修正），未给出具体协议或软件规范。

真实例子与应用： 1. 航天风险管理（NASA Human Research Program）： - 场景：评估太空飞行对宇航员健康的风险（如辐射致癌、视觉退化）。 - 怎么用活 DAG：NASA 维护一组跨健康结局的因果 DAG，每条边标注证据等级（如“动物模型数据”、“短期飞行数据”、“专家推断”），并随新任务数据修正边与节点。DAG 用于识别需要监测的中间变量与可干预节点。 - 结果：形成了一个跨数十个健康结局的互连 DAG 网络，支持风险量化与干预优先级排序。 - 想说明什么：活 DAG 在工程级严谨场景中已运行，证明其可行性与实用价值。

脑瘫病因共识 DAG（Ferguson et al. 2020）：
场景：脑瘫的多因素病因研究，涉及产前、产时、产后多条因果路径。
怎么用活 DAG：多研究团队通过 Delphi 过程协商共识 DAG，合并不同团队提出的节点与边，标注争议假设，形成共享版本。
结果：产出了跨团队共识的脑瘫因果 DAG，后续研究可在其上增删而非重画。
想说明什么：流行病学内部已有活 DAG 的先例，但需制度化推广。

🔎 结论是否比证明窄：本文的主张（“DAG 应成为活基础设施”）远强于其论证支撑。论证仅靠两个特例（航天、脑瘫）的可行性展示，未回应以下关键反例： - 高维场景下专家画图不可行（如基因组学中数千变量）； - 同一领域不同团队 DAG 矛盾时如何强制合并； - 证据标注在矛盾证据下的冲突解决规则。作者在文中未将这些反例作为 limitation 明确承认，仅在呼吁层面推进——读者需自行判断这些缺口是否致命。

四、开放问题（点到为止，扎根具体语句）¶

活 DAG 的形式化协议与版本控制规范：作者呼吁“共享、修正、复用”但未给出具体协议（如节点/边的命名标准、版本差异的数学表示、证据等级的分级定义）。扎根点：Abstract 中“annotated with levels of evidence, revised over time”仅有定性描述，无规范。
高维/复杂系统的专家画图可行性边界：作者未讨论当变量数超过专家认知负荷时，活 DAG 如何构建或是否仍适用。扎根点：全文仅以脑瘫（约 20-30 个节点）与航天健康结局为例，未触及高维场景。
活 DAG 与因果发现算法的分工：作者完全回避了数据驱动的因果结构学习（PC/FCI 算法）在活 DAG 中的角色——是作为初始图的生成器，还是作为修正阶段的验证工具？扎根点：引用列表中 Spirtes et al. (2000) 仅被定位为 d-分离工具，其因果发现部分未被提及。
DAG 修正对识别结论与估计量的敏感性：当活 DAG 新增/删除一条边时，因果 estimand 的识别公式可能改变；如何量化这种改变对最终估计的影响？扎根点：作者未提及敏感性分析，而这是您武器库中可直接切入的口子。

提醒：要确认上述缺口是否为真 gap，建议检索近期 5 篇流行病学因果推断方法论文的 intro——如果都指向“缺乏 DAG 共享规范”则为共识缺口；如果互相打架（有人主张数据驱动结构学习、有人主张专家画图）则为机会缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub

Living DAGs: the future of DAGs in epidemiology¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论