On statistical and causal models associated with acyclic directed mixed graphs¶

讲者: Qingyuan Zhao
讨论人: Thomas Richardson
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-14
主题: 因果推断
视频: https://youtu.be/cjYEionaRGQ · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2501.03048 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告讨论的是有环无向混合图（ADMG）的基础理论问题：对于一个给定的ADMG，它所对应的“标准”统计模型与因果模型到底是什么？

子方向：这是关于图形因果模型的基础与语义的研究，核心在于回答“一个图形编码了什么假设”。对于DAG，这个答案很清晰（因子分解 ⇔ 全局马尔可夫 ⇔ 非参数结构方程）；但对于ADMG，由于同时包含有向边（表示因果）和双向边（表示未观测混杂），其含义一直存在歧义。Zhao 的工作试图给出一个默认的、数学上自然的解释。
奠基与主流路线：
- 奠基：Sewall Wright 一个世纪前在遗传学中提出路径图；Pearl 与 Verma (1990s) 的“潜在投影”概念将ADMG视为带有隐变量的DAG的边际化结果。
- 主流路线：Richardson et al. (2023, Annals of Statistics) 提出了嵌套马尔可夫模型作为ADMG的统计模型，利用“fixing”操作刻画了观测变量上更精细的条件独立性约束，已构成该领域的标准模型。
- 理论补充：Robin Evans (2018, JMLR) 证明了嵌套马尔可夫模型在离散情形下是“完备的”，即它捕捉了所有由隐变量DAG推出的等式约束。但该模型不包含不等式约束（如IV不等式），且其解释与“潜在DAG”紧密相关。
这场报告站在哪：
- 报告不满足于将ADMG视为“未指定的隐变量DAG”，而是询问“ADMG本身作为一个基础图示，应如何定义统计与因果模型”。
- 它系统调查了文献中出现的10种不同的ADMG解释，发现它们在一般ADMG上不等价（等价性论证失败），但在“unconfounded ADMGs”子类中等价。
- 核心贡献是提出了一种新的“噪声展开（NE）”模型作为默认解释，并用“完备性”概念论证该模型的“自然性”：NE模型是“unconfounded ADMGs”模型通过“潜在变量展开”完成到一般ADMG的唯一结果之一（与clique expansion和UM并列），且它同时尊重有向边（因果）和双向边（关联）。
- 论文还给出了一个基于因果模型的简洁证明，证明NE/方程模型蕴含嵌套马尔可夫模型。

二、最小内核 / 一个最简例子¶

核心思想：一个ADMG上的双向边不应被自动解释为“一个未观测的公共原因”，而应被解释为两个变量对应的“基础潜在结果”或“噪声”之间的边际独立关系。这通过噪声展开图（Noise Expansion） 实现。

符号与模型（最简）： - 可观测数据：\(V = \{Z, X, Y\}\)，对应我们看到的变量（\(X\), \(Y\) 的取值）。 - 图形：\(G\) 是一个ADMG。 - 一个最简ADMG（工具变量图形）： \(Z \rightarrow X \leftrightarrow Y\) 这里 \(Z \rightarrow X\) 表示 \(Z\) 对 \(X\) 有因果关系；\(X \leftrightarrow Y\) 表示 \(X\) 和 \(Y\) 有未观测混杂因素。 - 待估量（Estimand）：\(X\) 对 \(Y\) 的因果效应，即 \(P(Y(x))\)，或 \(E[Y(x)]\)。 - 噪声展开模型（NE）的操作： - 将ADMG中的每个双向边 \(X \leftrightarrow Y\) 分解为：\(X \leftarrow E_X \cdots E_Y \rightarrow Y\)。 - 这个新图是一个DAG，其中 \(E_X, E_Y\) 是潜在变量（取值可以视为“基础潜在结果”或“噪声”）。 - 关键假设： 1. \(X = f_X(Z, E_X)\), \(Y = f_Y(X, E_Y)\) （结构方程，只使用有向边）。 2. 噪声变量 \(E_X\) 和 \(E_Y\) 边际独立（因为原图中 \(X \leftrightarrow Y\) 被解释为 \(E_X\) 和 \(E_Y\) 无共同原因，它们独立）。这个独立性由原ADMG的双向边图（只保留 \(\leftrightarrow\) 边）决定：\(E_X \perp\!\!\!\perp E_Y\)。

核心观点： - 消除了神秘的“隐变量公共原因”：传统DAG解释需要引入一个单独的、隐藏的混杂变量 \(U\)（如 \(Z \rightarrow X \leftarrow U \rightarrow Y\)），\(U\) 必须与 \(Z\) 和 \(X, Y\) 都有关系。这隐含了诸多不切实际的哲学假设。 - NE模型将“关联”解释为“独立性假设”：\(X\) 和 \(Y\) 之间的关联不是因为隐含的公共原因 \(U\)，而是因为它们的噪声分量 \(E_X\) 和 \(E_Y\) 是不相关的，但通过因果结构 \(X = f_X(Z, E_X)\) 和 \(Y = f_Y(X, E_Y)\) 产生关联。 - 完备性：考虑一个一般的ADMG，其NE模型是所有“可被一对多展开为unconfounded ADMG”的分布的并集。这意味着，如果你能找到任何一个隐变量DAG（或unconfounded ADMG）通过边际化得到该ADMG，那么该分布就属于NE模型的闭包。这保证了模型不承诺任何一个特定的隐变量结构。

一个核心定理的理解（基于报告）：对于unconfounded ADMGs（即双向边只出现在没有入度（父节点）的“外生”变量上），NE模型等价于嵌套马尔可夫模型、全局马尔可夫模型和非参数方程模型。而当将此定义通过“完成（Completion）”延伸到一般ADMG时，只有NE模型（以及等价的方程模型和Clique expansion模型）在数学上保持“完备”（即所有由unconfounded ADMGs通过噪声展开得到的一般ADMG模型，其统计模型恰好等于NE模型本身）。其他模型（如Pairwise expansion、Global Markov）则不具备此性质。

三、报告主体：讲者讲了什么¶

[0:00:59 - 0:01:13] 引言与核心问题 - 开场介绍报告基于新的工作论文（arXiv:2501.03048）。 - 明确指出报告目标是澄清和扩展 Richardson et al. (2023) 关于嵌套马尔可夫模型的工作。 - 核心问题：ADMG的统计模型和因果模型到底是什么？这是一个“棘手”的关于数学定义是否“好”的问题。

[0:01:30 - 0:05:57] 背景与方法论 - ADMG的直观含义：回顾ADMG的定义和历史，强调其重要性。 - 研究问题策略：提出判断一个数学定义“好”的两种通用论证： 1. 等价性论证（Equivalence）：许多看似不同的定义，若彼此等价，则它们可能描述了一个自然的概念（如自然数、矩阵的多重定义、Hammersley-Clifford定理）。 2. 完备性论证（Completion）：对于一个较小类的对象，自然定义的“完成”（如从有理数到实数的度量完成）推广到更一般的类，并发现这个完成是唯一的自然选择。 - 报告大纲：基于这两个论证来探索ADMG的模型。

[0:06:16 - 0:08:18] 调查各种ADMG模型 - 介绍的模型：全局马尔可夫（GM）、无条件马尔可夫（UM）、三种图展开（PE、CE、NE）、非参数方程（E）、嵌套马尔可夫（NM）。 - 关键发现（定理1.1）： - 对于一般ADMG，这些模型基本都不等价。幻灯片中展示了一个复杂的包含关系图，其中大多数都是真包含（真子集）关系，而不是等价。 - 这意味着“等价性论证”失败——没有一组看似不同的定义在一般ADMG上能统一成一个“自然”的模型。 - 讲者将模型分为两类：生成型（top half，描述数据如何生成）和约束型（bottom half，描述分布满足的独立性约束）。

[0:19:59 - 0:20:57] 等价性论证在子类中成功 - 对于DAG和双向图这两个特殊子类，大部分模型（除UM外）是等价的。这解释了为什么DAG的模型是“唯一”的。

[0:20:59 - 0:23:47] 引入“完备性”概念 - 动机：既然等价性论证不成立，我们需要一个新的标准。提出“完备性（Completeness）”。 - 定义：一个ADMG模型是“完备的”，如果该模型能包含该ADMG的所有可能的“潜在变量展开”。 - 具体来说，你有一个子类图 \(G_0\)(如DAGs, unconfounded graphs)。对于一个一般的ADMG \(G\)，它的“完备”模型应该等于所有 \(G\) 能展开成的 \(G_0\) 类图的边际分布（通过潜在变量）的并集。 - 目的：确保模型不任意承诺单一的、具体的潜在结构，而是保留所有可能的解释。这体现了“完成”论证。

[0:24:59 - 0:27:47] “Unconfounded ADMGs”与定理2 - 候选子类 \(G_0\)：Unconfounded ADMGs。这类图约束双向边只出现在没有有向边指向它们的“外生”节点上。它们的行为类似DAGs和双向图的结合。 - 关键结果（定理2）： - 在上述定义的“完备性”度量下，只有Clique Expansion (CE)、Noise Expansion / Nonparametric Equations (NE/E)、Unconditional Markov (UM) 模型是完备的。 - 图示结果：对于一般ADMG（左图），等价关系混乱。对于Unconfounded ADMGs（右图），NE/E、NM、GM等一大类模型都等价于其在该子类上的模型。而NE/E模型在“做完成”后，恰好得到一般ADMG上的NE/E模型。讲者认为NE/E是“恰到好处”的模型，因为它对两种边给予了“平等地位”。

[0:29:56 - 0:32:22] 因果模型的定义 - 问题：如果 \(E/NE\) 是正确的统计模型，对应的因果模型是什么？ - 定义“因果马尔可夫模型”：一个因果模型是一组关于潜在结果计划（Potential Outcome Schedule） 的分布。 - 两个条件： 1. 一致性（Consistency）：潜在结果满足标准的一致性规则。这只使用有向边。 2. 基础潜在结果的马尔可夫性质：每个变量的基础潜在结果（可以视为噪声 \(E_j\) 的另一种说法）在双向边子图上是马尔可夫的（即：基础潜在结果之间的独立性由双向边决定）。这只使用双向边。

[0:30:57 - 0:31:47] 因果模型的性质 - 与SWIG的联系：该模型具有很强的性质，如扩展一致性（Extended Consistency）和马尔可夫性质（Proposition 1 and 2），与Single World Intervention Graphs（SWIG）的理论有密切联系。 - 直觉：噪声展开将因果（有向边）和关联（双向边）彻底解耦。潜在结果 \(V_j(\cdot)\) 自身是基础噪声，它们之间的独立性由双向边决定；而因果关系则由有向边的结构方程决定。

[0:36:19 - 0:43:33] 嵌套马尔可夫模型与证明 - 定义：冗余性、引入fixing操作，并基于Richardson et al.的定义，刻画分布经过fixing后应满足的图形条件。 - 关键命题（Proposition 3）：Fixability 是一个关于图的状语从句条件，它等同于某种无混杂性，并直接关联于 “通过fixing操作可以得到因果识别结果”。 - 简单的证明（E/NE ⇒ NM）： - 将一个满足NE模型的观测分布 \(P_V\) 视为潜在结果计划下边际分布。 - 对于图中的一个fixable顶点，利用Proposition 3，其fixing得到的分布恰好对应固定该顶点后的潜在结果计划下的边际分布。 - 再结合Proposition 2，该边际分布必定是全局马尔可夫的。 - 反复应用，证明了NE模型蕴含嵌套马尔可夫模型。证明非常简洁（三行）。

[0:43:37 - 0:44:57] 总结与讨论 - 核心信息：使用ADMGs模型（而不是DAGs with latents）。将DAG视为ADMGs的特例。 - 三条理由： - 哲学上：没有神秘的最初的潜在的混杂因素，路径是清晰的。 - 数学上：NE/E模型在等价性和完备性论证下被证明是自然的默认模型。 - 实践上：鼓励研究者直接思考缺失的边，因为正是缺失的边驱动因果识别。例如，无混杂（missing \(\leftrightarrow\)）、工具变量、近端推断（missing \(\rightarrow\)）都聚焦于缺失的边。这比想象一个隐含的、无所不知的潜在DAG更直接。

[0:47:50 - 1:13:17] 讨论与问答（重点） - Thomas Richardson 的讨论（作为该方向的权威）： - 赞同：强调“缺失边”的重要性，喜欢只使用单世界独立性的因果模型表述。认为论文揭示了不同“半马尔可夫”模型的模糊性。 - 批评1：论文中定义的嵌套马尔可夫模型与原始定义（Richardson et al. 2023）有出入。原始定义要求fixing后保留被fix的节点在图中，而Zhao的版本移除了它，这导致丢失了重要的条件独立性（Verma约束）和因果解释。讲者已经意识到并承认这一差异。(字幕可能有误，待对照Richardson et al.的讨论与论文原文核实)。 - 批评2：噪声展开模型（NE） 对应的分布集合严格大于任何由隐变量DAGs投影到该ADMG所产生的分布。这意味着存在“奇异”的分布，它们满足NE模型，但无法被任何隐变量DAG解释（定理陈述：NE模型是完备的，所以它的闭包包含了所有可能性，但它本身可能是更大的）。 - 实用性质疑：虽然NE模型引入了比嵌套模型更多的不等式约束（例如，它蕴含Pearl的IV不等式），但很难表征这些约束，因此难以参数化、拟合或进行等价性检验。相比之下，嵌套模型虽弱（不包含不等式约束），但在离散变量上可完全参数化和拟合。 - 哲学终结：用“刺猬与狐狸”的比喻，认为“寻找单一、完美的ADMG模型”可能是一个刺猬式的追求，而实际中需要利用多种模型（“狐狸”方式）。即使Hammersley-Clifford定理本身，在实际中也需要扩展对数线性模型等变体，说明单一解释不总是足够。 - Clark Glymour 的提问：对Zhao提出的哲学理由提出反对，认为科学实践中，提出未知的潜在机制（如原子的存在、暗物质）是推动科学进步的关键，而不仅仅是思考缺失边。Zhao回应：即使偏好噪声扩展模型，它也不是唯一完备的；clique expansion模型同样完备，而这正好对应于潜变量模型；选择重点在于是否对不同类型的边（有向与双向）一视同仁。

四、对应论文与开放问题¶

(a) 对应论文 - 核心论文： - arXiv:2501.03048 (Zhao, 2025, 工作论文，标题与报告一致，是这场报告的主要依据)。 - Richardson, T. S., Evans, R. J., Robins, J. M., & Shpitser, I. (2023). Nested Markov properties for acyclic directed mixed graphs. The Annals of Statistics, 51(1), 334–361. (这篇是Zhao的论文要“澄清和扩展”的奠基性工作)。

(b) 开放问题（每条源自转写）

嵌套马尔可夫模型的精确定义：Thomas Richardson指出Zhao论文中对嵌套马尔可夫模型的定义（fixing后移除节点）与原始定义不一致，导致丢失了Verma约束等关键性质。[1:00:00] 这一开放问题要求研究者回到原始定义，并在自己的工作中厘清fixing操作的完整含义（保留还是移除被fix节点），以及该差异对因果识别（Proposition 3）和Verma约束的影响。
噪声展开模型的实用化挑战：Thomas Richardson提出，NE模型虽然蕴含诸如Pearl IV不等式之类的约束，但在一般状态空间下表征这些不等式约束非常困难，这阻碍了模型的参数化、拟合和等价性判定。[1:02:50] 这是一个待解决的开放问题：能否发展出一套实用的框架（类似于嵌套Markov模型在离散变量上的处理）来拟合和比较基于NE/等式的ADMG模型？特别地，是否能与Higher-Order Influence Functions (HOIF) 或半参数效率理论结合，推导出在NE模型下估计因果效应的有效估计子和效率界？
噪声展开模型与隐变量DAG解释的关系：Thomas的批评2指出NE模型生成的概率集严格大于所有“与该ADMG兼容的隐变量DAG”的概率集。[1:01:40] 这个差异的重要意义是什么？是否存在理论上的理由认为这些“无法用隐变量DAG解释”的分布不现实，反而是不平等或非因果的？或者这些分布对应于更复杂的、非标准的因果机制？
“缺失边”驱动的因果识别方法论：报告的核心主张是关注缺失边。但这一哲学思想如何具体转化为更优的统计方法？[0:46:10] 例如，在近端因果推断中，缺失的有向边是识别条件，但现有方法常构建复杂的中介/代理变量。如何将Zhao的“ADMG原生模型”与近端推断、工具变量方法更紧密地融合，并利用其简洁的结构推导出新的、更简单的识别公式或检验条件？
高阶U-统计量与高维ADMG模型？：报告未涉及。研究者可以用他擅长的高阶U-统计量和图论计算复杂性来研究ADMG。例如，能否利用U-统计量的结构（如einsum/tensor-network复杂度）来刻画嵌套马尔可夫模型中fixing操作的计算成本，或在高维ADMG下推导出因果效应估计的计算-统计权衡（即，是否存在一个阈值，低于该阈值ph假设识别可行但计算上NP-hard，而高于该阈值可通过低次多项式方法有效估计）？

Maintained by 陈星宇 · Homepage · Source on GitHub