跳转至

On statistical and causal models associated with acyclic directed mixed graphs

讲者: Qingyuan Zhao
讨论人: Thomas Richardson
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-14
主题: 因果推断
视频: https://youtu.be/cjYEionaRGQ · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2501.03048 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告讨论的是有环无向混合图(ADMG)的基础理论问题:对于一个给定的ADMG,它所对应的“标准”统计模型与因果模型到底是什么?

  • 子方向:这是关于图形因果模型的基础与语义的研究,核心在于回答“一个图形编码了什么假设”。对于DAG,这个答案很清晰(因子分解 ⇔ 全局马尔可夫 ⇔ 非参数结构方程);但对于ADMG,由于同时包含有向边(表示因果)和双向边(表示未观测混杂),其含义一直存在歧义。Zhao 的工作试图给出一个默认的、数学上自然的解释
  • 奠基与主流路线
    • 奠基:Sewall Wright 一个世纪前在遗传学中提出路径图;Pearl 与 Verma (1990s) 的“潜在投影”概念将ADMG视为带有隐变量的DAG的边际化结果。
    • 主流路线Richardson et al. (2023, Annals of Statistics) 提出了嵌套马尔可夫模型作为ADMG的统计模型,利用“fixing”操作刻画了观测变量上更精细的条件独立性约束,已构成该领域的标准模型。
    • 理论补充Robin Evans (2018, JMLR) 证明了嵌套马尔可夫模型在离散情形下是“完备的”,即它捕捉了所有由隐变量DAG推出的等式约束。但该模型不包含不等式约束(如IV不等式),且其解释与“潜在DAG”紧密相关。
  • 这场报告站在哪
    • 报告不满足于将ADMG视为“未指定的隐变量DAG”,而是询问“ADMG本身作为一个基础图示,应如何定义统计与因果模型”。
    • 它系统调查了文献中出现的10种不同的ADMG解释,发现它们在一般ADMG上不等价(等价性论证失败),但在“unconfounded ADMGs”子类中等价。
    • 核心贡献是提出了一种新的“噪声展开(NE)”模型作为默认解释,并用“完备性”概念论证该模型的“自然性”:NE模型是“unconfounded ADMGs”模型通过“潜在变量展开”完成到一般ADMG的唯一结果之一(与clique expansion和UM并列),且它同时尊重有向边(因果)和双向边(关联)。
    • 论文还给出了一个基于因果模型的简洁证明,证明NE/方程模型蕴含嵌套马尔可夫模型。

二、最小内核 / 一个最简例子

核心思想:一个ADMG上的双向边不应被自动解释为“一个未观测的公共原因”,而应被解释为两个变量对应的“基础潜在结果”或“噪声”之间的边际独立关系。这通过噪声展开图(Noise Expansion) 实现。

符号与模型(最简): - 可观测数据\(V = \{Z, X, Y\}\),对应我们看到的变量(\(X\), \(Y\) 的取值)。 - 图形\(G\) 是一个ADMG。 - 一个最简ADMG(工具变量图形)\(Z \rightarrow X \leftrightarrow Y\) 这里 \(Z \rightarrow X\) 表示 \(Z\)\(X\) 有因果关系;\(X \leftrightarrow Y\) 表示 \(X\)\(Y\) 有未观测混杂因素。 - 待估量(Estimand)\(X\)\(Y\) 的因果效应,即 \(P(Y(x))\),或 \(E[Y(x)]\)。 - 噪声展开模型(NE)的操作: - 将ADMG中的每个双向边 \(X \leftrightarrow Y\) 分解为:\(X \leftarrow E_X \cdots E_Y \rightarrow Y\)。 - 这个新图是一个DAG,其中 \(E_X, E_Y\)潜在变量(取值可以视为“基础潜在结果”或“噪声”)。 - 关键假设: 1. \(X = f_X(Z, E_X)\), \(Y = f_Y(X, E_Y)\) (结构方程,只使用有向边)。 2. 噪声变量 \(E_X\)\(E_Y\) 边际独立(因为原图中 \(X \leftrightarrow Y\) 被解释为 \(E_X\)\(E_Y\) 无共同原因,它们独立)。这个独立性由原ADMG的双向边图(只保留 \(\leftrightarrow\) 边)决定:\(E_X \perp\!\!\!\perp E_Y\)

核心观点: - 消除了神秘的“隐变量公共原因”:传统DAG解释需要引入一个单独的、隐藏的混杂变量 \(U\)(如 \(Z \rightarrow X \leftarrow U \rightarrow Y\)),\(U\) 必须与 \(Z\)\(X, Y\) 都有关系。这隐含了诸多不切实际的哲学假设。 - NE模型将“关联”解释为“独立性假设”\(X\)\(Y\) 之间的关联不是因为隐含的公共原因 \(U\),而是因为它们的噪声分量 \(E_X\)\(E_Y\) 是不相关的,但通过因果结构 \(X = f_X(Z, E_X)\)\(Y = f_Y(X, E_Y)\) 产生关联。 - 完备性:考虑一个一般的ADMG,其NE模型是所有“可被一对多展开为unconfounded ADMG”的分布的并集。这意味着,如果你能找到任何一个隐变量DAG(或unconfounded ADMG)通过边际化得到该ADMG,那么该分布就属于NE模型的闭包。这保证了模型不承诺任何一个特定的隐变量结构。

一个核心定理的理解(基于报告): 对于unconfounded ADMGs(即双向边只出现在没有入度(父节点)的“外生”变量上),NE模型等价于嵌套马尔可夫模型、全局马尔可夫模型和非参数方程模型。而当将此定义通过“完成(Completion)”延伸到一般ADMG时,只有NE模型(以及等价的方程模型和Clique expansion模型)在数学上保持“完备”(即所有由unconfounded ADMGs通过噪声展开得到的一般ADMG模型,其统计模型恰好等于NE模型本身)。其他模型(如Pairwise expansion、Global Markov)则不具备此性质。

三、报告主体:讲者讲了什么

[0:00:59 - 0:01:13] 引言与核心问题 - 开场介绍报告基于新的工作论文(arXiv:2501.03048)。 - 明确指出报告目标是澄清和扩展 Richardson et al. (2023) 关于嵌套马尔可夫模型的工作。 - 核心问题:ADMG的统计模型和因果模型到底是什么?这是一个“棘手”的关于数学定义是否“好”的问题。

[0:01:30 - 0:05:57] 背景与方法论 - ADMG的直观含义:回顾ADMG的定义和历史,强调其重要性。 - 研究问题策略:提出判断一个数学定义“好”的两种通用论证: 1. 等价性论证(Equivalence):许多看似不同的定义,若彼此等价,则它们可能描述了一个自然的概念(如自然数、矩阵的多重定义、Hammersley-Clifford定理)。 2. 完备性论证(Completion):对于一个较小类的对象,自然定义的“完成”(如从有理数到实数的度量完成)推广到更一般的类,并发现这个完成是唯一的自然选择。 - 报告大纲:基于这两个论证来探索ADMG的模型。

[0:06:16 - 0:08:18] 调查各种ADMG模型 - 介绍的模型:全局马尔可夫(GM)、无条件马尔可夫(UM)、三种图展开(PE、CE、NE)、非参数方程(E)、嵌套马尔可夫(NM)。 - 关键发现(定理1.1): - 对于一般ADMG,这些模型基本都不等价。幻灯片中展示了一个复杂的包含关系图,其中大多数都是真包含(真子集)关系,而不是等价。 - 这意味着“等价性论证”失败——没有一组看似不同的定义在一般ADMG上能统一成一个“自然”的模型。 - 讲者将模型分为两类:生成型(top half,描述数据如何生成)和约束型(bottom half,描述分布满足的独立性约束)。

[0:19:59 - 0:20:57] 等价性论证在子类中成功 - 对于DAG双向图这两个特殊子类,大部分模型(除UM外)是等价的。这解释了为什么DAG的模型是“唯一”的。

[0:20:59 - 0:23:47] 引入“完备性”概念 - 动机:既然等价性论证不成立,我们需要一个新的标准。提出“完备性(Completeness)”。 - 定义:一个ADMG模型是“完备的”,如果该模型能包含该ADMG的所有可能的“潜在变量展开”。 - 具体来说,你有一个子类图 \(G_0\)(如DAGs, unconfounded graphs)。对于一个一般的ADMG \(G\),它的“完备”模型应该等于所有 \(G\) 能展开成的 \(G_0\) 类图的边际分布(通过潜在变量)的并集。 - 目的:确保模型不任意承诺单一的、具体的潜在结构,而是保留所有可能的解释。这体现了“完成”论证。

[0:24:59 - 0:27:47] “Unconfounded ADMGs”与定理2 - 候选子类 \(G_0\)Unconfounded ADMGs。这类图约束双向边只出现在没有有向边指向它们的“外生”节点上。它们的行为类似DAGs和双向图的结合。 - 关键结果(定理2): - 在上述定义的“完备性”度量下,只有Clique Expansion (CE)、Noise Expansion / Nonparametric Equations (NE/E)、Unconditional Markov (UM) 模型是完备的。 - 图示结果:对于一般ADMG(左图),等价关系混乱。对于Unconfounded ADMGs(右图),NE/E、NM、GM等一大类模型都等价于其在该子类上的模型。而NE/E模型在“做完成”后,恰好得到一般ADMG上的NE/E模型。讲者认为NE/E是“恰到好处”的模型,因为它对两种边给予了“平等地位”。

[0:29:56 - 0:32:22] 因果模型的定义 - 问题:如果 \(E/NE\) 是正确的统计模型,对应的因果模型是什么? - 定义“因果马尔可夫模型”:一个因果模型是一组关于潜在结果计划(Potential Outcome Schedule) 的分布。 - 两个条件: 1. 一致性(Consistency):潜在结果满足标准的一致性规则。这只使用有向边。 2. 基础潜在结果的马尔可夫性质:每个变量的基础潜在结果(可以视为噪声 \(E_j\) 的另一种说法)在双向边子图上是马尔可夫的(即:基础潜在结果之间的独立性由双向边决定)。这只使用双向边

[0:30:57 - 0:31:47] 因果模型的性质 - 与SWIG的联系:该模型具有很强的性质,如扩展一致性(Extended Consistency)和马尔可夫性质(Proposition 1 and 2),与Single World Intervention Graphs(SWIG)的理论有密切联系。 - 直觉:噪声展开将因果(有向边)和关联(双向边)彻底解耦。潜在结果 \(V_j(\cdot)\) 自身是基础噪声,它们之间的独立性由双向边决定;而因果关系则由有向边的结构方程决定。

[0:36:19 - 0:43:33] 嵌套马尔可夫模型与证明 - 定义:冗余性、引入fixing操作,并基于Richardson et al.的定义,刻画分布经过fixing后应满足的图形条件。 - 关键命题(Proposition 3):Fixability 是一个关于图的状语从句条件,它等同于某种无混杂性,并直接关联于 “通过fixing操作可以得到因果识别结果”。 - 简单的证明(E/NE ⇒ NM): - 将一个满足NE模型的观测分布 \(P_V\) 视为潜在结果计划下边际分布。 - 对于图中的一个fixable顶点,利用Proposition 3,其fixing得到的分布恰好对应固定该顶点后的潜在结果计划下的边际分布。 - 再结合Proposition 2,该边际分布必定是全局马尔可夫的。 - 反复应用,证明了NE模型蕴含嵌套马尔可夫模型。证明非常简洁(三行)。

[0:43:37 - 0:44:57] 总结与讨论 - 核心信息:使用ADMGs模型(而不是DAGs with latents)。将DAG视为ADMGs的特例。 - 三条理由: - 哲学上:没有神秘的最初的潜在的混杂因素,路径是清晰的。 - 数学上:NE/E模型在等价性和完备性论证下被证明是自然的默认模型。 - 实践上:鼓励研究者直接思考缺失的边,因为正是缺失的边驱动因果识别。例如,无混杂(missing \(\leftrightarrow\))、工具变量、近端推断(missing \(\rightarrow\))都聚焦于缺失的边。这比想象一个隐含的、无所不知的潜在DAG更直接。

[0:47:50 - 1:13:17] 讨论与问答(重点) - Thomas Richardson 的讨论(作为该方向的权威): - 赞同:强调“缺失边”的重要性,喜欢只使用单世界独立性的因果模型表述。认为论文揭示了不同“半马尔可夫”模型的模糊性。 - 批评1:论文中定义的嵌套马尔可夫模型与原始定义(Richardson et al. 2023)有出入。原始定义要求fixing后保留被fix的节点在图中,而Zhao的版本移除了它,这导致丢失了重要的条件独立性(Verma约束)和因果解释。讲者已经意识到并承认这一差异。(字幕可能有误,待对照Richardson et al.的讨论与论文原文核实)。 - 批评2噪声展开模型(NE) 对应的分布集合严格大于任何由隐变量DAGs投影到该ADMG所产生的分布。这意味着存在“奇异”的分布,它们满足NE模型,但无法被任何隐变量DAG解释(定理陈述:NE模型是完备的,所以它的闭包包含了所有可能性,但它本身可能是更大的)。 - 实用性质疑:虽然NE模型引入了比嵌套模型更多的不等式约束(例如,它蕴含Pearl的IV不等式),但很难表征这些约束,因此难以参数化、拟合或进行等价性检验。相比之下,嵌套模型虽弱(不包含不等式约束),但在离散变量上可完全参数化和拟合。 - 哲学终结:用“刺猬与狐狸”的比喻,认为“寻找单一、完美的ADMG模型”可能是一个刺猬式的追求,而实际中需要利用多种模型(“狐狸”方式)。即使Hammersley-Clifford定理本身,在实际中也需要扩展对数线性模型等变体,说明单一解释不总是足够。 - Clark Glymour 的提问:对Zhao提出的哲学理由提出反对,认为科学实践中,提出未知的潜在机制(如原子的存在、暗物质)是推动科学进步的关键,而不仅仅是思考缺失边。Zhao回应:即使偏好噪声扩展模型,它也不是唯一完备的;clique expansion模型同样完备,而这正好对应于潜变量模型;选择重点在于是否对不同类型的边(有向与双向)一视同仁。

四、对应论文与开放问题

(a) 对应论文 - 核心论文: - arXiv:2501.03048 (Zhao, 2025, 工作论文,标题与报告一致,是这场报告的主要依据)。 - Richardson, T. S., Evans, R. J., Robins, J. M., & Shpitser, I. (2023). Nested Markov properties for acyclic directed mixed graphs. The Annals of Statistics, 51(1), 334–361. (这篇是Zhao的论文要“澄清和扩展”的奠基性工作)。

(b) 开放问题(每条源自转写)

  1. 嵌套马尔可夫模型的精确定义:Thomas Richardson指出Zhao论文中对嵌套马尔可夫模型的定义(fixing后移除节点)与原始定义不一致,导致丢失了Verma约束等关键性质。[1:00:00] 这一开放问题要求研究者回到原始定义,并在自己的工作中厘清fixing操作的完整含义(保留还是移除被fix节点),以及该差异对因果识别(Proposition 3)和Verma约束的影响。

  2. 噪声展开模型的实用化挑战:Thomas Richardson提出,NE模型虽然蕴含诸如Pearl IV不等式之类的约束,但在一般状态空间下表征这些不等式约束非常困难,这阻碍了模型的参数化、拟合和等价性判定。[1:02:50] 这是一个待解决的开放问题:能否发展出一套实用的框架(类似于嵌套Markov模型在离散变量上的处理)来拟合和比较基于NE/等式的ADMG模型?特别地,是否能与Higher-Order Influence Functions (HOIF)半参数效率理论结合,推导出在NE模型下估计因果效应的有效估计子和效率界?

  3. 噪声展开模型与隐变量DAG解释的关系:Thomas的批评2指出NE模型生成的概率集严格大于所有“与该ADMG兼容的隐变量DAG”的概率集。[1:01:40] 这个差异的重要意义是什么?是否存在理论上的理由认为这些“无法用隐变量DAG解释”的分布不现实,反而是不平等或非因果的?或者这些分布对应于更复杂的、非标准的因果机制?

  4. “缺失边”驱动的因果识别方法论:报告的核心主张是关注缺失边。但这一哲学思想如何具体转化为更优的统计方法?[0:46:10] 例如,在近端因果推断中,缺失的有向边是识别条件,但现有方法常构建复杂的中介/代理变量。如何将Zhao的“ADMG原生模型”与近端推断、工具变量方法更紧密地融合,并利用其简洁的结构推导出新的、更简单的识别公式或检验条件

  5. 高阶U-统计量与高维ADMG模型?:报告未涉及。研究者可以用他擅长的高阶U-统计量图论计算复杂性来研究ADMG。例如,能否利用U-统计量的结构(如einsum/tensor-network复杂度)来刻画嵌套马尔可夫模型中fixing操作的计算成本,或在高维ADMG下推导出因果效应估计的计算-统计权衡(即,是否存在一个阈值,低于该阈值ph假设识别可行但计算上NP-hard,而高于该阈值可通过低次多项式方法有效估计)?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论