Optimal transport and Wasserstein distances for causal models¶

作者: Patrick Cheridito, Stephan Eckstein
来源: Bernoulli
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文解决的根本问题是：如何（在结构性因果模型框架下）定义一种既能尊重因果图结构，又能作为两个不同因果模型之间“距离”的最优输运变体，并研究这一距离的度量性质及其在因果推断中的应用。其本质是将最优输运（Optimal Transport, OT）这一几何工具引入因果推断，使因果模型的比较、敏感性分析和鲁棒性检验有了一种基于概率分布“形变”代价的量化手段。这个方向目前处于“理论框架建立”阶段——本文是第一个系统性地将图结构嵌入最优输运问题，并给出统一刻画的尝试。

发展脉络¶

奠基工作：经典最优输运与因果推断的独立发展
- 最优输运（Monge-Kantorovich，18-20世纪）定义了通过最小化运输成本来比较两个概率分布的框架，Wasserstein距离是其核心度量。后续工作如[5] Peyré & Cuturi (2018) 和 [4] Cuturi (2013) 极大地推动了OT的计算可行性（Sinkhorn算法）。
- 结构性因果模型（SCM） 由Pearl (2009, [1]) 等人系统建立，用有向图描述变量间的因果生成机制。后期工作如[8] Peters et al. (2015) 提出了不变预测这一因果推断方法，[2] Pearl (2009) 等是SCM的奠基石。这两个方向在相当长一段时间内是平行发展的，本文试图建立它们之间的桥梁。
主要进展：最优输运的“适应化”和“结构感知”变体
- 为了处理时间序列/随机过程中的因果结构，一系列“适应/因果最优输运”变体被提出。例如，[21] Backhoff et al. (2016) 引入了离散时间的因果运输计划，并建立了其与Knothe-Rosenblatt重排的联系。[20] COT-GAN (2020) 将其用于生成序列数据的对抗训练。[2] Backhoff-Veraguas & Pammer (2019) 证明了鞅最优输运的稳定性。[25] Backhoff-Veraguas et al. (2019) 则统一了多种“适应拓扑”，证明了它们在有限离散时间下等价。
- 另一条线索是处理不同度量空间间的运输，如[23] Redko et al. (2020) 的CO-OT（联合最优运输）和Gromov-Wasserstein距离（[22]），它们试图对齐两个不同域中的样本和特征。
- 本文试图给出的统一视角是：以上所有变体（标准OT、因果OT、CO-OT/GW）都可以被看作是在特定图结构（完全图、线性图、空图）下的G-因果最优输运的特例。这一定位（作者原话：“Different graph structures lead to different specifications...”）是本文的核心claim。
当前前沿与本文位置
- 当前的前沿之一是探索“适应/因果运输”的更多应用，如风险管理 ([2, 3]) 和机器学习 ([20])。
- 另一个前沿是OT的统计理论，如[7] Fournier & Guillin (2013) 研究经验度量的Wasserstein距离收敛速率，[24] Ghosal & Sen (2019) 则用OT定义了多元秩和分位数。
- 本文的位置是：它跳出了单纯为某个应用场景（如金融、时序数据）设计约束的OT，而是从图论的结构出发，定义了一个一般的、参数化的最优输运框架，并首次在SCM语境下研究其性质。它并非对现有方法的渐进改进，而是一个概念性的重构。

子线索聚类¶

线索1：最优输运（OT）及其变体。 包括标准OT ([5])、多边际OT ([17])、不均衡OT ([14, 22])、加约束的OT ([9, 15]) 和正则化OT ([4])。这些工作主要关注OT本身的解的存在性、唯一性、度量性质和计算。
线索2：因果最优输运（COT）与适应运输。 包括[2, 21, 20, 25]等，它们聚焦于将“时序”或“因果”顺序作为约束条件加入OT问题。这一簇在数学金融（鞅最优运输）和生成模型（COT-GAN）中有直接应用。
线索3：结构性因果模型（SCM）的核心方向。 包括SCM的基础理论 ([1, 16])、因果效应的识别与估计 ([8, 19])、以及SCM与机器学习的结合 ([10, 13])。这一簇主要关注的是从观测数据学习因果结构，或是在已知结构下进行因果推理，而对“不同SCM之间的相似性/距离”这一度量问题关注甚少。

核心追问¶

这个方向在追问的核心问题是：① 如何定义一种尊重因果机制的、分布之间的“内在”距离？ ② 这个距离是否具有好的度量性质（如三角不等式）？③ 它能否作为因果推断中敏感性分析的定量工具（例如，ATE在多大程度上随SCM扰动而改变）？已知瓶颈在于：标准Wasserstein距离忽略了分布中的因果嵌套，而因果OT又往往局限于时序结构。

⚠️ 作者的framing（必须明确标注成“这是作者的说法”）¶

作者如何定义缺口：作者声称，尽管已有大量关于Wasserstein距离和因果OT的工作，但缺乏一个统一的、基于有向图（DAG）框架来“谱”一般地刻画所有最优输运变体的理论。作者将其框架（G-因果最优输运）定位为“填补这一空缺”，并“为因果模型之间的比较提供一种有理论依据的度量工具”。这个框架的核心创新点在于：将图G本身作为参数，不同的G（完全图、线性图、空图）对应不同的运输问题，这使得它可以“优雅地”囊括已有结果。
被淡化或回避的竞争路线：作者引用了CO-OT/GW距离 ([23]，即空图情形)，但并未深入比较G-因果距离与GW距离在捕捉“不同空间”分布关系上的优劣。作者也回避了计算复杂性问题（见第四节开放问题）——本文是纯理论论文，没有讨论给定一个任意复杂度的图G时，如何高效地求解G-因果运输问题。这是一个明显的、作者未处理的缺口。
什么明显该被引/该存在、却没出现？：本篇论文完全没有讨论任何基于模型进行比较的统计检验（例如，两个样本是否来自同一个SCM的假设检验问题）。也没有讨论高维情形下的收敛性（例如，当变量数量增加时，Wasserstein距离的估计率会如何变化）。这为读者（研究者）留下了探索空间。

张力¶

未见明显对立引用。所有被引工作大体上在各自的框架内自洽。唯一可能形成的张力在于：使用“适应/因果运输”作为学习方法（如COT-GAN）的生物，与使用“标准Wasserstein距离”进行分布鲁棒优化（如[6, 11]）的研究者之间，在“如何定义模型的鲁棒性”上存在隐性的优先级分歧——但本文作者没有正面处理。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- G = (V, E)：一个有向无环图（DAG），V是节点集（代表随机变量），E是有向边集。
- X = (X_1, ..., X_d)：定义在概率空间上的随机向量，与V中的节点对应。
- SCM (结构性因果模型)：一个由结构方程 X_j := f_j(pa_j, U_j) 定义的模型，其中pa_j是节点j在图G中的父节点集合，U_j是外生噪声，彼此独立。
- P 或 Q：由SCM诱导的观测分布（observational distribution），即X在某概率空间上的联合分布。这是可观测数据。
- π：运输计划（transport plan），是定义在乘积空间上的联合分布，其边际分布分别是P和Q。
- G-因果运输计划：本文核心概念，是一个满足特定因果约束的运输计划π。直观上说，它要求运输过程本身不能违反图G定义的变量之间的因果关系。
- c(x, y)：运输成本函数，通常取c(x,y) = ||x-y||^p，其中p≥1。
- W_c(P, Q)：标准Wasserstein距离，定义为 inf_{π 边际为P,Q} ∫ c(x,y) dπ(x,y) 开p次方根（或等价形式）。
- W_G(P, Q)：本文定义的G-因果Wasserstein距离。
- ATE (平均处理效应)：针对二值处理和连续结果的估计量。
模型： 数据生成机制是两个不同的、但共享同一个图结构G的SCM。设为 M_P 和 M_Q，它们产生了可观测分布 P 和 Q。P和Q都是d维随机向量的分布。要估的对象是两个因果模型之间的G-因果Wasserstein距离 W_G(P,Q)，以及研究其在因果推断（如ATE的连续性）中的应用。
可观测数据：我们实际能观测到的是从两个SCM中抽样的样本：
- 从 M_P 中得到n个观测 x^{(1)}, ..., x^{(n)}，每个是d维向量。
- 从 M_Q 中得到m个观测 y^{(1)}, ..., y^{(m)}。我们想要但观测不到的是：这些潜在SCM的结构方程或噪声分布。我们只能从它们的“输出”——分布P和Q的样本来推断。因果关系嵌入在联合分布P和Q中，而不仅仅是边际分布。

第二步：讲最小内核¶

最简特例：线性图（链条图），d=2

假设图G是一个最简单的线性结构：X_1 -> X_2（只有一个箭头从X_1指向X_2）。我们有两个SCM： - 模型 M_P：X_1 := U_1, X_2 := 2 * X_1 + U_2。其中 U_1 ~ N(0,1), U_2 ~ N(0,1)，相互独立。 - 模型 M_Q：Y_1 := V_1, Y_2 := 3 * Y_1 + V_2。其中 V_1 ~ N(0,1), V_2 ~ N(0,1)，相互独立。

我们要干的事：计算一个“运输计划” π，它把P（来自M_P的分布）的“质量”运到Q（来自M_Q的分布）。标准Wasserstein距离允许任何形式的联合分布π，只要它的边际是P和Q。例如，它可以随机地配对 X=(x1, x2) 和 Y=(y1, y2)，哪怕 x1 和 y1 的配对以及 x2 和 y2 的配对是相互独立的。

G-因果运输计划（本文核心创新）施加了一个额外约束：在运输过程中，变量之间必须尊重因果图的结构。对于线性图 X1 -> X2，这意味着： - 因果约束：运输计划π必须满足：给定Y1（被运到的第一个变量），X2（被运输的第一个变量）条件独立于Y2（第二个被运到的变量）。即 (X_1, Y_1) ⋔ (Y_2 | X_1, Y_1) 在运输计划π下成立。

这意味着什么？ 如果我们从一个(X1, X2)出发，我们首先决定它“变成”哪个(Y1, Y2)。这个决策过程必须分两步走： 首先，我们只看X1，并决定它会变成哪个Y1（这是第一步的运输）。然后，在知道了X1和Y1后，我们才决定X2会变成哪个Y2。这个第二步的决策不能看到Y1的“未来”（因为这里没有未来变量）或者可能反过来说X2不能“看”到Y1（因为X2是X1的后代）。更精确地，约束是：在给定过去的X1和Y1后，Y2的分布只依赖于X2，而不依赖于X2之外的任何东西。这强加了一个“马尔可夫”式的递进运输结构。

为什么这个例子能说明核心思路？ 这个特例恰恰对应[21]中关于离散时间随机过程的因果最优运输（COT）：如果时间点1是t1，时间点2是t2，Y2相当于“未来的”值，H0 X1相当于“过去的值”，那么这个约束就是说运输计划必须是适应的：每一步的运输决策只能基于迄今已知的信息（即已运输好的过去变量）。所以，G-因果最优输运就是图结构的“适应最优输运”。完全还原为：完全图（变量间无因果顺序）对应标准OT，线性图（时间顺序）对应COT。本文的一般设定就是把“时间顺序”这个概念推广到了“有向图偏序”。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

① 本文研究了如何定义一种尊重有向无环图（DAG）结构的最优输运问题，称为G-因果最优输运（G-causal optimal transport），并定义了与之对应的G-因果Wasserstein距离（G-causal Wasserstein distance）。 ② 核心工具是将图拓扑排序与运输计划的因果约束相结合，通过对偶理论（Kantorovich对偶的推广）和条件分布的马尔可夫性质来刻画G-因果运输计划。通过对图G做不同假设（完全图、线性图、空图），该框架可以统一标准Wasserstein距离、离散时间的因果最优运输以及CO-OT/Gromov-Wasserstein距离。 ③ 主要结论：G-因果Wasserstein距离是一种有效的度量（metric）；平均处理效应（ATE） 关于该距离是Lipschitz连续的；结构性因果模型（SCM）的参数在小的扰动下，其G-因果Wasserstein距离也有界；该距离还可用于定义因果模型之间的插值路径。

关键设定与假设¶

在第二节最小记号（d=2, 线性图）的基础上，补全完整设定： - 设定：对任意有向无环图（DAG）G，其顶点集V = {1, ..., d}，且有向边表示直接因果。一般拓扑排序是保证图无环的排序，它定义了变量间的偏序关系。本文的核心假设是图G是完整的，即已知其拓扑结构。 - G-因果运输计划：更精确地，作者定义了一个运输计划 π 是G-因果的，如果对于任何节点 j ∈ V，及其所有祖先（ancestors）An(j)，在将 X_{An(j)} 运送到 Y_{An(j)} 后，关于 Y_j 的条件分布与 Y_{V\An(j)}（未来的变量）无关。这是对马尔可夫适应性的推广。 - 假设：作者假设成本函数c是连续的（确保存在性和对偶性）。此外，研究ATE的Lipschitz连续性时，需要假设干预是逐渐进行的（即符合图序），并且处理效应是定义良好的。这些假设相较于已有的因果OT工作（如[21]）是自然的推广，没有额外强化；相较于标准OT，引入了图结构这一先验信息。

主要结果¶

结果1（定理2.9, 2.10）：G-因果运输计划的刻画 作者给出了G-因果运输计划的充要条件。一种是Kantorovich对偶形式，它是经典对偶的推广，其中对偶函数被限制为“G-适应的”函数（即只依赖于图祖先的变量）。另一种是递归/动态规划刻画：G-因果运输问题等价于沿着图的拓扑顺序，逐步解决一系列（单步的）条件最优运输问题，类似于Knothe-Rosenblatt重排。 - 直觉：这相当于说，要运输两个模型，你可以一层一层地（按照图的祖先顺序）进行，每一步只解决当前节点及其父节点之间的运输问题。 - 必要条件：图必须是DAG。 - 解决的技术难点：如何将复杂的全局运输约束（多变量依赖）分解为可操作的、递归的局部约束。

结果2（定理3.1, 3.8, 3.10）：G-因果Wasserstein距离的度量性质 作者证明： 1. 对于任何满足对称性和正定条件的成本函数c，G-因果Wasserstein距离定义了一个度量（满足三角不等式、非负性、对称性）。 2. 该距离拓扑化了分布类。 3. 具体界：G-因果Wasserstein距离与标准Wasserstein距离有确定的不等式关系（通常G-因果距离更大，因为它施加了更严格的约束）。例如，对于空图（对应CO-OT / GW），该距离通常显著大于标准Wasserstein距离，因为后者不要求对齐结构。

结果3（定理4.1, 4.2）：在因果推断中的应用——ATE的Lipschitz连续性 这是论文连接因果推断的核心结果。假设我们有两个SCM，M1和M2，它们对某个结果变量Y生成分布。考虑一个平均处理效应（ATE），即在某个干预do(X=a)下Y的期望值。 - 作者证明，对于某个观测分布变化的度量（例如，协变量分布的Wasserstein距离），ATE关于G-因果Wasserstein距离是Lipschitz连续的。 - 这意味着ATE的变化率被该距离的上界所控制。如果能控制模型间的G-因果Wasserstein距离，就能控制ATE的下界。 - 小扰动定理：作者进一步证明了，对SCM的结构方程和噪声分布做小的参数扰动，引起其在G-因果Wasserstein距离下的偏差也是小的（受限于扰动的幅度的界）。 - 意义：这为基于SCM的敏感性分析提供了一个严格的工具：如果想评估一个SCM拟合的好坏，或者一个处理效应估计对模型误设的稳健性，G-因果Wasserstein距离是一个敏感且合理的定量指标。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线（以G-因果运输计划的刻画为例）：
1. 定义：定义G-因果运输计划为满足特定马尔可夫适应性的联合分布π。
2. 第一步：对偶化：将关于π的原始问题（inf_{π G-因果} ∫ c dπ）通过对偶理论转化为关于函数（称为G-适应势）的sup问题。这是经典Kantorovich对偶的精华。
3. 第二步：递归：利用图G的拓扑排序，将G-适应势的集合分解为一类特殊函数。利用动态规划原理，证明求解最优的G-因果运输计划等价于沿着图序，逐节点求解一系列“条件”运输问题。
4. 第三步：充要条件：在成本函数连续等条件下，证明对偶问题的解存在，并利用对偶间隙消失，给出G-因果运输计划的充要条件。该条件可以显式表示为一系列条件分布方程。
关键跳跃点：
- 最吃功夫的引理（Lemma 2.7）：建立条件运输计划的等价形式，并证明在“全图”上施加的G-因果约束，等价于在“条件上”施加的逐点约束。这是将复杂问题简化为递归的关键。难点在于，要证明所有全局G-因果计划都能被表示为沿图序的Monge-Kantorovich型计划。
- 作者如何绕过难点：他们不是直接处理联合分布π，而是处理其条件分解（类似Chow-Liu树分解），并通过Knothe-Rosenblatt重排的思想，将问题分解为可处理的边际与条件运输问题。
技术技巧点名：
- Kantorovich对偶：贯穿全文，用于在没有显式写出运输计划的情况下分析最优运输问题。
- Knothe-Rosenblatt重排：一种基于单调分位数映射的运输映射，其“因果性”使得它成为G-因果运输问题的一个关键例子（正如[21]所指出）。
- KL散度（Kullback-Leibler divergence）/Pinsker不等式：在某些灵敏度估计中，用于建立Wasserstein距离与KL散度之间的关系（如论文中可能隐式地用到）。
- 对偶函数的G-适应限制：技术核心是精心选取对偶函数类，使其只依赖于图的前驱节点，从而保证对偶问题的解与G-因果约束相容。

真实例子与应用（有就一定要讲）¶

本文为纯理论工作，无实证例子。 论文没有设计仿真实验或真实数据分析。作者在introduction里提到一个概念性的例子：“考虑一个在线广告的因果图”，但他们没有计算，只是用这个概念来阐述距离的直觉。这是本文的一个明显的弱点和特征——它属于“奠定理论基础”的论文，而非“展示方法效果”。

🔎 结论是否比证明窄¶

是的，存在泛化泛化的声称。例如，作者声称G-因果Wasserstein距离可以“用来比较SCM的差异”，但论文的证明主要集中在距离的度量性质和ATE的连续性上。它没有证明这个距离可以被用于因果结构学习（例如，从众多图上选择最优的图）或假设检验。作者在中（Section 5, “Future work”）承认了这一点，并提到要研究统计性质（如收敛性），这恰恰是一个开放问题。
具体语句：比如，定理4.1（ATE的Lipschitz连续性）的证明依赖于特定的成本函数和干预方式，但它声称的“连续”性质被一个很广义的Lipschitz常数（依赖于模型具体参数）所隐含地限制。作者没有明确给出一个易于操作的上界，使得在实际中很难直接用。这是结论“看起来强，但应用时仍需验证界限是否有效”的地方。

四、开放问题（点到为止，扎根具体语句）¶

统计估计问题：如何从两个SCM的独立样本中估计G-因果Wasserstein距离？它是否具有O(n^{-1/d})的收敛率，还是有更快的O(n^{-1/2})（比如如果因果结构很稀疏）？扎根于：本文Section 5的结尾提到了“未来工作包括研究该距离的统计性质，如经验距离的收敛率”。（这一点需要研究者自行确认是否已有后续工作完成）。
在假设检验/结构学习中的应用：能否构造一个基于G-因果Wasserstein距离的统计检验，以决定两个观测数据集是否来自同一个（或有差异的）因果图？或者，能否用该距离作为模型选择的评分函数？扎根于：论文主要研究“已知图G下，两个模型的距离”，但因果推断的一个核心任务正是未知图G。Intro里提到该距离可用于“因果模型比较”，但尚未涉及比较过程。
高维/复杂图的高效计算：给定一个包含50个变量的复杂DAG，如何高效计算G-因果最优输运计划？熵正则化Sinkhorn算法是否可以推广到这个框架？扎根于：作者在Introduction中只提到了空图和完全图的特例与计算有关（如Sinkhorn），对于一般图G，没有提供任何算法。这是一个巨大的计算缺口。
扩展到有环图：SCM允许出现循环，但本文完全限定于DAG。是否可以定义G-因果Wasserstein距离用于有环因果图（如动态因果模型中的反馈回路）？扎根于：作者的框架核心依赖拓扑排序，这在有环图中不存在。这是一个结构性的限制。

Maintained by 陈星宇 · Homepage · Source on GitHub