Optimal transport and Wasserstein distances for causal models¶
作者: Patrick Cheridito, Stephan Eckstein
来源: Bernoulli
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文解决的根本问题是:如何(在结构性因果模型框架下)定义一种既能尊重因果图结构,又能作为两个不同因果模型之间“距离”的最优输运变体,并研究这一距离的度量性质及其在因果推断中的应用。 其本质是将最优输运(Optimal Transport, OT)这一几何工具引入因果推断,使因果模型的比较、敏感性分析和鲁棒性检验有了一种基于概率分布“形变”代价的量化手段。这个方向目前处于“理论框架建立”阶段——本文是第一个系统性地将图结构嵌入最优输运问题,并给出统一刻画的尝试。
发展脉络¶
-
奠基工作:经典最优输运与因果推断的独立发展
- 最优输运(Monge-Kantorovich,18-20世纪)定义了通过最小化运输成本来比较两个概率分布的框架,Wasserstein距离是其核心度量。后续工作如[5] Peyré & Cuturi (2018) 和 [4] Cuturi (2013) 极大地推动了OT的计算可行性(Sinkhorn算法)。
- 结构性因果模型(SCM) 由Pearl (2009, [1]) 等人系统建立,用有向图描述变量间的因果生成机制。后期工作如[8] Peters et al. (2015) 提出了不变预测这一因果推断方法,[2] Pearl (2009) 等是SCM的奠基石。这两个方向在相当长一段时间内是平行发展的,本文试图建立它们之间的桥梁。
-
主要进展:最优输运的“适应化”和“结构感知”变体
- 为了处理时间序列/随机过程中的因果结构,一系列“适应/因果最优输运”变体被提出。例如,[21] Backhoff et al. (2016) 引入了离散时间的因果运输计划,并建立了其与Knothe-Rosenblatt重排的联系。[20] COT-GAN (2020) 将其用于生成序列数据的对抗训练。[2] Backhoff-Veraguas & Pammer (2019) 证明了鞅最优输运的稳定性。[25] Backhoff-Veraguas et al. (2019) 则统一了多种“适应拓扑”,证明了它们在有限离散时间下等价。
- 另一条线索是处理不同度量空间间的运输,如[23] Redko et al. (2020) 的CO-OT(联合最优运输)和Gromov-Wasserstein距离([22]),它们试图对齐两个不同域中的样本和特征。
- 本文试图给出的统一视角是:以上所有变体(标准OT、因果OT、CO-OT/GW)都可以被看作是在特定图结构(完全图、线性图、空图)下的G-因果最优输运的特例。这一定位(作者原话:“Different graph structures lead to different specifications...”)是本文的核心claim。
-
当前前沿与本文位置
- 当前的前沿之一是探索“适应/因果运输”的更多应用,如风险管理 ([2, 3]) 和机器学习 ([20])。
- 另一个前沿是OT的统计理论,如[7] Fournier & Guillin (2013) 研究经验度量的Wasserstein距离收敛速率,[24] Ghosal & Sen (2019) 则用OT定义了多元秩和分位数。
- 本文的位置是:它跳出了单纯为某个应用场景(如金融、时序数据)设计约束的OT,而是从图论的结构出发,定义了一个一般的、参数化的最优输运框架,并首次在SCM语境下研究其性质。它并非对现有方法的渐进改进,而是一个概念性的重构。
子线索聚类¶
- 线索1:最优输运(OT)及其变体。 包括标准OT ([5])、多边际OT ([17])、不均衡OT ([14, 22])、加约束的OT ([9, 15]) 和正则化OT ([4])。这些工作主要关注OT本身的解的存在性、唯一性、度量性质和计算。
- 线索2:因果最优输运(COT)与适应运输。 包括[2, 21, 20, 25]等,它们聚焦于将“时序”或“因果”顺序作为约束条件加入OT问题。这一簇在数学金融(鞅最优运输)和生成模型(COT-GAN)中有直接应用。
- 线索3:结构性因果模型(SCM)的核心方向。 包括SCM的基础理论 ([1, 16])、因果效应的识别与估计 ([8, 19])、以及SCM与机器学习的结合 ([10, 13])。这一簇主要关注的是从观测数据学习因果结构,或是在已知结构下进行因果推理,而对“不同SCM之间的相似性/距离”这一度量问题关注甚少。
核心追问¶
这个方向在追问的核心问题是:① 如何定义一种尊重因果机制的、分布之间的“内在”距离? ② 这个距离是否具有好的度量性质(如三角不等式)?③ 它能否作为因果推断中敏感性分析的定量工具(例如,ATE在多大程度上随SCM扰动而改变)?已知瓶颈在于:标准Wasserstein距离忽略了分布中的因果嵌套,而因果OT又往往局限于时序结构。
⚠️ 作者的framing(必须明确标注成“这是作者的说法”)¶
- 作者如何定义缺口:作者声称,尽管已有大量关于Wasserstein距离和因果OT的工作,但缺乏一个统一的、基于有向图(DAG)框架来“谱”一般地刻画所有最优输运变体的理论。作者将其框架(G-因果最优输运)定位为“填补这一空缺”,并“为因果模型之间的比较提供一种有理论依据的度量工具”。这个框架的核心创新点在于:将图G本身作为参数,不同的G(完全图、线性图、空图)对应不同的运输问题,这使得它可以“优雅地”囊括已有结果。
- 被淡化或回避的竞争路线:作者引用了CO-OT/GW距离 ([23],即空图情形),但并未深入比较G-因果距离与GW距离在捕捉“不同空间”分布关系上的优劣。作者也回避了计算复杂性问题(见第四节开放问题)——本文是纯理论论文,没有讨论给定一个任意复杂度的图G时,如何高效地求解G-因果运输问题。这是一个明显的、作者未处理的缺口。
- 什么明显该被引/该存在、却没出现?:本篇论文完全没有讨论任何基于模型进行比较的统计检验(例如,两个样本是否来自同一个SCM的假设检验问题)。也没有讨论高维情形下的收敛性(例如,当变量数量增加时,Wasserstein距离的估计率会如何变化)。这为读者(研究者)留下了探索空间。
张力¶
未见明显对立引用。所有被引工作大体上在各自的框架内自洽。唯一可能形成的张力在于:使用“适应/因果运输”作为学习方法(如COT-GAN)的生物,与使用“标准Wasserstein距离”进行分布鲁棒优化(如[6, 11])的研究者之间,在“如何定义模型的鲁棒性”上存在隐性的优先级分歧——但本文作者没有正面处理。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
-
符号:
- G = (V, E):一个有向无环图(DAG),V是节点集(代表随机变量),E是有向边集。
- X = (X_1, ..., X_d):定义在概率空间上的随机向量,与V中的节点对应。
- SCM (结构性因果模型):一个由结构方程
X_j := f_j(pa_j, U_j)定义的模型,其中pa_j是节点j在图G中的父节点集合,U_j是外生噪声,彼此独立。 - P 或 Q:由SCM诱导的观测分布(observational distribution),即X在某概率空间上的联合分布。这是可观测数据。
- π:运输计划(transport plan),是定义在乘积空间上的联合分布,其边际分布分别是P和Q。
- G-因果运输计划:本文核心概念,是一个满足特定因果约束的运输计划π。直观上说,它要求运输过程本身不能违反图G定义的变量之间的因果关系。
- c(x, y):运输成本函数,通常取
c(x,y) = ||x-y||^p,其中p≥1。 - W_c(P, Q):标准Wasserstein距离,定义为
inf_{π 边际为P,Q} ∫ c(x,y) dπ(x,y)开p次方根(或等价形式)。 - W_G(P, Q):本文定义的G-因果Wasserstein距离。
- ATE (平均处理效应):针对二值处理和连续结果的估计量。
-
模型: 数据生成机制是两个不同的、但共享同一个图结构G的SCM。设为
M_P和M_Q,它们产生了可观测分布P和Q。P和Q都是d维随机向量的分布。要估的对象是两个因果模型之间的G-因果Wasserstein距离W_G(P,Q),以及研究其在因果推断(如ATE的连续性)中的应用。 -
可观测数据: 我们实际能观测到的是从两个SCM中抽样的样本:
- 从
M_P中得到n个观测x^{(1)}, ..., x^{(n)},每个是d维向量。 - 从
M_Q中得到m个观测y^{(1)}, ..., y^{(m)}。 我们想要但观测不到的是:这些潜在SCM的结构方程或噪声分布。我们只能从它们的“输出”——分布P和Q的样本来推断。因果关系嵌入在联合分布P和Q中,而不仅仅是边际分布。
- 从
第二步:讲最小内核¶
最简特例:线性图(链条图),d=2
假设图G是一个最简单的线性结构:X_1 -> X_2(只有一个箭头从X_1指向X_2)。我们有两个SCM:
- 模型 M_P:X_1 := U_1, X_2 := 2 * X_1 + U_2。其中 U_1 ~ N(0,1), U_2 ~ N(0,1),相互独立。
- 模型 M_Q:Y_1 := V_1, Y_2 := 3 * Y_1 + V_2。其中 V_1 ~ N(0,1), V_2 ~ N(0,1),相互独立。
我们要干的事:计算一个“运输计划” π,它把P(来自M_P的分布)的“质量”运到Q(来自M_Q的分布)。标准Wasserstein距离允许任何形式的联合分布π,只要它的边际是P和Q。例如,它可以随机地配对 X=(x1, x2) 和 Y=(y1, y2),哪怕 x1 和 y1 的配对以及 x2 和 y2 的配对是相互独立的。
G-因果运输计划(本文核心创新)施加了一个额外约束:在运输过程中,变量之间必须尊重因果图的结构。对于线性图 X1 -> X2,这意味着:
- 因果约束:运输计划π必须满足:给定Y1(被运到的第一个变量),X2(被运输的第一个变量)条件独立于Y2(第二个被运到的变量)。即 (X_1, Y_1) ⋔ (Y_2 | X_1, Y_1) 在运输计划π下成立。
这意味着什么? 如果我们从一个(X1, X2)出发,我们首先决定它“变成”哪个(Y1, Y2)。这个决策过程必须分两步走: 首先,我们只看X1,并决定它会变成哪个Y1(这是第一步的运输)。然后,在知道了X1和Y1后,我们才决定X2会变成哪个Y2。这个第二步的决策不能看到Y1的“未来”(因为这里没有未来变量)或者可能反过来说X2不能“看”到Y1(因为X2是X1的后代)。更精确地,约束是:在给定过去的X1和Y1后,Y2的分布只依赖于X2,而不依赖于X2之外的任何东西。这强加了一个“马尔可夫”式的递进运输结构。
为什么这个例子能说明核心思路? 这个特例恰恰对应[21]中关于离散时间随机过程的因果最优运输(COT):如果时间点1是t1,时间点2是t2,Y2相当于“未来的”值,H0 X1相当于“过去的值”,那么这个约束就是说运输计划必须是适应的:每一步的运输决策只能基于迄今已知的信息(即已运输好的过去变量)。所以,G-因果最优输运就是图结构的“适应最优输运”。完全还原为:完全图(变量间无因果顺序)对应标准OT,线性图(时间顺序)对应COT。本文的一般设定就是把“时间顺序”这个概念推广到了“有向图偏序”。
三、这篇论文做了什么(本次重心,务必讲透)¶
三句话¶
① 本文研究了如何定义一种尊重有向无环图(DAG)结构的最优输运问题,称为G-因果最优输运(G-causal optimal transport),并定义了与之对应的G-因果Wasserstein距离(G-causal Wasserstein distance)。 ② 核心工具是将图拓扑排序与运输计划的因果约束相结合,通过对偶理论(Kantorovich对偶的推广)和条件分布的马尔可夫性质来刻画G-因果运输计划。通过对图G做不同假设(完全图、线性图、空图),该框架可以统一标准Wasserstein距离、离散时间的因果最优运输以及CO-OT/Gromov-Wasserstein距离。 ③ 主要结论:G-因果Wasserstein距离是一种有效的度量(metric);平均处理效应(ATE) 关于该距离是Lipschitz连续的;结构性因果模型(SCM)的参数在小的扰动下,其G-因果Wasserstein距离也有界;该距离还可用于定义因果模型之间的插值路径。
关键设定与假设¶
在第二节最小记号(d=2, 线性图)的基础上,补全完整设定:
- 设定:对任意有向无环图(DAG)G,其顶点集V = {1, ..., d},且有向边表示直接因果。一般拓扑排序是保证图无环的排序,它定义了变量间的偏序关系。本文的核心假设是图G是完整的,即已知其拓扑结构。
- G-因果运输计划:更精确地,作者定义了一个运输计划 π 是G-因果的,如果对于任何节点 j ∈ V,及其所有祖先(ancestors)An(j),在将 X_{An(j)} 运送到 Y_{An(j)} 后,关于 Y_j 的条件分布与 Y_{V\An(j)}(未来的变量)无关。这是对马尔可夫适应性的推广。
- 假设:作者假设成本函数c是连续的(确保存在性和对偶性)。此外,研究ATE的Lipschitz连续性时,需要假设干预是逐渐进行的(即符合图序),并且处理效应是定义良好的。这些假设相较于已有的因果OT工作(如[21])是自然的推广,没有额外强化;相较于标准OT,引入了图结构这一先验信息。
主要结果¶
结果1(定理2.9, 2.10):G-因果运输计划的刻画 作者给出了G-因果运输计划的充要条件。一种是Kantorovich对偶形式,它是经典对偶的推广,其中对偶函数被限制为“G-适应的”函数(即只依赖于图祖先的变量)。另一种是递归/动态规划刻画:G-因果运输问题等价于沿着图的拓扑顺序,逐步解决一系列(单步的)条件最优运输问题,类似于Knothe-Rosenblatt重排。 - 直觉:这相当于说,要运输两个模型,你可以一层一层地(按照图的祖先顺序)进行,每一步只解决当前节点及其父节点之间的运输问题。 - 必要条件:图必须是DAG。 - 解决的技术难点:如何将复杂的全局运输约束(多变量依赖)分解为可操作的、递归的局部约束。
结果2(定理3.1, 3.8, 3.10):G-因果Wasserstein距离的度量性质 作者证明: 1. 对于任何满足对称性和正定条件的成本函数c,G-因果Wasserstein距离定义了一个度量(满足三角不等式、非负性、对称性)。 2. 该距离拓扑化了分布类。 3. 具体界:G-因果Wasserstein距离与标准Wasserstein距离有确定的不等式关系(通常G-因果距离更大,因为它施加了更严格的约束)。例如,对于空图(对应CO-OT / GW),该距离通常显著大于标准Wasserstein距离,因为后者不要求对齐结构。
结果3(定理4.1, 4.2):在因果推断中的应用——ATE的Lipschitz连续性 这是论文连接因果推断的核心结果。假设我们有两个SCM,M1和M2,它们对某个结果变量Y生成分布。考虑一个平均处理效应(ATE),即在某个干预do(X=a)下Y的期望值。 - 作者证明,对于某个观测分布变化的度量(例如,协变量分布的Wasserstein距离),ATE关于G-因果Wasserstein距离是Lipschitz连续的。 - 这意味着ATE的变化率被该距离的上界所控制。如果能控制模型间的G-因果Wasserstein距离,就能控制ATE的下界。 - 小扰动定理:作者进一步证明了,对SCM的结构方程和噪声分布做小的参数扰动,引起其在G-因果Wasserstein距离下的偏差也是小的(受限于扰动的幅度的界)。 - 意义:这为基于SCM的敏感性分析提供了一个严格的工具:如果想评估一个SCM拟合的好坏,或者一个处理效应估计对模型误设的稳健性,G-因果Wasserstein距离是一个敏感且合理的定量指标。
证明路线与技术技巧(理论型必写,要具体)¶
- 整体路线(以G-因果运输计划的刻画为例):
- 定义:定义G-因果运输计划为满足特定马尔可夫适应性的联合分布π。
- 第一步:对偶化:将关于π的原始问题(inf_{π G-因果} ∫ c dπ)通过对偶理论转化为关于函数(称为G-适应势)的sup问题。这是经典Kantorovich对偶的精华。
- 第二步:递归:利用图G的拓扑排序,将G-适应势的集合分解为一类特殊函数。利用动态规划原理,证明求解最优的G-因果运输计划等价于沿着图序,逐节点求解一系列“条件”运输问题。
- 第三步:充要条件:在成本函数连续等条件下,证明对偶问题的解存在,并利用对偶间隙消失,给出G-因果运输计划的充要条件。该条件可以显式表示为一系列条件分布方程。
- 关键跳跃点:
- 最吃功夫的引理(Lemma 2.7):建立条件运输计划的等价形式,并证明在“全图”上施加的G-因果约束,等价于在“条件上”施加的逐点约束。这是将复杂问题简化为递归的关键。难点在于,要证明所有全局G-因果计划都能被表示为沿图序的Monge-Kantorovich型计划。
- 作者如何绕过难点:他们不是直接处理联合分布π,而是处理其条件分解(类似Chow-Liu树分解),并通过Knothe-Rosenblatt重排的思想,将问题分解为可处理的边际与条件运输问题。
- 技术技巧点名:
- Kantorovich对偶:贯穿全文,用于在没有显式写出运输计划的情况下分析最优运输问题。
- Knothe-Rosenblatt重排:一种基于单调分位数映射的运输映射,其“因果性”使得它成为G-因果运输问题的一个关键例子(正如[21]所指出)。
- KL散度(Kullback-Leibler divergence)/Pinsker不等式:在某些灵敏度估计中,用于建立Wasserstein距离与KL散度之间的关系(如论文中可能隐式地用到)。
- 对偶函数的G-适应限制:技术核心是精心选取对偶函数类,使其只依赖于图的前驱节点,从而保证对偶问题的解与G-因果约束相容。
真实例子与应用(有就一定要讲)¶
本文为纯理论工作,无实证例子。 论文没有设计仿真实验或真实数据分析。作者在introduction里提到一个概念性的例子:“考虑一个在线广告的因果图”,但他们没有计算,只是用这个概念来阐述距离的直觉。这是本文的一个明显的弱点和特征——它属于“奠定理论基础”的论文,而非“展示方法效果”。
🔎 结论是否比证明窄¶
- 是的,存在泛化泛化的声称。例如,作者声称G-因果Wasserstein距离可以“用来比较SCM的差异”,但论文的证明主要集中在距离的度量性质和ATE的连续性上。它没有证明这个距离可以被用于因果结构学习(例如,从众多图上选择最优的图)或假设检验。作者在中(Section 5, “Future work”)承认了这一点,并提到要研究统计性质(如收敛性),这恰恰是一个开放问题。
- 具体语句:比如,定理4.1(ATE的Lipschitz连续性)的证明依赖于特定的成本函数和干预方式,但它声称的“连续”性质被一个很广义的Lipschitz常数(依赖于模型具体参数)所隐含地限制。作者没有明确给出一个易于操作的上界,使得在实际中很难直接用。这是结论“看起来强,但应用时仍需验证界限是否有效”的地方。
四、开放问题(点到为止,扎根具体语句)¶
-
统计估计问题:如何从两个SCM的独立样本中估计G-因果Wasserstein距离?它是否具有
O(n^{-1/d})的收敛率,还是有更快的O(n^{-1/2})(比如如果因果结构很稀疏)?扎根于:本文Section 5的结尾提到了“未来工作包括研究该距离的统计性质,如经验距离的收敛率”。(这一点需要研究者自行确认是否已有后续工作完成)。 -
在假设检验/结构学习中的应用:能否构造一个基于G-因果Wasserstein距离的统计检验,以决定两个观测数据集是否来自同一个(或有差异的)因果图?或者,能否用该距离作为模型选择的评分函数?扎根于:论文主要研究“已知图G下,两个模型的距离”,但因果推断的一个核心任务正是未知图G。Intro里提到该距离可用于“因果模型比较”,但尚未涉及比较过程。
-
高维/复杂图的高效计算:给定一个包含50个变量的复杂DAG,如何高效计算G-因果最优输运计划?熵正则化Sinkhorn算法是否可以推广到这个框架?扎根于:作者在Introduction中只提到了空图和完全图的特例与计算有关(如Sinkhorn),对于一般图G,没有提供任何算法。这是一个巨大的计算缺口。
-
扩展到有环图:SCM允许出现循环,但本文完全限定于DAG。是否可以定义G-因果Wasserstein距离用于有环因果图(如动态因果模型中的反馈回路)?扎根于:作者的框架核心依赖拓扑排序,这在有环图中不存在。这是一个结构性的限制。
Maintained by 陈星宇 · Homepage · Source on GitHub