跳转至

Single World Intervention Graphs: A simple framework for unifying graphs and potential outcomes with applications to mediation analysis

讲者: Thomas Richardson
讨论人: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-30
主题: 因果推断
视频: https://youtu.be/jnEM1z0m4ow · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告属于因果推断中图模型与反事实框架的整合这一核心方向。

  • 该方向追问的核心问题:如何将「有向无环图(DAG)」所代表的干预后分布(“do-算子”)与「潜在结果框架」所定义的反事实变量联系起来,使两套语言可以互相翻译、推导和验证?
  • 奠基与主流路线
    • NPSEM(非参数结构方程模型)(Pearl, 2000)是一个经典的统一尝试:它假设图中每条边对应一个确定性的、个体层面的结构方程,独立误差项,从而保证跨世界反事实联合分布的定义。但这一做法隐含了跨世界独立性假设(如个体层面的无直接效应),这些假设无法被任何随机化实验验证。
    • “Twin Networks”(孪生网络) 是另一种将两个世界(如 treatment 与 control)的反事实放在同一张图上的技术,但它同样会带来更复杂的、通常不可检验的隐含独立性假设(如跨世界联合分布中某些路径的“伪”独立,导致d-分离不完全)。
    • do-演算(Pearl, 1995)从纯图形层面给出了三条规则来推导干预分布,但它不直接操作潜在结果变量。
  • 当前 frontier 与这场报告的站位SWIG(Single World Intervention Graph, 单世界干预图) 由 Thomas Richardson 及其合作者(James Robins, Ilya Shpitser)提出,是一种更“轻量级”的桥梁。它的核心思想是:不为所有潜在结果构建一张图(这通常会引入不可检验的跨世界假设),而是为每一次特定的干预构建一张图(一个“单世界”)。这张新图同时包含随机部分(自然值的X)和固定部分(被干预的x),使得潜在结果变量(如Y(x))作为图上的节点出现,从而可以直接应用d-分离来读取条件独立性。其关键优势是:它需要的假设(模块化 Modularity)本质上等价于一致性(Consistency)加上观测分布的可分解性,是可以在原则上被随机化实验检验的。
  • 关键相关文献(名字可能有拼写误差):
    • Robins (1986): 引入了“最细全随机化因果结构树图”(finest fully randomized causally interpreted structured tree graph),是SWIG模型的更早版本。
    • Pearl (2000): 《Causality》一书, 提出NPSEM和do-演算。
    • Richardson, Robins, and Shpitser (2020? / 2021?): 本场报告对应的核心论文,标题类似 "Single World Intervention Graphs: A Unification of Graphs and Potential Outcomes"。待核实。
    • Malinsky, Shpitser, Richardson (2019): 关于 “Potential Outcomes Calculus” 的论文,提出了SWIG版本的反事实do-演算。

二、最小内核 / 一个最简例子

考虑最简单的二值处理变量 X 和结果 Y,无混杂。

  • 可观测数据(X, Y),其联合分布为 P(X, Y)
  • 因果目标 (Estimand)E[Y(x=1)],即在全体人群中,将所有人都分配到处理组(干预 X=1)时的平均结果。这是边际反事实分布 P(Y(1)) 的期望。
  • 模型:一个 DAG X -> Y,表示 XY 的原因。该图假定无混杂(即没有未观测的共同原因)。
  • 核心问题:如何从观测分布 P(X, Y) 中识别 P(Y(1))?在潜在结果框架中,我们需要条件可忽略性X ⊥⊥ Y(1)(处理与潜在结果独立)。但 Y(1) 不在原 DAG 上。

一个最简特例(d=1, 二元处理):假设我们只有一个二元处理 X

第一步:构建 SWIG 我们从原 DAG X -> Y 出发,进行节点分裂(Node Splitting): - 将 X 分裂为两个节点: - 随机部分 X:保留指向它的所有入边(在这个例子中没有)。它代表个体实际被观测到的自然值。 - 固定部分 x=1:保留从它出发的所有出边(指向 Y)。它是一个固定值,代表我们设定的干预值。 - 所有原本是 X 的后代的节点,现在被重新标记为潜在结果变量。本例中,Y 被标记为 Y(x=1)

这样,我们就得到了一张新的图,称为 SWIG G(x=1)。它包含两个随机节点 XY(1),以及一个固定节点 x=1,其结构是 XY(1) 之间没有边相连

第二步:应用关键假设 - 模块化(Modularity):我们必须将 SWIG G(x=1) 上的分布 P(X, Y(1)) 与原观测图 G 上的分布 P(X, Y) 联系起来。规则是:对于 Y 的反事实版本 Y(1),它在 SWIG 中的条件分布等于在原 DAG 中 Y 的条件分布,但将 X 替换为固定值 1P(Y(1) | X) = P(Y | X=1)。这本质上是一致性(Consistency)假设:当一个个体被观测到 X=1 时,Y 就等于 Y(1)。 - 分解(Factorization):SWIG G(x=1) 定义了一个联合分布 P(X, Y(1))。由于图上 XY(1) 没有边,由 d-分离(固定节点 x=1 作为非端点路径的阻断器)可知,联合分布可以分解为:P(X, Y(1)) = P(X) * P(Y(1))。这意味着 X ⊥⊥ Y(1)——这就是我们需要的条件可忽略性。

第三步:识别 结合以上两点,我们有: P(Y(1)) = P(Y(1)) (从 SWIG 分解中略去 X) P(Y(1)) = ∑_x P(Y(1) | X=x) P(X=x) (由分解) 由于模块化,只有 X=1 那一项有定义: P(Y(1)) = P(Y(1) | X=1) P(X=1) + ?。实际上,正确的推导是: P(Y(1)) = ∑_x P(Y(1) | X=x) P(X=x) = ∑_x P(Y | X=1) P(X=x) (应用了模块化,但这里需要小心,因为对 X≠1 的情况,Y(1)X=x 的联合由分解独立给出,且 P(Y(1)|X=x) = P(Y(1))。更标准的推导是利用独立性和模块化: 1. P(Y(1)) = P(Y(1)) (定义) 2. 由 SWIG 分解 X ⊥⊥ Y(1),我们有 P(Y(1)) = P(Y(1) | X=1)。 3. 由模块化,P(Y(1) | X=1) = P(Y | X=1)(一致性)。 4. 因此,P(Y(1)) = P(Y | X=1)。目标被识别。

核心思想:SWIG通过一个简单的节点分裂操作,将潜在结果变量显式地放在一张图(一个“世界”)里。这张图的图结构本身就编码了可忽略性(通过固定节点阻断后门路径),而模块化假设用观测数据中的条件分布“填充”了这张图上的反事实条件分布。这样,我们不再需要直觉地去假设 X ⊥⊥ Y(1),而是能直接从分裂后的图“读”出这个独立性。

三、报告主体:讲者讲了什么

这场报告分为两个主要部分:SWIG框架本身及其在反事实推导中的应用,然后是将该框架应用于可分离直接效应(Separable Direct Effects) 的中介分析。

Part 1: SWIG (单世界干预图)

  1. [0:03:00 - 0:06:00] 动机与“大象在房间里”的问题:讲者指出,因果图领域和潜在结果领域各有其优势(类比为两种语言),但两者之间存在隔阂。最大的问题是,因果图中没有潜在结果变量,因此不能直接从图上读取 X ⊥⊥ Y(x_0) 这样的可忽略性假设。这是统合它们的关键障碍。

  2. [0:07:50 - 0:08:30] 核心操作:节点分裂 (Node Splitting):为了解决上述问题,讲者引入了这一核心操作。他详细演示了对单个处理 X 如何分裂:一个随机部分保留入边(代表自然观测值),一个固定部分保留出边(代表设定的干预值)。所有下游变量均被标记为带有该固定值下标的反事实版本,如 Y(x=0)

  3. [0:08:30 - 0:10:30] 模块化 (Modularity) 与分解:分裂之后,SWIG 定义了反事实联合分布 P(X, Y(x))。这个分布根据 SWIG 的图结构进行分解(Factorization),而图结构通过d-分离会立即给出独立性(如 X ⊥⊥ Y(x=0))。模块化假设是连接反事实分布与观测分布的关键桥梁:反事实变量(如Y(x=0))的条件分布,等于观测变量(Y)在观测图中给定其(非固定)父节点时,并将分裂的父节点(X)替换为固定值(x=0)后的条件分布。这等价于一致性假设。

  4. [0:10:30 - 0:12:50] “单世界” (Single World) 的含义与模板:讲者强调,每个 SWIG 只代表一个特定干预值下的分布(一个“世界”),例如 G(x=0)代表 P(X, Y(0))G(x=1) 代表 P(X, Y(1)),但它们不能合并到一个图里,因为这需要不可验证的跨世界联合独立性。所有 SWIG 可以用一个“模板”来表示,它是一个图值的函数,输入一个干预值,输出对应的SWIG。

  5. [0:11:20 - 0:12:50] 直观类比:催吐剂实验:讲者用一个富有启发性的思维实验来说明节点分裂的直觉:一个实验员时刻监控者病人,当观察到病人吞下药物(自然值X=1)的瞬间,立刻给予一种安全的催吐剂,使药物无法生效。这样实验员就能同时观察到“病人本想服药”(自然X=1)以及“服用安慰剂后的结果”(潜在结果Y(x=0))。这个例子生动地说明了,在同一个“世界”里同时观察到自然值和反事实值在概念上是可能的。

  6. [0:12:50 - 0:15:20] 更复杂的例子与“Twin Network”的缺陷:讲者展示了一个涉及两个处理 AB 的 SWIG,并利用d-分离验证了 Y(a,b) ⊥⊥ B(a) | Z(a), A。他指出,若使用 Twin Network,可能存在一个“容易被误读为具有相关性”的路径,因为Twin Network 的 d-分离是不完全的(不能保证路径一定导致依赖性)。

  7. [0:15:20 - 0:20:00] 正式构建与PO演算 (Potential Outcomes Calculus)

    • 构造规则 (Slide 13-14):讲者给出了构建 SWIG 的通用步骤:对干预集 A 中的每个变量进行节点分裂(随机部分继承入边,固定部分继承出边);对固定节点的所有后代,用它们所依赖的固定值集合(最小集或完整集)重新标记。
    • 推广d-分离:固定节点在路径中间时总是阻断路径;当固定节点是端点时,可以正常参与d-连接,用于推导“固定值改变不影响条件分布”这一结论(即do-演算规则3的反事实版本)。
    • PO演算 (Slide 25-26):讲者将 Pearl 的 do-演算转化为简洁的反事实形式,核心结论是:PO演算 = d-分离 + 可忽略性(Ignorability) + “干预只影响因果后代”。这极大简化了 do-演算的复杂性。
    • 前门准则 (Front-door Criterion):通过一个分步推导,讲者展示了如何用 PO 演算替代do-演算来完成前门调整的识别。每一步都对应在某个 SWIG 上应用 d-分离。 [0:31:00 - 0:34:00]
  8. [0:34:30 - 0:37:00] 顺序随机化实验 (g-formula)

    • 讲者展示了在具有时间依赖混杂(B)的多阶段随机化实验中,如何用 SWIG 来验证 G-formula 的核心条件:A ⊥⊥ D(a,c)C(a) ⊥⊥ D(a,c) | B(a), A
    • 在 SWIG 上,通过节点分裂(A -> a, C -> c),这些条件可以直接通过d-分离读取,无需进行复杂的代数推导。这为 Robins 1986 年的经典结果提供了一个非常简洁的图形化证明。
    • 他也演示了当存在更复杂的结构(如 H1H2 混杂时),SWIG 可以清楚地看出识别何时失败(例如,当存在 B -> D 的边时,路径 A -> H1 -> B(a) -> D(a,c) 就成了一个 d-连接路径)。

Part 2: 可分离直接效应 (Separable Direct Effects)

  1. [0:37:00 - 0:41:00] 将处理分解为组分:处理X(如吸烟)可以被分解为两个或更多的可干预组分(如尼古丁N、其他化学成分O)。每个组分可以独立被干预。这样,“直接效应”和“间接效应”的概念就具有了明确的操作性:直接效应 = 将O设为1、N设为0 vs 两都设为0;间接效应 = 将O设为1、N设为1 vs O设为1、N设为0。这两项的加总等于处理X的总效应。

  2. [0:41:00 - 0:43:00] 三个数据集视角:讲者引入了一个巧妙的三数据集视角:

    • 数据集1:原始的观察性研究(实际上是一个随机化试验),我们只观测到 (X, M, Y)
    • 数据集2:一个假想的四组随机化试验,直接干预 NO 的各个组合,观测 M(n,o)Y(n,o)
    • 数据集3:数据集2的一个子集,只包含 N=O 的两个臂。
  3. [0:43:30 - 0:46:00] 可分离性与识别

    • 一个核心问题是:我们能否从数据集1(或3)中识别出数据集2中 N≠O 的臂(即 E[Y(n=1, o=0)] 等)?如果能,我们就说 NOMY 的效应是可分离的
    • 识别条件:讲者给出两个关键的条件分布独立性:
      1. M 对 Y 的效应,在给定 M 的条件下,不依赖于 N 的值(即 Y ⊥⊥ N | M in the SWIG with N, O interventions)。
      2. X(通过)N 对 M 的效应,不依赖于 O 的值(即 M ⊥⊥ O in the SWIG with N, O interventions)。
    • 如果这两个条件成立,那么就能从数据集3(即原始的 P(Y, M | X=x),加上 P(M | X=tilde{x})等)推导出 Pearl 的中介公式 (Pearl's Mediation Formula)。[0:46:00 - 0:47:00]
    • 关键洞见:这些条件本质上对应于在 SWIG 上的d-分离关系(见幻灯片46),并且如果一个假想的四组试验被实际执行,这些条件是可以被实证检验的。这区别于 Pearl 的自然直接效应(Natural Direct Effect)所依赖的、不可检验的跨世界独立性假设(NPSEM-IE)。
  4. [0:47:00 - 0:49:00] 与其它中介方法的对比:讲者简要总结可分离效应的优势:无需对中介变量有良好定义的干预;其识别假设是可检验的(不同于自然直接效应);不局限于处理对中介无影响的亚群(不同于主分层效应Principal Stratum Effects)。

技术技巧与证明思路: - 核心技巧:节点分裂 + 模块化假设。 - 证明思路:给出一个因果DAG和一组干预目标,通过节点分裂构造SWIG。在SWIG上应用标准的d-分离准则来读取条件独立性。利用模块化假设将SWIG上的反事实条件分布转化为原始观测分布中的条件分布(将分裂的父节点替换为固定值)。有时需要在多个SWIG之间进行切换(如PO演算所示)。 - 举例/数据:前门准则的推导和 g-formula 的验证是理论性例子。中介分析部分以吸烟(尼古丁、其他化学成分)、高血压、心肌梗塞为例,是领域知识的运用。

四、对应论文与开放问题

(a) 对应论文/预印本

这场报告对应的工作是 Thomas Richardson, James Robins, 和 Ilya Shpitser 关于 SWIG 的系列论文。

  • 核心论文:讲者提到了一个 2020/2021 年的论文。从内容和合作者来看,很可能是他们在 JASA 或 Biometrika 等期刊上发表的长文。标题可能是《Single World Intervention Graphs: A unifying framework for counterfactual reasoning》。其核心技术报告或较早版本可参考 arXiv。具体信息如下(字幕/转写可能有误,建议核查):
    • 作者:Thomas Richardson, James M. Robins, Ilya Shpitser.
    • 年份:2020 或 2021。
    • 在讲者幻灯片中标明的合作者:Robins, Shpitser.
  • 其他相关论文
    • Malinsky, Shpitser, Richardson (2019): 关于 PO-calculus 的论文。
    • 关于可分离直接效应的相关工作:讲者提到了 Vanessa Didelez, Stensrud 等人的工作,还有 Judea Pearl 的有机中介分析框架。
    • 讨论者Mats Stensrud 提到了自己和其他合作者的新近工作(2020, 2021),可能与 SWIG 和可分离效应的应用有关。

(b) 开放问题 / 未来方向 (扎根于转写)

  1. 从SWIG估计转向SWIG效应:讨论者 Mats Stensrud 提出,SWIG 不仅可用于识别(identification),还可通过编码更多结构信息(如上下文无关的直接效应)来提升效率。他举了一个疫苗试验的例子,并提到相关近期工作(如 Liu, Robins 等人的论文)能将效率提升约 50 倍。 [1:00:00]
    问题:如何系统地将 SWIG 所编码的结构性假设(如“处理只有在暴露时才有效”)转化为更高效的半参数估计量?是否有自动化的方法?

  2. 从个体层面到群体层面的假设:Stensrud 问 Richardson,SWIG 所基于的“无直接效应”假设是群体层面的(population-level,即在分布P(Y|M)中条件独立),而有时实际研究和科学直觉更倾向于个体层面的“无直接效应”(individual-level no effect)。虽然群体层面的假设足够进行识别且可检验,但在什么场景下,个体层面的假设是必要的或者能推导出更好的识别结果? [1:01:30]
    问题:是否存在SWIG无法编码,但个体层面的NPSEM-IE能编码的因果结构?两者之间的识别与效率差距有多大?

  3. 一致性假设与处理分解的实质:vanessa 的提问(由Jamie Robins代读)直指核心:将处理分解为组分会不会违反“一致性假设”?因为真实的处理(吸烟)就是两个组分的复合体,谈论“不存在尼古丁的吸烟”是否良好定义? [1:08:50]
    问题:这本质上是一个科学问题而非统计问题。但从统计方法论层面,如何处理这种“处理多组分”的不一致性?在什么情况下这种分解是可行的(如 Stensrud 提到的“六组试验”可检验)?

  4. SWIG在更复杂场景的应用

    • Richardson 提到 SWIG 可用于“不完全干预”(intervention on only some variables are well-defined)的模型,比如前门准则的二次干预(干预中介M)在现实中可能不现实,但我们可以推导出不需要干预M的结果。 [0:37:50]
      问题:如何系统地处理那些“部分干预良好定义”的场景?能否将 SWIG 与 IV、工具变量等更复杂的识别方法结合?
    • 速率/效率理论:虽然报告未提及,但报告里提到的“节点分裂”和“模块化”操作,是否可以直接对应到半参数效率理论中的一个“修正过的因分解(modified factorization)”和相应的影响函数(influence function)?这是该研究者(熟悉debiased ML)可以关注的点。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论