Single World Intervention Graphs: A simple framework for unifying graphs and potential outcomes with applications to mediation analysis¶

讲者: Thomas Richardson
讨论人: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-30
主题: 因果推断
视频: https://youtu.be/jnEM1z0m4ow · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于因果推断中图模型与反事实框架的整合这一核心方向。

该方向追问的核心问题：如何将「有向无环图（DAG）」所代表的干预后分布（“do-算子”）与「潜在结果框架」所定义的反事实变量联系起来，使两套语言可以互相翻译、推导和验证？
奠基与主流路线：
- NPSEM（非参数结构方程模型）（Pearl, 2000）是一个经典的统一尝试：它假设图中每条边对应一个确定性的、个体层面的结构方程，独立误差项，从而保证跨世界反事实联合分布的定义。但这一做法隐含了跨世界独立性假设（如个体层面的无直接效应），这些假设无法被任何随机化实验验证。
- “Twin Networks”（孪生网络） 是另一种将两个世界（如 treatment 与 control）的反事实放在同一张图上的技术，但它同样会带来更复杂的、通常不可检验的隐含独立性假设（如跨世界联合分布中某些路径的“伪”独立，导致d-分离不完全）。
- do-演算（Pearl, 1995）从纯图形层面给出了三条规则来推导干预分布，但它不直接操作潜在结果变量。
当前 frontier 与这场报告的站位：SWIG（Single World Intervention Graph, 单世界干预图） 由 Thomas Richardson 及其合作者（James Robins, Ilya Shpitser）提出，是一种更“轻量级”的桥梁。它的核心思想是：不为所有潜在结果构建一张图（这通常会引入不可检验的跨世界假设），而是为每一次特定的干预构建一张图（一个“单世界”）。这张新图同时包含随机部分（自然值的X）和固定部分（被干预的x），使得潜在结果变量（如Y(x)）作为图上的节点出现，从而可以直接应用d-分离来读取条件独立性。其关键优势是：它需要的假设（模块化 Modularity）本质上等价于一致性（Consistency）加上观测分布的可分解性，是可以在原则上被随机化实验检验的。
关键相关文献（名字可能有拼写误差）：
- Robins (1986): 引入了“最细全随机化因果结构树图”（finest fully randomized causally interpreted structured tree graph），是SWIG模型的更早版本。
- Pearl (2000): 《Causality》一书, 提出NPSEM和do-演算。
- Richardson, Robins, and Shpitser (2020? / 2021?): 本场报告对应的核心论文，标题类似 "Single World Intervention Graphs: A Unification of Graphs and Potential Outcomes"。待核实。
- Malinsky, Shpitser, Richardson (2019): 关于 “Potential Outcomes Calculus” 的论文，提出了SWIG版本的反事实do-演算。

二、最小内核 / 一个最简例子¶

考虑最简单的二值处理变量 X 和结果 Y，无混杂。

可观测数据：(X, Y)，其联合分布为 P(X, Y)。
因果目标 (Estimand)：E[Y(x=1)]，即在全体人群中，将所有人都分配到处理组（干预 X=1）时的平均结果。这是边际反事实分布 P(Y(1)) 的期望。
模型：一个 DAG X -> Y，表示 X 是 Y 的原因。该图假定无混杂（即没有未观测的共同原因）。
核心问题：如何从观测分布 P(X, Y) 中识别 P(Y(1))？在潜在结果框架中，我们需要条件可忽略性：X ⊥⊥ Y(1)（处理与潜在结果独立）。但 Y(1) 不在原 DAG 上。

一个最简特例（d=1, 二元处理）：假设我们只有一个二元处理 X。

第一步：构建 SWIG 我们从原 DAG X -> Y 出发，进行节点分裂（Node Splitting）： - 将 X 分裂为两个节点： - 随机部分 X：保留指向它的所有入边（在这个例子中没有）。它代表个体实际被观测到的自然值。 - 固定部分 x=1：保留从它出发的所有出边（指向 Y）。它是一个固定值，代表我们设定的干预值。 - 所有原本是 X 的后代的节点，现在被重新标记为潜在结果变量。本例中，Y 被标记为 Y(x=1)。

这样，我们就得到了一张新的图，称为 SWIG G(x=1)。它包含两个随机节点 X 和 Y(1)，以及一个固定节点 x=1，其结构是 X 与 Y(1) 之间没有边相连。

第二步：应用关键假设 - 模块化（Modularity）：我们必须将 SWIG G(x=1) 上的分布 P(X, Y(1)) 与原观测图 G 上的分布 P(X, Y) 联系起来。规则是：对于 Y 的反事实版本 Y(1)，它在 SWIG 中的条件分布等于在原 DAG 中 Y 的条件分布，但将 X 替换为固定值 1：P(Y(1) | X) = P(Y | X=1)。这本质上是一致性（Consistency）假设：当一个个体被观测到 X=1 时，Y 就等于 Y(1)。 - 分解（Factorization）：SWIG G(x=1) 定义了一个联合分布 P(X, Y(1))。由于图上 X 和 Y(1) 没有边，由 d-分离（固定节点 x=1 作为非端点路径的阻断器）可知，联合分布可以分解为：P(X, Y(1)) = P(X) * P(Y(1))。这意味着 X ⊥⊥ Y(1)——这就是我们需要的条件可忽略性。

第三步：识别 结合以上两点，我们有： P(Y(1)) = P(Y(1)) (从 SWIG 分解中略去 X) P(Y(1)) = ∑_x P(Y(1) | X=x) P(X=x) (由分解) 由于模块化，只有 X=1 那一项有定义： P(Y(1)) = P(Y(1) | X=1) P(X=1) + ?。实际上，正确的推导是： P(Y(1)) = ∑_x P(Y(1) | X=x) P(X=x) = ∑_x P(Y | X=1) P(X=x) (应用了模块化，但这里需要小心，因为对 X≠1 的情况，Y(1) 与 X=x 的联合由分解独立给出，且 P(Y(1)|X=x) = P(Y(1))。更标准的推导是利用独立性和模块化： 1. P(Y(1)) = P(Y(1)) (定义) 2. 由 SWIG 分解 X ⊥⊥ Y(1)，我们有 P(Y(1)) = P(Y(1) | X=1)。 3. 由模块化，P(Y(1) | X=1) = P(Y | X=1)（一致性）。 4. 因此，P(Y(1)) = P(Y | X=1)。目标被识别。

核心思想：SWIG通过一个简单的节点分裂操作，将潜在结果变量显式地放在一张图（一个“世界”）里。这张图的图结构本身就编码了可忽略性（通过固定节点阻断后门路径），而模块化假设用观测数据中的条件分布“填充”了这张图上的反事实条件分布。这样，我们不再需要直觉地去假设 X ⊥⊥ Y(1)，而是能直接从分裂后的图“读”出这个独立性。

三、报告主体：讲者讲了什么¶

这场报告分为两个主要部分：SWIG框架本身及其在反事实推导中的应用，然后是将该框架应用于可分离直接效应（Separable Direct Effects） 的中介分析。

Part 1: SWIG (单世界干预图)

[0:03:00 - 0:06:00] 动机与“大象在房间里”的问题：讲者指出，因果图领域和潜在结果领域各有其优势（类比为两种语言），但两者之间存在隔阂。最大的问题是，因果图中没有潜在结果变量，因此不能直接从图上读取 X ⊥⊥ Y(x_0) 这样的可忽略性假设。这是统合它们的关键障碍。
[0:07:50 - 0:08:30] 核心操作：节点分裂 (Node Splitting)：为了解决上述问题，讲者引入了这一核心操作。他详细演示了对单个处理 X 如何分裂：一个随机部分保留入边（代表自然观测值），一个固定部分保留出边（代表设定的干预值）。所有下游变量均被标记为带有该固定值下标的反事实版本，如 Y(x=0)。
[0:08:30 - 0:10:30] 模块化 (Modularity) 与分解：分裂之后，SWIG 定义了反事实联合分布 P(X, Y(x))。这个分布根据 SWIG 的图结构进行分解（Factorization），而图结构通过d-分离会立即给出独立性（如 X ⊥⊥ Y(x=0)）。模块化假设是连接反事实分布与观测分布的关键桥梁：反事实变量（如Y(x=0)）的条件分布，等于观测变量（Y）在观测图中给定其（非固定）父节点时，并将分裂的父节点（X）替换为固定值（x=0）后的条件分布。这等价于一致性假设。
[0:10:30 - 0:12:50] “单世界” (Single World) 的含义与模板：讲者强调，每个 SWIG 只代表一个特定干预值下的分布（一个“世界”），例如 G(x=0)代表 P(X, Y(0))，G(x=1) 代表 P(X, Y(1))，但它们不能合并到一个图里，因为这需要不可验证的跨世界联合独立性。所有 SWIG 可以用一个“模板”来表示，它是一个图值的函数，输入一个干预值，输出对应的SWIG。
[0:11:20 - 0:12:50] 直观类比：催吐剂实验：讲者用一个富有启发性的思维实验来说明节点分裂的直觉：一个实验员时刻监控者病人，当观察到病人吞下药物（自然值X=1）的瞬间，立刻给予一种安全的催吐剂，使药物无法生效。这样实验员就能同时观察到“病人本想服药”（自然X=1）以及“服用安慰剂后的结果”（潜在结果Y(x=0)）。这个例子生动地说明了，在同一个“世界”里同时观察到自然值和反事实值在概念上是可能的。
[0:12:50 - 0:15:20] 更复杂的例子与“Twin Network”的缺陷：讲者展示了一个涉及两个处理 A 和 B 的 SWIG，并利用d-分离验证了 Y(a,b) ⊥⊥ B(a) | Z(a), A。他指出，若使用 Twin Network，可能存在一个“容易被误读为具有相关性”的路径，因为Twin Network 的 d-分离是不完全的（不能保证路径一定导致依赖性）。
[0:15:20 - 0:20:00] 正式构建与PO演算 (Potential Outcomes Calculus)：
- 构造规则 (Slide 13-14)：讲者给出了构建 SWIG 的通用步骤：对干预集 A 中的每个变量进行节点分裂（随机部分继承入边，固定部分继承出边）；对固定节点的所有后代，用它们所依赖的固定值集合（最小集或完整集）重新标记。
- 推广d-分离：固定节点在路径中间时总是阻断路径；当固定节点是端点时，可以正常参与d-连接，用于推导“固定值改变不影响条件分布”这一结论（即do-演算规则3的反事实版本）。
- PO演算 (Slide 25-26)：讲者将 Pearl 的 do-演算转化为简洁的反事实形式，核心结论是：PO演算 = d-分离 + 可忽略性（Ignorability） + “干预只影响因果后代”。这极大简化了 do-演算的复杂性。
- 前门准则 (Front-door Criterion)：通过一个分步推导，讲者展示了如何用 PO 演算替代do-演算来完成前门调整的识别。每一步都对应在某个 SWIG 上应用 d-分离。 [0:31:00 - 0:34:00]
[0:34:30 - 0:37:00] 顺序随机化实验 (g-formula)：
- 讲者展示了在具有时间依赖混杂（B）的多阶段随机化实验中，如何用 SWIG 来验证 G-formula 的核心条件：A ⊥⊥ D(a,c) 和 C(a) ⊥⊥ D(a,c) | B(a), A。
- 在 SWIG 上，通过节点分裂（A -> a, C -> c），这些条件可以直接通过d-分离读取，无需进行复杂的代数推导。这为 Robins 1986 年的经典结果提供了一个非常简洁的图形化证明。
- 他也演示了当存在更复杂的结构（如 H1和 H2 混杂时），SWIG 可以清楚地看出识别何时失败（例如，当存在 B -> D 的边时，路径 A -> H1 -> B(a) -> D(a,c) 就成了一个 d-连接路径）。

Part 2: 可分离直接效应 (Separable Direct Effects)

[0:37:00 - 0:41:00] 将处理分解为组分：处理X（如吸烟）可以被分解为两个或更多的可干预组分（如尼古丁N、其他化学成分O）。每个组分可以独立被干预。这样，“直接效应”和“间接效应”的概念就具有了明确的操作性：直接效应 = 将O设为1、N设为0 vs 两都设为0；间接效应 = 将O设为1、N设为1 vs O设为1、N设为0。这两项的加总等于处理X的总效应。
[0:41:00 - 0:43:00] 三个数据集视角：讲者引入了一个巧妙的三数据集视角：
- 数据集1：原始的观察性研究（实际上是一个随机化试验），我们只观测到 (X, M, Y)。
- 数据集2：一个假想的四组随机化试验，直接干预 N 和 O 的各个组合，观测 M(n,o) 和 Y(n,o)。
- 数据集3：数据集2的一个子集，只包含 N=O 的两个臂。
[0:43:30 - 0:46:00] 可分离性与识别：
- 一个核心问题是：我们能否从数据集1（或3）中识别出数据集2中 N≠O 的臂（即 E[Y(n=1, o=0)] 等）？如果能，我们就说 N 和 O 对 M 和 Y 的效应是可分离的。
- 识别条件：讲者给出两个关键的条件分布独立性：
  1. M 对 Y 的效应，在给定 M 的条件下，不依赖于 N 的值（即 Y ⊥⊥ N | M in the SWIG with N, O interventions）。
  2. X（通过）N 对 M 的效应，不依赖于 O 的值（即 M ⊥⊥ O in the SWIG with N, O interventions）。
- 如果这两个条件成立，那么就能从数据集3（即原始的 P(Y, M | X=x)，加上 P(M | X=tilde{x})等）推导出 Pearl 的中介公式 (Pearl's Mediation Formula)。[0:46:00 - 0:47:00]
- 关键洞见：这些条件本质上对应于在 SWIG 上的d-分离关系（见幻灯片46），并且如果一个假想的四组试验被实际执行，这些条件是可以被实证检验的。这区别于 Pearl 的自然直接效应（Natural Direct Effect）所依赖的、不可检验的跨世界独立性假设（NPSEM-IE）。
[0:47:00 - 0:49:00] 与其它中介方法的对比：讲者简要总结可分离效应的优势：无需对中介变量有良好定义的干预；其识别假设是可检验的（不同于自然直接效应）；不局限于处理对中介无影响的亚群（不同于主分层效应Principal Stratum Effects）。

技术技巧与证明思路： - 核心技巧：节点分裂 + 模块化假设。 - 证明思路：给出一个因果DAG和一组干预目标，通过节点分裂构造SWIG。在SWIG上应用标准的d-分离准则来读取条件独立性。利用模块化假设将SWIG上的反事实条件分布转化为原始观测分布中的条件分布（将分裂的父节点替换为固定值）。有时需要在多个SWIG之间进行切换（如PO演算所示）。 - 举例/数据：前门准则的推导和 g-formula 的验证是理论性例子。中介分析部分以吸烟（尼古丁、其他化学成分）、高血压、心肌梗塞为例，是领域知识的运用。

四、对应论文与开放问题¶

(a) 对应论文/预印本

这场报告对应的工作是 Thomas Richardson, James Robins, 和 Ilya Shpitser 关于 SWIG 的系列论文。

核心论文：讲者提到了一个 2020/2021 年的论文。从内容和合作者来看，很可能是他们在 JASA 或 Biometrika 等期刊上发表的长文。标题可能是《Single World Intervention Graphs: A unifying framework for counterfactual reasoning》。其核心技术报告或较早版本可参考 arXiv。具体信息如下（字幕/转写可能有误，建议核查）：
- 作者：Thomas Richardson, James M. Robins, Ilya Shpitser.
- 年份：2020 或 2021。
- 在讲者幻灯片中标明的合作者：Robins, Shpitser.
其他相关论文：
- Malinsky, Shpitser, Richardson (2019): 关于 PO-calculus 的论文。
- 关于可分离直接效应的相关工作：讲者提到了 Vanessa Didelez, Stensrud 等人的工作，还有 Judea Pearl 的有机中介分析框架。
- 讨论者Mats Stensrud 提到了自己和其他合作者的新近工作（2020, 2021），可能与 SWIG 和可分离效应的应用有关。

(b) 开放问题 / 未来方向 （扎根于转写）

从SWIG估计转向SWIG效应：讨论者 Mats Stensrud 提出，SWIG 不仅可用于识别（identification），还可通过编码更多结构信息（如上下文无关的直接效应）来提升效率。他举了一个疫苗试验的例子，并提到相关近期工作（如 Liu, Robins 等人的论文）能将效率提升约 50 倍。 [1:00:00]
问题：如何系统地将 SWIG 所编码的结构性假设（如“处理只有在暴露时才有效”）转化为更高效的半参数估计量？是否有自动化的方法？
从个体层面到群体层面的假设：Stensrud 问 Richardson，SWIG 所基于的“无直接效应”假设是群体层面的（population-level，即在分布P(Y|M)中条件独立），而有时实际研究和科学直觉更倾向于个体层面的“无直接效应”（individual-level no effect）。虽然群体层面的假设足够进行识别且可检验，但在什么场景下，个体层面的假设是必要的或者能推导出更好的识别结果？ [1:01:30]
问题：是否存在SWIG无法编码，但个体层面的NPSEM-IE能编码的因果结构？两者之间的识别与效率差距有多大？
一致性假设与处理分解的实质：vanessa 的提问（由Jamie Robins代读）直指核心：将处理分解为组分会不会违反“一致性假设”？因为真实的处理（吸烟）就是两个组分的复合体，谈论“不存在尼古丁的吸烟”是否良好定义？ [1:08:50]
问题：这本质上是一个科学问题而非统计问题。但从统计方法论层面，如何处理这种“处理多组分”的不一致性？在什么情况下这种分解是可行的（如 Stensrud 提到的“六组试验”可检验）？
SWIG在更复杂场景的应用：
- Richardson 提到 SWIG 可用于“不完全干预”（intervention on only some variables are well-defined）的模型，比如前门准则的二次干预（干预中介M）在现实中可能不现实，但我们可以推导出不需要干预M的结果。 [0:37:50]
  问题：如何系统地处理那些“部分干预良好定义”的场景？能否将 SWIG 与 IV、工具变量等更复杂的识别方法结合？
- 速率/效率理论：虽然报告未提及，但报告里提到的“节点分裂”和“模块化”操作，是否可以直接对应到半参数效率理论中的一个“修正过的因分解（modified factorization）”和相应的影响函数（influence function）？这是该研究者（熟悉debiased ML）可以关注的点。

Maintained by 陈星宇 · Homepage · Source on GitHub

Single World Intervention Graphs: A simple framework for unifying graphs and potential outcomes with applications to mediation analysis¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论