Single World Intervention Graphs: A simple framework for unifying graphs and potential outcomes with applications to mediation analysis¶
讲者: Thomas Richardson
讨论人: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-30
主题: 因果推断
视频: https://youtu.be/jnEM1z0m4ow · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于因果推断中图模型与反事实框架的整合这一核心方向。
- 该方向追问的核心问题:如何将「有向无环图(DAG)」所代表的干预后分布(“do-算子”)与「潜在结果框架」所定义的反事实变量联系起来,使两套语言可以互相翻译、推导和验证?
- 奠基与主流路线:
- NPSEM(非参数结构方程模型)(Pearl, 2000)是一个经典的统一尝试:它假设图中每条边对应一个确定性的、个体层面的结构方程,独立误差项,从而保证跨世界反事实联合分布的定义。但这一做法隐含了跨世界独立性假设(如个体层面的无直接效应),这些假设无法被任何随机化实验验证。
- “Twin Networks”(孪生网络) 是另一种将两个世界(如 treatment 与 control)的反事实放在同一张图上的技术,但它同样会带来更复杂的、通常不可检验的隐含独立性假设(如跨世界联合分布中某些路径的“伪”独立,导致d-分离不完全)。
- do-演算(Pearl, 1995)从纯图形层面给出了三条规则来推导干预分布,但它不直接操作潜在结果变量。
- 当前 frontier 与这场报告的站位:SWIG(Single World Intervention Graph, 单世界干预图) 由 Thomas Richardson 及其合作者(James Robins, Ilya Shpitser)提出,是一种更“轻量级”的桥梁。它的核心思想是:不为所有潜在结果构建一张图(这通常会引入不可检验的跨世界假设),而是为每一次特定的干预构建一张图(一个“单世界”)。这张新图同时包含随机部分(自然值的X)和固定部分(被干预的
x),使得潜在结果变量(如Y(x))作为图上的节点出现,从而可以直接应用d-分离来读取条件独立性。其关键优势是:它需要的假设(模块化 Modularity)本质上等价于一致性(Consistency)加上观测分布的可分解性,是可以在原则上被随机化实验检验的。 - 关键相关文献(名字可能有拼写误差):
- Robins (1986): 引入了“最细全随机化因果结构树图”(finest fully randomized causally interpreted structured tree graph),是SWIG模型的更早版本。
- Pearl (2000): 《Causality》一书, 提出NPSEM和do-演算。
- Richardson, Robins, and Shpitser (2020? / 2021?): 本场报告对应的核心论文,标题类似 "Single World Intervention Graphs: A Unification of Graphs and Potential Outcomes"。待核实。
- Malinsky, Shpitser, Richardson (2019): 关于 “Potential Outcomes Calculus” 的论文,提出了SWIG版本的反事实do-演算。
二、最小内核 / 一个最简例子¶
考虑最简单的二值处理变量 X 和结果 Y,无混杂。
- 可观测数据:
(X, Y),其联合分布为P(X, Y)。 - 因果目标 (Estimand):
E[Y(x=1)],即在全体人群中,将所有人都分配到处理组(干预X=1)时的平均结果。这是边际反事实分布P(Y(1))的期望。 - 模型:一个 DAG
X -> Y,表示X是Y的原因。该图假定无混杂(即没有未观测的共同原因)。 - 核心问题:如何从观测分布
P(X, Y)中识别P(Y(1))?在潜在结果框架中,我们需要条件可忽略性:X ⊥⊥ Y(1)(处理与潜在结果独立)。但Y(1)不在原 DAG 上。
一个最简特例(d=1, 二元处理):假设我们只有一个二元处理 X。
第一步:构建 SWIG
我们从原 DAG X -> Y 出发,进行节点分裂(Node Splitting):
- 将 X 分裂为两个节点:
- 随机部分 X:保留指向它的所有入边(在这个例子中没有)。它代表个体实际被观测到的自然值。
- 固定部分 x=1:保留从它出发的所有出边(指向 Y)。它是一个固定值,代表我们设定的干预值。
- 所有原本是 X 的后代的节点,现在被重新标记为潜在结果变量。本例中,Y 被标记为 Y(x=1)。
这样,我们就得到了一张新的图,称为 SWIG G(x=1)。它包含两个随机节点 X 和 Y(1),以及一个固定节点 x=1,其结构是 X 与 Y(1) 之间没有边相连。
第二步:应用关键假设
- 模块化(Modularity):我们必须将 SWIG G(x=1) 上的分布 P(X, Y(1)) 与原观测图 G 上的分布 P(X, Y) 联系起来。规则是:对于 Y 的反事实版本 Y(1),它在 SWIG 中的条件分布等于在原 DAG 中 Y 的条件分布,但将 X 替换为固定值 1:P(Y(1) | X) = P(Y | X=1)。这本质上是一致性(Consistency)假设:当一个个体被观测到 X=1 时,Y 就等于 Y(1)。
- 分解(Factorization):SWIG G(x=1) 定义了一个联合分布 P(X, Y(1))。由于图上 X 和 Y(1) 没有边,由 d-分离(固定节点 x=1 作为非端点路径的阻断器)可知,联合分布可以分解为:P(X, Y(1)) = P(X) * P(Y(1))。这意味着 X ⊥⊥ Y(1)——这就是我们需要的条件可忽略性。
第三步:识别
结合以上两点,我们有:
P(Y(1)) = P(Y(1)) (从 SWIG 分解中略去 X)
P(Y(1)) = ∑_x P(Y(1) | X=x) P(X=x) (由分解)
由于模块化,只有 X=1 那一项有定义:
P(Y(1)) = P(Y(1) | X=1) P(X=1) + ?。实际上,正确的推导是:
P(Y(1)) = ∑_x P(Y(1) | X=x) P(X=x) = ∑_x P(Y | X=1) P(X=x) (应用了模块化,但这里需要小心,因为对 X≠1 的情况,Y(1) 与 X=x 的联合由分解独立给出,且 P(Y(1)|X=x) = P(Y(1))。更标准的推导是利用独立性和模块化:
1. P(Y(1)) = P(Y(1)) (定义)
2. 由 SWIG 分解 X ⊥⊥ Y(1),我们有 P(Y(1)) = P(Y(1) | X=1)。
3. 由模块化,P(Y(1) | X=1) = P(Y | X=1)(一致性)。
4. 因此,P(Y(1)) = P(Y | X=1)。目标被识别。
核心思想:SWIG通过一个简单的节点分裂操作,将潜在结果变量显式地放在一张图(一个“世界”)里。这张图的图结构本身就编码了可忽略性(通过固定节点阻断后门路径),而模块化假设用观测数据中的条件分布“填充”了这张图上的反事实条件分布。这样,我们不再需要直觉地去假设 X ⊥⊥ Y(1),而是能直接从分裂后的图“读”出这个独立性。
三、报告主体:讲者讲了什么¶
这场报告分为两个主要部分:SWIG框架本身及其在反事实推导中的应用,然后是将该框架应用于可分离直接效应(Separable Direct Effects) 的中介分析。
Part 1: SWIG (单世界干预图)
-
[0:03:00 - 0:06:00] 动机与“大象在房间里”的问题:讲者指出,因果图领域和潜在结果领域各有其优势(类比为两种语言),但两者之间存在隔阂。最大的问题是,因果图中没有潜在结果变量,因此不能直接从图上读取
X ⊥⊥ Y(x_0)这样的可忽略性假设。这是统合它们的关键障碍。 -
[0:07:50 - 0:08:30] 核心操作:节点分裂 (Node Splitting):为了解决上述问题,讲者引入了这一核心操作。他详细演示了对单个处理
X如何分裂:一个随机部分保留入边(代表自然观测值),一个固定部分保留出边(代表设定的干预值)。所有下游变量均被标记为带有该固定值下标的反事实版本,如Y(x=0)。 -
[0:08:30 - 0:10:30] 模块化 (Modularity) 与分解:分裂之后,SWIG 定义了反事实联合分布
P(X, Y(x))。这个分布根据 SWIG 的图结构进行分解(Factorization),而图结构通过d-分离会立即给出独立性(如X ⊥⊥ Y(x=0))。模块化假设是连接反事实分布与观测分布的关键桥梁:反事实变量(如Y(x=0))的条件分布,等于观测变量(Y)在观测图中给定其(非固定)父节点时,并将分裂的父节点(X)替换为固定值(x=0)后的条件分布。这等价于一致性假设。 -
[0:10:30 - 0:12:50] “单世界” (Single World) 的含义与模板:讲者强调,每个 SWIG 只代表一个特定干预值下的分布(一个“世界”),例如
G(x=0)代表P(X, Y(0)),G(x=1)代表P(X, Y(1)),但它们不能合并到一个图里,因为这需要不可验证的跨世界联合独立性。所有 SWIG 可以用一个“模板”来表示,它是一个图值的函数,输入一个干预值,输出对应的SWIG。 -
[0:11:20 - 0:12:50] 直观类比:催吐剂实验:讲者用一个富有启发性的思维实验来说明节点分裂的直觉:一个实验员时刻监控者病人,当观察到病人吞下药物(自然值X=1)的瞬间,立刻给予一种安全的催吐剂,使药物无法生效。这样实验员就能同时观察到“病人本想服药”(自然X=1)以及“服用安慰剂后的结果”(潜在结果Y(x=0))。这个例子生动地说明了,在同一个“世界”里同时观察到自然值和反事实值在概念上是可能的。
-
[0:12:50 - 0:15:20] 更复杂的例子与“Twin Network”的缺陷:讲者展示了一个涉及两个处理
A和B的 SWIG,并利用d-分离验证了Y(a,b) ⊥⊥ B(a) | Z(a), A。他指出,若使用 Twin Network,可能存在一个“容易被误读为具有相关性”的路径,因为Twin Network 的 d-分离是不完全的(不能保证路径一定导致依赖性)。 -
[0:15:20 - 0:20:00] 正式构建与PO演算 (Potential Outcomes Calculus):
- 构造规则 (Slide 13-14):讲者给出了构建 SWIG 的通用步骤:对干预集
A中的每个变量进行节点分裂(随机部分继承入边,固定部分继承出边);对固定节点的所有后代,用它们所依赖的固定值集合(最小集或完整集)重新标记。 - 推广d-分离:固定节点在路径中间时总是阻断路径;当固定节点是端点时,可以正常参与d-连接,用于推导“固定值改变不影响条件分布”这一结论(即do-演算规则3的反事实版本)。
- PO演算 (Slide 25-26):讲者将 Pearl 的 do-演算转化为简洁的反事实形式,核心结论是:PO演算 = d-分离 + 可忽略性(Ignorability) + “干预只影响因果后代”。这极大简化了 do-演算的复杂性。
- 前门准则 (Front-door Criterion):通过一个分步推导,讲者展示了如何用 PO 演算替代do-演算来完成前门调整的识别。每一步都对应在某个 SWIG 上应用 d-分离。 [0:31:00 - 0:34:00]
- 构造规则 (Slide 13-14):讲者给出了构建 SWIG 的通用步骤:对干预集
-
[0:34:30 - 0:37:00] 顺序随机化实验 (g-formula):
- 讲者展示了在具有时间依赖混杂(
B)的多阶段随机化实验中,如何用 SWIG 来验证 G-formula 的核心条件:A ⊥⊥ D(a,c)和C(a) ⊥⊥ D(a,c) | B(a), A。 - 在 SWIG 上,通过节点分裂(
A -> a,C -> c),这些条件可以直接通过d-分离读取,无需进行复杂的代数推导。这为 Robins 1986 年的经典结果提供了一个非常简洁的图形化证明。 - 他也演示了当存在更复杂的结构(如
H1和H2混杂时),SWIG 可以清楚地看出识别何时失败(例如,当存在B -> D的边时,路径A -> H1 -> B(a) -> D(a,c)就成了一个 d-连接路径)。
- 讲者展示了在具有时间依赖混杂(
Part 2: 可分离直接效应 (Separable Direct Effects)
-
[0:37:00 - 0:41:00] 将处理分解为组分:处理
X(如吸烟)可以被分解为两个或更多的可干预组分(如尼古丁N、其他化学成分O)。每个组分可以独立被干预。这样,“直接效应”和“间接效应”的概念就具有了明确的操作性:直接效应 = 将O设为1、N设为0 vs 两都设为0;间接效应 = 将O设为1、N设为1 vsO设为1、N设为0。这两项的加总等于处理X的总效应。 -
[0:41:00 - 0:43:00] 三个数据集视角:讲者引入了一个巧妙的三数据集视角:
- 数据集1:原始的观察性研究(实际上是一个随机化试验),我们只观测到
(X, M, Y)。 - 数据集2:一个假想的四组随机化试验,直接干预
N和O的各个组合,观测M(n,o)和Y(n,o)。 - 数据集3:数据集2的一个子集,只包含
N=O的两个臂。
- 数据集1:原始的观察性研究(实际上是一个随机化试验),我们只观测到
-
[0:43:30 - 0:46:00] 可分离性与识别:
- 一个核心问题是:我们能否从数据集1(或3)中识别出数据集2中
N≠O的臂(即E[Y(n=1, o=0)]等)?如果能,我们就说N和O对M和Y的效应是可分离的。 - 识别条件:讲者给出两个关键的条件分布独立性:
- M 对 Y 的效应,在给定 M 的条件下,不依赖于 N 的值(即
Y ⊥⊥ N | Min the SWIG withN, Ointerventions)。 - X(通过)N 对 M 的效应,不依赖于 O 的值(即
M ⊥⊥ Oin the SWIG withN, Ointerventions)。
- M 对 Y 的效应,在给定 M 的条件下,不依赖于 N 的值(即
- 如果这两个条件成立,那么就能从数据集3(即原始的
P(Y, M | X=x),加上P(M | X=tilde{x})等)推导出 Pearl 的中介公式 (Pearl's Mediation Formula)。[0:46:00 - 0:47:00] - 关键洞见:这些条件本质上对应于在 SWIG 上的d-分离关系(见幻灯片46),并且如果一个假想的四组试验被实际执行,这些条件是可以被实证检验的。这区别于 Pearl 的自然直接效应(Natural Direct Effect)所依赖的、不可检验的跨世界独立性假设(NPSEM-IE)。
- 一个核心问题是:我们能否从数据集1(或3)中识别出数据集2中
-
[0:47:00 - 0:49:00] 与其它中介方法的对比:讲者简要总结可分离效应的优势:无需对中介变量有良好定义的干预;其识别假设是可检验的(不同于自然直接效应);不局限于处理对中介无影响的亚群(不同于主分层效应Principal Stratum Effects)。
技术技巧与证明思路: - 核心技巧:节点分裂 + 模块化假设。 - 证明思路:给出一个因果DAG和一组干预目标,通过节点分裂构造SWIG。在SWIG上应用标准的d-分离准则来读取条件独立性。利用模块化假设将SWIG上的反事实条件分布转化为原始观测分布中的条件分布(将分裂的父节点替换为固定值)。有时需要在多个SWIG之间进行切换(如PO演算所示)。 - 举例/数据:前门准则的推导和 g-formula 的验证是理论性例子。中介分析部分以吸烟(尼古丁、其他化学成分)、高血压、心肌梗塞为例,是领域知识的运用。
四、对应论文与开放问题¶
(a) 对应论文/预印本
这场报告对应的工作是 Thomas Richardson, James Robins, 和 Ilya Shpitser 关于 SWIG 的系列论文。
- 核心论文:讲者提到了一个 2020/2021 年的论文。从内容和合作者来看,很可能是他们在 JASA 或 Biometrika 等期刊上发表的长文。标题可能是《Single World Intervention Graphs: A unifying framework for counterfactual reasoning》。其核心技术报告或较早版本可参考 arXiv。具体信息如下(字幕/转写可能有误,建议核查):
- 作者:Thomas Richardson, James M. Robins, Ilya Shpitser.
- 年份:2020 或 2021。
- 在讲者幻灯片中标明的合作者:Robins, Shpitser.
- 其他相关论文:
- Malinsky, Shpitser, Richardson (2019): 关于 PO-calculus 的论文。
- 关于可分离直接效应的相关工作:讲者提到了 Vanessa Didelez, Stensrud 等人的工作,还有 Judea Pearl 的有机中介分析框架。
- 讨论者Mats Stensrud 提到了自己和其他合作者的新近工作(2020, 2021),可能与 SWIG 和可分离效应的应用有关。
(b) 开放问题 / 未来方向 (扎根于转写)
-
从SWIG估计转向SWIG效应:讨论者 Mats Stensrud 提出,SWIG 不仅可用于识别(identification),还可通过编码更多结构信息(如上下文无关的直接效应)来提升效率。他举了一个疫苗试验的例子,并提到相关近期工作(如 Liu, Robins 等人的论文)能将效率提升约 50 倍。 [1:00:00]
问题:如何系统地将 SWIG 所编码的结构性假设(如“处理只有在暴露时才有效”)转化为更高效的半参数估计量?是否有自动化的方法? -
从个体层面到群体层面的假设:Stensrud 问 Richardson,SWIG 所基于的“无直接效应”假设是群体层面的(population-level,即在分布P(Y|M)中条件独立),而有时实际研究和科学直觉更倾向于个体层面的“无直接效应”(individual-level no effect)。虽然群体层面的假设足够进行识别且可检验,但在什么场景下,个体层面的假设是必要的或者能推导出更好的识别结果? [1:01:30]
问题:是否存在SWIG无法编码,但个体层面的NPSEM-IE能编码的因果结构?两者之间的识别与效率差距有多大? -
一致性假设与处理分解的实质:vanessa 的提问(由Jamie Robins代读)直指核心:将处理分解为组分会不会违反“一致性假设”?因为真实的处理(吸烟)就是两个组分的复合体,谈论“不存在尼古丁的吸烟”是否良好定义? [1:08:50]
问题:这本质上是一个科学问题而非统计问题。但从统计方法论层面,如何处理这种“处理多组分”的不一致性?在什么情况下这种分解是可行的(如 Stensrud 提到的“六组试验”可检验)? -
SWIG在更复杂场景的应用:
- Richardson 提到 SWIG 可用于“不完全干预”(intervention on only some variables are well-defined)的模型,比如前门准则的二次干预(干预中介M)在现实中可能不现实,但我们可以推导出不需要干预M的结果。 [0:37:50]
问题:如何系统地处理那些“部分干预良好定义”的场景?能否将 SWIG 与 IV、工具变量等更复杂的识别方法结合? - 速率/效率理论:虽然报告未提及,但报告里提到的“节点分裂”和“模块化”操作,是否可以直接对应到半参数效率理论中的一个“修正过的因分解(modified factorization)”和相应的影响函数(influence function)?这是该研究者(熟悉debiased ML)可以关注的点。
- Richardson 提到 SWIG 可用于“不完全干预”(intervention on only some variables are well-defined)的模型,比如前门准则的二次干预(干预中介M)在现实中可能不现实,但我们可以推导出不需要干预M的结果。 [0:37:50]
Maintained by 陈星宇 · Homepage · Source on GitHub