Single World Intervention Graphs as Distributions: A Framework for Causal Identification¶

作者: Christian Bartels
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.17050

一、核心问题与贡献¶

①研究了如何在SWIG框架下直接从分布视角推导因果识别表达式，特别是前门准则及其在纵向多干预设定下的推广。②核心工具是将SWIG视为观测分布\(q_0\)与干预分布\(q_n\)的统一表示，利用图上的d-分离直接读取条件独立性（如前门独立性\(Y \perp\!\!\!\perp Do | M, D\)），结合全概率公式与一致性假设进行代数推导。③主要贡献是提出了一种无需引入中介变量辅助干预、无需对未观测混杂进行条件化的前门调整推导新路径，并成功将其推广至纵向序列设定。

二、基础设定¶

核心概念与符号：
\(q_t(\cdot)\)：干预至时间\(t\)的联合分布（\(q_0\)为观测分布，\(q_n\)为全干预分布，即目标估计量所在分布）。
\(D_t\)：干预目标变量，即实际接受处理的变量。
\(Do_t\)：干预操作变量，即外部强加的处理水平。
SWIG：Single World Intervention Graphs，节点分裂为\(D_t\)和\(Do_t\)，边仅指向\(D_t\)。
关键假设：
一致性：若\(D_t = Do_t = d_t\)，则干预分布与观测分布一致，即\(q_t(\dots|D_t=Do_t=d_t) = q_{t-1}(\dots|D_t=Do_t=d_t)\)。含义：实际接受的处理水平等于干预水平时，潜在结果等于观测结果。
条件独立性：基于SWIG的d-分离读取。例如后门独立性\(Y_n \perp\!\!\!\perp D_n | L, Do_n\)，前门独立性\(Y_n \perp\!\!\!\perp Do_n | M, D_n\)。与已有文献相比，本文显式地将\(Do_n\)和\(D_n\)放入条件集，使得前门独立性的表达成为可能（do-calculus中do算子抹去了\(D_n\)，PO框架不显式条件于干预）。
时间序无后门：\(Y_t \perp\!\!\!\perp Do_j\) for \(j>t\)（未来干预不影响过去结果，由d-分离保证）。
问题背景：传统前门准则推导（do-calculus或PO框架）要么需要引入对中介变量的辅助干预（非目标估计量），要么需要条件于未观测混杂再重构（Hernan & Robins 2020, Tech Point 21.11），在纵向复杂设定下推导繁琐且不直观。本文与 Richardson & Robins (2013) §9 的区别在于：不仅提出视角，还给出了完整的前门推导及纵向推广；与 Pearl do-calculus 的区别在于：保留了\(D\)与\(Do\)的区分，使得全概率公式和条件独立性可以交替使用。

三、主要定理 / 核心结果¶

核心发现1：前门调整的新推导
量化描述：\(q_1(Y_1|Do_1=d_1) = \sum_{m, d'_1} q_0(Y_1|D_1=d'_1, M=m) q_0(D_1=d'_1) q_0(M=m|D_1=d_1)\)。
推导逻辑：利用前门独立性\(Y_1 \perp\!\!\!\perp Do_1 | M, D_1\)，将条件中的\(Do_1\)替换为\(D_1\)，再利用一致性回到\(q_0\)。
与 baseline 的对比：避免了引入\(do(M)\)或假设未观测混杂\(U\)可观测，仅使用目标干预\(Do_1\)和全概率公式。
核心发现2：纵向前门调整
量化描述：公式(4)，将联合分布分解为响应项、中介项和干预目标项，分别利用前门独立性（\(Y \perp\!\!\!\perp Do_n | D_n, M_n\)）和序列前门独立性（\(D_t \perp\!\!\!\perp Do_{t-1} | M_{t-1}, D_{t-1}\)）完成识别。
结论的稳健性：当\(n=1\)时退化为经典前门公式，逻辑自洽。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
策略：Top-down（从目标估计量\(q_n(Y|Do_n)\)出发，引入必要变量）。
步骤：1. 写出目标干预分布的条件概率；2. 利用全概率公式引入中介变量\(M\)和干预目标\(D\)；3. 利用SWIG上的d-分离读取条件独立性（前门/后门独立性），将\(Do\)替换为\(D\)或将\(D\)替换为\(Do\)；4. 利用一致性假设将\(q_n\)退回\(q_0\)；5. 在\(q_0\)中消除冗余的\(Do\)变量。
核心假设的可信度分析：
前门独立性 \(Y \perp\!\!\!\perp Do | M, D\) 的验证：在SWIG上，\(Y\)与\(Do\)被\(M\)和\(D\) d-分离。但需注意\(D\)不能是collider（文中指出\(D\)可能是collider，需具体图结构验证，这是潜在违背点）。
计算/实现细节：概念性框架，未涉及具体算法复杂度。最终估计量仍为g-computation或标准前门公式的纵向版本。

五、与研究者兴趣的关联¶

连接子方向：纵向因果推断中的识别策略，特别是存在未观测混杂时的前门/代理变量设定。
可借鉴思路：Proximal CI 中常利用 negative control 替代未观测混杂。本文的"前门独立性"（条件于中介和干预目标，切断干预操作与结果的联系）提供了一种新的图论视角。在 Proximal CI 的纵向推广中，如果 negative control 扮演类似 \(M\) 的角色，本文的序列前门独立性推导（\(D_t \perp\!\!\!\perp Do_{t-1} | M_{t-1}, D_{t-1}\)）可能为构建纵向 proximal g-formula 提供图论辅助。
值得精读的关键参考文献：
Richardson & Robins (2013) §9: SWIG的奠基之作，理解本文视角的来源。
Hernán & Robins (2020) Tech Point 21.11: 传统前门推导的"条件于未观测混杂再重构"路径，与本文对比可深刻理解本文的简化之处。

六、延伸思考与练习¶

假设扰动：若在纵向设定中，\(D_t\)成为collider（例如存在指向\(D_t\)和\(M_t\)的未观测混杂），前门独立性\(Y \perp\!\!\!\perp Do | M, D\)被破坏，结论如何变化？技术上需要引入什么新条件（如类似Proximal的代理变量）来恢复识别？
开放问题：作者提出Top-down和Bottom-up两种算法策略，如何将这种基于SWIG分布视角的推导自动化，构建一个类似do-calculus的完备识别算法？
理解检测题：在图2的纵向SWIG中，假设存在一个未观测变量\(U_t\)同时指向\(D_t\)和\(M_t\)。请推导此时\(D_t \perp\!\!\!\perp Do_{t-1} | M_{t-1}, D_{t-1}\)是否仍然成立？如果不成立，请说明这会如何破坏公式(4)的识别逻辑。

Maintained by 陈星宇 · Homepage · Source on GitHub