Estimating Identifiable Causal Effects through Double Machine Learning - Graph-based & Data-driven Approaches¶

讲者: Jin Tian
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-09
主题: 因果推断
视频: https://youtu.be/PUOYK2zhjLc · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这条工作线位于 因果效应识别（Identification） 与 高效率估计（Estimation） 的交汇处，具体属于“对任意可识别因果效应构造双机器学习（DML） 估计器”的系统性尝试。

子方向追问的问题：给定一个因果图（DAG with bidirected edges）和从上图观测到分布中抽得的有限样本，我们能否对一个由识别算法（如 ID algorithm）输出的、非标准形式（如包含除法、求和、多层求和）的因果表达式，系统性地构造一个估计量，使其满足：(i) 对高维/基于 ML 的 nuisance 估计具有 pN-相合性（debiasedness）；(ii) 对部分 nuisance 被错误设定仍保持 双重稳健性（doubly robustness）。

奠基与主流路线：
- 经典的后门/前门调整、g-formula / sequential backdoor（Robins, 1986; Pearl, 1995；等都已有成熟的估计量。 - 针对这些特例，DML 文献（Chernozhukov et al., 2018）提供了 Neyman orthogonal score + cross-fitting 的通用框架，但仅讨论了 backdoor 类设定。 - 更广泛的任意识别效应（ID algorithm 输出）的估计，此前仅有“plug-in estimator”这一通用选项：先估计所有 conditional probabilities（nuisance），直接代入表达式。这有两个缺陷：(1) 所有 nuisance 都必须准确，否则不一致（无双重稳健性）；(2) 当使用收敛慢的 ML （如神经网络）时，pN-相合性失效。

当前 Frontier 与这场报告的站位：
- 此前已有专项工作为特定非 backdoor 设定（如 front-door、IV、mediation）构造了 DML / 双重稳健估计量（Toth & van der Laan 2016; Kennedy 2018; Bhattacharya et al., 2020）。但没有一个通用框架能自动接受 ID algorithm 输出的任意表达式并输出 DML 估计量。 - 这场报告（Jung, Tian, Bareinboim AAAI-21）填补了这一空白：它在 ID algorithm 的基础上定义 DML-ID algorithm，该算法将任意可识别效应分解为 一组 mSBD (multi-outcome Sequential BackDoor) 调整的算术组合；对每个 mSBD 项，报告给出了显式的影响函数（IF）；再用链式法则的组合技巧，自顶向下推导出整个 estimand 的 Neyman orthogonal score。这样，任何可识别效应都能套用 DML 模板，获得双重稳健性与 pN-相合性。 - （报告还讨论了第二种场景：当因果图未知、仅有一个部分祖先图（PAG）时，综合 IdP algorithm + DML 构造的 DML-IDP 算法；本节侧重图形那一半。）

本报告核心文献：
- Jung, Tian, Bareinboim, Estimating Identifiable Causal Effects through Double Machine Learning, AAAI 2021（报告核心论文，转写中提到的“our paper”）。 - 更早的识别与估计工作（转写里提到了，名字可能不准）： - The “ID algorithm”（Tian & Pearl, 2003; Shpitser & Pearl, 2006）. - The “IdP algorithm” for PAG（Perkovic et al., 2018; Jaber, Zhang, Bareinboim, 2018 等）. - 关于 mSBD 的较早论文：Jung, Tian, Bareinboim, Estimating Causal Effects Using a Multi-outcome Sequential Backdoor Criterion, NeurIPS 2020a. - 关于 mSBD 的 IF 推导的先驱工作：Jung, Tian, Bareinboim, Learning Causal Effects via Neural Networks, 2020b.

（注意：上述引用均基于文稿提到的线索推断，具体标题和年份建议查看对应论文 PDF 核实；不在此罗列完整 bibliography。）

二、最小内核 / 一个最简例子¶

符号、模型、可观测数据¶

令 V = {W, X, Y}。假设我们有一个半马尔可夫因果图 G，其中：
- 观察变量：W（协变量）、X（处理变量，二值）、Y（结局变量，二值）。
- G 中有双向箭头 W ↔ Y（即 unobserved confounder U 使得 W 和 Y 之间存在未测量混杂）。
- 没有其他未测量混杂。
- （此图是“Klein graph / napkin graph”的一个简化版本，见转写中提到的例子。）

目标：估计因果效应 \( P_x(y) = P(Y=y \mid do(X=x)) \)。

识别结果（由 ID algorithm 产出，见转写和幻灯片）：
针对这个最简单的图，ID algorithm 输出

\[P_x(y) = \frac{\sum_{w} P(y,x \mid r,w) P(w)}{\sum_{w} P(x \mid r,w) P(w)},\]

其中 \(R\) 是 W 的一个孩子，X 的父亲，但与 Y 无直接相关。该表达式等于一个除法（ratio of two back-door adjustments）。

关键概念：mSBD 调整（Multi-outcome Sequential BackDoor）。对于单时间点、二值处理、一个结局、一个协变量集合 Z 的情形，mSBD criterion 退化为标准的后门准则，此时 mSBD operator 简化为

\[M[ y \mid x, z ] = \sum_z P(y \mid x, z) P(z).\]

这个形式即经典的 adjustment formula / g-formula。

为什么需要 DML：
若 W（或本例中的 R）是高维的（即有大量协变量），直接 plug-in 估计 \(P(y \mid x, z)\) 和 \(P(z)\) 将很吃力。用柔性 ML（例如随机森林、神经网络）估计这些 nuisances 时，插件估计量会因正则化偏差而破坏 \(pN\)-相合性。DML 通过构造以下正交得分（orthogonal score）来缓解：

\[\psi(V; \eta) = \underbrace{I(X=x)}_{\text{propensity}} \frac{Y - \mu(x,W)}{g(x,W)} + \mu(x,W) - \theta,\]

其中 \(\mu(x,w)=E[Y|X=x,W=w]\)，\(g(x,w)=P(X=x \mid W=w)\)，\(\theta = E[\mu(X,W)]\)。这就是著名的 AIPW 得分。该得分在 \(\mu\) 或 \(g\) 中有一个被错误设定时仍然一致估计 \(\theta\)（双重稳健性），并且只需 nuisance 以 \(n^{-1/4}\) 速率收敛即可使 \(\theta_{DML}\) 达到 \(pN\)-相合（debiasedness）。

本报告的核心想法：对于 ratio 型更复杂的 estimand，可以用链式法则在更基本的 mSBD 元素的 IF 基础上，递归地构造整个表达式的 Neyman orthogonal score。

三、报告主体：讲者讲了什么¶

以下按转写时间线整理，合并幻灯片（权威）信息来校正 ASR 错误、填充结构。

[0:00-0:05] 背景与动机
- 讲者 Jin Tian 定位问题：从观测数据估计因果效应 \(P_x(y)\)。
- 两大困难：(1) 识别问题：给定因果图和观测分布，causal effect 是否唯一确定；(2) 估计问题：给定识别后的表达式，如何从有限样本高效估计。
- 识别方面已有完整算法（ID algorithm），但估计方面当前通用工具只有 plug-in estimator，在非参数/高维场景下脆弱。
- 希望得 DML 风格的估计量，兼具双重稳健性与pN-相合性（debiasedness）。

[0:05-0:12] DML 背景
- 对于 backdoor 调整（单时间点/忽略性）已有广泛 DML 文献（AIPW, augmented IPW, 等）。但在该文献之外，尚没有通用方法。
- 关键构造要素：Neyman-orthogonal score + cross-fitting。
- 若有一个正交得分 \(\psi(V; \theta, \eta)\)，满足 \(\mathbb{E}[\psi(V; \theta, \eta)]=0\) 且 \(\partial_{\eta} \mathbb{E}[\psi(V; \theta, \eta)]|_{\eta=\eta_0}=0\)，则采用 cross-fitting 后，\(\hat\theta\) 可达到 \(pN\)-相合，即使所有 nuisance 以 \(n^{-1/4}\) 速率收敛。

（本段是讲者对既有 DML 的导引，不是创新点。）

[0:12-0:23] 第一部分：基于给定因果图的 DML-ID

mSBD 特例
- 先考虑一类特殊识别算子：multi-outcome Sequential BackDoor (mSBD)。公式简单化（见幻灯片）：给定一个序列 X=(X1,…,Xk) 与相应 Y=(Y0,…,Yk)，若 Z_i mSBD-admissible，则因果效应可以写为

\[M[ y \mid x; z ] = \sum_z \prod_{i=0}^k P(y_i \mid x^{(i)}, z^{(i)}, y^{(i-1)}) \prod_{j=1}^k P(z_j \mid x^{(j-1)}, z^{(j-1)}, y^{(j-1)}).\]

（这是从幻灯片原文摘录，转写中的“this is the msbb adjustment form”对应此处。）

对于这一 mSBD 形式，讲者团队显式推导出了其 Neyman-orthogonal score \(\phi_{M}\)（slides 给出较长的展开式）。此得分具有标准 AIPW 般的双重稳健性：要么所有 \(P(y_i | \cdots)\) 正确，要么所有 \(P(z_j | \cdots)\) 正确，估计量即一致。

[0:23-0:29] 从 mSBD 到一般 ID algorithm
- ID algorithm 输出的表达式本质上是将因果效应分解为乘积/除法/边缘化（算术组合）的 C-factors。C-factor 是干预分布 \(Q[C] = P_{V\setminus C}(c)\)，该 Q[C] 本身满足一个mSBD representation（Lem.1 在幻灯片中）。
- 因此任意可识别效应 = 一组 mSBD 调整的算术组合。
- 关键步骤：开发了专门算法 DML-ID，将 ID algorithm 的输出逐层解析为 mSBD 项，再递归构造 IF：
- 若 estimand 是若干个 mSBD 的和/积/商，则 IF 可以通过链式法则从每个分量的 IF 拼接出来。
- 例如 ratio 情形：\(\theta = \frac{\alpha}{\beta}\)，其中 \(\alpha,\beta\) 为 mSBD (或更一般的 IF 已知)，则 \(\psi_{\theta} = \frac{1}{\beta} \left( \psi_{\alpha} - \theta \psi_{\beta} \right)\)（类似形式在 slides 中以例1的公式给出）。

[0:29-0:36] 示例与模拟
- 用“napkin graph”（图1a，来自讲稿例1）展示：ID algorithm 输出 ratio 形式。
- 构造了 ratio 的 IF，显示出双重稳健性的两组系列：要么所有 nuisance 在前一个 mSBD 中正确，要么所有在后一个 mSBD 中正确。
- 模拟结果以图表比较 DML 估计量与 plug-in：
- debiasedness 模拟：plug-in 偏差不随 N 衰减，DML 快速趋零。
- double-robustness 模拟：当某一组建 mod 被误设时，plug-in 偏差大，DML 仍然一致。

[0:36-0:45] 第二部分：基于 PAG 的 DML-IDP
- 场景：图未知，仅假设可学习到一个部分祖先图（PAG）（例如通过 FCI 算法从数据学习）。PAG 代表一个马尔可夫等价类。
- 对于 PAG，此前已有 IdP algorithm 来检查 pik-effect 是否在所有等价类图上一致，若一致则输出一个基于 PAG 定义的表达式。
- 报告的贡献：将 IdP 的识别输出包装进 DML-ID 框架，称为 DML-IDP algorithm；自动输出一个 Neyman-orthogonal score + DML estimator。
- 转写中举了一个 PAG 的例子（slides 未完全显示详细表达式，很复杂）。结论属性相同：具 debiasedness 与某种程度的多重稳健性。

[0:45-1:05] 讨论环节
（由 Ilya Shpitser 主持，以下为讨论核心，不是报告者的 assertion，而是评判与提问——注意不用作报告结论）
- Shpitser 提出几个关键洞见：
(1) 报告中 mSBD 的 IF 其实等价于已知的 g-computation 的 IF，因为 mSBD functional 本质上是 g-formula（延续 Robins 1986）；因此这一部分的 IF 推导可能不新颖，不过整合到 ID 框架才是新。
(2) 对于双重稳健性，Shpitser 以他构造的图例（含四个 C-component）说明：当多个 mSBD 项通过除法组合后，robustness 性质可能不再是“one-out-of-two”，而是变得更复杂（例子里是“two-out-of-three”）。这意味着“双稳健性”这个词在更复杂 estimand 下可能不再严格成立；报告中的“doubly robustness”更偏向“groupwise robustness”。
(3) 对于 PAG 场景，Shpitser 指出：使用数据先学习 PAG（第一次模型选择），再在该 PAG 上跑 DML-IDP，整条 pipeline 的 \(pN\)-相合性极难保证（因为 PAG 估计一般不具有均匀一致速率）；“post-selection inference”难题被搁置。
- Jin Tian 现场回应：a) 他们不声称效率（efficient IF），b) 离散假设只是为了简化 IF 可微性，可推广到连续 case；c) 对于稳健性，他们同意术语应更精确，但报告主要专注于开发算法框架。

四、对应论文与开放问题¶

对应论文/文献¶

核心论文：
Jung, Tian, Bareinboim (2021). Estimating Identifiable Causal Effects through Double Machine Learning. AAAI-21.
（这是此 trans 中反复出现的“our paper”。）
相关预备工作：
Jung, Tian, Bareinboim (2020a). Estimating Causal Effects Using Multi-Outcome Sequential Backdoor Criterion. NeurIPS 2020.
Jung, Tian, Bareinboim (2020b). Learning Causal Effects via Neural Networks. 2020.
（转写中提及的“prior work”，但这些名字为基于领域知识推断，需要查原稿确认。特别：2020a 可能是 M 算子的首次提出。）
ID algorithm 基础：
Tian & Pearl (2003); Shpitser & Pearl (2006)（幻灯片中引用）。
DML 基础：
Chernozhukov et al. (2018), Double/debiased machine learning for treatment and structural parameters (Econometrics Journal).
IdP algorithm:
Jaber, Zhang, Bareinboim (2018). Causal Identification from a Set of Observational Data given a Graph. 或 Perkovic et al. (2018).
（转写中“IdP algorithm”，具体引用需核。）

开放问题（每条扎根于讨论或转写中的具体点）¶

效率（efficiency）：转写 [0:22:00] 处，讲者被问到“是否保证半参数效率”，回答是“no, we don't claim any efficiency”。报告未解决的一个明确开放问题是：对于由 ID algorithm 表达的一般因果 estimand，有效的半参数影响函数（efficient IF）是什么？能否系统性地从图中推导？[基于 Shpitser 讨论“我们对效率所知甚少”]
双重稳健性的真正本质：讨论中 [1:04:00] Shpitser 举了一个四点子图例，说明多个 mSBD 项的算术组合可能会导致稳健性从“one-out-of-two”退化为“k-out-of-m”（看他具体分析的“two-out-of-three”）。这引出了一个开问题：对于 ID algorithm 输出的任意 estimand，报告能否精确刻画它的稳健性结构（哪个 nuisance 子集正确即一致）？术语“doubly robust”在复杂组合下是否仍成立？
后选择推断问题（post-selection inference）：报告的第二部分（DML-IDP）依赖于先学习一个 PAG，然后在该 PAG 上构建 DML 估计量。Shpitser 在 [0:59:00] 指出这种 pipeline 没有获得均匀 \(pN\)-相合性，因为 PAG 学习步骤本身不带均匀一致速率。这是一个公认的难题：针对在不确定性图中做估计的整套流程，要如何同时考虑图估计的误差并保证最终 estimand 的渐近性质？
连续变量延伸：报告基于离散假设构建 IF（[1:01:00] 讲者确认）。虽然声称可推广，但连续情况下 IF 定义的严格可微性条件（e.g. Poisson process / smoothness assumptions）会带来额外困难。最弱而便于应用的连续假设是什么？ 幻灯片末尾提到“The results can be extended to continuous cases with additional conditions … well-defined”（Robins 2000; Díaz & van der Laan 2013; Kennedy et al. 2017），但具体哪些条件未展开。
计算复杂度：这是一个系统性算法（DML-ID 递归构建 IF），对于较大 DAG（有几十个变量、多个 C-component）其输出 IF 表达式规模可能极大；尚未讨论计算可行性或近似策略。但转写中未直接涉及此点——作为开放问题略显牵强；但如果研究者关心 computational cost，可以合理推测该算法输出的 IF 可能指数级膨胀。

Maintained by 陈星宇 · Homepage · Source on GitHub