Estimating Identifiable Causal Effects through Double Machine Learning - Graph-based & Data-driven Approaches¶
讲者: Jin Tian
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-09
主题: 因果推断
视频: https://youtu.be/PUOYK2zhjLc · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这条工作线位于 因果效应识别(Identification) 与 高效率估计(Estimation) 的交汇处,具体属于“对任意可识别因果效应构造双机器学习(DML) 估计器”的系统性尝试。
子方向追问的问题:给定一个因果图(DAG with bidirected edges)和从上图观测到分布中抽得的有限样本,我们能否对一个由识别算法(如 ID algorithm)输出的、非标准形式(如包含除法、求和、多层求和)的因果表达式,系统性地构造一个估计量,使其满足:(i) 对高维/基于 ML 的 nuisance 估计具有 pN-相合性(debiasedness);(ii) 对部分 nuisance 被错误设定仍保持 双重稳健性(doubly robustness)。
奠基与主流路线:
- 经典的后门/前门调整、g-formula / sequential backdoor(Robins, 1986; Pearl, 1995;等都已有成熟的估计量。
- 针对这些特例,DML 文献(Chernozhukov et al., 2018)提供了 Neyman orthogonal score + cross-fitting 的通用框架,但仅讨论了 backdoor 类设定。
- 更广泛的任意识别效应(ID algorithm 输出)的估计,此前仅有“plug-in estimator”这一通用选项:先估计所有 conditional probabilities(nuisance),直接代入表达式。这有两个缺陷:(1) 所有 nuisance 都必须准确,否则不一致(无双重稳健性);(2) 当使用收敛慢的 ML (如神经网络)时,pN-相合性失效。
当前 Frontier 与这场报告的站位:
- 此前已有专项工作为特定非 backdoor 设定(如 front-door、IV、mediation)构造了 DML / 双重稳健估计量(Toth & van der Laan 2016; Kennedy 2018; Bhattacharya et al., 2020)。但没有一个通用框架能自动接受 ID algorithm 输出的任意表达式并输出 DML 估计量。
- 这场报告(Jung, Tian, Bareinboim AAAI-21)填补了这一空白:它在 ID algorithm 的基础上定义 DML-ID algorithm,该算法将任意可识别效应分解为 一组 mSBD (multi-outcome Sequential BackDoor) 调整的算术组合;对每个 mSBD 项,报告给出了显式的影响函数(IF);再用链式法则的组合技巧,自顶向下推导出整个 estimand 的 Neyman orthogonal score。这样,任何可识别效应都能套用 DML 模板,获得双重稳健性与 pN-相合性。
- (报告还讨论了第二种场景:当因果图未知、仅有一个部分祖先图(PAG)时,综合 IdP algorithm + DML 构造的 DML-IDP 算法;本节侧重图形那一半。)
本报告核心文献:
- Jung, Tian, Bareinboim, Estimating Identifiable Causal Effects through Double Machine Learning, AAAI 2021(报告核心论文,转写中提到的“our paper”)。
- 更早的识别与估计工作(转写里提到了,名字可能不准):
- The “ID algorithm”(Tian & Pearl, 2003; Shpitser & Pearl, 2006).
- The “IdP algorithm” for PAG(Perkovic et al., 2018; Jaber, Zhang, Bareinboim, 2018 等).
- 关于 mSBD 的较早论文:Jung, Tian, Bareinboim, Estimating Causal Effects Using a Multi-outcome Sequential Backdoor Criterion, NeurIPS 2020a.
- 关于 mSBD 的 IF 推导的先驱工作:Jung, Tian, Bareinboim, Learning Causal Effects via Neural Networks, 2020b.
(注意:上述引用均基于文稿提到的线索推断,具体标题和年份建议查看对应论文 PDF 核实;不在此罗列完整 bibliography。)
二、最小内核 / 一个最简例子¶
符号、模型、可观测数据¶
令 V = {W, X, Y}。假设我们有一个半马尔可夫因果图 G,其中:
- 观察变量:W(协变量)、X(处理变量,二值)、Y(结局变量,二值)。
- G 中有双向箭头 W ↔ Y(即 unobserved confounder U 使得 W 和 Y 之间存在未测量混杂)。
- 没有其他未测量混杂。
- (此图是“Klein graph / napkin graph”的一个简化版本,见转写中提到的例子。)
目标:估计因果效应 \( P_x(y) = P(Y=y \mid do(X=x)) \)。
识别结果(由 ID algorithm 产出,见转写和幻灯片):
针对这个最简单的图,ID algorithm 输出
关键概念:mSBD 调整(Multi-outcome Sequential BackDoor)。对于单时间点、二值处理、一个结局、一个协变量集合 Z 的情形,mSBD criterion 退化为标准的后门准则,此时 mSBD operator 简化为
这个形式即经典的 adjustment formula / g-formula。
为什么需要 DML:
若 W(或本例中的 R)是高维的(即有大量协变量),直接 plug-in 估计 \(P(y \mid x, z)\) 和 \(P(z)\) 将很吃力。用柔性 ML(例如随机森林、神经网络)估计这些 nuisances 时,插件估计量会因正则化偏差而破坏 \(pN\)-相合性。DML 通过构造以下正交得分(orthogonal score)来缓解:
本报告的核心想法:对于 ratio 型更复杂的 estimand,可以用链式法则在更基本的 mSBD 元素的 IF 基础上,递归地构造整个表达式的 Neyman orthogonal score。
三、报告主体:讲者讲了什么¶
以下按转写时间线整理,合并幻灯片(权威)信息来校正 ASR 错误、填充结构。
[0:00-0:05] 背景与动机
- 讲者 Jin Tian 定位问题:从观测数据估计因果效应 \(P_x(y)\)。
- 两大困难:(1) 识别问题:给定因果图和观测分布,causal effect 是否唯一确定;(2) 估计问题:给定识别后的表达式,如何从有限样本高效估计。
- 识别方面已有完整算法(ID algorithm),但估计方面当前通用工具只有 plug-in estimator,在非参数/高维场景下脆弱。
- 希望得 DML 风格的估计量,兼具双重稳健性与pN-相合性(debiasedness)。
[0:05-0:12] DML 背景
- 对于 backdoor 调整(单时间点/忽略性)已有广泛 DML 文献(AIPW, augmented IPW, 等)。但在该文献之外,尚没有通用方法。
- 关键构造要素:Neyman-orthogonal score + cross-fitting。
- 若有一个正交得分 \(\psi(V; \theta, \eta)\),满足 \(\mathbb{E}[\psi(V; \theta, \eta)]=0\) 且 \(\partial_{\eta} \mathbb{E}[\psi(V; \theta, \eta)]|_{\eta=\eta_0}=0\),则采用 cross-fitting 后,\(\hat\theta\) 可达到 \(pN\)-相合,即使所有 nuisance 以 \(n^{-1/4}\) 速率收敛。
(本段是讲者对既有 DML 的导引,不是创新点。)
[0:12-0:23] 第一部分:基于给定因果图的 DML-ID
mSBD 特例
- 先考虑一类特殊识别算子:multi-outcome Sequential BackDoor (mSBD)。公式简单化(见幻灯片):给定一个序列 X=(X1,…,Xk) 与相应 Y=(Y0,…,Yk),若 Z_i mSBD-admissible,则因果效应可以写为
(这是从幻灯片原文摘录,转写中的“this is the msbb adjustment form”对应此处。)
- 对于这一 mSBD 形式,讲者团队显式推导出了其 Neyman-orthogonal score \(\phi_{M}\)(slides 给出较长的展开式)。此得分具有标准 AIPW 般的双重稳健性:要么所有 \(P(y_i | \cdots)\) 正确,要么所有 \(P(z_j | \cdots)\) 正确,估计量即一致。
[0:23-0:29] 从 mSBD 到一般 ID algorithm
- ID algorithm 输出的表达式本质上是将因果效应分解为乘积/除法/边缘化(算术组合)的 C-factors。C-factor 是干预分布 \(Q[C] = P_{V\setminus C}(c)\),该 Q[C] 本身满足一个mSBD representation(Lem.1 在幻灯片中)。
- 因此任意可识别效应 = 一组 mSBD 调整的算术组合。
- 关键步骤:开发了专门算法 DML-ID,将 ID algorithm 的输出逐层解析为 mSBD 项,再递归构造 IF:
- 若 estimand 是若干个 mSBD 的和/积/商,则 IF 可以通过链式法则从每个分量的 IF 拼接出来。
- 例如 ratio 情形:\(\theta = \frac{\alpha}{\beta}\),其中 \(\alpha,\beta\) 为 mSBD (或更一般的 IF 已知),则 \(\psi_{\theta} = \frac{1}{\beta} \left( \psi_{\alpha} - \theta \psi_{\beta} \right)\)(类似形式在 slides 中以例1的公式给出)。
[0:29-0:36] 示例与模拟
- 用“napkin graph”(图1a,来自讲稿例1)展示:ID algorithm 输出 ratio 形式。
- 构造了 ratio 的 IF,显示出双重稳健性的两组系列:要么所有 nuisance 在前一个 mSBD 中正确,要么所有在后一个 mSBD 中正确。
- 模拟结果以图表比较 DML 估计量与 plug-in:
- debiasedness 模拟:plug-in 偏差不随 N 衰减,DML 快速趋零。
- double-robustness 模拟:当某一组建 mod 被误设时,plug-in 偏差大,DML 仍然一致。
[0:36-0:45] 第二部分:基于 PAG 的 DML-IDP
- 场景:图未知,仅假设可学习到一个部分祖先图(PAG)(例如通过 FCI 算法从数据学习)。PAG 代表一个马尔可夫等价类。
- 对于 PAG,此前已有 IdP algorithm 来检查 pik-effect 是否在所有等价类图上一致,若一致则输出一个基于 PAG 定义的表达式。
- 报告的贡献:将 IdP 的识别输出包装进 DML-ID 框架,称为 DML-IDP algorithm;自动输出一个 Neyman-orthogonal score + DML estimator。
- 转写中举了一个 PAG 的例子(slides 未完全显示详细表达式,很复杂)。结论属性相同:具 debiasedness 与某种程度的多重稳健性。
[0:45-1:05] 讨论环节
(由 Ilya Shpitser 主持,以下为讨论核心,不是报告者的 assertion,而是评判与提问——注意不用作报告结论)
- Shpitser 提出几个关键洞见:
(1) 报告中 mSBD 的 IF 其实等价于已知的 g-computation 的 IF,因为 mSBD functional 本质上是 g-formula(延续 Robins 1986);因此这一部分的 IF 推导可能不新颖,不过整合到 ID 框架才是新。
(2) 对于双重稳健性,Shpitser 以他构造的图例(含四个 C-component)说明:当多个 mSBD 项通过除法组合后,robustness 性质可能不再是“one-out-of-two”,而是变得更复杂(例子里是“two-out-of-three”)。这意味着“双稳健性”这个词在更复杂 estimand 下可能不再严格成立;报告中的“doubly robustness”更偏向“groupwise robustness”。
(3) 对于 PAG 场景,Shpitser 指出:使用数据先学习 PAG(第一次模型选择),再在该 PAG 上跑 DML-IDP,整条 pipeline 的 \(pN\)-相合性极难保证(因为 PAG 估计一般不具有均匀一致速率);“post-selection inference”难题被搁置。
- Jin Tian 现场回应:a) 他们不声称效率(efficient IF),b) 离散假设只是为了简化 IF 可微性,可推广到连续 case;c) 对于稳健性,他们同意术语应更精确,但报告主要专注于开发算法框架。
四、对应论文与开放问题¶
对应论文/文献¶
- 核心论文:
Jung, Tian, Bareinboim (2021). Estimating Identifiable Causal Effects through Double Machine Learning. AAAI-21.
(这是此 trans 中反复出现的“our paper”。) - 相关预备工作:
- Jung, Tian, Bareinboim (2020a). Estimating Causal Effects Using Multi-Outcome Sequential Backdoor Criterion. NeurIPS 2020.
- Jung, Tian, Bareinboim (2020b). Learning Causal Effects via Neural Networks. 2020.
(转写中提及的“prior work”,但这些名字为基于领域知识推断,需要查原稿确认。特别:2020a 可能是 M 算子的首次提出。) - ID algorithm 基础:
Tian & Pearl (2003); Shpitser & Pearl (2006)(幻灯片中引用)。 - DML 基础:
Chernozhukov et al. (2018), Double/debiased machine learning for treatment and structural parameters (Econometrics Journal). - IdP algorithm:
Jaber, Zhang, Bareinboim (2018). Causal Identification from a Set of Observational Data given a Graph. 或 Perkovic et al. (2018).
(转写中“IdP algorithm”,具体引用需核。)
开放问题(每条扎根于讨论或转写中的具体点)¶
-
效率(efficiency):转写 [0:22:00] 处,讲者被问到“是否保证半参数效率”,回答是“no, we don't claim any efficiency”。报告未解决的一个明确开放问题是:对于由 ID algorithm 表达的一般因果 estimand,有效的半参数影响函数(efficient IF)是什么?能否系统性地从图中推导?[基于 Shpitser 讨论“我们对效率所知甚少”]
-
双重稳健性的真正本质:讨论中 [1:04:00] Shpitser 举了一个四点子图例,说明多个 mSBD 项的算术组合可能会导致稳健性从“one-out-of-two”退化为“k-out-of-m”(看他具体分析的“two-out-of-three”)。这引出了一个开问题:对于 ID algorithm 输出的任意 estimand,报告能否精确刻画它的稳健性结构(哪个 nuisance 子集正确即一致)?术语“doubly robust”在复杂组合下是否仍成立?
-
后选择推断问题(post-selection inference):报告的第二部分(DML-IDP)依赖于先学习一个 PAG,然后在该 PAG 上构建 DML 估计量。Shpitser 在 [0:59:00] 指出这种 pipeline 没有获得均匀 \(pN\)-相合性,因为 PAG 学习步骤本身不带均匀一致速率。这是一个公认的难题:针对在不确定性图中做估计的整套流程,要如何同时考虑图估计的误差并保证最终 estimand 的渐近性质?
-
连续变量延伸:报告基于离散假设构建 IF([1:01:00] 讲者确认)。虽然声称可推广,但连续情况下 IF 定义的严格可微性条件(e.g. Poisson process / smoothness assumptions)会带来额外困难。最弱而便于应用的连续假设是什么? 幻灯片末尾提到“The results can be extended to continuous cases with additional conditions … well-defined”(Robins 2000; Díaz & van der Laan 2013; Kennedy et al. 2017),但具体哪些条件未展开。
-
计算复杂度:这是一个系统性算法(DML-ID 递归构建 IF),对于较大 DAG(有几十个变量、多个 C-component)其输出 IF 表达式规模可能极大;尚未讨论计算可行性或近似策略。但转写中未直接涉及此点——作为开放问题略显牵强;但如果研究者关心 computational cost,可以合理推测该算法输出的 IF 可能指数级膨胀。
Maintained by 陈星宇 · Homepage · Source on GitHub