Average Causal Effect Estimation in DAGs with Hidden Variables: Beyond Back-Door and Front-Door Criteria¶
讲者: Young Researchers' Seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-02-17
主题: 因果推断
视频: https://youtu.be/GO1z9bECD2k · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2312.10234 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告本质上是在回答一个有隐藏变量的因果图模型中,最优的(非参数有效、灵活、可自动化)估计方法是什么——而且是针对一类特殊但广泛的、可以被当前非参数识别算法“判定为可识别的” 的因果参数。
背景:在有隐藏变量(unmeasured confounders)的 DAG 中,标准的 back-door 调整(g-formula)一般失效。现有文献给出了两条互补的路径:
- 识别(identification)路线:Tian and Pearl (2002)、Shpitser and Pearl (2006) 等给出了在 acyclic directed mixed graphs(ADMGs)上sound and complete 的识别算法——对任意给定 ADMG,算法可以在多项式时间内判断某个因果参数(如 ATE)是否被非参数识别,并给出一个识别函数(若存在)。该方向已成熟,商业图模型因果推断软件(如 causaleffect R 包)均基于此。
- 估计(estimation)路线:在识别函数已知后,如何灵活地给出一致且渐近有效的估计?这方向早先有 Bhattacharya et al. (2020) 针对特定图类的参数化估计;Jung et al. (2024) 和 Fulcher et al. (2020) 提供了一些具体图类(如 front-door)的估计方法。但缺失的是一个统一、可处理整个 primal fixability 类图(即 A 满足 ch_G(A) ∩ dis_G(A) = ∅)、同时允许使用任意机器学习方法(非参数速率)且保持根号 n 一致性与渐近有效性的估计框架。
这场报告的位置:讲者(Anna Guo)及其合作者(Nabi, Benkeser)试图补上这个缺口。报告核心工作线可分为两条:(1)对于primal fixability 类(“A 是 primal fixable”),给出一个通用的非参数有效估计框架(one-step + TMLE),并推导了充分条件(涉及多个 nuisances 的 L2 速率的乘积条件)以确保渐近线性;(2)对于primal fixability 类之外但 ATE 仍可识别的特例(如 “Napkin graph”,亦称“bow graph”),给出特殊处理,并引入一个凸组合加权影响函数来提升效率。两点均以 R 包 flexCausal 实现。
⚠ 注意:演讲中引用的文献标题有: - Guo & Nabi, "Average Causal Effect Estimation in DAGs with Hidden Variables: Beyond Back-Door and Front-Door Criteria", arXiv 2409.03962. - Guo, Benkeser, & Nabi, "Flexible Nonparametric Inference for Causal Effects under the Front-Door Model", arXiv 2312.10234. - Guo, Benkeser, & Nabi, "Causal Inference with the 'Napkin' Graph", arXiv 2512.19861(字幕听成 "b2 b0",实际是 2512.19861;slide 写的是 2512.19861)。
重要背景引用(对理解工作线必不可少): - Tian & Pearl (2002) "A general identification condition for causal effects" —— 提出 primal fixability 与识别条件。 - Bhattacharya, Nabi, & Shpitser (2020) "Semiparametric inference for causal effects in graphical models with hidden variables" —— 给出了 primal fixability 类下 ATE 的非参数影响函数(EIF)公式。Guo 等人的工作大量建立在该 EIF 上,但关键在于重参数化 EIF 中涉及的密度比项,以便用灵活的回归方法而非直接密度估计来估计。
二、最小内核 / 一个最简例子¶
2.1 符号、模型与可观测数据¶
令观测数据为 \(O = (X, A, M, Y)\),其中: - \(A \in \{0,1\}\):二值处理变量。 - \(Y \in \mathbb{R}\):结果变量。 - \(X \in \mathbb{R}^d\):观测到的预处理混杂。 - \(M\):一个可能的后处理变量(在前门 / front-door 情形下它落在 \(A\) 的 district 中)。 - 存在未观测的混杂 \(U\)(不进入 \(O\))。
图结构(ADMG 表示):
A → M → Y
X → A, X → M, X → Y
A ↔ Y
A ↔ Y 的 bidirected edge 表示由隐藏变量引起的相依性。A 的 district dis_G(A) = {A}(只有 A 自身),children ch_G(A) = {M};因为 dis_G(A) ∩ ch_G(A) = ∅,所以 A 是 primal fixable。)
目标 estimand:ATE = \(\mathbb{E}[Y^{a=1} - Y^{a=0}]\),或更一般地期望潜在结果 \(ψ_{a_0} = \mathbb{E}[Y^{a_0}]\), \(a_0\in\{0,1\}\)。
2.2 识别函数(由幻灯片 [5/20] 的公式)¶
由 Tian-Pearl 算法可得识别函数:
2.3 重参数化:将识别函数写成迭代期望¶
关键技巧:将上述识别函数重新表达为(slide [7/20]):
-
将 \(ψ_{a_0}\) 展开为:
\[ψ_{a_0} = \mathbb{E}[I(A=a_0)Y] + \text{调整项}\]其中调整项 = 一个嵌套的期望结构:外层在 \(X\) 上,中间层在 \((M, a_0, X)\) 上,最内层在 \((L, M, a_0, X)\) 上;在 front-door 模型中没有 \(L\)(\(L\) 为空),因此退化为两个嵌套期望。 -
具体地,对于这个单 M 的 front-door 模型,定义顺序回归函数:
- \(B_Y(m,x) = \mathbb{E}[Y \mid M=m, A=a_0, X=x]\)(即先用观测数据 \(Y \sim M,A,X\) 拟合,再在 \(A:=a_0\) 下预测)
- \(B_M(x) = \mathbb{E}[B_Y(M,x) \mid A=a_0, X=x]\) 那么调整项 = \(\mathbb{E}[B_M(X)]\)。
所以 plug-in estimator 仅需两个顺序回归。
2.4 为什么这种方法比直接估计密度更容易?¶
原始识别函数要求估计 \(\mathrm{d}P(m|a_0,x)\)——一个条件密度。而重参数化后的估计只需要条件期望回归(\(B_Y\) 和 \(B_M\)),可以使用任何黑箱回归器(随机森林、神经网络、超学习器)。这是该方法灵活性的核心。
三、报告主体:讲者讲了什么¶
[0:00 - 0:05] 会议介绍:两场演讲;第一场 Anna Guo,Emory University,合作者 Razieh Nabi 和 David Benkeser。
[0:05:21 - 0:06:31] 设置框架:ATE 定义;没有未观测混杂时 back-door/g-formula 可识别;有未观测混杂则需要用其它方法(敏感性分析、边界、IV)。讲者强调本报告采用图模型路径:使用 ADMGs(将未观测变量投影出去),图模型识别算法(Tian-Pearl,Shpitser-Pearl)来判断目标是否可识别。
[0:06:31 - 0:08:05] ADMG 与 primal fixability:
- ADMG 的双向边(bidirected edges)表示未混杂,这些边将变量划分到不同district(双向边连通分量)。
- A 的 district:dis_G(A),A 的 children:ch_G(A)。
- Primal fixability:ch_G(A) ∩ dis_G(A) = ∅。若成立,则整个 post-intervention 分布 p(V\A | do(A=a_0)) 可识别。
- 若 primal fixability 不成立,整个分布不可识别,但某些边缘(如 ATE)可能仍然可识别(如 Napkin graph 示例)。
[0:08:05 - 0:09:35] 对于 primal fixability 类,识别函数的通用形式(slide [5/20]): - 将变量分为预处理 X、A 的 district 内的后处理变量 M、district 外的后处理变量 L。 - 再引入 markov pillow(mp):对每个变量 V_i,mp(V_i) = 所有在 V_i 之前且落在 V_i 的 district 或该 district 的父母集中的变量。 - 通用识别函数是一个多层积分/求和,其中 M 组变量的条件密度中 A 被设为 \(a_0\),L 组变量的条件密度中 A 被设为“随机”并在 A 层先验上积分(幻灯片 [5/20] 公式)。
[0:09:35 - 0:12:03] 估计目标:计算高效 + 灵活(允许 ML)+ 保持统计优良性质(根号 n 一致、渐近线性)+ 实现为统一 R 包。
[0:12:03 - 0:13:14] 重参数化与 plug-in 估计: - 通过将识别函数拆成“基线项 + 迭代期望项”,将原本需要估计多个条件密度的问题转化为一系列条件期望回归。 - 对于 front-door 模型,仅需 2 个回归;对于双中介模型(slide [7/20]),需要 \(K\) 个回归(\(K\) 为 \(A\) 与 \(Y\) 之间的变量数)。 - 这些回归可以顺序进行(sequential regressions),依次形成 pseudo-outcomes。
[0:13:14 - 0:16:45] 基于影响函数(EIF,efficient influence function)的估计量: - 单纯的 plug-in 估计量需要所有回归都正确指定才一致,且若用 ML 会有巨大一阶偏差。 - 利用 Bhattacharya et al. (2020) 给出的非参数有效影响函数,但他们的版本中涉及密度比乘积,直接用 ML 较难。 - 讲者给出的关键贡献:重参数化 EIF,使得密度比项也可用基于回归的方法(通过贝叶斯定理重新表达为倾向得分之比)来估计 → 整个 EIF 可以完全通过回归 + 倾向得分 + 密度比回归 来估计。
[0:16:45 - 0:20:00] 渐近线性条件与双重稳健性(slide [11/20] & [12/20]): - 状态条件的核心:nuisances 之间的收敛速率需要满足乘积条件,例如对于某对 nuisance(回归 + 密度比),要求它们的 L2 收敛速度的倒数和 ≥ 1/2。这是典型的“慢速率 vs 慢速率 = 根号 n 整体”的逻辑。 - 双重稳健性:两种方式达到一致 —— (a) 所有顺序回归一致且 | (b) 倾向得分 + 密度比估计一致。不需要两者同时。 - 注意:slide [12/20] 列出了不同的稳健性“路径”(基于条件密度的路径、基于顺序回归 vs 密度比直接估计的路径、基于顺序回归 vs 贝叶斯重参数化的路径)。这些路径在实际操作中提供灵活性。
[0:20:00 - 0:24:00] flexCausal R 包演示:以前门模型为例,通过 make.graph() 定义 ADMG,再调用 flex_est(a=c(1,0), data, graph, treatment, outcome) 即可得 ATE 的点估计和置信区间;输出会判断图是否非参数饱和(若饱和则报告所使用的估计量是有效估计量)。
[0:24:00 - 0:27:32] 假设检验(字幕听为 “testing”):
- 具体针对 front-door 模型。该模型本身非参数饱和(对观测数据不施加约束),不可直接检验。
- 引入 anchor variable Z(预处理变量,与 A 和 M 有关,且不影响 Y),来产生一个Verma 约束(即干预 M 后的条件独立关系 Z ⊥ Y | X)。这个约束可被用于检验 front-door 的识别假设(无直接效应 + 各条件可忽略性)。
- 已有 Bhattacharya & Nabi (2022) 提出两个检验统计量;讲者的贡献:将这个检验变成双重稳健检验——不仅检验统计量本身要双重稳健,所使用的高方差估计量也要双重稳健,以允许 ML 估计 nuisance。
[0:27:32 - 0:31:15] Napkin graph(亦称 bow graph):primal fixability 不成立的例子,但 ATE 仍可识别。识别函数呈现为两个 g-formula 之比。 - 第一个 g-formula 分子:在干预 Z=z 下,\(\mathbb{E}[I(A=a_0) Y]\)。 - 第二个 g-formula 分母:在干预 Z=z 下,\(\mathbb{E}[I(A=a_0)]\)。 - 有趣的性质:ATE 对 z 的选择是不变的(z 可在 Z 的全支撑上任取)。 - 效率提升:由于不变性,对于不同的 z 可得到不同的影响函数;讲者提出将一族影响函数线性组合(权重和为 1),再估计出最小方差权重,从而得到一个加权影响函数估计量*,模拟显示方差减小。但严格推导 Verma 约束下的切空间(nuisance tangent space)是公开问题。
[0:31:15 - 0:31:30] 总结与未来工作。
问答环节关键点(第二场演讲的问题中对第一场的回应?实际上第二场是第二位的;第一场结束后主持人直接说 Razi 已回答完问题。据 slide 与转写,没有第一场的问答环节,但讲者 slide 上已有测试部分)——转写中第一场结束后即进入第二场闭合,无 QA。
四、对应论文与开放问题¶
对应论文¶
- Guo, Benkeser, & Nabi (2023). "Flexible Nonparametric Inference for Causal Effects under the Front-Door Model." arXiv:2312.10234. —— 对应报告中“front-door 模型下的估计 + 假设检验”部分。✅ 用户已在 Candidate papers 中给出。
- Guo & Nabi (2024). "Average Causal Effect Estimation in DAGs with Hidden Variables: Beyond Back-Door and Front-Door Criteria." arXiv:2409.03962. —— 对应“primal fixability 类的统一估计框架”。✅ slide 明确标记,是主体。
- Guo, Benkeser, & Nabi (2025? slide 写 2512.19861). "Causal Inference with the 'Napkin' Graph." arXiv:2512.19861. —— 对应 Napkin graph 部分。字幕听成 "b2 b0",slide 明确写 arXiv 2512.19861。
- (报告中提及的 works)Bhattacharya, Nabi, & Shpitser (2020) "Semiparametric inference for causal effects in graphical models with hidden variables." JMLR。—— 提供了最初始的 EIF。讲者的工作大量建立于此 EIF 并对之进行重参数化。
- Bhattacharya & Nabi (2022) 关于 front-door 的假设检验(slide [14/20] 引用,anchor variable 方法)。
⚠ 注意:以上 arXiv 编号对 paper 1 和 2 是确定的(slide 与转写均验证);paper 3 需从 slide 确认(编号 2512.19861,但 ASR 完全听错)。建议去 arXiv 核实。
报告留下的开放问题¶
- Verma 约束下的半参数效率理论(转写 [0:24:39-0:24:41]:“the nuisance tangent space under the Verma constraint... is still an open question” + slide 末尾)。目前只能用启发式方法(加权影响函数)来选最优 z*;完整的效率界推导尚未完成。
- 超越 front-door 模型的假设检验(转写 [0:25:59-0:26:04]:“propose testing methods and sensitivity analysis beyond the front-door model, but instead for the entire class of models” )—— 对 primal fixability 类内一般的图,如何系统地检验图结构假设?
- Napkin graph 的最优 z* 选择的严格理论(转写 [0:24:23-0:24:26]:“which C star gives us the most efficient estimator... in a rigorous way to answer this question is by deriving the nuisance tangent space”—— 在完整的半参数效率理论出来之前,加权组合的方差最小化是一个工程解,但未知是否已被完整刻画。
- flexCausal R 包在更复杂图(高维 X 或 K 个中介)上的计算可扩展性与渐近精度 —— 如何在保持理论上根号 n 一致性与实际计算成本之间平衡?是否适用于 high-dimensional settings?讲者未讨论。
给研究者的建议:如果你对半参数效率理论 + 高阶 U 统计量感兴趣,报告中的“影响函数重参数化”和“乘积 R2 条件”可能与你熟悉的 HOIF 方法产生共鸣——此处 EIF 中多乘积交互项(密度比 × 回归误差)的高阶偏置分析、以及“多个 nuisances 的收敛速率乘积”的根号 n 条件,与 You 正在读的 HOIF 理论有潜在联系。尤其是当 Z_k 个数 K 很大时,顺序回归与 EIF 的复杂度可能涉及类似 tensor contraction 的因子化形式,这正是你“统计计算”兴趣的切点。
Maintained by 陈星宇 · Homepage · Source on GitHub