跳转至

Semiparametric inference for causal effects in graphical models with hidden variables

讲者: Razieh Nabi
讨论人: Eric Tchetgen Tchetgen
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-25
主题: 因果推断
视频: https://youtu.be/hNOXL4qHP8c · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向: 有隐藏变量图模型(ADMGs)中因果效应的半参数估计与影响函数推导。
核心追问: 给定一个非参数因果图模型(含未观测混杂),若因果效应通过图识别算法被判定为可识别(即能以观测分布的函数表示),如何构造具有良好统计性质的估计量——尤其是 (1) 不同估计量(plug-in MLE、IPW、双稳健AIPW)分别依赖哪些条件密度(不同的“集”);(2) 如何导出非参数影响函数(IF)并获得半参数效率界;(3) 当模型含有广义条件独立性约束(Verma约束)时效率如何提升。

奠基与主流路线:
- 识别理论:Tian & Pearl (2002) 提出 ADMG 的区分布(district)分解,给出 primal fixability 下 post-intervention 分布的识别;Shpitser & Pearl (2006)、Huang & Valtorta (2006) 给出 sound & complete 的识别算法;Richardson et al. (2017) 建立嵌套马尔可夫模型。
- 估计方法:DAG 下已有丰富结果(g-computation、IPW、AIPW、TMLE),Rotnitzky & Smucler (2019) 给出 DAG 中利用条件独立性提升效率的框架。但在 ADMG 中,习惯于直接使用识别算法输出的嵌套积分(nested functional)进行 plug-in 估计,缺乏系统的影响函数和双稳健估计。

当前 frontier 与报告站位:
近年来多名作者(如 Rotnitzky, Smucler, 以及 Tchetgen Tchetgen 关于 front-door 的双稳健估计)开始将半参数理论适配到非标准图模型。报告直接填补了 ADMG 中 “识别—影响函数—双稳健估计” 的缺失环节,针对 primal fixable 的一整类 ADMG,给出了三种变体估计量(primal IPW, dual IPW, augmented primal IPW)及其效率性质,同时提出 mb-shielded ADMG 作为一类不含 Verma 约束的模型,使得效率界计算可行。

关键引用(有把握的):
- Tian & Pearl (2002) – district factorization.
- Shpitser & Pearl (2006) – identification algorithm.
- Richardson, Robins et al. (2017) – nested Markov model.
- Rotnitzky & Smucler (2019) – efficiency in DAGs.
- Henckel, Perkovic, Maathuis (2019) – optimal adjustment.
(听不准的作者或年份已在转写中标明,将组织到正文中与幻灯片对照。)


二、最小内核 / 一个最简例子

2.1 符号与设定

考虑一个最小的 ADMG,节点集合

\[V = \{C,\, T,\, M,\, L,\, Y\},\]

其中观察到的变量:\(C\)(混杂),\(T\)(二值处理),\(M,L\)(后处理中介/协变量),\(Y\)(结局)。
未观测混杂由双向边表示:\(T \leftrightarrow L\)\(M \leftrightarrow Y\)

图结构(参照幻灯片第8–9页):

   C
  / \
 T → M
 |   |
 ↓   ↓
 L   Y
 (T-L bidirected, M-Y bidirected)

区分布(districts):
- \(D_1 = \{C\}\)\(D_2 = \{T, L\}\)(因双向边相连),\(D_3 = \{M, Y\}\)

目标 estimand:

\[\psi(t) = E[Y(t)], \quad t \in \{0,1\}.\]

2.2 识别公式(来自 ID 算法,幻灯片第9页)

该图已验证 primal fixable(因为 \(\text{dis}(T) \cap \text{ch}(T) = \emptyset\))。由 ID 算法输出:

\[\psi(t) = \sum_{C,T,M,L} E[Y \mid T=t, M, L, C] \; p(L \mid T, M, C) \; p(M \mid T=t, C) \; p(T \mid C).\]
这个形式需要指定四个条件密度才能用 plug-in 估计。

2.3 拓扑因子分解(幻灯片第7–8页)

选取拓扑序 \(\tau: C \prec T \prec M \prec L \prec Y\)
每个变量的 Markov pillow 定义为在该序下该变量所属区分布 ∪ 该区分布的父母(在子图中)。
在本例中: - \(p(C) = p(C)\)(无祖先) - \(p(T \mid C)\) (mp = \(\{C\}\)) - \(p(M \mid C, T)\) (mp = \(\{C, T\}\)) - \(p(L \mid T, M, C)\) (mp = \(\{C, T, M\}\)?实际 mp(L) = 区 \(\{T,L\}\) ∪ 其父母,即 \(\{C, T, M\}\),但根据幻灯片第7页公式,对于 \(L \in D_{T,L}\)\(p(L \mid \text{mp}(L)) = p(L \mid C, T, M)\)) - \(p(Y \mid T, M, L, C)\) (mp = \(\{C, T, M, L\}\)

于是拓扑因子分解:

\[p(V) = p(C) \, p(T\mid C) \, p(M\mid C,T) \, p(L\mid C,T,M) \, p(Y\mid C,T,M,L).\]

2.4 Primal IPW(最简形式)

根据幻灯片第12页,primal IPW 仅需使用 区分布 \(D_T\) 中的后处理变量(即集 \(L = \{T, L\}\))的条件密度:

\[\psi_{\text{primal}}(t) = E\left[ I(T=t) \times \frac{\sum_{T} p(T\mid C)\, p(L\mid T,M,C)}{p(T\mid C)\, p(L\mid T,M,C)} \times Y \right].\]
分母中的乘积正是 \(q_{D_T}(T \mid \text{mb}(T))\) 的因子。
含义: 只需正确指定 \(p(T\mid C)\)\(p(L\mid T,M,C)\) 即可得到一致估计——而不需要指定 \(p(M\mid C,T)\)\(p(Y\mid \dots)\)

2.5 Dual IPW(最简形式)

根据幻灯片第14–15页,dual IPW 使用 不在 \(D_T\) 中的后处理变量(即集 \(M = \{M,Y\}\)):

\[\psi_{\text{dual}}(t) = E\left[ \frac{p(M\mid T=t, C) \; p(Y\mid T=t, M, L, C)}{p(M\mid T, C) \; p(Y\mid T, M, L, C)} \times Y \right],\]
简化后表现为:
\[E\left[ \frac{p(M\mid T=t, C)}{p(M\mid T, C)} \times E[Y \mid T=t, M, L, C] \right].\]
只需正确指定 \(p(M\mid C,T)\)\(E[Y\mid T,M,L,C]\)

2.6 Augmented Primal IPW(双稳健性)

幻灯片第17–20页给出该例子的影响函数(IF)和双稳健性。
IF 可写成两个变体之和,估计量在正确指定 “集 \(L\) 中的密度”“集 \(M\) 中的密度” 之一时仍一致。

这个最小例子已充分展示:不依赖 全部 条件密度,而是通过不同的“块”构造两个变体估计量并组合,从而降低对模型错误设定的敏感度。


三、报告主体:讲者讲了什么

时间标注依据视频时间戳([H:MM])与幻灯片页码对应。


[0:00–0:06] 开场与目标陈述

讲者介绍自己、合作者、研究目标:对单一处理 → 单一结局的因果效应 \(E[Y(t)]\),在含未观测混杂的图模型中寻找估计策略。强调非参数识别与半参数估计。
(幻灯片第1–4页)

[0:06–0:11] DAG回顾

  • DAG统计模型:\(p(V)=\prod p(V_i\mid\text{pa}(V_i))\),条件独立性由 d-separation 读出。
  • 因果模型:通过截断因子分解获得 \(p(V(t))\),等价于逆概率加权。
  • 在 DAG 中效应总是可识别,且父母构成充分调整集。
  • 若 DAG 完全(无缺失边),AIPW 达到半参数效率界;否则可利用稀疏性提升效率(Rotnitzky & Smucler 2019; Henckel et al. 2019)。
    (幻灯片第2–4页)

[0:11–0:17] 从隐藏变量 DAG 到 ADMG

  • 有未观测混杂时更现实。通过潜在投影规则将隐藏变量 DAG 转换为 acyclic directed mixed graph (ADMG),其中双向边表示隐藏共因。
  • 给出例子:front-door 模型、更复杂的 ADMG。
  • 已有 sound & complete 的 ID 算法(Shpitser & Pearl 2006; Huang & Valtorta 2006; Richardson et al. 2017),但算法输出的 functional 复杂,难以直接 plug-in 估计。
    (幻灯片第5–6页)

[0:17–0:25] ADMG的区分布与拓扑因子分解(核心技术工具)

  • 区分布(district):双向边连通分量。例:图 C, T↔L, M↔Y 有三个 district。
  • 区分布因子分解(Tian & Pearl 2002):
    \[p(V) = \prod_{D\in\mathcal{D}(G)} q_D(D \mid \text{pa}_G(D)),\]
    其中 \(q_D\) 称为 kernel,具有因果解释(对 \(V\setminus D\) 干预后的分布)。
  • Markov pillow(幻灯片第7页):对变量 \(V_i\) 在拓扑序 \(\tau\) 下,
    \[\text{mp}(V_i) = \text{district of } V_i \cup \text{parents of that district} \text{ in } G_{\preceq_\tau V_i}.\]
  • 拓扑因子分解
    \[p(V) = \prod_{i} p(V_i \mid \text{mp}_G(V_i)).\]
    该分解编码了类似 DAG 局部马尔可夫性质的条件独立性。
    (幻灯片第7–8页;讲者在使用例子 C, T, M, L, Y 演示因子分解)

[0:25–0:30] 主要结果总览:primal fixability 分类

  • dis\((T)\)(处理所在 district)与 ch\((T)\)(处理的孩子)是否相交为关键准则:
  • dis\((T)\cap\text{ch}(T)=\varnothing\) → 处理是 primal fixable → 效应总是可识别。
  • 否则可能不可识别;但若恰好可识别(由 ID 算法判定),则属于嵌套 fixability。
  • 对 primal fixable 类,提出 primal IPW、dual IPW、augmented primal IPW 三种估计量,并导出非参数影响函数(IF)。
  • 特殊子类:adjustment fixability(即 dis\((T)\cap\text{de}(T)=\{T\}\)),此时 Markov pillow 构成充分调整集,估计退化为标准 AIPW。
    (幻灯片第9页,讲者说“我们 dividing the class of all ADMGs into two subclasses”)

[0:30–0:43] Primal IPW 与 Dual IPW 的构造

  • Primal IPW(幻灯片第11–12页):
    形式为
    \[\psi_{\text{primal}}(t)=E\left[ \frac{I(T=t)}{q_{D_T}(T\mid \text{mb}(T))} Y\right],\]
    其中 \(q_{D_T}(T\mid\text{mb}(T))\) 可写成区分布内变量的拓扑因子之积。
    需要正确指定 区分布内的后处理变量(集 \(L\))的条件密度。
  • Dual IPW(幻灯片第14–15页):
    形式为
    \[\psi_{\text{dual}}(t)=E\left[ \frac{\prod_{V_i\in\mathcal{M}} p(V_i\mid \text{mp}(V_i))\big|_{T=t}}{\prod_{V_i\in\mathcal{M}} p(V_i\mid \text{mp}(V_i))} Y\right],\]
    其中 \(\mathcal{M}\) = 后处理变量中不在 dis\((T)\) 者。
    需要正确指定 \(\mathcal{M}\) 的密度(或子集)。
  • 直观解释:primal 对应“删去区分布因子”,dual 对应“重新加权区分布外的因子”。
  • 两个 IPW 估计量使用了拓扑分解中 变分独立的块(variationally independent pieces)。
  • 对例子 C, T, M, L, Y 写出具体形式(幻灯片第13、15页)。

[0:43–0:50] Augmented Primal IPW 与影响函数

  • 基于路径导数(pathwise derivative)导出 非参数模型下的影响函数 \(U_{\psi_t}\)(幻灯片第17–18页)。
  • IF 的通用形式:
    \[U_{\psi_t} = \sum_{V_i\in V} Y \times f_1(\prec V_i) \times \bigl( f_2(\preceq V_i) - \sum_{V_i} f_2(\preceq V_i) \, p(V_i \mid \text{mp}(V_i)) \bigr),\]
    其中权重 \(f_1\)\(V_i\in\mathcal{M}\) 时是 primal IPW 型权重,在 \(V_i\in\mathcal{L}\) 时是 dual IPW 型权重。
  • Augmented primal IPW:通过求解 \(E[U_{\psi_t}]=0\) 得到。
  • 双稳健性(幻灯片第19页):
  • 若正确指定 \(\mathcal{M}\) 中所有密度\(\mathcal{L}\) 中所有密度 之一,估计量仍一致。
  • 在交集子模型(两者都正确)上达到联合模型 \(\mathcal{M}_\mathcal{M}\cup\mathcal{M}_\mathcal{L}\) 的半参数效率界。
  • 讲者强调“statement of double robustness is conservative”,因为图结构可能简化要求(例如调整 fixability 时完全退化为标准 AIPW)。

[0:50–0:56] 特殊子类:Adjustment Fixability

  • 定义:dis\((T)\cap\text{de}(T)=\{T\}\)。此时 Markov pillow \(\text{mp}(T)\) 构成充分调整集(幻灯片第21页):
    \[\psi(t) = E[E[Y\mid T=t, \text{mp}(T)]].\]
  • IF 简化为标准 AIPW 的 IF:
    \[U_{\psi_t} = \frac{I(T=t)}{p(T\mid \text{mp}(T))} (Y - E[Y\mid T=t,\text{mp}(T)]) + E[Y\mid T=t,\text{mp}(T)] - \psi(t).\]
  • 例子:一个更复杂的 ADMG(幻灯片第22页),其中 \(\text{mp}(T)=\{C_1, C_2, Z_1, Z_2\}\)。此时 ID 算法的输出是一个复杂的嵌套 functional,而利用 adjustment fixability 可直接使用标准 AIPW。

[0:56–1:08] 效率分析:非参数饱和与 mb-shielded ADMG

  • ADMG 中的等式约束有两类:普通条件独立性(CI)和 Verma 约束(广义条件独立性,在干预后分布中成立)。
  • Verma 约束例子(幻灯片第23–24页):在图 T ↔ M, M ↔ Y, T → L → Y 中,干预 \(L\)\(T\perp\!\!\!\perp Y\) 成立。
  • 处理效率的一般困难:ADMG 中缺失边不一定对应等式约束。
  • 算法(幻灯片第25–26页):通过“最大化投影”构造与原始 ADMG 嵌套马尔可夫等价的“最大图”,当且仅当该图为完全图时模型是 非参数饱和的(NPS);否则存在 CI 或 Verma 约束。
  • mb-shielded ADMG(幻灯片第27–28页):若每对不相邻的顶点都不在对方的马尔可夫毯中,则模型只含有普通 CI,不含 Verma 约束。此时可显式构造切空间并投影 IF 以提升效率。
  • 讲者坦承“working with Verma constraints is particularly difficult”并引用未解决的问题。

[1:08–1:15] 非 primal fixable 情形:嵌套 IPW

  • 例子(幻灯片第29页):T, R1, R2, Z 等,dis\((T)\)\(T, R_2, Z, R_1\)\(R_1\in \text{ch}(T)\),故非 primal fixable,但 ID 算法显示效应可识别。
  • 提出 nested IPW:仅需指定 区分布内变量 的条件密度(如 \(p(R_1\mid\dots)\) 等),而不需要完全指定整个 likelihood。
  • 该估计量有时具有 部分双稳健性(partial double robustness),但整体联合模型的变分独立性不再成立。
  • 讲者指出这是当前工作的开放部分,仍在思考如何推广到完全双稳健。

[1:15–1:22] 软件实现与结论

  • Ananke(Python 包):支持用户以图形式指定假设、检验可识别性、自动选择估计量。
  • 示例:绘制图、指定处理和结局,调用函数计算效应。
  • 总结贡献:
  • 模型特征:非参数饱和判定 + mb-shielded ADMG 分类。
  • 估计量(primal fixable 类):primal IPW, dual IPW, augmented primal IPW, 调整 fixability 特例。
  • 估计量(非 primal fixable 但可识别类):nested IPW + 部分稳健性。
  • 软件。
    (幻灯片第28–29页 + 结语演示)

[1:22–1:38] 讨论环节(Eric Tchetgen Tchetgen 点评与问答)

  • Eric 将主要贡献归为三类:fancy backdoor(调整 fixability)、fancy frontdoor(primal/dual fixability)、以及其他(嵌套 fixability)。
  • 问题1:能否扩展到 IV / 近端因果推断等“部分识别”模型?
    讲者回答:非参数饱和判定算法可用于枚举等式约束,但 IV 情形需要附加参数假设;可作为未来方向。
  • 问题2:路径特定效应(mediation)的推广?
    讲者确认正在推进,希望实现“任意路径特定效应的三重稳健估计”(基于 Tchetgen Tchetgen 和 Shpitser 等人的先前工作)。
  • 问题3:对于嵌套 fixability,如何保证双稳健估计?是否存在图形准则?
    讲者认为 primal fixable 下变分独立性是保证;非 primal fixable 下仍需进一步研究,但嵌套 IPW 是一个开始。她推测可能存在一个图形准则(猜测: “one district for free” 对应于双稳健性中的一方)。
  • 问题4:如何结合多个不同的 ADMG 假设(如 fancy backdoor 和 fancy frontdoor 的联合)?
    Eric 指出需要非饱和模型以确保 IF 存在多重表示;讲者赞同,并提到 adjustment fixability 的刻画仍不够完整。

四、对应论文与开放问题

4.1 对应论文(含不确定性)

报告基于以下论文(信息来自幻灯片和讲者发言,未提供完整引用,需核实): - BNS 2020(可能为 Bhattacharya, Nabi, Shpitser):《Semiparametric Inference for Causal Effects in Graphical Models with Hidden Variables》。具体标题、arXiv ID 未在材料中给出。
(转写中多次提到“BNS, 2020”,幻灯片引用时标注“BNS, 2020” under primal IPW, dual IPW, IF 等。)
- 关于非参数饱和与 mb-shielded ADMG 的算法,可能另有一篇工作(未命名)。
- 此前工作:Bhattacharya, Nabi, Shpitser (2020?) 关于 district factorization 与 identification 的理论。

建议研究者:从 OCIS 官网或会议记录查找 talk 对应的 arXiv 链接;或搜索“Nabi Bhattacharya Shpitser semiparametric ADMG”以确认精确书名。

4.2 开放问题(每条扎根于转写/幻灯片的具体内容)

  1. 非 primal fixable 且可识别情形下的完全双稳健估计
  2. 依据:讨论环节 [1:31–1:35] 讲者说 “nested IPW… it requires more thinking… it is still open.” 以及幻灯片第9页指出该类仅提出 nested IPW 和 partial robust 估计,未给出 IF。

  3. 有效利用 Verma 约束提升效率

  4. 依据:报告 [0:56–1:02] 讲者承认 “working with Verma constraints is particularly difficult” 且未见有工作系统性地将其纳入切空间计算。

  5. 图形化双稳健准则(graphical criterion for double robustness)

  6. 依据:Eric 讨论 [1:22–1:28] 询问 “graphical criterion for double robustness”,讲者回应在 primal fixable 下变分独立性自动成立,但对更广的类没有结论。

  7. 将估计框架扩展至路径特定效应(mediation)与纵向设定

  8. 依据:讲者回答 [1:10–1:13] 明确 “yes, we are thinking about path-specific effects… also with longitudinal settings”。

  9. 跨模型稳健性:结合多个相互竞争的 ADMG 假设

  10. 依据:Eric 问题最后部分 [1:15–1:20] 提出“union of ADMGs”;讲者表示调整 fixability 的刻画尚不完整,但可与 fancy backdoor/frontdoor 结合。

注意:报告中所有人名、术语、公式以幻灯片(权威)为准。例如 "primal fixability"(不是 "prime")、"Markov pillow"(不是 "markup")、"Neyman orthogonality" 未出现,但 IF 推导隐含了正交性。转写中个别听错之处已在正文中以标准术语书写,不重复指出。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论