Semiparametric inference for causal effects in graphical models with hidden variables¶
讲者: Razieh Nabi
讨论人: Eric Tchetgen Tchetgen
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-25
主题: 因果推断
视频: https://youtu.be/hNOXL4qHP8c · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
子方向: 有隐藏变量图模型(ADMGs)中因果效应的半参数估计与影响函数推导。
核心追问: 给定一个非参数因果图模型(含未观测混杂),若因果效应通过图识别算法被判定为可识别(即能以观测分布的函数表示),如何构造具有良好统计性质的估计量——尤其是 (1) 不同估计量(plug-in MLE、IPW、双稳健AIPW)分别依赖哪些条件密度(不同的“集”);(2) 如何导出非参数影响函数(IF)并获得半参数效率界;(3) 当模型含有广义条件独立性约束(Verma约束)时效率如何提升。
奠基与主流路线:
- 识别理论:Tian & Pearl (2002) 提出 ADMG 的区分布(district)分解,给出 primal fixability 下 post-intervention 分布的识别;Shpitser & Pearl (2006)、Huang & Valtorta (2006) 给出 sound & complete 的识别算法;Richardson et al. (2017) 建立嵌套马尔可夫模型。
- 估计方法:DAG 下已有丰富结果(g-computation、IPW、AIPW、TMLE),Rotnitzky & Smucler (2019) 给出 DAG 中利用条件独立性提升效率的框架。但在 ADMG 中,习惯于直接使用识别算法输出的嵌套积分(nested functional)进行 plug-in 估计,缺乏系统的影响函数和双稳健估计。
当前 frontier 与报告站位:
近年来多名作者(如 Rotnitzky, Smucler, 以及 Tchetgen Tchetgen 关于 front-door 的双稳健估计)开始将半参数理论适配到非标准图模型。报告直接填补了 ADMG 中 “识别—影响函数—双稳健估计” 的缺失环节,针对 primal fixable 的一整类 ADMG,给出了三种变体估计量(primal IPW, dual IPW, augmented primal IPW)及其效率性质,同时提出 mb-shielded ADMG 作为一类不含 Verma 约束的模型,使得效率界计算可行。
关键引用(有把握的):
- Tian & Pearl (2002) – district factorization.
- Shpitser & Pearl (2006) – identification algorithm.
- Richardson, Robins et al. (2017) – nested Markov model.
- Rotnitzky & Smucler (2019) – efficiency in DAGs.
- Henckel, Perkovic, Maathuis (2019) – optimal adjustment.
(听不准的作者或年份已在转写中标明,将组织到正文中与幻灯片对照。)
二、最小内核 / 一个最简例子¶
2.1 符号与设定¶
考虑一个最小的 ADMG,节点集合
其中观察到的变量:\(C\)(混杂),\(T\)(二值处理),\(M,L\)(后处理中介/协变量),\(Y\)(结局)。
未观测混杂由双向边表示:\(T \leftrightarrow L\) 和 \(M \leftrightarrow Y\)。
图结构(参照幻灯片第8–9页):
C
/ \
T → M
| |
↓ ↓
L Y
(T-L bidirected, M-Y bidirected)
区分布(districts):
- \(D_1 = \{C\}\),\(D_2 = \{T, L\}\)(因双向边相连),\(D_3 = \{M, Y\}\)。
目标 estimand:
2.2 识别公式(来自 ID 算法,幻灯片第9页)¶
该图已验证 primal fixable(因为 \(\text{dis}(T) \cap \text{ch}(T) = \emptyset\))。由 ID 算法输出:
2.3 拓扑因子分解(幻灯片第7–8页)¶
选取拓扑序 \(\tau: C \prec T \prec M \prec L \prec Y\)。
每个变量的 Markov pillow 定义为在该序下该变量所属区分布 ∪ 该区分布的父母(在子图中)。
在本例中:
- \(p(C) = p(C)\)(无祖先)
- \(p(T \mid C)\) (mp = \(\{C\}\))
- \(p(M \mid C, T)\) (mp = \(\{C, T\}\))
- \(p(L \mid T, M, C)\) (mp = \(\{C, T, M\}\)?实际 mp(L) = 区 \(\{T,L\}\) ∪ 其父母,即 \(\{C, T, M\}\),但根据幻灯片第7页公式,对于 \(L \in D_{T,L}\),\(p(L \mid \text{mp}(L)) = p(L \mid C, T, M)\))
- \(p(Y \mid T, M, L, C)\) (mp = \(\{C, T, M, L\}\))
于是拓扑因子分解:
2.4 Primal IPW(最简形式)¶
根据幻灯片第12页,primal IPW 仅需使用 区分布 \(D_T\) 中的后处理变量(即集 \(L = \{T, L\}\))的条件密度:
含义: 只需正确指定 \(p(T\mid C)\) 和 \(p(L\mid T,M,C)\) 即可得到一致估计——而不需要指定 \(p(M\mid C,T)\) 和 \(p(Y\mid \dots)\)。
2.5 Dual IPW(最简形式)¶
根据幻灯片第14–15页,dual IPW 使用 不在 \(D_T\) 中的后处理变量(即集 \(M = \{M,Y\}\)):
2.6 Augmented Primal IPW(双稳健性)¶
幻灯片第17–20页给出该例子的影响函数(IF)和双稳健性。
IF 可写成两个变体之和,估计量在正确指定 “集 \(L\) 中的密度” 或 “集 \(M\) 中的密度” 之一时仍一致。
这个最小例子已充分展示:不依赖 全部 条件密度,而是通过不同的“块”构造两个变体估计量并组合,从而降低对模型错误设定的敏感度。
三、报告主体:讲者讲了什么¶
时间标注依据视频时间戳([H:MM])与幻灯片页码对应。
[0:00–0:06] 开场与目标陈述¶
讲者介绍自己、合作者、研究目标:对单一处理 → 单一结局的因果效应 \(E[Y(t)]\),在含未观测混杂的图模型中寻找估计策略。强调非参数识别与半参数估计。
(幻灯片第1–4页)
[0:06–0:11] DAG回顾¶
- DAG统计模型:\(p(V)=\prod p(V_i\mid\text{pa}(V_i))\),条件独立性由 d-separation 读出。
- 因果模型:通过截断因子分解获得 \(p(V(t))\),等价于逆概率加权。
- 在 DAG 中效应总是可识别,且父母构成充分调整集。
- 若 DAG 完全(无缺失边),AIPW 达到半参数效率界;否则可利用稀疏性提升效率(Rotnitzky & Smucler 2019; Henckel et al. 2019)。
(幻灯片第2–4页)
[0:11–0:17] 从隐藏变量 DAG 到 ADMG¶
- 有未观测混杂时更现实。通过潜在投影规则将隐藏变量 DAG 转换为 acyclic directed mixed graph (ADMG),其中双向边表示隐藏共因。
- 给出例子:front-door 模型、更复杂的 ADMG。
- 已有 sound & complete 的 ID 算法(Shpitser & Pearl 2006; Huang & Valtorta 2006; Richardson et al. 2017),但算法输出的 functional 复杂,难以直接 plug-in 估计。
(幻灯片第5–6页)
[0:17–0:25] ADMG的区分布与拓扑因子分解(核心技术工具)¶
- 区分布(district):双向边连通分量。例:图
C, T↔L, M↔Y有三个 district。 - 区分布因子分解(Tian & Pearl 2002):
\[p(V) = \prod_{D\in\mathcal{D}(G)} q_D(D \mid \text{pa}_G(D)),\]其中 \(q_D\) 称为 kernel,具有因果解释(对 \(V\setminus D\) 干预后的分布)。 - Markov pillow(幻灯片第7页):对变量 \(V_i\) 在拓扑序 \(\tau\) 下,
\[\text{mp}(V_i) = \text{district of } V_i \cup \text{parents of that district} \text{ in } G_{\preceq_\tau V_i}.\] - 拓扑因子分解:
\[p(V) = \prod_{i} p(V_i \mid \text{mp}_G(V_i)).\]该分解编码了类似 DAG 局部马尔可夫性质的条件独立性。
(幻灯片第7–8页;讲者在使用例子C, T, M, L, Y演示因子分解)
[0:25–0:30] 主要结果总览:primal fixability 分类¶
- 以 dis\((T)\)(处理所在 district)与 ch\((T)\)(处理的孩子)是否相交为关键准则:
- 若 dis\((T)\cap\text{ch}(T)=\varnothing\) → 处理是 primal fixable → 效应总是可识别。
- 否则可能不可识别;但若恰好可识别(由 ID 算法判定),则属于嵌套 fixability。
- 对 primal fixable 类,提出 primal IPW、dual IPW、augmented primal IPW 三种估计量,并导出非参数影响函数(IF)。
- 特殊子类:adjustment fixability(即 dis\((T)\cap\text{de}(T)=\{T\}\)),此时 Markov pillow 构成充分调整集,估计退化为标准 AIPW。
(幻灯片第9页,讲者说“我们 dividing the class of all ADMGs into two subclasses”)
[0:30–0:43] Primal IPW 与 Dual IPW 的构造¶
- Primal IPW(幻灯片第11–12页):
形式为
\[\psi_{\text{primal}}(t)=E\left[ \frac{I(T=t)}{q_{D_T}(T\mid \text{mb}(T))} Y\right],\]其中 \(q_{D_T}(T\mid\text{mb}(T))\) 可写成区分布内变量的拓扑因子之积。
需要正确指定 区分布内的后处理变量(集 \(L\))的条件密度。 - Dual IPW(幻灯片第14–15页):
形式为
\[\psi_{\text{dual}}(t)=E\left[ \frac{\prod_{V_i\in\mathcal{M}} p(V_i\mid \text{mp}(V_i))\big|_{T=t}}{\prod_{V_i\in\mathcal{M}} p(V_i\mid \text{mp}(V_i))} Y\right],\]其中 \(\mathcal{M}\) = 后处理变量中不在 dis\((T)\) 者。
需要正确指定 集 \(\mathcal{M}\) 的密度(或子集)。 - 直观解释:primal 对应“删去区分布因子”,dual 对应“重新加权区分布外的因子”。
- 两个 IPW 估计量使用了拓扑分解中 变分独立的块(variationally independent pieces)。
- 对例子
C, T, M, L, Y写出具体形式(幻灯片第13、15页)。
[0:43–0:50] Augmented Primal IPW 与影响函数¶
- 基于路径导数(pathwise derivative)导出 非参数模型下的影响函数 \(U_{\psi_t}\)(幻灯片第17–18页)。
- IF 的通用形式:
\[U_{\psi_t} = \sum_{V_i\in V} Y \times f_1(\prec V_i) \times \bigl( f_2(\preceq V_i) - \sum_{V_i} f_2(\preceq V_i) \, p(V_i \mid \text{mp}(V_i)) \bigr),\]其中权重 \(f_1\) 在 \(V_i\in\mathcal{M}\) 时是 primal IPW 型权重,在 \(V_i\in\mathcal{L}\) 时是 dual IPW 型权重。 - Augmented primal IPW:通过求解 \(E[U_{\psi_t}]=0\) 得到。
- 双稳健性(幻灯片第19页):
- 若正确指定 集 \(\mathcal{M}\) 中所有密度 或 集 \(\mathcal{L}\) 中所有密度 之一,估计量仍一致。
- 在交集子模型(两者都正确)上达到联合模型 \(\mathcal{M}_\mathcal{M}\cup\mathcal{M}_\mathcal{L}\) 的半参数效率界。
- 讲者强调“statement of double robustness is conservative”,因为图结构可能简化要求(例如调整 fixability 时完全退化为标准 AIPW)。
[0:50–0:56] 特殊子类:Adjustment Fixability¶
- 定义:dis\((T)\cap\text{de}(T)=\{T\}\)。此时 Markov pillow \(\text{mp}(T)\) 构成充分调整集(幻灯片第21页):
\[\psi(t) = E[E[Y\mid T=t, \text{mp}(T)]].\] - IF 简化为标准 AIPW 的 IF:
\[U_{\psi_t} = \frac{I(T=t)}{p(T\mid \text{mp}(T))} (Y - E[Y\mid T=t,\text{mp}(T)]) + E[Y\mid T=t,\text{mp}(T)] - \psi(t).\] - 例子:一个更复杂的 ADMG(幻灯片第22页),其中 \(\text{mp}(T)=\{C_1, C_2, Z_1, Z_2\}\)。此时 ID 算法的输出是一个复杂的嵌套 functional,而利用 adjustment fixability 可直接使用标准 AIPW。
[0:56–1:08] 效率分析:非参数饱和与 mb-shielded ADMG¶
- ADMG 中的等式约束有两类:普通条件独立性(CI)和 Verma 约束(广义条件独立性,在干预后分布中成立)。
- Verma 约束例子(幻灯片第23–24页):在图
T ↔ M, M ↔ Y, T → L → Y中,干预 \(L\) 后 \(T\perp\!\!\!\perp Y\) 成立。 - 处理效率的一般困难:ADMG 中缺失边不一定对应等式约束。
- 算法(幻灯片第25–26页):通过“最大化投影”构造与原始 ADMG 嵌套马尔可夫等价的“最大图”,当且仅当该图为完全图时模型是 非参数饱和的(NPS);否则存在 CI 或 Verma 约束。
- mb-shielded ADMG(幻灯片第27–28页):若每对不相邻的顶点都不在对方的马尔可夫毯中,则模型只含有普通 CI,不含 Verma 约束。此时可显式构造切空间并投影 IF 以提升效率。
- 讲者坦承“working with Verma constraints is particularly difficult”并引用未解决的问题。
[1:08–1:15] 非 primal fixable 情形:嵌套 IPW¶
- 例子(幻灯片第29页):
T, R1, R2, Z等,dis\((T)\) 含 \(T, R_2, Z, R_1\) 且 \(R_1\in \text{ch}(T)\),故非 primal fixable,但 ID 算法显示效应可识别。 - 提出 nested IPW:仅需指定 区分布内变量 的条件密度(如 \(p(R_1\mid\dots)\) 等),而不需要完全指定整个 likelihood。
- 该估计量有时具有 部分双稳健性(partial double robustness),但整体联合模型的变分独立性不再成立。
- 讲者指出这是当前工作的开放部分,仍在思考如何推广到完全双稳健。
[1:15–1:22] 软件实现与结论¶
- Ananke(Python 包):支持用户以图形式指定假设、检验可识别性、自动选择估计量。
- 示例:绘制图、指定处理和结局,调用函数计算效应。
- 总结贡献:
- 模型特征:非参数饱和判定 + mb-shielded ADMG 分类。
- 估计量(primal fixable 类):primal IPW, dual IPW, augmented primal IPW, 调整 fixability 特例。
- 估计量(非 primal fixable 但可识别类):nested IPW + 部分稳健性。
- 软件。
(幻灯片第28–29页 + 结语演示)
[1:22–1:38] 讨论环节(Eric Tchetgen Tchetgen 点评与问答)¶
- Eric 将主要贡献归为三类:fancy backdoor(调整 fixability)、fancy frontdoor(primal/dual fixability)、以及其他(嵌套 fixability)。
- 问题1:能否扩展到 IV / 近端因果推断等“部分识别”模型?
讲者回答:非参数饱和判定算法可用于枚举等式约束,但 IV 情形需要附加参数假设;可作为未来方向。 - 问题2:路径特定效应(mediation)的推广?
讲者确认正在推进,希望实现“任意路径特定效应的三重稳健估计”(基于 Tchetgen Tchetgen 和 Shpitser 等人的先前工作)。 - 问题3:对于嵌套 fixability,如何保证双稳健估计?是否存在图形准则?
讲者认为 primal fixable 下变分独立性是保证;非 primal fixable 下仍需进一步研究,但嵌套 IPW 是一个开始。她推测可能存在一个图形准则(猜测: “one district for free” 对应于双稳健性中的一方)。 - 问题4:如何结合多个不同的 ADMG 假设(如 fancy backdoor 和 fancy frontdoor 的联合)?
Eric 指出需要非饱和模型以确保 IF 存在多重表示;讲者赞同,并提到 adjustment fixability 的刻画仍不够完整。
四、对应论文与开放问题¶
4.1 对应论文(含不确定性)¶
报告基于以下论文(信息来自幻灯片和讲者发言,未提供完整引用,需核实):
- BNS 2020(可能为 Bhattacharya, Nabi, Shpitser):《Semiparametric Inference for Causal Effects in Graphical Models with Hidden Variables》。具体标题、arXiv ID 未在材料中给出。
(转写中多次提到“BNS, 2020”,幻灯片引用时标注“BNS, 2020” under primal IPW, dual IPW, IF 等。)
- 关于非参数饱和与 mb-shielded ADMG 的算法,可能另有一篇工作(未命名)。
- 此前工作:Bhattacharya, Nabi, Shpitser (2020?) 关于 district factorization 与 identification 的理论。
建议研究者:从 OCIS 官网或会议记录查找 talk 对应的 arXiv 链接;或搜索“Nabi Bhattacharya Shpitser semiparametric ADMG”以确认精确书名。
4.2 开放问题(每条扎根于转写/幻灯片的具体内容)¶
- 非 primal fixable 且可识别情形下的完全双稳健估计
-
依据:讨论环节 [1:31–1:35] 讲者说 “nested IPW… it requires more thinking… it is still open.” 以及幻灯片第9页指出该类仅提出 nested IPW 和 partial robust 估计,未给出 IF。
-
有效利用 Verma 约束提升效率
-
依据:报告 [0:56–1:02] 讲者承认 “working with Verma constraints is particularly difficult” 且未见有工作系统性地将其纳入切空间计算。
-
图形化双稳健准则(graphical criterion for double robustness)
-
依据:Eric 讨论 [1:22–1:28] 询问 “graphical criterion for double robustness”,讲者回应在 primal fixable 下变分独立性自动成立,但对更广的类没有结论。
-
将估计框架扩展至路径特定效应(mediation)与纵向设定
-
依据:讲者回答 [1:10–1:13] 明确 “yes, we are thinking about path-specific effects… also with longitudinal settings”。
-
跨模型稳健性:结合多个相互竞争的 ADMG 假设
- 依据:Eric 问题最后部分 [1:15–1:20] 提出“union of ADMGs”;讲者表示调整 fixability 的刻画尚不完整,但可与 fancy backdoor/frontdoor 结合。
注意:报告中所有人名、术语、公式以幻灯片(权威)为准。例如 "primal fixability"(不是 "prime")、"Markov pillow"(不是 "markup")、"Neyman orthogonality" 未出现,但 IF 推导隐含了正交性。转写中个别听错之处已在正文中以标准术语书写,不重复指出。
Maintained by 陈星宇 · Homepage · Source on GitHub