Semiparametric inference for causal effects in graphical models with hidden variables¶

讲者: Razieh Nabi
讨论人: Eric Tchetgen Tchetgen
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-25
主题: 因果推断
视频: https://youtu.be/hNOXL4qHP8c · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向： 有隐藏变量图模型（ADMGs）中因果效应的半参数估计与影响函数推导。
核心追问： 给定一个非参数因果图模型（含未观测混杂），若因果效应通过图识别算法被判定为可识别（即能以观测分布的函数表示），如何构造具有良好统计性质的估计量——尤其是 （1） 不同估计量（plug-in MLE、IPW、双稳健AIPW）分别依赖哪些条件密度（不同的“集”）；（2） 如何导出非参数影响函数（IF）并获得半参数效率界；（3） 当模型含有广义条件独立性约束（Verma约束）时效率如何提升。

奠基与主流路线：
- 识别理论：Tian & Pearl (2002) 提出 ADMG 的区分布（district）分解，给出 primal fixability 下 post-intervention 分布的识别；Shpitser & Pearl (2006)、Huang & Valtorta (2006) 给出 sound & complete 的识别算法；Richardson et al. (2017) 建立嵌套马尔可夫模型。
- 估计方法：DAG 下已有丰富结果（g-computation、IPW、AIPW、TMLE），Rotnitzky & Smucler (2019) 给出 DAG 中利用条件独立性提升效率的框架。但在 ADMG 中，习惯于直接使用识别算法输出的嵌套积分（nested functional）进行 plug-in 估计，缺乏系统的影响函数和双稳健估计。

当前 frontier 与报告站位：
近年来多名作者（如 Rotnitzky, Smucler, 以及 Tchetgen Tchetgen 关于 front-door 的双稳健估计）开始将半参数理论适配到非标准图模型。报告直接填补了 ADMG 中 “识别—影响函数—双稳健估计” 的缺失环节，针对 primal fixable 的一整类 ADMG，给出了三种变体估计量（primal IPW, dual IPW, augmented primal IPW）及其效率性质，同时提出 mb-shielded ADMG 作为一类不含 Verma 约束的模型，使得效率界计算可行。

关键引用（有把握的）：
- Tian & Pearl (2002) – district factorization.
- Shpitser & Pearl (2006) – identification algorithm.
- Richardson, Robins et al. (2017) – nested Markov model.
- Rotnitzky & Smucler (2019) – efficiency in DAGs.
- Henckel, Perkovic, Maathuis (2019) – optimal adjustment.
（听不准的作者或年份已在转写中标明，将组织到正文中与幻灯片对照。）

二、最小内核 / 一个最简例子¶

2.1 符号与设定¶

考虑一个最小的 ADMG，节点集合

\[V = \{C,\, T,\, M,\, L,\, Y\},\]

其中观察到的变量：\(C\)（混杂），\(T\)（二值处理），\(M,L\)（后处理中介/协变量），\(Y\)（结局）。
未观测混杂由双向边表示：\(T \leftrightarrow L\) 和 \(M \leftrightarrow Y\)。

图结构（参照幻灯片第8–9页）：

   C
  / \
 T → M
 |   |
 ↓   ↓
 L   Y
 (T-L bidirected, M-Y bidirected)

区分布（districts）：
- \(D_1 = \{C\}\)，\(D_2 = \{T, L\}\)（因双向边相连），\(D_3 = \{M, Y\}\)。

目标 estimand：

\[\psi(t) = E[Y(t)], \quad t \in \{0,1\}.\]

2.2 识别公式（来自 ID 算法，幻灯片第9页）¶

该图已验证 primal fixable（因为 \(\text{dis}(T) \cap \text{ch}(T) = \emptyset\)）。由 ID 算法输出：

\[\psi(t) = \sum_{C,T,M,L} E[Y \mid T=t, M, L, C] \; p(L \mid T, M, C) \; p(M \mid T=t, C) \; p(T \mid C).\]

这个形式需要指定四个条件密度才能用 plug-in 估计。

2.3 拓扑因子分解（幻灯片第7–8页）¶

选取拓扑序 \(\tau: C \prec T \prec M \prec L \prec Y\)。
每个变量的 Markov pillow 定义为在该序下该变量所属区分布 ∪ 该区分布的父母（在子图中）。
在本例中： - \(p(C) = p(C)\)（无祖先） - \(p(T \mid C)\) （mp = \(\{C\}\)） - \(p(M \mid C, T)\) （mp = \(\{C, T\}\)） - \(p(L \mid T, M, C)\) （mp = \(\{C, T, M\}\)？实际 mp(L) = 区 \(\{T,L\}\) ∪ 其父母，即 \(\{C, T, M\}\)，但根据幻灯片第7页公式，对于 \(L \in D_{T,L}\)，\(p(L \mid \text{mp}(L)) = p(L \mid C, T, M)\)） - \(p(Y \mid T, M, L, C)\) （mp = \(\{C, T, M, L\}\)）

于是拓扑因子分解：

\[p(V) = p(C) \, p(T\mid C) \, p(M\mid C,T) \, p(L\mid C,T,M) \, p(Y\mid C,T,M,L).\]

2.4 Primal IPW（最简形式）¶

根据幻灯片第12页，primal IPW 仅需使用 区分布 \(D_T\) 中的后处理变量（即集 \(L = \{T, L\}\)）的条件密度：

\[\psi_{\text{primal}}(t) = E\left[ I(T=t) \times \frac{\sum_{T} p(T\mid C)\, p(L\mid T,M,C)}{p(T\mid C)\, p(L\mid T,M,C)} \times Y \right].\]

分母中的乘积正是 \(q_{D_T}(T \mid \text{mb}(T))\) 的因子。
含义： 只需正确指定 \(p(T\mid C)\) 和 \(p(L\mid T,M,C)\) 即可得到一致估计——而不需要指定 \(p(M\mid C,T)\) 和 \(p(Y\mid \dots)\)。

2.5 Dual IPW（最简形式）¶

根据幻灯片第14–15页，dual IPW 使用 不在 \(D_T\) 中的后处理变量（即集 \(M = \{M,Y\}\)）：

\[\psi_{\text{dual}}(t) = E\left[ \frac{p(M\mid T=t, C) \; p(Y\mid T=t, M, L, C)}{p(M\mid T, C) \; p(Y\mid T, M, L, C)} \times Y \right],\]

简化后表现为：

\[E\left[ \frac{p(M\mid T=t, C)}{p(M\mid T, C)} \times E[Y \mid T=t, M, L, C] \right].\]

只需正确指定 \(p(M\mid C,T)\) 和 \(E[Y\mid T,M,L,C]\)。

2.6 Augmented Primal IPW（双稳健性）¶

幻灯片第17–20页给出该例子的影响函数（IF）和双稳健性。
IF 可写成两个变体之和，估计量在正确指定 “集 \(L\) 中的密度” 或 “集 \(M\) 中的密度” 之一时仍一致。

这个最小例子已充分展示：不依赖全部条件密度，而是通过不同的“块”构造两个变体估计量并组合，从而降低对模型错误设定的敏感度。

三、报告主体：讲者讲了什么¶

时间标注依据视频时间戳（[H:MM]）与幻灯片页码对应。

[0:00–0:06] 开场与目标陈述¶

讲者介绍自己、合作者、研究目标：对单一处理 → 单一结局的因果效应 \(E[Y(t)]\)，在含未观测混杂的图模型中寻找估计策略。强调非参数识别与半参数估计。
（幻灯片第1–4页）

[0:06–0:11] DAG回顾¶

DAG统计模型：\(p(V)=\prod p(V_i\mid\text{pa}(V_i))\)，条件独立性由 d-separation 读出。
因果模型：通过截断因子分解获得 \(p(V(t))\)，等价于逆概率加权。
在 DAG 中效应总是可识别，且父母构成充分调整集。
若 DAG 完全（无缺失边），AIPW 达到半参数效率界；否则可利用稀疏性提升效率（Rotnitzky & Smucler 2019; Henckel et al. 2019）。
（幻灯片第2–4页）

[0:11–0:17] 从隐藏变量 DAG 到 ADMG¶

有未观测混杂时更现实。通过潜在投影规则将隐藏变量 DAG 转换为 acyclic directed mixed graph (ADMG)，其中双向边表示隐藏共因。
给出例子：front-door 模型、更复杂的 ADMG。
已有 sound & complete 的 ID 算法（Shpitser & Pearl 2006; Huang & Valtorta 2006; Richardson et al. 2017），但算法输出的 functional 复杂，难以直接 plug-in 估计。
（幻灯片第5–6页）

[0:17–0:25] ADMG的区分布与拓扑因子分解（核心技术工具）¶

区分布（district）：双向边连通分量。例：图 C, T↔L, M↔Y 有三个 district。
区分布因子分解（Tian & Pearl 2002）：

\[p(V) = \prod_{D\in\mathcal{D}(G)} q_D(D \mid \text{pa}_G(D)),\]
其中 \(q_D\) 称为 kernel，具有因果解释（对 \(V\setminus D\) 干预后的分布）。
Markov pillow（幻灯片第7页）：对变量 \(V_i\) 在拓扑序 \(\tau\) 下，

\[\text{mp}(V_i) = \text{district of } V_i \cup \text{parents of that district} \text{ in } G_{\preceq_\tau V_i}.\]
拓扑因子分解：

\[p(V) = \prod_{i} p(V_i \mid \text{mp}_G(V_i)).\]
该分解编码了类似 DAG 局部马尔可夫性质的条件独立性。
（幻灯片第7–8页；讲者在使用例子 C, T, M, L, Y 演示因子分解）

[0:25–0:30] 主要结果总览：primal fixability 分类¶

以 dis\((T)\)（处理所在 district）与 ch\((T)\)（处理的孩子）是否相交为关键准则：
若 dis\((T)\cap\text{ch}(T)=\varnothing\) → 处理是 primal fixable → 效应总是可识别。
否则可能不可识别；但若恰好可识别（由 ID 算法判定），则属于嵌套 fixability。
对 primal fixable 类，提出 primal IPW、dual IPW、augmented primal IPW 三种估计量，并导出非参数影响函数（IF）。
特殊子类：adjustment fixability（即 dis\((T)\cap\text{de}(T)=\{T\}\)），此时 Markov pillow 构成充分调整集，估计退化为标准 AIPW。
（幻灯片第9页，讲者说“我们 dividing the class of all ADMGs into two subclasses”）

[0:30–0:43] Primal IPW 与 Dual IPW 的构造¶

Primal IPW（幻灯片第11–12页）：
形式为

\[\psi_{\text{primal}}(t)=E\left[ \frac{I(T=t)}{q_{D_T}(T\mid \text{mb}(T))} Y\right],\]
其中 \(q_{D_T}(T\mid\text{mb}(T))\) 可写成区分布内变量的拓扑因子之积。
需要正确指定 区分布内的后处理变量（集 \(L\)）的条件密度。
Dual IPW（幻灯片第14–15页）：
形式为

\[\psi_{\text{dual}}(t)=E\left[ \frac{\prod_{V_i\in\mathcal{M}} p(V_i\mid \text{mp}(V_i))\big|_{T=t}}{\prod_{V_i\in\mathcal{M}} p(V_i\mid \text{mp}(V_i))} Y\right],\]
其中 \(\mathcal{M}\) = 后处理变量中不在 dis\((T)\) 者。
需要正确指定 集 \(\mathcal{M}\) 的密度（或子集）。
直观解释：primal 对应“删去区分布因子”，dual 对应“重新加权区分布外的因子”。
两个 IPW 估计量使用了拓扑分解中 变分独立的块（variationally independent pieces）。
对例子 C, T, M, L, Y 写出具体形式（幻灯片第13、15页）。

[0:43–0:50] Augmented Primal IPW 与影响函数¶

基于路径导数（pathwise derivative）导出 非参数模型下的影响函数 \(U_{\psi_t}\)（幻灯片第17–18页）。
IF 的通用形式：

\[U_{\psi_t} = \sum_{V_i\in V} Y \times f_1(\prec V_i) \times \bigl( f_2(\preceq V_i) - \sum_{V_i} f_2(\preceq V_i) \, p(V_i \mid \text{mp}(V_i)) \bigr),\]
其中权重 \(f_1\) 在 \(V_i\in\mathcal{M}\) 时是 primal IPW 型权重，在 \(V_i\in\mathcal{L}\) 时是 dual IPW 型权重。
Augmented primal IPW：通过求解 \(E[U_{\psi_t}]=0\) 得到。
双稳健性（幻灯片第19页）：
若正确指定 集 \(\mathcal{M}\) 中所有密度 或 集 \(\mathcal{L}\) 中所有密度 之一，估计量仍一致。
在交集子模型（两者都正确）上达到联合模型 \(\mathcal{M}_\mathcal{M}\cup\mathcal{M}_\mathcal{L}\) 的半参数效率界。
讲者强调“statement of double robustness is conservative”，因为图结构可能简化要求（例如调整 fixability 时完全退化为标准 AIPW）。

[0:50–0:56] 特殊子类：Adjustment Fixability¶

定义：dis\((T)\cap\text{de}(T)=\{T\}\)。此时 Markov pillow \(\text{mp}(T)\) 构成充分调整集（幻灯片第21页）：

\[\psi(t) = E[E[Y\mid T=t, \text{mp}(T)]].\]
IF 简化为标准 AIPW 的 IF：

\[U_{\psi_t} = \frac{I(T=t)}{p(T\mid \text{mp}(T))} (Y - E[Y\mid T=t,\text{mp}(T)]) + E[Y\mid T=t,\text{mp}(T)] - \psi(t).\]
例子：一个更复杂的 ADMG（幻灯片第22页），其中 \(\text{mp}(T)=\{C_1, C_2, Z_1, Z_2\}\)。此时 ID 算法的输出是一个复杂的嵌套 functional，而利用 adjustment fixability 可直接使用标准 AIPW。

[0:56–1:08] 效率分析：非参数饱和与 mb-shielded ADMG¶

ADMG 中的等式约束有两类：普通条件独立性（CI）和 Verma 约束（广义条件独立性，在干预后分布中成立）。
Verma 约束例子（幻灯片第23–24页）：在图 T ↔ M, M ↔ Y, T → L → Y 中，干预 \(L\) 后 \(T\perp\!\!\!\perp Y\) 成立。
处理效率的一般困难：ADMG 中缺失边不一定对应等式约束。
算法（幻灯片第25–26页）：通过“最大化投影”构造与原始 ADMG 嵌套马尔可夫等价的“最大图”，当且仅当该图为完全图时模型是 非参数饱和的（NPS）；否则存在 CI 或 Verma 约束。
mb-shielded ADMG（幻灯片第27–28页）：若每对不相邻的顶点都不在对方的马尔可夫毯中，则模型只含有普通 CI，不含 Verma 约束。此时可显式构造切空间并投影 IF 以提升效率。
讲者坦承“working with Verma constraints is particularly difficult”并引用未解决的问题。

[1:08–1:15] 非 primal fixable 情形：嵌套 IPW¶

例子（幻灯片第29页）：T, R1, R2, Z 等，dis\((T)\) 含 \(T, R_2, Z, R_1\) 且 \(R_1\in \text{ch}(T)\)，故非 primal fixable，但 ID 算法显示效应可识别。
提出 nested IPW：仅需指定 区分布内变量 的条件密度（如 \(p(R_1\mid\dots)\) 等），而不需要完全指定整个 likelihood。
该估计量有时具有 部分双稳健性（partial double robustness），但整体联合模型的变分独立性不再成立。
讲者指出这是当前工作的开放部分，仍在思考如何推广到完全双稳健。

[1:15–1:22] 软件实现与结论¶

Ananke（Python 包）：支持用户以图形式指定假设、检验可识别性、自动选择估计量。
示例：绘制图、指定处理和结局，调用函数计算效应。
总结贡献：
模型特征：非参数饱和判定 + mb-shielded ADMG 分类。
估计量（primal fixable 类）：primal IPW, dual IPW, augmented primal IPW, 调整 fixability 特例。
估计量（非 primal fixable 但可识别类）：nested IPW + 部分稳健性。
软件。
（幻灯片第28–29页 + 结语演示）

[1:22–1:38] 讨论环节（Eric Tchetgen Tchetgen 点评与问答）¶

Eric 将主要贡献归为三类：fancy backdoor（调整 fixability）、fancy frontdoor（primal/dual fixability）、以及其他（嵌套 fixability）。
问题1：能否扩展到 IV / 近端因果推断等“部分识别”模型？
讲者回答：非参数饱和判定算法可用于枚举等式约束，但 IV 情形需要附加参数假设；可作为未来方向。
问题2：路径特定效应（mediation）的推广？
讲者确认正在推进，希望实现“任意路径特定效应的三重稳健估计”（基于 Tchetgen Tchetgen 和 Shpitser 等人的先前工作）。
问题3：对于嵌套 fixability，如何保证双稳健估计？是否存在图形准则？
讲者认为 primal fixable 下变分独立性是保证；非 primal fixable 下仍需进一步研究，但嵌套 IPW 是一个开始。她推测可能存在一个图形准则（猜测： “one district for free” 对应于双稳健性中的一方）。
问题4：如何结合多个不同的 ADMG 假设（如 fancy backdoor 和 fancy frontdoor 的联合）？
Eric 指出需要非饱和模型以确保 IF 存在多重表示；讲者赞同，并提到 adjustment fixability 的刻画仍不够完整。

四、对应论文与开放问题¶

4.1 对应论文（含不确定性）¶

报告基于以下论文（信息来自幻灯片和讲者发言，未提供完整引用，需核实）： - BNS 2020（可能为 Bhattacharya, Nabi, Shpitser）：《Semiparametric Inference for Causal Effects in Graphical Models with Hidden Variables》。具体标题、arXiv ID 未在材料中给出。
（转写中多次提到“BNS, 2020”，幻灯片引用时标注“BNS, 2020” under primal IPW, dual IPW, IF 等。）
- 关于非参数饱和与 mb-shielded ADMG 的算法，可能另有一篇工作（未命名）。
- 此前工作：Bhattacharya, Nabi, Shpitser (2020?) 关于 district factorization 与 identification 的理论。

建议研究者：从 OCIS 官网或会议记录查找 talk 对应的 arXiv 链接；或搜索“Nabi Bhattacharya Shpitser semiparametric ADMG”以确认精确书名。

4.2 开放问题（每条扎根于转写/幻灯片的具体内容）¶

非 primal fixable 且可识别情形下的完全双稳健估计
依据：讨论环节 [1:31–1:35] 讲者说 “nested IPW… it requires more thinking… it is still open.” 以及幻灯片第9页指出该类仅提出 nested IPW 和 partial robust 估计，未给出 IF。
有效利用 Verma 约束提升效率
依据：报告 [0:56–1:02] 讲者承认 “working with Verma constraints is particularly difficult” 且未见有工作系统性地将其纳入切空间计算。
图形化双稳健准则（graphical criterion for double robustness）
依据：Eric 讨论 [1:22–1:28] 询问 “graphical criterion for double robustness”，讲者回应在 primal fixable 下变分独立性自动成立，但对更广的类没有结论。
将估计框架扩展至路径特定效应（mediation）与纵向设定
依据：讲者回答 [1:10–1:13] 明确 “yes, we are thinking about path-specific effects… also with longitudinal settings”。
跨模型稳健性：结合多个相互竞争的 ADMG 假设
依据：Eric 问题最后部分 [1:15–1:20] 提出“union of ADMGs”；讲者表示调整 fixability 的刻画尚不完整，但可与 fancy backdoor/frontdoor 结合。

注意：报告中所有人名、术语、公式以幻灯片（权威）为准。例如 "primal fixability"（不是 "prime"）、"Markov pillow"（不是 "markup"）、"Neyman orthogonality" 未出现，但 IF 推导隐含了正交性。转写中个别听错之处已在正文中以标准术语书写，不重复指出。

Maintained by 陈星宇 · Homepage · Source on GitHub