Parameterizing and Simulating from Causal Models¶
讲者: Robin Evans
讨论人: Larry Wasserman
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-03-28
主题: 因果推断
视频: https://youtu.be/Ez861340pp4 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告的核心是 “节俭参数化”(Frugal Parameterization) ,它为一种长期困扰因果推断领域的问题提供了系统解法:如何完整地指定一个联合分布,使得
1. 目标因果估计量(如边际结构模型 MSM 中的 P(y | do(a)))有干净的参数形式;
2. 其余部分的分布(协变量与处理的联合、依赖结构)可以任意灵活,且与目标参数变差独立(variation independent);
3. 从该联合分布可以模拟出观测数据(观测世界存在复杂混杂),且干预后的数据恰好满足预先指定的因果模型。
这个方向追问的是边际结构模型(MSM)的“似然缺失”问题:MSM 只指定了干预后的边际,不指定整个联合分布,因此无法做似然推断(MLE、贝叶斯),也无法直接模拟满足特定因果假设的数据。历史上有两条主要路线:
- g-formula 路线(Robins 1986):指定 P(z|a) 和 P(y|a,z,b) 等条件分布,再做积分。问题在于 g-null paradox(Robins & Wasserman 1997):即使真实因果效应为零,若模型是非线性的(如 logit+linear),其参数化本身会迫使效应不为零——除非额外强加不自然的独立条件。
- 半参数路线(IPW、AIPW、DR 估计等):回避完整似然,只估计目标参数。但无法做完整的模拟或贝叶斯推断。
当前 frontier:需要一种同时具备完整似然、变差独立、易模拟的参数化。这场报告站在“将经典边际模型(contingency table 中的 marginal log-linear / copula)工具引入因果推断”的位置上。关键相关工作是: - Havercroft & Didelez (2012): 首次明确点出从 MSM 模拟的困难。 - Robins & Wasserman (1997): g-null paradox 的奠基。 - Bergsma & Rudas (2002): 边际 log-linear 参数,为“节俭参数化”中的变差独立提供理论基础。 - Evans & Didelez (2023): 本场报告对应的论文(arXiv:2109.03694,被 JRSS-B 接收)。 - Young & Tchetgen Tchetgen (2014): 在高维生存 MSM 模拟中明确表示“under the null 的模拟几乎不可能”。
二、最小内核 / 一个最简例子¶
一个二元处理、一个后处理协变量、一个连续结果的 DAG:
A → Z → B → Y
↗ ↙
U (unobserved)
(A, Z, B, Y),记 C = (A, Z, B) 为历史。- 干预目标:
P(y | do(a, b)) —— 将 A 和 B 分别设定为 a, b 时 Y 的分布。这是因果估计量 (estimand)。- 观测世界的条件分布:
P(z | a), P(b | a, z), P(y | a, z, b)。- g-formula 给出的干预分布:
P(z, y | do(a, b)) = P(z | a) · P(y | a, z, b)
P(y | do(a, b))。
节俭参数化的三步结构:
1. “过去” (the past): P(a, z, b) —— 完全由观测世界指定(通常取任意灵活模型,如 logistic 或 GLM)。
2. 目标干预分布: P(y | do(a, b)) —— 这是想要模拟/推断的,例如指定为 N(β₀ + β₁a + β₂b, 1)。
3. 依赖度量 (dependence measure): 在干预分布 P*(z,y | a,b) 中,Z 和 Y 之间的条件依赖(在 P* 下)。记为 φ*_{ZY|AB}。常用高斯 copula 或条件优势比。
为什么三步就够了?
因为 P*(y|a,b) 和 P*(z|a,b)(即 P(z|a))都已指定,联合分布 P*(z,y|a,b) 就缺一个依赖度量。它可以把条件分布“拼起来”得到完整的联合,而且三个部分可以选成变差独立(任意调参数不会互相矛盾)。
如何从这个联合得到观测世界的数据?
- 先从 干预世界 模拟:从 P*(a, b)(可设独立 Bernoulli),再从 P*(z,y|a,b) 通过 copula 采样。
- 再用拒绝采样 (rejection sampling) 将 B 的分布从未干预的 P*(b) 调回观测世界的 P(b|a,z)——因为干预世界中 B ⊥ Z | A,而观测世界 B ┊ Z | A。拒绝采样使样本最终来自观测世界的正确联合。
三、报告主体:讲者讲了什么¶
[0:00:06–0:03:00] 引言与动机
- 讲者介绍问题:因果推断中,只有部分分布指定(如 MSM 只给干预后边际),导致似然不可用,无法做 MLE 或贝叶斯。
- 提到“似然是计算噩梦”(Robins 2000)——直接照搬于幻灯片。
[0:03:00–0:06:00] g-null paradox 举例
- 以 A→Z→B→Y DAG 为例 (幻灯片第 8 页):Z|A ~ Bernoulli(expit(αA)), E[Y|A,Z,B] = β₁A + β₂Z + β₃B。
- 计算干预后的期望 E[Y | do(A,B)] = β₁A + β₃B + expit(αA)·β₂。
- 零假设 E[Y | do(A,B)] 不依赖于 A 等价于 β₁ = 0 且 α·β₂ = 0,即要么 Y ┊ A | B(一次性),要么 A ┊ Z 且 Y ┊ A | Z,B(双重独立)。比真实因果零假设严格得多——这就是 g-null paradox。
[0:06:00–0:08:00] 不和谐(uncongenial)模型的例子
- Loeys et al. (2013) 试图同时指定 logit E[Y|A] 和 logit E[Y|A,M],由于 logit 的不可折叠性,除非 M 无作用,否则不存在任何分布能同时满足这两个模型。
- 历史调整 MSM (Joffe et al. 2005) 也存在同样问题。
[0:08:00–0:10:00] 节俭参数化的核心思想
- 将干预分布 P*(z,y|a,b) 分解为:(i) 一个已知边际 P*(z|a) = P(z|a),(ii) 目标边际 P*(y|a,b),(iii) 一个依赖度量 φ*_{ZY|AB}。
- 三者变差独立且无冗余,故称节俭。
- 幻灯片第 13 页列出三项性质:完全指定联合、变差独立、无冗余。
[0:10:00–0:15:00] Cognate 概率与主定理
- 定义:P*(y|a) = ∫ P(y|a,z) · w(z|a) dz,其中 w(z|a) 是任意核函数。w = P(z|a) 还原普通条件;w = P(z) 还原经典后门准则。
- 主定理 (幻灯片 20 页):(P(z,a), P*(y|a), φ*_{ZY|A}) 能光滑参数化一个联合当且仅当 (P(z,a), P(y|a), φ_{ZY|A}) 也能——这意味着只要普通条件+依赖能光滑,因果版本也一样。
[0:15:00–0:22:00] 模拟案例:拒绝采样流程
- 步骤:
1. 从干预世界采样 A, B ~ Bernoulli(0.5) 独立。
2. 用高斯 copula(相关系数 2 expit(1 + a/2) - 1)生成 (Z, Y) 的条件分位数。
3. 边际转换:Z|A=a ~ Exp(exp(0.2a - 0.3)),Y|do(A=a,B=b) ~ N(-0.5 + 0.2a + 0.3b, 1)。
4. 拒绝采样:用比值 P(b|a,z) / P*(b) 对 B 做修正,其中 P(b|a,z) 指定为 logistic(含 A 和 Z),使最终样本来自观测世界。
- R 包 causl (Evans 2021) 实现了整套流程。
- 纳维回归(未加权重)偏向严重;IPW 和 AIPW 都无偏;MLE(因为知道正确模型)效率最高。n=1000 的模拟箱线图展示 MLE 的方差最小。
[0:22:00–0:28:00] 应用:生存模型 / Cox MSM
- 时序设置:(Z_{t-1}, A_{t-1}, Y_{t-1}) → (Z_t, A_t, Y_t)。把节俭参数化逐时间点扩展,指定 P(Y_t | Y_{t-1}=0, do(A_1,…,A_t))。
- 解决长期开放问题:Keogh et al. (2021) 的 additive hazard 方法无法直接设定目标边际结构,而节俭参数化可以。
- 讲者明确引用 Young & Tchetgen Tchetgen (2014) 中“under the null 几乎不可能模拟”的陈述,称这个方法直接解决了这一点。
[0:28:00–0:35:00] 更广的应用与讨论
- Many Data / 数据融合:联合建模 RCT(条件分布即为目标)和观测研究(需要干预分布),使用贝叶斯整合。讲者称有即将发表的论文。
- Verma 约束:P(y | do(a,b)) 不依赖于 A 这一约束正好是嵌套马尔可夫模型中的一类。用节俭参数化可以方便地用似然比检验。
- 局限性:对连续 Y,拒绝采样在高维(Z)中效率指数下降。正在开发 HMC 方法(非精确但可用)。
四、对应论文与开放问题¶
(a) 对应论文
- 主论文:Evans, R.J. & Didelez, V. (2023). Parameterizing and Simulating from Causal Models. Journal of the Royal Statistical Society: Series B (accepted). arXiv:2109.03694.
- 伴随软件:causl R package, Evans (2021), https://github.com/rje42/causl。
- 合作者:讲者 Robin Evans (Oxford),合作者 Vanessa Didelez (BIPS Bremen)。
- 讨论人 Larry Wasserman 提到的替代路径:Babino, Rotnitzky & Robins (听众提问时提到,具体篇名会议中未提及,待核实)。
(b) 开放问题
1. 高维持续 Z 的采样效率([0:32:58]~[0:33:20]):拒绝采样的 bound 随 Z 的维度指数增长,能否发展高效的 HMC 或粒子滤波方案?
2. 模型误设定下的 g-null paradox 残留(讨论环节 [0:54:27]~[0:55:31]):当 MSM 是近似而非正确模型时,变差独立是否足以避免矛盾?Larry Wasserman 指出仍可能存在“残留 null paradox”(投影参数不等于零)。这一点的严格条件待刻画。
3. 时序扩展的实用复杂性(讨论 [0:55:38]~[0:56:03]):许多时间点需要指定越来越大的 copula,如何在不牺牲灵活性前提下保持计算可行性?
4. 模型检查 / 拟合诊断(讨论 [0:57:31]~[0:58:00]):Larry Wasserman 提出将节俭参数化中的“过去”和 copula 设得足够灵活,这样模型误设的唯一来源就是 MSM 部分,从而可以用残差分析做诊断。但这在时序设置下是否可行?
5. 带有隐藏混杂的敏感性分析(讨论 [1:02:42]~[1:02:49],
Vanessa Didelez 口头提出):因为节俭参数化可以显式建模隐含的依赖结构(如未观测的 U),是否可将其框架用于系统性评估未观测混杂对 MSM 估计的影响?
Maintained by 陈星宇 · Homepage · Source on GitHub