Parameterizing and Simulating from Causal Models¶

讲者: Robin Evans
讨论人: Larry Wasserman
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-03-28
主题: 因果推断
视频: https://youtu.be/Ez861340pp4 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的核心是 “节俭参数化”（Frugal Parameterization） ，它为一种长期困扰因果推断领域的问题提供了系统解法：如何完整地指定一个联合分布，使得 1. 目标因果估计量（如边际结构模型 MSM 中的 P(y | do(a))）有干净的参数形式； 2. 其余部分的分布（协变量与处理的联合、依赖结构）可以任意灵活，且与目标参数变差独立（variation independent）； 3. 从该联合分布可以模拟出观测数据（观测世界存在复杂混杂），且干预后的数据恰好满足预先指定的因果模型。

这个方向追问的是边际结构模型（MSM）的“似然缺失”问题：MSM 只指定了干预后的边际，不指定整个联合分布，因此无法做似然推断（MLE、贝叶斯），也无法直接模拟满足特定因果假设的数据。历史上有两条主要路线： - g-formula 路线（Robins 1986）：指定 P(z|a) 和 P(y|a,z,b) 等条件分布，再做积分。问题在于 g-null paradox（Robins & Wasserman 1997）：即使真实因果效应为零，若模型是非线性的（如 logit+linear），其参数化本身会迫使效应不为零——除非额外强加不自然的独立条件。 - 半参数路线（IPW、AIPW、DR 估计等）：回避完整似然，只估计目标参数。但无法做完整的模拟或贝叶斯推断。

当前 frontier：需要一种同时具备完整似然、变差独立、易模拟的参数化。这场报告站在“将经典边际模型（contingency table 中的 marginal log-linear / copula）工具引入因果推断”的位置上。关键相关工作是： - Havercroft & Didelez (2012): 首次明确点出从 MSM 模拟的困难。 - Robins & Wasserman (1997): g-null paradox 的奠基。 - Bergsma & Rudas (2002): 边际 log-linear 参数，为“节俭参数化”中的变差独立提供理论基础。 - Evans & Didelez (2023): 本场报告对应的论文（arXiv:2109.03694，被 JRSS-B 接收）。 - Young & Tchetgen Tchetgen (2014): 在高维生存 MSM 模拟中明确表示“under the null 的模拟几乎不可能”。

二、最小内核 / 一个最简例子¶

一个二元处理、一个后处理协变量、一个连续结果的 DAG：

A → Z → B → Y
     ↗    ↙
    U (unobserved)

- 可观测数据: (A, Z, B, Y)，记 C = (A, Z, B) 为历史。
- 干预目标: P(y | do(a, b)) —— 将 A 和 B 分别设定为 a, b 时 Y 的分布。这是因果估计量 (estimand)。
- 观测世界的条件分布: P(z | a), P(b | a, z), P(y | a, z, b)。
- g-formula 给出的干预分布:

P(z, y | do(a, b)) = P(z | a) · P(y | a, z, b)

对 z 积分得 P(y | do(a, b))。

节俭参数化的三步结构： 1. “过去” (the past): P(a, z, b) —— 完全由观测世界指定（通常取任意灵活模型，如 logistic 或 GLM）。 2. 目标干预分布: P(y | do(a, b)) —— 这是想要模拟/推断的，例如指定为 N(β₀ + β₁a + β₂b, 1)。 3. 依赖度量 (dependence measure): 在干预分布 P*(z,y | a,b) 中，Z 和 Y 之间的条件依赖（在 P* 下）。记为 φ*_{ZY|AB}。常用高斯 copula 或条件优势比。

为什么三步就够了？
因为 P*(y|a,b) 和 P*(z|a,b)（即 P(z|a)）都已指定，联合分布 P*(z,y|a,b) 就缺一个依赖度量。它可以把条件分布“拼起来”得到完整的联合，而且三个部分可以选成变差独立（任意调参数不会互相矛盾）。

如何从这个联合得到观测世界的数据？
- 先从 干预世界 模拟：从 P*(a, b)（可设独立 Bernoulli），再从 P*(z,y|a,b) 通过 copula 采样。 - 再用拒绝采样 (rejection sampling) 将 B 的分布从未干预的 P*(b) 调回观测世界的 P(b|a,z)——因为干预世界中 B ⊥ Z | A，而观测世界 B ┊ Z | A。拒绝采样使样本最终来自观测世界的正确联合。

三、报告主体：讲者讲了什么¶

[0:00:06–0:03:00] 引言与动机
- 讲者介绍问题：因果推断中，只有部分分布指定（如 MSM 只给干预后边际），导致似然不可用，无法做 MLE 或贝叶斯。
- 提到“似然是计算噩梦”（Robins 2000）——直接照搬于幻灯片。

[0:03:00–0:06:00] g-null paradox 举例
- 以 A→Z→B→Y DAG 为例 (幻灯片第 8 页)：Z|A ~ Bernoulli(expit(αA)), E[Y|A,Z,B] = β₁A + β₂Z + β₃B。
- 计算干预后的期望 E[Y | do(A,B)] = β₁A + β₃B + expit(αA)·β₂。
- 零假设 E[Y | do(A,B)] 不依赖于 A 等价于 β₁ = 0 且 α·β₂ = 0，即要么 Y ┊ A | B（一次性），要么 A ┊ Z 且 Y ┊ A | Z,B（双重独立）。比真实因果零假设严格得多——这就是 g-null paradox。

[0:06:00–0:08:00] 不和谐（uncongenial）模型的例子
- Loeys et al. (2013) 试图同时指定 logit E[Y|A] 和 logit E[Y|A,M]，由于 logit 的不可折叠性，除非 M 无作用，否则不存在任何分布能同时满足这两个模型。
- 历史调整 MSM (Joffe et al. 2005) 也存在同样问题。

[0:08:00–0:10:00] 节俭参数化的核心思想
- 将干预分布 P*(z,y|a,b) 分解为：(i) 一个已知边际 P*(z|a) = P(z|a)，(ii) 目标边际 P*(y|a,b)，(iii) 一个依赖度量 φ*_{ZY|AB}。
- 三者变差独立且无冗余，故称节俭。
- 幻灯片第 13 页列出三项性质：完全指定联合、变差独立、无冗余。

[0:10:00–0:15:00] Cognate 概率与主定理
- 定义：P*(y|a) = ∫ P(y|a,z) · w(z|a) dz，其中 w(z|a) 是任意核函数。w = P(z|a) 还原普通条件；w = P(z) 还原经典后门准则。
- 主定理 (幻灯片 20 页)：(P(z,a), P*(y|a), φ*_{ZY|A}) 能光滑参数化一个联合当且仅当 (P(z,a), P(y|a), φ_{ZY|A}) 也能——这意味着只要普通条件+依赖能光滑，因果版本也一样。

[0:15:00–0:22:00] 模拟案例：拒绝采样流程
- 步骤：
1. 从干预世界采样 A, B ~ Bernoulli(0.5) 独立。
2. 用高斯 copula（相关系数 2 expit(1 + a/2) - 1）生成 (Z, Y) 的条件分位数。
3. 边际转换：Z|A=a ~ Exp(exp(0.2a - 0.3))，Y|do(A=a,B=b) ~ N(-0.5 + 0.2a + 0.3b, 1)。
4. 拒绝采样：用比值 P(b|a,z) / P*(b) 对 B 做修正，其中 P(b|a,z) 指定为 logistic（含 A 和 Z），使最终样本来自观测世界。
- R 包 causl (Evans 2021) 实现了整套流程。
- 纳维回归（未加权重）偏向严重；IPW 和 AIPW 都无偏；MLE（因为知道正确模型）效率最高。n=1000 的模拟箱线图展示 MLE 的方差最小。

[0:22:00–0:28:00] 应用：生存模型 / Cox MSM
- 时序设置：(Z_{t-1}, A_{t-1}, Y_{t-1}) → (Z_t, A_t, Y_t)。把节俭参数化逐时间点扩展，指定 P(Y_t | Y_{t-1}=0, do(A_1,…,A_t))。
- 解决长期开放问题：Keogh et al. (2021) 的 additive hazard 方法无法直接设定目标边际结构，而节俭参数化可以。
- 讲者明确引用 Young & Tchetgen Tchetgen (2014) 中“under the null 几乎不可能模拟”的陈述，称这个方法直接解决了这一点。

[0:28:00–0:35:00] 更广的应用与讨论
- Many Data / 数据融合：联合建模 RCT（条件分布即为目标）和观测研究（需要干预分布），使用贝叶斯整合。讲者称有即将发表的论文。
- Verma 约束：P(y | do(a,b)) 不依赖于 A 这一约束正好是嵌套马尔可夫模型中的一类。用节俭参数化可以方便地用似然比检验。
- 局限性：对连续 Y，拒绝采样在高维（Z）中效率指数下降。正在开发 HMC 方法（非精确但可用）。

四、对应论文与开放问题¶

(a) 对应论文
- 主论文：Evans, R.J. & Didelez, V. (2023). Parameterizing and Simulating from Causal Models. Journal of the Royal Statistical Society: Series B (accepted). arXiv:2109.03694.
- 伴随软件：causl R package, Evans (2021), https://github.com/rje42/causl。
- 合作者：讲者 Robin Evans (Oxford)，合作者 Vanessa Didelez (BIPS Bremen)。
- 讨论人 Larry Wasserman 提到的替代路径：Babino, Rotnitzky & Robins (听众提问时提到，具体篇名会议中未提及，待核实)。

(b) 开放问题
1. 高维持续 Z 的采样效率（[0:32:58]~[0:33:20]）：拒绝采样的 bound 随 Z 的维度指数增长，能否发展高效的 HMC 或粒子滤波方案？
2. 模型误设定下的 g-null paradox 残留（讨论环节 [0:54:27]~[0:55:31]）：当 MSM 是近似而非正确模型时，变差独立是否足以避免矛盾？Larry Wasserman 指出仍可能存在“残留 null paradox”（投影参数不等于零）。这一点的严格条件待刻画。
3. 时序扩展的实用复杂性（讨论 [0:55:38]~[0:56:03]）：许多时间点需要指定越来越大的 copula，如何在不牺牲灵活性前提下保持计算可行性？
4. 模型检查 / 拟合诊断（讨论 [0:57:31]~[0:58:00]）：Larry Wasserman 提出将节俭参数化中的“过去”和 copula 设得足够灵活，这样模型误设的唯一来源就是 MSM 部分，从而可以用残差分析做诊断。但这在时序设置下是否可行？
5. 带有隐藏混杂的敏感性分析（讨论 [1:02:42]~[1:02:49]， Vanessa Didelez 口头提出）：因为节俭参数化可以显式建模隐含的依赖结构（如未观测的 U），是否可将其框架用于系统性评估未观测混杂对 MSM 估计的影响？

Maintained by 陈星宇 · Homepage · Source on GitHub

Parameterizing and Simulating from Causal Models¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论