A tutorial on Bayesian causal inference¶

讲者: Fan Li
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-11
主题: 因果推断
视频: https://youtu.be/9pZtsVA6o4o · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告是 Fan Li（Duke University）在 OCIS 上的一场 教程（tutorial），主题为 贝叶斯因果推断（Bayesian causal inference）。它基于 Li、Ding 和 Mealli 合著的一篇综述论文（即将发表于 Philosophical Transactions of the Royal Society A，已上 arXiv）。因此，报告的定位不是一篇具体的研究论文，而是对一个子领域的系统性梳理、核心争议与未解决问题的综述与讲解。

（1）这个子方向在追问什么？

因果推断的核心问题是从观测数据中识别和估计因果效应，其根本困难在于每个个体只能观测到一个反事实。贝叶斯因果推断用贝叶斯视角（将一切视为随机变量，包括缺失的反事实）来处理这一缺失数据问题，追求： - 一个统一的、本质上是“插补缺失数据”的框架； - 对任何复杂 estimand（如 principal strata effects, ITE 的分布）都能自动产生 uncertainty quantification； - 能自然融入复杂的结构（空间、时间、网络干扰）。

（2）奠基与主流路线

奠基工作（Rubin, 1978）：Rubin 将缺失数据问题和潜在结果框架系统引入贝叶斯视角，提出了 factorization 和 ignorability 概念（该术语即来自贝叶斯语境）。
识别与模型：在 ignorability（unconfoundedness + positivity） 下，贝叶斯推断和频率推断对同一个 E[Y(z) | X] 模型进行估计。贝叶斯方的独特之处在于需要额外假设 prior independence，即将 treatment assignment 模型（propensity score）、outcome 模型、covariate 模型视为先验独立。
主流操作：大部分贝叶斯因果推断论文实际上隐式地用了 MATE（mixed average treatment effect） 作为 estimand，即条件于观测到的协变量分布（empirical distribution），而不对 X 建模。这既是方便之门，也是理论上的模糊地带（长期未被明确区分报告讲者 Li 团队在综述中明确区分了 SATE/PATE/MATE，这是本次报告的一个贡献）。

（3）当前 frontier（以这场报告为窗口）

争议 1：Propensity Score 的「悖论」。在贝叶斯框架下，若接受 prior independence，PS 完全从后验计算中消失（ignorable），这与 PS 在频率框架下的核心地位（设计阶段的关键工具）形成鲜明反差。如何 reconcile 这个悖论是当前活跃讨论领域（报告列出了三种融合 PS 的路径）。
争议 2：高维下的 prior dogmatism。Linero (2021) 的 prior dogmatism 概念揭示了：在高维下，prior independence 配合标准 shrinkage prior（如 spike-and-slab）会人为制造「选择偏差先验集中于零」的虚假信念，本质上是 Robins-Ritov 问题的贝叶斯版本。这是一个重要的理论预警。
实践痛点：overlap 不足下的 UQ。贝叶斯 nonparametric 模型的 uncertainty quantification 是否能反映真实的缺乏 overlap 程度？报告指出：BART（树结构）在缺乏 overlap 的区域倾向于低估不确定性，而 Gaussian Process（局部平滑）可能做得更好，但各自有缺陷。

（4）这场报告站在哪里

这场报告站在 「综述者+转译人」 的位置，不是推进单一方法，而是： - 系统梳理贝叶斯因果推断的完整逻辑链条（从 factorization 到 estimand 区分）； - 揭露一个长期被忽视的盲区（MATE 在贝叶斯文献中的隐性使用）； - 对比三种将 PS 融入贝叶斯框架的方案，并点出各自的 conceptual uneasiness； - 引入高维下的 prior dogmatism 概念链接到经典 Robins-Ritov 问题，使听众看到半参数贝叶斯理论中一个深层结构问题。

报告本身不提供封闭式的解决答案，更像是一份 「开放问题清单」——这对找研究问题的人非常有用。

二、最小内核 / 一个最简例子¶

符号与设置： - 单位 i = 1,...,N（样本），Z_i ∈ {0,1}（二值处理），X_i（协变量向量，维度 d）。 - 潜在结果 Y_i(1), Y_i(0)，观测结果 Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)。 - SUTVA（稳定单元处理值假设）默认成立。 - Ignorability（可忽略性）：(Y(1),Y(0)) ⊥ Z | X（无混杂），且 0 < P(Z=1|X) < 1（正重叠）。 - Target estimand： - CATE: τ(x) = E[Y(1)-Y(0) | X=x] - PATE: τ^P = E[τ(X)]（对 X 的总体分布平均） - SATE: τ^S = (1/N) ∑ [Y_i(1)-Y_i(0)]（样本内平均，需要 Y(1) 和 Y(0) 的联合分布） - MATE: τ^M = (1/N) ∑ τ(X_i)（平均 CATE 在样本协变量上的值）

最简例子：完全随机实验 + 线性回归（报告 [0:18:00]-[0:19:00] 的显式例子）

数据：完全随机实验，Z_i 与任何 X_i, Y_i 独立（即 Z_i ⊥ (Y(1),Y(0), X_i)）。X_i 是单变量协变量，Y_i(1), Y_i(0) 服从二元正态分布：

(Y_i(1), Y_i(0))^T | X_i, θ_Y ~ N( (β_1 X_i, β_0 X_i)^T , Σ )
Σ = [σ_1^2 , ρ σ_1 σ_0 ; ρ σ_1 σ_0 , σ_0^2 ]

这意味着 E[Y_i(1)|X_i] = β_1 X_i, E[Y_i(0)|X_i] = β_0 X_i。

关键操作：在贝叶斯框架下，对于 PATE 和 MATE，我们不需要知道 ρ（Y(1) 和 Y(0) 的相关性），只需边际模型：Y_i(z) | X_i ~ N(β_z X_i, σ_z^2)，分别从处理组和控制组数据中拟合并更新参数后验。
实际计算：
MATE：τ^M = (β_1 - β_0) * (1/N) ∑ X_i = (β_1 - β_0) * X_bar。只需对 β_1, β_0 做贝叶斯回归，得到后验分布后代入即可，不需要插补缺失的 Y。
PATE：τ^P = (β_1 - β_0) * E[X]。需额外建模 X 分布的参数 θ_X（如假设 X_i ~ N(μ_X, σ_X^2)），并从后验中采样 μ_X 然后代入。这引入了 X-模型的不确定性。
SATE：τ^S = (1/N) ∑ [Y_i(1) - Y_i(0)]。这里需要 Y 与 Y0 的联合分布，因此需要 ρ 和具体的 Y_i(1) 与 Y_i(0) 的联合采样。必须从后验预测分布中插补每个缺失的反事实（如对于处理组 i，抽取 Y_i(0) 的预测值），然后计算样本上的平均差异。

核心思想解释：

PATE 和 MATE 只要求边际模型（各自的均值函数），因为它们是对 τ(x) 做总体/样本平均，个体水平的 ITE（需要联合）被平均掉了。SATE 需要联合分布因为你最终要计算 可观测的 那一个样本中的个体级 ITE。贝叶斯的优势在于，无论你想算哪个，你只需要插补缺失反事实或更新参数后验，计算出后验分布，就自动得到了 UQ。这个例子完美地展示了：先验独立性假设使 PS 模型（在本例中完全被忽略因为随机实验）不出现在后验中，但高维下可能失真。

三、报告主体：讲者讲了什么¶

[0:00:00–0:02:00] 开场与总览¶

报告基于 Ding, Li, Mealli 的皇家学会综述，已上 arXiv。
计划 50 分钟，先快速过潜在结果框架与因果推断基础（面向新听众），然后深入贝叶斯。

[0:02:14–0:05:16] 潜在结果框架与 Ignorability¶

定义了 ITE、CATE、PATE，并提醒不要混淆 ITE 和 CATE（常有 ML 论文混淆）。
强调潜在结果本质上是缺失数据问题，而在贝叶斯框架下，这真正地被当作缺失数据来处理——通过插补缺失的反事实。
Ignorability = unconfoundedness + positivity，propensity score e(x) = P(Z=1|X=x)。

[0:05:16–0:07:55] 识别与 Outcome Modeling¶

在 ignorability 下，E[Y(z)|X] = E[Y|Z=z, X]，因此所有 estimand 可识别。
直接的估计策略是：specify a model for E[Y|Z,X] (outcome regression) 并直接代入。

[0:07:55–0:12:50] 贝叶斯因子分解与三种 ATE（SATE, PATE, MATE）¶

核心之一。贝叶斯视角下每单位有四随机变量：[Y_i(1), Y_i(0), Z_i, X_i]，三定义，一缺失。
因子分解（Rubin 1978）：Pr(Y(1),Y(0),Z,X | θ) = Pr(Z|Y(1),Y(0),X; θ_Z) * Pr(Y(1),Y(0)|X; θ_Y) * Pr(X; θ_X)。
区分 SATE（样本有限全集的 ITE 平均）、PATE（总体平均）、MATE（CATE 在样本协变量上的平均）。讲者指出大多数贝叶斯论文隐式使用 MATE，但未经明确区分——此点为本报告重要贡献之一。
SATE 依赖 Y(1) 和 Y(0) 的联合分布；PATE 和 MATE 不需要。

[0:12:50–0:19:10] 实例演示：二元正态模型下的差异¶

在线性回归 + 二元正态的完全随机实验例子中，逐项写出：
ITE = (β₁-β₀) X_i, CATE = (β₁-β₀) x, SATE = 1/N ∑[Y_i(1)-Y_i(0)], MATE = (β₁-β₀) X_bar, PATE = (β₁-β₀) E[X]。
强调三者后验不确定性：PATE > MATE > SATE，但数值差异通常很小。

[0:19:10–0:31:00] 贝叶斯推断协议 + Prior Independence + 具体流程¶

Prior Independence 假设：参数 θ_Z, θ_Y, θ_X 先验独立。看似无害，但高维下会带来严重问题。
在 ignorability + prior independence 下，PS 的似然部分从 PATE/MATE 后验中消失（propensity score 真的被「ignore」了）。这与频率框架下 PS 的核心地位形成鲜明对比——这是整个报告的核心张力点。
报告详细解释了如何用 marginal models（边际模型）估算 MATE 和 PATE 而不需插补缺失反事实；SATE 则需要联合模型并显式插补。

[0:31:00–0:45:00] Paradox 及其解决方案：PS 的三种融入方式¶

悖论：贝叶斯名义上 ignore PS，但实线中缺乏 overlap 的区域让任何 outcome model 都极度依赖 extrapolation，且后验 UQ 未必反映真实的不确定性。
方案 1（最主流[0:38:56]）：PS 作为额外协变量加入 outcome model（Zigler 2013; Hahn e al. 2020 的贝叶斯因果森林）。两阶段：先估计 PS，再代入。讲者认为这是 贝叶斯版的 double robustness（若 outcome model 正确则冗余；若错误则因 PS 的平衡性而更稳健）。但争议：纯贝叶斯者认为它「不贝叶斯」；Robins 等质疑：为什么真实 outcome 生成机制应取决于 assignment 机制？
方案 2 [0:43:59]：依赖 prior（放弃 prior independence）。构造 outcome prior 使其与 PS 有效关联。缺点是 case-specific，无通用解。
方案 3 [0:45:12]：后验预测双重稳健（Posterior Predictive DR，Saarela et al. 2016; Antonelli et al. 2021）。分别构建贝叶斯 PS 模型和 outcome 模型，从后验预测中同时抽取 PS 和缺失反事实，代入 DR 估计量。优点：灵活、UQ 自动；缺点：不「正统贝叶斯」。

[0:45:12–0:52:00] 高维挑战与 Prior Dogmatism¶

两种高维 regime：模型参数多（BNP） vs. 协变量数量大。
Prior Dogmatism（Linero, 2021）：在高维下，prior independence + standard shrinkage prior（如 spike-and-slab）会使 ∆(z) = E[Y|Z=z] - E[Y(z)]（选择偏差）的后验先验性地极度集中于零。这是 Robins-Ritov 问题的贝叶斯模拟，并随着 p 增加而恶化。
讲者暗示：将 PS 加入 outcome model 可以缓解此问题。
同时，BART 类模型在缺乏 overlap 区域可能低估不确定性，需要更灵活的 prior（如 GP）。

[0:52:00–结束] 总结与 Q&A¶

引用 Rubin 名言：任何困难不会因为换了推断范式而消失。
贝叶斯因果推断的独特优势：（1）统一框架处理任意 estimand（如 principal strata effects）；（2）自动 UQ，可结合决策理论；（3）易融入复杂结构（空间、时间、干扰网络）。
讲者立场：贝叶斯是工具，不是目的。设计阶段质量（overlap/balance）比模型选择更重要。

四、对应论文与开放问题¶

（a）对应论文

本报告基于的综述论文：Li, F., Ding, P., & Mealli, F. "Bayesian Causal Inference: A Critical Review". 即将发表于 Philosophical Transactions of the Royal Society A，已上 arXiv。这是最主要的一个参考资源。
报告内多次提及的原创工作：
Hahn, R., Murray, J.S., & Carvalho, C.M. (2020)：Bayesian causal forest。Bayesian Analysis。
Hill, J. (2011)：BART 用于因果推断的首篇。
Linero, A. (2021)：Prior dogmatism。
Zigler, C.M. (2013/2016)：PS 作为协变量。
Robins, J.M. et al. (2015)：对 PS 融入 outcome model 的概念性质疑。
Saarela, O. et al. (2016); Antonelli, J. et al. (2021)：后验预测双重稳健。
Rubin, D.B. (1978)：奠基之作。

💡 重要复查建议：转写中的人名和术语（如 "Pong Ding" → 应是 Peng Ding; "Hahn et al. 2020" → 正确；"Honavar" → 可能是 Hahn")已经用幻灯片中的权威信息校正。请直接查看 Li et al. 综述论文的参考文献确认每个引用细节。

（b）报告留下的开放问题（每条标注了位置，R=可考察）

MATE 在贝叶斯文献中的隐性使用（[0:16:00]-[0:17:00]）：报告指出大多数贝叶斯论文实际在算 MATE 而非 PATE。一个开放而实质的问题是：显式区分 MATE 与 PATE 在推理上的差异有多大（尤其在 overlap 不足或高维情形下）？是否某些 prior specification 会不成比例地放大这种差异？ 这是一个干净的方法论/理论问题，只需对已有贝叶斯因果结构做后验比较分析。
PS 作为协变量的理论正当性（[0:42:20]-[0:43:31]）：讲者称其为「贝叶斯版 double robustness」，但也坦承 Robins 等人的概念性质疑（outcome 机制为何应依赖 assignment 机制）。能否在某个非参数 / 半参数框架下给出一个明确的 double robustness 类的结果（如：只要 outcome 模型或 PS 模型之一正确，ATE 的后验中位数就一致？） 这可能需要连结半参数效率理论与贝叶斯收缩理论。
Prior Dogmatism 的严谨因果理论解（[0:51:30]-[0:52:00]）：报告提到「加入 PS 可以缓解」，但具体是「缓解」什么——是偏差还是 UQ 不足——没有理论刻画。一个值得研究的问题是：给出关于 ∆(z) 后验集中速率的显式界，并证明在什么条件下 PS 的加入确实能打破 prior independence 导致的这种「假集中」。这直接匹配用户对半参数理论和高维渐近的熟悉度（固定 p 下分析后验收敛速率）。
缺乏 overlap 下的 UQ：BART vs GP 的选择困境（[0:48:30]-[0:49:10]）：讲者指出 BART 用统一树结构，缺乏 overlap 区域会低估不确定性。是否能构造一种新的先验（如局部树深度/带宽随 overlap 程度自适应）来系统解决此 tradeoff？ 这个问题与用户可能接触的高阶 U 统计量（若 overlap 区域划分涉及核函数带宽选择）或贝叶斯 nonparametric 方法都有联系。
(隐含) 贝叶斯 vs 频率因果关系估计的 convergence（[1:00:30]-[1:01:20] Q&A 部分）：听众问两者何时收敛于一致的结论，讲者回答较长。一个具体的问题是：对于 MATE 的贝叶斯后验均值和频率 double robust 估计，在什么平滑性条件下它们的一阶渐近等价（依概率）？ 这是一个可将半参数理论和贝叶斯理论联系起来的横切问题。

Maintained by 陈星宇 · Homepage · Source on GitHub