A tutorial on Bayesian causal inference¶
讲者: Fan Li
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-11
主题: 因果推断
视频: https://youtu.be/9pZtsVA6o4o · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告是 Fan Li(Duke University)在 OCIS 上的一场 教程(tutorial),主题为 贝叶斯因果推断(Bayesian causal inference)。它基于 Li、Ding 和 Mealli 合著的一篇综述论文(即将发表于 Philosophical Transactions of the Royal Society A,已上 arXiv)。因此,报告的定位不是一篇具体的研究论文,而是对一个子领域的系统性梳理、核心争议与未解决问题的综述与讲解。
(1)这个子方向在追问什么?
因果推断的核心问题是从观测数据中识别和估计因果效应,其根本困难在于每个个体只能观测到一个反事实。贝叶斯因果推断用贝叶斯视角(将一切视为随机变量,包括缺失的反事实)来处理这一缺失数据问题,追求: - 一个统一的、本质上是“插补缺失数据”的框架; - 对任何复杂 estimand(如 principal strata effects, ITE 的分布)都能自动产生 uncertainty quantification; - 能自然融入复杂的结构(空间、时间、网络干扰)。
(2)奠基与主流路线
- 奠基工作(Rubin, 1978):Rubin 将缺失数据问题和潜在结果框架系统引入贝叶斯视角,提出了 factorization 和 ignorability 概念(该术语即来自贝叶斯语境)。
- 识别与模型:在 ignorability(unconfoundedness + positivity) 下,贝叶斯推断和频率推断对同一个
E[Y(z) | X]模型进行估计。贝叶斯方的独特之处在于需要额外假设 prior independence,即将 treatment assignment 模型(propensity score)、outcome 模型、covariate 模型视为先验独立。 - 主流操作:大部分贝叶斯因果推断论文实际上隐式地用了 MATE(mixed average treatment effect) 作为 estimand,即条件于观测到的协变量分布(empirical distribution),而不对 X 建模。这既是方便之门,也是理论上的模糊地带(长期未被明确区分报告讲者 Li 团队在综述中明确区分了 SATE/PATE/MATE,这是本次报告的一个贡献)。
(3)当前 frontier(以这场报告为窗口)
- 争议 1:Propensity Score 的「悖论」。在贝叶斯框架下,若接受 prior independence,PS 完全从后验计算中消失(ignorable),这与 PS 在频率框架下的核心地位(设计阶段的关键工具)形成鲜明反差。如何 reconcile 这个悖论是当前活跃讨论领域(报告列出了三种融合 PS 的路径)。
- 争议 2:高维下的 prior dogmatism。Linero (2021) 的 prior dogmatism 概念揭示了:在高维下,prior independence 配合标准 shrinkage prior(如 spike-and-slab)会人为制造「选择偏差先验集中于零」的虚假信念,本质上是 Robins-Ritov 问题的贝叶斯版本。这是一个重要的理论预警。
- 实践痛点:overlap 不足下的 UQ。贝叶斯 nonparametric 模型的 uncertainty quantification 是否能反映真实的缺乏 overlap 程度?报告指出:BART(树结构)在缺乏 overlap 的区域倾向于低估不确定性,而 Gaussian Process(局部平滑)可能做得更好,但各自有缺陷。
(4)这场报告站在哪里
这场报告站在 「综述者+转译人」 的位置,不是推进单一方法,而是: - 系统梳理贝叶斯因果推断的完整逻辑链条(从 factorization 到 estimand 区分); - 揭露一个长期被忽视的盲区(MATE 在贝叶斯文献中的隐性使用); - 对比三种将 PS 融入贝叶斯框架的方案,并点出各自的 conceptual uneasiness; - 引入高维下的 prior dogmatism 概念链接到经典 Robins-Ritov 问题,使听众看到半参数贝叶斯理论中一个深层结构问题。
报告本身不提供封闭式的解决答案,更像是一份 「开放问题清单」——这对找研究问题的人非常有用。
二、最小内核 / 一个最简例子¶
符号与设置:
- 单位 i = 1,...,N(样本),Z_i ∈ {0,1}(二值处理),X_i(协变量向量,维度 d)。
- 潜在结果 Y_i(1), Y_i(0),观测结果 Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)。
- SUTVA(稳定单元处理值假设)默认成立。
- Ignorability(可忽略性):(Y(1),Y(0)) ⊥ Z | X(无混杂),且 0 < P(Z=1|X) < 1(正重叠)。
- Target estimand:
- CATE: τ(x) = E[Y(1)-Y(0) | X=x]
- PATE: τ^P = E[τ(X)](对 X 的总体分布平均)
- SATE: τ^S = (1/N) ∑ [Y_i(1)-Y_i(0)](样本内平均,需要 Y(1) 和 Y(0) 的联合分布)
- MATE: τ^M = (1/N) ∑ τ(X_i)(平均 CATE 在样本协变量上的值)
最简例子:完全随机实验 + 线性回归(报告 [0:18:00]-[0:19:00] 的显式例子)
- 数据:完全随机实验,
Z_i与任何X_i, Y_i独立(即Z_i ⊥ (Y(1),Y(0), X_i))。X_i是单变量协变量,Y_i(1), Y_i(0)服从二元正态分布:
(Y_i(1), Y_i(0))^T | X_i, θ_Y ~ N( (β_1 X_i, β_0 X_i)^T , Σ )
Σ = [σ_1^2 , ρ σ_1 σ_0 ; ρ σ_1 σ_0 , σ_0^2 ]
这意味着 E[Y_i(1)|X_i] = β_1 X_i, E[Y_i(0)|X_i] = β_0 X_i。
-
关键操作:在贝叶斯框架下,对于 PATE 和 MATE,我们不需要知道 ρ(Y(1) 和 Y(0) 的相关性),只需边际模型:
Y_i(z) | X_i ~ N(β_z X_i, σ_z^2),分别从处理组和控制组数据中拟合并更新参数后验。 -
实际计算:
- MATE:
τ^M = (β_1 - β_0) * (1/N) ∑ X_i = (β_1 - β_0) * X_bar。只需对β_1, β_0做贝叶斯回归,得到后验分布后代入即可,不需要插补缺失的 Y。 - PATE:
τ^P = (β_1 - β_0) * E[X]。需额外建模X分布的参数θ_X(如假设X_i ~ N(μ_X, σ_X^2)),并从后验中采样μ_X然后代入。这引入了 X-模型的不确定性。 - SATE:
τ^S = (1/N) ∑ [Y_i(1) - Y_i(0)]。这里需要 Y 与 Y0 的联合分布,因此需要 ρ 和具体的Y_i(1)与Y_i(0)的联合采样。必须从后验预测分布中插补每个缺失的反事实(如对于处理组 i,抽取Y_i(0)的预测值),然后计算样本上的平均差异。
核心思想解释:
PATE 和 MATE 只要求边际模型(各自的均值函数),因为它们是对 τ(x) 做总体/样本平均,个体水平的 ITE(需要联合)被平均掉了。SATE 需要联合分布因为你最终要计算 可观测的 那一个样本中的个体级 ITE。贝叶斯的优势在于,无论你想算哪个,你只需要插补缺失反事实或更新参数后验,计算出后验分布,就自动得到了 UQ。这个例子完美地展示了:先验独立性假设使 PS 模型(在本例中完全被忽略因为随机实验)不出现在后验中,但高维下可能失真。
三、报告主体:讲者讲了什么¶
[0:00:00–0:02:00] 开场与总览¶
- 报告基于 Ding, Li, Mealli 的皇家学会综述,已上 arXiv。
- 计划 50 分钟,先快速过潜在结果框架与因果推断基础(面向新听众),然后深入贝叶斯。
[0:02:14–0:05:16] 潜在结果框架与 Ignorability¶
- 定义了 ITE、CATE、PATE,并提醒不要混淆 ITE 和 CATE(常有 ML 论文混淆)。
- 强调潜在结果本质上是缺失数据问题,而在贝叶斯框架下,这真正地被当作缺失数据来处理——通过插补缺失的反事实。
- Ignorability = unconfoundedness + positivity,propensity score
e(x) = P(Z=1|X=x)。
[0:05:16–0:07:55] 识别与 Outcome Modeling¶
- 在 ignorability 下,
E[Y(z)|X] = E[Y|Z=z, X],因此所有 estimand 可识别。 - 直接的估计策略是:specify a model for
E[Y|Z,X](outcome regression) 并直接代入。
[0:07:55–0:12:50] 贝叶斯因子分解与三种 ATE(SATE, PATE, MATE)¶
- 核心之一。贝叶斯视角下每单位有四随机变量:
[Y_i(1), Y_i(0), Z_i, X_i],三定义,一缺失。 - 因子分解(Rubin 1978):
Pr(Y(1),Y(0),Z,X | θ) = Pr(Z|Y(1),Y(0),X; θ_Z) * Pr(Y(1),Y(0)|X; θ_Y) * Pr(X; θ_X)。 - 区分 SATE(样本有限全集的 ITE 平均)、PATE(总体平均)、MATE(CATE 在样本协变量上的平均)。讲者指出大多数贝叶斯论文隐式使用 MATE,但未经明确区分——此点为本报告重要贡献之一。
- SATE 依赖 Y(1) 和 Y(0) 的联合分布;PATE 和 MATE 不需要。
[0:12:50–0:19:10] 实例演示:二元正态模型下的差异¶
- 在线性回归 + 二元正态的完全随机实验例子中,逐项写出:
- ITE = (β₁-β₀) X_i, CATE = (β₁-β₀) x, SATE = 1/N ∑[Y_i(1)-Y_i(0)], MATE = (β₁-β₀) X_bar, PATE = (β₁-β₀) E[X]。
- 强调三者后验不确定性:PATE > MATE > SATE,但数值差异通常很小。
[0:19:10–0:31:00] 贝叶斯推断协议 + Prior Independence + 具体流程¶
- Prior Independence 假设:参数 θ_Z, θ_Y, θ_X 先验独立。看似无害,但高维下会带来严重问题。
- 在 ignorability + prior independence 下,PS 的似然部分从 PATE/MATE 后验中消失(propensity score 真的被「ignore」了)。这与频率框架下 PS 的核心地位形成鲜明对比——这是整个报告的核心张力点。
- 报告详细解释了如何用 marginal models(边际模型)估算 MATE 和 PATE 而不需插补缺失反事实;SATE 则需要联合模型并显式插补。
[0:31:00–0:45:00] Paradox 及其解决方案:PS 的三种融入方式¶
- 悖论:贝叶斯名义上 ignore PS,但实线中缺乏 overlap 的区域让任何 outcome model 都极度依赖 extrapolation,且后验 UQ 未必反映真实的不确定性。
- 方案 1(最主流[0:38:56]):PS 作为额外协变量加入 outcome model(Zigler 2013; Hahn e al. 2020 的贝叶斯因果森林)。两阶段:先估计 PS,再代入。讲者认为这是 贝叶斯版的 double robustness(若 outcome model 正确则冗余;若错误则因 PS 的平衡性而更稳健)。但争议:纯贝叶斯者认为它「不贝叶斯」;Robins 等质疑:为什么真实 outcome 生成机制应取决于 assignment 机制?
- 方案 2 [0:43:59]:依赖 prior(放弃 prior independence)。构造 outcome prior 使其与 PS 有效关联。缺点是 case-specific,无通用解。
- 方案 3 [0:45:12]:后验预测双重稳健(Posterior Predictive DR,Saarela et al. 2016; Antonelli et al. 2021)。分别构建贝叶斯 PS 模型和 outcome 模型,从后验预测中同时抽取 PS 和缺失反事实,代入 DR 估计量。优点:灵活、UQ 自动;缺点:不「正统贝叶斯」。
[0:45:12–0:52:00] 高维挑战与 Prior Dogmatism¶
- 两种高维 regime:模型参数多(BNP) vs. 协变量数量大。
- Prior Dogmatism(Linero, 2021):在高维下,prior independence + standard shrinkage prior(如 spike-and-slab)会使 ∆(z) = E[Y|Z=z] - E[Y(z)](选择偏差)的后验先验性地极度集中于零。这是 Robins-Ritov 问题的贝叶斯模拟,并随着 p 增加而恶化。
- 讲者暗示:将 PS 加入 outcome model 可以缓解此问题。
- 同时,BART 类模型在缺乏 overlap 区域可能低估不确定性,需要更灵活的 prior(如 GP)。
[0:52:00–结束] 总结与 Q&A¶
- 引用 Rubin 名言:任何困难不会因为换了推断范式而消失。
- 贝叶斯因果推断的独特优势:(1)统一框架处理任意 estimand(如 principal strata effects);(2)自动 UQ,可结合决策理论;(3)易融入复杂结构(空间、时间、干扰网络)。
- 讲者立场:贝叶斯是工具,不是目的。设计阶段质量(overlap/balance)比模型选择更重要。
四、对应论文与开放问题¶
(a)对应论文
- 本报告基于的综述论文:Li, F., Ding, P., & Mealli, F. "Bayesian Causal Inference: A Critical Review". 即将发表于 Philosophical Transactions of the Royal Society A,已上 arXiv。这是最主要的一个参考资源。
- 报告内多次提及的原创工作:
- Hahn, R., Murray, J.S., & Carvalho, C.M. (2020):Bayesian causal forest。Bayesian Analysis。
- Hill, J. (2011):BART 用于因果推断的首篇。
- Linero, A. (2021):Prior dogmatism。
- Zigler, C.M. (2013/2016):PS 作为协变量。
- Robins, J.M. et al. (2015):对 PS 融入 outcome model 的概念性质疑。
- Saarela, O. et al. (2016); Antonelli, J. et al. (2021):后验预测双重稳健。
- Rubin, D.B. (1978):奠基之作。
💡 重要复查建议:转写中的人名和术语(如 "Pong Ding" → 应是 Peng Ding; "Hahn et al. 2020" → 正确;"Honavar" → 可能是 Hahn")已经用幻灯片中的权威信息校正。请直接查看 Li et al. 综述论文的参考文献确认每个引用细节。
(b)报告留下的开放问题(每条标注了位置,R=可考察)
-
MATE 在贝叶斯文献中的隐性使用([0:16:00]-[0:17:00]):报告指出大多数贝叶斯论文实际在算 MATE 而非 PATE。一个开放而实质的问题是:显式区分 MATE 与 PATE 在推理上的差异有多大(尤其在 overlap 不足或高维情形下)?是否某些 prior specification 会不成比例地放大这种差异? 这是一个干净的方法论/理论问题,只需对已有贝叶斯因果结构做后验比较分析。
-
PS 作为协变量的理论正当性([0:42:20]-[0:43:31]):讲者称其为「贝叶斯版 double robustness」,但也坦承 Robins 等人的概念性质疑(outcome 机制为何应依赖 assignment 机制)。能否在某个非参数 / 半参数框架下给出一个明确的 double robustness 类的结果(如:只要 outcome 模型或 PS 模型之一正确,ATE 的后验中位数就一致?) 这可能需要连结半参数效率理论与贝叶斯收缩理论。
-
Prior Dogmatism 的严谨因果理论解([0:51:30]-[0:52:00]):报告提到「加入 PS 可以缓解」,但具体是「缓解」什么——是偏差还是 UQ 不足——没有理论刻画。一个值得研究的问题是:给出关于 ∆(z) 后验集中速率的显式界,并证明在什么条件下 PS 的加入确实能打破 prior independence 导致的这种「假集中」。这直接匹配用户对半参数理论和高维渐近的熟悉度(固定 p 下分析后验收敛速率)。
-
缺乏 overlap 下的 UQ:BART vs GP 的选择困境([0:48:30]-[0:49:10]):讲者指出 BART 用统一树结构,缺乏 overlap 区域会低估不确定性。是否能构造一种新的先验(如局部树深度/带宽随 overlap 程度自适应)来系统解决此 tradeoff? 这个问题与用户可能接触的高阶 U 统计量(若 overlap 区域划分涉及核函数带宽选择)或贝叶斯 nonparametric 方法都有联系。
-
(隐含) 贝叶斯 vs 频率因果关系估计的 convergence([1:00:30]-[1:01:20] Q&A 部分):听众问两者何时收敛于一致的结论,讲者回答较长。一个具体的问题是:对于 MATE 的贝叶斯后验均值和频率 double robust 估计,在什么平滑性条件下它们的一阶渐近等价(依概率)? 这是一个可将半参数理论和贝叶斯理论联系起来的横切问题。
Maintained by 陈星宇 · Homepage · Source on GitHub