Bayesian nonparametric trees for principal causal effects¶
作者: Chanmin Kim, Corwin Zigler
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 主分层是因果推断中处理"处理后变量"(post-treatment variable)的核心框架之一。其根本统计问题是:当中间变量 \(M\) 受处理 \(A\) 影响、同时又与结局 \(Y\) 相关时,如何定义和估计因果效应——此时直接条件于观测到的 \(M\) 会引入"选择偏差",因为 \(M\) 的取值本身部分决定了哪些个体能被观测到(如死亡、失访、不依从)。主分层的解决方案是:按潜在中间结果 \((M(1), M(0))\) 定义分层,在分层内部比较 \(Y(1)\) 与 \(Y(0)\),从而避开对处理后变量的条件。当前该方向已从早期的二值中间变量(如依从性)发展到连续中间变量、多中介、半竞争风险等复杂设定,识别与估计方法从参数模型扩展到半参数与非参数方法。
发展脉络:
-
奠基工作(2000s 初):Frangakis & Rubin (2002) 提出主分层框架,核心思想是用潜在中间结果定义分层,解决了处理后变量带来的选择偏差问题。这一框架将因果推断中的"缺失数据视角"(Ding & Li, 2017; Li et al., 2022 综述)形式化:每个个体有四个潜在结果 \((Y(1), Y(0), M(1), M(0))\),但只能观测到其中两个。
-
二值中间变量的成熟方法(2000s-2010s):当 \(M\) 为二值时,只有四个主分层(如依从者、从不依从者、始终接受者、违背者),识别与估计相对直接。代表性工作包括:
- Angrist et al. (1996) 的 LATE/CACE 估计,利用工具变量框架识别依从者平均因果效应。
- Imbens & Rubin (1997) 的贝叶斯方法,通过联合建模潜在结果进行推断。
- Frumento et al. (2012) 将主分层扩展到处理依从性测量场景。
-
Miratrix et al. (2018) 提出边界方法,在弱假设下给出效应的上下界。
-
连续中间变量的挑战(2010s-至今):当 \(M\) 连续时,\((M(1), M(0))\) 的取值组合无限多,存在"无限多基本主分层",识别与估计变得困难。主要进展包括:
- Schwartz et al. (2011) 和 Kim et al. (2019) 引入 Dirichlet 过程混合模型,非参数地建模主分层成员关系。
- Kim et al. (2020) 将该方法应用于电厂排放与健康效应研究,定义基于阈值的主分层效应。
-
本文作者在 Kim et al. (2019) 中使用高斯 copula 连接边际分布,处理多中介场景。
-
贝叶斯因果森林的引入(2020s):Hahn et al. (2020) 提出 Bayesian Causal Forests (BCF),将 BART 扩展到因果推断场景,专门处理处理效应异质性。Hill et al. (2020) 和 Tan & Roy (2019) 对 BART 在因果推断中的应用做了系统综述。Zeldow et al. (2019) 提出基于 BART 的结构均值模型用于异质性处理效应估计。
-
本文的位置:将 BCF 引入连续主分层场景,用两个 BART 模型分别建模主分层成员关系和条件结局,解决连续中间变量带来的无限主分层问题,同时利用 BCF 捕捉处理效应异质性的能力。
子线索聚类:
- 线索一:主分层的识别与估计方法
- 参数方法:早期工作多假设参数模型(如联合正态分布)。
- 边界方法:Miratrix et al. (2018) 在弱假设下给出效应边界。
- 贝叶斯非参数方法:Kim et al. (2019, 2020) 使用 DPM 模型。
-
本文属于这一线索的最新进展。
-
线索二:主分层与中介分析的关系
- Pearl (2001) 定义直接与间接效应,需要不同的识别假设。
- Imai et al. (2010) 提出中介分析的识别与敏感性分析方法。
- Kim et al. (2019) 讨论了主分层与中介分析两种框架的关系与适用场景。
-
本文明确区分两种框架:主分层关注"处理对中间变量有特定影响的子群体",中介分析关注"处理通过中间变量的机制"。
-
线索三:贝叶斯因果推断中的倾向得分问题
- Zigler (2013) 指出贝叶斯框架下倾向得分建模与结局建模之间的"反馈问题"。
- Lunn et al. (2009) 提出两步贝叶斯方法避免反馈。
- Hahn et al. (2020) 的 BCF 通过分离 \(\mu\) 和 \(\tau\) 函数缓解"正则化诱发混淆"。
-
本文继承了 BCF 的这一优势。
-
线索四:应用场景的扩展
- 半竞争风险:Comment et al. (2019)、Nevo & Gorfine (2022)、Lyu et al. (2023) 将主分层扩展到时间-事件数据。
- 临床试验中的不依从:Ren et al. (2021)、Schnell et al. (2022)。
- 环境健康:Zigler et al. (2017)、Kim et al. (2020)、Henneman et al. (2023)。
这个方向在追问的核心问题:
- 识别问题:在连续中间变量场景下,主分层效应何时可识别?需要哪些假设?边界方法与参数/非参数方法如何权衡?
- 估计问题:如何灵活地估计主分层成员关系和条件结局,避免参数模型的误设偏差?
- 计算问题:贝叶斯非参数模型(如 DPM、BART)的 MCMC 计算效率如何?后验收敛性如何诊断?
- 解释问题:连续主分层效应如何定义和解释?如何汇总为有意义的因果量?
当前主流方法与已知瓶颈: - 主流方法:Dirichlet 过程混合模型(DPM)用于主分层成员关系建模。 - 瓶颈:DPM 模型在处理高维协变量、捕捉处理效应异质性方面能力有限;参数模型假设过强;边界方法给出的区间可能过宽。
⚠️ 作者的 framing: 作者将缺口 frame 为:现有方法(如 Kim et al. 2019 的 DPM 方法)在连续主分层场景下"缺乏灵活性",无法充分捕捉处理效应异质性。BCF 的引入被呈现为"自然的解决方案",因为 BCF 专门设计用于捕捉处理效应异质性。
被淡化或回避的竞争路线: - 边界方法:Miratrix et al. (2018) 的边界方法不需要强分布假设,但作者未深入讨论其与本文方法的权衡。 - 频率派半参数方法:如基于影响函数的估计方法,在 intro 中未被提及。 - 识别假设的敏感性分析:Imai et al. (2010) 强调敏感性分析的重要性,但本文未涉及。
缺失的引用: - 主分层框架的原创论文 Frangakis & Rubin (2002) 未在 intro 中被引用(可能在正文或参考文献中)。 - 连续主分层的其他方法(如基于分位数的方法)未被讨论。
张力: 未见明显对立引用。不同方法(参数 vs 非参数、贝叶斯 vs 频率派、点估计 vs 边界)各有适用场景,作者主要强调 BCF 相对 DPM 的优势,未直接批评其他方法。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
符号定义:
- \(i = 1, \ldots, n\):样本索引。
- \(A_i \in \{0, 1\}\):处理变量(二值)。
- \(M_i\):中间变量(连续)。
- \(Y_i\):结局变量(连续)。
- \(\mathbf{X}_i\):基线协变量向量。
- \(M_i(a)\):潜在中间变量,表示个体 \(i\) 在处理 \(A = a\) 下的中间变量取值。
- \(Y_i(a)\):潜在结局变量,表示个体 \(i\) 在处理 \(A = a\) 下的结局。
- \((M_i(1), M_i(0), Y_i(1), Y_i(0))\):四个潜在结果,构成"科学模型"。
- 主分层 \(S_i = (M_i(1), M_i(0))\):由潜在中间变量定义的分层。
- 可观测数据:\((A_i, M_i, Y_i, \mathbf{X}_i)\),其中 \(M_i = M_i(A_i)\),\(Y_i = Y_i(A_i)\)。
模型与数据生成机制:
潜在结果框架下,每个个体有四个潜在结果,但只能观测到两个:
主分层效应定义为在特定分层 \(S = s\) 上的条件平均处理效应:
可观测与不可观测: - 可观测:\((A_i, M_i^{\text{obs}}, Y_i^{\text{obs}}, \mathbf{X}_i)\)。 - 不可观测:\(M_i(1 - A_i)\) 和 \(Y_i(1 - A_i)\)(反事实),以及主分层成员关系 \(S_i\)(因为 \(M_i(1)\) 和 \(M_i(0)\) 不能同时被观测)。
识别假设(标准主分层假设): 1. SUTVA:无干扰,处理分配无版本差异。 2. 随机化/可忽略性:\((M(1), M(0), Y(1), Y(0)) \perp A \mid \mathbf{X}\)。 3. 重叠性:\(0 < P(A = 1 \mid \mathbf{X}) < 1\)。 4. 主分层单调性(可选):\(M(1) \geq M(0)\)(或类似约束)。
第二步:最小内核
最简特例:二值中间变量
当 \(M\) 为二值时,主分层问题退化到经典 CACE(Complier Average Causal Effect)场景:
- 四个主分层:
- 依从者:\(M(1) = 1, M(0) = 0\)
- 始终接受者:\(M(1) = 1, M(0) = 1\)
- 从不接受者:\(M(1) = 0, M(0) = 0\)
-
违背者:\(M(1) = 0, M(0) = 1\)
-
在单调性假设下(无违背者),只有三个分层,依从者效应可识别。
本文的核心困难:连续中间变量
当 \(M\) 连续时,\((M(1), M(0))\) 的取值组合无限多,问题变为:
- 主分层成员关系建模:需要估计 \(P(S \in \mathcal{S} \mid \mathbf{X})\),其中 \(\mathcal{S}\) 是主分层空间的一个子集。
- 条件结局建模:需要估计 \(E[Y \mid A, S, \mathbf{X}]\)。
- 处理效应异质性:\(\tau(s)\) 作为 \(s\) 的函数,是一个曲面(surface),需要灵活建模。
最小数学问题:
给定观测数据 \(\{(A_i, M_i, Y_i, \mathbf{X}_i)\}_{i=1}^n\),估计主分层效应:
难点: 1. \(M(1)\) 和 \(M(0)\) 不能同时观测,主分层成员关系 \(S = (M(1), M(0))\) 是潜在变量。 2. 需要从观测数据中"恢复"主分层结构。 3. \(\tau(m_1, m_0)\) 是二元函数,需要非参数估计。
本文的解决方案:
使用两个 BART 模型:
-
中间变量模型(主分层成员关系):
\[M_i(a) \mid \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a)\]通过建模 \(M(1)\) 和 \(M(0)\) 的联合分布,推断主分层成员关系。 -
结局模型(条件于主分层):
\[Y_i(a) \mid M_i(1), M_i(0), \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a, M_i(1), M_i(0))\]条件于潜在中间变量,估计处理效应。
BCF 的关键优势:将结局模型分解为
三、这篇论文做了什么¶
三句话: 1. 研究了连续中间变量场景下主分层因果效应的估计问题,提出基于贝叶斯因果森林(BCF)的非参数方法。 2. 核心工具是两个 BART 模型:一个用于主分层成员关系(潜在中间变量的联合分布),一个用于条件结局(分离基线与处理效应)。 3. 主要结论是该方法能灵活捕捉处理效应在连续主分层上的异质性,并通过模拟和电厂排放数据验证了性能。
关键设定与假设:
设定: - 处理 \(A\):二值。 - 中间变量 \(M\):连续。 - 结局 \(Y\):连续。 - 协变量 \(\mathbf{X}\):向量。
假设: 1. SUTVA:无干扰,处理无版本差异。 2. 可忽略性:\((M(1), M(0), Y(1), Y(0)) \perp A \mid \mathbf{X}\)。 3. 重叠性:\(0 < P(A = 1 \mid \mathbf{X}) < 1\)。 4. 主分层可识别性:需要额外的参数假设或约束(如单调性、参数化主分层分布)来实现点识别。
相比已有文献的放宽/强化: - 相比 Kim et al. (2019) 的 DPM 方法,本文使用 BART 替代 DPM,放宽了对主分层分布形状的假设。 - 相比参数方法,本文是非参数的,对模型误设更稳健。 - 相比边界方法,本文需要更强的分布假设来实现点识别。
主要结果:
定理/命题(本文主要是方法论文,理论结果较少): - 本文的核心贡献是方法论而非理论定理。主要理论依据来自 BCF 的已有理论保证(Hahn et al. 2020)。 - 识别性依赖于潜在结果的联合分布建模,通过贝叶斯框架下的后验推断实现。
模拟研究: - 设计多种数据生成场景,比较本文方法与 Kim et al. (2019) 的 DPM 方法。 - 评估指标:主分层效应估计的偏差、均方误差、覆盖率。 - 结果:BCF 方法在处理效应异质性场景下表现更好,尤其是在主分层效应 \(\tau(s)\) 随 \(s\) 变化的场景。
真实数据应用: - 场景:电厂排放控制技术对 PM2.5 的因果效应,中间变量是 SO2 排放量。 - 数据:美国 480 个电厂,结局是周边 PM2.5 浓度。 - 结果:展示了处理效应如何随 SO2 排放量变化而变化,验证了方法的实用性。
证明路线与技术技巧:
本文是方法论文,核心是贝叶斯模型的构建和 MCMC 采样,而非传统的定理证明。
整体路线: 1. 模型构建: - 中间变量模型:\(M_i(a) \mid \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a)\),使用 BCF 分离 \(\mu_M\) 和 \(\tau_M\)。 - 结局模型:\(Y_i(a) \mid M_i(1), M_i(0), \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a, S)\),使用 BCF 分离 \(\mu_Y\) 和 \(\tau_Y\)。
- 先验设定:
- BART 先验:树的结构、叶节点参数、误差方差。
-
关键:使用 BCF 的分离先验,避免正则化诱发混淆。
-
后验推断:
- MCMC 采样:Gibbs 采样,交替更新中间变量模型和结局模型。
-
潜在变量推断:对于每个个体,推断未观测的 \(M(1 - A)\)。
-
主分层效应估计:
- 从后验样本中计算 \(\tau(m_1, m_0)\)。
- 可定义基于阈值的主分层效应:\(E[Y(1) - Y(0) \mid M(1) - M(0) > \epsilon]\)。
技术技巧: - BCF 分离:将结局模型分解为 \(\mu(\mathbf{X}) + A \cdot \tau(\mathbf{X})\),避免倾向得分与处理效应的混淆。 - BART 先验:使用 Chipman et al. (2010) 的默认先验,树的数量、深度、叶节点参数的正则化。 - 潜在变量推断:通过 MCMC 同时推断主分层成员关系和结局模型参数。 - 两步贝叶斯方法(可选):参考 Lunn et al. (2009) 和 Zigler (2016),避免中间变量模型与结局模型之间的反馈。
真实例子与应用:
数据: - 来源:美国电厂排放数据(Henneman et al. 2023 的扩展)。 - 处理 \(A\):是否安装某种排放控制技术。 - 中间变量 \(M\):SO2 排放量(连续)。 - 结局 \(Y\):周边 PM2.5 浓度。 - 协变量 \(\mathbf{X}\):电厂特征、气象条件等。
方法应用: - 使用本文方法估计主分层效应 \(\tau(m_1, m_0)\)。 - 定义基于阈值的主分层:\(M(1) - M(0) < -\epsilon\)(排放量显著下降的电厂)。
结果: - 展示了处理效应如何随 SO2 排放量变化而变化。 - 验证了排放控制技术对 PM2.5 的因果效应主要通过 SO2 排放量下降实现。
例子想说明什么: - 验证方法在真实数据上的可行性。 - 展示连续主分层效应的异质性。 - 与 Kim et al. (2020) 的结果对比,展示 BCF 方法的灵活性。
🔎 结论是否比证明窄: - 本文主要是方法论文,理论保证依赖于 BCF 的已有理论(Hahn et al. 2020)。 - 识别性依赖于潜在结果联合分布的建模假设,这些假设在贝叶斯框架下通过先验和后验实现,缺乏严格的频率派识别性证明。 - 作者在讨论部分承认了这一局限,并指出未来可以探索边界方法。
四、开放问题¶
-
识别假设的敏感性分析:本文依赖潜在结果联合分布的参数/非参数假设来实现点识别。如何发展敏感性分析方法,评估识别假设违反对结果的影响?(扎根于 Imai et al. 2010 的敏感性分析框架,以及本文讨论部分对假设的承认。)
-
边界方法与非参数识别:本文使用贝叶斯非参数方法实现点识别,但边界方法(Miratrix et al. 2018)可以在更弱假设下给出效应范围。如何结合两种方法,在贝叶斯框架下实现"部分识别"?(扎根于 Miratrix et al. 2018 的边界方法,以及本文未涉及的这一路线。)
-
高维协变量与变量选择:本文假设协变量 \(\mathbf{X}\) 已给定。如何在高维协变量场景下进行变量选择,同时保持因果效应估计的有效性?(扎根于 Kim et al. 2023 的变量选择方法,以及本文引用的该工作。)
-
计算效率与可扩展性:BART 的 MCMC 计算成本较高,在大规模数据上可能受限。如何改进计算效率?(扎根于 BART 文献中对计算成本的讨论,以及本文模拟研究的样本量限制。)
提醒:要确认某条是否真 gap,建议读 Kim et al. (2019, 2020, 2023)、Hahn et al. (2020)、Miratrix et al. (2018) 的 intro 和 discussion,看是否指向相同问题。
Maintained by 陈星宇 · Homepage · Source on GitHub