Bayesian nonparametric trees for principal causal effects¶

作者: Chanmin Kim, Corwin Zigler
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: Brown University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf024

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：如何评估一个处理（treatment）对某个主要结局（primary outcome）的因果效应，当这个效应可能依赖于处理对某个中间变量（intermediate variable）的因果效应时。这被称为主分层分析（Principal Stratification, PS）。其核心思想是，根据个体在处理下的潜在中间变量值（即“处理对中间变量的因果效应”）将总体划分为若干“主层”（principal strata），然后估计处理对主要结局在每个主层内的因果效应。当前成熟度：对于二值中间变量，PS 方法已相当成熟（如经典的“依从者平均因果效应”CACE）；但对于连续中间变量，由于存在无穷多个基本主层，方法学上仍是一个活跃且困难的 frontier。

发展脉络（history）¶

根据论文引言及其引用，该方向的发展脉络如下：

奠基工作：主分层框架的提出
- Frangakis & Rubin (2002)：正式提出了“主分层”这一概念，将因果效应定义为在由处理对中间变量的联合潜在结果所定义的子总体（主层）内的条件效应。这是整个领域的基石。
主要进展：二值中间变量的成熟与连续变量的挑战
- Angrist, Imbens & Rubin (1996)：虽然早于主分层框架，但其提出的“依从者平均因果效应”（CACE）是主分层分析最著名的应用实例，其中中间变量（是否接受处理）是二值的。这为二值情况提供了成熟的识别与估计策略。
- Jin & Rubin (2008)：首次尝试将主分层扩展到连续中间变量。他们提出了一种基于“基本主层”（basic principal strata）的贝叶斯方法，但该方法依赖于对潜在结果分布施加强参数假设（如双变量正态性），且计算上具有挑战性。
- Schwartz, Li & Mealli (2011)：提出了另一种贝叶斯方法，通过离散化连续中间变量来近似处理，但离散化本身会引入主观性，且可能丢失信息。
当前 Frontier：灵活的非参数方法与处理效应异质性
- Hill (2011)：提出了贝叶斯加性回归树（BART），作为一种强大的非参数回归工具，在因果推断中用于估计条件平均处理效应（CATE），并展现了捕捉处理效应异质性的能力。
- Hahn, Murray & Carvalho (2020)：提出了贝叶斯因果森林（BCF），这是 BART 的一个变体，专门设计用于因果推断。BCF 通过目标选择（targeted selection）和正则化诱导混杂（regularization-induced confounding）等技巧，改进了对处理效应异质性的估计，并减少了正则化偏差。
- 本文（Kim & Zigler, 2024）：将 BCF 引入连续中间变量的主分层分析。作者认为，BCF 捕捉处理效应异质性的能力天然适合评估效应如何随连续主层表面变化。本文是第一个将 BCF 用于此设定，并处理了连续主层带来的无穷多分层问题。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：主分层框架的识别与估计（PS 核心）
- 做什么：专注于如何定义、识别和估计主层内的因果效应。核心挑战在于处理潜在结果（特别是中间变量的潜在结果）的不可观测性。
- 关键工作：Frangakis & Rubin (2002)（框架）、Angrist, Imbens & Rubin (1996)（二值特例）、Jin & Rubin (2008)（连续变量参数法）、Schwartz, Li & Mealli (2011)（连续变量离散化法）。
- 瓶颈：对于连续中间变量，缺乏既能避免强参数假设又能避免主观离散化的灵活方法。
线索二：处理效应异质性的非参数估计（BART/BCF 方法）
- 做什么：开发灵活的非参数模型（如 BART、BCF）来估计处理效应如何随协变量变化，即条件平均处理效应（CATE）。
- 关键工作：Hill (2011)（BART）、Hahn, Murray & Carvalho (2020)（BCF）。
- 瓶颈：这些方法通常用于估计 CATE，但未被直接应用于主分层框架，特别是当主层本身由连续中间变量定义时。

这个方向在追问的核心问题¶

识别问题：在连续中间变量下，如何在不依赖强参数假设或离散化的情况下，识别（或部分识别）主层内的因果效应？
估计问题：如何灵活且高效地估计这些效应，同时处理高维协变量和复杂的非线性关系？
异质性建模：如何刻画处理效应如何随连续主层表面（即处理对中间变量的效应）平滑变化，而不是将其视为离散的、不连续的类别？
计算可行性：对于连续中间变量，贝叶斯后验推断的计算负担如何？

⚠️ 作者的 framing¶

作者的缺口 frame：作者将缺口 frame 为“现有处理连续中间变量的主分层方法（Jin & Rubin 2008; Schwartz et al. 2011）要么依赖强参数假设，要么依赖主观离散化，而 BCF 作为一种灵活的非参数工具，天然适合解决这个问题”。因此，本文成为“显然的下一步”：将 BCF 应用于连续主分层。
被淡化或回避的竞争路线：
- 半参数方法：作者完全回避了半参数效率理论（如 efficient influence function）在主分层估计中的应用。这是一个明显的竞争路线，因为半参数方法可以在更弱的假设下提供渐近有效的估计，而无需依赖贝叶斯先验。作者没有讨论为什么贝叶斯非参数方法优于半参数方法。
- 敏感性分析：主分层分析通常依赖于“排除限制”（exclusion restriction）或“单调性”（monotonicity）等强识别假设。作者没有讨论这些假设在连续中间变量下的合理性，也没有提供敏感性分析工具。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 半参数主分层文献：例如，关于使用工具变量或倾向得分进行主分层估计的半参数文献（如 Abadie 2003; Cheng & Small 2006）。这些工作提供了与贝叶斯方法不同的视角，且更接近研究者的“semiparametric theory”兴趣。
- 关于 BART 后验收缩率的理论：虽然 BART 在实践中表现良好，但其后验收缩率（posterior contraction rate）的理论性质直到最近才被研究（如 Rockova & van der Pas 2020）。作者没有引用或讨论这些理论结果，这使得本文的理论基础（如 BCF 的“目标选择”和“正则化诱导混杂”优势）缺乏严格的数学支撑。

张力¶

未见明显对立引用。所有被引工作都承认连续中间变量主分层分析的困难，并试图以不同方式解决。Jin & Rubin (2008) 的参数法与 Schwartz et al. (2011) 的离散化法之间是互补而非对立的关系，而本文的 BCF 方法则被视为一种更灵活的替代方案。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( i = 1, \dots, n \)：个体索引。
- \( Z_i \in \{0, 1\} \)：处理变量（treatment），二值。\( Z_i = 1 \) 表示接受处理，\( Z_i = 0 \) 表示对照。
- \( S_i \)：中间变量（intermediate variable），连续。例如，电厂排放控制技术对二氧化硫（\( SO_2 \)）排放的影响。
- \( Y_i \)：主要结局（primary outcome），连续。例如，环境中的颗粒物污染浓度。
- \( X_i \)：协变量（covariates），向量。例如，电厂特征、气象条件等。
- \( S_i(z) \)：潜在中间变量（potential intermediate variable），即个体 \( i \) 在处理 \( Z_i = z \) 下的 \( S \) 值。这是不可观测的，因为每个个体只能处于一种处理状态。
- \( Y_i(z) \)：潜在结局（potential outcome），即个体 \( i \) 在处理 \( Z_i = z \) 下的 \( Y \) 值。同样不可观测。
- \( \tau_i = S_i(1) - S_i(0) \)：个体处理对中间变量的因果效应。这是定义主层的关键量，也是不可观测的。
- 主层（Principal Stratum）：由 \( \tau_i \) 的值定义的子总体。由于 \( \tau_i \) 连续，存在无穷多个主层。
模型：
- 潜在结果框架：假设 SUTVA（稳定单元处理值假设）成立，即个体之间无交互，且处理版本唯一。
- 数据生成机制：对于每个个体 \( i \)，其可观测数据为 \( (Z_i, X_i, S_i, Y_i) \)，其中 \( S_i = S_i(Z_i) \)，\( Y_i = Y_i(Z_i) \)。这是由潜在结果和实际分配的处理共同决定的。
- 目标 estimand：主层平均因果效应（Principal Causal Effect, PCE），定义为：
  \[PCE(\tau) = E[Y_i(1) - Y_i(0) \mid \tau_i = \tau]\]
  即，对于处理对中间变量的效应恰好为 \( \tau \) 的个体，处理对主要结局的平均因果效应。由于 \( \tau \) 连续，\( PCE(\tau) \) 是一个关于 \( \tau \) 的函数。
可观测数据：
- 研究者实际能观测到：\( \{ (Z_i, X_i, S_i, Y_i) \}_{i=1}^n \)。
- 想要但观测不到：
  1. \( S_i(1) \) 和 \( S_i(0) \) 的联合分布（因此 \( \tau_i \) 不可观测）。
  2. \( Y_i(1) \) 和 \( Y_i(0) \) 的联合分布。
  3. 个体属于哪个主层（由 \( \tau_i \) 定义）。

第二步：讲最小内核¶

本文的核心思路是：用 BCF 模型来“绕过”对 \( \tau_i \) 的直接观测，从而估计 \( PCE(\tau) \)。

最简特例：假设我们只关心一个二值的中间变量 \( S_i \in \{0, 1\} \)（例如，是否达到某个排放标准）。那么，\( \tau_i \) 只有四种可能：\( (0,0), (0,1), (1,0), (1,1) \)，对应四个主层（如“始终低排放者”、“依从者”、“抗拒者”、“始终高排放者”）。这是经典的主分层分析。

本文的推广：当 \( S_i \) 连续时，\( \tau_i \) 有无穷多种可能。本文的核心想法是： 1. 不直接对 \( \tau_i \) 建模，而是对潜在中间变量 \( S_i(0) \) 和 \( S_i(1) \) 的联合分布建模。由于 \( \tau_i = S_i(1) - S_i(0) \)，对联合分布建模等价于对主层建模。 2. 使用两个 BCF 模型： * 第一个 BCF 模型：用于建模 \( S_i(1) \) 和 \( S_i(0) \) 的联合分布，条件于协变量 \( X_i \)。这个模型可以输出 \( S_i(0) \) 和 \( S_i(1) \) 的后验样本，从而得到 \( \tau_i \) 的后验样本。 * 第二个 BCF 模型：用于建模 \( Y_i(1) \) 和 \( Y_i(0) \) 的联合分布，条件于协变量 \( X_i \) 和主层成员关系（即 \( S_i(0) \) 和 \( S_i(1) \) 的值）。这个模型可以输出 \( Y_i(1) \) 和 \( Y_i(0) \) 的后验样本，从而得到个体处理效应 \( Y_i(1) - Y_i(0) \) 的后验样本。 3. 估计 \( PCE(\tau) \)：通过后验样本，我们可以计算在给定 \( \tau_i = \tau \) 的条件下，\( Y_i(1) - Y_i(0) \) 的条件期望。由于 \( \tau \) 连续，这相当于拟合一个平滑的回归曲面。

核心数学困难：在连续中间变量下，主层成员关系（即 \( \tau_i \)）是不可观测的，且有无穷多种。传统的参数方法（如 Jin & Rubin 2008）通过假设 \( (S_i(0), S_i(1)) \) 服从双变量正态分布来简化问题，但这非常强。本文的关键想法是：使用 BCF 这种高度灵活的非参数模型来近似这个联合分布，从而避免强参数假设。BCF 的“目标选择”和“正则化诱导混杂”特性被认为有助于在存在大量协变量和复杂非线性关系时，稳定地估计这个联合分布。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对连续中间变量下的主分层分析问题，提出了一种贝叶斯非参数方法，以灵活地估计处理效应如何随连续主层表面变化。
核心工具/方法：使用两个贝叶斯因果森林（BCF）模型，一个用于建模潜在中间变量的联合分布（定义主层），另一个用于建模条件于主层的结果。
主要结论：通过模拟研究和真实数据应用（电厂排放控制技术对颗粒物污染的影响），展示了该方法能够有效估计连续主层上的因果效应异质性，并具有优于现有参数方法的灵活性。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定： * 假设 1：SUTVA：个体间无交互，处理版本唯一。 * 假设 2：强可忽略性（Strong Ignorability）：\( \{S_i(0), S_i(1), Y_i(0), Y_i(1)\} \perp Z_i \mid X_i \)。即，给定协变量 \( X_i \)，处理分配与所有潜在结果独立。这是因果推断的标准假设。 * 假设 3：重叠（Overlap）：\( 0 < P(Z_i = 1 \mid X_i) < 1 \)。即，每个个体都有非零的概率接受处理或对照。 * 模型设定：作者假设两个 BCF 模型： * 中间变量模型：\( S_i(z) = f_S(z, X_i) + \epsilon_{S,i} \)，其中 \( f_S \) 由 BCF 建模，\( \epsilon_{S,i} \) 是独立同分布的误差。 * 结局模型：\( Y_i(z) = f_Y(z, X_i, S_i(0), S_i(1)) + \epsilon_{Y,i} \)，其中 \( f_Y \) 由 BCF 建模，\( \epsilon_{Y,i} \) 是独立同分布的误差。注意，结局模型直接以潜在中间变量 \( S_i(0) \) 和 \( S_i(1) \) 作为输入，这体现了主层成员关系。 * 相比已有文献的放宽或强化： * 放宽：相比 Jin & Rubin (2008) 的双变量正态假设，本文的 BCF 模型是非参数的，因此对潜在中间变量的联合分布形式要求更弱。 * 强化：本文依赖于 BCF 的特定先验结构（如“目标选择”和“正则化诱导混杂”），这些结构在理论上尚未被严格证明其优越性，但在实践中被认为有效。这可以看作是一种“计算上的强化假设”。

主要结果¶

本文是应用型论文，主要结果来自模拟研究和真实数据应用，而非理论定理。

模拟研究：
- 设定：生成了多种数据生成机制，包括线性、非线性和有交互作用的情况。比较了本文提出的 BCF 方法与 Jin & Rubin (2008) 的参数贝叶斯方法。
- 核心量化结论：在非线性设定下，BCF 方法在估计 \( PCE(\tau) \) 时，其均方根误差（RMSE） 显著低于参数方法。在参数设定下，BCF 方法的表现与参数方法相当，没有明显损失效率。
- 与 baseline 对比：baseline 是 Jin & Rubin (2008) 的参数方法。BCF 方法在模型误设时表现更稳健。
- 稳健性：作者还测试了 BCF 方法对先验选择的敏感性，发现结果相对稳健。
真实数据应用：
- 数据/场景：美国电厂排放控制技术（如洗涤器）对 \( SO_2 \) 排放和颗粒物（\( PM_{2.5} \)）污染的影响。
- 方法应用：将 \( Z_i \) 定义为是否安装洗涤器，\( S_i \) 为 \( SO_2 \) 排放量，\( Y_i \) 为 \( PM_{2.5} \) 浓度。使用 BCF 方法估计 \( PCE(\tau) \)，即洗涤器对 \( PM_{2.5} \) 的因果效应如何随其对 \( SO_2 \) 排放的效应（\( \tau \)）变化。
- 结果：发现洗涤器对 \( PM_{2.5} \) 的因果效应是异质的。对于那些洗涤器大幅减少 \( SO_2 \) 排放的电厂（\( \tau \) 为大的负值），洗涤器也显著减少了 \( PM_{2.5} \)；而对于那些洗涤器对 \( SO_2 \) 排放影响较小的电厂，洗涤器对 \( PM_{2.5} \) 的影响则不明显，甚至可能增加。
- 例子想说明什么：验证了 BCF 方法能够揭示在连续主层上平滑变化的因果效应异质性，这是传统参数方法难以做到的。

证明路线与技术技巧¶

本文为应用型论文，无严格数学证明。其“证明”体现在模拟和应用的实证表现上。技术技巧主要体现在 BCF 模型的设计上： * 整体路线：通过贝叶斯后验采样，将不可观测的潜在中间变量和潜在结局视为缺失数据，通过 MCMC 算法进行插补。 * 关键跳跃点：如何将 BCF 应用于主分层分析。关键在于将 BCF 的“目标选择”特性用于结局模型，使其能够自动关注与主层成员关系（即 \( S_i(0) \) 和 \( S_i(1) \)）相关的协变量，从而更有效地估计 \( PCE(\tau) \)。 * 技术技巧点名： * 贝叶斯加性回归树（BART）：作为 BCF 的基础，BART 使用 sum-of-trees 模型和正则化先验，能够灵活拟合非线性函数。 * 贝叶斯因果森林（BCF）：在 BART 基础上，通过目标选择（在结局模型中包含一个专门用于估计处理效应的“倾向得分”项）和正则化诱导混杂（对处理效应项施加更强的正则化先验）来改进因果效应估计。 * MCMC 采样：使用 Gibbs 采样器对 BCF 模型的后验进行采样，其中每个树的参数通过 Bayesian backfitting 算法更新。

🔎 结论是否比证明窄¶

是。论文的结论（如“BCF 方法能够有效估计连续主层上的因果效应异质性”）主要基于模拟和案例研究，缺乏严格的渐近理论证明。例如，作者没有证明 BCF 估计的 \( PCE(\tau) \) 是否具有后验收缩率（posterior contraction rate），也没有证明其半参数效率。论文中提到的“目标选择”和“正则化诱导混杂”的优势，在 BCF 的原始论文（Hahn et al. 2020）中是通过模拟和理论论证（如减少正则化偏差）来支持的，但本文并未对这些优势在主分层设定下进行新的理论证明。因此，结论的普适性依赖于 BCF 方法本身的实证稳健性，而非严格的数学保证。

四、开放问题¶

半参数效率界：本文的 BCF 方法是否达到了连续主分层分析问题的半参数效率界？如果能推导出该设定下的 efficient influence function，就可以构建出渐近有效的估计量，并与 BCF 方法进行对比。这扎根于本文缺乏理论效率分析这一事实。
后验收缩率：在连续主分层设定下，BCF 模型对 \( PCE(\tau) \) 的后验收缩率是多少？这需要将 BART/BCF 的后验理论（如 Rockova & van der Pas 2020）扩展到主分层框架。这扎根于本文未提供任何渐近理论。
敏感性分析：本文依赖于强可忽略性假设。当存在未观测混杂时，\( PCE(\tau) \) 的估计会如何偏倚？如何构建一个针对连续主分层分析的敏感性分析框架？这扎根于作者未讨论识别假设的合理性。
计算复杂度：本文的 MCMC 算法在大规模数据（如 \( n > 10^5 \)）下的计算可行性如何？是否存在更快的变分推断或集成方法？这扎根于本文未讨论计算可扩展性。

Maintained by 陈星宇 · Homepage · Source on GitHub