Bayesian nonparametric trees for principal causal effects¶

作者: Chanmin Kim, Corwin Zigler
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：主分层是因果推断中处理"处理后变量"（post-treatment variable）的核心框架之一。其根本统计问题是：当中间变量 \(M\) 受处理 \(A\) 影响、同时又与结局 \(Y\) 相关时，如何定义和估计因果效应——此时直接条件于观测到的 \(M\) 会引入"选择偏差"，因为 \(M\) 的取值本身部分决定了哪些个体能被观测到（如死亡、失访、不依从）。主分层的解决方案是：按潜在中间结果 \((M(1), M(0))\) 定义分层，在分层内部比较 \(Y(1)\) 与 \(Y(0)\)，从而避开对处理后变量的条件。当前该方向已从早期的二值中间变量（如依从性）发展到连续中间变量、多中介、半竞争风险等复杂设定，识别与估计方法从参数模型扩展到半参数与非参数方法。

发展脉络：

奠基工作（2000s 初）：Frangakis & Rubin (2002) 提出主分层框架，核心思想是用潜在中间结果定义分层，解决了处理后变量带来的选择偏差问题。这一框架将因果推断中的"缺失数据视角"（Ding & Li, 2017; Li et al., 2022 综述）形式化：每个个体有四个潜在结果 \((Y(1), Y(0), M(1), M(0))\)，但只能观测到其中两个。
二值中间变量的成熟方法（2000s-2010s）：当 \(M\) 为二值时，只有四个主分层（如依从者、从不依从者、始终接受者、违背者），识别与估计相对直接。代表性工作包括：
Angrist et al. (1996) 的 LATE/CACE 估计，利用工具变量框架识别依从者平均因果效应。
Imbens & Rubin (1997) 的贝叶斯方法，通过联合建模潜在结果进行推断。
Frumento et al. (2012) 将主分层扩展到处理依从性测量场景。
Miratrix et al. (2018) 提出边界方法，在弱假设下给出效应的上下界。
连续中间变量的挑战（2010s-至今）：当 \(M\) 连续时，\((M(1), M(0))\) 的取值组合无限多，存在"无限多基本主分层"，识别与估计变得困难。主要进展包括：
Schwartz et al. (2011) 和 Kim et al. (2019) 引入 Dirichlet 过程混合模型，非参数地建模主分层成员关系。
Kim et al. (2020) 将该方法应用于电厂排放与健康效应研究，定义基于阈值的主分层效应。
本文作者在 Kim et al. (2019) 中使用高斯 copula 连接边际分布，处理多中介场景。
贝叶斯因果森林的引入（2020s）：Hahn et al. (2020) 提出 Bayesian Causal Forests (BCF)，将 BART 扩展到因果推断场景，专门处理处理效应异质性。Hill et al. (2020) 和 Tan & Roy (2019) 对 BART 在因果推断中的应用做了系统综述。Zeldow et al. (2019) 提出基于 BART 的结构均值模型用于异质性处理效应估计。
本文的位置：将 BCF 引入连续主分层场景，用两个 BART 模型分别建模主分层成员关系和条件结局，解决连续中间变量带来的无限主分层问题，同时利用 BCF 捕捉处理效应异质性的能力。

子线索聚类：

线索一：主分层的识别与估计方法
参数方法：早期工作多假设参数模型（如联合正态分布）。
边界方法：Miratrix et al. (2018) 在弱假设下给出效应边界。
贝叶斯非参数方法：Kim et al. (2019, 2020) 使用 DPM 模型。
本文属于这一线索的最新进展。
线索二：主分层与中介分析的关系
Pearl (2001) 定义直接与间接效应，需要不同的识别假设。
Imai et al. (2010) 提出中介分析的识别与敏感性分析方法。
Kim et al. (2019) 讨论了主分层与中介分析两种框架的关系与适用场景。
本文明确区分两种框架：主分层关注"处理对中间变量有特定影响的子群体"，中介分析关注"处理通过中间变量的机制"。
线索三：贝叶斯因果推断中的倾向得分问题
Zigler (2013) 指出贝叶斯框架下倾向得分建模与结局建模之间的"反馈问题"。
Lunn et al. (2009) 提出两步贝叶斯方法避免反馈。
Hahn et al. (2020) 的 BCF 通过分离 \(\mu\) 和 \(\tau\) 函数缓解"正则化诱发混淆"。
本文继承了 BCF 的这一优势。
线索四：应用场景的扩展
半竞争风险：Comment et al. (2019)、Nevo & Gorfine (2022)、Lyu et al. (2023) 将主分层扩展到时间-事件数据。
临床试验中的不依从：Ren et al. (2021)、Schnell et al. (2022)。
环境健康：Zigler et al. (2017)、Kim et al. (2020)、Henneman et al. (2023)。

这个方向在追问的核心问题：

识别问题：在连续中间变量场景下，主分层效应何时可识别？需要哪些假设？边界方法与参数/非参数方法如何权衡？
估计问题：如何灵活地估计主分层成员关系和条件结局，避免参数模型的误设偏差？
计算问题：贝叶斯非参数模型（如 DPM、BART）的 MCMC 计算效率如何？后验收敛性如何诊断？
解释问题：连续主分层效应如何定义和解释？如何汇总为有意义的因果量？

当前主流方法与已知瓶颈： - 主流方法：Dirichlet 过程混合模型（DPM）用于主分层成员关系建模。 - 瓶颈：DPM 模型在处理高维协变量、捕捉处理效应异质性方面能力有限；参数模型假设过强；边界方法给出的区间可能过宽。

⚠️ 作者的 framing：作者将缺口 frame 为：现有方法（如 Kim et al. 2019 的 DPM 方法）在连续主分层场景下"缺乏灵活性"，无法充分捕捉处理效应异质性。BCF 的引入被呈现为"自然的解决方案"，因为 BCF 专门设计用于捕捉处理效应异质性。

被淡化或回避的竞争路线： - 边界方法：Miratrix et al. (2018) 的边界方法不需要强分布假设，但作者未深入讨论其与本文方法的权衡。 - 频率派半参数方法：如基于影响函数的估计方法，在 intro 中未被提及。 - 识别假设的敏感性分析：Imai et al. (2010) 强调敏感性分析的重要性，但本文未涉及。

缺失的引用： - 主分层框架的原创论文 Frangakis & Rubin (2002) 未在 intro 中被引用（可能在正文或参考文献中）。 - 连续主分层的其他方法（如基于分位数的方法）未被讨论。

张力：未见明显对立引用。不同方法（参数 vs 非参数、贝叶斯 vs 频率派、点估计 vs 边界）各有适用场景，作者主要强调 BCF 相对 DPM 的优势，未直接批评其他方法。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号定义：

\(i = 1, \ldots, n\)：样本索引。
\(A_i \in \{0, 1\}\)：处理变量（二值）。
\(M_i\)：中间变量（连续）。
\(Y_i\)：结局变量（连续）。
\(\mathbf{X}_i\)：基线协变量向量。
\(M_i(a)\)：潜在中间变量，表示个体 \(i\) 在处理 \(A = a\) 下的中间变量取值。
\(Y_i(a)\)：潜在结局变量，表示个体 \(i\) 在处理 \(A = a\) 下的结局。
\((M_i(1), M_i(0), Y_i(1), Y_i(0))\)：四个潜在结果，构成"科学模型"。
主分层 \(S_i = (M_i(1), M_i(0))\)：由潜在中间变量定义的分层。
可观测数据：\((A_i, M_i, Y_i, \mathbf{X}_i)\)，其中 \(M_i = M_i(A_i)\)，\(Y_i = Y_i(A_i)\)。

模型与数据生成机制：

潜在结果框架下，每个个体有四个潜在结果，但只能观测到两个：

\[M_i^{\text{obs}} = A_i M_i(1) + (1 - A_i) M_i(0)\]

\[Y_i^{\text{obs}} = A_i Y_i(1) + (1 - A_i) Y_i(0)\]

主分层效应定义为在特定分层 \(S = s\) 上的条件平均处理效应：

\[\tau(s) = E[Y(1) - Y(0) \mid S = s]\]

可观测与不可观测： - 可观测：\((A_i, M_i^{\text{obs}}, Y_i^{\text{obs}}, \mathbf{X}_i)\)。 - 不可观测：\(M_i(1 - A_i)\) 和 \(Y_i(1 - A_i)\)（反事实），以及主分层成员关系 \(S_i\)（因为 \(M_i(1)\) 和 \(M_i(0)\) 不能同时被观测）。

识别假设（标准主分层假设）： 1. SUTVA：无干扰，处理分配无版本差异。 2. 随机化/可忽略性：\((M(1), M(0), Y(1), Y(0)) \perp A \mid \mathbf{X}\)。 3. 重叠性：\(0 < P(A = 1 \mid \mathbf{X}) < 1\)。 4. 主分层单调性（可选）：\(M(1) \geq M(0)\)（或类似约束）。

第二步：最小内核

最简特例：二值中间变量

当 \(M\) 为二值时，主分层问题退化到经典 CACE（Complier Average Causal Effect）场景：

四个主分层：
依从者：\(M(1) = 1, M(0) = 0\)
始终接受者：\(M(1) = 1, M(0) = 1\)
从不接受者：\(M(1) = 0, M(0) = 0\)
违背者：\(M(1) = 0, M(0) = 1\)
在单调性假设下（无违背者），只有三个分层，依从者效应可识别。

本文的核心困难：连续中间变量

当 \(M\) 连续时，\((M(1), M(0))\) 的取值组合无限多，问题变为：

主分层成员关系建模：需要估计 \(P(S \in \mathcal{S} \mid \mathbf{X})\)，其中 \(\mathcal{S}\) 是主分层空间的一个子集。
条件结局建模：需要估计 \(E[Y \mid A, S, \mathbf{X}]\)。
处理效应异质性：\(\tau(s)\) 作为 \(s\) 的函数，是一个曲面（surface），需要灵活建模。

最小数学问题：

给定观测数据 \(\{(A_i, M_i, Y_i, \mathbf{X}_i)\}_{i=1}^n\)，估计主分层效应：

\[\tau(m_1, m_0) = E[Y(1) - Y(0) \mid M(1) = m_1, M(0) = m_0]\]

难点： 1. \(M(1)\) 和 \(M(0)\) 不能同时观测，主分层成员关系 \(S = (M(1), M(0))\) 是潜在变量。 2. 需要从观测数据中"恢复"主分层结构。 3. \(\tau(m_1, m_0)\) 是二元函数，需要非参数估计。

本文的解决方案：

使用两个 BART 模型：

中间变量模型（主分层成员关系）：
\[M_i(a) \mid \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a)\]
通过建模 \(M(1)\) 和 \(M(0)\) 的联合分布，推断主分层成员关系。
结局模型（条件于主分层）：
\[Y_i(a) \mid M_i(1), M_i(0), \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a, M_i(1), M_i(0))\]
条件于潜在中间变量，估计处理效应。

BCF 的关键优势：将结局模型分解为

\[E[Y \mid A, \mathbf{X}, S] = \mu(\mathbf{X}, S) + A \cdot \tau(\mathbf{X}, S)\]

其中 \(\mu\) 是基线结局，\(\tau\) 是处理效应，两者分别用 BART 建模，避免"正则化诱发混淆"。

三、这篇论文做了什么¶

三句话： 1. 研究了连续中间变量场景下主分层因果效应的估计问题，提出基于贝叶斯因果森林（BCF）的非参数方法。 2. 核心工具是两个 BART 模型：一个用于主分层成员关系（潜在中间变量的联合分布），一个用于条件结局（分离基线与处理效应）。 3. 主要结论是该方法能灵活捕捉处理效应在连续主分层上的异质性，并通过模拟和电厂排放数据验证了性能。

关键设定与假设：

设定： - 处理 \(A\)：二值。 - 中间变量 \(M\)：连续。 - 结局 \(Y\)：连续。 - 协变量 \(\mathbf{X}\)：向量。

假设： 1. SUTVA：无干扰，处理无版本差异。 2. 可忽略性：\((M(1), M(0), Y(1), Y(0)) \perp A \mid \mathbf{X}\)。 3. 重叠性：\(0 < P(A = 1 \mid \mathbf{X}) < 1\)。 4. 主分层可识别性：需要额外的参数假设或约束（如单调性、参数化主分层分布）来实现点识别。

相比已有文献的放宽/强化： - 相比 Kim et al. (2019) 的 DPM 方法，本文使用 BART 替代 DPM，放宽了对主分层分布形状的假设。 - 相比参数方法，本文是非参数的，对模型误设更稳健。 - 相比边界方法，本文需要更强的分布假设来实现点识别。

主要结果：

定理/命题（本文主要是方法论文，理论结果较少）： - 本文的核心贡献是方法论而非理论定理。主要理论依据来自 BCF 的已有理论保证（Hahn et al. 2020）。 - 识别性依赖于潜在结果的联合分布建模，通过贝叶斯框架下的后验推断实现。

模拟研究： - 设计多种数据生成场景，比较本文方法与 Kim et al. (2019) 的 DPM 方法。 - 评估指标：主分层效应估计的偏差、均方误差、覆盖率。 - 结果：BCF 方法在处理效应异质性场景下表现更好，尤其是在主分层效应 \(\tau(s)\) 随 \(s\) 变化的场景。

真实数据应用： - 场景：电厂排放控制技术对 PM2.5 的因果效应，中间变量是 SO2 排放量。 - 数据：美国 480 个电厂，结局是周边 PM2.5 浓度。 - 结果：展示了处理效应如何随 SO2 排放量变化而变化，验证了方法的实用性。

证明路线与技术技巧：

本文是方法论文，核心是贝叶斯模型的构建和 MCMC 采样，而非传统的定理证明。

整体路线： 1. 模型构建： - 中间变量模型：\(M_i(a) \mid \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a)\)，使用 BCF 分离 \(\mu_M\) 和 \(\tau_M\)。 - 结局模型：\(Y_i(a) \mid M_i(1), M_i(0), \mathbf{X}_i \sim \text{BART}(\mathbf{X}_i, a, S)\)，使用 BCF 分离 \(\mu_Y\) 和 \(\tau_Y\)。

先验设定：
BART 先验：树的结构、叶节点参数、误差方差。
关键：使用 BCF 的分离先验，避免正则化诱发混淆。
后验推断：
MCMC 采样：Gibbs 采样，交替更新中间变量模型和结局模型。
潜在变量推断：对于每个个体，推断未观测的 \(M(1 - A)\)。
主分层效应估计：
从后验样本中计算 \(\tau(m_1, m_0)\)。
可定义基于阈值的主分层效应：\(E[Y(1) - Y(0) \mid M(1) - M(0) > \epsilon]\)。

技术技巧： - BCF 分离：将结局模型分解为 \(\mu(\mathbf{X}) + A \cdot \tau(\mathbf{X})\)，避免倾向得分与处理效应的混淆。 - BART 先验：使用 Chipman et al. (2010) 的默认先验，树的数量、深度、叶节点参数的正则化。 - 潜在变量推断：通过 MCMC 同时推断主分层成员关系和结局模型参数。 - 两步贝叶斯方法（可选）：参考 Lunn et al. (2009) 和 Zigler (2016)，避免中间变量模型与结局模型之间的反馈。

真实例子与应用：

数据： - 来源：美国电厂排放数据（Henneman et al. 2023 的扩展）。 - 处理 \(A\)：是否安装某种排放控制技术。 - 中间变量 \(M\)：SO2 排放量（连续）。 - 结局 \(Y\)：周边 PM2.5 浓度。 - 协变量 \(\mathbf{X}\)：电厂特征、气象条件等。

方法应用： - 使用本文方法估计主分层效应 \(\tau(m_1, m_0)\)。 - 定义基于阈值的主分层：\(M(1) - M(0) < -\epsilon\)（排放量显著下降的电厂）。

结果： - 展示了处理效应如何随 SO2 排放量变化而变化。 - 验证了排放控制技术对 PM2.5 的因果效应主要通过 SO2 排放量下降实现。

例子想说明什么： - 验证方法在真实数据上的可行性。 - 展示连续主分层效应的异质性。 - 与 Kim et al. (2020) 的结果对比，展示 BCF 方法的灵活性。

🔎 结论是否比证明窄： - 本文主要是方法论文，理论保证依赖于 BCF 的已有理论（Hahn et al. 2020）。 - 识别性依赖于潜在结果联合分布的建模假设，这些假设在贝叶斯框架下通过先验和后验实现，缺乏严格的频率派识别性证明。 - 作者在讨论部分承认了这一局限，并指出未来可以探索边界方法。

四、开放问题¶

识别假设的敏感性分析：本文依赖潜在结果联合分布的参数/非参数假设来实现点识别。如何发展敏感性分析方法，评估识别假设违反对结果的影响？（扎根于 Imai et al. 2010 的敏感性分析框架，以及本文讨论部分对假设的承认。）
边界方法与非参数识别：本文使用贝叶斯非参数方法实现点识别，但边界方法（Miratrix et al. 2018）可以在更弱假设下给出效应范围。如何结合两种方法，在贝叶斯框架下实现"部分识别"？（扎根于 Miratrix et al. 2018 的边界方法，以及本文未涉及的这一路线。）
高维协变量与变量选择：本文假设协变量 \(\mathbf{X}\) 已给定。如何在高维协变量场景下进行变量选择，同时保持因果效应估计的有效性？（扎根于 Kim et al. 2023 的变量选择方法，以及本文引用的该工作。）
计算效率与可扩展性：BART 的 MCMC 计算成本较高，在大规模数据上可能受限。如何改进计算效率？（扎根于 BART 文献中对计算成本的讨论，以及本文模拟研究的样本量限制。）

提醒：要确认某条是否真 gap，建议读 Kim et al. (2019, 2020, 2023)、Hahn et al. (2020)、Miratrix et al. (2018) 的 intro 和 discussion，看是否指向相同问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

Bayesian nonparametric trees for principal causal effects¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论