A Bayesian nonparametric approach for causal mediation with a post-treatment confounder¶

作者: Woojung Bae, Michael J Daniels, Michael G Perri
来源: Biometrics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae099

一、领域脉络与小综述¶

这个方向是什么：因果中介分析旨在将处理变量 \(A\) 对结局变量 \(Y\) 的总效应分解为通过中介变量 \(M\) 传递的间接效应（NIE）与不经过 \(M\) 的直接效应（NDE）。当存在处理后混杂变量 \(Z\)（即受 \(A\) 影响又同时影响 \(M\) 与 \(Y\) 的变量）时，经典中介分析的识别假设失效，因为 \(Z\) 会打开 \(A \to Y\) 的非因果路径并造成中介-结局间的混杂。这个子方向要解决的根本问题是：在 \(Z\) 存在时，如何建立合理的识别假设与估计方法，以获得因果中介效应的一致估计。当前该方向已从参数模型发展到半参数/非参数方法，但识别假设的强度与估计的稳健性之间仍存在张力。

发展脉络：

奠基：经典中介分析与标准 SI 假设 经典中介分析（Baron & Kenny, 1986）依赖线性结构方程，未显式处理混杂。Robins & Greenland (1992) 与 Pearl (2001) 引入反事实框架定义 NDE/NIE，并提出了序贯可忽略性假设——要求在给定基线混杂 \(X\) 下，\((M, Y)\) 联合独立于处理 \(A\)。这一框架成为后续中介分析的基石，但它排除了任何处理后混杂变量 \(Z\) 的存在。
关键进展：引入 Post-treatment Confounder 的识别突破 Hong et al. (2015) 明确指出，当存在受 \(A\) 影响的中间变量 \(Z\)（本文称之为 post-treatment confounder）时，标准 SI 假设过强或不成立。他们提出了扩展序贯可忽略性：在给定 \((X, Z)\) 下，\((M, Y)\) 独立于 \(A\)。这一假设允许 \(Z\) 作为中介过程的混杂因素，但同时也引入了新的识别难题——因为 \(Z\) 本身是 \(A\) 的结果，简单的条件化会阻断部分因果路径或引入对撞偏差。
当前 Frontier：识别策略的分化 针对上述难题，文献分化出几条路线：
- 参数/结构方程模型（SEM）路线：如 Imai et al. (2010) 与 VanderWeele (2009)，通过强参数假设（如线性、无交互）来辅助识别，但模型误设风险高。
- 辅助变量/工具变量路线：寻找 \(Z\) 或 \(M\) 的工具变量，或利用阴性对照变量，放宽对函数形式的依赖。
- 主分层路线：Frangakis & Rubin (2002) 的主分层框架将 \(Z\) 视为分层变量，但往往只能识别特定子群体的效应。
本文的位置 本文位于贝叶斯非参数估计路线上。作者采用 Hong et al. (2015) 的 ESI 假设作为识别核心，但拒绝采用强参数假设，转而使用 Enriched Dirichlet Process Mixture (EDPM) 对观测变量的联合分布进行灵活建模。本文试图填补的缺口是：在 ESI 假设下，提供一种既能处理高维/复杂分布，又能自然处理缺失数据的贝叶斯非参数估计方法。

子线索聚类：

识别理论线：Pearl (2001) 定义效应 → Hong et al. (2015) 引入 ESI 处理 post-treatment confounder → VanderWeele et al. 讨论不同假设下的效应分解。核心争论在于：条件化 \(Z\) 是否会引入 "对撞偏差" 或阻断路径？Hong 的 ESI 假设通过精细化的条件独立结构回应了这一问题。
估计方法线：
- 参数/似然派：Imai et al. (2010) 的 mediation package，依赖参数模型。
- 半参数/频繁ist派：Tchetgen Tchetgen 等人发展的半参数效率界与 IPW/DR 估计量，强调稳健性但计算复杂。
- 贝叶斯非参数派：本文属于此列，利用 DPM 的灵活性拟合联合分布，通过后验推断直接输出 NDE/NIE。

这个方向在追问的核心问题： 1. 识别的边界：在存在 \(Z\) 时，识别 NDE/NIE 所需的最小假设集是什么？ESI 是否过强（例如，它要求 \(Z\) 能完全阻断 \(M \to Y\) 的后门路径）？ 2. 估计的稳健性：如何在不对 \(f(Y, M, Z | A, X)\) 施加强函数形式假设下进行估计？ 3. 缺失数据机制：中介分析中常见的 \(M\) 或 \(Y\) 缺失，如何在不引入额外偏差下处理？

⚠️ 作者的 framing：作者将本文 frame 为对现有参数方法与半参数方法的实用替代。 * "显然的下一步"：作者指出，Hong et al. (2015) 提供了识别理论，但"缺乏灵活的估计方法"，特别是当 \(Z, M, Y\) 的分布未知或非标准分布时。因此，EDPM 这种"万能拟合器"自然成为填补这一空白的工具。 * 淡化的竞争路线：作者在 intro 中几乎没有讨论半参数效率理论（semiparametric efficiency）或双稳健估计（doubly robust estimation）路线。对于因果推断专家而言，这是一个显著的缺失——因为 ESI 假设下的效率界与 DR 估计量是 frequentist 文献的标准答案，作者选择贝叶斯非参数路线，实际上回避了与 DR 方法在大样本效率与稳健性上的直接对比。 * 缺失的引用：未引用 Tchetgen Tchetgen 或 Vansteelandt 等人在中介分析半参数理论方面的工作，这暗示了本文更偏向"计算/建模"而非"统计推断理论"。

张力：未见明显对立引用。但存在隐含张力：Hong et al. (2015) 的 ESI 假设本身是一个强假设（要求 \(Z\) 捕获所有 \(M-Y\) 间的混杂），本文直接采纳该假设，并未讨论若该假设违反，EDPM 估计量的敏感性。这与敏感性分析文献之间存在张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号定义：
- \(A \in \{0, 1\}\)：二值处理变量。
- \(X\)：基线混杂变量向量，处理前已观测。
- \(Z\)：处理后混杂变量，受 \(A\) 影响，且同时影响中介 \(M\) 与结局 \(Y\)。
- \(M\)：中介变量。
- \(Y\)：结局变量。
- \(Z_a, M_a, Y_a\)：潜在结果，例如 \(Z_a\) 为接受处理 \(A=a\) 时 \(Z\) 的取值。
- \(Y(a, m)\)：联合潜在结果，处理为 \(a\) 且中介被干预为 \(m\) 时的结局。
- 目标参数：
  - NDE (Natural Direct Effect)：\(\mathbb{E}[Y(1, M_0) - Y(0, M_0)]\)。
  - NIE (Natural Indirect Effect)：\(\mathbb{E}[Y(1, M_1) - Y(1, M_0)]\)。
模型（数据生成机制）：因果图结构为：\(X \to A \to Z \to M \to Y\)，且 \(X \to Z, X \to M, X \to Y, Z \to Y, A \to Y, A \to M\)。关键在于 \(Z\) 位于 \(A\) 下游且是 \(M, Y\) 的共同原因。
可观测数据：研究者观测到独立同分布样本 \(\{X_i, A_i, Z_i, M_i, Y_i\}_{i=1}^n\)。
- 不可观测的潜在结果：对于每个个体，我们只能观测到 \(Y_i = Y_i(A_i, M_i)\)，无法观测 \(Y_i(1, M_0)\) 或 \(Y_i(0, M_1)\)（反事实）。因此，因果效应识别的核心在于如何从观测分布 \(P(X, A, Z, M, Y)\) 中"算出"潜在结果分布的期望。

第二步：最小内核

最简特例：假设所有变量均为连续或离散，且不存在缺失数据。

核心数学困难：NDE 定义涉及 \(Y(1, M_0)\)，这是一个"跨世界"的量：\(Y\) 取自世界 \(A=1\)，而 \(M\) 取自世界 \(A=0\)。我们从未观测到 \((A=1, M=M_0)\) 的样本（因为若 \(A=1\)，则 \(M=M_1\)）。

本文的破题思路（Identification + Estimation）：

识别：利用 Hong et al. 的 ESI 假设：
\[(M(a), Y(a', m)) \perp\!\!\!\perp A \mid (X, Z(a)) \quad \forall a, a', m\]
这意味着，一旦控制了基线混杂 \(X\) 和处理后混杂 \(Z\)，处理 \(A\) 就与中介过程和结局过程独立了。在此假设下，NDE 的识别公式（最小内核）退化为一个关于观测分布的积分：
\[\text{NDE} = \int \mathbb{E}[Y \mid X, Z, M, A=1] \, dP(M \mid X, Z, A=0) \, dP(Z \mid X, A=0) \, dP(X)\]
直觉：我们要计算 \(A=1\) 时的期望 \(Y\)，但中介 \(M\) 和混杂 \(Z\) 的分布必须"冻结"在 \(A=0\) 的状态下。这需要对联合分布 \(P(X, Z, M, Y \mid A)\) 进行积分。
估计：传统方法会对上述积分中的每一项（如 \(\mathbb{E}[Y \mid \dots]\)）建立参数模型。本文的最小内核是： 不建立参数模型，而是直接对联合分布 \(P(X, Z, M, Y \mid A)\) 进行非参数贝叶斯建模。 具体而言，使用 EDPM 模型：
\[(X, Z, M, Y) \mid A=a \sim \int N(\mu, \Sigma) \, dG(\mu, \Sigma)\]
其中 \(G \sim \text{DPM}\)。 核心逻辑：只要能通过 MCMC 算法得到联合分布 \(P(X, Z, M, Y \mid A)\) 的后验样本，就可以直接在 MCMC 迭代中通过 Monte Carlo 积分（对 \(M, Z\) 积分）算出 NDE/NIE 的后验样本。这把复杂的因果参数估计问题，转化为了"灵活分布估计 + 蒙特卡洛积分"的问题。

三、这篇论文做了什么¶

三句话： ① 研究了存在处理后混杂变量时因果中介效应（NDE/NIE）的识别与估计问题。 ② 核心方法是利用扩展序贯可忽略性（ESI）假设实现识别，并采用 Enriched Dirichlet Process Mixture (EDPM) 模型对观测变量联合分布进行贝叶斯非参数估计。 ③ 主要结论是：该方法在模拟中表现优于参数模型，且能自然处理缺失数据与复杂分布，应用于 Rural LITE 数据未发现显著中介效应。

关键设定与假设：

ESI (Extended Sequential Ignorability) 假设：
- 内容：\((M(a), Y(a', m)) \perp A \mid (X, Z(a))\)。
- 统计含义：这是识别的关键。它要求 \(Z\) 捕获了所有 \(M-Y\) 之间由 \(A\) 下游产生的混杂。如果 \(Z\) 选得不好（例如漏掉了某个 \(A\) 诱导的混杂），识别失效。相比标准 SI，它允许 \(Z\) 存在；相比 Imai 的参数假设，它不依赖函数形式，但依赖更强的条件独立结构。
- Gaussian Copula 假设：作者引入此假设以处理混合型数据（连续+离散变量），保证联合分布的可识别性与计算便利性。这是一个辅助性的参数假设，用于连接边际分布与联合相关性。
EDPM (Enriched Dirichlet Process Mixture) 模型：
- 设定：对于给定的处理组 \(A=a\)，观测向量 \(\mathbf{W} = (X, Z, M, Y)\) 服从混合高斯模型：
  \[\mathbf{W}_i \mid \theta_i \sim F(\cdot \mid \theta_i), \quad \theta_i \sim G\]
  
  \[G \sim DP(\alpha, G_0)\]
- 统计含义：DPM 允许数据的分布是无限个高斯分布的混合，具有非参数特性，能拟合任意复杂的密度函数。"Enriched" 指作者对协方差矩阵 \(\Sigma\) 施加了特定的先验结构（如分离相关矩阵与方差），以更好地处理变量间的相关性结构。
- 对比：相比简单的 DPM，EDPM 在处理变量尺度差异和相关结构上更稳健。

主要结果：

定理 1 (Identification)：在 ESI 假设、SUTVA、Positivity 假设下，NDE 和 NIE 可由观测分布 \(P(Y, M, Z, X, A)\) 识别。公式即第二节中的积分公式。该定理确认了在贝叶斯框架下，只要联合分布后验收敛，因果效应就是可计算的。
模拟研究：
- 设定：生成了包含非线性关系和非正态分布的数据，对比了 EDPM 方法与参数方法（如 Baron-Kenny, Imai's mediation）。
- 结果：在模型误设（真实模型非线形）时，参数方法偏差显著，EDPM 方法偏差最小，覆盖率最好。在模型正确设定时，EDPM 效率略有损失（非参数的代价），但偏差仍可接受。
Rural LITE 实证分析：
- 场景：评估一个生活方式干预试验，中介变量是"自我效能"（self-efficacy），处理后混杂变量是"社会支持"（social support，受干预影响，又影响自我效能和结局）。
- 结果：NDE 显著（干预直接有效），NIE 不显著（中介效应弱）。结论与领域知识相符。
- 缺失数据：展示了如何通过 Data Augmentation 在 MCMC 中填补缺失值，这是贝叶斯方法的一大优势。

证明路线与技术技巧：

本文主要是方法型论文，"证明"主要体现在算法收敛性与后验计算的有效性上，而非传统的渐近统计理论证明。

整体路线：定义识别目标 \(\to\) 建立联合分布的非参数模型 \(\to\) 推导后验分布 \(\to\) 设计 MCMC 算法 \(\to\) 在 MCMC 迭代中计算因果效应。
技术技巧点名：
- Gaussian Copula：用于处理混合变量类型（如 \(X\) 中既有连续又有分类变量）。它将观测数据映射到隐变量空间，在隐变量空间使用多元正态分布建模，从而利用成熟的多元正态 MCMC 技术。
- Data Augmentation (DA)：用于处理缺失数据。将缺失值视为参数，在 MCMC 中从条件分布抽样填补。这避免了 Listwise deletion 带来的偏差。
- Stick-Breaking Construction & Slice Sampling：用于实现 DPM 的后验抽样。这是贝叶斯非参数计算的标准配置，避免了无穷维积分的困难。
- Posterior Predictive Checks：用于模型检验，验证 EDPM 是否足够灵活以捕捉数据的真实分布。

真实例子与应用：如上所述，Rural LITE 试验是核心实证案例。作者详细展示了如何将 \(X\)（基线变量）、\(Z\)（社会支持）、\(M\)（自我效能）、\(Y\)（健康指标）放入模型。关键点在于展示了如何计算 NDE/NIE 的后验分布——不是直接输出一个点估计，而是在每次 MCMC 迭代中算一个 NDE 值，最终得到 NDE 的后验样本，从而直接得到可信区间。这展示了贝叶斯方法在因果推断中"参数即随机变量"的便利性。

🔎 结论是否比证明窄：本文没有提供严格的后验一致性或收敛速率证明。 * 作者 Claim：EDPM 能够灵活拟合分布，因此估计是稳健的。 * 实际支撑：仅靠模拟实验和有限样本表现支撑。 * Gap：理论上，DPM 在高维情况下收敛速率如何？当 \(X\) 维数较高时，EDPM 是否会遇到维数灾难？本文未讨论。对于追求理论严谨性的研究者，这是一个明显的"证明窄于宣称"之处。

四、开放问题¶

半参数效率界与贝叶斯非参数的对比：本文未讨论在 ESI 假设下，NDE/NIE 的半参数效率界是什么？EDPM 估计量是否达到效率界？这需要研究者查阅 Tchetgen Tchetgen 等人的 frequentist 文献，对比 EDPM 是否存在效率损失。
- 扎根点：Introduction 中提到 "flexible estimation"，但未提及 "efficiency"。
高维基线混杂 \(X\) 的处理：EDPM 本质上是非参数密度估计，在高维 \(X\) 下会面临维数灾难。若 \(X\) 维数较高，本文方法是否失效？能否结合半参数降维思想（如 PS weighting 或 DR）改进？
- 扎根点：模拟研究中 \(X\) 维数较低，未讨论 High-dimensional \(X\) 的情形。
敏感性分析：ESI 假设不可检验。若 \(Z\) 未能完全捕获 \(M-Y\) 的混杂，估计偏差有多大？本文未提供敏感性分析框架。
- 扎根点：Discussion 提到了 "ignorable missingness" 和 "model assumption"，但未提及对 ESI 假设违反的敏感性分析。
模型选择与正则化：EDPM 中超参数的选择（如 DP 的集中参数 \(\alpha\)）如何影响因果效应估计？是否存在过度拟合导致因果效应估计方差过大的风险？
- 扎根点：模拟部分展示了稳健性，但缺乏对正则化强度的理论探讨。

Maintained by 陈星宇 · Homepage · Source on GitHub

A Bayesian nonparametric approach for causal mediation with a post-treatment confounder¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论