跳转至

A Bayesian nonparametric approach for causal mediation with a post-treatment confounder

作者: Woojung Bae, Michael J Daniels, Michael G Perri
来源: Biometrics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Florida(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae099


一、领域脉络与小综述

这个方向是什么: 因果中介分析旨在将处理变量 \(A\) 对结局变量 \(Y\) 的总效应分解为通过中介变量 \(M\) 传递的间接效应(NIE)与不经过 \(M\) 的直接效应(NDE)。当存在处理后混杂变量 \(Z\)(即受 \(A\) 影响又同时影响 \(M\)\(Y\) 的变量)时,经典中介分析的识别假设失效,因为 \(Z\) 会打开 \(A \to Y\) 的非因果路径并造成中介-结局间的混杂。这个子方向要解决的根本问题是:\(Z\) 存在时,如何建立合理的识别假设与估计方法,以获得因果中介效应的一致估计。当前该方向已从参数模型发展到半参数/非参数方法,但识别假设的强度与估计的稳健性之间仍存在张力。

发展脉络

  1. 奠基:经典中介分析与标准 SI 假设 经典中介分析(Baron & Kenny, 1986)依赖线性结构方程,未显式处理混杂。Robins & Greenland (1992) 与 Pearl (2001) 引入反事实框架定义 NDE/NIE,并提出了序贯可忽略性假设——要求在给定基线混杂 \(X\) 下,\((M, Y)\) 联合独立于处理 \(A\)。这一框架成为后续中介分析的基石,但它排除了任何处理后混杂变量 \(Z\) 的存在。

  2. 关键进展:引入 Post-treatment Confounder 的识别突破 Hong et al. (2015) 明确指出,当存在受 \(A\) 影响的中间变量 \(Z\)(本文称之为 post-treatment confounder)时,标准 SI 假设过强或不成立。他们提出了扩展序贯可忽略性:在给定 \((X, Z)\) 下,\((M, Y)\) 独立于 \(A\)。这一假设允许 \(Z\) 作为中介过程的混杂因素,但同时也引入了新的识别难题——因为 \(Z\) 本身是 \(A\) 的结果,简单的条件化会阻断部分因果路径或引入对撞偏差。

  3. 当前 Frontier:识别策略的分化 针对上述难题,文献分化出几条路线:

    • 参数/结构方程模型(SEM)路线:如 Imai et al. (2010) 与 VanderWeele (2009),通过强参数假设(如线性、无交互)来辅助识别,但模型误设风险高。
    • 辅助变量/工具变量路线:寻找 \(Z\)\(M\) 的工具变量,或利用阴性对照变量,放宽对函数形式的依赖。
    • 主分层路线:Frangakis & Rubin (2002) 的主分层框架将 \(Z\) 视为分层变量,但往往只能识别特定子群体的效应。
  4. 本文的位置 本文位于贝叶斯非参数估计路线上。作者采用 Hong et al. (2015) 的 ESI 假设作为识别核心,但拒绝采用强参数假设,转而使用 Enriched Dirichlet Process Mixture (EDPM) 对观测变量的联合分布进行灵活建模。本文试图填补的缺口是:在 ESI 假设下,提供一种既能处理高维/复杂分布,又能自然处理缺失数据的贝叶斯非参数估计方法

子线索聚类

  • 识别理论线:Pearl (2001) 定义效应 → Hong et al. (2015) 引入 ESI 处理 post-treatment confounder → VanderWeele et al. 讨论不同假设下的效应分解。核心争论在于:条件化 \(Z\) 是否会引入 "对撞偏差" 或阻断路径?Hong 的 ESI 假设通过精细化的条件独立结构回应了这一问题。
  • 估计方法线
    • 参数/似然派:Imai et al. (2010) 的 mediation package,依赖参数模型。
    • 半参数/频繁ist派:Tchetgen Tchetgen 等人发展的半参数效率界与 IPW/DR 估计量,强调稳健性但计算复杂。
    • 贝叶斯非参数派:本文属于此列,利用 DPM 的灵活性拟合联合分布,通过后验推断直接输出 NDE/NIE。

这个方向在追问的核心问题: 1. 识别的边界:在存在 \(Z\) 时,识别 NDE/NIE 所需的最小假设集是什么?ESI 是否过强(例如,它要求 \(Z\) 能完全阻断 \(M \to Y\) 的后门路径)? 2. 估计的稳健性:如何在不对 \(f(Y, M, Z | A, X)\) 施加强函数形式假设下进行估计? 3. 缺失数据机制:中介分析中常见的 \(M\)\(Y\) 缺失,如何在不引入额外偏差下处理?

⚠️ 作者的 framing: 作者将本文 frame 为对现有参数方法与半参数方法的实用替代。 * "显然的下一步":作者指出,Hong et al. (2015) 提供了识别理论,但"缺乏灵活的估计方法",特别是当 \(Z, M, Y\) 的分布未知或非标准分布时。因此,EDPM 这种"万能拟合器"自然成为填补这一空白的工具。 * 淡化的竞争路线:作者在 intro 中几乎没有讨论半参数效率理论(semiparametric efficiency)或双稳健估计(doubly robust estimation)路线。对于因果推断专家而言,这是一个显著的缺失——因为 ESI 假设下的效率界与 DR 估计量是 frequentist 文献的标准答案,作者选择贝叶斯非参数路线,实际上回避了与 DR 方法在大样本效率与稳健性上的直接对比。 * 缺失的引用:未引用 Tchetgen Tchetgen 或 Vansteelandt 等人在中介分析半参数理论方面的工作,这暗示了本文更偏向"计算/建模"而非"统计推断理论"。

张力: 未见明显对立引用。但存在隐含张力:Hong et al. (2015) 的 ESI 假设本身是一个强假设(要求 \(Z\) 捕获所有 \(M-Y\) 间的混杂),本文直接采纳该假设,并未讨论若该假设违反,EDPM 估计量的敏感性。这与敏感性分析文献之间存在张力。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • 符号定义

    • \(A \in \{0, 1\}\):二值处理变量。
    • \(X\):基线混杂变量向量,处理前已观测。
    • \(Z\)处理后混杂变量,受 \(A\) 影响,且同时影响中介 \(M\) 与结局 \(Y\)
    • \(M\):中介变量。
    • \(Y\):结局变量。
    • \(Z_a, M_a, Y_a\):潜在结果,例如 \(Z_a\) 为接受处理 \(A=a\)\(Z\) 的取值。
    • \(Y(a, m)\):联合潜在结果,处理为 \(a\) 且中介被干预为 \(m\) 时的结局。
    • 目标参数:
      • NDE (Natural Direct Effect)\(\mathbb{E}[Y(1, M_0) - Y(0, M_0)]\)
      • NIE (Natural Indirect Effect)\(\mathbb{E}[Y(1, M_1) - Y(1, M_0)]\)
  • 模型(数据生成机制): 因果图结构为:\(X \to A \to Z \to M \to Y\),且 \(X \to Z, X \to M, X \to Y, Z \to Y, A \to Y, A \to M\)。关键在于 \(Z\) 位于 \(A\) 下游且是 \(M, Y\) 的共同原因。

  • 可观测数据: 研究者观测到独立同分布样本 \(\{X_i, A_i, Z_i, M_i, Y_i\}_{i=1}^n\)

    • 不可观测的潜在结果:对于每个个体,我们只能观测到 \(Y_i = Y_i(A_i, M_i)\),无法观测 \(Y_i(1, M_0)\)\(Y_i(0, M_1)\)(反事实)。因此,因果效应识别的核心在于如何从观测分布 \(P(X, A, Z, M, Y)\) 中"算出"潜在结果分布的期望。

第二步:最小内核

最简特例:假设所有变量均为连续或离散,且不存在缺失数据。

核心数学困难:NDE 定义涉及 \(Y(1, M_0)\),这是一个"跨世界"的量:\(Y\) 取自世界 \(A=1\),而 \(M\) 取自世界 \(A=0\)。我们从未观测到 \((A=1, M=M_0)\) 的样本(因为若 \(A=1\),则 \(M=M_1\))。

本文的破题思路(Identification + Estimation)

  1. 识别: 利用 Hong et al. 的 ESI 假设

    \[(M(a), Y(a', m)) \perp\!\!\!\perp A \mid (X, Z(a)) \quad \forall a, a', m\]
    这意味着,一旦控制了基线混杂 \(X\) 和处理后混杂 \(Z\),处理 \(A\) 就与中介过程和结局过程独立了。 在此假设下,NDE 的识别公式(最小内核)退化为一个关于观测分布的积分:
    \[\text{NDE} = \int \mathbb{E}[Y \mid X, Z, M, A=1] \, dP(M \mid X, Z, A=0) \, dP(Z \mid X, A=0) \, dP(X)\]
    直觉:我们要计算 \(A=1\) 时的期望 \(Y\),但中介 \(M\) 和混杂 \(Z\) 的分布必须"冻结"在 \(A=0\) 的状态下。这需要对联合分布 \(P(X, Z, M, Y \mid A)\) 进行积分。

  2. 估计: 传统方法会对上述积分中的每一项(如 \(\mathbb{E}[Y \mid \dots]\))建立参数模型。本文的最小内核是: 不建立参数模型,而是直接对联合分布 \(P(X, Z, M, Y \mid A)\) 进行非参数贝叶斯建模。 具体而言,使用 EDPM 模型:

    \[(X, Z, M, Y) \mid A=a \sim \int N(\mu, \Sigma) \, dG(\mu, \Sigma)\]
    其中 \(G \sim \text{DPM}\)核心逻辑:只要能通过 MCMC 算法得到联合分布 \(P(X, Z, M, Y \mid A)\) 的后验样本,就可以直接在 MCMC 迭代中通过 Monte Carlo 积分(对 \(M, Z\) 积分)算出 NDE/NIE 的后验样本。这把复杂的因果参数估计问题,转化为了"灵活分布估计 + 蒙特卡洛积分"的问题。


三、这篇论文做了什么

三句话: ① 研究了存在处理后混杂变量时因果中介效应(NDE/NIE)的识别与估计问题。 ② 核心方法是利用扩展序贯可忽略性(ESI)假设实现识别,并采用 Enriched Dirichlet Process Mixture (EDPM) 模型对观测变量联合分布进行贝叶斯非参数估计。 ③ 主要结论是:该方法在模拟中表现优于参数模型,且能自然处理缺失数据与复杂分布,应用于 Rural LITE 数据未发现显著中介效应。

关键设定与假设

  1. ESI (Extended Sequential Ignorability) 假设

    • 内容\((M(a), Y(a', m)) \perp A \mid (X, Z(a))\)
    • 统计含义:这是识别的关键。它要求 \(Z\) 捕获了所有 \(M-Y\) 之间由 \(A\) 下游产生的混杂。如果 \(Z\) 选得不好(例如漏掉了某个 \(A\) 诱导的混杂),识别失效。相比标准 SI,它允许 \(Z\) 存在;相比 Imai 的参数假设,它不依赖函数形式,但依赖更强的条件独立结构。
    • Gaussian Copula 假设:作者引入此假设以处理混合型数据(连续+离散变量),保证联合分布的可识别性与计算便利性。这是一个辅助性的参数假设,用于连接边际分布与联合相关性。
  2. EDPM (Enriched Dirichlet Process Mixture) 模型

    • 设定:对于给定的处理组 \(A=a\),观测向量 \(\mathbf{W} = (X, Z, M, Y)\) 服从混合高斯模型:
      \[\mathbf{W}_i \mid \theta_i \sim F(\cdot \mid \theta_i), \quad \theta_i \sim G\]
      \[G \sim DP(\alpha, G_0)\]
    • 统计含义:DPM 允许数据的分布是无限个高斯分布的混合,具有非参数特性,能拟合任意复杂的密度函数。"Enriched" 指作者对协方差矩阵 \(\Sigma\) 施加了特定的先验结构(如分离相关矩阵与方差),以更好地处理变量间的相关性结构。
    • 对比:相比简单的 DPM,EDPM 在处理变量尺度差异和相关结构上更稳健。

主要结果

  1. 定理 1 (Identification): 在 ESI 假设、SUTVA、Positivity 假设下,NDE 和 NIE 可由观测分布 \(P(Y, M, Z, X, A)\) 识别。公式即第二节中的积分公式。该定理确认了在贝叶斯框架下,只要联合分布后验收敛,因果效应就是可计算的。

  2. 模拟研究

    • 设定:生成了包含非线性关系和非正态分布的数据,对比了 EDPM 方法与参数方法(如 Baron-Kenny, Imai's mediation)。
    • 结果:在模型误设(真实模型非线形)时,参数方法偏差显著,EDPM 方法偏差最小,覆盖率最好。在模型正确设定时,EDPM 效率略有损失(非参数的代价),但偏差仍可接受。
  3. Rural LITE 实证分析

    • 场景:评估一个生活方式干预试验,中介变量是"自我效能"(self-efficacy),处理后混杂变量是"社会支持"(social support,受干预影响,又影响自我效能和结局)。
    • 结果:NDE 显著(干预直接有效),NIE 不显著(中介效应弱)。结论与领域知识相符。
    • 缺失数据:展示了如何通过 Data Augmentation 在 MCMC 中填补缺失值,这是贝叶斯方法的一大优势。

证明路线与技术技巧

本文主要是方法型论文,"证明"主要体现在算法收敛性与后验计算的有效性上,而非传统的渐近统计理论证明。

  1. 整体路线: 定义识别目标 \(\to\) 建立联合分布的非参数模型 \(\to\) 推导后验分布 \(\to\) 设计 MCMC 算法 \(\to\) 在 MCMC 迭代中计算因果效应。

  2. 技术技巧点名

    • Gaussian Copula:用于处理混合变量类型(如 \(X\) 中既有连续又有分类变量)。它将观测数据映射到隐变量空间,在隐变量空间使用多元正态分布建模,从而利用成熟的多元正态 MCMC 技术。
    • Data Augmentation (DA):用于处理缺失数据。将缺失值视为参数,在 MCMC 中从条件分布抽样填补。这避免了 Listwise deletion 带来的偏差。
    • Stick-Breaking Construction & Slice Sampling:用于实现 DPM 的后验抽样。这是贝叶斯非参数计算的标准配置,避免了无穷维积分的困难。
    • Posterior Predictive Checks:用于模型检验,验证 EDPM 是否足够灵活以捕捉数据的真实分布。

真实例子与应用: 如上所述,Rural LITE 试验是核心实证案例。作者详细展示了如何将 \(X\)(基线变量)、\(Z\)(社会支持)、\(M\)(自我效能)、\(Y\)(健康指标)放入模型。关键点在于展示了如何计算 NDE/NIE 的后验分布——不是直接输出一个点估计,而是在每次 MCMC 迭代中算一个 NDE 值,最终得到 NDE 的后验样本,从而直接得到可信区间。这展示了贝叶斯方法在因果推断中"参数即随机变量"的便利性。

🔎 结论是否比证明窄: 本文没有提供严格的后验一致性收敛速率证明。 * 作者 Claim:EDPM 能够灵活拟合分布,因此估计是稳健的。 * 实际支撑:仅靠模拟实验和有限样本表现支撑。 * Gap:理论上,DPM 在高维情况下收敛速率如何?当 \(X\) 维数较高时,EDPM 是否会遇到维数灾难?本文未讨论。对于追求理论严谨性的研究者,这是一个明显的"证明窄于宣称"之处。


四、开放问题

  1. 半参数效率界与贝叶斯非参数的对比:本文未讨论在 ESI 假设下,NDE/NIE 的半参数效率界是什么?EDPM 估计量是否达到效率界?这需要研究者查阅 Tchetgen Tchetgen 等人的 frequentist 文献,对比 EDPM 是否存在效率损失。

    • 扎根点:Introduction 中提到 "flexible estimation",但未提及 "efficiency"。
  2. 高维基线混杂 \(X\) 的处理:EDPM 本质上是非参数密度估计,在高维 \(X\) 下会面临维数灾难。若 \(X\) 维数较高,本文方法是否失效?能否结合半参数降维思想(如 PS weighting 或 DR)改进?

    • 扎根点:模拟研究中 \(X\) 维数较低,未讨论 High-dimensional \(X\) 的情形。
  3. 敏感性分析:ESI 假设不可检验。若 \(Z\) 未能完全捕获 \(M-Y\) 的混杂,估计偏差有多大?本文未提供敏感性分析框架。

    • 扎根点:Discussion 提到了 "ignorable missingness" 和 "model assumption",但未提及对 ESI 假设违反的敏感性分析。
  4. 模型选择与正则化:EDPM 中超参数的选择(如 DP 的集中参数 \(\alpha\))如何影响因果效应估计?是否存在过度拟合导致因果效应估计方差过大的风险?

    • 扎根点:模拟部分展示了稳健性,但缺乏对正则化强度的理论探讨。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论