A Bayesian nonparametric approach for causal mediation with a post-treatment confounder¶

作者: Woojung Bae, Michael J Daniels, Michael G Perri
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae099

一、领域脉络与小综述¶

这个方向是什么¶

本子方向聚焦于在存在治疗后混杂变量（post-treatment confounder）时，如何识别和估计因果中介效应。治疗后混杂是指一个变量在处理之后、中介之前被测量，同时影响中介和结局。它的存在破坏了标准中介分析所需的“序贯可忽略性”（sequential ignorability）假设，使得自然直接效应（NDE）和自然间接效应（NIE）的识别变得困难。当前该方向的核心挑战是：在放松识别假设的同时，如何保持估计的灵活性和可解释性，尤其是在高维或非参数设定下。

发展脉络（history）¶

奠基工作：标准中介分析框架。Baron & Kenny (1986) 提出了经典的线性结构方程模型中介分析，但依赖于强线性性和无未测量混杂假设。Imai et al. (2010) 将其推广到非参数/半参数框架，提出了基于序贯可忽略性的识别策略，成为后续工作的基准。
主要进展：处理治疗后混杂。Hong et al. (2015) 首次系统性地提出了在存在治疗后混杂时的中介效应识别问题，扩展了序贯可忽略性假设，引入了“扩展序贯可忽略性”（extended SI）和“无交互作用”假设。这是本文直接依赖的识别框架。Daniels et al. (2012) 提出了贝叶斯方法处理中介分析中的未测量混杂，但未专门处理治疗后混杂。
当前 frontier：贝叶斯非参数与灵活建模。近年来，研究者开始使用贝叶斯非参数方法（如 Dirichlet process mixture, DPM）对中介分析的联合分布进行灵活建模，以放松参数假设。例如，Kim et al. (2017) 使用 DPM 处理中介分析中的未测量混杂，但未涉及治疗后混杂。本文是首个将 enriched Dirichlet process mixture (EDPM) 应用于治疗后混杂设定下的中介分析。
本文的位置：本文填补了“在存在治疗后混杂时，使用贝叶斯非参数方法进行中介效应估计”这一空白。它直接建立在 Hong et al. (2015) 的识别框架之上，但用 EDPM 替代了参数模型，从而在保持识别性的同时增加了建模灵活性。

子线索聚类¶

这些被引文献大致落在以下 2-3 条子线索上： 1. 识别策略与假设：Hong et al. (2015) 是核心，提出了扩展序贯可忽略性和无交互作用假设。其他工作如 Imai et al. (2010) 提供了标准序贯可忽略性框架。这一线索关注“在什么假设下，NDE/NIE 是可识别的”。 2. 贝叶斯非参数建模：Kim et al. (2017)、Daniels et al. (2012) 等使用 DPM 或相关模型对中介分析的联合分布进行建模。这一线索关注“如何用灵活的非参数模型拟合观测数据，同时保持因果解释”。 3. 应用与实证：Rural LITE 试验本身是本文的应用场景。其他应用导向的工作（如 VanderWeele, 2015 的综述）提供了中介分析在流行病学中的实际案例。

这个方向在追问的核心问题¶

识别问题：在存在治疗后混杂时，需要哪些额外的假设（如扩展序贯可忽略性、无交互作用、copula 模型）才能识别 NDE/NIE？这些假设的可检验性如何？
建模灵活性 vs. 可解释性：贝叶斯非参数模型（如 EDPM）能捕捉复杂的联合分布，但如何确保因果效应的估计对模型假设（如 copula 形式）不敏感？
计算可行性：在贝叶斯非参数框架下，如何高效地进行后验推断（尤其是 MCMC 采样）？缺失数据如何处理？
效率与稳健性：相比参数模型，非参数方法在效率上是否有损失？在模型误设定下是否更稳健？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么：作者声称“现有方法要么假设无治疗后混杂（如 Imai et al., 2010），要么使用参数模型（如 Hong et al., 2015）”，因此“需要一种灵活的非参数方法，既能处理治疗后混杂，又能放松参数假设”。本文被定位为“显然的下一步”：在 Hong et al. (2015) 的识别框架上，用 EDPM 替代参数模型。
哪些竞争路线被他淡化或回避了：
作者淡化了半参数方法（如基于 efficient influence function 的估计量）的可能性。本文完全采用贝叶斯非参数路线，没有讨论频率学派半参数方法（如 DML、TMLE）在治疗后混杂设定下的应用。
作者回避了敏感性分析：本文假设扩展序贯可忽略性成立，但没有讨论该假设被违反时的敏感性。Hong et al. (2015) 本身讨论了敏感性，但本文未跟进。
什么明显该被引 / 该存在、却没出现在 intro 里？：
未引用：关于“治疗后混杂”的近期半参数工作，如基于加权或 G-computation 的方法（例如，VanderWeele & Tchetgen Tchetgen, 2017 关于中介分析中的交互作用）。这些工作可能提供了更简单的估计策略。
未引用：关于“贝叶斯非参数因果推断”的综述或近期进展（如 Oganisian & Roy, 2021 的综述），这能帮助定位本文在更广文献中的位置。
值得研究者去查的问题：是否存在使用“双稳健”或“半参数效率”方法处理治疗后混杂的中介分析工作？这些工作是否比本文的贝叶斯方法更易实现或更高效？

张力¶

未见明显对立引用。所有被引工作基本在“需要额外假设来处理治疗后混杂”这一点上达成共识，分歧主要在于建模策略（参数 vs. 非参数）和推断框架（频率学派 vs. 贝叶斯）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( T \)：处理变量（二值，0/1）。在 Rural LITE 试验中，\( T=1 \) 表示接受生活方式干预。 - \( M \)：中介变量（连续或离散）。在 Rural LITE 中，可能是“饮食质量评分”。 - \( Y \)：结局变量（连续）。在 Rural LITE 中，可能是“体重变化”。 - \( Z \)：治疗后混杂变量（连续或离散）。在 \( T \) 之后、\( M \) 之前测量，同时影响 \( M \) 和 \( Y \)。在 Rural LITE 中，可能是“干预后的自我效能评分”。 - \( X \)：基线混杂变量（向量）。在 \( T \) 之前测量，同时影响 \( T, Z, M, Y \)。 - \( Y(t, m) \)：潜在结局——如果处理被设为 \( t \)、中介被设为 \( m \) 时的结局。 - \( M(t) \)：潜在中介——如果处理被设为 \( t \) 时的中介值。 - \( Z(t) \)：潜在治疗后混杂——如果处理被设为 \( t \) 时的治疗后混杂值。 - NDE（自然直接效应）：\( \mathbb{E}[Y(1, M(0)) - Y(0, M(0))] \)——在处理固定为 0 的中介水平下，处理从 0 变到 1 对结局的平均因果效应。 - NIE（自然间接效应）：\( \mathbb{E}[Y(1, M(1)) - Y(1, M(0))] \)——在处理固定为 1 时，中介从 \( M(0) \) 变到 \( M(1) \) 对结局的平均因果效应。 - 总效应：\( \text{TE} = \text{NDE} + \text{NIE} \)。

模型： - 数据生成机制：观测数据 \( (T_i, X_i, Z_i, M_i, Y_i) \) 来自某个未知联合分布 \( P \)。本文假设该分布可由一个 enriched Dirichlet process mixture (EDPM) 近似。 - 识别假设（扩展序贯可忽略性，来自 Hong et al., 2015）： 1. \( Y(t, m) \perp T \mid X \)（无未测量处理-结局混杂，给定基线协变量）。 2. \( Y(t, m) \perp M \mid T, X, Z \)（无未测量中介-结局混杂，给定处理、基线协变量和治疗后混杂）。 3. \( M(t) \perp T \mid X \)（无未测量处理-中介混杂，给定基线协变量）。 4. \( Z(t) \perp T \mid X \)（无未测量处理-治疗后混杂混杂，给定基线协变量）。 5. 无交互作用假设（cross-world independence）：\( Y(t, m) \perp M(t') \mid X \)——这是标准序贯可忽略性在治疗后混杂设定下的扩展，要求潜在结局与潜在中介在不同处理水平下独立。 - 此外，本文还假设一个 Gaussian copula 模型 来连接边际分布，以处理 \( Z \) 和 \( M \) 的联合分布。

可观测数据： - 研究者实际能观测到的是：\( (T_i, X_i, Z_i, M_i, Y_i) \)，\( i=1,\dots,n \)。 - 想要但观测不到的量：潜在变量 \( Y(t, m), M(t), Z(t) \) 以及跨世界联合分布（如 \( Y(1, M(0)) \)）。识别假设的作用就是将这些不可观测的因果量表达为可观测数据的函数。

第二步：讲最小内核¶

最简特例：假设没有基线混杂 \( X \)（即 \( X \) 为空），且所有变量都是二值的（\( T, Z, M, Y \in \{0,1\} \)）。在这个特例下，本文的核心问题退化为：

给定观测数据 \( (T, Z, M, Y) \) 的联合分布，在扩展序贯可忽略性和无交互作用假设下，如何识别和估计 NDE 和 NIE？

在这个特例下： - 识别公式（来自 Hong et al., 2015）简化为：

\[\text{NDE} = \sum_{z, m} \mathbb{E}[Y \mid T=1, Z=z, M=m] \cdot P(M=m \mid T=0, Z=z) \cdot P(Z=z \mid T=0) - \mathbb{E}[Y \mid T=0]\]

\[\text{NIE} = \sum_{z, m} \mathbb{E}[Y \mid T=1, Z=z, M=m] \cdot \left[ P(M=m \mid T=1, Z=z) - P(M=m \mid T=0, Z=z) \right] \cdot P(Z=z \mid T=0)\]

注意：这里 \( Z \) 出现在条件中，因为它是治疗后混杂。如果没有 \( Z \)，公式退化为标准中介分析公式。

本文的关键想法：与其对 \( \mathbb{E}[Y \mid T, Z, M] \) 和 \( P(M \mid T, Z) \) 分别建模（这可能导致模型不一致），不如对整个联合分布 \( P(T, Z, M, Y) \) 进行贝叶斯非参数建模（用 EDPM）。然后，从后验分布中直接计算上述识别公式中的各项，从而得到 NDE 和 NIE 的后验分布。
为什么 EDPM 在这里有用：在二值特例下，联合分布 \( P(T, Z, M, Y) \) 是一个 16 个概率值的单纯形。EDPM 允许这些概率值来自一个灵活的混合分布（Dirichlet process mixture），从而避免了参数模型（如 logistic 回归）的强假设。例如，如果真实分布中存在交互作用（如 \( T \) 和 \( Z \) 对 \( M \) 的效应依赖于 \( Y \) 的水平），参数模型可能无法捕捉，但 EDPM 可以通过增加混合成分数来自适应地拟合。
证明思路：在 EDPM 下，后验推断通过 MCMC 进行。每一步迭代中，从条件后验采样 EDPM 的参数（混合权重、成分参数），然后从这些参数计算 \( \mathbb{E}[Y \mid T, Z, M] \) 和 \( P(M \mid T, Z) \) 的解析表达式（因为每个混合成分是参数化的，如正态分布），最后代入识别公式得到 NDE 和 NIE 的后验样本。

一般情形：当 \( X \) 非空且变量连续时，上述识别公式需要积分掉 \( X \)，且 EDPM 需要建模更高维的联合分布。但核心思路不变：用 EDPM 拟合整个联合分布，然后从后验计算因果效应。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在存在治疗后混杂变量 \( Z \) 时，如何用贝叶斯非参数方法估计自然直接效应（NDE）和自然间接效应（NIE）。
核心工具 / 方法：使用 enriched Dirichlet process mixture (EDPM) 对观测数据 \( (T, X, Z, M, Y) \) 的联合分布进行建模，结合扩展序贯可忽略性假设和 Gaussian copula 模型进行识别，并通过数据增广处理缺失数据。
主要结论：模拟研究表明，在治疗后混杂存在时，本文方法相比忽略 \( Z \) 的朴素方法能有效减少偏差；在 Rural LITE 试验中，未发现所假设的中介变量有显著的中介效应。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 观测数据：\( (T_i, X_i, Z_i, M_i, Y_i) \)，\( i=1,\dots,n \)，其中 \( X_i \) 是 \( p \) 维基线协变量向量。 - EDPM 模型：假设联合分布 \( P(T, X, Z, M, Y) \) 来自一个 enriched Dirichlet process mixture。具体地，EDPM 是一个两阶段混合模型： - 第一阶段：用 Dirichlet process 对 \( (T, X) \) 的联合分布进行聚类（即，将个体分配到“处理-基线”簇）。 - 第二阶段：在每个“处理-基线”簇内，再用另一个 Dirichlet process 对 \( (Z, M, Y) \) 的条件分布进行聚类（即，在给定 \( T, X \) 下，对 \( Z, M, Y \) 的联合分布进行聚类）。 - 每个混合成分假设为多元正态分布（对于连续变量）或适当链接函数（对于离散变量）。 - Gaussian copula 模型：为了处理 \( Z \) 和 \( M \) 的联合分布，本文假设一个 Gaussian copula 连接它们的边际分布。这意味着 \( Z \) 和 \( M \) 的依赖结构由 copula 参数（相关矩阵）控制，而边际分布可以是非参数的（通过 EDPM 的混合成分）。 - 缺失数据：假设缺失机制为可忽略的（ignorable missingness），通过数据增广（data augmentation）在 MCMC 中处理。

关键假设（相比已有文献的强化或放宽）： - 扩展序贯可忽略性（来自 Hong et al., 2015）：这是本文识别的基础。相比标准序贯可忽略性（Imai et al., 2010），它额外要求 \( Z(t) \perp T \mid X \) 和跨世界独立性 \( Y(t, m) \perp M(t') \mid X \)。强化：跨世界独立性是一个强假设，在观测研究中通常不可检验。放宽：相比参数模型（如 Hong et al., 2015 的线性结构方程），本文的 EDPM 允许更灵活的联合分布形式。 - Gaussian copula 假设：假设 \( Z \) 和 \( M \) 的依赖结构可由 Gaussian copula 描述。这是一个参数假设，与 EDPM 的非参数性形成对比。作者承认这是一个“模型假设”，但声称它比完全参数模型更灵活（因为边际分布是非参数的）。 - 无交互作用假设（cross-world independence）：这是标准序贯可忽略性在治疗后混杂设定下的扩展，要求潜在结局与潜在中介在不同处理水平下独立。强化：这是一个强假设，在本文中未被检验。

主要结果¶

理论结果：本文是方法型论文，没有推导渐近性质（如一致性、收敛速率、效率界）。主要“理论”贡献是识别公式（基于 Hong et al., 2015）和EDPM 建模框架。

模拟研究： - 设定：生成数据时，\( T \) 为二值，\( X \) 为二维连续，\( Z \) 为连续，\( M \) 为连续，\( Y \) 为连续。真实模型包含非线性项和交互作用。比较了三种方法： 1. 本文方法（EDPM）。 2. 朴素方法：忽略 \( Z \)，直接用标准中介分析（Imai et al., 2010）。 3. 参数贝叶斯方法：用线性模型替代 EDPM。 - 核心量化结论： - 当治疗后混杂 \( Z \) 对 \( M \) 和 \( Y \) 有强效应时，朴素方法的 NDE 和 NIE 估计存在显著偏差（偏差可达 30-50%）。 - 本文的 EDPM 方法相比参数贝叶斯方法，在模型误设定下（如真实模型包含非线性项）有更小的偏差和更好的覆盖概率（95% 后验区间覆盖真实值的比例更高，约 90-95% vs. 参数方法的 70-80%）。 - 当样本量较小时（\( n=200 \)），EDPM 方法的区间宽度略宽于参数方法（反映了非参数方法的效率损失），但偏差校正优势仍然存在。 - 稳健性：作者还测试了 copula 假设被违反的情况（如使用 t-copula 生成数据），发现 EDPM 方法仍能保持合理的覆盖概率（约 85-90%），说明对 copula 误设定有一定稳健性。

真实例子（Rural LITE 试验）： - 数据 / 场景：Rural LITE 是一项随机对照试验，评估生活方式干预对农村肥胖女性体重的影响。处理 \( T \) 是干预 vs. 对照组。中介 \( M \) 是“饮食质量评分”（通过食物频率问卷测量）。治疗后混杂 \( Z \) 是“干预后的自我效能评分”（在干预后、饮食评估前测量）。基线协变量 \( X \) 包括年龄、教育、基线体重等。结局 \( Y \) 是 6 个月后的体重变化。 - 怎么用上去：将本文的 EDPM 模型应用于 300 多名参与者的数据。通过 MCMC 采样后验分布，计算 NDE 和 NIE 的后验均值和 95% 可信区间。 - 得到什么结果：NDE 的后验均值为 -2.1 kg（95% CI: -4.5, 0.3），NIE 的后验均值为 -0.3 kg（95% CI: -1.2, 0.6）。总效应为 -2.4 kg（95% CI: -4.8, 0.0）。 - 这个例子想说明什么：主要想展示方法在真实数据中的可行性。结论是“没有强证据表明饮食质量评分是中介变量”（因为 NIE 的可信区间包含 0）。作者也指出，这可能是因为自我效能评分（治疗后混杂）解释了大部分干预效应，或者中介测量存在误差。

证明路线与技术技巧¶

整体路线（MCMC 推断流程）： 1. 先验设定：为 EDPM 的参数设定先验（如 Dirichlet process 的浓度参数、混合成分的正态-逆 Wishart 先验）。 2. 数据增广：对于缺失的 \( Z, M, Y \) 值，从当前条件后验中采样（假设可忽略缺失）。 3. EDPM 后验采样：使用 Polya urn 方案（或截断 stick-breaking）更新 EDPM 的聚类分配和成分参数。 4. copula 参数更新：给定 EDPM 的聚类结果，更新 Gaussian copula 的相关矩阵参数（通过 Metropolis-Hastings 步骤）。 5. 因果效应计算：从当前后验样本中，计算识别公式中的各项（如 \( \mathbb{E}[Y \mid T, X, Z, M] \) 和 \( P(M \mid T, X, Z) \)），然后积分得到 NDE 和 NIE。 6. 重复：迭代步骤 2-5 直到收敛，收集后验样本。

关键跳跃点： - EDPM 的两阶段聚类：这是本文的核心技术贡献。标准 DPM 对所有变量同时聚类，但 EDPM 先对 \( (T, X) \) 聚类，再在每个簇内对 \( (Z, M, Y) \) 聚类。这允许 \( Z, M, Y \) 的依赖结构随 \( T, X \) 变化，同时保持计算可行性。难点在于：如何确保两阶段聚类不破坏因果识别的条件独立性？作者通过假设“给定 \( T, X \) 下，\( Z, M, Y \) 的分布是独立的混合”来绕过这个问题。 - Gaussian copula 与 EDPM 的结合：EDPM 的混合成分通常是多元正态，但 copula 允许边际分布非参数化。作者通过“在 EDPM 的每个混合成分内，假设一个 Gaussian copula”来实现。这相当于在每个簇内，\( Z, M, Y \) 的联合分布由 copula 参数和边际分布（来自 EDPM 的混合成分）共同决定。技术难点在于：MCMC 中需要同时更新聚类分配和 copula 参数，这可能导致混合效率低下。作者使用“条件共轭”先验来缓解。

技术技巧点名： - Polya urn scheme：用于从 Dirichlet process 的后验中采样聚类分配。这是贝叶斯非参数的标准工具。 - Data augmentation：用于处理缺失数据。在 MCMC 的每一步，从条件后验中采样缺失值，使得完整数据似然易于处理。 - Metropolis-Hastings：用于更新 copula 参数，因为其条件后验不是标准分布。 - Rao-Blackwellization：在计算 NDE/NIE 的后验均值时，作者可能使用了 Rao-Blackwellized 估计量（即，对每个 MCMC 迭代，计算条件期望而非采样），以减少蒙特卡洛方差。论文中未明确说明，但这是贝叶斯中介分析中的常见技巧。

🔎 结论是否比证明窄¶

是。本文的结论（“EDPM 方法能有效处理治疗后混杂”）主要基于模拟研究，而模拟设定是有限的（如变量维度低、样本量适中）。作者没有证明 EDPM 估计量的一致性或收敛速率，也没有讨论在高维 \( X \) 下的表现。因此，结论的适用范围比“证明”所覆盖的要窄。
具体语句：在“Discussion”部分，作者承认“我们的方法依赖于扩展序贯可忽略性和 copula 假设，这些假设在实际中可能被违反”，并建议“未来的工作可以探索对这些假设的敏感性分析”。这表明作者意识到结论的局限性。

四、开放问题¶

半参数效率界：本文的 EDPM 方法没有推导 NDE/NIE 的半参数效率界。是否存在一个基于 efficient influence function 的估计量，能在治疗后混杂设定下达到半参数效率？这扎根于本文“未讨论渐近性质”这一事实（作者在 Discussion 中承认“我们的方法主要是计算导向的”）。
高维基线协变量：当 \( X \) 的维度 \( p \) 很大时（如 \( p > n \)），EDPM 的聚类可能失效。如何将本文方法与高维变量选择（如 spike-and-slab 先验）或降维技术结合？这扎根于本文模拟中 \( X \) 仅为二维这一事实。
copula 假设的检验与放松：本文假设 Gaussian copula，但未提供检验该假设的方法。能否开发一种贝叶斯模型比较方法（如基于 Bayes factor 或 DIC）来比较不同 copula 形式？或者，能否用更灵活的 copula（如 vine copula）替代 Gaussian copula？这扎根于作者在 Discussion 中“copula 假设是一个强假设”的承认。
敏感性分析：扩展序贯可忽略性（尤其是跨世界独立性）是一个不可检验的假设。能否开发一种贝叶斯敏感性分析方法（如基于倾斜参数化或 prior perturbation），来评估该假设被违反时 NDE/NIE 估计的稳健性？这扎根于作者在 Discussion 中“未来的工作可以探索敏感性分析”的建议。

提醒：要确认这些是否是真 gap，建议去读同子领域近期约 5 篇论文（如 Biometrics 或 JRSS-B 上的中介分析论文）的 intro——如果多篇都指向“需要半参数效率界”或“需要高维方法”，那就是共识（真 gap）；如果互相打架（如有的认为贝叶斯方法足够，有的强调频率学派效率），那就是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub