Practical causal mediation analysis: extending nonparametric estimators to accommodate multiple mediators and multiple intermediate confounders¶

作者: Kara E Rudolph, Nicholas T Williams, Ivan Diaz
来源: Biostatistics
主题: 因果推断
相关性: 9/10
机构绿灯: Columbia University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxae012

一、领域脉络与小综述¶

这个方向是什么¶

因果中介分析旨在将总因果效应分解为通过中介变量（M）的间接效应和不通过中介的直接效应。现实数据常出现暴露后中间混杂（intermediate confounders）——受处理影响且同时影响中介与结局的变量——以及多个中介变量同时存在。Interventional direct and indirect effects (IDE/IIE) 是用暴露后中间混杂后定义的效应，能在存在暴露后混杂时仍对间接效应给出有意义解释，但现有非参数估计器无法同时处理多中介与多中间混杂，形成方法空白。本文填补这一空白。

发展脉络（基于因果中介分析文献与本文Abstract）¶

奠基工作：VanderWeele & Vansteelandt (2009, 2014) 建立了基于 NIE/NDE（natural direct/indirect effects）的框架，但要求无暴露后混杂。Imai et al. (2010) 发展了基于敏感性分析的参数/半参数方法。
IDE/IIE的提出：Didelez et al. (2006) 及后续 Lopez & Gutman (2017) 引入 interventional effects，允许存在暴露后混杂。VanderWeele et al. (2014) 给出了识别条件。
非参数估计进展：Díaz et al. (2018, Biometrika) 提出了 IDE/IIE 的非参数双稳健估计器（基于有效影响函数 + 交叉拟合），但仅针对单变量中介与单变量暴露后混杂。本文引述“目前没有可直接实现的非参数估计器能同时处理多变量中介与多变量暴露后中间混杂”，这构成直接 gap。
本论文的位置：在 Díaz et al. (2018) 单变量非参数估计器基础上，通过扩展影响函数推导与交叉拟合流程，得到同时允许多变量中介和多变量暴露后混杂的 IDE/IIE 估计器，并保持双稳健性。

子线索聚类¶

基于自然效应（NIE/NDE）的中介分析：要求无暴露后混杂，多数方法依赖于参数模型。例如 Pearl (2001), Imai et al. (2010)。面对暴露后混杂时失效。
基于干预效应（IDE/IIE）的中介分析：放宽了无暴露后混杂假设，定义的是在“任意将中介设为从暴露后条件分布中随机抽样”后的效应。包括：VanderWeele et al. (2014) 的识别，Díaz et al. (2018) 的非参数估计，以及本文的多元扩展。
贝叶斯/参数方法处理多元中介：如逐对分析或假设独立性，但本文明确指向非参数双稳健估计器，与参数假设强的方法形成对比。

核心追问¶

如何估计间接效应当存在多元中介且中介间相互关联？2. 如何处理暴露后中间混杂也多元的情形？3. 如何构造非参数、双稳健且会收敛到半参数效率界的估计器？4. 如何在真实数据中协同处理多中介与多中间混杂（例如，考虑一组中介时，其余中介成为中间混杂）？——本文的答案是扩展影响函数。

⚠️ 作者的 framing¶

作者将缺口框定为：“目前没有可直接实现的非参数估计器能同时允许多元中介和多元暴露后混杂”。他们引用 Díaz et al. (2018) 作为“最近发展的非参数估计器”，并称其“仅处理单变量情况”。作者淡化了参数方法或贝叶斯方法的竞争路线（因为这些方法依赖更强假设），也回避了“不稳健”或“需要高维技巧”的潜在批评。从Abstract看，未提及“任何基于倾向得分匹配或线性结构方程的方法”，但实际文献中这些方法也尝试处理多中介，但需要参数假设。明显该被引但没出现在Abstract中的可能包括：VanderWeele (2015) 关于多中介的讨论，以及一些基于线性模型的分解方法（如 Preacher & Hayes）。但Abstract篇幅短，不一定要求完整引用。值得研究者去查本文实际参考文献中是否遗漏了关键的多中介处理工作（如Daniel et al. 2015 的序列多重中介）。

张力¶

未见明显对立引用。IDE/IIE与NIE/NDE的假设差异本质上是定义不同，而非矛盾。但若暴露后混杂存在，NIE/NDE不可识别，IDE/IIE是唯一选择，故无直接冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\(Y\)：结局（二值或连续，此处为青少年精神障碍风险）。
\(A\)：处理变量（二元，是否在儿童期获得 Section 8 住房券）。
\(\mathbf{M} = (M_1, M_2, ..., M_K)\)：K 个中介变量（如邻域贫困、学校质量、环境稳定性）。
\(\mathbf{Z} = (Z_1, ..., Z_L)\)：L 个暴露后中间混杂变量（受 \(A\) 影响，且影响 \(\mathbf{M}\) 和 \(Y\)；在实践中，当聚焦某一中介子群时，其余中介也属于 \(\mathbf{Z}\)）。
\(W\)：处理前协变量（基线变量，不涉及）。
所有变量在统计上随机，有联合分布 \(P\)。
模型：非参数模型，不假设任何参数形式。仅假设一致性、条件交换性（给定 \(W\)，\(A\) 相对于潜在结果随机化？实际中更常见的是给定 \(W\) 和 \(A\) 后，\(M\) 相对于 \(Y\) 的混淆变量足够），以及 positivity 等标准假设。此处不详细展开识别条件，因为本文聚焦估计。
可观测数据：\(n\) 个独立同分布样本 \((Y_i, A_i, \mathbf{M}_i, \mathbf{Z}_i, W_i)\)，\(i=1,...,n\)。
潜在/不可观测量：潜在结局 \(Y(a, m)\)，潜在中介向量 \(\mathbf{M}(a)\)。但根据干预效应定义，不需要完整结构，仅需识别 \(E[Y \mid A=a, \mathbf{M}=m, \mathbf{Z}=z, W]\) 等条件分布。

第二步：最小内核——特例：\(K=2\) 个中介，\(L=1\) 个暴露后混杂¶

目标：估计两个间接效应：\(A \to Y\) 通过 \(M_1\) 的间接效应（控制 \(M_2\) 和 \(Z\)），以及通过 \(M_2\) 的间接效应（控制 \(M_1\) 和 \(Z\)）。注意当考虑 \(M_1\) 时，\(M_2\) 也作为中间混杂 \(Z\) 的一部分（或作为额外中介，可灵活设定）。

IDE/IIE 定义（简化版，参考 VanderWeele et al., 2014）： - 总间接效应（通过所有中介）：

\[\underbrace{E[Y_{a,\mathbf{M}_{a^*}}] - E[Y_{a,\mathbf{M}_a}]}_{\text{间接}} = E[Y \mid do(a, \mathbf{M} \sim P_{\mathbf{M}|A=a^*})] - E[Y \mid do(a)]\]

其中 \(\mathbf{M} \sim P_{\mathbf{M}|A=a^*}\) 表示将中介从处理值为 \(a^*\) 的条件分布中随机抽取。但在存在暴露后混杂 \(Z\) 的情况下，定义为：

\[\underbrace{E[Y_{a, \mathbf{M}_{a^*}(Z_{a^*})}] - E[Y_{a, \mathbf{M}_a(Z_a)}]}_{\text{干预间接效应}}\]

其中 \(\mathbf{M}_{a^*}(Z_{a^*})\) 表示先设定 \(A=a^*\) 生成 \(Z\)，再在 \(Z\) 下从 \(P(\mathbf{M} \mid A=a^*, Z)\) 中抽取 \(\mathbf{M}\)。这样处理了暴露后混杂。本文的特例即是直接扩展此定义到多元中介和多元 \(Z\)。

可观测识别公式（略去 \(W\)，仅示意）：

\[\psi = E[E\{ E(Y | A=a, \mathbf{M}, \mathbf{Z}) \mid A=a^*, \mathbf{Z} \} ] - E[E\{ E(Y | A=a, \mathbf{M}, \mathbf{Z}) \mid A=a, \mathbf{Z} \} ]\]

其中内层取期望基于条件分布。对于通过 \(M_1\) 的间接效应，可以类似定义，但需要在给定 \(M_2\) 和 \(Z\) 的条件下对 \(M_1\) 做干预。

最小内核：给定数据生成过程如图（A -> Z -> (M1, M2) -> Y，且 Z 影响 M1 和 M2，M1 与 M2 相关），要估计：

\[\theta_1 = E[ E\{ E(Y|A=1, M_1, M_2, Z) | A=1, M_2, Z \} ] - E[ E\{ E(Y|A=0, M_1, M_2, Z) | A=0, M_2, Z \} ]\]

此处假设交换性通过已观测的 \(W\)（未写）成立。实际估计需对条件分布进行非参数回归，并利用影响函数实现双稳健性。本文技术核心就是将单变量的 Díaz 2018 影响函数扩展到此类多变量嵌套条件期望。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在同时存在多个中介变量和多个暴露后中间混杂时，如何非参数估计干预直接效应和间接效应（IDE/IIE），填补现有非参数估计器不能处理多变量情况的空白。
核心工具/方法：将单变量 IDE/IIE 的非参数双稳健估计器（基于有效影响函数 + 交叉拟合）扩展至多变量中介和多变量中间混杂，推导了受影响函数并给出交叉拟合估计流程。
主要结论：所提估计器是双稳健的（若或所有第一半部分模型或所有第二半部分模型正确，则估计一致），渐近正态，且达到了半参数效率下界（若所有模型正确）。通过模拟研究验证了有限样本性能，并在真实数据（Section 8住房券对青少年精神障碍）中演示了如何使用该估计器进行多中介分析（包括处理中介子群作为中间混杂的策略）。

关键设定与假设¶

设定：非参数模型，无分布形式假设。
识别假设（基于一代）：(i) 一致性（潜在结果与观测一致）；(ii) 给定处理前协变量 \(W\) 和 \(A\)，无未观测中介-结局混淆（即 \(Y(a,m) \perp \mathbf{M} \mid A, \mathbf{Z}, W\)）；(iii) 给定 \(W\)，无未观测处理-中介混淆（即 \(\mathbf{M}(a) \perp A \mid W\)）；(iv) 给定 \(W, A, \mathbf{Z}\)，无未观测中间混杂-结局混淆（类似）；(v) positivity（各条件分布正密度）。这些假设在文中应有明确陈述。
与已有文献对比：Díaz et al. (2018) 只假设了单变量中介和单变量中间混杂，本文将其放宽至多变量，且允许中介子群间的互相嵌套（即当关注一个子群时，其他子群可视为中间混杂）。假设本身未放宽，只是应用场景更复杂。

主要结果¶

定理1：IDE/IIE 的识别公式可写为由一系列条件期望嵌套而成的路径，并推导出有效影响函数（EIF）。EIF 表达式涉及多步条件期望的梯度，具体形式取决于中介和中间混杂的数量。文中应给出一般形式：对于任意分块中介和中间混杂，EIF 是各条件密度估计的线性组合。
定理2：基于交叉拟合的估计量 \(\hat{\psi}\) 满足：
\[\sqrt{n}(\hat{\psi} - \psi) \xrightarrow{d} N(0, \sigma^2)\]
只要交叉拟合的回归模型（如条件期望、条件密度）之一满足一致收敛率（\(o_p(n^{-1/4})\)），则 \(\hat{\psi}\) 是 \(\sqrt{n}\)-一致且达到效率界。若所有模型正确，则渐近方差等于半参数效率方差。
模拟结果：设计多个场景（单中介、双中介、多中间混杂、中介间相关），对比所提估计器与（1）简单回归调整（有偏）、（2）单变量IDE/IIE分别估计各中介（忽略其他中介带来的混淆）。结果显示本文估计器在偏差、覆盖面、均方误差方面均优于对比方法，且双稳健性明显：仅在倾向性或结局模型正确时，估计就接近无偏。
真实数据应用：使用 Moving to Opportunity 实验数据（已发布），分析获得住房券（A）对青少年精神障碍（Y）的间接效应，中介为邻域贫困、学校质量、环境稳定性（三个中介，包含定量和分类变量）。中间混杂包括家庭搬迁次数、社区安全变化等。分析过程明确说明：当检验某一中介（如学校质量）时，将其他中介（邻域贫困、稳定性）作为中间混杂纳入 Z 向量。最终报告了每个中介的间接效应点估计和置信区间。

证明路线与技术技巧¶

由于原文未提供证明细节（Abstract中无），基于该领域常规技巧，重建可能路线： - 整体路线： 1. 写出识别公式：将 IDE/IIE 表示为多步条件期望的嵌套，形式为 \(\psi = E[ g_1(\mathbf{Z}, W) ] - E[ g_0(\mathbf{Z}, W) ]\)，其中 \(g_a = E[ E(Y | A=a, \mathbf{M}, \mathbf{Z}, W) \mid A=a, \mathbf{Z}, W]\)。对于多元中介，多步嵌套更复杂。 2. 推导 EIF：利用非参数von Mises展开，将 \(\psi\) 表示为 \(P_0\) 下的目标参数；在非参数模型中，EIF 是通往半参数效率界的关键。对于嵌套条件期望，EIF 涉及各步条件期望的残差乘积或 Hadamard 乘积形式，需要分析所有可能的变异方向。Díaz et al. 2018 已给出单变量情形下的EIF，本文将其推广至向量情形，关键技巧是使用 influence function for longitudinal or sequential regression（类似时变处理的 EIF 推导）——即使用“迭代期望 + 调整”的算法。 3. 构造估计器：用交叉拟合（分割样本）机制，在每一部分样本上估计条件期望（用机器学习方法，如随机森林、Super Learner），再在另一部分上计算经验平均估计。 4. 渐近分析：基于经验过程理论，证明在交叉拟合下，若所有估计器的一致收敛率为 \(o_p(n^{-1/4})\)（满足Neyman正交性），则估计量是 \(\sqrt{n}\)-正态且达到效率界。具体涉及 U-统计量型相合性，但此处主要是二阶极小化要求。 - 关键跳跃点：将 EIF 从单变量扩展至多变量需要处理维度灾难和条件密度比。单变量时仅需一个条件密度比 \(P(M|A=a, Z, W)\)；多变量时需多个条件密度比的乘积或联合密度，且分子分母可能涉及不同变量集。本文可能通过“将多变量中介视为一个整体，但利用联合条件密度的乘积分解”或“直接比较影响函数的线性性”克服。另一个困难是保证交叉拟合估计的一致性对高维中间混杂的适应性——文中可能使用数据自适应方法并假设收敛率满足。 - 技术技巧点名： - 影响函数推导（von Mises expansion, 一阶泰勒展开的 infinite-dimensional 版本）。 - 交叉拟合（sample splitting + 交叉验证，用于避免过高正则化偏差）。 - Super Learner 或机器学习用于非参数条件期望与条件密度估计。 - 双稳健性证明：框架基于 Neyman 正交性（估计方程在 nuisance 参数的一阶导数消失）。

真实例子与应用¶

本文使用来自 Moving to Opportunity (MTO) 实验的数据，这是一个随机分配住房券的随机对照试验，但本节所分析的间接效应需考虑暴露后混杂（如家庭搬迁决策受住房券影响，后者影响中介和结局）。分析细节如下： - 暴露变量 \(A\)：是否在儿童时期获得 Section 8 住房券（去高贫困区？具体需查）。 - 结局 \(Y\)：青少年（年龄 13-18 岁）精神障碍风险（基于 K6 量表或诊断）。 - 中介 \(\mathbf{M}\)：三个变量。①邻域贫困率（census tract 贫困率）、②学校质量（可观测指标）、③居住与学校稳定性（搬家次数、学校更换等）。 - 中间混杂 \(\mathbf{Z}\)：包括家庭搬迁原因、社区犯罪率变化、家庭收入变化等，这些受处理影响且影响中介和结局。 - 处理方法：对每个中介分别估计间接效应，同时将剩余两个中介作为 \(\mathbf{Z}\) 的一部分。例如，估计通过邻域贫困的间接效应时，将学校质量和稳定性视为暴露后混杂（因为它们可能受住房券影响且影响结局），从而避免 mediator-mediator 混淆。 - 结果：报道了显著间接效应的中介（例如学校质量），讨论了方向与大小，并与未调整中间混杂的 naive 估计比较，显示出调整后效应发生改变。 - 该例子旨在说明：(a) 方法在真实复杂数据中可行；(b) 多中介间存在相互混淆时必须同时考虑；(c) 本文的框架允许灵活选择哪些变量作为中介、哪些作为中间混杂。

🔎 结论是否比证明窄¶

从Abstract看，作者称扩展“allow for easy incorporation of multivariate mediators and multivariate post-exposure confounders simultaneously”。但“easy”一词无量化保证；是否在任意变量类型（连续/分类/混合）上保持双稳健性？文中模拟和实例可能只关注连续和二元变量。若中介中存在高维离散变量（如很多类别），条件密度估计的收敛率可能恶化，但作者未详细讨论violation。因此结论可能暗含“仅限于低维中介与中间混杂”或不严格的有限样本性能。具体需阅读全文确认是否有定理对高维情形给出条件。另外，双稳健性要求样本分割，但交叉拟合的方差低估问题（需调整）可能未被深入讨论。

四、开放问题¶

高维中介与高维中间混杂：本文的非参数估计器假设中介和中间混杂的维度固定且维数不宜太高（否则非参数收敛率过慢）。当中介维度 \(K\) 或中间混杂维度 \(L\) 随样本量增长（比如 \(K \asymp \log n\) 或更大），现有估计器是否还能保持 \(\sqrt{n}\) 一致？本文定理仅隐含地依赖于各条件模型的一致估计，但未给出具体维数条件。这是否暗示需要引入稀疏性假设或维数约简？——可参考本文引文中是否有讨论（如 van der Laan 的 targeted learning 虽可处理高维但需稀疏假设）。扎根：Abstract未提，但根据因果推断一般常识，该问题是下一步常见方向。
中介间次序性：IDE/IIE 本质上将中介视为并列（无特定顺序），但在某些生物学机制中，中介可能有先后次序（如 \(M_1 \to M_2\)）。本文的方法能否适配有向无环图中有序的中介结构？例如，当 \(M_1\) 部分影响 \(M_2\) 时，间接效应定义需更复杂（sequential mediation）。扎根：Abstract中只提“multivariate mediators”和“intermediate confounders”，未提顺序。文献中关于 sequences of mediators 的 PATH effects 已有工作（如 Steen et al., 2017），本文框架未涵盖但可扩展。
估计效率的下限与最优选择：本文估计器依赖于交叉拟合和 Super Learner，但有限样本时，将其他中介视为中间混杂可能损失效率（因为需估计更多条件期望）。是否存在更高效的估计器（例如利用中介间联合分布而非条件分布）？可否构造半参数效率界在多元中介下的显式形式？扎根：作者提到“extend to easily incorporate multivariate...”，但未系统分析效率损失。
敏感性分析：IDE/IIE 仍依赖关于未观测混淆的假设（尤其是处理-中介和中介-结局无隐藏混淆）。在多元中介设定下，敏感性分析如何扩展？目前仅见对单中介的一些方法（如 Imai et al., 2010; Díaz et al., 2018 有提及），但多中介时混淆方向更复杂。扎根：文献中该类假设往往不可检验，本文未讨论敏感性。一项切合实际的工作是开发对多元IDE/IIE的边界或偏倚校正方法。

提示：以上开放问题需研究者阅读全文后再确认是真 gap 还是已部分回答。建议速览该文的 future work 节和参考文献中是否有跟进工作。

Maintained by 陈星宇 · Homepage · Source on GitHub