Non-agency interventions for causal mediation in the presence of intermediate confounding¶

作者: Iván Díaz
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向位于 因果中介分析 与 半参数效率理论 的交汇处，其根本问题在于：在有「受处理影响的中介-结局混杂」（intermediate confounding）的非参数/半参数模型中，如何定义、识别并高效估计具有因果解释的「路径特定效应」（path-specific effects）——即，处理通过对某一特定路径（处理→中介→结局）的影响，对结局产生的贡献——而同时满足合理的统计检验标准（如对于零假设的检定力）。当前该领域在识别策略上的探索已相当成熟，但多数策略要么依赖强但难以检验的假设（如不存在「交叉见证者」），要么牺牲了效应定义的因果解释力（如随机化中介干预）。本文所处的位置是：在保留较好因果解释的前提下，提出一种新的识别策略。

发展脉络（history）¶

奠基工作：
Robins & Greenland (1992) 与 Pearl (2001) [D2]：前者提出了「自然直接效应」(NDE) 与「自然间接效应」(NIE）的框架，后者在结构因果模型中给出了识别的 do-演算条件。这是整个子领域的基石。 * Avin et al. (2005) 随即指出一个根本性限制：当存在「收受中介-结局混杂」（即中间混杂）时，NDE/NIE 不是非参数识别的。这一负面结果为此后几乎所有工作提供了动机。 * Miles (2022) [D1]*：对随机化中介干预（一个主流的替代方案）进行了批判。他提出「中介尖锐零假设准则」：一个好的间接效应，应在不存在任何个体层面间接效应时恒为 0. 他证明，若不施加更强的假设，主导的「随机化干预间接效应」(randomized interventional indirect effects）不满足该准则——这意味着它们不能作为真正的因果机制检验。

主要进展（绕过中间混杂的三条路线）：
1. 约束函数形式 & 单调性假设：通过额外限制数据生成过程（如 A→Z 单调、无交互）来重新识别 NDE/NIE，参看 B.3.1。这提供了理论可能性，但预测在应用中难以验证的假设。 2. VanderWeele, Vansteelandt, Robins (2014) [D5]：提出三种替代的效应分解（「已控制直接效应」、「纯直接效应」等），这些分解在即使存在中间混杂时也可识别。他们给出了基于权重的估计方法。 3. 随机化干预策略：定义一种「从受处理者在给定协变量下的中介分布中随机采样 »其潜在中介值」的干预。Miles (2022) 指出这无法检验真正的因果机制。

当前 frontier 与本文的位置：
信息传递与随机干预：Gong & Zhu (2021) [D14] 与 Janzing et al. (2013) 等提出干预图的边而非干预节点的想法（「信息传递干预」）。Gong & Zhu 给出了基于结构因果模型（SCM）的 explicit 配方，他们的方法不需要「无交叉见证者」假设。作者 Diaz 的论文正是在这条更前沿的轨迹上——将边干预的思想从 SCM 赛道带入半参数效率框架，并实现了统计推断。 * Kennedy (2019) 等的增量倾向分干预：这类随机干预在连续/多值处理的设定中避免了 positivity 问题，但其参数仍是对节点进行干预。这篇论文借鉴了随机干预的思路（如移位、增量），但把干预对象从节点转到了边。 * Stensrud et al. (2019) [D25] 的可分解效应*：在竞争风险下，使用「成分分解」而非「交叉世界」来处理问题。这与本文的动机类似（避免交叉世界假设），但针对的是时间-事件数据。

子线索聚类¶

线索一：自然效应与交叉世界（NDE/NIE）
核心：保持其他路径不变，沿特定路径传达干预带来的变化。
现状：非参数识别需要「无交叉见证者」假设，在中间混杂下失效。
本文立场：这是必须克服的极限。
线索二：随机化干预（RIE）
核心：将中介按某种分布随机替代，从而避免交叉世界。
现状：容易识别、便于估计，但 Miles (2022) 证明其缺乏检测真实机制的能力（不满足尖锐零假设）。
本文立场：这是主要竞争者，但其存在根本性的因果解释缺陷。
线索三：信息传递/边干预（本文所在）
核心：干预图的边（信息流）而非节点。
现状：方法较少，如 Gong & Zhu (2021) 率先在 SCM 框架下定义了闭合形式的干预公式（π-公式），但未涉半参数效率与 n-一致估计。
本文立场：这条线索既能处理中间混杂，又能满足零假设准则。

本方向追问的核心问题与主流瓶颈¶

Q1：如何在不要求「无交叉见证者」假设下，定义可识别且具有因果解释的路径特定效应？
Q2：如何构建一个既能在理论上检验因果机制（满足尖锐零假设），又能在实践中被高效非参数地估计的参数？
Q3：对于数据的协方差结构（而非均值）进行路径分解，能否派生出新的因果参数并同时满足上述两个条件？
主流瓶颈：需要同时满足「可识别」、「可解释为机制」、「可高效估计」（n-一致）。NDE/NIE 在解释上强，但识别弱；RIE 在估计上强，但解释弱。

⚠️ 作者的 framing¶

作者的缺口 framing：作者把缺口 frame 成「现有方法要么不满足尖锐零假设（如 RIE），要么在存在中间混杂时不可识别（如 NDE）」，因此「提出一种基于信息传递干预的新型路径特定效应，它同时满足识别性与机制解释性」是显然的下一步。
被淡化的竞争路线：
- VanderWeele et al. (2014) [D5] 的三种替代分解被归为「可用但较弱」。作者指出它们「对应于对结构的更弱干预或对不同因果问题的回答」，暗示其并非真正的「机制检验」。
- Gong & Zhu (2021) [D14] 被肯定为先驱，但作者强调，「他们的方法是在结构因果模型（SCM）而非潜在结果框架」中讨论，并且没有提供半参数效率理论。本文将其推广到潜在结果并补全了高效估计。
值得查的缺失：引言中几乎没有讨论 交叉拟合 (cross-fitting) 和 样条 (spline) 或多重鲁棒的组合。这与半参数效率文献中（如 Chernozhukov et al. 2018）已经标准化的做法形成对比。这值得检查：作者没有交叉拟合，他的渐近性质（如 n-一致性与渐近正态性）是否需要在更强的光滑性假设（如 Donsker 类）下才能成立？

张力¶

引言中引用的各工作之间未明确提到彼此矛盾的结果，它们更多是在不同目标（因果机制检验 vs. 效应识别 vs. 解释简洁）之间进行权衡。核心的张力在于 Pearl/上诉的「自然效应」学派与 Holland 等人的「可操纵性」学派之间的哲学分歧（参看作者第4节），这在实际应用（如种族的中介效应）中是存在但对立的。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： * A: 处理变量（exposure / treatment），可假设为二元（0/1）或多维。 * Y: 结局变量（outcome），连续或离散。 * M: 中介变量（mediator），在前因变量 A 后观察到，作为 Y 的原因。 * Z: 受处理影响的中介-结局混杂变量（intermediate confounder）。这里关键：A 影响 Z，Z 同时影响 M 和 Y；M 也影响 Y。Z 可能还受到除 A 外其它协变量的影响。 * W: 基线协变量（baseline covariates），在 A 之前测量。 * X: 给定时点（通常为基线）的额外混淆变量，有时与不明确区分。

关键的可观测 vs. 潜在量： * 可观测: \(O = (W, A, Z, M, Y)\) 的 i.i.d. 副本。研究者能看到全程的真实值。 * 潜在量（counterfactuals）: * \(Y(a, m)\)：处理设为 a 且中介设为 m 的潜在结局。 * \(M(a)\)：处理设为 a 的中介潜在值。 * \(Z(a)\)：处理设为 a 的混杂变量潜在值。 * 注意：在一般的非参数结构中，这些量在潜在结果框架下定义了现实（world）[a,m]。

模型： * 因果图：假设一个特定的有向无环图（DAG），直观地： W → A → Z → M → Y, 且 A → M, Z → Y, A → Y. Z 是中间混杂。图的结构还需要一些背景假设（无未测量混淆，coarsening at random 等）。 * 非参数结构方程模型 (NPSEM)：假设每个变量都是其父节点的任意（但平滑，绝对连续）函数加上独立噪声。 * 交叉世界假设（cross-world independence）：这是识别 NDE/NIE 所需的强假设（如 \(Y(1,m) \perp M(0) | W\)）。本文试图避免此假设，通过干预边来实现。

第二步：讲最小内核¶

最简特例：假设二元处理 A ∈ {0,1}，没有中间混杂 C（即 A→M→Y 与 A→Y 等，无 Z 节点），且暂无其他协变量 W。这个条件下，目标就是分解 A→M→Y（间接效应）与 A→Y（直接效应）。这是最经典的路径分解情景。

要解决的核心问题：传统 NIE(A=1 相对于 A=0 的间接效应) = E[Y(1, M(1))] - E[Y(1, M(0))] = E[Y(1, M(1))] - E[Y(1, M(0))]，这个期望在 A=1 下将中介换成在 A=0 下的水平，但它需要建构反事实世界——世界 [1, M(0)] 在实际数据中从没发生过。更糟糕的是，在存在 Z 的这种更一般设定下（请想象更复杂的 DAG），这条语句甚至不支持识别。

本文的最小操作：信息传递干预（Information Transfer Intervention）是如何实现的？我们可以在边上进行干预，而不是在中介节点上。

例子： 1. 我们关心的效应：处理 A 如何通过中介 M（即沿着 A→M 和 M→Y 路径）影响 Y。 2. 操作「干预边 A→M」：这不是在说「固定 M 为某值」（节点干预），而是在改变 从 A 到 M 的信息传递。定义一个新的、被干预的信息流：我们屏蔽这条边的信息，即 A → M 的关系被切断；取而代之的，是用某个 baseline 的分布（如 A 并非实际的值，而是某个在所有情况下都给予的特定信息）。 3. 具体影响：因为 M 的分布现在不再取决于 A（这条边被干预了），它仍可能受 Z 等影响。但重点是，一旦解耦 A 与 M，我们就定义了一个「通过 M 传递的间接效应」是 A 对 Y 的效应中完全依赖于 A→M 关系的那部分。

为何它聪明： * 无需交叉世界: 被干预的世界是全外显的（actual world），我们只需干扰数据生成过程的一条「规则」，而不必想象一个从未发生的世界。这在数学上可以写作「把 A→M 这条边替换成一个不依赖于 A 的再抽样机制」，从而避免潜在的矛盾。 * 可处理中间混杂 Z: 在更复杂的图中，仍有 Z 受 A 影响且影响 M 和 Y 但 M 不受其影响的扭曲路径。但是你干预 A→M 后，Z 仍然可以自由地影响 M，这就不会产生交叉见证问题。

用可观测数据表现： * 在无中间混杂 Z 情形，信息传递干预的间接效应（\(PSE_{\bar{A} \to M \to Y}) = E[ Y ∖ d_{dirac}(A = a^*) \, but\, via\, M \sim P(M|W)] - E[Y|A=a^*]\) * 直观：你估计了「让处理 A 取 1」到结局的平均效应，减去「保持处理 A 不变，但从中介 M 中删除 A 的影响（用一个由基线 W决定的合成分布取代）」后的结局期望。差值就是 A 通过 M 产生的效应。

这看起来很炫，但其统计公式可以分解成只需结合 (A -> Y) 的直接回归与 ((M, W, A*) -> Y + A -> M -> * ) 的乘积。这就是「信息传递干预」的最小内核。

三、这篇论文做了什么¶

三句话¶

研究问题：提出一种基于信息传递干预的新型路径特定因果效应（PSE），在存在中间混杂且非可操纵原因（如种族）的场景下，该效应既能提供严格的因果机制检验，又能被非参数识别。
核心方法：定义「沿图边而非节点」的干预，通过切断特定路径的信息流来构造效应；并利用半参数效率理论，为协方差版效应量构建了高效的非参数估计量（基于数据自适应回归）。
主要结论：所提出的效应满足尖锐零条件；在不需交叉世界假设下，可识别且可被 n-一致地估计；在两个真实数据集（种族-健康差异；体育锻炼-健康）上验证了与标准中介方法的不同结果。

关键设定与假设¶

在第二节最简单的记号上，补充如下： * DAG：作者采用的一个标准处理-混杂-中介结构，常用于中介分析。图（如 Fig. 1 所示）包括处理 (A), 中介 (M), 中间混杂 (Z), 基线协变量 (W)。其关键假设是所有未观测到的混淆变量可忽略（no unmeasured confounding）： * \(A \perp \{Y(a,m), M(a)\} | W\) (处理-无混淆). * \(M \perp Y(a,m) | A, Z, W\) (中介-结局无混淆给定 A, Z, W). * \(Z \perp M(a) | A, W\) (杂-中介无混淆). * 信息传递干预的形式化：与经典「将节点 X 固定到值 x」的 do(x) 操作不同，论文引入一种干预，中断从 A 到 M 的边，并将其重新参数化为来自条件密度 \(f^{0}_{M|W}(M|W)\) 的抽样，即与 A 无关但只依赖基线 W。论文用符号 \( do( A \rightarrow M \mid F^{0}_{M|W} ) \) 表示。实际上定义了一个「新世界」：A 取我们实际想研究的值 (a)，但 M 的分布却只由 W 决定。 * 相对于已有文献的强化/放宽： * 放宽：不要求「无交叉见证者」假设，这是对 Pearl 和 Robins 的路线的一个重要放松。 * 强化*：要求 \(P(M | W)\) 是可估计的，相当于要求在所有可能的 W 取值下，我们能够估计中介的边际分布。这与标准评分清理（如王-M鲁棒）不同——它的估计不一定要求 Z 跨 M 的特定分布在随机化节点上被交给可识别。

主要结果（理论型）¶

重点在协方差版本效应量（\(CovPsi\)）

定理 1 (识别性)：\(Psi\) (或它的标准化路径变体) 可用观测数据来识别为： \(\psi_0 = \mathbb{E}\{ \mathbb{E}[Y|A^*, M, W] - \mathbb{E}[Y|A^*, M, W]_{do(A \rightarrow M \mid F^{0}_{M|W})} \}\). 这个量可以被分解为已知的 g-computation 公式的组合，避免了对交叉世界的引用。
定理 2 (效率理论)：提出了协方差版本效应量 \(CovPsi = Cov(A, Y) - Cov(A, Y_{null})\)，即处理与结局的协方差中减去不通过某些路径的协方差。这个量在定义上是处理—结局协方差的分解，是无法由非交叉世界间接效应分解的。
核心定理 (半参数效率界与 n-一致估计)：
- Estimand：作者重点关注的参数是协方差 (Covpsi)，它与定义中的 PSE 可通过代数转换。
- Efficient Influence Function (EIF)：推导了该 \(CovPsi\) 的 EIF，它是一个半参数地估计该参数的一般步骤——即使你对部分条件分布（如 M 的倾向、Y 的均值）建模有误，你仍然可以高效估计。
- 效率界：EIF 的方差提供了一个下界，任何正则估计量都无法以更快的速度（不如 n-1/2）收敛。
推论/主要算法 (n-一致与渐近正态)：
- 当用户使用数据自适应回归（如 Super Learner） 来估计 nuisance parameters（如 \(E[Y | A^*, M, W]\) 或倾向评分），基于 EIF 构造的估计量是 n-一致和渐近正态的，且其渐近方差等于 EIF 的方差。
- 关键条件：在估计这些 nuisance 参数时，要求残差（如 \hat{\mu} 与真值之差）的 L2 范数趋于 0 的速度至少比 n-1/4 快。这是通过交叉拟合策略消除估计偏差的基本条件。

证明路线与技术技巧¶

整体路线： 1. 问题转化：将原始问题的参数（路径特定效应 PSE）转化为一个如 \(CovPsi\) 的统计参数，因为它在数学上更容易处理 EIF。 2. EIF 推导：使用标准的 Gateaux 导数计算，该计算依赖于在模型空间中向一个子模型方向扰动，得到参数的导数形式。这种计算利用了统计参数的 von Mises 展开。 3. 基于估计量的构造：给出基于 EIF 的「单步（one-step）」估计量，即： \(\hat{\psi} = \frac{1}{n} \sum_i \varphi(\text{data}_i; \hat{\mu}, \hat{\pi}, \ldots)\)。其中 \(\varphi\) 是一个已知函数，包含了两步——第一步是基于初始估计 \(\hat{\mu}\) 等得到一个 Plug-in 估计，第二步是加上该估计量的偏差校正量，而其形式正是样本均值形式的 EIF。 4. 渐近性质的证明：利用如下事实——当我们进行交叉拟合（用一部分数据训练 nuisance，另一部分计算估计），上述估计量的偏差仅取决于二阶交叉项，而这些项的收敛速度够快（通过假设 \(n^{-1/4}\) 光滑性），所以整体趋近于 n-正太。

关键跳跃点： * EIF 的计算：不是简单的求和。整个推导的中心在于处理由「信息传递干预」引入的限制——这导致 EIF 包含除一维影响函数外的结构，因为它涉及一个「do-操作」等价于在一个随机条件（似于 M propensity score 作为权重）下重塑分布。 * 交叉拟合的使用：虽然原文没有 explicit 交叉拟合，标准做法是依赖于它来解决估计偏误。如果没有它在论文的应用示例里（真值例子未涉及交叉验证），作者可能依赖严格的光滑性条件来保证估计量的 n-一致。

技术技巧点名： * 条件效率函数 (Conditional efficiency / Sequential Regression)：为了处理中间混杂、避免高维积分，使用类似于 g-formula 中的递归公式（而非一次性模型）。 * 数据自适应回归 (Data-adaptive regression) / Super Learner：用于以非参数方式建模 nuisance 参数。 * Plug-in 与偏差校正 (Plug-in plus Bias Correction)：经典的半参数估计范式。 * U-stat 结构 (隐式)：\(CovPsi = \mathbb{E}[ \text{kernel} ]\) 类似一个 U-stat，因为它的样本均方差形式中涉及两个观测值之间的交叉作用（因果效应一定要在不同世界间对比，导致它的期望可以展开成一个二阶核）。原文无 explicit 提，但值得注意。

真实例子与应用¶

本文包含两个真实数据例子：

例子 1：种族与出生体重 * 数据来源/场景：日常讨论中「种族」对「出生体重」的中介效应，中介是母亲接受产前护理的频次等中间混杂。 * 如何应用方法：将种族作为不可干预的处理 A，出生体重为 Y，中介 M = 接受某种介导的指数。作者将 PSE 方法用于证明，与传统的 RIE 方法相比，信息传递干预能更好地捕获（A→M→Y）路径对于种族差距的贡献。 * 结果： * 传统估计量（RIE）显示，通过该中介路径只有一小部分种族不平等性可以被解释。 * 新估计量（PSE under ITI）发现该路径承载了显著的间接效应，甚至样本估计的方向会改变（从一个负直接效应变成解释为「种族-A→M-Tending」通过一个隐藏的 E 层反向解释）。重要的是，这证实了 Miles 所述——RIE 不能检测真正的机械关系。 * 目的：验证新方法具有比 RIE 加更有用、更接近直觉的因果解释。

例子 2：体育锻炼与心血管功能 * 数据来源：老年人运动干预的研究，研究心率变异作为中介，以及其中间混杂Z（可能是干预依从性或锻炼期间的持续时间）。 * 应用：把 A 作为强度等级，M 是心率变异特质，Y 是心肺功能测试分数。人们可以问：「锻炼的益处是通过心率变异带来的（A→M→Y）？」还是直接带来的（A→Y）？ * 结果：新 PSE 显示 M 路径几乎为零，说明心率变异不架桥；而传统 RIE 再次给出一个弱但显著的中介效应，结果再次矛盾。

🔎 结论是否比证明窄¶

窄处：本文的主要数学理论成果——提供 n-一致估计量与效率界——完全集中在协方差版本效应量（Covpsi）上。原始的定义中对于其他版的 PSE（比如均值的差）虽然谈到了半参数理论，但核心定理（定理3、4）都是对 Covpsi 证明的。结论可能比展示的更窄。
泛化 claim：文章在摘要与结论中说「高效非参数估计量」，但推导中半参数方法要保证 n-一致需要一大套假设（光滑性条件与交叉拟合。若未使用交叉拟合，则带有更强的Donsker假设）。作者不是没有，但在应用部分轻易越过这些条件，可能高估了实际可行度。

四、开放问题（点到为止，扎根具体语句）¶

真正的路径特定版本的非协方差均值差异估计：论文主要给出了协方差版本的 EIF与 n-一致证明。原始定义的自似是对 \(PSE_{\bar{A} \to M \to Y}\) 的估计。能否对其均值版本（而非 Cov 版）推导出相似的 EIF 并证明同等的渐近性质？这意味着需要解决一个更严格的多变量积分约束，而不仅仅是询问协方差。扎根：结论部分明确写道「对协方差版本的估计理论被给出」（p. 20）；而对其他版本只是泛泛提到了「可类比」。
分布版本效应与 U-统计技术（对陈星宇同学的特别关联点）：该参数 \(CovPsi\) 是一个非常自然的二阶 U-统计量（相关的估计量常涉及将观测值配对）。对于复杂半参数模型，一个人能否证明经验影响函数相应于一个 U-统计量核进行样本打包以改善高阶偏差，尤其是对于一个对序-相关性的小样本问题？扎根：文中定理3的表达式是半参数，但最终的参数是协方差形式。
非参数亚组分析：如果我们要做亚组分析（比如是否由 W 进行并发症分层），EIF 的推导与估计是否在同一框架下直接完成？还是必须重新计算向量化的 EIF，并且借助数据自适应回归去处理组与组之间的共享 nuisance 参数？扎根：应用部分的数据例子使用了「用 Z 进行分层」，但理论上是「全样本」结果。文章并无亚组 EIF。
近似与随机化敏感性分析：信息传递干预仍然假设无未测量混淆。就像许多中介效应一样，倘若 DAG 中存在一个未测量的 M-Y 混杂变量，这个模型将立刻失效。能否通过类似 Robins (2002) 的双重鲁棒敏感性或 Franks et al. (2020) 的基于联立的模型来做更省力的弱化假设桥梁？扎根：论文在「讨论」里承认了未测量混杂的限制，但没有尝试进行量化敏感性。

提醒：要确认第 1、2 点是不是真 gap，去读 Gong & Zhu (2021) 与 Kennedy et al. (2022) 的近期序列工作，看看他们是否已经提供了均值版本或更高阶的路径效应估计。

Maintained by 陈星宇 · Homepage · Source on GitHub