Non-agency interventions for causal mediation in the presence of intermediate confounding¶
作者: Iván Díaz
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向位于 因果中介分析 与 半参数效率理论 的交汇处,其根本问题在于:在有「受处理影响的中介-结局混杂」(intermediate confounding)的非参数/半参数模型中,如何定义、识别并高效估计具有因果解释的「路径特定效应」(path-specific effects)——即,处理通过对某一特定路径(处理→中介→结局)的影响,对结局产生的贡献——而同时满足合理的统计检验标准(如对于零假设的检定力)。当前该领域在识别策略上的探索已相当成熟,但多数策略要么依赖强但难以检验的假设(如不存在「交叉见证者」),要么牺牲了效应定义的因果解释力(如随机化中介干预)。本文所处的位置是:在保留较好因果解释的前提下,提出一种新的识别策略。
发展脉络(history)¶
奠基工作:
Robins & Greenland (1992) 与 Pearl (2001) [D2]:前者提出了「自然直接效应」(NDE) 与「自然间接效应」(NIE)的框架,后者在结构因果模型中给出了识别的 do-演算条件。这是整个子领域的基石。
* Avin et al. (2005) 随即指出一个根本性限制:当存在「收受中介-结局混杂」(即中间混杂)时,NDE/NIE 不是非参数识别的。这一负面结果为此后几乎所有工作提供了动机。
* Miles (2022) [D1]*:对随机化中介干预(一个主流的替代方案)进行了批判。他提出「中介尖锐零假设准则」:一个好的间接效应,应在不存在任何个体层面间接效应时恒为 0. 他证明,若不施加更强的假设,主导的「随机化干预间接效应」(randomized interventional indirect effects)不满足该准则——这意味着它们不能作为真正的因果机制检验。
主要进展(绕过中间混杂的三条路线):
1. 约束函数形式 & 单调性假设:通过额外限制数据生成过程(如 A→Z 单调、无交互)来重新识别 NDE/NIE,参看 B.3.1。这提供了理论可能性,但预测在应用中难以验证的假设。
2. VanderWeele, Vansteelandt, Robins (2014) [D5]:提出三种替代的效应分解(「已控制直接效应」、「纯直接效应」等),这些分解在即使存在中间混杂时也可识别。他们给出了基于权重的估计方法。
3. 随机化干预策略:定义一种「从受处理者在给定协变量下的中介分布中随机采样 »其潜在中介值」的干预。Miles (2022) 指出这无法检验真正的因果机制。
当前 frontier 与本文的位置:
信息传递与随机干预:Gong & Zhu (2021) [D14] 与 Janzing et al. (2013) 等提出干预图的边而非干预节点的想法(「信息传递干预」)。Gong & Zhu 给出了基于结构因果模型(SCM)的 explicit 配方,他们的方法不需要「无交叉见证者」假设。作者 Diaz 的论文正是在这条更前沿的轨迹上——将边干预的思想从 SCM 赛道带入半参数效率框架,并实现了统计推断。
* Kennedy (2019) 等的增量倾向分干预:这类随机干预在连续/多值处理的设定中避免了 positivity 问题,但其参数仍是对节点进行干预。这篇论文借鉴了随机干预的思路(如移位、增量),但把干预对象从节点转到了边。
* Stensrud et al. (2019) [D25] 的可分解效应*:在竞争风险下,使用「成分分解」而非「交叉世界」来处理问题。这与本文的动机类似(避免交叉世界假设),但针对的是时间-事件数据。
子线索聚类¶
-
线索一:自然效应与交叉世界(NDE/NIE)
核心:保持其他路径不变,沿特定路径传达干预带来的变化。
现状:非参数识别需要「无交叉见证者」假设,在中间混杂下失效。
本文立场:这是必须克服的极限。 -
线索二:随机化干预(RIE)
核心:将中介按某种分布随机替代,从而避免交叉世界。
现状:容易识别、便于估计,但 Miles (2022) 证明其缺乏检测真实机制的能力(不满足尖锐零假设)。
本文立场:这是主要竞争者,但其存在根本性的因果解释缺陷。 -
线索三:信息传递/边干预(本文所在)
核心:干预图的边(信息流)而非节点。
现状:方法较少,如 Gong & Zhu (2021) 率先在 SCM 框架下定义了闭合形式的干预公式(π-公式),但未涉半参数效率与 n-一致估计。
本文立场:这条线索既能处理中间混杂,又能满足零假设准则。
本方向追问的核心问题与主流瓶颈¶
- Q1:如何在不要求「无交叉见证者」假设下,定义可识别且具有因果解释的路径特定效应?
- Q2:如何构建一个既能在理论上检验因果机制(满足尖锐零假设),又能在实践中被高效非参数地估计的参数?
- Q3:对于数据的协方差结构(而非均值)进行路径分解,能否派生出新的因果参数并同时满足上述两个条件?
- 主流瓶颈:需要同时满足「可识别」、「可解释为机制」、「可高效估计」(n-一致)。NDE/NIE 在解释上强,但识别弱;RIE 在估计上强,但解释弱。
⚠️ 作者的 framing¶
- 作者的缺口 framing:作者把缺口 frame 成「现有方法要么不满足尖锐零假设(如 RIE),要么在存在中间混杂时不可识别(如 NDE)」,因此「提出一种基于信息传递干预的新型路径特定效应,它同时满足识别性与机制解释性」是显然的下一步。
- 被淡化的竞争路线:
- VanderWeele et al. (2014) [D5] 的三种替代分解被归为「可用但较弱」。作者指出它们「对应于对结构的更弱干预或对不同因果问题的回答」,暗示其并非真正的「机制检验」。
- Gong & Zhu (2021) [D14] 被肯定为先驱,但作者强调,「他们的方法是在结构因果模型(SCM)而非潜在结果框架」中讨论,并且没有提供半参数效率理论。本文将其推广到潜在结果并补全了高效估计。
- 值得查的缺失:引言中几乎没有讨论 交叉拟合 (cross-fitting) 和 样条 (spline) 或多重鲁棒的组合。这与半参数效率文献中(如 Chernozhukov et al. 2018)已经标准化的做法形成对比。这值得检查:作者没有交叉拟合,他的渐近性质(如 n-一致性与渐近正态性)是否需要在更强的光滑性假设(如 Donsker 类)下才能成立?
张力¶
引言中引用的各工作之间未明确提到彼此矛盾的结果,它们更多是在不同目标(因果机制检验 vs. 效应识别 vs. 解释简洁)之间进行权衡。核心的张力在于 Pearl/上诉的「自然效应」学派与 Holland 等人的「可操纵性」学派之间的哲学分歧(参看作者第4节),这在实际应用(如种族的中介效应)中是存在但对立的。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: * A: 处理变量(exposure / treatment),可假设为二元(0/1)或多维。 * Y: 结局变量(outcome),连续或离散。 * M: 中介变量(mediator),在前因变量 A 后观察到,作为 Y 的原因。 * Z: 受处理影响的中介-结局混杂变量(intermediate confounder)。这里关键:A 影响 Z,Z 同时影响 M 和 Y;M 也影响 Y。Z 可能还受到除 A 外其它协变量的影响。 * W: 基线协变量(baseline covariates),在 A 之前测量。 * X: 给定时点(通常为基线)的额外混淆变量,有时与不明确区分。
关键的可观测 vs. 潜在量: * 可观测: \(O = (W, A, Z, M, Y)\) 的 i.i.d. 副本。研究者能看到全程的真实值。 * 潜在量(counterfactuals): * \(Y(a, m)\):处理设为 a 且中介设为 m 的潜在结局。 * \(M(a)\):处理设为 a 的中介潜在值。 * \(Z(a)\):处理设为 a 的混杂变量潜在值。 * 注意:在一般的非参数结构中,这些量在潜在结果框架下定义了现实(world)[a,m]。
模型: * 因果图:假设一个特定的有向无环图(DAG),直观地: W → A → Z → M → Y, 且 A → M, Z → Y, A → Y. Z 是中间混杂。图的结构还需要一些背景假设(无未测量混淆,coarsening at random 等)。 * 非参数结构方程模型 (NPSEM):假设每个变量都是其父节点的任意(但平滑,绝对连续)函数加上独立噪声。 * 交叉世界假设(cross-world independence):这是识别 NDE/NIE 所需的强假设(如 \(Y(1,m) \perp M(0) | W\))。本文试图避免此假设,通过干预边来实现。
第二步:讲最小内核¶
最简特例:假设二元处理 A ∈ {0,1},没有中间混杂 C(即 A→M→Y 与 A→Y 等,无 Z 节点),且暂无其他协变量 W。这个条件下,目标就是分解 A→M→Y(间接效应)与 A→Y(直接效应)。这是最经典的路径分解情景。
要解决的核心问题: 传统 NIE(A=1 相对于 A=0 的间接效应) = E[Y(1, M(1))] - E[Y(1, M(0))] = E[Y(1, M(1))] - E[Y(1, M(0))],这个期望在 A=1 下将中介换成在 A=0 下的水平,但它需要建构反事实世界——世界 [1, M(0)] 在实际数据中从没发生过。更糟糕的是,在存在 Z 的这种更一般设定下(请想象更复杂的 DAG),这条语句甚至不支持识别。
本文的最小操作:信息传递干预(Information Transfer Intervention)是如何实现的?我们可以在边上进行干预,而不是在中介节点上。
例子: 1. 我们关心的效应:处理 A 如何通过中介 M(即沿着 A→M 和 M→Y 路径)影响 Y。 2. 操作「干预边 A→M」:这不是在说「固定 M 为某值」(节点干预),而是在改变 从 A 到 M 的信息传递。定义一个新的、被干预的信息流:我们屏蔽这条边的信息,即 A → M 的关系被切断;取而代之的,是用某个 baseline 的分布(如 A 并非实际的值,而是某个在所有情况下都给予的特定信息)。 3. 具体影响:因为 M 的分布现在不再取决于 A(这条边被干预了),它仍可能受 Z 等影响。但重点是,一旦解耦 A 与 M,我们就定义了一个「通过 M 传递的间接效应」是 A 对 Y 的效应中完全依赖于 A→M 关系的那部分。
为何它聪明: * 无需交叉世界: 被干预的世界是全外显的(actual world),我们只需干扰数据生成过程的一条「规则」,而不必想象一个从未发生的世界。这在数学上可以写作「把 A→M 这条边替换成一个不依赖于 A 的再抽样机制」,从而避免潜在的矛盾。 * 可处理中间混杂 Z: 在更复杂的图中,仍有 Z 受 A 影响且影响 M 和 Y 但 M 不受其影响的扭曲路径。但是你干预 A→M 后,Z 仍然可以自由地影响 M,这就不会产生交叉见证问题。
用可观测数据表现: * 在无中间混杂 Z 情形,信息传递干预的间接效应(\(PSE_{\bar{A} \to M \to Y}) = E[ Y ∖ d_{dirac}(A = a^*) \, but\, via\, M \sim P(M|W)] - E[Y|A=a^*]\) * 直观:你估计了「让处理 A 取 1」 到结局的平均效应,减去「保持处理 A 不变,但从中介 M 中删除 A 的影响(用一个由基线 W决定的合成分布取代)」后的结局期望。差值就是 A 通过 M 产生的效应。
这看起来很炫,但其统计公式可以分解成只需结合 (A -> Y) 的直接回归与 ((M, W, A*) -> Y + A -> M -> * ) 的乘积。这就是「信息传递干预」的最小内核。
三、这篇论文做了什么¶
三句话¶
- 研究问题:提出一种基于信息传递干预的新型路径特定因果效应(PSE),在存在中间混杂且非可操纵原因(如种族)的场景下,该效应既能提供严格的因果机制检验,又能被非参数识别。
- 核心方法:定义「沿图边而非节点」的干预,通过切断特定路径的信息流来构造效应;并利用半参数效率理论,为协方差版效应量构建了高效的非参数估计量(基于数据自适应回归)。
- 主要结论:所提出的效应满足尖锐零条件;在不需交叉世界假设下,可识别且可被 n-一致地估计;在两个真实数据集(种族-健康差异;体育锻炼-健康)上验证了与标准中介方法的不同结果。
关键设定与假设¶
在第二节最简单的记号上,补充如下: * DAG:作者采用的一个标准处理-混杂-中介结构,常用于中介分析。图(如 Fig. 1 所示)包括处理 (A), 中介 (M), 中间混杂 (Z), 基线协变量 (W)。其关键假设是所有未观测到的混淆变量可忽略(no unmeasured confounding): * \(A \perp \{Y(a,m), M(a)\} | W\) (处理-无混淆). * \(M \perp Y(a,m) | A, Z, W\) (中介-结局无混淆给定 A, Z, W). * \(Z \perp M(a) | A, W\) (杂-中介无混淆). * 信息传递干预的形式化:与经典「将节点 X 固定到值 x」的 do(x) 操作不同,论文引入一种干预,中断从 A 到 M 的边,并将其重新参数化为来自条件密度 \(f^{0}_{M|W}(M|W)\) 的抽样,即与 A 无关但只依赖基线 W。论文用符号 \( do( A \rightarrow M \mid F^{0}_{M|W} ) \) 表示。实际上定义了一个「新世界」:A 取我们实际想研究的值 (a),但 M 的分布却只由 W 决定。 * 相对于已有文献的强化/放宽: * 放宽:不要求「无交叉见证者」假设,这是对 Pearl 和 Robins 的路线的一个重要放松。 * 强化*:要求 \(P(M | W)\) 是可估计的,相当于要求在所有可能的 W 取值下,我们能够估计中介的边际分布。这与标准评分清理(如王-M鲁棒)不同——它的估计不一定要求 Z 跨 M 的特定分布在随机化节点上被交给可识别。
主要结果(理论型)¶
重点在协方差版本效应量(\(CovPsi\))
- 定理 1 (识别性):\(Psi\) (或它的标准化路径变体) 可用观测数据来识别为:
\(\psi_0 = \mathbb{E}\{ \mathbb{E}[Y|A^*, M, W] - \mathbb{E}[Y|A^*, M, W]_{do(A \rightarrow M \mid F^{0}_{M|W})} \}\).
这个量可以被分解为已知的
g-computation公式的组合,避免了对交叉世界的引用。 - 定理 2 (效率理论):提出了协方差版本效应量 \(CovPsi = Cov(A, Y) - Cov(A, Y_{null})\),即处理与结局的协方差中减去不通过某些路径的协方差。这个量在定义上是处理—结局协方差的分解,是无法由非交叉世界间接效应分解的。
- 核心定理 (半参数效率界与 n-一致估计):
- Estimand:作者重点关注的参数是协方差 (Covpsi),它与定义中的 PSE 可通过代数转换。
- Efficient Influence Function (EIF):推导了该 \(CovPsi\) 的 EIF,它是一个半参数地估计该参数的一般步骤——即使你对部分条件分布(如 M 的倾向、Y 的均值)建模有误,你仍然可以高效估计。
- 效率界:EIF 的方差提供了一个下界,任何正则估计量都无法以更快的速度(不如 n-1/2)收敛。
- 推论/主要算法 (n-一致与渐近正态):
- 当用户使用数据自适应回归(如 Super Learner) 来估计
nuisance parameters(如 \(E[Y | A^*, M, W]\) 或倾向评分),基于 EIF 构造的估计量是 n-一致和渐近正态的,且其渐近方差等于 EIF 的方差。 - 关键条件:在估计这些 nuisance 参数时,要求残差(如 \hat{\mu} 与真值之差)的 L2 范数趋于 0 的速度至少比 n-1/4 快。这是通过交叉拟合策略消除估计偏差的基本条件。
- 当用户使用数据自适应回归(如 Super Learner) 来估计
证明路线与技术技巧¶
整体路线: 1. 问题转化:将原始问题的参数(路径特定效应 PSE)转化为一个如 \(CovPsi\) 的统计参数,因为它在数学上更容易处理 EIF。 2. EIF 推导:使用标准的 Gateaux 导数计算,该计算依赖于在模型空间中向一个子模型方向扰动,得到参数的导数形式。这种计算利用了统计参数的 von Mises 展开。 3. 基于估计量的构造:给出基于 EIF 的「单步(one-step)」估计量,即: \(\hat{\psi} = \frac{1}{n} \sum_i \varphi(\text{data}_i; \hat{\mu}, \hat{\pi}, \ldots)\)。其中 \(\varphi\) 是一个已知函数,包含了两步——第一步是基于初始估计 \(\hat{\mu}\) 等得到一个 Plug-in 估计,第二步是加上该估计量的偏差校正量,而其形式正是样本均值形式的 EIF。 4. 渐近性质的证明:利用如下事实——当我们进行交叉拟合(用一部分数据训练 nuisance,另一部分计算估计),上述估计量的偏差仅取决于二阶交叉项,而这些项的收敛速度够快(通过假设 \(n^{-1/4}\) 光滑性),所以整体趋近于 n-正太。
关键跳跃点: * EIF 的计算:不是简单的求和。整个推导的中心在于处理由「信息传递干预」引入的限制——这导致 EIF 包含除一维影响函数外的结构,因为它涉及一个「do-操作」等价于在一个随机条件(似于 M propensity score 作为权重)下重塑分布。 * 交叉拟合的使用:虽然原文没有 explicit 交叉拟合,标准做法是依赖于它来解决估计偏误。如果没有它在论文的应用示例里(真值例子未涉及交叉验证),作者可能依赖严格的光滑性条件来保证估计量的 n-一致。
技术技巧点名: * 条件效率函数 (Conditional efficiency / Sequential Regression):为了处理中间混杂、避免高维积分,使用类似于 g-formula 中的递归公式(而非一次性模型)。 * 数据自适应回归 (Data-adaptive regression) / Super Learner:用于以非参数方式建模 nuisance 参数。 * Plug-in 与偏差校正 (Plug-in plus Bias Correction):经典的半参数估计范式。 * U-stat 结构 (隐式):\(CovPsi = \mathbb{E}[ \text{kernel} ]\) 类似一个 U-stat,因为它的样本均方差形式中涉及两个观测值之间的交叉作用(因果效应一定要在不同世界间对比,导致它的期望可以展开成一个二阶核)。原文无 explicit 提,但值得注意。
真实例子与应用¶
本文包含两个真实数据例子:
例子 1:种族与出生体重 * 数据来源/场景:日常讨论中「种族」对「出生体重」的中介效应,中介是母亲接受产前护理的频次等中间混杂。 * 如何应用方法:将种族作为不可干预的处理 A,出生体重为 Y,中介 M = 接受某种介导的指数。作者将 PSE 方法用于证明,与传统的 RIE 方法相比,信息传递干预能更好地捕获(A→M→Y)路径对于种族差距的贡献。 * 结果: * 传统估计量(RIE)显示,通过该中介路径只有一小部分种族不平等性可以被解释。 * 新估计量(PSE under ITI)发现该路径承载了显著的间接效应,甚至样本估计的方向会改变(从一个负直接效应变成解释为「种族-A→M-Tending」通过一个隐藏的 E 层反向解释)。重要的是,这证实了 Miles 所述——RIE 不能检测真正的机械关系。 * 目的:验证新方法具有比 RIE 加更有用、更接近直觉的因果解释。
例子 2:体育锻炼与心血管功能 * 数据来源:老年人运动干预的研究,研究心率变异作为中介,以及其中间混杂Z(可能是干预依从性或锻炼期间的持续时间)。 * 应用:把 A 作为强度等级,M 是心率变异特质,Y 是心肺功能测试分数。人们可以问:「锻炼的益处是通过心率变异带来的(A→M→Y)?」还是直接带来的(A→Y)? * 结果:新 PSE 显示 M 路径几乎为零,说明心率变异不架桥;而传统 RIE 再次给出一个弱但显著的中介效应,结果再次矛盾。
🔎 结论是否比证明窄¶
- 窄处:本文的主要数学理论成果——提供 n-一致估计量与效率界——完全集中在协方差版本效应量(Covpsi)上。原始的定义中对于其他版的 PSE(比如均值的差)虽然谈到了半参数理论,但核心定理(定理3、4)都是对 Covpsi 证明的。结论可能比展示的更窄。
- 泛化 claim:文章在摘要与结论中说「高效非参数估计量」,但推导中半参数方法要保证 n-一致需要一大套假设(光滑性条件与交叉拟合。若未使用交叉拟合,则带有更强的Donsker假设)。作者不是没有,但在应用部分轻易越过这些条件,可能高估了实际可行度。
四、开放问题(点到为止,扎根具体语句)¶
-
真正的路径特定版本的非协方差均值差异估计:论文主要给出了协方差版本的 EIF与 n-一致证明。原始定义的自似是对 \(PSE_{\bar{A} \to M \to Y}\) 的估计。能否对其均值版本(而非 Cov 版)推导出相似的 EIF 并证明同等的渐近性质?这意味着需要解决一个更严格的多变量积分约束,而不仅仅是询问协方差。扎根:结论部分明确写道「对协方差版本的估计理论被给出」(p. 20);而对其他版本只是泛泛提到了「可类比」。
-
分布版本效应与 U-统计技术(对陈星宇同学的特别关联点):该参数 \(CovPsi\) 是一个非常自然的二阶 U-统计量(相关的估计量常涉及将观测值配对)。对于复杂半参数模型,一个人能否证明经验影响函数相应于一个 U-统计量核进行样本打包以改善高阶偏差,尤其是对于一个对序-相关性的小样本问题?扎根:文中定理3的表达式是半参数,但最终的参数是协方差形式。
-
非参数亚组分析:如果我们要做亚组分析(比如是否由 W 进行并发症分层),EIF 的推导与估计是否在同一框架下直接完成?还是必须重新计算向量化的 EIF,并且借助数据自适应回归去处理组与组之间的共享 nuisance 参数?扎根:应用部分的数据例子使用了「用 Z 进行分层」,但理论上是「全样本」结果。文章并无亚组 EIF。
-
近似与随机化敏感性分析:信息传递干预仍然假设无未测量混淆。就像许多中介效应一样,倘若 DAG 中存在一个未测量的 M-Y 混杂变量,这个模型将立刻失效。能否通过类似 Robins (2002) 的双重鲁棒敏感性或 Franks et al. (2020) 的基于联立的模型来做更省力的弱化假设桥梁?扎根:论文在「讨论」里承认了未测量混杂的限制,但没有尝试进行量化敏感性。
提醒:要确认第 1、2 点是不是真 gap,去读 Gong & Zhu (2021) 与 Kennedy et al. (2022) 的近期序列工作,看看他们是否已经提供了均值版本或更高阶的路径效应估计。
Maintained by 陈星宇 · Homepage · Source on GitHub