Cross-direct effects in settings with two mediators¶

作者: Erin E Gabriel, Arvid Sjölander, Dean Follmann, Michael C Sachs
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: University of Copenhagen（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac037

一、领域脉络与小综述¶

这个方向是什么：因果中介分析旨在将处理变量对结局变量的总效应，分解为通过中介变量传递的间接效应与绕过中介变量的直接效应。当存在多个中介变量时，传统的自然直接效应（NDE）与控制直接效应（CDE）仅刻画了“将所有中介同时固定为常数（CDE）”或“将所有中介同时固定为其自然值（NDE）”的极端情形，遗漏了“对不同中介采取不同控制策略”的混合效应。本子方向要解决的根本统计问题是：在多中介设定下，如何定义、识别与估计那些跨越控制类型（即对部分中介施加控制、对部分中介保留自然状态）的因果效应，并在存在未观测混杂时给出其可识别的边界。

发展脉络： - 奠基工作：Robins & Greenland (1992) 首次在流行病学框架下提出了基于反事实的因果中介分解；Pearl (2001) 建立了结构化反事实框架，正式定义了自然直接效应（NDE）与自然间接效应（NIE），并给出了在无未观测混杂下的非参数识别公式，奠定了整个领域的基石。 - 主要进展（多中介设定）：随着免疫学等领域出现多指标中介（如疫苗诱导的多种免疫反应），单一中介框架显得不足。VanderWeele & Vansteelandt (2012) 开始探讨多中介下的效应分解，但主要仍聚焦于传统的 NDE/NIE；Avin et al. (2005) 指出了路径特异性效应在一般图结构下因反事实独立性问题而不可识别的困境。 - 当前 frontier（识别与边界）：对于不可识别的路径效应，Miles et al. (2017) 与 Qu et al. (2021) 推导了在部分混杂下的符号界与数值界。然而，这些工作均未系统定义“对一个中介施加控制、对另一个保留自然状态”的交叉效应。作者在引言中明确指出：“When multiple mediators are present, there are additional effects that may be of interest beyond the well-known natural (NDE) and controlled direct effects (CDE).” - 本文的位置：本文填补了“交叉控制策略”这一空白，定义了五类交叉直接效应，在无残差混杂下给出了任意变量类型的识别公式，并在二元变量、随机化设定下推导了允许残差混杂的紧符号界。

子线索聚类： 1. 多中介的效应分解与识别：聚焦于如何将总效应拆解为更细的路径。VanderWeele & Vansteelandt (2012) 处理了顺序多中介的 NDE/NIE；Avin et al. (2005) 揭示了图模型下路径效应的不可识别性；本文在此基础上引入了“交叉”维度的分解。 2. 不可识别效应的边界推断：当反事实独立性假设破裂时，转向求取效应的上下界。Miles et al. (2017) 与 Qu et al. (2021) 为路径特异性效应提供了边界方法；本文将边界技术应用于新定义的交叉效应，且在随机化设定下获得了紧的符号界。 3. 免疫学实证动机：疫苗研究中常测量多个免疫标记（如抗体与T细胞反应）作为中介。Follmann et al. (2012) 提出了评估疫苗免疫标记的因果框架；本文直接以 SARS-CoV-2 疫苗免疫反应为例，说明交叉效应如何分离不同免疫路径的贡献。

这个方向在追问的核心问题： 1. 多中介设定下，除了 NDE 与 CDE，还有哪些具有明确因果解释的 estimands？ 2. 这些新 estimands 在何种混杂假设下可被非参数识别？识别公式是否依赖中介间的顺序结构？ 3. 当存在残差混杂（如结局与中介间的未观测混杂）导致不可识别时，能否给出紧的解析界而非仅依赖数值优化？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“现有文献只关注 NDE 与 CDE，忽略了将一个中介设为常数而另一个保留自然水平的交叉效应”，从而让定义这五类新 estimands 并给出其识别/边界成为“显然的下一步”。 - 被淡化或回避的路线：作者未讨论基于干预图（interventional distributions）的随机化自然直接效应（如 Didelez et al. 2006 的 interventional direct effect），该路线通过引入随机化操作而非个体反事实，能在更弱假设下获得可识别的类似效应。此外，作者未提及半参数估计理论（如 Tchetgen Tchetgen 的工作），直接跳过了从识别到有效估计的桥梁。 - 缺失的引用：引言中未出现 Didelez et al. (2006) 或 VanderWeele (2015) 关于 interventional/randomized direct effects 的工作，也未出现任何关于半参数有效估计或高阶影响函数的文献。这值得研究者去查证：交叉效应与 interventional 效果在数学结构上是否本质不同，还是仅仅是同一 estimand 的不同表述？

张力：未见明显对立引用。Miles et al. (2017) 与 Qu et al. (2021) 均承认路径效应的不可识别性并转向求界，本文在随机化设定下为交叉效应求界，与这一共识一致；但本文在无混杂假设下的识别公式，与 Avin et al. (2005) 关于路径效应不可识别的结论并不矛盾，因为本文的交叉效应并不要求两个中介的反事实在同一个体上独立联合出现，而是巧妙利用了自然反事实的边缘分布。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

\(A\)：处理变量（如疫苗接种，二元 \(a \in \{0,1\}\)）。
\(Y\)：结局变量（如感染状态，二元或连续）。
\(M_1, M_2\)：两个中介变量（如抗体水平、T细胞反应，二元或任意类型）。
\(C\)：基线协变量（可观测的混杂因素）。
\(Y_a\)：潜在结局，若将处理强制设为 \(a\)。
\(M_{1a}, M_{2a}\)：潜在中介，若将处理强制设为 \(a\)。
\(Y_{a, m_1, m_2}\)：潜在结局，若将处理设为 \(a\)，同时将两个中介分别强制设为 \(m_1, m_2\)（控制反事实）。
\(Y_{a, M_{1a'}, m_2}\)：交叉潜在结局，若将处理设为 \(a\)，中介1保留其在处理 \(a'\) 下的自然值 \(M_{1a'}\)，中介2强制设为 \(m_2\)。
可观测数据：研究者实际观测到的是 \((C, A, M_1, M_2, Y)\) 的独立同分布样本。其中 \(M_1, M_2\) 是在自然状态下受处理 \(A\) 影响后实际发生的值。
不可观测量：交叉反事实如 \(Y_{a, M_{1a'}, m_2}\)（同一个体既受处理 \(a\) 影响，又保留处理 \(a'\) 下的中介1状态，同时中介2被强制设为 \(m_2\)），在现实中不可能同时发生，只能靠假设去识别。

第二步：最小内核——二元处理、二元中介、无相互影响的最简特例

剥掉所有一般性设定（连续变量、顺序中介、残差混杂），支撑整篇论文的最小内核是：在两个中介无相互影响、无未观测混杂的设定下，交叉自然直接效应（Cross-NDE）的识别。

考虑最简特例：\(A, M_1, M_2, Y\) 均为二元（取值0或1），且 \(M_1\) 与 \(M_2\) 互不影响（无箭头 \(M_1 \to M_2\) 或 \(M_2 \to M_1\)）。

定义 交叉自然直接效应（Cross-NDE）：

\[\text{Cross-NDE}_{1 \to 2}(a, a') = E[Y_{a, M_{1a'}, M_{2a'}}] - E[Y_{a', M_{1a'}, M_{2a'}}]\]

直觉：我们要比较“给药(\(a\)) vs 不给药(\(a'\))”对结局的直接影响，但中介1和中介2都保留在“不给药(\(a'\))”时的自然状态。这不同于传统 NDE（传统 NDE 比较的是 \(Y_{a, M_{1a'}, M_{2a'}}\) 与 \(Y_{a', M_{1a'}, M_{2a'}}\)，这里两个中介都取 \(a'\) 下的自然值，其实这就是传统 NDE！——等等，让我们看一个真正的交叉效应）。

真正的交叉效应出现在混合控制中，例如 交叉控制直接效应（Cross-CDE）：

\[\text{Cross-CDE}_{1}(a, a'; m_2) = E[Y_{a, M_{1a'}, m_2}] - E[Y_{a', M_{1a'}, m_2}]\]

在这个特例下，要证的命题是：Cross-CDE\(_1\) 可仅由可观测分布 \(P(C, A, M_1, M_2, Y)\) 识别。

证明怎么走、为什么成立： 1. 展开交叉反事实期望：\(E[Y_{a, M_{1a'}, m_2}] = \sum_{m_1} E[Y_{a, m_1, m_2}] P(M_{1a'} = m_1)\)。 2. 在无未观测混杂假设下（即 \((Y_{a,m_1,m_2}, M_{1a'}) \perp A \mid C\)，且 \(Y_{a,m_1,m_2} \perp (M_{1a'}, A) \mid C\)），控制反事实可识别：\(E[Y_{a, m_1, m_2}] = E[Y \mid A=a, M_1=m_1, M_2=m_2, C=c]\) 的加权求和。 3. 自然反事实可识别：\(P(M_{1a'} = m_1 \mid C=c) = P(M_1 = m_1 \mid A=a', C=c)\)。 4. 因为 \(M_1\) 与 \(M_2\) 无相互影响，\(M_{1a'}\) 与 \(M_{2a}\) 独立（给定 \(C\)），这使得联合自然反事实的边缘化可以安全拆解，不需要处理 \(M_{1a'}\) 与 \(M_{2a}\) 的联合分布（这正是 Avin et al. 指出的一般路径效应不可识别的根源）。 5. 代入得识别公式：

\[\text{Cross-CDE}_1(a, a'; m_2) = \sum_{c, m_1} \left\{ E[Y \mid A=a, M_1=m_1, M_2=m_2, C=c] - E[Y \mid A=a', M_1=m_1, M_2=m_2, C=c] \right\} P(M_1=m_1 \mid A=a', C=c) P(C=c)\]

核心思路一看就懂：交叉效应之所以可识别，是因为它只要求对一个中介做边缘化（取自然值），而对另一个中介做条件化（取控制值）。当中介间无相互影响时，边缘化与条件化可以解耦，避开了需要联合反事实分布的死胡同。论文的一般情形（顺序中介、残差混杂）只是在这个最小内核上“加壳”：顺序中介需要多一步递归替换，残差混杂导致条件期望无法识别从而转向求界。

三、这篇论文做了什么¶

三句话： ① 研究了两个中介设定下，跨越控制与自然状态的交叉直接效应的定义、识别与边界推断问题； ② 核心工具是反事实分解、边缘化-条件化解耦（无相互影响时）或递归替换（顺序中介时），以及在残差混杂下利用随机化假设构造符号界； ③ 主要结论是在无残差混杂下给出了五类交叉效应的识别公式（适用于任意变量类型），在二元变量与随机化设定下给出了允许残差混杂的紧符号界。

关键设定与假设： - 两种中介结构： 1. 顺序中介：\(A \to M_1 \to M_2 \to Y\)，即 \(M_1\) 影响 \(M_2\)。 2. 无相互影响：\(A \to M_1 \to Y\) 且 \(A \to M_2 \to Y\)，\(M_1\) 与 \(M_2\) 之间无箭头。 - 五类交叉效应 estimands（以 \(a, a'\) 为处理水平，\(m_1, m_2\) 为控制值）： 1. \(\text{Cross-CDE}_1(a, a'; m_2)\)：\(E[Y_{a, M_{1a'}, m_2}] - E[Y_{a', M_{1a'}, m_2}]\)（中介1取自然，中介2取控制）。 2. \(\text{Cross-CDE}_2(a, a'; m_1)\)：\(E[Y_{a, m_1, M_{2a'}}] - E[Y_{a', m_1, M_{2a'}}}]\)（中介1取控制，中介2取自然）。 3. \(\text{Cross-NDE}_1(a, a')\)：\(E[Y_{a, M_{1a'}, M_{2a'}}] - E[Y_{a', M_{1a'}, M_{2a'}}]\)（中介1取自然，中介2也取自然，但处理变——注意这退化为传统 NDE，作者将其纳入框架以示完备）。 4. \(\text{Cross-NDE}_2(a, a')\)：\(E[Y_{a, M_{1a}, M_{2a'}}] - E[Y_{a', M_{1a}, M_{2a'}}]\)（中介1取处理\(a\)下的自然值，中介2取处理\(a'\)下的自然值）。 5. \(\text{Cross-NDE}_{1 \to 2}(a, a')\)：\(E[Y_{a, M_{1a'}, M_{2a}}] - E[Y_{a', M_{1a'}, M_{2a}}]\)（中介1取\(a'\)下自然值，中介2取\(a\)下自然值）。 - 无残差混杂假设（用于识别）： - \(A \perp \{Y_{a,m_1,m_2}, M_{1a}, M_{2a}\} \mid C\)（处理无基线混杂）。 - \((M_{1a}, M_{2a}) \perp Y_{a,m_1,m_2} \mid (A=a, C)\)（中介与结局无残差混杂，即给定基线协变量和处理，中介的自然值与控制反事实结局独立——这是强假设，排除了未观测的 \(U \to M\) 与 \(U \to Y\)）。 - 顺序中介下额外要求 \(M_{2a, m_1} \perp Y_{a,m_1,m_2} \mid (A=a, M_1=m_1, C)\)。 - 随机化设定与残差混杂（用于边界）： - \(A\) 是随机化分配（因此 \(A \perp C\) 且 \(A \perp \{Y_{a,m_1,m_2}, M_{1a}, M_{2a}\}\)）。 - 允许残差混杂：存在未观测的 \(U\) 使得 \(M \not\perp Y \mid A, C\)。 - 所有变量 \(A, M_1, M_2, Y\) 均为二元。

主要结果： 1. 定理1（识别，无相互影响）：在无残差混杂下，Cross-CDE\(_1\) 与 Cross-CDE\(_2\) 的识别公式如第二节最小内核所示，通过边缘化一个中介的条件期望并加权另一个中介的自然分布实现。直觉：解耦使得不需要联合反事实。 2. 定理2（识别，顺序中介）：在顺序中介下，Cross-CDE\(_1\) 的识别需要将 \(M_{2a}\) 替换为 \(M_{2a, M_{1a'}}\)，由于 \(M_1\) 影响 \(M_2\)，自然反事实 \(M_{2a, M_{1a'}}\) 的分布可通过递归识别：\(P(M_{2a, M_{1a'}}=m_2 \mid C) = \sum_{m_1} P(M_2=m_2 \mid A=a, M_1=m_1, C) P(M_1=m_1 \mid A=a', C)\)。必要条件是 \(M_2\) 无残差混杂。 3. 定理3-4（紧符号界，二元随机化设定）：在允许残差混杂的随机化设定下，交叉效应不可识别。作者推导了紧的符号界。例如，Cross-CDE\(_1(a, a'; m_2)\) 的上下界由可观测的条件概率 \(P(Y=1 \mid A, M_1, M_2)\) 与 \(P(M_1 \mid A)\) 的极值组合决定，利用了 \(A\) 的随机化独立性与二元变量的有限状态空间性质，通过枚举残差混杂参数 \(U\) 的可能取值对条件期望的扰动范围，得到解析的闭式界。

证明路线与技术技巧： - 整体路线（识别部分）： 1. 写出交叉反事实期望的边缘化展开（如 \(E[Y_{a, M_{1a'}, m_2}] = \sum_{m_1} E[Y_{a, m_1, m_2}] P(M_{1a'}=m_1)\)）。 2. 应用无混杂假设，将控制反事实期望 \(E[Y_{a, m_1, m_2}]\) 替换为可观测的条件期望 \(E[Y \mid A=a, M_1=m_1, M_2=m_2, C]\)。 3. 将自然反事实概率 \(P(M_{1a'} \mid C)\) 替换为 \(P(M_1 \mid A=a', C)\)。 4. 对顺序中介，在步骤1中插入递归替换 \(M_{2a, M_{1a'}}\)，在步骤2中对 \(M_2\) 的条件期望使用 \(A=a, M_1=m_1\) 的条件化。 - 整体路线（边界部分）： 1. 在残差混杂下，\(E[Y_{a, m_1, m_2} \mid C]\) 不可识别，其偏离可观测 \(E[Y \mid A=a, M_1=m_1, M_2=m_2, C]\) 的范围受限于概率的 \([0,1]\) 约束与随机化带来的边缘独立性。 2. 将不可识别的混杂参数化（如敏感度参数），在二元设定下，这些参数的可行域是有限维的单纯形片段。 3. 在可行域上对目标 estimand 求极值，由于目标函数是参数的线性/分式函数，极值在可行域顶点取到，从而得到紧的符号界。 - 关键跳跃点：边界推导中，如何将残差混杂对 \(E[Y_{a, m_1, m_2} \mid A=a, M_1=m_1, M_2=m_2, C]\) 的扰动范围参数化，并证明极值在顶点取到。难点在于交叉效应涉及两个不同处理水平（\(a\) 与 \(a'\)）下的反事实交织，混杂参数的可行域必须同时满足两个处理水平下的概率约束。 - 技术技巧点名： - 反事实边缘化：用于将联合反事实拆解为边缘与条件的乘积，是识别的核心动作。 - 递归替换：用于顺序中介设定，将 \(M_{2a, M_{1a'}}\) 的分布通过 \(M_2\) 对 \(M_1\) 的条件分布链式展开。 - 符号界与顶点极值：在二元设定下，将不可识别的敏感度参数的可行域刻画为多面体，利用线性/分式规划的性质在顶点求闭式界，避免了数值优化。

真实例子与应用： - 场景：SARS-CoV-2 疫苗免疫学。处理 \(A\) 为疫苗分配，中介 \(M_1\) 为抗体反应，中介 \(M_2\) 为T细胞反应，结局 \(Y\) 为感染状态。 - 怎么用上去：研究者关心疫苗是否通过激活T细胞（而非抗体）直接保护了个体。此时需估 \(\text{Cross-CDE}_2(a=1, a'=0; m_1=0)\)：将抗体强制设为0（无抗体），T细胞保留在接种后的自然状态，比较接种 vs 未接种的感染风险差。这分离了“T细胞介导的直接保护”。 - 得到什么结果：论文未提供实际数据集的数值结果，仅以免疫学机制为例说明了 estimands 的科学意义（如：抗体与T细胞可能互不影响，适用无相互影响设定；或抗体可能促进T细胞反应，适用顺序中介设定）。 - 想说明什么：展示交叉效应在实证科学中具有明确的机制解释目标，而非纯粹的数学构造。

🔎 结论是否比证明窄： - 作者在引言与摘要中泛泛 claim 这些 estimands “may be of interest in immunology”，但证明部分仅处理了二元变量的边界与任意变量的识别，未提供连续变量或高维协变量下的边界推断方法。对于连续变量，可行域不再是有限多面体，闭式界无法保证，这一泛泛的适用性声明在边界部分未被严格证明支撑。

四、开放问题（点到为止）¶

半参数有效估计量的构造与推断：本文仅停留在识别与边界，未给出交叉效应在连续/高维协变量下的无模型估计量与推断。扎根点：全文无任何关于估计方差、效率界或置信区间的定理或讨论。
连续变量在残差混杂下的边界推断：定理3-4仅处理二元变量的紧符号界，连续变量下可行域为无限维，闭式界失效。扎根点：定理陈述明确限制“all measured variables are binary”。
交叉效应与 interventional direct effect 的数学关系：作者未讨论 Didelez 等人的 interventional 效果框架，交叉反事实 \(Y_{a, M_{1a'}, m_2}\) 与 interventional 分布 \(E[Y_{a, m_1, m_2}]\) 在随机化 \(M_1\) 下的期望，是否在无混杂下退化为同一 estimand？扎根点：引言与参考文献完全缺失 interventional mediation 路线的引用，需研究者去查证同子领域近5篇 intro 是否将此视为共识 gap。
高维中介设定下的交叉效应：本文仅处理两个中介，当中介数量 \(K > 2\) 时，交叉效应的组合数指数增长，识别公式的边缘化-条件化解耦是否仍可行？扎根点：全文设定明确为“when two mediators are measured”。

Maintained by 陈星宇 · Homepage · Source on GitHub

Cross-direct effects in settings with two mediators¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论