Proximal mediation analysis¶

作者: Oliver Dukes, Ilya Shpitser, Eric J Tchetgen Tchetgen
来源: Biometrika
主题: 因果推断
相关性: 10/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在未测量混杂且测量协变量仅为潜在混杂机制的代理时，如何非参数地识别与半参数地估计因果中介效应（自然直接效应 NDE 与自然间接效应 NIE）。当前，总效应的 proximal 识别与估计理论已相对成熟（有完整的 g-formula、效率界与 multiply robust 估计量），但中介分析由于涉及跨反事实世界（counterfactual mediator）的嵌套期望，其 proximal 识别直到本文才被严格建立，处于刚刚起步的阶段。

发展脉络： - 奠基工作：Pearl (2001) 与 Robins & Greenland (1992) 定义了自然直接/间接效应，并给出了经典的 mediation formula，但该公式严格依赖“无未测量混杂”（sequential ignorability）。Imai et al. (2010) 证明了在特定 sequential ignorability 下 ACME 的非参数识别，并提供了敏感性分析，但未触及代理变量框架。 - 主要进展（总效应的 Proximal 理论）：Miao, Geng & Tchetgen Tchetgen (2018) 引入了 bridge function，证明利用两个独立 proxy（负控制暴露 Z 与负控制结果 W）可以在未测量混杂下非参数识别 ATE，这是 proximal CI 的奠基性识别结果。随后，Tchetgen Tchetgen et al. (2020) 与 Cui et al. (2020) 建立了 ATE 的完整半参数理论，推导了效率界与 multiply robust 估计量。Shi et al. (2018) 进一步给出了 categorical 混杂下的 multiply robust 推断。 - 中介分析的半参数理论（无混杂设定）：Tchetgen Tchetgen & Shpitser (2012) 在无未测量混杂下，建立了 NDE/NIE 的半参数效率界与 multiply robust 估计框架，这是本文推导 influence function 的直接前序。 - 当前 frontier 与本文位置：Ying et al. (2021) 将 proximal ATE 推向纵向数据与边际结构模型；Kallus et al. (2021) 与 Ghassami et al. (2021) 解决了 bridge function 估计的 minimax 学习与计算问题，避开了传统的 completeness 唯一性假设。然而，所有这些前沿进展均只针对总效应 ATE。本文（Dukes et al.）首次将 proximal 框架嵌入中介分析，填补了“未测量混杂下 NDE/NIE 的识别与估计”这一空白。

子线索聚类： 1. Proximal 识别与 Bridge Function 理论：Miao et al. (2018) 提出核心识别策略；Tchetgen Tchetgen et al. (2020) 推广至 proximal g-formula；Shi et al. (2020) 综述负控制方法。这一簇解决“如何用 Z, W 代替 U 完成非参数识别”。 2. Proximal 半参数估计与计算：Cui et al. (2020) 给出 ATE 的效率界与 multiply robust 估计；Kallus et al. (2021) 与 Ghassami et al. (2021) 用 minimax 学习求解积分方程形式的 nuisance（bridge functions），放宽了 uniqueness 假设。这一簇解决“如何在实际中估 bridge function 并保证根号收敛”。 3. 中介分析的识别与半参数理论：Pearl (2001) 给出经典识别公式；Imai et al. (2010) 给出 sequential ignorability 下的识别与敏感性分析；Tchetgen Tchetgen & Shpitser (2012) 给出无混杂下的半参数效率界。这一簇解决“效应拆解的数学定义与无混杂下的最优估计”。 4. 混杂下的中介分析尝试：Cheng et al. (2021) 尝试用深度学习与 proxy 做隐藏混杂下的中介分析，但缺乏严格的非参数识别理论与半参数效率保证；Frölich & Huber (2014) 用工具变量做中介识别，走的是 IV 路线而非 proxy 路线。

这个方向在追问的核心问题： 1. 识别问题：当混杂 U 不可测，仅能观测到 U 的代理 Z, W 时，涉及反事实中间变量 \(M(a)\) 的嵌套期望 \(E[Y(a, M(a'))]\) 是否仍可非参数识别？需要何种结构的代理变量与何种秩条件？ 2. 估计问题：识别公式必然包含作为积分方程解的 bridge functions（nuisance parameters）。当这些 nuisance 以慢于根号速率估计时，能否构造对 nuisance 误估具有多重鲁棒性的估计量，使得目标参数仍保持根号一致与渐近正态？ 3. 计算与唯一性问题：bridge function 的积分方程解可能不唯一，或 completeness 条件难以验证。如何在放宽 uniqueness 的条件下，仍保证估计量的良定义与收敛？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“Results currently exist for the total causal effect of an intervention, but little consideration has been given to learning about the direct or indirect pathways... In this work, we describe three separate proximal identification results...”。作者成功地将本文定位为从 ATE 到 NDE/NIE 的“显然的下一步拓展”。 - 被淡化的竞争路线：Introduction 完全没有讨论 IV 路线（如 Frölich & Huber 2014 用两个工具变量识别中介效应），也没有讨论基于 latent variable 模型的结构方程方法（如 Cheng et al. 2021）。作者将 proximal 框架视为唯一正途，回避了“何时 IV 比 proxy 更可行”的对比。 - 缺失的关键引用：Introduction 缺少对 mediation 分析中敏感性分析（如 Imai et al. 2010 的 sensitivity analysis，或 VanderWeele 的 unmeasured confounding sensitivity）的定位。既然 proximal mediation 依赖极强的 completeness 与秩条件，一个自然的追问是“如果 Z/W 不满足秩条件，效应偏多少？”，但作者未引未提。此外，缺少对 bridge function 不唯一性 在中介设定下具体后果的讨论（Kallus et al. 2021 在 ATE 下解决了不唯一性，但 NDE/NIE 的嵌套 bridge 是否仍可 minimax 求解，intro 未置一词）。

张力：未见明显对立引用。Proximal CI 文献内部（Miao 2018 vs Kallus 2021）在“是否需要 uniqueness/completeness”上有张力，但这是技术路线的演进而非结论矛盾。IV 路线与 Proxy 路线（Frölich & Huber vs 本文）在“解决混杂下中介识别的假设强度”上存在隐性张力，但作者未在 intro 中展开对比。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：二值处理/暴露（如是否失业）。
\(M\)：中介变量（如找工作时的抑郁程度）。
\(Y\)：结果变量（如后续抑郁程度）。
\(X\)：已测量混杂（不影响 U 的代理性质，仅作协变量调整）。
\(U\)：未测量/不可观测的潜在混杂变量（如个体的内在心理韧性），同时影响 \(A, M, Y\)。
\(Z\)：负控制暴露/代理变量（Negative control exposure proxy），受 \(U\) 和 \(X\) 影响，但不因果影响 \(M\) 或 \(Y\)（如前期的无关工作挫折）。
\(W\)：负控制结果/代理变量（Negative control outcome proxy），受 \(U, A, X\) 影响，但不被 \(Z\) 因果影响，且不被 \(A\) 因果影响（如基线期的无关健康指标）。
\(Y(a, m)\)：潜在结果，若干预 \(A=a\) 且设 \(M=m\) 时的 \(Y\)。
\(M(a)\)：潜在中介，若干预 \(A=a\) 时的 \(M\)。
NDE (Natural Direct Effect)：\(\text{NDE}(a, a') = E[Y(a, M(a')) - Y(a', M(a'))]\)，处理 \(A\) 从 \(a'\) 变为 \(a\)，但中介 \(M\) 固定在 \(A=a'\) 时的自然值。
NIE (Natural Indirect Effect)：\(\text{NIE}(a, a') = E[Y(a, M(a)) - Y(a, M(a'))]\)，处理固定为 \(a\)，但中介 \(M\) 从 \(A=a'\) 的自然值变为 \(A=a\) 的自然值。
\(h(w, a, m, x)\)：Outcome confounding bridge function。满足积分方程 \(E[Y - h(W, A, M, X) | U, A, M, X] = 0\)。它将 \(W\) 上的混杂偏移映射到 \(Y\) 上的混杂偏移。
\(q(z, a, x)\)：Exposure confounding bridge function。满足 \(E[q(Z, A, X) - I(A=a) | U, X] = 0\)。它将 \(Z\) 上的混杂偏移映射到处理分配 \(A\) 上的混杂偏移。
可观测数据：研究者实际能观测到的是 \((X, Z, A, W, M, Y)\) 的独立同分布样本。不可观测的是 \(U\)、以及跨世界的反事实 \(Y(a, M(a'))\) 与 \(M(a)\)。

模型：数据生成机制为 \(U\) 隐性驱动 \(Z, A, W, M, Y\)，且 \(Z \rightarrow Y, Z \rightarrow M\) 的因果路径被假设切断（负控制条件）。\(A\) 对 \(W\) 的因果路径也被切断。目标是在不观测 \(U\)、不假设 \(U\) 的参数模型下，仅利用 \(Z, W\) 的负控制性质与完备性条件，识别 NDE 与 NIE。

第二步：讲最小内核

整篇论文的证明本质上是“如何用两组 bridge functions 替代不可观测的 \(U\)，去剥离嵌套反事实期望中的混杂偏移”。最简特例是：线性设定下，混杂 \(U\) 为单变量，且 \(Z, W\) 仅为 \(U\) 的带噪测量。

设 \(U \sim N(0,1)\)。\(Z = \alpha_z U + \epsilon_z\)，\(W = \alpha_w U + \epsilon_w\)，\(A\) 为二值，\(M = \beta_m A + \gamma_m U + \epsilon_m\)，\(Y = \beta_y A + \delta_y M + \gamma_y U + \epsilon_y\)。噪声独立且均值为 0。

在这个线性特例下： 1. Bridge function 有闭式解：Outcome bridge \(h(W, A, M, X) = Y - \gamma_y/\alpha_w W\)（因为 \(E[Y - (\gamma_y/\alpha_w)W | U] = \gamma_y U - (\gamma_y/\alpha_w)\alpha_w U = 0\)）。Exposure bridge \(q(Z, A, X) = I(A=a) + (\gamma_m/\alpha_z) M - (\gamma_m/\alpha_z) \beta_m A\)（类似消去 \(U\)）。 2. NDE 的识别退化成线性回归系数：\(\text{NDE} = \beta_y\)。此时，Proximal mediation formula 退化成：用 \(h\) 替换 \(Y\) 消去 \(U\) 对 \(Y\) 的影响，用 \(q\) 替换 \(I(A=a')\) 消去 \(U\) 对 \(A\) 的影响，最终 \(E[h(W, a, M, X) q(Z, a', X)]\) 的期望恰好等于 \(\beta_y\)。 3. 核心数学困难在非线性时的显现：在一般非线性设定下，\(h\) 和 \(q\) 是积分方程的解，没有闭式。且 NDE 识别需要计算 \(E[h(W, a, M(a'), X)]\)，这里 \(M(a')\) 是反事实量，不可观测。作者的关键破局是：利用 \(q(z, a', x)\) 的性质，将 \(E[h(W, a, M(a'), X)]\) 转化为 \(E[h(W, a, M, X) q(Z, a', X)]\)，从而将反事实中间变量 \(M(a')\) 替换为可观测的 \(M\) 与 \(Z\) 的组合，这是整篇论文最吃劲的跳跃点。

三、这篇论文做了什么¶

三句话： ① 研究了在未测量混杂下，仅依靠负控制代理变量 \((Z, W)\) 对自然直接效应 (NDE) 与自然间接效应 (NIE) 的非参数识别与半参数估计问题。 ② 核心工具是嵌套的 outcome/exposure confounding bridge functions 与完备性秩条件，通过将反事实 \(M(a')\) 的期望转化为可观测的 bridge function 乘积期望，绕过 \(U\) 的不可测性。 ③ 主要结论是给出了三种不同代理结构下的 proximal mediation identification 公式，并推导出 NDE/NIE 的 efficient influence function，构造了 multiply robust 且 locally efficient 的估计量。

关键设定与假设：在第二节最小记号基础上补全： - Proximal 代理条件：(i) \(Z\) 是 \(U\) 的 proxy，与 \(Y, M\) 无直接因果边（\(Z \perp Y, M | U, A, X\)）；\(W\) 是 \(U\) 的 proxy，与 \(Z, A\) 无直接因果边（\(W \perp Z, A | U, M, X\)）。 - 完备性/秩条件：这是识别的核心。要求条件分布 \(f(W|U, A, M, X)\) 与 \(f(Z|U, A, X)\) 作为算子是满射的。例如，对任何平方可积函数 \(g(U)\)，存在函数 \(h(W)\) 使得 \(E[g(U)|A, M, X] = E[h(W, A, M, X)|A, M, X]\)。这保证了 bridge function 解的存在性。相比 ATE 的 proximal 识别，这里的秩条件更强，因为 \(h\) 的积分方程条件依赖于 \(M\)，而 \(M\) 本身受 \(U\) 影响。 - Bridge function 的唯一性：半参数效率界与 multiply robust 估计要求 bridge function 解唯一。作者在 Section 4 明确指出，若解不唯一，估计量可能不一致。相比 Kallus et al. (2021) 在 ATE 下放宽了唯一性，本文在 NDE/NIE 下未解决不唯一性问题，这是一个严格的限制。

主要结果：

Theorem 1 (Proximal Mediation Formula - 结构 I)：
陈述：在上述代理与完备性条件下，若存在唯一的 outcome bridge \(h\) 与 exposure bridge \(q\)，则 \(\text{NDE}(a, a') = E[h(W, a, M, X) q(Z, a', X)]\)。
直觉：\(h\) 消去了 \(U\) 对 \(Y\) 的混杂偏移，\(q\) 消去了 \(U\) 对 \(A\) 的混杂偏移。两者相乘并取期望，恰好重构了 \(E[Y(a, M(a'))]\) 中剥离 \(U\) 后的纯净反事实期望。
必要条件：需要 \(Z\) 不影响 \(M\)，且 \(W\) 不受 \(A\) 影响。这是最严格的设定，称为“结构 I”。
Theorem 2 & 3 (放宽代理结构的识别)：
陈述：若 \(Z\) 影响 \(M\)（结构 II），则需要额外的 mediator-outcome bridge \(b(W, A, M, X)\)，此时 \(\text{NDE} = E[b(W, a, M, X) q(Z, a', X)]\)。若 \(W\) 受 \(A\) 影响（结构 III），则需要 outcome bridge \(h\) 依赖 \(A\) 的两个值，识别公式变为 \(\text{NDE} = E[h(W, a, M, X) q(Z, a', X) - h(W, a', M, X) q(Z, a', X)]\)。
直觉：当 \(Z \rightarrow M\) 存在时，\(q(Z, a', X)\) 无法完全隔离 \(M(a')\) 中的 \(U\) 偏移，必须引入 \(b\) 修正 \(M\) 上的混杂。当 \(A \rightarrow W\) 存在时，\(W\) 中混入了 \(A\) 的直接效应，必须用两个 \(A\) 取值下的 \(h\) 做差来消去 \(A\) 对 \(W\) 的偏移。
解决的技术难点：打破了“Proximal 识别必须要求 Z 完全不影响 M、W 完全不受 A 影响”的传统教条，使得代理变量的选择范围大幅拓宽。
Theorem 4 (Efficient Influence Function 与 Multiply Robustness)：
陈述：在非参数模型 \(\mathcal{M}_{sp}\) 下，NDE 的 efficient influence function 为 \(\tilde{\psi}_{\text{NDE}} = h(W, a, M, X) q(Z, a', X) - \text{NDE} + \text{残差修正项}\)（具体包含 \(Y - h(W, A, M, X)\) 与 \(I(A=a') - q(Z, A, X)\) 的加权残差）。
直觉：IF 由三部分构成：主项（bridge 乘积期望）、\(Y\) 的残差修正、\(A\) 的残差修正。这构成了 triple robustness。
Multiply Robust 条件：估计量在以下三种 nuisance 模型组合中，只要有一组正确设定即可一致：(i) \(h\) 与 \(q\) 同时正确；(ii) \(h\) 与 \(Y\) 的条件期望模型正确；(iii) \(q\) 与 \(A\) 的条件期望模型正确。这比 ATE 的 double robustness 多了一层保护。

证明路线与技术技巧：

整体路线：
建立积分方程：从 \(U\) 的混杂结构出发，定义 \(h\) 与 \(q\) 满足的积分方程（条件期望限制）。
反事实期望的桥接：写出 NDE 的反事实定义 \(E[Y(a, M(a'))]\)，利用 do-calculus 与代理条件，证明 \(E[Y(a, M(a')) | U, X]\) 可被 \(E[h(W, a, M, X) | U, X]\) 替代。
消去不可测 U：将上式对 \(U\) 积分，引入 \(q(Z, a', X)\) 替代对 \(U\) 的条件期望，最终将 \(E[\cdot | U, X]\) 转化为 \(E[\cdot q(Z, a', X) | X]\)，得到纯可观测的识别公式。
推导 IF：在 Tangent space \(\mathcal{T}\) 中，利用路径导数或投影法则，将 NDE 的 IF 投影到由 nuisance 参数生成的子空间，得到 closed-form IF。
构造估计量：基于 IF 构造一步估计量，验证其 multiply robustness。
关键跳跃点：
从 \(E[h(W, a, M(a'), X)]\) 到 \(E[h(W, a, M, X) q(Z, a', X)]\) 的转化：这是 Theorem 1 证明的核心。难点在于 \(M(a')\) 不可测。作者利用 \(q\) 的定义 \(E[q(Z, a', X) | U, X] = P(A=a' | U, X)\)，将 \(E[h(W, a, M(a'), X)]\) 写成 \(E[h(W, a, M(a'), X) P(A=a' | U, X) / P(A=a' | U, X)]\)，进而替换为 \(E[h(W, a, M, X) q(Z, a', X) | U, X]\)，再对 \(U\) 积分消去。这一步要求 \(Z \rightarrow M\) 必须切断（结构 I 的限制），否则 \(q\) 会引入 \(Z\) 对 \(M\) 的额外路径。
技术技巧点名：
Confounding Bridge Function (积分方程算子)：源自 Miao et al. (2018)，用于将不可测 \(U\) 的混杂偏移映射到可测 proxy 上，是 proximal 识别的基石。
Completeness / Rank Condition (算子满射性)：保证积分方程解的存在性。本文在中介设定下要求 \(f(W|U, A, M, X)\) 对 \(L_2(U)\) 满射，比 ATE 设定更严。
Efficient Influence Function Projection (半参数投影)：沿用 Tchetgen Tchetgen & Shpitser (2012) 的框架，在扩大后的 tangent space（包含 bridge function 子空间）中做投影，得到 multiply robust IF。
Cross-fitting / DML：在估计 nuisance 时使用样本拆分，避免过拟合偏移，保证当 nuisance 以 \(o(n^{-1/4})\) 速率收敛时，最终估计量仍根号一致。

真实例子与应用： - 数据：JOBS II 数据集（Vinokur et al. 1995），评估求职培训项目对抑郁症状的干预效果。 - 场景与变量映射：\(A\) 为是否参加求职培训，\(M\) 为求职自我效能，\(Y\) 为后续抑郁程度。\(U\) 为内在心理韧性（不可测）。\(Z\) 为前期工作挫折（负控制暴露，受 \(U\) 影响但不直接影响 \(M, Y\)），\(W\) 为基线期非相关健康指标（负控制结果）。 - 方法应用：作者用提出的 multiply robust 估计量估 NDE 与 NIE，nuisance 用灵活的机器学习/半参数方法估。对缺失数据采用了 missing indicator method 与 complete case analysis（引用 Groenwold et al. 2012 指出其局限）。 - 结果：NDE 显著（培训直接减轻抑郁），NIE 显著（培训通过提升自我效能间接减轻抑郁）。与标准无混杂下的中介分析结果对比，proximal 方法给出的效应估计绝对值更小，表明未测量混杂 U 若不控制，会夸大直接与间接效应。 - 例子想说明什么：验证 proximal mediation 识别公式在真实数据上的可操作性；展示当存在潜在混杂时，标准方法可能给出有偏估计，而 proximal 方法能给出更保守（可能更真实）的效应拆解。

🔎 结论是否比证明窄： - Multiply robustness 的声明 vs 证明的窄化：Theorem 4 声明了 triple robustness，但其严格证明依赖于 bridge function \(h\) 与 \(q\) 的唯一性。作者在 Section 4 明确写道：“If the bridge functions are not unique, the proposed estimator may not be consistent”。这是一个被泛泛 claim 为 multiply robust、却在不唯一条件下失效的窄结论。Kallus et al. (2021) 已在 ATE 下解决了不唯一性，但本文在 NDE/NIE 下未解决，这使得其 robustness 声明在实际应用中比理论陈述更脆弱。

四、开放问题（点到为止，扎根具体语句）¶

Bridge function 不唯一性下的 NDE/NIE 估计：本文 Theorem 4 的 multiply robustness 严格依赖 \(h, q\) 的唯一性（见 Section 4 讨论）。若完备性条件失效或解不唯一，如何构造仍一致的估计量？是否可借鉴 Kallus et al. (2021) 的 minimax 学习框架，将 NDE/NIE 的嵌套 bridge 积分方程转化为 minimax 优化问题？
Proximal Mediation 的敏感性分析：Introduction 完全未讨论当 \(Z, W\) 不满足完备性秩条件时的偏移量。由于完备性在中介设定下比 ATE 更难验证，一个自然的延伸是：量化秩条件偏离时 NDE/NIE 的最大偏移（扎根于本文对 completeness 的强依赖与 Imai et al. 2010 的敏感性分析传统）。
纵向/时变处理下的 Proximal Mediation：本文只考虑了单时间点处理 \(A\)。Ying et al. (2021) 已将 ATE 推向纵向 proximal 推断。能否将本文的嵌套 bridge 识别公式推广到时变处理与时变中介的 g-formula？（扎根于 Ying et al. 2021 的引用与本文 Section 5 的未来方向暗示）。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Proximal mediation analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论