跳转至

Proximal Mediation Analysis with Hidden Recanting Witnesses

作者: Sihan Wu, Yang Bai, Yifan Cui
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.17600


一、领域脉络与小综述

这个方向是什么

本子方向解决的根本问题是在因果中介分析(mediation analysis)中,当存在 recanting witnesses(即受处理影响的中介-结局混杂因子)时的路径特异性效应(path-specific effect,PSE)识别与估计。recanting witness 构成了一个结构性的识别瓶颈——它既是处理→中介→结果通路上的一环,又是后续中介与结果之间的一种混杂,因此传统的自然效应(NDE/NIE)在该结构中不可识别。该子方向当前正致力于从“已知并完全观测 recanting witness”推向“未知、部分观测或完全隐藏”的设定,而本文恰好填补了最后一种情形。

发展脉络(history)

奠基工作: - Robins & Greenland (1992);Pearl (2001):提出中介分析的基本框架,定义自然直接效应(NDE)与自然间接效应(NIE),在无中介-结果混杂的假设下给出识别公式。 - Avin et al. (2005):首次严格定义 recanting witness 及其导致的路径特异性效应不可识别性——这是本文所有技术构造所对抗的“结构瓶颈”。文中称:“the NIE becomes unidentifiable ... analytical focus must shift to path-specific effects”。

主要进展(处理已知 recanting witness): - Miles et al. (2017, 2020):在 recanting witness 完全可观测 的条件下,提供了路径特异性效应 P_AM2Y 的完整非参数识别公式(本文式2.2)与半参数推断框架。这是本文最直接的基线工作。作者评其“provides a rigorous framework ... 然而这些方法要求已知 recanting witness 的完全结构与完美测量”。 - Bai et al. (2026):将上述框架推广到存在普遍的未测混杂的情形,但同样假设 recanting witness 本身可观测。作者评其“extend ... to accommodate pervasive unmeasured confounding”但仍受制于 recanting witness 可观测性。

近端因果推断(proximal CI)的崛起与扩展: - Miao et al. (2018);Cui et al. (2024):提出并系统化近端因果推断框架——用负控制变量(proxy Z、W)绕过对未测混杂的直接观测。这是本文技术的核心工具箱。 - Tchetgen Tchetgen et al. (2020);Ying et al. (2023):将近端框架推广到时变混杂与纵向设定。 - Dukes et al. (2023):将近端思想引入中介分析,识别 NIE/NDE 在未测混杂下的情形。作者评其“identify NIE and NDE in the presence of unmeasured confounding”,但并未涉及 recanting witness 结构。 - Ghassami et al. (2025):进一步推进到“隐藏中介”(hidden mediator)的识别——这与本文在结构上最接近,但 Ghassami 处理的是中介本身隐藏,而本文处理的是“recanting witness”隐藏,两者因果角色不同。

本文的定位: 作者声称“the first work to formalize and resolve the challenge of hidden recanting witnesses”——将近端框架从“处理隐藏混杂”或“隐藏中介”推进到“隐藏 recanting witness”这一特定图形结构。

子线索聚类

子线索 代表性工作 做什么
① 标准中介分析与 recanting witness 可观测情形 Robins & Greenland, Pearl, Avin et al., Miles et al., VanderWeele & Vansteelandt, Tchetgen Tchetgen & Shpitser 建立中介分析基础与已知 recanting witness 下的 PSE 识别
② 近端因果推断(proximal CI) Miao et al. 2018 → Cui et al. 2024 → Tchetgen Tchetgen et al. 2020 用 proxy 绕过未测混杂,提供通用识别技术
③ 近端框架扩展到中介与动态处理 Dukes et al. 2023, Qi et al. 2024, Shi et al. 2022, Ghassami et al. 2025 将近端工具应用到中介、最优动态处理、隐藏中介等图形结构
本文:近端框架处理隐藏 recanting witness Wu, Bai, Cui (2026) 三条 bridge-function 识别策略 + EIF + PMR 估计

这个方向在追问的核心问题

  1. 识别瓶颈:recanting witness 使得 NIE 不可识别,那么路径特异性效应 P_AM2Y 是否仍然可识别?在什么条件下?
  2. 隐藏节点:若 recanting witness 本身不可观测,能否用近端(proxy)方法绕开?需要对 proxy 作什么结构假设?
  3. 效率与鲁棒估计:一旦识别成立,能否构建达到半参数效率界、且具备多重鲁棒性的估计量?nuisance(桥函数)估计的收敛率要求是多少?
  4. 实际可用性:在有限样本与高维 proxy 下,上述方法能否表现良好?

已知瓶颈:桥函数(bridge function)的估计本质上是一个第一类 Fredholm 积分方程的求解,其存在性、唯一性与一致性都依赖于完整性(completeness)条件与函数空间的恰当正则化,实际中难以验证。

⚠️ 作者的 framing(必须标注为作者说法)

作者把缺口 frame 成:“传统方法(Miles et al.)假设 recanting witnesses 已知且可观测 → 现实中常因成本、伦理、隐私等无法实现 → 本文用近端框架填补这一空缺”。竞争路线(如基于工具变量 Imbens & Angrist 1994、基于 invalid proxy Yu et al. 2025 等)被淡化为 Discussion 中一条简短提及,未在主体中发展与对比。

值得研究者查的问题: - 作者完全没有讨论以下文献或路线: - 基于 frontdoor criteriongeneralized frontdoor(Fulcher et al. 2020)的替代路径特异性效应识别——这些方法与存在 M1 时的 PSE 识别有何关系? - sensitivity analysis(如 Tchetgen Tchetgen & Shpitser 2012 中已有讨论)用于量化未测量 recanting witness 带来的偏倚——本文完全走向“完全识别”而非“灵敏度量化”,这两种策略各自的优劣? - 高维工具变量 / 许多弱工具 的组合方法是否可作为另一种绕过 M1 的策略?

张力

未见明显的被引工作之间得出相反结论的张力。各条线在各自假设内部一致,仅在“recanting witness 的可观测性”这一前提上存在结构性缺口,而本文正是填补这一缺口。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 记号说明
  • \( A \):处理变量,二值 \( A \in \{0,1\} \)
  • \( M_1 \)recanting witness,即受处理影响且既是 \( M_2 \)\( Y \) 的混杂、又是 \( A\to M_2\to Y \) 通路一环的不可观测变量。本文中 \( M_1 \)隐藏的(不可观测)。
  • \( M_2 \):感兴趣的中间变量(中介)。可观测。
  • \( Y \):结局变量。可观测。
  • \( X \):基线协变量。可观测。
  • \( Z, W \):两个观测到的 proxy 变量,用于绕过隐藏的 \( M_1 \)。可观测。
  • \( U \):可能存在的 \( M_1 \)\( Y \) 之间的未测混杂——不要求可观测,也不要求代理。
  • \( \psi \):目标 estimand,即路径特异性效应 \( P_{A\to M_2 \to Y} \) 中的第一项:

    \[\psi := \mathbb{E}[\,Y\big(M_2(M_1(0),1),\,M_1(0),\,0\big)\,]\]
    全文所有技术都围绕识别与估计这个 \( \psi \) 展开(第二项简化为 \( \mathbb{E}[Y(0)] \) 可用标准方法处理)。

  • 模型与数据生成机制(针对性简化版本): 因果结构如 Fig 3.1(有向无环图):

  • \( A \to M_1 \), \( M_1 \to M_2 \), \( A \to M_2 \), \( M_2 \to Y \), \( M_1 \to Y \), \( A \to Y \)
  • 此外,\( Z \)\( W \)\( M_1 \) 的 proxy:\( M_1 \to Z \), \( W \to M_1 \)\( Z \)\( W \) 在给定 \( M_1, A, X \)\( M_1, X \) 后条件独立于其他变量(Assumption 3.1)。
  • 允许存在 \( U \)\( M_1 \)\( Y \) 之间的未测混杂),但不用观测它。

  • 可观测数据\( O = (Y, A, M_2, Z, W, X) \)\( M_1 \) 完全不可观测

  • 想要的但不可观测的量\( M_1 \) 的真实取值;潜在变量 \( M_1(a) \)、嵌套结果 \( Y(M_2(M_1(0),\,1),\,M_1(0),\,0) \)

第二步:讲最小内核——最简特例

剥掉所有高维 / RKHS / 交叉拟合的复杂性,本文核心思路在如下最简单设定下看得最清楚:

假设: 1. 所有变量(\( M_1, M_2, Z, W, Y, X \))均为一维连续,且均为线性高斯系统。 2. 不加协变量 \( X \)。 3. 忽略 \( U \) 的存在(已包含在协方差结构中)。

此时,因果图简化成五个节点 \( A \to M_1 \to M_2 \to Y \),且 \( M_1 \to Y \)(直接),\( Z \)\( W \) 是与 \( M_1 \) 线性相关但与 \( A, M_2, Y \) 在给定 \( M_1 \) 后独立的高斯 proxy。

核心目标:识别 \( \psi = \mathbb{E}[Y(M_2(M_1(0),1), M_1(0), 0)] \)

为什么标准方法失效: 在式(2.2)中,Miles et al. 的识别公式需要观测 \( M_1 \) 才能写出 \( p(m_2|m_1, A=1) \)\( p(m_1|A=0) \)。M1 不可观测时,这些密度直接消失。

本文关键想法:用 proxy Z 和 W 构造“桥函数”(bridge function),把式(2.2)中的 \( M_1 \) 积分掉。

最小内核特例(线性模型):

设线性结构:

\[M_1 = \alpha_1 A + \epsilon_1,\quad M_2 = \beta_1 M_1 + \beta_2 A + \epsilon_2,\quad Y = \gamma_1 M_1 + \gamma_2 M_2 + \gamma_3 A + \epsilon_y\]
\( Z = \delta M_1 + \epsilon_z\), \( W = \zeta M_1 + \epsilon_w\),所有误差相互独立且方差已知。目标 \( \psi = \mathbb{E}[Y(M_2(M_1(0),1), M_1(0), 0)] \)

POR 策略(定理3.1): - 第一步:解桥函数 \( h_0(w, m_2) = \mathbb{E}[Y | w, m_2, A=0] \) 的变体。实际上在可观测数据中,可直接对 \( Y \) 关于 \( (W, M_2, A=0) \) 做普通最小二乘回归:\( h_0(w, m_2) = \theta_0 + \theta_w w + \theta_{m_2} m_2 \)。 - 为什么有效?因为 \( W \perp\!\!\!\perp Y | M_1 \),且 \( M_1 \)\( (W, M_2, A) \) 的线性组合中能被“挤出”来。这就是式(3.1)在离散设定下的积分方程在正态下的退化形式。 - 第二步:解 \( h_1(w) = \mathbb{E}[h_0(W, M_2) | Z, A=1] \) 的变体:用第一步得到的 \( \hat{h}_0 \),再对 \( \hat{h}_0(W, M_2) \) 关于 \( (Z, A=1) \) 做回归,得到 \( \hat{h}_1(W) \) 的线性形式。这就是式(3.2)。 - 结果:公式变为 \( \hat{\psi} = \mathbb{E}[\hat{h}_1(W) | A=0] \),直接就是对未观测 \( M_1 \) 的绕过。

整个过程不需要观测 \( M_1 \) 一个点。梯度上升 where? 难点转到:在一般非参数情形下,积分方程的存在性和收敛性需要 T0 和 T1 算子的满射性(Assumption 4.1),而在最简单的线性高斯中这些自动满足(满射等价于秩条件)。


三、这篇论文做了什么

三句话

  1. 研究问题:在因果中介分析中,当 recanting witness(\( M_1 \))完全隐藏、只有两组 proxy(\( Z, W \))可观测时,如何识别和估计路径特异性效应 \( \psi \)(沿 \( A\to M_2\to Y \))。
  2. 核心工具:近端因果推断框架(proximal CI)与三个桥函数(\( h_0, h_1, q_0, q_1 \))系统,得到三条不同的识别策略:POR、PHE、PIPW。进而推导出高效影响函数(EIF)并构建了 Proximal Multiply Robust (PMR) 估计量,使用基于 minimax 优化的 RKHS 方法与交叉拟合。
  3. 主要结论:PMR 估计量在至少一组 nuisance 模型正确设定下一致(Theorem 4.2);当所有 nuisance 以至少 \( n^{-1/4} \) 的 RMSE 收敛且用交叉拟合时,达到 \( \sqrt{n} \)-一致性与半参数效率界(Theorem 4.3)。仿真与 NLSY97 实证确认了方法有效。

关键设定与假设

在第二节的记号基础上,完整列出本文需要的主要假设(分组说明含义):

假设 内容 统计含义与备注
Assumption 2.1 (Positivity) ( 0<P(A=1 X)<1 );( 0<p(M_2,M_1
Assumption 2.2 (Sequential Ignorability) 三项条件独立:\( \{Y(a), M_1(a)\} \perp A \mid X \)\( Y(m_2) \perp M_2 \mid M_1, A, X \)\( M_2(m_1,a) \perp \{M_1,A\} \mid X \) 顺序可忽略性;允许 M1-Y 之间未测混杂 U 的存在
Assumption 2.3 (Cross-world independence) \( \{Y(m_2,a), M_1(a)\} \perp M_2(m_1,a') \mid X \) 跨世界独立性——使嵌套反事实可识别
Assumption 3.1 (Proxy) \( Z \perp \{Y,M_2\} \mid M_1,A,X \)\( W \perp \{A,Z,M_2\} \mid M_1,X \) 这是 近端赋权 的关键结构;注意比标准近端更复杂
Assumption 3.2 (Completeness of Z) \( \mathbb{E}[g(M_1)\mid Z,A=1,X]=0 \Rightarrow g=0 \);类似对 \( (Z,M_2,A=0,X) \) 保证桥函数可解(可充分析出 M1 的特征)
Assumption 3.3 (Bridge h0, h1) 存在 \( h_0, h_1 \) 解积分方程 (3.1)-(3.2) 与标准近端相比:这里有两个嵌套积分方程
Assumption 3.4 (Completeness of W) 与 Assumption 3.2 对称但换方向 为 PIPW 与 PHE 策略所需
Assumption 3.5 (Bridge q1, q0) 存在 \( q_1, q_0 \) 解 (3.5)-(3.6) 这是 treatment-model bridge
Assumption 4.1 (Surjectivity) 算子 T0: L2(W,M2,X)→L2(Z,M2,A=0,X) 和 T1: L2(W,M2,X)→L2(Z,A=1,X) 在真实 DGP 下满射 为保证 EIF 唯一;在统计上等价于某种秩条件

相比已有文献的强化: - 相比 Miles et al. (2017, 2020):本文去掉了 \( M_1 \) 可观测的要求,但增加了对 proxy \( Z,W \) 的假设(3.1-3.3)。 - 相比 Dukes et al. (2023):本文处理的是 recanting witness 结构(Fig 1.2/2.1)而不是简单的 unmeasured confounding;桥函数的构造更复杂(需要两层积分方程)。 - 相比 Ghassami et al. (2025):本文处理的是 recanting witness 而不是中介本身隐藏,图形位置不同。

主要结果

Theorem 3.1 (POR)

\[\psi = \iint h_1(w,x)\,p(w\mid A=0,x)\,p(x)\,dw\,dx = \mathbb{E}\left[\frac{I(A=0)}{P(A=0\mid X)} h_1(W,X)\right]\]
直觉:h1(W,X) 是通过两层积分回推构造的对潜在 M1 总效应的替代量;最后通过逆概率加权到 A=0 样本上平均。

Theorem 3.2 (PHE)

\[\psi = \mathbb{E}\left[\frac{I(A=1)}{P(A=1\mid X)} h_0(W,M_2,X)\,q_1(Z,X)\right]\]
直觉:用 q1 加权反向纠正由 M1 导致的混淆,h0 提供条件期望;A=1 的子样本逆概率加权。

Theorem 3.3 (PIPW)

\[\psi = \mathbb{E}\left[\frac{I(A=0)}{P(A=1\mid X)} Y\,q_0(Z,M_2,X)\right]\]
直觉:多重逆概率加权——完全替换了 h 桥函数的角色。

Theorem 4.1 (EIF):给出了趋于半参数效率界的正交化 Neyman 矩函数:

\[\text{EIF}(O) = \frac{I(A=1)}{P(A=1\mid X)} q_1(Z,X)[h_0(W,M_2,X)-h_1(W,X)] + \frac{I(A=0)}{P(A=1\mid X)} q_0(Z,M_2,X)[Y-h_0(W,M_2,X)] + \frac{I(A=0)}{P(A=0\mid X)} [h_1(W,X)-\eta(X)] + \eta(X) - \psi\]
这是 PMR 估计的核心。

Theorem 4.2 (Multiply Robustness):若四个模型族 M1–M4 中任一正确指定,则 EIF 的样本均值为 \( \psi \) 的一致估计。四个族分别覆盖:(i) P(A|X)+h0,h1;(ii) P(A|X)+q0,q1;(iii) P(A|X)+h0,q1;(iv) p(W|A=0,X)+h0,h1。

Theorem 4.3 (Cross-fitting Asymptotics):若所有 nuisance 的 RMSE 估计在交叉拟合下以 \( o(n^{-1/4}) \) 率收敛,则 \( \hat{\psi}_{\text{PMR}} \) 达到:

\[\sqrt{n}(\hat{\psi} - \psi) \overset{d}{\to} \mathcal{N}(0,\, \mathbb{E}[\text{EIF}(O)^2])\]
并且收敛率可放宽至乘积条件 \( a_{1n}b_{1n} = o(n^{-1/2}) \) 等。

证明路线与技术技巧

整体路线(以 PMR 的构造为例)

  1. 桥函数构造(Sec 3):利用三大假设 Assumption 3.1-3.3/3.4-3.5 得到桥函数 \( h_0, h_1, q_0, q_1 \) 的存在性与独立条件。
  2. 三条识别公式(Theorem 3.1-3.3):将嵌套反事实期望重写为可观测数据上 bridge function 的期望,每一步用近端工具替换隐藏的 M1 积分。
  3. EIF 推导(Theorem 4.1):通过标准半参效率理论(Bickel et al. 1993, Newey 1990),在考虑正交化的 Neyman 矩框架下,构造出形如
    \[\text{EIF} = \text{score}(h1 部分) + \text{score}(h0 部分) + \text{score}(η 部分) - ψ\]
    的分量。关键在于证明它确实是路径导数在一特定子模型下的有效影响函数。
  4. Multiply robustness 证明(Theorem 4.2):通过代数展开 EIF 的期望,显示在任一模型族正确指定时,来自错误模型的偏差项恰好为零(用桥函数定义式加 Assumption 3.3/3.5 逐个抵消)。
  5. Cross-fitting + 渐近分析(Theorem 4.3):
  6. 使用交叉拟合解决 DGP 条件不能用于桥函数训练造成的偏差。
  7. 将 PMR 估计量分解为 3 个 main term(各以 nuisance 误差乘积为界) + 1 个小误差项。
  8. 控制各产品项到 \( o_p(n^{-1/2}) \) 所需的收敛率条件,并推导正态性。

关键跳跃点: - Assumption 3.1(i) 中 \( Z\perp Y\mid M_1,A,X \) 但 Z 允许直接连到 M2?:文中 Remark 3.1 指出,Z→Y 与 W→Y 等有向边是允许的(条件独立性仍是条件独立性)。这使桥函数的求解更具灵活性,但增加了证明中条件替换的记号复杂度。 - 桥函数存在性条件非平凡:如 Assumption 3.3 是一个 Fredholm 积分方程的解存在性假设——这在非参数设定下本质上等价于某种可逆性/满射性,验证困难但标准。 - cumulation: Theorem 4.1 的 EIF 推导需要同时用到 h0, h1, q0, q1,且要求四个桥函数构成一个完整的正交化框架——这不是三条独立识别的简单拼凑,而是需要仔细验证各增广项的偏导为零。

技术技巧点名: - Fredholm 积分方程 + completeness:处理 (3.1)-(3.2) 与 (3.5)-(3.6)。 - 条件矩重新表述(Proposition 3.2):将 treatment bridge 的积分方程转化为等价的条件期望方程 (3.7)-(3.8),简化了估计计算(可从逆概率加权形式变回回归形式)。 - minimax 优化 + RKHS:用于非参数估计桥函数——将条件矩方程转化为一个 GAN-like 的 min-max 问题(Dikkala et al. 2020; Ghassami et al. 2022)。 - 交叉拟合(Schick 1986; Chernozhukov et al. 2018): - Neyman 正交矩 + bias 分解 用于渐近正态性证明。

真实例子与应用

  • 数据:NLSY97(美国 1997 年全国青年纵向调查)。
  • 场景:高中教育轨迹(college preparatory track vs. general track)对成年后小时工资的影响。
  • 如何应用
  • 中介 \( M_2 \) 为认知能力(标准化考试成绩,如 ASVAB)。
  • 隐藏 recanting witness \( M_1 \) 为不可测的非认知特质(自律、遵规等)。
  • proxy \( Z \):学校参与行为(迟到、缺勤、作业时间)——反映轻度不投入。
  • proxy \( W \):严重行为违纪(停学、打斗、被捕史)——反映严重叛逆。
  • 三个 bridge function 使用基于 RKHS 的 minimax 估算 + 交叉拟合。
  • 结果:传统 NIE/NDE 估计量均大误差(置信区间含 0 或不稳定)。PMR 给出的路径特异性效果:\( PSE_1 = 3.18 \) 美元/小时(显著),\( PSE_0 = -3.47 \)(显著)。说明在预备大学轨迹组中认知能力的提升带来正向工资回报;而在一般轨迹组中“认知能力被提升但非认知能力留在基准水平”反而导致负回报(作者解释为 skill mismatch)。
  • 目的:展示方法在实际(且重要)政策问题上的可行性,并强调漏掉 recanting witness 造成的错误结论(经典方法给出无效估计,而 PMR 给出有经济学含义的显著结果)。

🔎 结论是否比证明窄

  • 本文在 Theorem 4.3 中要求 “all bridge functions are correctly specified and converge at appropriate rates”——这个条件在实践中最难验证的其实是 completeness(Assumption 3.2/3.4),但论文在渐近理论证明错误指定 completeness 时的鲁棒性。结论似乎假设了 completeness 成立的情况。
  • Theorem 4.2 的 multiply robustness 仅在特定的四个模型族内成立,不扩展到 bridge function 本身的错误指定——这是被一些 prior work(如 Cui et al. 2024)共享的常见窄域。
  • 结论第28页(Discussion)提到 “extending to evaluate other pathway effects is of great interest”——但全文仅专注于单一通路的特效,没有给出任何定理说明如何扩展到并行或多条通路的分解

四、开放问题

  1. 当后续中介 \( M_2 \) 也隐藏时怎么办?(Discussion 第一点)——本文假设 \( M_2 \) 可观测,若 \( M_2 \) 也隐藏则桥函数系统需要再扩一层,存在性与计算复杂度都将增加。
  2. 扩展到其他路径特异性效应(Discussion 第二点):多个不同的 PSE(如 \( A\to M_1\to Y \)\( A\to Y \))的联合识别策略目前缺理论,一个可能的难度在于不同路径要求不同的 completeness。
  3. 处理群体水平效应(population-level effects)(Discussion 第三点,引用 Hubbard & Van der Laan 2008; Fulcher et al. 2020):本文目标为 conditional average effect in the full pop,而群体水平“如果所有人在某特定处理组下的路径效应”可能需要不同的桥函数构造。
  4. 考虑无效/不完美 proxy 的情形(Discussion 末句,引用 Yu et al. 2025; Rakshit et al. 2025):Assumption 3.1 要求的条件独立性很强;用 invalid proxy 解识别方程会导致偏倚识别——目前无灵敏度分析框架支撑。这个方向在当前研究中的张力:近端路线 vs. 工具变量路线(如 Imbens & Angrist 1994)谁能带来更宽松的 proxy 假设?可以查阅 Yu et al. 2025 看其“fortified proximal”是否能在 recanting witness 情形下应用。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论