Proximal Mediation Analysis with Hidden Recanting Witnesses¶

作者: Sihan Wu, Yang Bai, Yifan Cui
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.17600

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是在因果中介分析（mediation analysis）中，当存在 recanting witnesses（即受处理影响的中介-结局混杂因子）时的路径特异性效应（path-specific effect，PSE）识别与估计。recanting witness 构成了一个结构性的识别瓶颈——它既是处理→中介→结果通路上的一环，又是后续中介与结果之间的一种混杂，因此传统的自然效应（NDE/NIE）在该结构中不可识别。该子方向当前正致力于从“已知并完全观测 recanting witness”推向“未知、部分观测或完全隐藏”的设定，而本文恰好填补了最后一种情形。

发展脉络（history）¶

奠基工作： - Robins & Greenland (1992)；Pearl (2001)：提出中介分析的基本框架，定义自然直接效应（NDE）与自然间接效应（NIE），在无中介-结果混杂的假设下给出识别公式。 - Avin et al. (2005)：首次严格定义 recanting witness 及其导致的路径特异性效应不可识别性——这是本文所有技术构造所对抗的“结构瓶颈”。文中称：“the NIE becomes unidentifiable ... analytical focus must shift to path-specific effects”。

主要进展（处理已知 recanting witness）： - Miles et al. (2017, 2020)：在 recanting witness 完全可观测 的条件下，提供了路径特异性效应 P_AM2Y 的完整非参数识别公式（本文式2.2）与半参数推断框架。这是本文最直接的基线工作。作者评其“provides a rigorous framework ... 然而这些方法要求已知 recanting witness 的完全结构与完美测量”。 - Bai et al. (2026)：将上述框架推广到存在普遍的未测混杂的情形，但同样假设 recanting witness 本身可观测。作者评其“extend ... to accommodate pervasive unmeasured confounding”但仍受制于 recanting witness 可观测性。

近端因果推断（proximal CI）的崛起与扩展： - Miao et al. (2018)；Cui et al. (2024)：提出并系统化近端因果推断框架——用负控制变量（proxy Z、W）绕过对未测混杂的直接观测。这是本文技术的核心工具箱。 - Tchetgen Tchetgen et al. (2020)；Ying et al. (2023)：将近端框架推广到时变混杂与纵向设定。 - Dukes et al. (2023)：将近端思想引入中介分析，识别 NIE/NDE 在未测混杂下的情形。作者评其“identify NIE and NDE in the presence of unmeasured confounding”，但并未涉及 recanting witness 结构。 - Ghassami et al. (2025)：进一步推进到“隐藏中介”（hidden mediator）的识别——这与本文在结构上最接近，但 Ghassami 处理的是中介本身隐藏，而本文处理的是“recanting witness”隐藏，两者因果角色不同。

本文的定位： 作者声称“the first work to formalize and resolve the challenge of hidden recanting witnesses”——将近端框架从“处理隐藏混杂”或“隐藏中介”推进到“隐藏 recanting witness”这一特定图形结构。

子线索聚类¶

子线索	代表性工作	做什么
① 标准中介分析与 recanting witness 可观测情形	Robins & Greenland, Pearl, Avin et al., Miles et al., VanderWeele & Vansteelandt, Tchetgen Tchetgen & Shpitser	建立中介分析基础与已知 recanting witness 下的 PSE 识别
② 近端因果推断（proximal CI）	Miao et al. 2018 → Cui et al. 2024 → Tchetgen Tchetgen et al. 2020	用 proxy 绕过未测混杂，提供通用识别技术
③ 近端框架扩展到中介与动态处理	Dukes et al. 2023, Qi et al. 2024, Shi et al. 2022, Ghassami et al. 2025	将近端工具应用到中介、最优动态处理、隐藏中介等图形结构
④ 本文：近端框架处理隐藏 recanting witness	Wu, Bai, Cui (2026)	三条 bridge-function 识别策略 + EIF + PMR 估计

这个方向在追问的核心问题¶

识别瓶颈：recanting witness 使得 NIE 不可识别，那么路径特异性效应 P_AM2Y 是否仍然可识别？在什么条件下？
隐藏节点：若 recanting witness 本身不可观测，能否用近端（proxy）方法绕开？需要对 proxy 作什么结构假设？
效率与鲁棒估计：一旦识别成立，能否构建达到半参数效率界、且具备多重鲁棒性的估计量？nuisance（桥函数）估计的收敛率要求是多少？
实际可用性：在有限样本与高维 proxy 下，上述方法能否表现良好？

已知瓶颈：桥函数（bridge function）的估计本质上是一个第一类 Fredholm 积分方程的求解，其存在性、唯一性与一致性都依赖于完整性（completeness）条件与函数空间的恰当正则化，实际中难以验证。

⚠️ 作者的 framing（必须标注为作者说法）¶

作者把缺口 frame 成：“传统方法（Miles et al.）假设 recanting witnesses 已知且可观测 → 现实中常因成本、伦理、隐私等无法实现 → 本文用近端框架填补这一空缺”。竞争路线（如基于工具变量 Imbens & Angrist 1994、基于 invalid proxy Yu et al. 2025 等）被淡化为 Discussion 中一条简短提及，未在主体中发展与对比。

值得研究者查的问题： - 作者完全没有讨论以下文献或路线： - 基于 frontdoor criterion 或 generalized frontdoor（Fulcher et al. 2020）的替代路径特异性效应识别——这些方法与存在 M1 时的 PSE 识别有何关系？ - sensitivity analysis（如 Tchetgen Tchetgen & Shpitser 2012 中已有讨论）用于量化未测量 recanting witness 带来的偏倚——本文完全走向“完全识别”而非“灵敏度量化”，这两种策略各自的优劣？ - 高维工具变量 / 许多弱工具 的组合方法是否可作为另一种绕过 M1 的策略？

张力¶

未见明显的被引工作之间得出相反结论的张力。各条线在各自假设内部一致，仅在“recanting witness 的可观测性”这一前提上存在结构性缺口，而本文正是填补这一缺口。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

记号说明：
\( A \)：处理变量，二值 \( A \in \{0,1\} \)。
\( M_1 \)：recanting witness，即受处理影响且既是 \( M_2 \) 和 \( Y \) 的混杂、又是 \( A\to M_2\to Y \) 通路一环的不可观测变量。本文中 \( M_1 \) 是隐藏的（不可观测）。
\( M_2 \)：感兴趣的中间变量（中介）。可观测。
\( Y \)：结局变量。可观测。
\( X \)：基线协变量。可观测。
\( Z, W \)：两个观测到的 proxy 变量，用于绕过隐藏的 \( M_1 \)。可观测。
\( U \)：可能存在的 \( M_1 \) 与 \( Y \) 之间的未测混杂——不要求可观测，也不要求代理。
\( \psi \)：目标 estimand，即路径特异性效应 \( P_{A\to M_2 \to Y} \) 中的第一项：
\[\psi := \mathbb{E}[\,Y\big(M_2(M_1(0),1),\,M_1(0),\,0\big)\,]\]
全文所有技术都围绕识别与估计这个 \( \psi \) 展开（第二项简化为 \( \mathbb{E}[Y(0)] \) 可用标准方法处理）。
模型与数据生成机制（针对性简化版本）：因果结构如 Fig 3.1（有向无环图）：
\( A \to M_1 \), \( M_1 \to M_2 \), \( A \to M_2 \), \( M_2 \to Y \), \( M_1 \to Y \), \( A \to Y \)。
此外，\( Z \) 和 \( W \) 是 \( M_1 \) 的 proxy：\( M_1 \to Z \), \( W \to M_1 \)。\( Z \) 与 \( W \) 在给定 \( M_1, A, X \) 或 \( M_1, X \) 后条件独立于其他变量（Assumption 3.1）。
允许存在 \( U \)（\( M_1 \) 与 \( Y \) 之间的未测混杂），但不用观测它。
可观测数据：\( O = (Y, A, M_2, Z, W, X) \)，\( M_1 \) 完全不可观测。
想要的但不可观测的量：\( M_1 \) 的真实取值；潜在变量 \( M_1(a) \)、嵌套结果 \( Y(M_2(M_1(0),\,1),\,M_1(0),\,0) \) 。

第二步：讲最小内核——最简特例¶

剥掉所有高维 / RKHS / 交叉拟合的复杂性，本文核心思路在如下最简单设定下看得最清楚：

假设： 1. 所有变量（\( M_1, M_2, Z, W, Y, X \)）均为一维连续，且均为线性高斯系统。 2. 不加协变量 \( X \)。 3. 忽略 \( U \) 的存在（已包含在协方差结构中）。

此时，因果图简化成五个节点 \( A \to M_1 \to M_2 \to Y \)，且 \( M_1 \to Y \)（直接），\( Z \) 和 \( W \) 是与 \( M_1 \) 线性相关但与 \( A, M_2, Y \) 在给定 \( M_1 \) 后独立的高斯 proxy。

核心目标：识别 \( \psi = \mathbb{E}[Y(M_2(M_1(0),1), M_1(0), 0)] \)。

为什么标准方法失效：在式(2.2)中，Miles et al. 的识别公式需要观测 \( M_1 \) 才能写出 \( p(m_2|m_1, A=1) \) 和 \( p(m_1|A=0) \)。M1 不可观测时，这些密度直接消失。

本文关键想法：用 proxy Z 和 W 构造“桥函数”（bridge function），把式(2.2)中的 \( M_1 \) 积分掉。

最小内核特例（线性模型）：

设线性结构：

\[M_1 = \alpha_1 A + \epsilon_1,\quad M_2 = \beta_1 M_1 + \beta_2 A + \epsilon_2,\quad Y = \gamma_1 M_1 + \gamma_2 M_2 + \gamma_3 A + \epsilon_y\]

且 \( Z = \delta M_1 + \epsilon_z\), \( W = \zeta M_1 + \epsilon_w\)，所有误差相互独立且方差已知。目标 \( \psi = \mathbb{E}[Y(M_2(M_1(0),1), M_1(0), 0)] \)。

POR 策略（定理3.1）： - 第一步：解桥函数 \( h_0(w, m_2) = \mathbb{E}[Y | w, m_2, A=0] \) 的变体。实际上在可观测数据中，可直接对 \( Y \) 关于 \( (W, M_2, A=0) \) 做普通最小二乘回归：\( h_0(w, m_2) = \theta_0 + \theta_w w + \theta_{m_2} m_2 \)。 - 为什么有效？因为 \( W \perp\!\!\!\perp Y | M_1 \)，且 \( M_1 \) 在 \( (W, M_2, A) \) 的线性组合中能被“挤出”来。这就是式(3.1)在离散设定下的积分方程在正态下的退化形式。 - 第二步：解 \( h_1(w) = \mathbb{E}[h_0(W, M_2) | Z, A=1] \) 的变体：用第一步得到的 \( \hat{h}_0 \)，再对 \( \hat{h}_0(W, M_2) \) 关于 \( (Z, A=1) \) 做回归，得到 \( \hat{h}_1(W) \) 的线性形式。这就是式(3.2)。 - 结果：公式变为 \( \hat{\psi} = \mathbb{E}[\hat{h}_1(W) | A=0] \)，直接就是对未观测 \( M_1 \) 的绕过。

整个过程不需要观测 \( M_1 \) 一个点。梯度上升 where? 难点转到：在一般非参数情形下，积分方程的存在性和收敛性需要 T0 和 T1 算子的满射性（Assumption 4.1），而在最简单的线性高斯中这些自动满足（满射等价于秩条件）。

三、这篇论文做了什么¶

三句话¶

研究问题：在因果中介分析中，当 recanting witness（\( M_1 \)）完全隐藏、只有两组 proxy（\( Z, W \)）可观测时，如何识别和估计路径特异性效应 \( \psi \)（沿 \( A\to M_2\to Y \)）。
核心工具：近端因果推断框架（proximal CI）与三个桥函数（\( h_0, h_1, q_0, q_1 \)）系统，得到三条不同的识别策略：POR、PHE、PIPW。进而推导出高效影响函数（EIF）并构建了 Proximal Multiply Robust (PMR) 估计量，使用基于 minimax 优化的 RKHS 方法与交叉拟合。
主要结论：PMR 估计量在至少一组 nuisance 模型正确设定下一致（Theorem 4.2）；当所有 nuisance 以至少 \( n^{-1/4} \) 的 RMSE 收敛且用交叉拟合时，达到 \( \sqrt{n} \)-一致性与半参数效率界（Theorem 4.3）。仿真与 NLSY97 实证确认了方法有效。

关键设定与假设¶

在第二节的记号基础上，完整列出本文需要的主要假设（分组说明含义）：

假设	内容	统计含义与备注
Assumption 2.1 (Positivity)	( 0<P(A=1	X)<1 )；( 0<p(M_2,M_1
Assumption 2.2 (Sequential Ignorability)	三项条件独立：\( \{Y(a), M_1(a)\} \perp A \mid X \)；\( Y(m_2) \perp M_2 \mid M_1, A, X \)；\( M_2(m_1,a) \perp \{M_1,A\} \mid X \)	顺序可忽略性；允许 M1-Y 之间未测混杂 U 的存在
Assumption 2.3 (Cross-world independence)	\( \{Y(m_2,a), M_1(a)\} \perp M_2(m_1,a') \mid X \)	跨世界独立性——使嵌套反事实可识别
Assumption 3.1 (Proxy)	\( Z \perp \{Y,M_2\} \mid M_1,A,X \)；\( W \perp \{A,Z,M_2\} \mid M_1,X \)	这是近端赋权的关键结构；注意比标准近端更复杂
Assumption 3.2 (Completeness of Z)	\( \mathbb{E}[g(M_1)\mid Z,A=1,X]=0 \Rightarrow g=0 \)；类似对 \( (Z,M_2,A=0,X) \)	保证桥函数可解（可充分析出 M1 的特征）
Assumption 3.3 (Bridge h0, h1)	存在 \( h_0, h_1 \) 解积分方程 (3.1)-(3.2)	与标准近端相比：这里有两个嵌套积分方程
Assumption 3.4 (Completeness of W)	与 Assumption 3.2 对称但换方向	为 PIPW 与 PHE 策略所需
Assumption 3.5 (Bridge q1, q0)	存在 \( q_1, q_0 \) 解 (3.5)-(3.6)	这是 treatment-model bridge
Assumption 4.1 (Surjectivity)	算子 T0: L2(W,M2,X)→L2(Z,M2,A=0,X) 和 T1: L2(W,M2,X)→L2(Z,A=1,X) 在真实 DGP 下满射	为保证 EIF 唯一；在统计上等价于某种秩条件

相比已有文献的强化： - 相比 Miles et al. (2017, 2020)：本文去掉了 \( M_1 \) 可观测的要求，但增加了对 proxy \( Z,W \) 的假设（3.1-3.3）。 - 相比 Dukes et al. (2023)：本文处理的是 recanting witness 结构（Fig 1.2/2.1）而不是简单的 unmeasured confounding；桥函数的构造更复杂（需要两层积分方程）。 - 相比 Ghassami et al. (2025)：本文处理的是 recanting witness 而不是中介本身隐藏，图形位置不同。

主要结果¶

Theorem 3.1 (POR)：

\[\psi = \iint h_1(w,x)\,p(w\mid A=0,x)\,p(x)\,dw\,dx = \mathbb{E}\left[\frac{I(A=0)}{P(A=0\mid X)} h_1(W,X)\right]\]

直觉：h1(W,X) 是通过两层积分回推构造的对潜在 M1 总效应的替代量；最后通过逆概率加权到 A=0 样本上平均。

Theorem 3.2 (PHE)：

\[\psi = \mathbb{E}\left[\frac{I(A=1)}{P(A=1\mid X)} h_0(W,M_2,X)\,q_1(Z,X)\right]\]

直觉：用 q1 加权反向纠正由 M1 导致的混淆，h0 提供条件期望；A=1 的子样本逆概率加权。

Theorem 3.3 (PIPW)：

\[\psi = \mathbb{E}\left[\frac{I(A=0)}{P(A=1\mid X)} Y\,q_0(Z,M_2,X)\right]\]

直觉：多重逆概率加权——完全替换了 h 桥函数的角色。

Theorem 4.1 (EIF)：给出了趋于半参数效率界的正交化 Neyman 矩函数：

\[\text{EIF}(O) = \frac{I(A=1)}{P(A=1\mid X)} q_1(Z,X)[h_0(W,M_2,X)-h_1(W,X)] + \frac{I(A=0)}{P(A=1\mid X)} q_0(Z,M_2,X)[Y-h_0(W,M_2,X)] + \frac{I(A=0)}{P(A=0\mid X)} [h_1(W,X)-\eta(X)] + \eta(X) - \psi\]

这是 PMR 估计的核心。

Theorem 4.2 (Multiply Robustness)：若四个模型族 M1–M4 中任一正确指定，则 EIF 的样本均值为 \( \psi \) 的一致估计。四个族分别覆盖：(i) P(A|X)+h0,h1；(ii) P(A|X)+q0,q1；(iii) P(A|X)+h0,q1；(iv) p(W|A=0,X)+h0,h1。

Theorem 4.3 (Cross-fitting Asymptotics)：若所有 nuisance 的 RMSE 估计在交叉拟合下以 \( o(n^{-1/4}) \) 率收敛，则 \( \hat{\psi}_{\text{PMR}} \) 达到：

\[\sqrt{n}(\hat{\psi} - \psi) \overset{d}{\to} \mathcal{N}(0,\, \mathbb{E}[\text{EIF}(O)^2])\]

并且收敛率可放宽至乘积条件 \( a_{1n}b_{1n} = o(n^{-1/2}) \) 等。

证明路线与技术技巧¶

整体路线（以 PMR 的构造为例）：

桥函数构造（Sec 3）：利用三大假设 Assumption 3.1-3.3/3.4-3.5 得到桥函数 \( h_0, h_1, q_0, q_1 \) 的存在性与独立条件。
三条识别公式（Theorem 3.1-3.3）：将嵌套反事实期望重写为可观测数据上 bridge function 的期望，每一步用近端工具替换隐藏的 M1 积分。
EIF 推导（Theorem 4.1）：通过标准半参效率理论（Bickel et al. 1993, Newey 1990），在考虑正交化的 Neyman 矩框架下，构造出形如
\[\text{EIF} = \text{score}(h1 部分) + \text{score}(h0 部分) + \text{score}(η 部分) - ψ\]
的分量。关键在于证明它确实是路径导数在一特定子模型下的有效影响函数。
Multiply robustness 证明（Theorem 4.2）：通过代数展开 EIF 的期望，显示在任一模型族正确指定时，来自错误模型的偏差项恰好为零（用桥函数定义式加 Assumption 3.3/3.5 逐个抵消）。
Cross-fitting + 渐近分析（Theorem 4.3）：
使用交叉拟合解决 DGP 条件不能用于桥函数训练造成的偏差。
将 PMR 估计量分解为 3 个 main term（各以 nuisance 误差乘积为界） + 1 个小误差项。
控制各产品项到 \( o_p(n^{-1/2}) \) 所需的收敛率条件，并推导正态性。

关键跳跃点： - Assumption 3.1(i) 中 \( Z\perp Y\mid M_1,A,X \) 但 Z 允许直接连到 M2？：文中 Remark 3.1 指出，Z→Y 与 W→Y 等有向边是允许的（条件独立性仍是条件独立性）。这使桥函数的求解更具灵活性，但增加了证明中条件替换的记号复杂度。 - 桥函数存在性条件非平凡：如 Assumption 3.3 是一个 Fredholm 积分方程的解存在性假设——这在非参数设定下本质上等价于某种可逆性/满射性，验证困难但标准。 - cumulation: Theorem 4.1 的 EIF 推导需要同时用到 h0, h1, q0, q1，且要求四个桥函数构成一个完整的正交化框架——这不是三条独立识别的简单拼凑，而是需要仔细验证各增广项的偏导为零。

技术技巧点名： - Fredholm 积分方程 + completeness：处理 (3.1)-(3.2) 与 (3.5)-(3.6)。 - 条件矩重新表述（Proposition 3.2）：将 treatment bridge 的积分方程转化为等价的条件期望方程 (3.7)-(3.8)，简化了估计计算（可从逆概率加权形式变回回归形式）。 - minimax 优化 + RKHS：用于非参数估计桥函数——将条件矩方程转化为一个 GAN-like 的 min-max 问题（Dikkala et al. 2020; Ghassami et al. 2022）。 - 交叉拟合（Schick 1986; Chernozhukov et al. 2018）： - Neyman 正交矩 + bias 分解 用于渐近正态性证明。

真实例子与应用¶

数据：NLSY97（美国 1997 年全国青年纵向调查）。
场景：高中教育轨迹（college preparatory track vs. general track）对成年后小时工资的影响。
如何应用：
中介 \( M_2 \) 为认知能力（标准化考试成绩，如 ASVAB）。
隐藏 recanting witness \( M_1 \) 为不可测的非认知特质（自律、遵规等）。
proxy \( Z \)：学校参与行为（迟到、缺勤、作业时间）——反映轻度不投入。
proxy \( W \)：严重行为违纪（停学、打斗、被捕史）——反映严重叛逆。
三个 bridge function 使用基于 RKHS 的 minimax 估算 + 交叉拟合。
结果：传统 NIE/NDE 估计量均大误差（置信区间含 0 或不稳定）。PMR 给出的路径特异性效果：\( PSE_1 = 3.18 \) 美元/小时（显著），\( PSE_0 = -3.47 \)（显著）。说明在预备大学轨迹组中认知能力的提升带来正向工资回报；而在一般轨迹组中“认知能力被提升但非认知能力留在基准水平”反而导致负回报（作者解释为 skill mismatch）。
目的：展示方法在实际（且重要）政策问题上的可行性，并强调漏掉 recanting witness 造成的错误结论（经典方法给出无效估计，而 PMR 给出有经济学含义的显著结果）。

🔎 结论是否比证明窄¶

本文在 Theorem 4.3 中要求 “all bridge functions are correctly specified and converge at appropriate rates”——这个条件在实践中最难验证的其实是 completeness（Assumption 3.2/3.4），但论文在渐近理论不证明错误指定 completeness 时的鲁棒性。结论似乎假设了 completeness 成立的情况。
Theorem 4.2 的 multiply robustness 仅在特定的四个模型族内成立，不扩展到 bridge function 本身的错误指定——这是被一些 prior work（如 Cui et al. 2024）共享的常见窄域。
结论第28页（Discussion）提到 “extending to evaluate other pathway effects is of great interest”——但全文仅专注于单一通路的特效，没有给出任何定理说明如何扩展到并行或多条通路的分解。

四、开放问题¶

当后续中介 \( M_2 \) 也隐藏时怎么办？（Discussion 第一点）——本文假设 \( M_2 \) 可观测，若 \( M_2 \) 也隐藏则桥函数系统需要再扩一层，存在性与计算复杂度都将增加。
扩展到其他路径特异性效应（Discussion 第二点）：多个不同的 PSE（如 \( A\to M_1\to Y \)、\( A\to Y \)）的联合识别策略目前缺理论，一个可能的难度在于不同路径要求不同的 completeness。
处理群体水平效应（population-level effects）（Discussion 第三点，引用 Hubbard & Van der Laan 2008; Fulcher et al. 2020）：本文目标为 conditional average effect in the full pop，而群体水平“如果所有人在某特定处理组下的路径效应”可能需要不同的桥函数构造。
考虑无效/不完美 proxy 的情形（Discussion 末句，引用 Yu et al. 2025; Rakshit et al. 2025）：Assumption 3.1 要求的条件独立性很强；用 invalid proxy 解识别方程会导致偏倚识别——目前无灵敏度分析框架支撑。这个方向在当前研究中的张力：近端路线 vs. 工具变量路线（如 Imbens & Angrist 1994）谁能带来更宽松的 proxy 假设？可以查阅 Yu et al. 2025 看其“fortified proximal”是否能在 recanting witness 情形下应用。

Maintained by 陈星宇 · Homepage · Source on GitHub