Proximal Path-Specific Inference¶

作者: Yang Bai, Sihan Wu, Baoluo Sun, Yifan Cui
主题: 因果推断
相关性: 10/10
链接: https://arxiv.org/abs/2605.09462

核心问题与动机¶

本文解决的是在存在反述证人（recanting witness，即处理诱导的中介-结果混杂因子 $D$）和一般性未观测混杂（$U$ 同时影响 $A, D, M, Y$）时，特定路径效应（Path-Specific Effect, PSE，即 $A \rightarrow M \rightarrow Y$）的非参数识别与半参数估计问题。传统中介分析中的自然间接效应（NIE）会混淆 $A \rightarrow M \rightarrow Y$ 与 $A \rightarrow D \rightarrow M \rightarrow Y$，导致似是而非的结论（如产前护理通过子痫前期增加早产风险的悖论）；而已有的 PSE 方法（如 Miles et al., 2017）仅允许 $D-Y$ 之间存在未观测混杂，无法处理 $U$ 直接影响 $A$ 或 $M$ 的一般情形。

主要贡献¶

放宽了 PSE 的无混杂假设：引入近端因果推断框架，利用代理变量 $(Z, W)$ 消除一般性未观测混杂，突破了已有方法仅允许 $D-Y$ 存在混杂的严苛限制。
提出四种非参数识别策略：基于嵌套的结果混杂桥函数 ($h_2, h_1, h_0$) 和处理混杂桥函数 ($q_0, q_1, q_2$) 及其混合组合，给出了 PSE 的四个识别公式。
推导了效率理论结果：导出了目标估计量 $\psi = E[Y(1, D(1), M(0, D(1)))]$ 的有效影响函数及半参数有效边界。
构建了四重稳健且局部有效的估计量：只要四种桥函数组合中至少一种被正确指定，估计量即一致；当全部正确指定时达到局部有效。
提出了近端去偏机器学习估计量：结合交叉拟合技术，在桥函数以慢于 $\sqrt{n}$ 速率收敛时，仍保证估计量具有 $\sqrt{n}$-一致性与渐近正态性。

方法框架¶

模型设定：二值处理 $A$，结果 $Y$，目标中介 $M$，反述证人 $D$，未观测混杂 $U$，观测协变量 $X$。代理变量：处理诱导代理 $Z$，结果诱导代理 $W$。目标估计量 $\psi = E[Y(1, D(1), M(0, D(1)))]$。
关键假设：
Latent conditional exchangeability & Cross-world independence (Assump 3-4)：给定 $U,X$ 下，潜在结果的独立性条件（跨世界独立性仍需 NPSEM-IE 解释）。
Proxy variables (Assump 5)：$W \perp !!! \perp {A,D,M} | U,X$ 且 $Z \perp !!! \perp {W,D,M,Y} | A,U,X$。
Completeness (Assump 6-7)：$Z$ 和 $W$ 分别关于 $U$ 的完备性条件（保证 Fredholm 积分方程解的存在性与识别性）。
识别策略（基于桥函数求解积分方程）：
纯结果桥函数 (Thm 2.1)：$h_2, h_1, h_0$ 依次解 (4)-(6) 式，$\psi = E[h_0(W,X)]$。
纯处理桥函数 (Thm 2.2)：$q_0, q_1, q_2$ 依次解 (8)-(10) 式（等价于条件矩方程 (12)-(14)），$\psi = E[I(A=1)Y q_2(Z,M,D,X)]$。
混合桥函数 I (Thm 2.3)：利用 $h_2, h_1, q_0$，$\psi = E[I(A=1)h_1(W,D,X)q_0(Z,X)]$。
混合桥函数 II (Thm 2.4)：利用 $h_2, q_0, q_1$，$\psi = E[I(A=0)h_2(W,M,D,X)q_1(Z,D,X)]$。

主要理论结果¶

非参数识别性：在完备性条件下，证明了四种桥函数组合均能唯一识别 $\psi$，且桥函数解的唯一性并非必需（不同解给出相同的 $\psi$ 值）。
半参数有效边界：推导了 $\psi$ 的有效影响函数（EIF）。
四重稳健性：基于 EIF 构建的估计量，在四组桥函数模型 ${h_2, h_1, h_0}$, ${q_0, q_1, q_2}$, ${h_2, h_1, q_0}$, ${q_0, q_1, h_2}$ 中任意一组正确指定时即具备一致性。
Debiased ML 渐近性：若使用 ML 方法估计混杂桥函数并配合交叉拟合，只要桥函数估计的 $L_2$ 收敛速率为 $o(n^{-1/4})$，PSE 估计量即达到 $\sqrt{n}$-一致且渐近正态，二阶余项性质吸收了 nuisance 的首阶偏差。

实验 / 数值仿真¶

仿真设计：半参数与非参数两种数据生成机制，评估不同桥函数错配情况下的四重稳健性及 Debiased ML 表现。
评估指标：偏差、均方根误差 (RMSE)、95% 覆盖率。
实证分析：CDC WONDER Natality 数据集，评估产前护理 ($A$) 通过子痫前期 ($M$) 对早产 ($Y$) 的特定路径效应（排除孕期吸烟 $D$ 的路径）。结果纠正了以往 NIE 分析中“产前护理增加早产风险”的悖论，隔离出 $A \rightarrow M \rightarrow Y$ 的真实保护效应。

与研究者兴趣的关联¶

因果推断 (Proximal CI, Mediation)：直接将 Proximal CI 拓展至带有反述证人的中介分析，解决了复杂路径下的未观测混杂识别问题。
效率理论：推导了带潜变量的路径特定效应的半参数有效边界，并利用 EIF 构建多重稳健估计量。
高维统计与 Debiased ML：通过交叉拟合与二阶余项分析，实现了高维/非参 nuisance 下的 $\sqrt{n}$-一致推断，是 Debiased ML 在近端中介推断中的标准范式应用。

局限性与开放问题¶

完备性假设：Assump 6-7 属于高层假设，连续变量下难以完全验证，其实质要求代理变量的变异性足够丰富。
跨世界独立性：Assump 4 仍依赖 NPSEM-IE 解释，在纯粹潜在结果框架下不可证伪。
积分方程求解：桥函数的识别依赖于 Fredholm 第一类积分方程，属于不适定逆问题，在有限样本下数值求解极具挑战，文中未详述高维 $Z, W$ 下的算法实现细节。
开放问题：如何将此框架拓展至纵向数据或多重中介场景；能否用干预效应替代跨世界独立性以避免形而上学假设；高维代理变量下桥函数估计的最优数值算法设计。

Maintained by 陈星宇 · Homepage · Source on GitHub