Proximal indirect comparison¶

作者: Zehao Su, Helene C Rytgaard, Henrik Ravn, Frank Eriksson
来源: Biometrika
主题: 因果推断
相关性: 10/10
链接: https://doi.org/10.1093/biomet/asaf044

一、核心问题与贡献¶

①研究了间接比较设定下（目标试验缺失处理组需从源试验借用），存在未观测且跨试验偏移的效应修饰因子时的目标人群平均因果效应识别问题。②核心工具是基于两试验共有的调整代理和源试验独有的重加权代理构建桥函数，实现 proximal identification。③主要贡献是提出了对桥函数误指具有双重稳健性的估计器，并在桥函数估计量温和一致的条件下证明了其 $n^{-1/2}$-CAN 性质，突破了传统条件可移植性假设的瓶颈。

二、基础设定¶

核心概念与符号：
目标试验 $T=0$，源试验 $T=1$；处理 $A \in {0,1}$，结果 $Y$，未观测效应修饰因子 $U$。
调整代理 $W$（两试验中均有，与 $U$ 强相关，用于阻断 $U$ 对 $Y$ 的混杂）。
重加权代理 $Z$（仅源试验中有，与 $U$ 强相关，用于重加权源试验分布以匹配目标试验）。
结果桥函数 $h(Y, W, T)$：满足 $E[h(Y, W, T) \mid U, A, T] = E[Y \mid U, A, T]$。
重加权桥函数 $q(W, Z, T)$：满足 $E[q(W, Z, T) \mid U, T] = 1/P(T=0 \mid U)$ 的逆概率加权形式。
关键假设：
Proximal independence：(1) $Y \perp Z \mid U, A, T$（重加权代理 $Z$ 对结果无直接效应）；(2) $Z \perp W \mid U, T$（两类代理在给定未观测因子时独立）。含义：构建了类似工具变量的代理结构，使得仅通过观测数据求解未观测 $U$ 的效应成为可能。
Completeness：$U$ 在给定 $Z$ 或 $W$ 下的条件分布满足完备性。含义：保证桥函数积分方程解的唯一性，是 proximal identification 的核心数学条件。
Transportability via proxies：放宽了传统间接比较中 "all effect modifiers measured" 的强假设，允许 $U$ 未观测且在两试验间分布不同，只要代理结构满足上述条件。
问题背景：传统间接比较（如 MAIC/STC）要求所有跨试验偏移的效应修饰因子均被观测，这在实践中极难满足。与最相关文献的区别：相比 Miao et al. (2018) 奠基的单试验 proximal CI，本文首次将其拓展至多试验/跨试验 transportability 设定；相比 Dahabreh et al. (2020) 的传统 transportability，本文绕过了未观测效应修饰因子的可移植性瓶颈。

三、主要定理 / 核心结果¶

Proximal Identification 定理：
原文陈述：在 proxy 假设与完备性下，目标人群平均因果效应 $\tau_0 = E[Y(1)-Y(0) \mid T=0]$ 可仅通过观测分布表示为涉及 $h$ 和 $q$ 的泛函。
直观解释：结果桥函数 $h$ 相当于在未观测 $U$ 的情况下对 $Y$ 进行调整，重加权桥函数 $q$ 相当于对源试验样本进行重加权以匹配目标试验的 $U$ 分布，二者结合实现了跨试验的混杂调整与分布对齐。
技术难点：在未观测 $U$ 且 $U$ 跨试验分布不同时，如何切断混杂与可移植性的纠缠。通过引入两类 proxy 并建立类似 Fredholm 积分方程的桥函数条件解决。
局限：完备性条件难以用观测数据经验验证；重加权代理 $Z$ 仅在源试验中可用，限制了 proxy 的选择范围。
Double Robustness 定理：
原文陈述：提出的估计器 $\hat{\tau}$ 在结果桥函数 $h$ 或重加权桥函数 $q$ 之一被正确指定时，仍具有一致性。
直观解释：调整路径（通过 $h$）和重加权路径（通过 $q$）互为安全网，只要模型化对其中一个，估计就不会崩溃。
Asymptotic Normality 定理：
原文陈述：在桥函数估计量以 $o_P(n^{-1/4})$ 速率收敛的温和条件下，$\hat{\tau}$ 达到 $n^{-1/2}$-CAN，且渐近方差达到半参数有效界。
直观解释：即使桥函数的估计受非参维数惩罚影响（收敛慢于 $n^{-1/2}$），只要其足够精确（$o_P(n^{-1/4})$），其对最终因果效应估计的干扰仍是低阶的，不影响根号收敛性。

四、证明框架 / 方法设计¶

识别策略与估计量设计：基于 influence function 构造一步估计。推导目标参数的 efficient influence function (EIF)，发现其天然包含 $h$ 和 $q$ 两部分，据此构造估计方程。
证明主干逻辑：
积分方程构建：利用条件期望与 proxy 独立性，将含未观测 $U$ 的反事实期望转化为关于观测数据 $(Y, W, Z, T)$ 的条件矩方程。
桥函数存在与唯一性：通过完备性条件证明积分方程解的存在性，完成非参数识别。
EIF 推导与 DR 验证：推导 $\tau_0$ 的 EIF，分析其偏差项，证明当 $h$ 或 $q$ 之一正确时，一阶偏差项相互抵消（DR 性质）。
余项控制：利用经验过程理论，在 $o_P(n^{-1/4})$ 收敛条件下，将经验过程的余项控制为 $o_P(n^{-1/2})$，得到 CAN。
最关键的技巧性引理/跳跃点：将未观测 $U$ 的 transportability 条件转化为观测变量上的条件矩方程。这依赖于 $Z \perp W \mid U$ 的巧妙使用，使得原本不可解的混杂调整变为可解的 Fredholm 方程。
数学工具评价：是 proximal causal inference 框架在 transportability 设定下的精巧拓展，结合了半参数效率理论（EIF）与双重稳健估计的经典范式，属于经典工具在复杂结构下的高难度组合与创新。

五、与研究者兴趣的关联¶

连接子方向：Proximal causal inference 的 transportability 设定，半参数效率界与 DR 估计。
可借鉴思路：将未观测效应修饰因子的偏移问题转化为 proxy 框架下的桥函数积分方程，这一思路可直接迁移到 longitudinal proximal CI 中处理时依未观测混杂，或在 mediation 分析中处理未观测中间变量。其结合 outcome bridge 与 reweighting bridge 的 DR 估计器构造方式，对处理多源异质性数据极具参考价值。
值得精读参考文献：
Miao, W., Geng, Z., & Tchetgen Tchetgen, E. J. (2018). Identifying causal effects with proxy variables of an unmeasured confounder. (Proximal CI 奠基作，理解桥函数与完备性条件的必读)。
Dahabreh, I. J., et al. (2020). Extending inferences from a randomized trial to a target population. (传统 transportability 与间接比较的标杆，对比理解 proxy 假设的放宽之处)。

六、延伸思考与练习¶

假设扰动：若重加权代理 $Z$ 在目标试验中也可得，结论会如何变化？技术上是否可以构造更稳健的估计器（如利用目标试验中的 $Z$ 进一步约束桥函数）？需要什么新的完备性条件？
开放问题：如何对桥函数的完备性条件进行敏感性分析？在桥函数使用高维参数模型/机器学习估计时，如何利用 DML 或 debiased 方法更稳健地满足 $o_P(n^{-1/4})$ 条件？
理解检测题：假设在源试验中，未观测效应修饰因子 $U$ 对结果 $Y$ 没有效应（即不是效应修饰因子），但对试验选择 $T$ 有效应。此时，结果桥函数 $h$ 和重加权桥函数 $q$ 的形式会退化为怎样的简单形式？这是否与传统的逆概率加权（IPW）估计器等价？请推导说明。

Maintained by 陈星宇 · Homepage · Source on GitHub