Calibrated sensitivity models¶

作者: A McClean, Z Branson, E H Kennedy
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biomet/asag001

一、核心问题与贡献¶

①研究了因果推断中传统敏感性参数难以解释，且现有校准方法忽略了已测量混杂估计不确定性的问题。②核心工具是将未测量混杂程度直接约束为已测量混杂倍数的校准敏感性模型，并基于此构建了部分识别边界的双重稳健有效估计量。③主要贡献是推导了纳入校准不确定性的统计推断方法，证明了估计量在非参数条件下的渐近正态性与参数有效性，揭示了考虑该不确定性后因果结论的稳健性可能与标准方法相左。

二、基础设定¶

核心概念与符号：
$A \in {0,1}$：二值处理；$Y$：结果；$W$：已测量混杂；$U$：未测量混杂。
$q(a,w,u)$：广义倾向得分或混杂选择函数，表征未测量混杂的强度。
$c(W)$：校准函数，量化已测量混杂$W$对处理分配$A$的影响程度。
$\Gamma$：敏感性参数，表示未测量混杂相对于已测量混杂的倍数。
$\psi_{\Gamma}^-, \psi_{\Gamma}^+$：在给定$\Gamma$下，平均处理效应（ATE）的部分识别下界与上界。
关键假设：
Calibrated Sensitivity Model：$|q(a,w,u) - q(a,w,u')| \le \Gamma \cdot c(w)$（或类似形式，取决于三种具体模型设定）。统计学含义：未测量混杂$U$对处理分配的影响，不超过已测量混杂$W$影响的$\Gamma$倍。相比传统 Marginal Sensitivity Model (MSM) 中对全样本施加常数界 $\Gamma$，该假设利用了协变量的异质性，使$\Gamma$具备了直观的相对尺度（"几倍的已测量混杂"），极大提升了可解释性。
Doubly Robust-style Nonparametric Conditions：倾向得分、结果回归及校准函数属于特定的函数空间（如 Hölder 类），且其估计量满足特定的收敛速率条件（如 $o_P(n^{-1/4})$）。统计学含义：允许在非参数设定下使用灵活的机器学习估计量，只要满足速率条件即可保证边界估计的 $\sqrt{n}$ 一致性。
Positivity：$P(A=1|W)$ 有界远离 0 和 1。
问题背景：传统 MSM（如 Tan 2006）的 $\Gamma$ 缺乏物理尺度，难以确定合理取值；现有校准/基准化方法（如 Cinelli & Hazlett 2020 在线性模型下的 Oster 2019 框架）将已测量混杂的估计值视为固定已知，忽略了其抽样变异性。与最相关文献的区别：相较于 Dorn & Guo (2022) 和 Yadlowsky et al. (2022) 对 MSM 边界的半参数有效估计，本文将校准约束直接嵌入识别框架，并在 EIF 中显式吸收了 $c(W)$ 估计带来的不确定性。

三、主要定理 / 核心结果¶

原文陈述：在三种校准敏感性模型下，ATE 的部分识别边界 $\psi_{\Gamma}^{\pm}$ 的有效影响函数（EIF）存在且被显式推导出；基于 EIF 构建的一步估计量 $\hat{\psi}{\Gamma}^{\pm}$ 满足 $\sqrt{n}(\hat{\psi}{\Gamma}^{\pm} - \psi_{\Gamma}^{\pm}) \xrightarrow{d} \mathcal{N}(0, V_{\text{eff}})$，其中 $V_{\text{eff}}$ 为半参数效率界。
直观解释：部分识别边界本质上是一个受约束的优化问题（在所有满足校准约束的分布中寻找 ATE 的极值）。定理表明，即便这个约束本身包含需要估计的校准函数 $c(W)$，只要将 $c(W)$ 的估计变异性通过影响函数的正交项纳入考量，边界估计依然可以达到类似参数模型的收敛速率，并取得所有正则估计量中的最小渐近方差。
解决了什么技术难点：解决了当部分识别区域的约束条件包含未知无穷维参数（即 $c(W)$）时，如何推导目标泛函的路径导数并构造具有二阶余项的估计量的问题。传统方法若将 $\hat{c}(W)$ 直接代入，余项将包含 $\hat{c}(W) - c(W)$ 与其他 nuisance 误差的交叉项，导致 $\sqrt{n}$ 无法收敛。
适用条件与局限：必须满足 nuisance 估计量的乘积速率条件（如 $|\hat{\pi} - \pi| \cdot |\hat{c} - c| = o_P(n^{-1/2})$）。局限在于：校准函数 $c(W)$ 的选择仍具主观性（文中虽提供了三种模型，但实际选取依赖先验）；且部分识别区间的推断（如 Imbens-Manski 型 CI）在边界点不可微时仍需谨慎。

四、证明框架 / 方法设计¶

证明主干逻辑：Von Mises 微积分 / 路径可微性 + 一步估计构造。
拆解为 3-5 个关键逻辑步骤：
切空间与约束表征：定义无约束的非参数切空间，并在校准敏感性约束下，通过拉格朗日乘子/变分法表征使 ATE 取极值的扰动方向。
计算 Gateaux 导数：对目标泛函 $\psi_{\Gamma}^{\pm}(P)$ 求关于数据分布 $P$ 的方向导数，其中显式包含了对 $c(W)$ 分布的扰动。
构造 EIF 与正交性：将导数投影到切空间得到 EIF，验证 EIF 中关于 $\pi(W), \mu(W), c(W)$ 的各项满足 Neyman 正交性，即 nuisance 的一阶误差在 EIF 中被抵消。
二阶余项控制：通过经验过程理论（结合 Cross-fitting），证明余项 $R(\hat{P}, P) = o_P(n^{-1/2})$，从而由 Taylor 展开得到渐近线性表示。
最关键的技巧性引理或"跳跃点"：在推导 EIF 时，如何处理校准函数 $c(W)$ 带来的额外变异性。传统 MSM 的 EIF 仅包含倾向得分和结果回归的项，而本文的跳跃在于：校准约束使得最优倾斜测度的权重依赖于 $c(W)$，因此对 $c(W)$ 的扰动会改变约束集的几何形状。作者通过引入关于 $c(W)$ 的协方差项，将 $c(W)$ 的估计误差与残差项正交化，这是实现 DR 性质和 $\sqrt{n}$ 推断的核心。
数学工具评价：是经典半参数理论（Van der Vaart, Bickel 等）与近代部分识别理论（Dorn & Guo 等）的巧妙组合。并非全新分析框架，但在变分推导中处理"估计的约束"这一步具有高度技巧性。

五、与研究者兴趣的关联¶

连接到哪个子方向：Causal inference (sensitivity analysis, partial identification) 与 Semiparametric efficiency theory (efficient influence function for bounds with estimated constraints)。
可借鉴的核心思路或技术工具："带估计约束的部分识别界之 EIF 推导"。在您关注的 Proximal CI 或 IV 设定中，若对不可验证的假设（如负对照的有效性、IV的排他性约束）进行敏感性分析，且该敏感性参数由数据估计而得，本文将约束估计不确定性吸收进影响函数并实现 DR 推断的框架，可直接迁移使用。
值得精读的关键参考文献：
Dorn & Guo (2022), "Sharp sensitivity analysis for marginal structural models"：提供了 MSM 下部分识别界半参数有效估计的基础范式，理解本文的必读前置。
Yadlowsky et al. (2022), "Bounds on the conditional average treatment effect with an unobserved confounder"：将 MSM 扩展到条件 ATE，其 EIF 构造技巧与本文高度相关。
Chernozhukov et al. (2018), "Double/debiased machine learning for treatment and structural parameters"：理解 cross-fitting 如何与 Neyman 正交性结合控制经验过程余项的标准文献。

六、延伸思考与练习¶

假设扰动：若校准函数 $c(W)$ 不是低维标量函数，而是高维协变量下的复杂泛函（例如 $c(W)$ 本身需要用 Lasso 或 DNN 估计），且其收敛速率无法达到 $o_P(n^{-1/4})$，结论会如何变化？技术上需要引入何种高维鲁棒推断工具（如 Debiasing 校正）？
开放问题：如何将校准敏感性模型推广到连续处理或纵向因果推断设定？在时间变化的混杂下，"已测量混杂强度"的动态校准将面临识别上的何种挑战？
理解检测题：假设真实的校准函数 $c(W)$ 已知（无需估计），写出此时 ATE 边界 $\psi_{\Gamma}^{\pm}$ 的 EIF，并与文中 $c(W)$ 需估计时的 EIF 对比。指出多出的项在概率上代表了什么含义，并说明为什么忽略该项会导致置信区间覆盖率的失真。

Maintained by 陈星宇 · Homepage · Source on GitHub