Calibrated sensitivity models¶

作者: A McClean, Z Branson, E H Kennedy
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biomet/asag001

一、核心问题与贡献（3句话）¶

① 本文解决了因果推断敏感性分析中，传统校准（benchmarking）方法在估计已测量混杂强度时忽略了其自身不确定性，导致对未测量混杂的鲁棒性判断可能产生偏误的问题。② 核心工具是将未测量混杂的强度直接约束为已测量混杂强度（通过部分线性模型量化）的一个倍数，并在此“校准敏感性模型”下，发展出关于平均处理效应（ATE）边界的双鲁棒（doubly robust）有效估计量与推断理论。③ 主要贡献是：提出三种可解释的校准敏感性模型；为ATE边界构建了达到参数效率且渐进正态的估计量，并证明了其在非参数条件下的双鲁棒性质；通过一个实证例子展示了纳入校准不确定性后，因果结论的鲁棒性可能与标准分析结果不同。

二、基础设定¶

核心概念与符号：
\( Y(1), Y(0) \)：潜在结果；\( A \in \{0,1\} \)：处理变量；\( X \)：已观测协变量；\( U \)：未测量混杂。
\( \tau = \mathbb{E}[Y(1) - Y(0)] \)：平均处理效应（ATE）。
已测量混杂强度 (magnitude of measured confounding)：\( \Delta_m = \mathbb{E}[m_1(X) - m_0(X)] \)，其中 \( m_a(x) = \mathbb{E}[Y(a) | X=x] \)。这是通过部分线性模型对已观测混杂的总效应度量。
未测量混杂强度 (magnitude of unmeasured confounding)：在单倍率模型（single multiplier）下定义为 \( \Delta_u = \Delta_m \cdot \Lambda \)，其中 \( \Lambda \) 是待指定的倍数（灵敏度参数）。在更复杂的模型（如双倍率、线性加倍）中，定义更为精细。
校准敏感性模型：将未测量混杂的强度参数与已测量混杂的强度参数通过一个倍数 \( \Lambda \) 联系起来，从而赋予灵敏度参数一个可解释的尺度。
关键假设：
部分线性结构：假设 \( \mathbb{E}[Y | A, X, U] = g(A, X) + \gamma A U \)，其中 \( \gamma \) 为常数。这是用来量化未测量混杂影响的线性、加性假设；它假定未测量混杂 \( U \) 与结果 \( Y \) 的关系是线性的，且与处理 \( A \) 和协变量 \( X \) 的交互是简单的。该假设比一般的非参数结构强，但为定义简洁的灵敏度参数起到了桥梁作用。
校准假设：\( |\mathbb{E}[U | A=1] - \mathbb{E}[U | A=0]| \le \Lambda \cdot |\mathbb{E}[m_1(X) - m_0(X)]| \)。这是核心假设，它将未测量混杂导致的处理组间均值差，约束为已测量混杂效应（通过回归函数 \( m_a(X) \) 捕捉）的 \( \Lambda \) 倍。该假设的统计含义是：研究者相信未观测的混杂效应不会过于“离谱”，其强度与可观测的混杂效应是成比例的。
正则性条件：倾向性评分 \( \pi(X) = P(A=1|X) \) 和结果回归 \( m_a(X) \) 满足一定光滑性和有界性，以保证后续双鲁棒估计量的渐近性质。
与已有文献的关系：传统敏感性分析如VanderWeele & Ding (2017) 的E-values或Rosenbaum的灵敏度分析，其灵敏度参数（如 \(\Gamma\)）是抽象的概率比或效应尺度，难以解释。本文通过将灵敏度参数校准到已测量混杂的倍数，大幅提升了参数的可解释性。最相关的参考文献是部分线性模型的敏感性分析（如Small, 2007）和关于校准方法的工作（如Hazewinkel & Burgess, 2023），本文的创新在于：把校准本身视为一个统计估计问题，从而可以量化不确定性，而不仅仅是点估计。

三、主要定理 / 核心结果¶

本文有3个主要定理，对应三种校准敏感性模型：单倍率模型、双倍率模型和线性加倍模型。这里以最核心的“单倍率模型”为例。

【理论型论文】 定理 1（单倍率模型下的ATE边界） 1. 原文陈述（简述）：在单倍率假设下，ATE的可识别区间为 \( [L^*(\Lambda), U^*(\Lambda)] \)，其中 \( L^*(\Lambda) = \mathbb{E}[A Y / \pi(X) - (1-A) Y / (1-\pi(X))] - 2\Lambda \cdot \mathbb{E}[|m_1(X) - m_0(X)|] \)，上界 \( U^*(\Lambda) \) 有类似形式。对一阶估计量的双鲁棒改造，所提出的估计量 \( \hat{L}_{DR}(\Lambda) \) 满足 \( \sqrt{n}(\hat{L}_{DR}(\Lambda) - L^*(\Lambda)) \to N(0, V_L) \)，其中 \( V_L \) 是半参数有效界。 2. 直观解释：该定理给出了一个逻辑上可计算的下界。它表明，在允许未测量混杂最大效应为已测量混杂效应 \(\Lambda\) 倍时，真实的ATE不会低于某个值。这个下界可以分解为两部分：第一项是标准的IPW或AIPW估计量，它是“无视未测量混杂”时的ATE估计；第二项是一个惩罚项，它代表了未测量混杂可能带来的最大偏误。\(\Lambda\) 越大，惩罚项越大，下界（可能）越低。该定理证明了可以构造一个估计量，其收敛速率达到参数 \( 1/\sqrt{n} \)，并且方差是半参数有效界，这是该类极大极小边界估计问题的最佳可能表现。 3. 解决了什么技术难点：技术难点在于：边界 \( L^*(\Lambda) \) 是一个非光滑的、涉及绝对值函数的映射（来自 \( |m_1(X)-m_0(X)| \) 这一项），这使得传统的有效影响函数推导变得复杂。本文通过巧妙地分割样本（交叉拟合）以及利用非参数回归估计，成功构造了一个可忽略剩余项的双鲁棒估计量，并证明了该估计量的参数效率。 4. 适用条件与局限：该估计量适用于处理变量二值的情况，且要求倾向性评分和结果回归的估计量具有 \( n^{-1/4} \) 的收敛速率。其渐近理论依赖于部分线性模型假设。局限在于：灵敏度参数 \(\Lambda\) 的选择依然需要主观判断；此外，边界宽度正比于 \(\Lambda\)，过大的 \(\Lambda\) 会导致信息失效（区间包含0），而过小的 \(\Lambda\) 可能过于乐观。

四、证明框架 / 方法设计¶

【理论型论文】 - 证明主干逻辑：论文证明采用了标准的现代半参数推断框架：① 识别目标参数（如 \( L^*(\Lambda) \)）及其有效影响函数（EIF）；② 基于EIF构造双鲁棒估计量，并使用交叉拟合（sample splitting）来避免复杂的Donsker条件；③ 通过泰勒展开、经验过程理论，证明估计量的渐近正态性和方差有效性。 - 关键逻辑步骤（3步）： 1. 识别与影响函数：首先将ATE的下界 \( L^*(\Lambda) \) 识别为 \( \mathbb{E}[\varphi_l(O; \eta)] \) 形式，其中 \(\varphi_l\) 是EIF，\(\eta = (\pi, m_1, m_0)\) 是讨厌参数。这一步的关键是处理绝对值项并推导出相应的EIF。 2. 构造并计算交叉拟合估计量：将数据分成K折。对于每一折，用剩余K-1折数据估计 \(\hat{\pi}_{-k}, \hat{m}_{1,-k}, \hat{m}_{0,-k}\)。然后在该折上计算样本影响函数 \( \hat{\varphi}_l(O_i; \hat{\eta}_{-k}) \)。最终估计量 \( \hat{L}_{DR} \) 是所有个体样本影响函数的均值。 3. 渐近展开与误差控制：证明 \( \sqrt{n}(\hat{L}_{DR} - L^*) = \sqrt{n} \mathbb{P}_n \varphi_l(O; \eta) + o_p(1) \)。核心工作是将高阶余项（涉及 \( \hat{\eta} \) 的乘积项）通过 \( n^{-1/4} \) 收敛速率和交叉拟合结构控制为 \( o_p(1/\sqrt{n}) \)。 - 最关键的技巧性引理或"跳跃点"：技巧在于处理非光滑的绝对值和指示函数。当模型涉及 \( |m_1(X) - m_0(X)| \) 这种函数时，其影响函数不仅依赖于点估计 \( m_1(X) \) 和 \( m_0(X) \)，还需要对其导数进行估计。论文巧妙地利用了一种“线性化”技巧：通过将绝对值看作一个光滑函数（用平滑的包络函数近似），再结合对预测误差的泰勒展开，最终证明在这些非正则点上估计误差依然可控。 - 数学工具评价：这是经典双鲁棒半参数理论（如Bickel et al. 1993, van der Vaart 1998）在敏感性分析边界的非光滑目标参数上的精巧应用。没有开辟全新的分析框架，但通过巧妙的EIF推导和余项控制，解决了实际问题中一个重要的“光滑化”障碍，展示了经典工具解决非标准问题的高超技艺。

五、问题发现：研究者能做什么¶

研究者陈星宇的工具箱： - very_familiar: nonparametric statistics, minimax bounds, computation of higher-order U-statistics, estimation theory in causal inference, high-dimensional asymptotics, software development - moderately_familiar: HOIF, theory of higher-order U-statistics, semiparametric theory, identification theory in causal inference

(A) 立即可做 1. 问题表述：将本文的“单倍率校准敏感性模型”推广到纵向因果推断(longitudinal causal inference)环境中。具体地，假设有多个时间点的处理 \( A_1,...,A_T \) 和协变量 \( X_1,...,X_T \)，未测量混杂可能影响多个时间段。要估计的causal estimand是累积平均处理效应(CATE)。核心是：定义纵向数据下“已测量混杂强度”的合理度量（如路径平均效应），然后建立类似的校准模型，并证明其识别的ATE边界在双鲁棒估计量下仍能达到参数效率。 2. 用到武器库里的哪一项：estimation theory in causal inference (纵向因果推断的g-formula or G-computation / IPW的DR估计); high-dimensional asymptotics (涉及纵向的多个时间点，广义矩估计可能涉及高维特征); nonparametric statistics (使用交叉拟合和核平滑估计条件结果模型和倾向性评分)。 3. 第一步具体动作：阅读Bang & Robins (2005) 关于纵向DR估计的论文。写出本研究单倍率模型在纵向设定下的识别公式。以两期为例，假设 \( Y, A_1, X_1, A_2, X_2 \)，其中 \( A_2 \) 可能受未测量混杂 \( U_2 \) 影响。定义“已测量混杂强度”为 \( \mathbb{E}[m_1(X_1, A_1, X_2) - m_0(...)] \) 在某种均衡下的平均值。先推导出与定理1类似的ATE边界表达式，作为问题明确的泛函。 4. 与本文已有结果的关系：这是推广。将截面单倍率模型扩展到时序结构。如果能完成，就形成了纵向校准敏感性分析的首个严格半参数理论。

(B) 中期可做 1. 缺哪一块：HOIF的高阶偏差表达式。本文的边界估计量基于影响函数的一阶线性展开，其 \( n^{-1/4} \) 的收敛速率要求是针对双鲁棒项的。但若我们想放松对非参数组件光滑性的要求（例如允许更小的收敛速率），或者想构造一个方差估计量（不仅仅是点估计），需要了解更高阶的误差项结构。而在本文中，边界是绝对值函数，扰动可能产生非光滑的二阶项，HOIF对此类目标的分析不成熟。 2. 补哪1-2篇文献能补上：阅读Robins et al. (2017) “Higher-order influence functions in nonparametric efficiency theory” 和Liu et al. (2017) “Double/debiased machine learning for the ATE with high-dimensional confounders”. 前者系统介绍HOIF，后者用非参数回归处理绝对值目标，可作为分析“边界估计量”高阶行为的桥梁。 3. 补完之后能做什么：补完HOIF后，可以回到A档问题：针对纵向校准模型的ATE边界，推导其影响函数，并用HOIF构造一个更灵活的估计量，该估计量允许非参数预估器以 \( n^{-1/2.5} \) 等更慢的速率收敛，同时保持参数效率。这将大幅提升方法适用性。

(C) 暂不建议 1. 缺什么机器：本文的推断框架建立在点渐近理论（pointwise asymptotics）上，依赖于定常参数下的泰勒展开。如果你想探索在渐近序列框架下（即灵敏度参数 \(\Lambda\) 随样本量 \(n\) 变化，如 \(\Lambda = \Lambda_0 + c/\sqrt{n}\)）边界估计量的行为，你需要更高阶的局部渐近展开（如高阶Edgeworth展开）或经验似然的纠偏技术。这超出了我们武器库中常规的非参数和半参数理论。 2. 为何从武器库内不易绕过去：直接使用“求偏导 - 泰勒展开 - 控制余项”的经典模式只能处理点渐近情况。要进行局部参数分析，需要将问题提升到更高阶的渐近理论层面，比如子抽样方法或二次抽样分布方面，这涉及的概率理论和组合技巧较为专业。从武器库出发，直接处理这种设定会非常费力，且对理论贡献的增量存疑（因为新模型本身的复杂性已足够）。 3. 若全部在武器库内，写“无”。

值得精读的关键参考文献： 1. Bang, H., & Robins, J. M. (2005). Doubly robust estimation in missing data and causal inference models. 理由：如果想将本文方法推广到纵向设定（A档问题），该文提供了纵向数据下双鲁棒估计的标准框架，是必须的入口文献。 2. Robins, J. M., Li, L., Tchetgen, E. J. T., & van der Vaart, A. W. (2017). Higher-order influence functions in nonparametric efficiency theory. 理由：这是本文（以及很多半参数工作中）将高阶误差结构规范化、并允许更灵活的余项控制的关键理论工具。对B档问题的达成至关重要。 3. VanderWeele, T. J., & Ding, P. (2017). Sensitivity analysis in observational research: Introducing the E-value. 理由：本文的“校准”思想与E-values的理念（将可观测关联倍数约束未观测混杂）有异曲同工之处。理解E-values能更好地理解本文敏感性参数的解释力度。

六、延伸思考与练习¶

假设扰动：若修改关键假设部分线性结构（即放松 \( \mathbb{E}[Y | A, X, U] = g(A, X) + \gamma A U \) 为一般非参数结构 \( \mathbb{E}[Y | A, X, U] = h(A,X,U) \)），则“未测量混杂强度”的定义（\(\Delta_u\)）会变得模糊且依赖于具体模型。这会破坏校准模型的简洁性和可解释性，并使有效影响函数的推导变得极其复杂。技术上可能需要使用非参数敏感性分析框架（如基于不响应或代理变量的方法），这就要求运用identification theory in causal inference（moderately_familiar）中的非参数识别理论，以及Variance-based sensitivity analysis（高维积分技术）来量化U对Y的贡献。这个扰动后的问题落入A档？不，它属于C档——新的非参数识别和积分技术需要外部工具。
开放问题：
哪个“已测量混杂强度”的定义最优？：本文选用了 \( \mathbb{E}[m_1(X) - m_0(X)] \) 作为度量。在非参数或高维情境下，是否存在更稳健、或更容易进行校准（即更容易被研究者解释）的替代度量？例如，用“处理组协变量分布差异”的某种核方法度量？对此问题的回答需要深入信息理论和不平衡性度量（overlap）。这属于A档问题：可以用现有的估计理论工具探索不同定义下的EIF，并比较效率。
如何选择/推断 \(\Lambda\)？：用户必须主观指定 \(\Lambda\)。是否有数据驱动的办法？例如，如果研究有多个处理组或多个校准协变量，能否通过组间或变量间的约束来识别 \(\Lambda\)？这属于B档问题：本质上是一个模型选择 / 因果交叉确认问题，类似于倾向性评分匹配中方差权衡的交叉确认。需要深入identification theory in causal inference来探索这种约束是否可行。
理解检测题：问题：假设在单倍率校准敏感性模型下，你估计的ATE下界 \(\hat{L}_{DR}(\Lambda)\) 对 \(\Lambda\) 的灵敏度很高：当 \(\Lambda = 1\) 时，下界在95%CI中显著为正；但当 \(\Lambda = 1.1\) 时，下界变为负数。如何解释两种不同的结论？你还需要什么额外的信息来调和这一矛盾？（提示：考虑已测量混杂估计 \(\hat{\Delta}_m\) 的不确定性，以及估计量 \(\hat{L}_{DR}(\Lambda)\) 中的交叉拟合方差。）

Maintained by 陈星宇 · Homepage · Source on GitHub