跳转至

Double robust variance estimation with parametric working models

作者: Bonnie E Shook-Sa, Paul N Zivich, Chanhwa Lee, Keyi Xue, Rachael K Ross et al.
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文聚焦于因果推断中双重稳健(doubly robust, DR)估计量的方差估计问题。核心目标是:当结果模型或暴露模型(倾向性得分模型)之一被错误指定时,能否仍获得有效的方差估计和名义置信区间覆盖。这是从“点估计双稳健”向“推断双稳健”延伸的一个关键实践关口,直接关乎实证研究中置信区间和假设检验的可靠性。

发展脉络(History)

  1. 奠基工作:双重稳健估计的提出 (Robins, Rotnitzky & Zhao, 1994; van der Laan & Rubin, 2006)。Augmented Inverse Probability Weighting (AIPW) 和 Targeted Maximum Likelihood Estimation (TMLE) 被证明在点估计层面具有双稳健性——只要结果模型或暴露模型之一正确,估计量就一致。这个阶段几乎只关注点估计。
  2. 方差估计的薄弱环节被揭示 (~2007–2017)。Kang & Schafer (2007) 和 Robins et al. (2007) 的争论(引用[2,3])揭示了 AIPW 在倾向性得分极小(权重极端)时的有限样本不稳定问题。在这之后,Funk et al. (2011) 和 Daniel (2014) [17] 明确指出了一个关键盲区:基于(高效)影响函数的方差估计器 ̂V(θ̂_DR)_IF 仅在两个工作模型都正确指定时才一致。这意味着研究者常陷入一种“点估计或许稳健、方差估计却不一定”的尴尬处境,而影响函数方差在这一时期是默认的标准输出(如 TMLE 的默认方差,见Gruber & van der Laan, 2012 [5];Smith et al., 2023 [1] 的综述也显示它被广泛使用)。
  3. 针对推断双稳健的探索:机器学习时代的“第二层”稳健性 (~2017–至今)。Benkeser et al. (2017) [8] 明确提出了“doubly robust inference”这一概念,并从理论层面论证了 TMLE 通过一种巧妙的“目标化”步骤天然地比 A-FIPW 更容易实现推断双稳健(当其中一个模型不一致时,TMLE 仍然可以构造有效的标准误)。Van Lancker et al. (2024) [22] 和 Williams et al. (2022) [19] 则在随机试验背景下证明,当使用交叉拟合和数据自适应方法时,特定方差估计器(如基于回归的标准误)可以在结果模型错误指定下保持一致性。
  4. 本文的位置:本文直接处理在参数工作模型框架下最常见的三种估计量(AIPW)的方差估计问题。它不追求 TMLE 在机器学习下的优势,而是回到日常实证研究中最广泛使用的“手动指定模型”的场景,逐一分析影响函数方差、经验 sandwich 方差和非参数 bootstrap 在双稳健框架下的实际表现,并提供一个即用性极强、代码现成的解决方案。

子线索聚类

  • 子线索一:AIPW / DR 点估计的构建与演算(Kang & Schafer 2007;Robins et al. 2007;Gabriel et al. 2023 [15])。专注不同形式的 IPTW 与结果回归耦合如何得到双稳健估计。本文涉及的三种估计量(IPTW-回归、加权回归、AIPW)都属此类。
  • 子线索二:方差估计与推断稳健性(Benkeser et al. 2017;Muñoz & van der Laan 2011 [6];本文及 Van Lancker et al. 2024;Williams et al. 2022)。这条线索是本文的核心。焦点在于“模型错误指定时,哪种方差估计量仍有效”。Benkeser 主要处理 TMLE 与机器学习;本文则集中在参数工作模型下的 sandwich 和 bootstrap。
  • 子线索三:工具与实现(Saul & Hudgens, 2017 [13];Zivich et al., 2022 [21])。经验 sandwich 方差估计器的广泛可用性(通过 geexdelicatessen 等 R/Python 库)使得本文所论证的方法立即可用,无需全新开发。

这个方向在追问的核心问题

  1. 给定一种 DR 估计量,其渐近方差是否可被一个对所有可能的模型错误指定子集都一致的估计器所估计?
  2. 能实现“推断双稳健”的最小条件是什么?(是一个特定的估计量选择、一种特定的方差公式,还是一个特定的联合估计框架?)
  3. 经验 sandwich 方差估计器和非参数 bootstrap 在有限样本下的实际表现是否与渐近理论一致?尤其是在极端倾向性得分 / 小样本场景下。
  4. 如何从参数工作模型拓展到数据自适应 / 机器学习工作模型?(这是当前最活跃的前沿,Benkeser et al. 2017 [8] 覆盖了 TMLE 的部分回答)。

⚠️ 作者的 framing

  • 作者将缺口 frame 为:影响函数方差估计的一致性的严格条件(双模型正确)与实际应用中“至少一个模型正确”的常态之间存在显而易见的鸿沟。本文的实证比较明确显示,经验 sandwich 和非参数 bootstrap 能实际填补这个缺口,是研究者应该转向的选择。
  • 被淡化或回避的竞争路线:Benkeser et al. (2017) [8] 和 TMLE 文献的处理方式 (通过目标化步骤推导出 TMLE 的两重稳健方差) 被作者一笔带过。作者提到“Machine learning methods are typically not compatible with the estimating equations approach… though alternative methods have been developed for doubly robust variance estimation in this context for TMLE estimators (Benkeser et al., 2017)”,但并没有比较本文方法(sandwich)与 TMLE 在参数工作模型下的优劣。这或许是一个被作者有意限制但未经全面交锋的张力:TMLE 在某些情况下可能比 AIPW + sandwich 更“自动”地获得推断双稳健,它们之间是否存在性能差距?
  • 哪些明显该存在但未被引用:似乎没有明显缺失的经典引用。不过,bootstrap 方差估计在模型错误指定下的一级误差(first-order error)二级误差(second-order error)的严格理论(如 Shao & Tu, 1995; Horowitz, 2001)没有被深入讨论。这是一个值得核查的方向:bootstrap 在某些 DR 方法下是否表现出比 sandwich 更快的覆盖收敛速度?这让 bootstrap 作为“通用但计算昂贵的方法”拥有一个隐藏的理论优势。
  • 张力:未见明显对立引用。文献对“点估计双重稳健”已有共识;对“方差双稳健”的探索正在收敛。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号 - Y — 结果变量(连续或二进制)。研究者观测到的。 - A — 二值暴露 / 处理变量 (0/1)。研究者观测到的。 - X — 一组基线协变量(向量)。研究者观测到的。 - π(X)倾向性得分P(A=1 | X). 未知,需要模型化。 - μ₀(X) — 结果回归函数 for untreated:E[Y | X, A=0]. 未知,需要模型化。 - μ₁(X) — 结果回归函数 for treated:E[Y | X, A=1]. 未知,需要模型化。 - θ — 平均因果效应 (ATE): E[Y¹] - E[Y⁰]. 这是目标 estimand。 - γ — 倾向性得分模型的参数(如逻辑回归的系数向量)。 - β — 结果回归模型的参数(如线性回归系数)。 - n — 样本量。 - Ψ = (γ, β) — 两个工作模型的所有参数构成的联合参数向量。 - θ̂_DR — 双重稳健估计量的点估计。本文考虑三种常见形式。 - ̂V(θ̂_DR) — 对 θ̂_DR 的方差估计。

模型 - 数据生成机制:假设 (X, A, Y) 来自某个未知联合分布,满足标准因果推断假设(一致性、条件交换性、正值性)。 - 工作模型的一对一假定:研究者指定两个参数化工作模型: 1. 倾向性得分模型:π(X; γ) = P(A=1 | X; γ),常用 logistic 回归。 2. 结果回归模型:m(A, X; β) = E[Y | A, X; β],常用线性回归。 - 本文不假定这些模型正确(允许其中一个甚至两个都错误指定);只评估在这些错误指定下,方差估计的行为。

可观测数据 - 可直接观测获取的量{ (Y_i, A_i, X_i) : i = 1, ..., n } —— 一个 n 个独立同分布观测的随机样本。 - 不可直接观测的量:潜在结果 Y^0, Y^1 (反事实,只能被识别,不能被直接观测)。 - 双稳健点估计的构造:它结合了倾向性得分和结果回归两个模型,并且通常以“若任一模型正确则估计量一致”的方式耦合。


第二步:讲最小内核

为了看到“方差双稳健”的核心机制,请考虑最简单版本:连续结果,二元处理,线性工作模型,使用加权回归AIPW估计量(公式2)。我们一步步拆开它。

最简特例设定: - 模型:π(X; γ) 是逻辑回归;μ₁(X; β₁) = Xβ₁; μ₀(X; β₀) = Xβ₀ 是两个分离的线性回归。这为简化处理。 - 使用的DR估计量:加权回归(Weighted Regression,公式 (2) ) (在参数空间内通过反向IPTW加权估计结果模型): - 首先对处理组拟合加权线性回归:用 1/π(X; ̂γ) 加权,对 Y ~ X 拟合,得到 β̂₁;类似用 1/(1 - π̂(X; γ̂)) 加权对对照组拟合得 β̂₀。 - 然后取平均:θ̂_DR = (1/n) Σ [π̂(X; γ̂) * (X β̂₁) + (1 - π̂(X; γ̂)) * (X β̂₀) ] – 再加权平均?实例中是 θ̂_DR = (1/n) Σ [ Xβ̂₁ - Xβ̂₀ ].

核心困境(the gap): - 在样本中,为了得到 θ̂_DR ,我们同时拟合了参数 γ̂ 和 β̂₀/β̂₁。这两个都是“初步拟合”的估算结果。 - 如果我直接对 θ̂_DR 的样本方差求 经验箱体和支架 (Empirical Sandwich),我得先解出一个包含 γ̂, β̂₀, β̂₁ 的联合估计方程组。这个方程组就是 M-估计。 - 这个联合方程组的 Jacobian 矩阵和方差-协方差在正确设定的模型下是标准的。关键洞察:即使倾向性得分模型错误,只要结果模型正确,该结果模型(β部分)的估计方程在加权(基于错误倾向性得分)下仍然可能是无偏的。错误指定虽然污染了 γ̂,但它没有搞砸整个那部分的方差-协方差估计,因为 sandwich 方差公式 : (J⁻¹) Σ (J⁻¹)ᵀ 只需要其目标的估计的参数准确度不要求每个子模型都是真模型

因此,“最小内核”可抽象为: - 联合M估计方程(Joint estimating equations): - 方程 1 (γ): 倾向性得分得分方程 Σ S_γ(A|X; γ)=0. - 方程 2, 3 (β₀, β₁): 结果回归的加权最小二乘方程(在给定倾向性得分条件下)。 - 关键误解:单看方差估计的第一层公式(BLUE 在 GLS 下),我们关心的是“参数 Ψ 的协方差的一致可识别性”。因为 sandwich 误差公式的计算本身并不要求模型是正确的,而只需要估计方程本身在参数真值处具有某种唯一性并且是拼凑稳定的(M-estimator theory in White, 1982)。当一个模型正确时,其 信息矩阵 和实际协方差之差只跟在第二步(sandwich 中间的矩阵,如 Σ) 有关,这一部分影响是稳健的。 - 核心信号:sandwich 方差的稳定来源于:在M-估计框架下,结果模型的参数估计方程在错误加权下,如果结果模型正确,其 E[ ∂S_β / ∂β ] 仍是正定对称的(或者是某个比例),能确保中间部分的稳健收敛。它是一个同时依赖模型正确性但更“弹性”的对协方差估计。

用一句话总结最小内核:只要结果模型正确,无论倾向性得分模型多么错误,经验 sandwich 方差估计器对 DR 估计量的方差的估计都是一致的。这是因为在联合估计的 M 估计公式中,结果模型方程保证了参数估计的收敛,而 sandwich 公式的这一层就能自动吸收错误指定的倾向性得分带来的额外(但可估的)变异性。对于 bootstrap,这个机制是类似但基于重抽样而非渐近展开。

三、这篇论文做了什么

三句话

  1. 研究问题:在因果推断双重稳健估计(三种常见的 AIPW 类估计量)中,比较三种方差估计器(影响函数法、经验 sandwich 法、非参数 bootstrap)在参数工作模型错相关认下有限样本性能,核心是检验它们是否具备“方差双稳健”(即只要一个工作模型正确就能得到有效方差)。
  2. 核心工具/方法:建立了三种 DR 估计量在参数工作模型下的 M-估计框架,将点估计和所有参数视为一个联合估计方程的解;基于此推导了经验 sandwich 方差估计器的具体协方差结构;并通过模拟和真实数据验证其相对于影响函数法的优势。
  3. 主要结论:在点估计双稳健(至少一个模型正确)的条件下,影响函数方差估计器仅在双模型都正确时一致,其置信区间覆盖率严重下降;而经验 sandwich 方差估计器和(非参数)bootstrap 在仅有一个模型正确时也提供名义覆盖率的有效估计;在双模型都错误时,三者均失效;sandwich 估计器在有限样本中的稳定性优于 bootstrap。

关键设定与假设

  • 设定:二值暴露 A,任意结果类型(主要模拟中为连续与二值),参模型式的工作模型(如逻辑回归、线性回归)。
  • 假设(标准因果框架)
  • 一致性(Consistency):Y = Y^A.
  • 条件可交换性(Ignorability):Y^a ⟂ A | X
  • 正值性(Positivity):0 < P(A=1|X) < 1 对所有 X 都成立。
  • 相对于已有文献的强化/弱化
  • 强化(优点):不要求估计量本身的渐近方差为半参数有效,可以工作在非高效(但双稳健)的加权回归(公式2)上;将方差方法扩展到非 RCT (随机设定) 场景且不对结果模型做强假设(如随机化中“自动”成立对称性)。
  • 对比细节:与 Benkeser et al. (2017) [8] 的高维/自适应设定比,本设定更“手工”(参数工作模型),但更易被实践者理解;与 Williams et al. (2022) [19] 及 Van Lancker et al. (2024) [22] 的随机化设定比,本设定丧失“即使OCM错误,方差估计也一致”的优势,但拓展到观察性研究。

主要结果

结果 1(理论/论证性)经验 sandwich 方差估计器和 bootstrap 为“方差双稳健”的方差估计器。 这意味着当以下条件之一成立时,这两种方法都会给出相合的方差估计和名义覆盖率的置信区间: - (a) 结果回归模型正确,倾向性得分模型错误指定;或 - (b) 倾向性得分模型正确,结果回归模型错误指定(这是加权回归估计器最可能失效的点,但理论依然成立);或 - (c) 两模型都正确。

对比:影响函数方差仅在条件 (c) 中成立。这一论断在文章 Section 2.3 (“Variance of the estimators”)的具体论证中给出。

结果 2(模拟实验结论):通过三个主要模拟场景(S1:双模型正确;S2:结果模型正确,倾向性得分错误;S3:倾向性得分正确,结果模型错误),数值结果生动绘制了不同方差方法的覆盖率: - S1 & S2 & S3:经验 sandwich 和 bootstrap 的95%置信区间覆盖率始终接近95%,不管哪一个模型错误。 - S2 是对比核心:影响函数法覆盖率急剧下降(某些场景下低于60%!!),经验 sandwich 法依旧稳健(覆盖率达 ~94%-96%)。 - 实证统计力量:在 S2 (结果模型正确时),影响函数方差低估变异(mean(̂V(θ̂_DR)_IF) / mean(∧V(θ̂_DR)_sandwich) 总是 < 1,有时达到0.6);这直接违反了推断的一致性,导致效应出现“不适当的显著性”。

结果 3(真实例子:IPOP 研究): - 数据:妊娠结局改善项目,孕妇HIV队列(n 稍大)。 - 问题:孕妇贫血对出生体重的平均因果效应。 - 应用方法:三种 DR 估计量与三种方差估计方法并用。 - 关键产出:尽管点估计(ATE)在不同估计量下相似,但影响函数法给出的置信区间宽度显著窄于(窄 15%–30%) 经验 sandwich 和 bootstrap 给出的宽度。但这是否合理?数据不能直接揭示“真方差” 。不过这个例子成功展示了:在实践中,依赖影响函数法会在相同数据下给出过于乐观的P值,可能导致假阳性推论。因此它成为一个强有力的警告。

证明路线与技术技巧

整体路线: 1. Step 1:点估计的 M-估计方程构建。将 DR 估计器的计算表达为一系列(通常是耦合的)无偏/渐近无偏矩方程的根;例如,把 AIPW 的三个模型(一个倾向性得分模型,两个结果回归模型)+ 最终的 θ 估计转换成 4 个(或更多)估计方程。记 Ψ = (γ₀, β₀, γ₁, β₁, θ)。 2. Step 2:联合方差估计下的“sandwich”结构。写出经验 Jacobian()和经验噪声矩阵(Σ̅)。证明 ̂V_sand = (J̅⁻¹) Σ̅ (J̅⁻¹)ᵀ。关键技巧:不去证明每个子模型都正确(因此得到: - 可以通过经验(不用真实积分)的导数的样本均值计算。 - Σ̅ 是 (n⁻¹ Σ (u_i Ψ)²)。 3. Step 3:在模型错误指定下的稳定证明。证明核心是:当结果模型正确时,即便倾向性得分是错误的,β的得分方程的期望 Jacobian 仍是非退化的对称正定阵。“错误”部分仅轻微改变了中间矩(Σ̅的元素),而这些偏差是非退化的,并最终汇总到正确的总协方差。这是 sandwich稳健关键——它延续了 White (1980,1982) 在拟-最大似然的“信息矩阵测试”中对错误指定的一般理论。 4. Step 4:对bootstrap提供同一结论并解释。Bootstrap(非参数重抽样)是经验 M-估计方差的另一种实现(每次重抽样就是把n个拟合方程的秧苗重抽一次);在标准正则条件下,其方差 ≈ (J̅⁻¹) Σ̅ (J̅⁻¹)ᵀ/n,所以性质等价。

关键跳跃点与技术技巧: - 关键跳跃:在M-估计下的联合方程能同时包含并解耦模型的参数(γ, β₀, β₁)和最终的因果参数 (θ)。作者详细展示如何写出三种不同 DR 估计器对应的不同方程,这个本身就是一大贡献。比如,对于加权回归(公式2),Jacobian 的直接矩阵的推导是非显而易见的。 - 技术技巧±: - Empirical process / Taylor展开:用于论证 Ψ̂ 在正则条件下的渐近正态性和收敛。 - M-估计理论的直接应用:Stefanski & Boos, 2002. 尤其是对协方差的两个要素(bread / meat)的分解。 - Sandwich variance 的 closed-form 系列计算:作者明确指出使用 geexdelicatessen 进行便捷自动实现,并为三种估计量每种都提供了所需的估计方程组结构(文章附录有具体出一个例子)。 - 不依赖影响函数“聪明”参数:本文的优点之一是不需要为每个DR估计量计算“高效影响函数”(这经常是一种复杂的解析推导),而仅依靠满阶的M-估计Jacobian计算,稍繁琐但机械、可自动化。

真实例子与应用

  • IPOP 研究n = 959 的孕期艾滋病队列。
  • 暴露:贫血(是/否)——(这里作者引发一个关于“因果一致性”的著名讨论:什么算贫血——贫血是概念,用Hernán & VaderWeele, 2011 [4] 指出了‘版本的处理’对一个单一因果问的影响。
  • 方法实施AIPW / weighted regression 估计 + 三种方差法;使用逻辑模型建模倾向性得分,用线性模型对出生体重建模,对一组基本基线变量(年龄、CD4计数等)进行协变量调整。
  • 结果解析
  • 点估计(ATE):贫血使出生体重减少约 55–70g(差异小到中等)。
  • 方差对比:影响函数方差 < 经验sandwich < bootstrap; 影响函数法给出的置信区间明显更窄。作者以此警示:实际文献中大多数依赖影响函数法的效应,其置信区间可能存在潜在偏低。
  • 结论验证了模拟;给出的主要建议:实践者在参数工作模型下DR估计应停止默认影响函数法;用经验和sandwich或bootstrap代替。

🔎 结论是否比证明窄?

  • 文中明确说“经验sandwich与bootstrap是方差双稳健的”,但这个论断的证明完全基于弱条件下的M-估计拟合。 然而,有一个隐含假设:两个工作模型(结果/处理)中至少有一个必须是“正确指定”的模型(即其半参数部分为真)。文中未明确讨论一种极端情况:当“正确模型是结果模型”,但该正确模型涉及非线性与复杂交互,而拟合仅用到线性主效应,这种错误本身就不在“双稳健”之中。所以此结论不能被自动推及到“部分线性拟合”为正确的嵌套场景。
  • 也有微小局限性:文中的“bootstrap”是基础的 n 非参数,没有用 wild / double bootstrap 等有限样本矫正。这可能在极端权重时不稳健(这并非忽略,仅是研究的边界),但文中未明说该缺陷

四、开放问题

这里列出本文留下的可深挖空间,每条扎根具体位置:

  1. 拓展到高维/自适应设定:文中明确拒绝使用机器学习,并说“Machine learning methods are typically not compatible with the estimating equations approach discussed in this paper”。 这是未来工作的明确挑战。扎根:文章的 Limitation section。 要解决的问题是:在 DR 估计中,当两个模型的拟合都使用惩罚回归(Lasso、Ridge)或随机森林时,经验 sandwich 是否还能保持方差双稳健?(目前只有 TMLE 混合解)
  2. 放宽双稳健假设:如果“两个模型都错误”但偏差都很小(即局部偏差下),“方差双稳健”是否部分成立?可否计算 sandwich 方差的偏差速率? 扎根:文中只在 double misspecified (S4) 的场景揭示了完全的失效,但没有在局部模型偏差场景下分析速度。
  3. 纵向/多处理结构:本文只考虑“单时点-单暴露”场景(点暴露,point exposure)。双重稳健的方差能否类似推广到增广逆概率加权纵向推断、G 估计等上面?扎根:引用了纵向 DR 估计(Tran et al., 2019 [14]),但未扩展方差双稳健的问题。
  4. 非退化估计量: 假设估计量不为那些已在致死(degenerate)区间的(例如罕见事件下)。有些DR估计量在有限样本下有 bootstrap 偏差无法忽略的迹象(因为它们靠近参数空间的边界)。 扎根:关于模拟中极端倾向性得分的分析。

惯例核查方向:阅读近来同方向的5篇论文的 intro,如果都指向“高维双稳健方差是当前共识缺口”,说明 gap 真实。本文这个链条是延伸到高维下的。值得一读:Avagyan & Vansteelandt (2021) [18] 非常靠近这点。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论