跳转至

Improving Variance and Confidence Interval Estimation in Small‐Sample Propensity Score Analyses: Bootstrap Versus Asymptotic Methods

作者: Baoshan Zhang, Sean M. O'Brien, Yuan Wu, Laine E. Thomas
来源: Statistics in Medicine
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向关注的是观察性研究或小样本随机化研究中,因果效应估计量的推断问题,具体而言:当使用倾向性评分(Propensity Score, PS)方法(如 IPTW、AIPW)估计平均处理效应(ATE)时,如何准确估计其方差并构建置信区间?核心矛盾在于:ATE 估计量通常是 PS 的非线性函数,而 PS 本身又是从数据估计出来的,因此 ATE 估计量的方差必须同时包含"PS 估计的不确定性"。在大样本下,渐近理论(如三明治方差估计量)已相对成熟;但在小样本(如罕见病研究、单臂试验外部对照)下,渐近近似可能失效,而 Bootstrap 方法又面临计算稳定性与理论保证的双重挑战。当前该方向已从"大样本渐近理论"走向"小样本修正与实用指南",成熟度较高,但仍有大量工程性、经验性的问题未形成共识。

发展脉络

作者在 Introduction 中梳理了一条清晰的文献线索:

  1. 奠基工作(PS 方差的识别与分解)

    • Rosenbaum & Rubin (1983):提出倾向性评分,奠定了 PS 匹配、分层、加权的方法论基础。
    • Robins, Rotnitzky & Zhao (1994)Bang & Robins (2005):提出了 AIPW(Augmented IPTW)估计量,具有双重稳健性,并给出了影响函数理论,为方差估计提供了渐近理论基础。
    • 这里的核心问题是:PS 是估计出来的,因此 ATE 的方差必须考虑 PS 估计的贡献。
  2. 主要进展(方差估计方法的两条路线)

    • 路线一:渐近方差估计。利用 M-估计理论或影响函数推导"三明治方差估计量"。
      • Lunceford & Davidian (2004):详细给出了 IPTW 和 AIPW 的渐近方差公式,是本文比较的基准之一。
      • 这类方法在大样本下有理论保证,但在小样本下表现未知。
    • 路线二:重抽样方法
      • Efron & Tibshirani (1993):经典的 Bootstrap 理论。
      • Austin (2009)Austin & Small (2014):比较了 Bootstrap 与渐近方法在 PS 匹配中的表现,发现 Bootstrap 在大样本下表现更好,但未系统考察小样本场景。
      • Hill & Reiter (2006):指出在 PS 匹配中,Bootstrap 的方差估计存在不确定性,因为匹配集合在 Bootstrap 样本中不稳定。
  3. 当前 Frontier 与本文的 Gap

    • 小样本与罕见病场景:随着罕见病研究与外部对照试验的兴起,样本量 \(n\) 可能极小(如 \(n=50\) 甚至更少)。此时渐近理论是否成立?
    • PS 固定 vs 重估:在方差估计中,一种常见做法是将 PS 视为"固定已知"(Fixed PS),认为这样会低估方差从而得到"保守"的置信区间。另一种做法是在 Bootstrap 每次重抽样中重新估计 PS(Re-estimated PS)。Austin & Small (2014) 曾指出重估 PS 可能更准确,但在小样本下,重估 PS 极易引发"准分离"(Quasi-separation)问题——即某个协变量完美预测处理分配,导致 PS 为 0 或 1,Logistic 回归系数发散,方差估计失效。
    • 本文的位置:作者指出,现有文献缺乏在小样本、低事件率条件下对 Sandwich 与 Bootstrap 的系统比较,尤其是"准分离"问题如何处理、Fixed PS 是否真的保守,这些均无定论。本文旨在填补这一空白。

子线索聚类

被引文献大致落在三条子线索上: 1. PS 加权估计量的理论构建:Rosenbaum (1983), Robins (1994), Bang (2005), Lunceford (2004)。这一支解决了"估什么"和"渐近方差是什么"的问题。 2. Bootstrap 在因果推断中的应用与局限:Austin (2009, 2014), Hill (2006)。这一支解决了"怎么算"的问题,并指出了 Bootstrap 在匹配问题中的理论困境(匹配集合不稳定),但在加权问题上相对可行。 3. 小样本与分离问题:Heinze & Schemper (2002)(处理分离问题的 Firth 校正,本文引用但未采用)、外部对照试验相关文献。这一支是本文的实际应用背景。

这个方向在追问的核心问题

  1. PS 估计的不确定性如何传递给 ATE 估计量?(理论问题,已有成熟答案:影响函数 / 三明治公式)
  2. 在小样本下,渐近正态近似是否仍然可靠?(推断问题,本文核心)
  3. 在小样本下,Bootstrap 是否优于渐近方法?哪种 Bootstrap(Fixed vs Re-estimated)更稳健?(计算问题,本文核心)
  4. 当面临准分离时,如何稳定方差估计?(技术问题,本文提出分层 Bootstrap)

⚠️ 作者的 framing

  • 作者如何定义缺口:作者将缺口 frame 为"小样本 + 准分离风险"下的推断危机。他们强调现有文献多关注中大样本,而罕见病/外部对照试验的小样本特性使得"Sandwich 失效"和"Bootstrap 崩溃"成为现实威胁。
  • 竞争路线的淡化
    • Firth 校正 / Penalized PS:作者引用了 Heinze & Schemper (2002),知道分离问题可以通过惩罚似然(如 Firth 校正)解决,但在正文中并未将其作为主要比较对象,而是选择了"分层 Bootstrap"作为解决方案。这可能是为了保持方法的"非参数性"——Firth 校正仍依赖于模型设定的正确性。
    • Bayesian PS:Introduction 未提及贝叶斯方法(如 PS 的后验分布积分),这也是处理小样本不确定性的另一条强有力路线,被作者回避了。
  • 缺失的引用:关于小样本方差修正的更高阶理论(如 Bootstrap 的 Edgeworth 展开修正、小样本偏差校正)在 Introduction 中未见引用。这可能是作者有意聚焦于"应用导向的方法比较",而非"理论推导"。

张力

未见明显对立引用。主流观点一致认为:大样本下 Bootstrap 优于 Sandwich;小样本下问题复杂。本文的张力在于:常识认为"Fixed PS 方差估计更保守",而作者通过模拟发现这一常识在小样本下并不成立——Fixed PS 有时反而会低估方差(因为忽略了 PS 估计带来的偏差-方差权衡)。这是本文最有价值的反直觉发现。


二、最核心、最简单的例子 / 数学问题

在展开论文的模拟设计之前,我们先确立符号、模型与可观测数据,然后用一个最简单的特例说明方差估计的难点。

第一步:符号、模型与可观测数据

符号定义: - \(n\):样本量(本文关注小样本,如 \(n=50, 100\))。 - \(Z_i \in \{0, 1\}\):第 \(i\) 个个体的处理分配(Treatment),\(Z_i=1\) 表示接受处理。 - \(Y_i\):观测到的结局(Outcome),可以是连续或二值。 - \(X_i \in \mathbb{R}^p\):协变量向量。 - \(Y_i(1), Y_i(0)\):潜在结局。 - \(\tau = E[Y(1) - Y(0)]\):平均处理效应(ATE),这是我们要估计的目标参数。

模型(数据生成机制): - 处理分配机制\(Z_i \perp\!\!\!\perp \{Y_i(0), Y_i(1)\} \mid X_i\)(无混淆假设)。 - 倾向性评分\(e(X) = P(Z=1 \mid X)\)。真实模型中 \(e(X)\) 未知,需估计。 - 结局模型\(E[Y \mid Z, X]\) 未知(若使用 AIPW,需估计此模型;若使用 IPTW,理论上无需估计,但实际中常需建模)。

可观测数据: 研究者只能观测到 \(O_i = (X_i, Z_i, Y_i)\),其中 \(Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)\)。 - 不可观测部分\(Y_i(1), Y_i(0)\) 以及真实的 \(e(X_i)\)。 - 估计对象\(\hat{\tau}\)(ATE 的估计量)及其方差 \(\widehat{\text{Var}}(\hat{\tau})\)

第二步:最小内核——为什么小样本下方差估计这么难?

考虑最简单的情形:\(n\) 很小,且处理组极少

核心数学困难: 1. Sandwich 方差的失效: Sandwich 方差公式 \(\widehat{\text{Var}}_{sandwich}(\hat{\tau})\) 依赖于渐近理论 \(\sqrt{n}(\hat{\tau} - \tau) \to N(0, \Sigma)\)。在小样本下,这个近似有两重偏差: - 偏差一:PS 估计的偏差\(\hat{e}(X)\) 是通过 Logistic 回归估计的,在小样本下 \(\hat{e}(X)\) 的偏差很大,且这种偏差会通过 IPTW 权重 \(1/\hat{e}(X)\) 放大。 - 偏差二:正态近似的偏差\(\hat{\tau}\) 的有限样本分布可能严重偏斜,尤其是当权重 \(1/\hat{e}(X)\) 极大(即某些处理组个体的 PS 极小)时,分布会有长尾,Sandwich 给出的对称置信区间会失效。

  1. Bootstrap 的困境(准分离): 假设真实 \(e(X)\) 在某个区域接近 0(比如某类人几乎不接受处理)。在 \(n=50\) 的小样本中,Bootstrap 重抽样时,很有可能抽到的样本里,这一类人全是 \(Z=0\)
    • 此时,Logistic 回归会面临准分离:协变量 \(X\) 的某个线性组合完美预测 \(Z=0\)
    • 后果:Logistic 回归的 MLE 不存在(系数趋向 \(\infty\)),软件通常会给出极大的系数估计或报错。
    • 这导致 \(\hat{e}(X) \approx 0\)\(\approx 1\),进而 IPTW 权重 \(1/\hat{e}(X)\) 爆炸,方差估计失效。

最简特例: 设 \(X\) 为一维二值变量(男/女),真实 \(P(Z=1|男)=0.1, P(Z=1|女)=0.5\)。样本 \(n=50\),其中男性 20 人。 - 在 Bootstrap 一次重抽样中,可能抽到的 20 个男性全是 \(Z=0\)。 - 此时 Logistic 回归拟合 \(\text{logit}(e(X)) = \beta_0 + \beta_1 \cdot \text{Male}\),会发现 \(\beta_1 \to -\infty\)(因为 Male 完美预测 \(Z=0\))。 - 程序报错或给出 \(\hat{e}(\text{Male}) \approx 10^{-10}\)。 - 若该样本中恰好有一个男性是 \(Z=1\)(处理组),则其权重 \(1/\hat{e} \approx 10^{10}\),完全主导 ATE 估计,方差趋于无穷。

本文的破题思路: 作者提出的解决方案极其朴素:分层 Bootstrap(Stratified Bootstrap)。 - 强制在 Bootstrap 重抽样时,保持处理组和对照组的样本量比例与原样本一致。 - 即:从 \(Z=1\)\(n_1\) 个个体中有放回抽取 \(n_1\) 个;从 \(Z=0\)\(n_0\) 个个体中有放回抽取 \(n_0\) 个。 - 为什么有效? 它避免了处理组被"抽空"或"抽成纯度极高"的情况,从而极大降低了准分离发生的概率,稳定了 PS 估计。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在小样本倾向性评分分析中,比较了 Sandwich 方差估计与 Bootstrap 方差估计的表现,重点关注了"PS 固定 vs 重估"以及"准分离"问题。
  2. 核心工具/方法:大规模蒙特卡洛模拟,比较了 IPTW 与 AIPW 估计量下,四种方差估计方法(Sandwich, Fixed-PS Bootstrap, Re-estimated-PS Bootstrap, Stratified Bootstrap)的覆盖率与置信区间宽度。
  3. 主要结论:Sandwich 在小样本下覆盖率严重不足;Fixed-PS Bootstrap 并不总是保守,有时反而更不准;分层 Bootstrap 是最稳健的选择,能有效避免准分离并提供可靠的置信区间。

关键设定与假设

本文主要基于模拟研究,其设定如下: - 估计量: - IPTW\(\hat{\tau}_{IPTW} = \frac{1}{n} \sum_{i=1}^n \frac{Z_i Y_i}{\hat{e}(X_i)} - \frac{1}{n} \sum_{i=1}^n \frac{(1-Z_i) Y_i}{1-\hat{e}(X_i)}\)。 - AIPW\(\hat{\tau}_{AIPW} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{Z_i Y_i}{\hat{e}(X_i)} - \frac{Z_i - \hat{e}(X_i)}{\hat{e}(X_i)} \hat{\mu}_1(X_i) \right] - \frac{1}{n} \sum_{i=1}^n \left[ \frac{(1-Z_i) Y_i}{1-\hat{e}(X_i)} + \frac{Z_i - \hat{e}(X_i)}{1-\hat{e}(X_i)} \hat{\mu}_0(X_i) \right]\)。其中 \(\hat{\mu}_z(X)\) 是结局模型的估计。 - PS 模型:Logistic 回归 \(\text{logit}(e(X)) = \beta^T X\)。 - 方差估计方法: 1. Sandwich:基于 M-估计理论推导的渐近方差,假设 PS 是估计出来的(Lunceford & Davidian, 2004)。 2. Bootstrap-Fixed:Bootstrap 重抽样数据,但在计算 ATE 时,使用原样本估计的 PS \(\hat{e}_{orig}(X)\),不再重新拟合 Logistic 模型。 3. Bootstrap-Reestimated:Bootstrap 重抽样数据,并在每次重抽样中重新估计 PS \(\hat{e}_{boot}(X)\)。 4. Stratified Bootstrap:分层 Bootstrap,在重抽样时固定处理组和对照组的样本量,并重新估计 PS。 - 模拟场景: - 样本量 \(n \in \{50, 100, 200, 500, 1000\}\)。 - 处理率 \(P(Z=1)\) 较低(模拟罕见病场景)。 - 结局发生率不同(连续结局 vs 二值结局)。

主要结果

作者通过蒙特卡洛模拟计算了 95% 置信区间的覆盖率(Coverage Probability)和平均区间宽度。

  1. Sandwich 估计在小样本下表现极差

    • \(n=50\) 时,Sandwich 的覆盖率远低于名义水平 95%,有时甚至低至 80% 左右。
    • 原因:小样本下 PS 估计的偏差导致 ATE 估计量分布严重偏斜,而 Sandwich 基于对称的正态近似,无法捕捉这种偏斜。
  2. Fixed-PS Bootstrap 并不保守,甚至更差

    • 传统观点认为 Fixed-PS 忽略了 PS 估计的方差,应该导致更宽的置信区间(保守)。
    • 作者发现:在小样本下,Fixed-PS Bootstrap 的覆盖率甚至低于 Re-estimated Bootstrap。
    • 解释:这是一个反直觉的深刻发现。在小样本下,PS 估计存在偏差。Fixed-PS 锁定了这个偏差,导致 Bootstrap 分布的中心偏离真实值(偏差主导)。而 Re-estimated Bootstrap 在每次重估中引入了 PS 估计的随机性,这种随机性在一定程度上"中和"了偏差,反而使得 Bootstrap 分布更好地覆盖了真实值。这打破了"Fixed PS = Conservative"的教条。
  3. 准分离是致命杀手

    • 在小样本 + 低处理率场景下,普通的 Re-estimated Bootstrap 经常因为准分离导致 Logistic 回归系数估计失败(软件报错或给出极端值),使得模拟无法进行或结果极度不稳定。
  4. 分层 Bootstrap 胜出

    • Stratified Bootstrap 在所有场景下表现最稳健。它既避免了准分离(保证了计算稳定性),又通过重估 PS 捕捉了不确定性,覆盖率最接近 95%,且区间宽度适中。

真实例子与应用

作者使用了 LIMIT-JIA 试验作为实例。这是一个关于幼年特发性关节炎的小样本临床试验。 - 场景:样本量小,处理组样本极少。 - 结果:不同方法给出的置信区间差异巨大。 - Sandwich 方法给出的 CI 最窄,可能给出"统计显著"的结论。 - Bootstrap 方法给出的 CI 更宽,可能包含 0(不显著)。 - 这直接证明了方法选择对实际临床结论的影响:在小样本下,盲目使用 Sandwich 可能导致假阳性。

🔎 结论是否比证明窄

本文是模拟研究,"证明"即模拟结果。 - 作者的结论"Stratified Bootstrap performs well"是基于模拟数据的有限场景。虽然逻辑上合理,但并未给出理论保证(如证明其收敛性或覆盖率的界)。 - 关于"Fixed PS 不保守"的解释(偏差-方差权衡)是基于直觉的讨论,并未在文中进行理论推导(如展开 Bias 项)。这为理论研究者留下了空间。


四、开放问题

本文留下了几个明显的开放问题,适合具备数理统计背景的研究者深入:

  1. 小样本下 IPTW/AIPW 估计量的高阶渐近性质

    • 本文发现 Sandwich(一阶渐近)在小样本失效。能否推导 IPTW 估计量的二阶渐近展开Edgeworth 展开,从理论上量化"Fixed PS 不保守"的偏差来源?
    • 扎根点:文中 Results 部分对 Fixed PS 表现的反直觉现象仅有定性解释,缺乏定量分解。
  2. 准分离的理论处理与 Firth 校正的比较

    • 本文用 Stratified Bootstrap 绕开了准分离。另一种标准方案是 Firth Bias-Corrected Logistic Regression(惩罚似然)。在 Bootstrap 流程中引入 Firth PS 估计,是否会比 Stratified Bootstrap 更好?
    • 扎根点:文中引用了 Heinze & Schemper (2002) 但未采用 Firth 方法。这是一个直接的 Method Comparison 空白。
  3. Bootstrap 置信区间的覆盖率证明

    • 能否证明在小样本 \(n\) 且存在倾向性评分模型误设风险下,Stratified Bootstrap 的覆盖率具有某阶的精度(如 \(O(n^{-1})\))?
    • 扎根点:本文完全依赖模拟,缺乏 Finite Sample Guarantee。
  4. 计算效率与并行的权衡

    • Bootstrap 在小样本下计算量尚可,但在高维协变量 \(p\) 较大时,每次重估 PS 的成本很高。能否结合 One-step EstimationDebiased ML 的思想,在 Bootstrap 中仅做一步更新而非完全重估,以提升计算效率?
    • 扎根点:文中未讨论高维 \(p\) 的情形,且重估 PS 的计算成本在小样本下虽低,但未与近似方法对比。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论