Improving Variance and Confidence Interval Estimation in Small‐Sample Propensity Score Analyses: Bootstrap Versus Asymptotic Methods¶

作者: Baoshan Zhang, Sean M. O'Brien, Yuan Wu, Laine E. Thomas
来源: Statistics in Medicine
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是观察性研究或小样本随机化研究中，因果效应估计量的推断问题，具体而言：当使用倾向性评分（Propensity Score, PS）方法（如 IPTW、AIPW）估计平均处理效应（ATE）时，如何准确估计其方差并构建置信区间？核心矛盾在于：ATE 估计量通常是 PS 的非线性函数，而 PS 本身又是从数据估计出来的，因此 ATE 估计量的方差必须同时包含"PS 估计的不确定性"。在大样本下，渐近理论（如三明治方差估计量）已相对成熟；但在小样本（如罕见病研究、单臂试验外部对照）下，渐近近似可能失效，而 Bootstrap 方法又面临计算稳定性与理论保证的双重挑战。当前该方向已从"大样本渐近理论"走向"小样本修正与实用指南"，成熟度较高，但仍有大量工程性、经验性的问题未形成共识。

发展脉络¶

作者在 Introduction 中梳理了一条清晰的文献线索：

奠基工作（PS 方差的识别与分解）：
- Rosenbaum & Rubin (1983)：提出倾向性评分，奠定了 PS 匹配、分层、加权的方法论基础。
- Robins, Rotnitzky & Zhao (1994) 与 Bang & Robins (2005)：提出了 AIPW（Augmented IPTW）估计量，具有双重稳健性，并给出了影响函数理论，为方差估计提供了渐近理论基础。
- 这里的核心问题是：PS 是估计出来的，因此 ATE 的方差必须考虑 PS 估计的贡献。
主要进展（方差估计方法的两条路线）：
- 路线一：渐近方差估计。利用 M-估计理论或影响函数推导"三明治方差估计量"。
  - Lunceford & Davidian (2004)：详细给出了 IPTW 和 AIPW 的渐近方差公式，是本文比较的基准之一。
  - 这类方法在大样本下有理论保证，但在小样本下表现未知。
- 路线二：重抽样方法。
  - Efron & Tibshirani (1993)：经典的 Bootstrap 理论。
  - Austin (2009) 与 Austin & Small (2014)：比较了 Bootstrap 与渐近方法在 PS 匹配中的表现，发现 Bootstrap 在大样本下表现更好，但未系统考察小样本场景。
  - Hill & Reiter (2006)：指出在 PS 匹配中，Bootstrap 的方差估计存在不确定性，因为匹配集合在 Bootstrap 样本中不稳定。
当前 Frontier 与本文的 Gap：
- 小样本与罕见病场景：随着罕见病研究与外部对照试验的兴起，样本量 \(n\) 可能极小（如 \(n=50\) 甚至更少）。此时渐近理论是否成立？
- PS 固定 vs 重估：在方差估计中，一种常见做法是将 PS 视为"固定已知"（Fixed PS），认为这样会低估方差从而得到"保守"的置信区间。另一种做法是在 Bootstrap 每次重抽样中重新估计 PS（Re-estimated PS）。Austin & Small (2014) 曾指出重估 PS 可能更准确，但在小样本下，重估 PS 极易引发"准分离"（Quasi-separation）问题——即某个协变量完美预测处理分配，导致 PS 为 0 或 1，Logistic 回归系数发散，方差估计失效。
- 本文的位置：作者指出，现有文献缺乏在小样本、低事件率条件下对 Sandwich 与 Bootstrap 的系统比较，尤其是"准分离"问题如何处理、Fixed PS 是否真的保守，这些均无定论。本文旨在填补这一空白。

子线索聚类¶

被引文献大致落在三条子线索上： 1. PS 加权估计量的理论构建：Rosenbaum (1983), Robins (1994), Bang (2005), Lunceford (2004)。这一支解决了"估什么"和"渐近方差是什么"的问题。 2. Bootstrap 在因果推断中的应用与局限：Austin (2009, 2014), Hill (2006)。这一支解决了"怎么算"的问题，并指出了 Bootstrap 在匹配问题中的理论困境（匹配集合不稳定），但在加权问题上相对可行。 3. 小样本与分离问题：Heinze & Schemper (2002)（处理分离问题的 Firth 校正，本文引用但未采用）、外部对照试验相关文献。这一支是本文的实际应用背景。

这个方向在追问的核心问题¶

PS 估计的不确定性如何传递给 ATE 估计量？（理论问题，已有成熟答案：影响函数 / 三明治公式）
在小样本下，渐近正态近似是否仍然可靠？（推断问题，本文核心）
在小样本下，Bootstrap 是否优于渐近方法？哪种 Bootstrap（Fixed vs Re-estimated）更稳健？（计算问题，本文核心）
当面临准分离时，如何稳定方差估计？（技术问题，本文提出分层 Bootstrap）

⚠️ 作者的 framing¶

作者如何定义缺口：作者将缺口 frame 为"小样本 + 准分离风险"下的推断危机。他们强调现有文献多关注中大样本，而罕见病/外部对照试验的小样本特性使得"Sandwich 失效"和"Bootstrap 崩溃"成为现实威胁。
竞争路线的淡化：
- Firth 校正 / Penalized PS：作者引用了 Heinze & Schemper (2002)，知道分离问题可以通过惩罚似然（如 Firth 校正）解决，但在正文中并未将其作为主要比较对象，而是选择了"分层 Bootstrap"作为解决方案。这可能是为了保持方法的"非参数性"——Firth 校正仍依赖于模型设定的正确性。
- Bayesian PS：Introduction 未提及贝叶斯方法（如 PS 的后验分布积分），这也是处理小样本不确定性的另一条强有力路线，被作者回避了。
缺失的引用：关于小样本方差修正的更高阶理论（如 Bootstrap 的 Edgeworth 展开修正、小样本偏差校正）在 Introduction 中未见引用。这可能是作者有意聚焦于"应用导向的方法比较"，而非"理论推导"。

张力¶

未见明显对立引用。主流观点一致认为：大样本下 Bootstrap 优于 Sandwich；小样本下问题复杂。本文的张力在于：常识认为"Fixed PS 方差估计更保守"，而作者通过模拟发现这一常识在小样本下并不成立——Fixed PS 有时反而会低估方差（因为忽略了 PS 估计带来的偏差-方差权衡）。这是本文最有价值的反直觉发现。

二、最核心、最简单的例子 / 数学问题¶

在展开论文的模拟设计之前，我们先确立符号、模型与可观测数据，然后用一个最简单的特例说明方差估计的难点。

第一步：符号、模型与可观测数据¶

符号定义： - \(n\)：样本量（本文关注小样本，如 \(n=50, 100\)）。 - \(Z_i \in \{0, 1\}\)：第 \(i\) 个个体的处理分配（Treatment），\(Z_i=1\) 表示接受处理。 - \(Y_i\)：观测到的结局（Outcome），可以是连续或二值。 - \(X_i \in \mathbb{R}^p\)：协变量向量。 - \(Y_i(1), Y_i(0)\)：潜在结局。 - \(\tau = E[Y(1) - Y(0)]\)：平均处理效应（ATE），这是我们要估计的目标参数。

模型（数据生成机制）： - 处理分配机制：\(Z_i \perp\!\!\!\perp \{Y_i(0), Y_i(1)\} \mid X_i\)（无混淆假设）。 - 倾向性评分：\(e(X) = P(Z=1 \mid X)\)。真实模型中 \(e(X)\) 未知，需估计。 - 结局模型：\(E[Y \mid Z, X]\) 未知（若使用 AIPW，需估计此模型；若使用 IPTW，理论上无需估计，但实际中常需建模）。

可观测数据：研究者只能观测到 \(O_i = (X_i, Z_i, Y_i)\)，其中 \(Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)\)。 - 不可观测部分：\(Y_i(1), Y_i(0)\) 以及真实的 \(e(X_i)\)。 - 估计对象：\(\hat{\tau}\)（ATE 的估计量）及其方差 \(\widehat{\text{Var}}(\hat{\tau})\)。

第二步：最小内核——为什么小样本下方差估计这么难？¶

考虑最简单的情形：\(n\) 很小，且处理组极少。

核心数学困难： 1. Sandwich 方差的失效： Sandwich 方差公式 \(\widehat{\text{Var}}_{sandwich}(\hat{\tau})\) 依赖于渐近理论 \(\sqrt{n}(\hat{\tau} - \tau) \to N(0, \Sigma)\)。在小样本下，这个近似有两重偏差： - 偏差一：PS 估计的偏差。\(\hat{e}(X)\) 是通过 Logistic 回归估计的，在小样本下 \(\hat{e}(X)\) 的偏差很大，且这种偏差会通过 IPTW 权重 \(1/\hat{e}(X)\) 放大。 - 偏差二：正态近似的偏差。\(\hat{\tau}\) 的有限样本分布可能严重偏斜，尤其是当权重 \(1/\hat{e}(X)\) 极大（即某些处理组个体的 PS 极小）时，分布会有长尾，Sandwich 给出的对称置信区间会失效。

Bootstrap 的困境（准分离）：假设真实 \(e(X)\) 在某个区域接近 0（比如某类人几乎不接受处理）。在 \(n=50\) 的小样本中，Bootstrap 重抽样时，很有可能抽到的样本里，这一类人全是 \(Z=0\)。
- 此时，Logistic 回归会面临准分离：协变量 \(X\) 的某个线性组合完美预测 \(Z=0\)。
- 后果：Logistic 回归的 MLE 不存在（系数趋向 \(\infty\)），软件通常会给出极大的系数估计或报错。
- 这导致 \(\hat{e}(X) \approx 0\) 或 \(\approx 1\)，进而 IPTW 权重 \(1/\hat{e}(X)\) 爆炸，方差估计失效。

最简特例：设 \(X\) 为一维二值变量（男/女），真实 \(P(Z=1|男)=0.1, P(Z=1|女)=0.5\)。样本 \(n=50\)，其中男性 20 人。 - 在 Bootstrap 一次重抽样中，可能抽到的 20 个男性全是 \(Z=0\)。 - 此时 Logistic 回归拟合 \(\text{logit}(e(X)) = \beta_0 + \beta_1 \cdot \text{Male}\)，会发现 \(\beta_1 \to -\infty\)（因为 Male 完美预测 \(Z=0\)）。 - 程序报错或给出 \(\hat{e}(\text{Male}) \approx 10^{-10}\)。 - 若该样本中恰好有一个男性是 \(Z=1\)（处理组），则其权重 \(1/\hat{e} \approx 10^{10}\)，完全主导 ATE 估计，方差趋于无穷。

本文的破题思路：作者提出的解决方案极其朴素：分层 Bootstrap（Stratified Bootstrap）。 - 强制在 Bootstrap 重抽样时，保持处理组和对照组的样本量比例与原样本一致。 - 即：从 \(Z=1\) 的 \(n_1\) 个个体中有放回抽取 \(n_1\) 个；从 \(Z=0\) 的 \(n_0\) 个个体中有放回抽取 \(n_0\) 个。 - 为什么有效？ 它避免了处理组被"抽空"或"抽成纯度极高"的情况，从而极大降低了准分离发生的概率，稳定了 PS 估计。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在小样本倾向性评分分析中，比较了 Sandwich 方差估计与 Bootstrap 方差估计的表现，重点关注了"PS 固定 vs 重估"以及"准分离"问题。
核心工具/方法：大规模蒙特卡洛模拟，比较了 IPTW 与 AIPW 估计量下，四种方差估计方法（Sandwich, Fixed-PS Bootstrap, Re-estimated-PS Bootstrap, Stratified Bootstrap）的覆盖率与置信区间宽度。
主要结论：Sandwich 在小样本下覆盖率严重不足；Fixed-PS Bootstrap 并不总是保守，有时反而更不准；分层 Bootstrap 是最稳健的选择，能有效避免准分离并提供可靠的置信区间。

关键设定与假设¶

本文主要基于模拟研究，其设定如下： - 估计量： - IPTW：\(\hat{\tau}_{IPTW} = \frac{1}{n} \sum_{i=1}^n \frac{Z_i Y_i}{\hat{e}(X_i)} - \frac{1}{n} \sum_{i=1}^n \frac{(1-Z_i) Y_i}{1-\hat{e}(X_i)}\)。 - AIPW：\(\hat{\tau}_{AIPW} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{Z_i Y_i}{\hat{e}(X_i)} - \frac{Z_i - \hat{e}(X_i)}{\hat{e}(X_i)} \hat{\mu}_1(X_i) \right] - \frac{1}{n} \sum_{i=1}^n \left[ \frac{(1-Z_i) Y_i}{1-\hat{e}(X_i)} + \frac{Z_i - \hat{e}(X_i)}{1-\hat{e}(X_i)} \hat{\mu}_0(X_i) \right]\)。其中 \(\hat{\mu}_z(X)\) 是结局模型的估计。 - PS 模型：Logistic 回归 \(\text{logit}(e(X)) = \beta^T X\)。 - 方差估计方法： 1. Sandwich：基于 M-估计理论推导的渐近方差，假设 PS 是估计出来的（Lunceford & Davidian, 2004）。 2. Bootstrap-Fixed：Bootstrap 重抽样数据，但在计算 ATE 时，使用原样本估计的 PS \(\hat{e}_{orig}(X)\)，不再重新拟合 Logistic 模型。 3. Bootstrap-Reestimated：Bootstrap 重抽样数据，并在每次重抽样中重新估计 PS \(\hat{e}_{boot}(X)\)。 4. Stratified Bootstrap：分层 Bootstrap，在重抽样时固定处理组和对照组的样本量，并重新估计 PS。 - 模拟场景： - 样本量 \(n \in \{50, 100, 200, 500, 1000\}\)。 - 处理率 \(P(Z=1)\) 较低（模拟罕见病场景）。 - 结局发生率不同（连续结局 vs 二值结局）。

主要结果¶

作者通过蒙特卡洛模拟计算了 95% 置信区间的覆盖率（Coverage Probability）和平均区间宽度。

Sandwich 估计在小样本下表现极差：
- 在 \(n=50\) 时，Sandwich 的覆盖率远低于名义水平 95%，有时甚至低至 80% 左右。
- 原因：小样本下 PS 估计的偏差导致 ATE 估计量分布严重偏斜，而 Sandwich 基于对称的正态近似，无法捕捉这种偏斜。
Fixed-PS Bootstrap 并不保守，甚至更差：
- 传统观点认为 Fixed-PS 忽略了 PS 估计的方差，应该导致更宽的置信区间（保守）。
- 作者发现：在小样本下，Fixed-PS Bootstrap 的覆盖率甚至低于 Re-estimated Bootstrap。
- 解释：这是一个反直觉的深刻发现。在小样本下，PS 估计存在偏差。Fixed-PS 锁定了这个偏差，导致 Bootstrap 分布的中心偏离真实值（偏差主导）。而 Re-estimated Bootstrap 在每次重估中引入了 PS 估计的随机性，这种随机性在一定程度上"中和"了偏差，反而使得 Bootstrap 分布更好地覆盖了真实值。这打破了"Fixed PS = Conservative"的教条。
准分离是致命杀手：
- 在小样本 + 低处理率场景下，普通的 Re-estimated Bootstrap 经常因为准分离导致 Logistic 回归系数估计失败（软件报错或给出极端值），使得模拟无法进行或结果极度不稳定。
分层 Bootstrap 胜出：
- Stratified Bootstrap 在所有场景下表现最稳健。它既避免了准分离（保证了计算稳定性），又通过重估 PS 捕捉了不确定性，覆盖率最接近 95%，且区间宽度适中。

真实例子与应用¶

作者使用了 LIMIT-JIA 试验作为实例。这是一个关于幼年特发性关节炎的小样本临床试验。 - 场景：样本量小，处理组样本极少。 - 结果：不同方法给出的置信区间差异巨大。 - Sandwich 方法给出的 CI 最窄，可能给出"统计显著"的结论。 - Bootstrap 方法给出的 CI 更宽，可能包含 0（不显著）。 - 这直接证明了方法选择对实际临床结论的影响：在小样本下，盲目使用 Sandwich 可能导致假阳性。

🔎 结论是否比证明窄¶

本文是模拟研究，"证明"即模拟结果。 - 作者的结论"Stratified Bootstrap performs well"是基于模拟数据的有限场景。虽然逻辑上合理，但并未给出理论保证（如证明其收敛性或覆盖率的界）。 - 关于"Fixed PS 不保守"的解释（偏差-方差权衡）是基于直觉的讨论，并未在文中进行理论推导（如展开 Bias 项）。这为理论研究者留下了空间。

四、开放问题¶

本文留下了几个明显的开放问题，适合具备数理统计背景的研究者深入：

小样本下 IPTW/AIPW 估计量的高阶渐近性质：
- 本文发现 Sandwich（一阶渐近）在小样本失效。能否推导 IPTW 估计量的二阶渐近展开或Edgeworth 展开，从理论上量化"Fixed PS 不保守"的偏差来源？
- 扎根点：文中 Results 部分对 Fixed PS 表现的反直觉现象仅有定性解释，缺乏定量分解。
准分离的理论处理与 Firth 校正的比较：
- 本文用 Stratified Bootstrap 绕开了准分离。另一种标准方案是 Firth Bias-Corrected Logistic Regression（惩罚似然）。在 Bootstrap 流程中引入 Firth PS 估计，是否会比 Stratified Bootstrap 更好？
- 扎根点：文中引用了 Heinze & Schemper (2002) 但未采用 Firth 方法。这是一个直接的 Method Comparison 空白。
Bootstrap 置信区间的覆盖率证明：
- 能否证明在小样本 \(n\) 且存在倾向性评分模型误设风险下，Stratified Bootstrap 的覆盖率具有某阶的精度（如 \(O(n^{-1})\)）？
- 扎根点：本文完全依赖模拟，缺乏 Finite Sample Guarantee。
计算效率与并行的权衡：
- Bootstrap 在小样本下计算量尚可，但在高维协变量 \(p\) 较大时，每次重估 PS 的成本很高。能否结合 One-step Estimation 或 Debiased ML 的思想，在 Bootstrap 中仅做一步更新而非完全重估，以提升计算效率？
- 扎根点：文中未讨论高维 \(p\) 的情形，且重估 PS 的计算成本在小样本下虽低，但未与近似方法对比。

Maintained by 陈星宇 · Homepage · Source on GitHub