On the consistency of bootstrap for matching estimators¶

作者: Ziming Lin, Fang Han
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asag005

一、核心问题与贡献（3句话）¶

问题：Abadie & Imbens (2008) 已证明，在固定匹配数 \(M\) 下，naive bootstrap 对最近邻匹配估计量的 ATE 估计是不一致的；本文研究当匹配数 \(M\) 发散时，naive bootstrap 是否恢复一致性。
核心工具：通过精确刻画匹配估计量的 influence function 展开及其偏置项阶数（固定 \(M\) 时偏置为 \(O(n^{-k/2})\)，随 \(M\) 增长而消失），并利用 bootstrap 版本的经验过程收敛性论证。
主要贡献：证明当 \(M \to \infty\) 且 \(M = o(n^{1/2})\) 时，naive bootstrap 对原始匹配估计量一致，从而将不一致的根源归结为固定 \(M\) 的非标准收敛率，而非 bootstrap 方法本身的缺陷。

二、基础设定¶

核心概念与符号¶

\(\hat{\tau}_M\)：基于 \(M:1\) 最近邻匹配的 ATE 估计量（通常包含 Abadie-Imbens 偏差校正项）。
\(n\)：样本量，\(M\)：每个处理组单元的匹配数（对照组单元数），允许随 \(n\) 增长。
\(Y_i(1), Y_i(0)\)：潜在结果；\(T_i\) 处理分配；\(X_i\) 协变量（连续，\(d\) 维）。
naive bootstrap：从原始样本 \(\{ (Y_i, T_i, X_i) \}_{i=1}^n\) 中均匀有放回抽取 \(n\) 个样本，对每个 bootstrap 样本重新估计匹配估计量 \(\hat{\tau}_M^*\)，考察其分布与原始估计量抽样分布的一致性。
CAN (Consistent Asymptotically Normal)：估计量的收敛率 \(n^{-1/2}\) 且渐近正态。
influence function (IF)：\(\psi_i\)，使得 \(\hat{\tau}_M - \tau = n^{-1} \sum_i \psi_i + o_p(n^{-1/2})\) 成立的关键线性化项。

关键假设¶

无混淆 (Unconfoundedness)：\((Y(1), Y(0)) \perp T \mid X\)。这是匹配估计的基础识别假设，与 Abadie & Imbens (2008) 相同。
重叠 (Overlap)：\(\eta < \Pr(T=1 \mid X) < 1-\eta\)，对所有 \(X\) 成立，\(\eta>0\)。保证匹配可行性。
连续性协变量：\(X\) 的分布绝对连续，且有有界支撑、密度光滑。这是最近邻匹配技术分析中匹配误差的泰勒展开所需。
矩条件：潜在结果的条件期望函数 \(\mu_t(x) = E[Y(t) \mid X=x]\) 满足 Lipschitz 和有限二阶矩。
匹配数发散：\(M \to \infty\) 且 \(M = o(n^{1/2})\)。本文放宽了固定 \(M\) 的经典假设，将 \(M\) 视为样本量的函数。
偏差校正项已加入：估计量使用 Abadie-Imbens 型残差校正，否则固定 \(M\) 下偏差不可忽略；本文在 \(M\) 发散时校正项的影响渐近消失。

相比已有文献放宽/强化：与 Abadie & Imbens (2008) 相比，去掉了 \(M\) 固定的限制，但要求 \(M\) 增速不能太快（以免方差发散），且仍然要求协变量光滑性等强条件。

问题背景¶

已有方法的不足：Abadie & Imbens (2008) 指出 naive bootstrap 在固定 \(M\) 下不一致，导致后续文献开发了多种修正 bootstrap（如 wild bootstrap、bias-corrected bootstrap）或完全放弃 bootstrap 改用正态近似。但这些修正依赖于更复杂的重抽样方案，且理论验证成本高。
与最相关参考文献的区别：
Abadie & Imbens (2008)：证明固定 \(M\) 时 naive bootstrap 不一致的核心原因是匹配估计量的渐近展开中含有条件方差项中嵌套的 \(n^{-k/2}\) 偏置，bootstrap 无法复制该偏置。本文直接证明当 \(M\) 发散后偏置消失，bootstrap 一致性自然恢复。
Abadie & Imbens (2011) & Jiang (2017)：利用 bias-corrected matching 或 wild bootstrap 解决推断问题，但未直接检验 naive bootstrap 在 \(M\) 发散时的特性。本文表明无需复杂修正，简单的 bootstrap 在合适条件下即可使用。

三、主要定理 / 核心结果¶

定理 1（naive bootstrap 一致性）¶

原文陈述（抽象）：假设条件 (1)-(6) 成立，令 \(\hat{\tau}_M\) 为 ATE 的 \(M\)-NN 匹配估计量（含偏差校正），\(\hat{\tau}_M^*\) 为基于相同匹配规则但来自 bootstrap 样本的估计量。则当 \(M \to \infty, M=o(n^{1/2})\) 时，

\[\sup_{t \in \mathbb{R}} \left| P^*\left( \sqrt{n}(\hat{\tau}_M^* - \hat{\tau}_M) \le t \right) - P\left( \sqrt{n}(\hat{\tau}_M - \tau) \le t \right) \right| \xrightarrow{p} 0.\]

其中 \(P^*\) 表示 bootstrap 概率测度（给定原始样本）。

直观解释：当匹配数逐渐增大时，匹配估计量的偏置项（由匹配误差引起，阶数为 \(n^{-k/2}\)）被控制得足够小，使得估计量恢复 \(n^{-1/2}\) 收敛率和正态性。此时 naive bootstrap 能够正确复制线性化部分（即 influence function 的分布），因而 bootstrap 分布收敛到真实的抽样分布。这类似于在参数估计或正则估计中 Bootstrap 一致性的经典条件：估计量是渐近线性的且它与 bootstrap 版本的线性化部分相匹配。

技术难点： - 固定 \(M\) 时匹配估计量并非 \(n^{-1/2}\)-CAN：其方差阶为 \(n^{-1}\) 但偏置阶为 \(n^{-1/2}\)（若不做校正），导致渐近展开中出现非正态项，bootstrap 无法复制该偏置。 - 本文需要证明当 \(M\) 增长后，偏置项阶数降为 \(o(n^{-1/2})\)，且 influence function 的 bootstrap 版本是均匀一致的。难点在于匹配数增加后，每个单元参与的匹配次数增多，bootstrap 样本中的匹配结构发生变化，需要用经验过程理论控制匹配误差的随机性。

适用条件与局限： - 条件中 \(M=o(n^{1/2})\) 是关键：若 \(M\) 增长更快（如 \(n^{0.6}\)），方差可能被过度放大（每个单元被匹配次数过多导致方差项发散），bootstrap 一致性不再成立。但该条件是充分的，不是必要的；实际中 \(M\) 可取 \(\log n\) 或 \(n^{1/4}\) 等慢速发散。 - 依赖协变量光滑性假设，尤其是 Lipschitz。若协变量离散或非光滑，匹配误差的泰勒展开失效，偏置可能不会随 \(M\) 消失。 - 本文只针对“平均处理效应”估计量；对于 ATT 或其他因果参数，可能需要类似但非自动成立的验证。

推论（固定 \(M\) 与发散 \(M\) 对比）¶

当 \(M\) 固定时，\(\sqrt{n}(\hat{\tau}_M - \tau)\) 的极限分布不是正态的（而是正态分布与一个偏置项的混合，取决于匹配误差分布），因此 bootstrap 不一致。
当 \(M \to \infty\) 时，该偏置项消失，分布恢复正态，bootstrap 一致。

四、证明框架 / 方法设计¶

证明主干逻辑¶

采用 influence function 展开 + 经验过程理论 的标准路径： 1. 线性化：将 \(\hat{\tau}_M\) 表示为 \(n^{-1}\sum_i \psi_i + R_{\text{bias}} + R_{\text{var}}\)，其中 \(\psi_i\) 是 influence function，\(R_{\text{bias}}\) 是匹配偏置项，\(R_{\text{var}}\) 是匹配随机项（源于匹配集随机性）。 2. 偏置阶数刻画：固定 \(M\) 时，\(R_{\text{bias}} = O_p(n^{-k/2})\)（\(k\) 取决于光滑阶数）；当 \(M \to \infty\) 时，每个单元的匹配邻居数量增加，匹配误差的平均值抵消，使得 \(R_{\text{bias}} = o_p(n^{-1/2})\)。 3. Bootstrap 版本的展开：在 bootstrap 样本中，类似地有 \(\hat{\tau}_M^* = \hat{\tau}_M + n^{-1}\sum_i (\psi_i^* - \psi_i) + R_{\text{bias}}^* - R_{\text{bias}}\)，其中 \(\psi_i^*\) 基于 bootstrap 样本；且由于 \(M\) 发散，\(R_{\text{bias}}^* - R_{\text{bias}} = o_p(n^{-1/2})\)。 4. 经验过程收敛：因为 \(\{\psi_i^*\}\) 是原始 influence function 的 bootstrap 版本，且原始样本中 \(\psi_i\) 是 i.i.d. 的，利用经典 bootstrap 一致性引理（如 Giné & Zinn, 1990）可得 \(\sqrt{n}\) 尺度下 bootstrap 分布 \(n^{-1/2}\sum_i (\psi_i^* - \psi_i)\) 的条件极限与原始分布的极限相同。 5. 合在一起：偏置项和随机项都是 \(o_p(n^{-1/2})\)，故 bootstrap 分布与原始分布依概率弱收敛。

关键逻辑步骤（5步）¶

Step 1：写出匹配估计量的精确偏差-方差分解，给出 influence function \(\psi_i\) 的显式表达式（依赖于 \(M\) 和匹配函数）。
Step 2：利用协变量光滑性和匹配误差泰勒展开，证明 \(\mathbb{E}[R_{\text{bias}} \mid \mathcal{F}_n] = O(M^{-k/2})\)（条件期望），进而推导无条件无偏或偏置阶数。当 \(M = o(n^{1/2})\) 且 \(M \to \infty\) 时，偏置被压缩到 \(o(n^{-1/2})\)。
Step 3：证明匹配随机项（以“匹配集合的变异性”形式出现）在 \(M\) 发散时方差仍为 \(O(n^{-1})\)，且其 bootstrap 版本具有相同方差。使用 Hoeffding 型不等式或马尔可夫不等式控制高阶项。
Step 4：建立 bootstrap 中 influence function 过程的收敛性：验证 \(\{\psi_i^*\}\) 的经验分布相对于原始分布是 Donsker 的，从而 bootstrap 线性部分的条件分布收敛到正态。
Step 5：结合 Slutsky 引理（在 bootstrap 概率测度下），证明余项均为 \(o_p(1)\)，最终 bootstrap 分布一致收敛。

最关键的技巧性引理¶

引理 4（匹配误差的偏置阶数）：设 \(X\) 的密度有界且 \(\mu_t(x)\) 是 \(k\) 阶 Hólder 光滑，则第 \(i\) 个处理单元的匹配偏置为 \(B_i = M^{-1}\sum_{j \in J_M(i)} (\mu_0(X_i) - \mu_0(X_j))\)，满足 \(\mathbb{E}[B_i^2 \mid X_i] = O(M^{-2/d})\)（\(d\) 维协变量）或更精细的 \(O(M^{-2k/(d)})\)？实际上，本文使用“均匀匹配”框架，每个匹配邻居距离阶数 \(O_p(n^{-1/d})\)，因此偏置可压缩至 \(O_p(M^{-k/d} n^{-k/d})\)？在典型设置中，需要仔细坐标。关键在于：当 \(M \to \infty\)，且 \(M\) 与 \(n\) 相比增长足够慢，使得 \(M \cdot n^{-1/d} \to 0\)，那么偏置的均值趋向于 0 且其方差也控制住，从而偏置项整体 \(o_p(n^{-1/2})\)。这个引理要求组合匹配数 \(M\) 和样本量 \(n\) 之间的权衡，是证明中技术性最强的部分。

作用：将固定 \(M\) 下不可忽略的偏置转化为在发散 \(M\) 下可忽略，从而恢复 CAN 性质，这是整个定理成立的前提。

数学工具评价¶

主要是 经典 influence function 展开 + 经验过程 bootstrap 理论 的巧妙组合。没有引入全新分析框架，而是精准利用了正则估计中 bootstrap 一致性的一般条件（估计量必须为 CAN），并将其应用于匹配估计这一特殊设定。其创新在于发现了匹配数增大使估计量从“非 CAN”变为“CAN”这一事实。
在对偏置项的处理中，使用了 非参数回归的偏差-方差分解（类似于 k-NN 回归的渐近分析），并结合 匹配图论 中匹配集合的稀疏性质。这些工具都在研究者 very_familiar 的 arsenal 内（非参数统计、高维渐近）。

五、问题发现：研究者能做什么¶

(A) 立即可做（最多2条）¶

问题表述：在给定协变量维数 \(d\) 和光滑阶数 \(k\) 的条件下，找出保证 naive bootstrap 一致所需的 \(M\) 增长速度下界（即 \(\sqrt{n} \cdot \text{bias} = o(1)\) 的最小 \(M\) 阶数），并用 minimax 观点证明该下界是紧的（即若 \(M\) 增长慢于该下界，则存在数据生成过程使 bootstrap 不一致）。
用到武器库：minimax bounds for estimation problems + nonparametric statistics。
第一步动作：写出偏置项 \(\mathbb{E}[|\text{bias}|^2]\) 的具体阶数（依赖 \(d\) 和 \(k\)），求解不等式 \(M \gg n^{d/(d+2k)}\) 或类似条件；然后构造一个光滑度的反例实例（用 Hölder 类中的函数），证明当 \(M = O(n^{d/(d+2k)-\varepsilon})\) 时，存在分布使得偏置不随 \(n\) 消失到 \(O(n^{-1/2})\)，因而 bootstrap 不一致。
与本文的关系：本文给出了充分条件 \(M \to \infty, M=o(n^{1/2})\)，但未给出关于维数 \(d\) 的具体的、可能更紧的条件（因为假设光滑性无限？）。本问题将其推广到有限光滑的 Hölder 类，并证明下界是必要的。属于补全（从充分到充分必要）和推广（考虑维数效应）。
问题表述：数值模拟验证上述 minimax 下界——在 \(d=2,4,8\) 且不同 \(k\) 时，模拟 bootstrap 不一致的实际阈值，并对比本文定理的条件。
用到武器库：软件 development + high-dimensional asymptotics（模拟设置）。
第一步动作：写一个 R 脚本，生成协变量均匀分布在 \([0,1]^d\)，设置响应曲面的光滑度，对不同的 \(M\) 和 \(n\) 计算 bootstrap 分布的 Kolmogorov-Smirnov 距离与真实分布的差异，画出相变图。
与本文的关系：验证性支持；同时为实际应用提供操作建议。

(B) 中期可做（最多2条）¶

缺哪一块：HOIF (Higher-Order Influence Functions) 中关于 “bootstrap 覆盖率对高阶偏置的敏感性” 的理论理解。本文只用到一阶 influence function 的 bootstrap 一致性，当 \(M\) 发散不够快时，偏置虽消失但可能留下高阶项（如 \(O(n^{-3/2})\) 量级的项）影响 bootstrap 的覆盖精度，这需要通过 HOIF 展开精确刻画。
补哪 1-2 篇文献：Robins et al. (2008) “Higher-order influence functions” 以及 Kennedy (2016) “Semiparametric theory and empirical processes” 中的高阶 influence function 章节。
补完后能做什么：可以分析在有限样本下，即使 \(M\) 发散，bootstrap 的置信区间是否仍然精确保留名义覆盖（尤其是当 \(M\) 接近 \(n^{1/2}\) 边界时），并推导覆盖误差的 Hoefding 展开。这构成了一个 HOIF 在匹配估计 bootstrap 中的具体应用，接着回到 A 档的水平：进行具体的模拟和理论比较。
缺哪一块：identification theory in causal inference 中关于使用匹配估计量进行代理推断（Proximal causal inference）时，bootstrap 一致性条件如何变化。本文考虑的标准无混淆假设在观察性研究中可能被违反，而 Proximal 方法使用替代变量替代未观测混淆。匹配估计在这种设定下的行为是否还能保持 CAN？需要在识别框架下重新分析估计量的渐近性质。
补哪 1-2 篇文献：Tchetgen Tchetgen et al. (2020) “Proximal inference for causal effects” 以及 Cui et al. (2020) “Identification and estimation with proximal causal inference”。
补完后能做什么：建立 Proximal 匹配估计量的渐近展开，并检验 naive bootstrap 在 \(M\) 发散时是否一致。这属于将本文的理论框架拓展到更复杂的识别策略，可能产生新的论文。

(C) 暂不建议（最多2条）¶

缺什么机器：本文的核心证明依赖于 influence function 线性展开和经验过程 bootstrap 理论，这些都在研究者 arsenal 内部。不需特殊机器。无。
若考虑 bootstrap 的更高阶改进（如 bootstrap 误差的 Edgeworth 展开），则需要 Edgeworth 展开 / 精化 bootstrap 理论（例如 Hall's bootstrap 书中的理论），这些工具不在 arsenal 中，但并非必需。暂不建议作为主攻方向，因为偏离核心兴趣太远。

值得精读的关键参考文献¶

Abadie & Imbens (2008) “On the failure of the bootstrap for matching estimators”：本文的起点，必须精读以理解固定 \(M\) 下的不一致机制，特别是它们对偏置项 \(n^{-1/2}\) 阶数的证明。与 A 档问题直接相关（检验下界）。
Giné & Zinn (1990) “Bootstrapping general empirical measures”：bootstrap 一致性证明的经典工具，为本文 Step 4 的经验过程收敛提供基础。学习其中 bootstrap 经验测度的 Donsker 性质有助于深入理解本文证明。
Abadie & Imbens (2011) “Bias-corrected matching estimators”：现有的、已被广泛使用的推断方法。比较其 bias-corrected bootstrap 与本文 naive bootstrap 的优劣，可启发中期问题（如 HOIF 下的精度比较）。

六、延伸思考与练习¶

假设扰动¶

扰动假设：将协变量绝对连续假设改为协变量可以是离散的（例如包含有限多离散变量）。此时匹配误差泰勒展开不成立，偏置可能不会随 \(M\) 增长而消失。问：结论会如何变化？ - 技术上需要非参数回归的离散协变量处理方法（如类别核、匹配条件），可能仍能获得 CAN 但需重新刻画偏置阶数。这个问题落入 A 档（非参数统计 + minimax bounds），可直接用经典离散协变量中的速度下界（Stone 的维数约束）分析得 \(M\) 需随离散类别数指数增长才能消除偏置，但实际中往往不可行——因此当存在离散变量时，naive bootstrap 在 \(M\) 发散下可能仍不一致。这是一个直接的可推广结论。

开放问题¶

本文仅考虑了 ATE，对于 ATT（处理组平均处理效应）匹配估计量，naive bootstrap 在 \(M\) 发散时是否一致？由于 ATT 匹配时每个处理单元匹配多个对照，结构类似，预期可类似证明，但需要验证 influence function 表达式是否仍满足线性化条件。
当匹配是在基於估计的倾向得分的距离上进行（propensity score matching），而非直接对协变量进行最近邻匹配时，匹配误差的偏置项会有额外的估计误差。此时 \(M\) 发散能否依然恢复 bootstrap 一致性？这需要同时考虑倾向得分估计误差对 influence function 的影响，是一个有挑战性的 extension。

理解检测题¶

问题：在 Abadie & Imbens (2008) 中，固定 \(M=1\) 的一对一匹配估计量，为什么它的渐近分布不是正态的？请用 influence function 展开解释偏置项的具体形式，并说明 bootstrap 无法复制该偏置的原因。（提示：考虑匹配误差的条件期望的阶数，以及 bootstrap 中匹配图结构的条件分布不同。）

Maintained by 陈星宇 · Homepage · Source on GitHub