On propensity score matching with a diverging number of matches¶

作者: Yihui He, Fang Han
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biomet/asae026

一、核心问题与贡献（3句话）¶

本文研究了倾向得分匹配（PSM）估计平均处理效应（ATE）时，匹配个数 \(M\) 随样本量 \(n\) 发散（\(M \to \infty, M/n \to 0\)）下的渐近性质，包括估计量的偏差、方差与渐近正态性。
核心工具是 influence function 展开与高阶偏差分析，通过将普通最小二乘（OLS）匹配估计量改写为一组线性方程的解，并利用倾向得分的局部光滑性推导 bias 与 variance 的精确渐近阶。
主要贡献是：① 证明了发散 \(M\) 下的 PSM 估计量在效率上严格优于固定 \(M\) 的版本（渐近方差更小）；② 给出了达到半参数效率下界的充分条件——当倾向得分已知或满足特定光滑性且 \(M\) 以适当速率增长时，其渐近方差恰为 Hahn (1998) 的效率界；③ 揭示了匹配数发散与偏差校正之间的替代关系，为实践中选择 \(M\) 提供了理论依据。

二、基础设定¶

核心概念与符号：
观测数据 \((Y_i, T_i, X_i)\)，\(T_i \in \{0,1\}\) 为处理指标，\(Y_i\) 为结果，\(X_i\) 为协变量（维数 \(d\)）。
倾向得分 \(e(X) = P(T=1\mid X)\)。
ATE: \(\tau = \mathbb{E}[Y(1) - Y(0)]\)，其中 \(Y(t)\) 为潜在结果。
PSM 估计量：\(\hat{\tau}_{\text{PSM}} = \frac{1}{n}\sum_{i=1}^n (2T_i-1)\left(Y_i - \frac{1}{M}\sum_{j\in\mathcal{J}_M(i)} (1-T_j)Y_j\right)\) 等变体（本文用 OLS 形式的匹配估计量，记为 \(\hat{\tau}_M\)）。
匹配集 \(\mathcal{J}_M(i)\)：与单元 \(i\) 倾向得分最近的 \(M\) 个异处理单元（按 \(|\hat{e}(X_i)-e(X_j)|\) 排序）。
关键假设：
Unconfoundedness: \((Y(1), Y(0)) \perp\!\!\!\perp T \mid X\)（可忽略性，标准条件）
Overlap: \(0 < c \leq e(X) \leq 1-c < 1\) 几乎必然（倾向得分有界 away from 0/1）
光滑性: 倾向得分 \(e(x)\) 和结果回归函数 \(\mu_t(x)=\mathbb{E}[Y(t)\mid X=x]\) 属于 Hölder 类 \(\Sigma(\beta, L)\)，\(\beta\ge 2\)（至少二阶可导）
匹配估计量形式：采用 OLS 回归调整的匹配（类似 Abadie & Imbens 2016），但匹配数 \(M\) 满足 \(M \to \infty\), \(M/n \to 0\)。
倾向得分已知或可估计: 两种设定：① 倾向得分完全已知（如来自实验设计）；② 倾向得分通过非参数方法（如系列估计）以 \(n^{1/2}\)-一致速率估计。这些假设较 Abadie & Imbens (2016) 放宽了 \(M\) 固定的限制，但额外要求 \(\beta \ge 2\) 以控制发散 \(M\) 引入的偏差。
问题背景：Abadie & Imbens (2016) 分析了固定 \(M\) 下 PSM 的渐近性质，发现即使经过偏差校正也无法达到半参数效率下界。本文质疑这一结论在 \(M\) 发散时是否仍成立。核心 insight 是：增大 \(M\) 可降低匹配估计量的条件方差（因为平均了更多邻居），但会增加偏差（因为更远的邻居倾向得分差异更大）。通过让 \(M\) 以适当速率（如 \(M = o(n^{2/(2+d)})\)）增长，可使偏差可忽略，方差降至接近半参数效率界。与最相关的文献（Abadie & Imbens 2016; Hahn 1998; Imbens 2004）相比，本文首次严格证明发散 \(M\) 下 PSM 的效率潜力，并给出可达效率界的精确条件。

三、主要定理 / 核心结果¶

定理 1（发散 \(M\) 下的渐近正态性）
原文陈述：假设倾向得分已知且满足前述光滑性，\(M \to \infty\), \(M/n \to 0\) 且 \(M n^{-2/(2d+4)} \to 0\)，则

\[\sqrt{n/(\sigma^2 + \text{rem})} (\hat{\tau}_M - \tau) \xrightarrow{d} N(0,1),\]

其中 \(\sigma^2 = \mathbb{E}[ \text{Var}(Y_i\mid X_i, T_i) / (4 e(X_i)(1-e(X_i)) ) ]\) 正是 Hahn (1998) 的半参数效率界。
直观解释：当 \(M\) 发散但不太快（\(M\) 不能超过 \(n^{2/(2d+4)}\) 阶），匹配估计量的渐近方差恰好等于效率下界，说明该估计量是半参数有效的。
解决了什么技术难点：需要精确刻画发散 \(M\) 引入的额外偏差项，证明其可忽略性。关键在于利用倾向得分的光滑性和匹配集的邻域大小，将偏差表示为 \(M/n\) 的函数，并控制其阶数低于 \(n^{-1/2}\)。
适用条件与局限：要求倾向得分已知——这在观察性研究中不现实；另外假设协变量维数 \(d\) 固定且光滑性 \(\beta\ge 2\)，若 \(d\) 较大或光滑性不足，则所需 \(M\) 的收敛速率更严格，实际中可能难以满足。

定理 2（倾向得分可估计下的效率可达条件）
原文陈述：若倾向得分通过非参数方法（如核估计）以 \(n^{1/2}\)-一致速率估计，且 \(M\) 满足额外条件 \(M = o(n^{1/(2d+4)})\)，则 \(\hat{\tau}_M\) 仍可达到半参数效率界。
直观解释：即使倾向得分需要估计，只要估计足够快（rate condition）且 \(M\) 增长不太快，估计倾向得分引入的额外波动可被忽略，效率性质保持。
技术难点：证明倾向得分估计的误差对匹配估计量的影响均可用高阶项吸收，需要联合处理匹配误差和倾向得分估计误差的分布展开。
局限：实际中非参数估计倾向得分的速率受维数影响，条件难以验证。

定理 3（与固定 \(M\) 的效率比较）
原文陈述：固定 \(M\) 下 \(\hat{\tau}_M\) 的渐近方差为 \(\sigma^2 + \delta_M\)，其中 \(\delta_M > 0\) 且随 \(M\) 增大而递减，当 \(M \to \infty\) 时 \(\delta_M \to 0\)。因此发散 \(M\) 估计量在效率上严格优于任意固定 \(M\) 估计量（除非 \(M=1\) 等极端情形）。
直观说明：固定 \(M\) 的匹配估计量由于有限匹配数，条件方差中包含一个“剩余项”，而发散 \(M\) 允许这部分方差随 \(M\) 增大而消失，从而更接近效率界。

四、证明框架 / 方法设计¶

证明主干逻辑：采用 influence function 展开法，将匹配估计量表示为 U-统计量加偏差项的形式，然后分别处理偏差和方差。

关键步骤拆解（3-5步）： 1. 线性化表示：将 OLS 形式的匹配估计量 \(\hat{\tau}_M\) 重写为 \(\hat{\tau}_M = \frac{1}{n}\sum_{i=1}^n \varphi(Z_i) + R_n\)，其中 \(\varphi\) 为半参数影响函数，\(R_n\) 为剩余项。这一步借鉴 Abadie & Imbens (2016) 但需推广到 \(M\) 发散情形。 2. 偏差分解：\(R_n\) 可分解为匹配偏差 \(B_1\)（由于倾向得分不精确匹配）和有限样本偏差 \(B_2\)（由于 \(M<\infty\)）。利用倾向得分光滑性，将 \(B_1\) 表示为关于倾向得分差分的 Taylor 展开，证明在条件 \(M n^{-2/(2d+4)} \to 0\) 下 \(B_1 = o_p(n^{-1/2})\)。 3. 方差计算：\(\text{Var}(\hat{\tau}_M) = \frac{\sigma^2}{n} + \frac{c}{nM} + o(1/n)\)，其中第二项来自匹配数有限导致的条件方差。当 \(M \to \infty\) 时，此项消失从而方差趋于 \(\sigma^2/n\)。需要精确计算 \(\frac{c}{nM}\) 的系数，并证明余项可忽略。 4. 倾向得分估计的纳入：若倾向得分估计，则需额外处理估计误差。通过将估计的倾向得分视为真实倾向得分加上渐近线性展开，证明剩余项 \(R_n\) 的附加偏差被吸收在 \(o_p(n^{-1/2})\) 中。 5. 渐近正态性：基于 Huber 列中心极限定理或 U-统计量的 CLT，验证独立和与剩余项满足 Lyapunov 条件。

最关键的技巧性引理或“跳跃点”：为控制发散 \(M\) 下匹配偏差的阶数，需要证明对于倾向得分附近的高维球体内，Chernoff-type 样本点落入该球的概率及最远匹配距离的期望。具体地，引理 3 给出了 \(\mathbb{E}[\text{max}_{j\in\mathcal{J}_M(i)} |e(X_i)-e(X_j)|] = O((M/n)^{\frac{2}{2+d}})\)，这个界是证明偏差 \(B_1\) 可忽略的核心。该引理利用了顺序统计量的极值理论和局部密度估计的经典技巧，但在 \(M\) 发散下需重新推导精确阶数。

数学工具评价：整体框架是经典的 influence function + expansion 与 U-统计量渐近理论，但巧妙点在于将匹配数发散引入的偏差通过匹配半径的极值分布进行控制，而非传统的偏差校正。与 HOIF 的高阶偏差修正不同，本文走的是“增大匹配数以降低方差”的路径，属于半参数估计理论中“undersmoothing”思路的变体。工具是经典而非全新的分析框架。

五、问题发现：研究者能做什么¶

(A) 立即可做（最多2条）

问题表述：在倾向得分未知但可通过“已知函数形式+有限维参数”（如 logistic 回归）建模时，严格证明发散 \(M\) 匹配估计量在参数模型 misspecification 下的渐近性质——即模型错误设定时，匹配估计量是否仍然达到比固定 \(M\) 更小的方差，以及偏差的符号与界。
用到武器库里的条目：estimation theory in causal inference（very_familiar）中的经典 PSM 理论；high-dimensional asymptotics 可用来处理参数模型维数增长的情形。
第一步具体动作：写引理——在 logistic 模型 \(e(X) = \Lambda(X^\top \beta)\) 下，推导 misspecification 偏差的显式展开，将其吸收到影响函数框架中，模拟 \(M\) 不同时偏差与方差的 trade-off（在 R 或 Python 中用 simulated data 重现本文定理 1 的数值验证，并加上 misspecification 设定）。
与本文已有结果的关系：补全——本文假设倾向得分要么已知要么非参数一至一致估计，而实践中常用参数模型；本问题将结果推广到参数模型 misspecification 情形。
问题表述：将本文发散 \(M\) 匹配估计量的方差表达式与 HOIF（Higher-Order Influence Functions）的方差表达式进行显式比较，提出一个统一框架：当匹配数 \(M\) 与 HOIF 的阶数 \(k\) 同时变化时，哪种路径在有限样本下更高效（给定计算预算）？
用到武器库里的条目：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)（very_familiar）来计算 HOIF 估计量的计算复杂度；minimax bounds for estimation problems 可辅助比较速率。
第一步具体动作：写出两种估计量的方差分解式，固定 \(n\) 和计算成本 \(C\)，比较在 \(C\) 下最优 \(M\) 与最优 HOIF 阶数；用 simulation 验证（需要实现 HOIF 估计量的快速计算，可用 einsum 加速）。
与本文已有结果的关系：算法侧贡献——本文未涉及计算复杂度比较，此问题为方法论交叉。

(B) 中期可做（最多2条）

具体条目：需要先在 semiparametric theory（moderately_familiar）中扎实理解“半参数效率下界”与“正则估计”的严格定义，特别是 Newey (1990) 的效率界推导和 Hahn (1998) 对 ATE 效率界的证明。
缺哪一块：semiparametric theory 中的“路径导数”与“影响函数”的完整构造，尤其对于含匹配的非光滑估计量如何证明其是正则的。
补哪 1-2 篇文献：Bickel, Klaassen, Ritov & Wellner (1993) Efficient and Adaptive Estimation for Semiparametric Models（理解路径导数和信息界）；Tsiatis (2006) Semiparametric Theory and Missing Data（应用在因果推断中）。
补完之后能做什么：回到 (A) 档——证明当倾向得分已知时，发散 \(M\) 匹配估计量不仅是渐近正态且方差等于效率界，更是正则且半参数有效的（本文仅声称渐近方差等于效率界，未完全证明正则性）。这涉及证明估计量的 influence function 即影响函数本身，而无剩余项的影响，需使用 semiparametric 的局部渐近正态性 (LAN) 论证。
具体条目：理论上的 HOIF 如何与匹配数 \(M\) 结合？需要先扎实掌握 HOIF (Higher-Order Influence Functions)（moderately_familiar）的高阶偏差校正原理。
缺哪一块：HOIF 的高阶 bias 表达式及其与匹配估计器偏差的联系。
补哪 1-2 篇文献：Robins et al. (2017) Higher-order influence functions and minimax estimation of the average treatment effect；Benkeser, Cai, van der Laan (2017) Theoretical and empirical comparison of efficient estimation methods for the average treatment effect。
补完之后能做什么：提出一个“匹配-校正混合估计量”：先用发散 \(M\) 匹配压低初始方差，再用 HOIF 校正残余的匹配偏差，以期在更弱的光滑性假设下达到效率界。具体问题：给定光滑性参数 \(\beta\)，最优的 \(M\) 与 HOIF 阶数 \(k\) 应满足什么关系？这需要将 HOIF 的偏差阶与匹配偏差阶联合优化。

(C) 暂不建议（最多2条）

缺什么机器：若想将本文结果推广到高维协变量（\(d > n\)），需要 random matrix theory（特别是协方差矩阵的谱行为）以及高维近似匹配的几何性质（如“curse of dimensionality”下最近邻的距离分布）。本文的极值引理（匹配半径的期望阶）在高维下会崩溃——最近邻距离不再随 \(M\) 减小，因为所有点都远离彼此。
为何不易绕过去：从武器库内 high-dimensional asymptotics 虽有随机矩阵理论，但非高维匹配的专门工具；低维极值引理在高维下根本改变，需要发展新的“惩罚匹配”或“降维匹配”框架，这涉及复杂的组合优化，超出了当前武器库的主流工具范围。
结论：暂不建议直接跟进高维协变量扩展。
缺什么机器：若想研究匹配数 \(M\) 自适应最优选择（即数据驱动选择 \(M\) 使均方误差最小），需要交叉验证或“leave-one-out”的精确分析和二阶展开，这涉及更精细的 U-statistics 的 Edgeworth 展开及理论性质。虽然武器库中有 computation of higher-order U-statistics 可用于加速计算，但二阶渐近理论（如 Edgeworth 展开）超出了 current arsenal 的熟悉度。
为何不易绕过去：自适应选择依赖于偏差-方差的高阶项精确表达式，而本文只给出了主阶项；二阶项的分析需要更深的 U-statistics 理论（如 Hoeffding 分解的四阶 moment），且计算复杂度高。可以中期在 theory of higher-order U-statistics 这块长肌肉后再考虑。
结论：暂不建议直接做自适应选择，除非先补齐 U-statistics 高阶理论。

值得精读的关键参考文献： - Abadie & Imbens (2016) Matching on the Estimated Propensity Score：本文的直接 base，需掌握其偏差校正框架和固定 \(M\) 下的理论，以理解本文的出发点。 - Hahn (1998) On the Role of the Propensity Score in Efficient Semiparametric Estimation of Average Treatment Effects：效率界的经典来源，精读可巩固 semiparametric efficiency 的路径导数视角，为 (B) 的第一点做铺垫。 - Robins et al. (2017) Higher-order influence functions and minimax estimation of the average treatment effect：用于 (B) 第二点，理解 HOIF 框架，并将其与匹配策略对比。

六、延伸思考与练习¶

假设扰动：若将 unconfoundedness 假设放宽为“条件弱可忽略性”（如存在未观测混杂，但可借用近端变量），则本文的匹配框架能否保留？技术上需要引入近端因果推断（proximal causal inference）的识别策略，影响函数结构将完全不同，匹配法需要匹配“代理变量”而非倾向得分。这个扰动后的问题可能落入 (B) 档——需要先在 identification theory in causal inference 中理解近端识别条件，然后尝试构造匹配估计量，检验发散 \(M\) 是否仍有益。
开放问题：① 在倾向得分光滑性较弱时（如 \(\beta=1\)，Lipschitz 连续），发散 \(M\) 匹配估计量的最优收敛速率是多少？是否可由 minimax 下界判定？这直接连接 minimax bounds 武器库。② 将本文的匹配数发散思想推广到连续处理变量的广义倾向得分匹配（generalized propensity score），需处理无限维匹配空间，挑战性更大。
理解检测题：证明子（Theorem 1 的偏差部分）：假设协变量 \(X\) 为一维且倾向得分满足二阶光滑性，\(M\) 满足 \(M = cn^{2/3}\)（其中 \(c>0\) 常数）。验证在本文的引理 3 条件下，匹配造成的偏差项 \(B_1\) 是否为 \(o_p(n^{-1/2})\)？若不是，请给出其主项阶数，并说明此时是否需要偏差校正才能达到 \(n^{-1/2}\)-收敛。提示：利用匹配半径期望阶与 Taylor 展开。此题考查对偏差展开关键引理的本质理解。

Maintained by 陈星宇 · Homepage · Source on GitHub