Examining the Efficacy of Coarsened Exact Matching as an Alternative to Propensity Score Matching¶

作者: Fei Wan
来源: Statistics in Medicine
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是观察性研究中匹配方法的理论性质与实证表现比较，具体聚焦于两种竞争性方法——倾向得分匹配（PSM）与粗化精确匹配（CEM）——在减少协变量不平衡、降低模型依赖性、控制混杂偏误和估计效率方面的优劣。该领域目前的核心争论点是：被广泛推广为“PSM优越替代品”的CEM，其理论基础与实践表现是否真的优于PSM？还是说CEM的流行更多源于对其性质的误解和不当的评估指标？

发展脉络¶

奠基工作：PSM的兴起与延伸 (2000s-2010s)
- Rosenbaum & Rubin (1983)：奠定了倾向得分作为降维工具的理论基础，确立了通过匹配倾向得分来平衡可观测协变量的核心框架。本文引用其“强可忽略性”假设 (Property 2)，作为PSM设计有效性的逻辑起点。
- Stuart (2010)：系统综述了匹配方法在因果推断中的应用，为各种方法的理解和选择提供了结构性的指导，是PSM走向广泛应用的里程碑式综述。
- Austin (2010; 2013)：通过大量蒙特卡洛模拟，系统研究了PSM的操作细节，如最优卡钳宽度、不同匹配算法（贪婪匹配、最优匹配等）的性能比较，为PSM的实践提供了具体、可量化的操作指南（如推荐倾向得分对数比值0.2个标准差卡钳）。
主要进展：CEM的提出与PSM的挑战 (2010s中后期)
- Iacus, King & Porro (2012)：提出CEM，声称其能够像精确匹配一样消除混杂，但通过粗化变量来避免维度灾难。其理论吸引力在于：无需估计倾向得分、避免模型误设、直接平衡协变量分布。这构成了对PSM范式的直接挑战。
- King & Nielsen (2019)：发表了极具影响力的批判文章，使用大量模拟和历史数据，强烈主张PSM常常“适得其反”，会增加不平衡、非效率和模型依赖性。他们论证了PSM试图模仿完全随机化实验，而CEM等完全阻塞匹配方法能更好地模仿完全区组化实验，从而更高效。本文明确引用了这篇论文的核心论点，即PSM的悖论与不平衡问题。
- Ripollone et al. (2018; 2019)：使用实际的药物流行病学数据库，实证研究了PSM悖论和CEM的实践表现。前者确认了PSM悖论在真实数据中的存在，后者则发现CEM虽然常能达到最佳协变量平衡，但会导致严重的样本量损失和偏向的、不精确的估计，尤其是在协变量集合较大时。
当前Frontier：理论批判与重新审视 (2020s至今)
- Black, Lalkiya & Lerner (2020)：发表了题为“The Trouble with Coarsened Exact Matching”的实证工作，通过复制5篇使用CEM的论文，直接得出结论：CEM在丢弃观测值、误判处理效应和估计精度方面表现显著差于其他多种平衡方法，其建议是“永远不要将CEM作为唯一的平衡方法，且几乎没有理由使用它”。
- Guo & Rothenhäusler (2022)：从统计理论上阐明，非精确匹配（包括PSM和CEM，因为CEM的粗化性使其本质上也是非精确的）不能像精确匹配那样，在统计意义上同时扮演消除偏倚和为随机化检验提供正当性这两个角色。他们留下一个关键口子：非精确匹配的真正价值在于，它能增强后续参数分析对模型误设的稳健性，使分析更少地依赖模型选择。本文作者的长期工作（Wan, 2018; 2021; 2024等）与这一理论焦点高度呼应，关注匹配后分析的模型依赖性和偏误来源。
- 本文 (Wan, 2024)：站在上述争论的十字路口，系统性地审视了CEM是否确实是PSM的“优越替代品”。本文的位置是：针对King & Nielsen (2019)等文献对PSM的强烈批评和Black等人对CEM的尖锐否定的浪潮，作者认为许多争论源于对关键概念的混淆（如用不当指标衡量PSM的“随机不平衡”），以及过分强调CEM的“匹配过程”而忽视其引入的“统计性质”（粗化所致的残余混杂）。本文旨在“拨乱反正”，通过理论推导和系统性模拟，澄清PSM方法的理论基础，并展示CEM在统计原理和实践应用中的根本性缺陷，特别是当协变量维度上升时。

子线索聚类¶

这些被引文献可归为以下几类：

PSM的理论与操作 (Rosenbaum & Rubin, Austin, Stuart, Wan关于PSM分析的相关工作)：关注PSM的核心理论性质（平衡性、无偏性）、最佳实践（卡钳选择、算法）以及匹配后的数据分析方法。
CEM的推广与实证应用 (Iacus, King & Porro, Ripollone et al. 2019, Sceats et al., Haider et al., George et al., Liu et al.)：将CEM视为一种可行的方法，并主要在各种实证场景（药物流行病学、外科手术比较、跨国医疗系统对比）中应用它。其中既有支持CEM的早期声音（Ripollone et al. 2019发现其平衡性最好），也有揭示其随维度灾难而产生大量局限性的实证发现（同篇文章也发现了高偏倚和低精度）。
对PSM/CEM的理论批判与比较 (King & Nielsen 2019, Black, Lalkiya & Lerner 2020, Guo & Rothenhäusler 2022, Ripollone et al. 2018, Wan 2024)：本子线索是当前争论的焦点。批判方向分为两类：一类（King & Nielsen）攻击PSM的根本逻辑，另一类（Black等人）攻击CEM的实践表现。本文自身属于此类，但其立场是既要澄清对PSM的批评（认为其是误解），又要指出CEM的固有缺陷（粗化引入的残余混杂和模型依赖性）。

这个方向在追问的核心问题与瓶颈¶

核心问题1：在减少协变量不平衡方面，PSM和CEM究竟谁更有效？当前结论存在分歧：King & Nielsen认为PSM增加不平衡，而本文认为PSM的不平衡是随机变异，衡量指标的选择（如是否控制随机变异）会得出相反结论。
核心问题2：CEM的“近似精确匹配”承诺是否成立？瓶颈在于，为了实现可观的样本保留率，CEM必须进行粗化（coarsening），而这引入了非忽略的残余混杂，使得后续分析仍高度依赖对结果模型（outcome model）的正确设定，从而违背了其“减少模型依赖性”的初衷。
核心问题3：当协变量维度增加时，匹配方法的性能如何衰退？PSM面临的是倾向得分模型设定的维度问题，而CEM则直接遭遇维度灾难，导致匹配失败（样本损失） 和数据稀疏性急剧恶化。

⚠️作者的Framing（必须明确标注成“这是作者的说法”）¶

作者的缺口框架：作者认为，当前CEM流行的原因在于“prevailing misconceptions”（首段）。他声称要填补的缺口是：1) 澄清PSM的随机不平衡与系统性不平衡；2) 揭示CEM引入的残余混杂；3) 用mantel-haenszel-like的解析推导来证明CEM的模型依赖性。他将自己的论文定位为：为CEM的“troubles”提供统计学基础，并证明PSM在这些方面更稳健。
被淡化或回避的竞争路线：作者几乎完全回避了与CBPS（Covariate Balancing Propensity Score）、EBAL（Entropy Balancing） 或Matching with Replacement等现代方法的比较。这些方法的核心思路（通过直接优化协变量平衡来估计倾向得分或权重）可能是调和PSM与CEM争论的另一途径。此外，作者对论文 [4] (Black et al.) 的实证性强烈批评进行了引用（只作为CEM被批评的证据，见 [4] 引用句），但其论文的论证方式主要是理论推导和模拟，与Black等人基于文献复制的批判方式不同，这为后续更系统的比较埋下了伏笔（或者说是回避）。
明显该被引但未出现的工作：未检索到对 Imbens (2015) “Matching Methods in Practice”（如 American Economic Review) 的引用。该文是匹配方法的权威实践指南，深入讨论了匹配与参数模型结合的话题，本可作为作者讨论“模型依赖性”问题的有力支撑。此外，Kallus (2020) “Classical and Modern Methods for Propensity Score Estimation” 讨论最佳平衡方法，也未出现。

张力¶

这些被引工作之间存在直接且尖锐的对立意见： * King & Nielsen (2019) 强烈主张PSM在实践中做得不好，而 Wan (2024, 本文作者) 则在其系列论文（如 [3]）及本文中，系统地论证PSM的表现被误解，这主要是由对“chance imbalance”的混淆计量和“PSM paradox”的不当解读造成的。这种对立触发了观察性研究中匹配方法设计的根本分歧——是追求更好的协变量平衡（CEM），还是更稳健的（对模型误设）因果估计（PSM）。 * 另一个较小但可见的张力存在于关于CEM实证表现的结论：Ripollone et al. (2019) 发现CEM能实现 “best covariate balance”，但同时导致 “high bias”；而Black, Lalkiya & Lerner (2020) 发现CEM在复制已发表论文时全面劣于其他方法。两位作者在解释上产生了分歧，Wan (2024) 的理论洞察提供了弥合这种分歧的可能——Ripollone的“好平衡”是匹配前的（在小样本中碰巧），而CEM的主要问题是粗化造成的 residual confounding （结构性而非随机性），这解释了为何高平衡性反而伴随着高偏倚。

二、最核心、最简单的例子/数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(W \in \{0, 1\}\): 处理指示变量（treatment indicator）。\(W=1\) 表示处理组，\(W=0\) 表示对照组。
- \(\boldsymbol{X} \in \mathbb{R}^p\): 协变量向量（covariates vector），维度为 \(p\)。这是我们希望匹配/平衡的真正变量。
- \(Y\): 结果变量（outcome variable）。
- \(e(\boldsymbol{X}) = P(W=1 | \boldsymbol{X})\): 倾向得分 (propensity score)，即给定协变量下接受处理的概率。
- \(\tau\): 处理效应 estimand，这里是 ATT（对被处理者的平均处理效应）：\(\tau = \mathbb{E}[Y(1) - Y(0) | W=1]\)。\(Y(1)\) 和 \(Y(0)\) 是潜在结果（potential outcomes）。
- \(\widehat{\tau}\): 处理效应的估计量。
- \(\boldsymbol{C} = g(\boldsymbol{X})\): CEM 中的 粗化协变量 (coarsened covariates)，其中 \(g(\cdot)\) 是某个粗化函数（如将连续变量转为有序分类变量）。\(c\) 是粗化水平（coarsening level）。
- \(n\): 样本量。
- \(n_T, n_C\): 处理组和对照组的样本大小。
模型：
- 这是一个标准的数据生成过程：研究者从某观察性研究中收集到样本 \(\{W_i, \boldsymbol{X}_i, Y_i\}_{i=1}^n\)。核心假设是强可忽略性（Strongly Ignorable Treatment Assignment, SITA）：\((Y(1), Y(0)) \perp W \mid \boldsymbol{X}\) 且 \(0 < e(\boldsymbol{X}) < 1\)。在这个假设下，给定 \(\boldsymbol{X}\) 或足够好的摘要如 \(e(\boldsymbol{X})\)，处理分配是“如随机一样”的。
- 结果模型（outcome model）的形式是本文讨论的焦点。最简单的情况，假设真实结果模型是线性的：\(Y = \alpha + \tau W + \boldsymbol{X}^T \boldsymbol{\beta} + \epsilon\)，其中 \(\epsilon\) 是随机误差。但分析中可能用到错误设定的模型。
可观测数据：
- 可观测到的：(1) 所有 \(i\) 的 \(\{W_i, \boldsymbol{X}_i, Y_i\}\)。研究者能观测到每个个体的处理状态、所有协变量（理论上包含了所有混淆变量）和结果。
- 观测不到 / 潜在但想要：(1) 每个个体的反事实结果（如处理组的潜在对照结果 \(Y_i(0)\)）；(2) 真实的倾向得分函数 \(e(\boldsymbol{X})\) 必须通过模型估计；(3) 真实的结果函数 \(E[Y | W, \boldsymbol{X}]\) 形式未知；(4) CEM中，虽然 \(\boldsymbol{X}\) 被粗化为 \(\boldsymbol{C}\)，但研究者知道原始的 \(\boldsymbol{X}\)，只有匹配过程是针对 \(\boldsymbol{C}\) 的。
- 因果推断的本质困难：我们只能观察到 \(Y_i = W_i Y_i(1) + (1 - W_i) Y_i(0)\)，即处理组个体的 \(Y(1)\) 和对照组个体的 \(Y(0)\)。为了识别 \(\tau\)，我们必须通过匹配（或其它方法）来冒充处理组缺失的 \(Y(0)\)。

第二步：讲最小内核¶

这篇论文的最小内核是：一个关于“粗化”本身对匹配设计理论性质影响的推理，而不是一个复杂多变量的场景。作者用这个内核来反驳CEM的“近似精确匹配”声称。

最简特例：单位维协变量 \(p=1\) 的二分协变量设定与“完全阻塞”思想。

让我们剥去所有复杂的模拟和假设，回到最基本的一维协变量情况 (p=1)，更具体地，假设 \(\boldsymbol{X}\) 只取两个值：\(X \in \{0, 1\}\)。

特例设定： * 协变量 \(X\) 是一个二分变量（0/1）。 * 假设我们观测到 \(n_T\) 个处理组个体和 \(n_C\) 个对照组个体，它们的 \(X\) 分布不同（存在混杂）。 * 研究者想要估计 ATT：\(\tau\)。

PSM 做的事情： 1. 估计倾向得分 \(e(X)\)。在此特例中，\(e(X)\) 就是 \(P(W=1|X=0)\) 和 \(P(W=1|X=1)\)，是两个数。 2. 基于 \(e(X)\) 进行匹配。倾向得分相同的个体之间匹配。注意，如果 \(e(X=0) \neq e(X=1)\)，那么一个 \(X=0\) 的处理组个体只能匹配到 \(X=0\) 的对照组个体（因为他们的倾向得分相同）。因此，在 \(p=1\) 二分协变量的情形下，PSM 实质上实现了对原始变量 \(X\) 的精确匹配。 在不平衡上，任何残留都是随机的。

CEM 做的事情： 1. 粗化：但 \(X\) 已经是二分变量，所以粗化函数 \(g(\cdot)\) 没法再简化。已经最优了。让我们稍微扩展一下，假设 \(X\) 是连续变量，如年龄（0-100岁）。 2. 粗化过程：将年龄 \(X\) 粗化为 \(C\) 个区间，比如 [0, 30), [30, 60), [60, 100]。这时 \(C = g(X)\) 可以是 1, 2, 3。 3. 匹配：只在 \(C=g(X)\) 完全相同的单元之间进行精确匹配。这意味着在CEM生成的匹配集里，所有处理组和对照组的年龄都在同一个粗化区间内。 4. 核心矛盾显现：在CEM匹配后的数据集里，处理组和对照组的年龄虽然都在区间[30, 60)内，但一个处理组个体（年龄31）和一个对照组个体（年龄59）的原始年龄 \(X\) 相差甚远。这就是“粗化”引入的残余混杂（residual confounding）。

论文的核心论点在此最简例子中一览无余： * 对于PSM：在\(p=1\)（或任何能完全用倾向得分捕获的模型）情形下，PSM确实做到了“如精确匹配般”地处理\(X\)。原文引用 [1] (King & Nielsen) 批评PSM增加不平衡的论断被质疑——本文作者说这不平衡是“随机变异”，而不是“系统不平衡”。 * 对于CEM：即使\(p=1\)，“粗化”就已经产生了结构性的不平衡（例如31岁个体和59岁个体被当成“粗化后平衡”的匹配对）。这种不平衡不会随着样本量增加而消失（除非coarsening的个数也增加，或使得每个区间内足够“近似于精确匹配”）。这正是论文中引用的 [10] 的结论本质。 * 残余混杂需要调整：为了消除这种由粗化导致的系统性偏倚，必须在匹配后引入对原始变量（或足够好的摘要）的输出模型的校正（例如，用 \(Y\) 对 \(W\) 和 \(X\) 进行回归）。但这恰恰又回到了模型设定的问题上，违背了CEM宣称的“非参数”、“模型鲁棒”的初衷。如果你不用模型调整，直接用两组的\(\bar{Y}\)之差来估计\(\tau\)，得到的估计量将是有偏的，偏倚大小为区间内\(X\)分布差异对\(Y\)的影响。

因此，整篇论文的模拟和理论推导，本质上都是在围绕这个一维连续变量被粗化为区间这一简单内核，进行更高维、更多协变量交互、更复杂模型设定的推广和量化。其核心想揭示的理论陷阱是：CEM通过“粗化”实现了“可操作的精确匹配”，但却引入了需要后续模型来修正的内在结构偏差；PSM通过“平衡倾向得分”实现了“近似匹配”，但其所声称的不平衡往往是随机而非结构性的，且其对模型误设的稳健性更高。这正是作者整个论证链条的起点。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：系统性地比较了CEM与PSM在观察性研究因果推断中的理论性质与实践表现，重点考察在减少协变量不平衡、模型依赖性、以及估计偏倚方面的差异。
核心工具/方法：以解析推导（应用了ANCOVA中的协方差调整思想）和大量系统性模拟为主要研究方法。通过构建量化特定匹配结构下偏倚的度量（如将残余混杂分解为可解释和不可解释部分），来对比两种方法在不同模型误设与协变量维度下的相对性能。
主要结论：CEM并非PSM的优越替代品。其“粗化”本身引入的结构化残余混杂需要后续对结果模型的正确设定才能消除，因此反而增加了模型依赖性。在协变量维度增加时，CEM遭遇维度灾难导致严重样本损失和估计不稳定。相反，PSM在处理模型误设时更稳健，且其产生的不平衡是随机变异而非系统性偏倚，用标准化均值差（SMD）衡量时，PSM比CEM更有效地降低不平衡。

关键设定与假设¶

设定：除了前面一节的最简设定，论文研究了几个关键的设定和模拟场景：
1. 协变量 \(X\) 的类型：模拟了 \(p=2\) 至 \(p=6\) 的协变量向量，其中包括连续型（如正态分布）、二值型（如伯努利分布）和混合型。这是为了探究CEM在不同数据特征下的“粗化”效果和匹配成功率。
2. 倾向得分与结果模型：处理分配模型设定为 \(P(W=1|X) = \text{logit}^{-1}(\alpha + X^T \beta_\text{ps})\)。结果模型设定为线性和 非线性（如包含 \(X\) 的二次项和交互作用项），以模拟模型正确设定和误设的不同情况。这是检验模型依赖性的关键。
3. CEM的粗化策略：考虑了两种常见方式：
  - 用户根据分位数或理论分布预先定义粗化区间（如“autocoarsening”策略，即基于数据的自动粗化——比如将连续变量按分位点粗化为几个等宽的区间）。
  - 指定允许在变量上保留的最大 coarsened 类别数（如k bins）。
4. 效应量：考虑了同质性处理效应（\(\tau\) 对所有个体相同）和异质性处理效应（\(\tau\) 因 \(X\) 而变化），以考察匹配方法对不同处理效应结构的鲁棒性。
关键假设与识别：
- 强可忽略性 (SITA)：是整个分析的基石，没有这个假设，匹配方法就无法识别出因果效应。作者承认这一点，并指出即使在完美匹配下，偏倚可能源于未测量的混杂。
- 常见支持 (Common Support)：对于PSM，需要存在\((0,1)\)区间内的倾向得分，确保可以找到匹配。对于CEM，需要存在共同支持，否则完全精确匹配不可能实现（导致样本损失）。
- 模型误设程度：作者通过构造特定的线性/非线性结果模型，并系统地改变模型形式，量化和比较PSM与CEM对非线性或交互作用模型的敏感性。这是评估模型依赖性的关键。
相比已有文献的加强/放宽：
- 相对King & Nielsen (2019)：本文更强调PSM问题的根源是统计意义上的“随机”不平衡，而非系统性不平衡，并进行了解析推导。作者明确指出，King & Nielsen的批评可能混淆了随机与系统不平衡。
- 相对Black et al. (2020)：本文的模拟设计更为系统化，不仅通过文献复制，还通过生成已知因果结构的模拟数据，使得能够精确量化“总偏倚”、“因为残余混杂的偏倚”和“由于模型误设的偏倚”三者之间的关系。

主要结果¶

论文的核心结果都基于模拟，并用一些解析公式作为支撑。

PSM更有效地降低不平衡：
- 核心指标：使用多变量标准化均值差（Multivariate SMD, \(\mathbf{d}_{SMD}\)）。作者成功地构造了一个精确公式来表示协变量平衡（SMD）与匹配后样本利用效率之间的关系。当用SMD衡量时，PSM能更系统地平衡协变量。
- 直觉：在PSM匹配中，虽然单维倾向得分差异减小的过程中可能短暂增大某些SMD，但这是随机抽样的波动。在大样本下，倾向得分相同的子集内的协变量平衡是随机的，均值为0。因此，用能处理随机噪声的标准统计指标（如SMD）衡量时，PSM的平衡性更好。而CEM的粗化则在协变量空间留下了系统性差异（即粗化区间内部的差异），这些差异在SMD中会被捕捉到，并随着样本量增大而固定下来（除非匹配覆盖了整个群体）。
CEM引入严重模型依赖性：
- 无调整（Unadjusted）分析：CEM比PSM产生更严重的偏倚。
- 调整（Adjusted）分析：当匹配变量数量很少（\(p=1,2\)）时，如果在匹配后进行协变量调整（例如，对 \(Y\) 回归 \(W\) 和其余协变量），CEM的偏倚可以降低到与PSM相似的水平。这解释了CEM在其最初提出的理想低维情形下的竞争力。
- 维度诅咒：当 \(p\) 增加到 4 或 6 时，CEM的样本损失（其匹配过程仅保留“粗化后依然完全重合”的单元）急剧增加。
  - 比如，对于\(p=6\)的情形，CEM可能只能匹配10%甚至更少的数据。
  - 样本数据的大幅缩减使得匹配后的固定效应模型等分析变得无效率和高度不稳定，而PSM则仅依赖于倾向得分（一个线性组合），几乎不受维度诅咒的影响。
CEM的“自动粗化”策略具有误导性：
- CEM通常建议使用“autocoarsening”，即自动基于分位点将连续变量粗化。作者发现，这会导致在处理稀疏数据（高维度）的高概率情况下，产生过于粗的区间以保留样本量。
- 粗区间会加剧残余混杂，导致更大的偏倚。而如果你坚持用细区间（从而更好地近似精确匹配），你会再次遭遇维度灾难，丢弃几乎全部样本。CEM在“精度-保留”之间面临一个无法回避的权衡，且没有用户友好的机制来确定最优的粗化水平。

证明路线与技术技巧¶

整体路线:
1. 理论推导（解析奠基）：首先建立一个精确的数学框架来描述匹配后的协变量不平衡（使用multivariate SMD的解析形式）、残余混杂（对线性结果模型的偏倚分解），以及由粗化引起的模型依赖（通过ANCOVA调整后的偏倚公式）。
2. 模拟1: 不平衡比较：通过模拟设置一个简单的大样本线性结果模型，让PSM和CEM（含autocoarsening）分别执行匹配后，比较两者在\(\mathbf{d}_{SMD}\)上的差异。关键操作：作者在模拟中明确地区分了“系统不平衡”和“随机不平衡”
  - 对每个匹配数据，计算\(\mathbf{d}_{SMD}\)。
  - 用bootstrap或大样本近似来计算\(\mathbf{d}_{SMD}\)的置信区间。
  - 论证PSM的\(\mathbf{d}_{SMD}\)趋向于以均值为中心（零憧憬），方差随样本量增加而减小，而CEM的\(\mathbf{d}_{SMD}\)具有一个非零的真实值（系统偏差）。
3. 模拟2: 偏倚分析：
  - 无调整情况：比较PSM和CEM在匹配后的未调整均值差（\(\bar{Y}_T - \bar{Y}_C\)）中的偏倚。CEM因为有粗化后的残余混杂，偏倚更大。
  - 调整情况：在匹配后对观测到的协变量进行线性回归调整（调整后估计值）。在高维（\(p=6\)）CEM由于样本严重损失，调整几乎不起作用（估计不稳定，标准误极大）。在低维，调整后两者相当。
4. 模拟3: 对模型误设的敏感性：
  - 生成具有二次或乘积项的结果模型（如 \(Y = \alpha + W\tau + X_1\beta_1 + X_2\beta_2 + X_1X_2\beta_{12} + \epsilon\)）。
  - 比较错误指定为线性模型的估计量的偏倚。结果发现PSM的偏倚增加小于CEM的偏倚增加。作者将这个结果归结为PSM更依赖于倾向得分的维数（一维），而CEM的有效维数随变量增加而迅速增加，且对函数形式极为敏感。
关键跳跃点：
- 将残余混杂建模为ANCOVA问题：作者没有仅仅通过二进制匹配的直觉来讨论，而是使用了解析的ANCOVA框架。假设处理组和对照组在匹配后，对于每个粗糙的CEM区间\(k\)，处理组的平均真实值是\(\bar{X}_{T,k}\)，对照组是\(\bar{X}_{C,k}\)。其残余混杂就是\((\bar{X}_{T,k} - \bar{X}_{C,k})\beta\)。这个差异不随样本量增加而消失（这是一个系统性偏差，来自CEM在一个宽区间内对所有个体的相同对待的假设）。论文的关键跳跃点在于把这个系统偏倚量化为一个可加的函数，从而可以比较它在PSM（随着样本量增加趋于0）和CEM（固定不动或随粗化个数变化）中的不同表现。
- 证明PSM的SMD为零均值：使用了大样本理论，为PSM构造了一条证明路径——证明在倾向得分匹配的结构下，经过匹配，协变量向量之差的条件分布的条件均值为零向量。关键收敛到解析表达式（通过卡钳宽度和倾向得分函数的形式），从而正式宣告对于PSM而言，不平衡是随机的。
技术技巧点名：
- ANCOVA理论与模型依赖性分析。
- Mantel-Haenszel方法与混杂概念（用于在匹配后量化粗化区间的偏倚贡献）
- 重抽样/Bootstrap（用来模拟随机变异，并比较用SMD测量时的置信区间覆盖情况）。
- 模拟设计的因子分析（构造不同模型结构、不同维度、不同匹配参数的网格搜索）。

真实例子与应用¶

本文为纯模拟研究，无真实数据集应用。 但模拟本身就是设计用来展示方法的。最终模拟的结果均以表格和图形的形式呈现。

模拟数据生成：
- 使用了R软件包。
- 协变量是从多元正态分布生成（系数 c(0.25, -0.15, ...)），然后添加二进制变量。
- 处理分配是Logistic模型：logit(e(X)) = X %*% beta_ps （beta_ps的系数代表混杂强度）。
- 结果模型是线性（基础情况）或包含交互项/二次项（误设情况）。
模拟场景与结果：参考上述“主要结果”小节。
例子想说明什么：这个纯模拟研究旨在分离和量化两种匹配方法的核心统计区别，而非提供可以直接应用的“具体实证结论”。它解答了“为什么你的实证（[4] 如 Black, Lalkiya, Lerner）发现CEM很糟糕”的原因：因为CEM的偏倚本质上是结构性的（残余混杂），而数据丢失（维度灾难）放大了该偏倚，且其在模型误设下的脆弱性使其不具备PSM对近似设定提供的“保险效应”。

🔎 结论是否比证明窄¶

是的，存在显著窄化。

作者声称的“PSM更有效地降低不平衡”，严格在其模拟环境下得到证明，尤其是PSM的随机不平衡(SMD)在抽样平均意义上是零。然而，在有限样本下，如果倾向得分模型高度误设（比如用线性模型对高度非线性的真实倾向得分建模），PSM的失衡就可能从“随机”变为“系统且可观”。作者的模拟主要探讨了结果模型的误设，而极少探讨倾向得分模型自身的误设。
结论描述的“CEM的模型依赖性高于PSM”。这在模拟中是清晰的，但它建立在CEM匹配合并后（用估计的ATT差异值）的模型调整效果上。作者证明，在许多其他匹配调整方法（如精确匹配、或结合核权重的GPS方法）的背景下，CEM的表现可能不如它们。
应重点提醒的窄结论：全文没有证明“PSM在任何实际情形下都是更优的”。它主要论证了在多种设定的模拟下,特别是协变量维度增加时，PSM整体上表现更可靠。而对于严格的有限样本、极端非线性的倾向得分设定、强未测量混杂等，证明了CEM的某些特质（如粗化区间优先保留下层）可能有用。作者在 Conclusion 中承认了“PSM需要强可忽略性假设成”这一点，但其模型的稳健性依赖于该假设。

四、开放问题（扎根具体语句）¶

随机不平衡 vs. 系统不平衡的量化指标：本文虽然澄清了用SMD衡量时PSM的SMD均值为0的观点，但并没有提供一个关于“残余混杂的上界”（under mild misspecification） 的严格误差界。是否可以对PSM与CEM在特定形式的结果模型误设（如Hölder光滑类）下的 minimax rate of bias 进行推导？（扎根于：结论部分讨论“PSM is more robust”时，仅依赖模拟，缺乏对结果模型光滑性的理论量化）。
CEM粗化水平选择的自适应方法：论文指出autocoarsening会陷入“精度-保留”的困境。一个有意义的开放问题是：能否基于工具变量或结果模型的事后诊断，设计一个 data-adaptive 的粗化水平选择算法，在不假设光滑性的条件下，最小化均方误差（MSE）？（扎根于：模拟中“CEM面临无法回避的权衡”，以及“CEM用户不知道如何选择最优粗化水平”的广泛讨论）。
高维协变量下的效率理论：本文发现CEM受维度诅咒严重。那么，给定 \(p \propto n\)（高维衰减），CEM的效率损失（matching failure rate / 保留样本量）的minimax rate 是多少？PSM的这种率是不是更优？是否存在PSM和CEM都能以接近最优效率运行的信噪比（SNR）区间？（扎根于：关于维度的讨论及对“curse of dimensionality”的具体描写） 此问题高度契合你的 primary_interests（high-dimensional statistics, minimax bounds），并且可以直接用Hoeffding界、VC维或随机矩阵理论来初步估计样本损失。
活数据动态匹配：本文讨论的是静态、用一个批次做匹配的设定。如果数据是流式的（online/live），并且处理组和对照组的协变量分布随时间变化，此时应该如何实时地做PSM或CEM？CEM的粗化区间是否可以自适应更新？（扎根于：没有在现有文献中讨论，但这是实际应用（如医疗健康实时监测）的一个明显缺口，且仍在本文的框架下。）

Maintained by 陈星宇 · Homepage · Source on GitHub