Benefits and costs of matching prior to a difference in differences analysis when parallel trends does not hold¶

作者: Dae Woong Ham, Luke Miratrix
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：当经典的平行趋势假设（parallel trends）不成立时，差分中差分（DiD）估计的偏倚如何被匹配（matching）改变——匹配是放大还是缩小偏倚？其净效应能否被解析地刻画？这是一个偏倚分析（bias analysis）问题，而非一个开发新估计量的问题。该子领域的成熟度属于半成熟：已有大量零散的经验观察（模拟研究指出匹配既可能帮也可能害），但缺少统一的、非模拟的解析框架来量化其“收益”与“成本”的权衡。

发展脉络（history）¶

奠基工作：DiD的传统识别完全依赖平行趋势假设。当该假设可疑时，匹配作为一种预处理策略被引入：先匹配（基于基线协变量和/或预处理结果），再在匹配样本上跑DiD。Heckman et al. (1998) 和 A. Smith & E. Todd (2005) 是最早一批将匹配与DiD结合的经验工作，其隐含信念是“条件于相似的协变量，平行趋势更可能成立”。

主要进展（零散经验观察）：2017年前后出现了一组对“匹配+DiD”策略的警告。Daw & Hatfield (2018) 通过蒙特卡洛模拟演示了：在预处理结果水平与处理分配相关、且序列相关性弱的设定下，匹配会注入偏倚（回归到均值的效应）；Lindner & McConnell (2018) 和 Zeldow & Hatfield (2021) 也在模拟中观察到类似现象。这些工作被原文引用为“analyze matching prior to a DiD analysis and show that matching may actually hurt or help depending on different scenarios”。同时，有一条反向的观察来自 Ding & Li (2019)：DiD 与滞后因变量调整（LDV）之间存在一个“括号关系”（bracketing relationship），即两个估计量对真实效应的估计位于两边——但需要注意的是，这篇工作处理的是不同模型选择，而非匹配策略。

当前 Frontier（进入解析阶段）：此前的工作几乎都是基于模拟的“警示”，缺乏对偏倚结构的解析刻画。而 Illenberger, Small & Shaw (2020) 则将回归到均值的偏倚分析从DiD拓展到了合成控制（synthetic control），证明该偏倚普遍存在于这种“通过匹配预处理结果来构建反事实”的策略中。本文（Ham & Miratrix） 的位置正是接续这条线索：在 DGP 层次上用线性结构模型把匹配的收益（平衡未观测混杂）和成本（回归到均值的偏倚）解析地分离出来，并给出偏倚的封闭形式表达式。

子线索聚类¶

这些被引文献大致落在三条子线索上：

匹配+DiD的应用与警示（经验/模拟主导）：
- Daw & Hatfield (2018), Lindner & McConnell (2018), Zeldow & Hatfield (2021)：通过模拟展示匹配在特定条件下不如不匹配。
- Heckman et al. (1998), A. Smith & Todd (2005), Imai, Kim & Wang (2021)：早期的匹配+DiD应用，信念是匹配能改善平行趋势的合理性。
- 这些工作构成了一条“经验-警示”的对话：前者说匹配会害，后者用匹配做研究。本文正是在回答“何时会害、何时会帮、害和帮各多大”这个问题。
DiD 自身识别条件与敏感性分析：
- Callaway & Sant’Anna (2021)：多期DiD的识别与估计，处理条件平行趋势下的估计问题。
- Ding & Li (2019)：DiD与LDV的括号关系。
- Kim & Steiner (2021/2020)：从图形模型（causal graph）角度理解DiD和gain score的识别条件。
- 这条线索不直接讨论匹配，但为判断“平行趋势为何会被违背”提供了认识论基础——未观测的时间可变混杂是最有害的。
匹配方法的理论基础与局限性：
- Stuart (2010)：匹配方法的综述，强调依赖可观测协变量即可ignorability。
- D’Amour et al. (2021)：高维协变量下重叠性（overlap）的诅咒——完美匹配不可行。
- Shpitser, VanderWeele & Robins (2010)：covariate adjustment的图条件。
- 这条线索涉及匹配本身的能力边界：在什么条件下匹配能真正block confounding？在什么条件下它会引入新的偏倚（如M-bias）？

这个方向在追问的核心问题（2-4个）¶

匹配是帮还是害？ 给定一个具体的设定（基线协变量、预处理结果、观测/未观测混杂的结构），匹配后的DiD的偏倚是小于还是大于不匹配的DiD？
偏倚由什么决定？ 偏倚的符号和大小如何依赖于DGP参数（如序列相关性、结果变量的可靠性、混杂效应的时间变化、未观测混杂与处理的相关强度）？
如何在实际中判断？ 能否给出一个简单、可操作的准则（heuristic guideline），让实践者仅用可观测数据就能判断匹配是否值得？
解析路径 vs. 模拟路径：这个问题能否被解析地处理（而非只能靠模拟）？线性模型下可以得到封闭解，但非线性或非参数设定下呢？

当前主流方法与瓶颈：主流方法是模拟（Daw & Hatfield, 2018等），瓶颈在于模拟结果难以外推到用户的特定DGP。本文提供了第一个系统性的解析框架，但代价是高度依赖线性设定和时不变未观测混杂。

⚠️ 作者的 framing¶

作者的缺口表述：作者把缺口 frame 为“匹配的偏倚成本与收益尚未被解析刻画；现有文献依赖模拟，缺乏普适性”。因此，这篇论文的“显然的下一步”就是：在一个足够灵活（能允许时间可变效应）但依然可处理的线性结构模型中，给出偏倚的解析表达式，并据此给出指南。
被淡化或回避的竞争路线：主要有两条被回避的路线：
1. 非参数/半参数的替代策略，例如合成控制的拓展（Augmented SCM, Ben-Michael et al., 2018）。这些方法不像匹配那样需要完美拟合（perfect fit on pre-treatment outcomes），而是通过偏置校正来处理糟糕的拟合。作者仅在定理5.2的注记中承认“regression to the mean phenomenon ... also present in synthetic controls”，但并未将Augmented SCM作为一个更优的替代来讨论。
2. 基于反事实投影的方法（如 Callaway & Sant’Anna 的条件平行趋势框架）。这些方法允许直接对平行趋势的偏离进行建模（例如通过逆概率加权或回归调整），而不是先匹配再DiD。作者显然选择了“匹配+DiD”这一子问题，而非整个“条件平行趋势”大类。
什么明显该被引/该存在、却没出现在intro里？ 作者在讨论回归到均值的偏倚时，引用了 Illenberger, Small & Shaw (2020) 在合成控制中的对应结果。但一个明显的缺失是 Rubin (1973, "Matching to Remove Bias in Observational Studies") 以及从那时起文献中对“匹配诱发M-bias / bias amplification”的更早期讨论。作者引用了 Ding & Miratrix (2015)，后者正是讨论M-bias的，但并未将匹配+DiD中的偏倚与更一般的M-bias框架连接起来。这可能是作者有意为之：M-bias涉及的是因变量（collider）的无意识条件，而匹配+DiD的核心困扰是回归到均值。（这是值得研究者去查的问题：是否有一条被忽略的文献线索，将回归到均值的偏倚与匹配/条件因果图中的M-bias统一了起来？）

张力¶

未见明显对立引用。Daw & Hatfield (2018) 与 Heckman et al. (1998) 虽有经验结论的不同（前者说匹配有害，后者认为有益），但前者是在“匹配预处理结果”这一特定操作下得出的，后者是更一般的匹配基线协变量。两种结论其实并不矛盾，只是设定不同。本文将它们统一在了同一个解析框架下。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - i = 单位索引（学校、城市、个人等）。总数 N = N_treated + N_control. - t = 时间索引。本文仅有 T+1 个时间点：t = 0, 1, ..., T。其中 t = 0 为基线（base-line），t = 1, ..., T-1 为预处理期（pre-treatment），t = T 为处理后期（post-treatment）。 - Y_it = 结果变量（连续标量）。 - A_i ∈ {0, 1} = 处理指示变量。本文设定：处理仅在 t=T 时施加（一个简单、常见的设定）。因此 A_i = 1 表示单位 i 在 t=T 被处理，A_i = 0 表示从未被处理（控制组）。 - obs_X_i = 可观测的基线协变量（q维向量）。可观测。 - U_i = 不可观测的基线协变量（标量，本文简化为一维）。不可观测（潜在变量）。 - α_i, γ_i = 单位特定的固定效应（时间不变）。在作者的设定中，α_i 和 γ_i 被吸收在基于 (X_i, U_i) 的线性结构里。实际上，本文的基本结构没有独立的单位固定效应，所有时间不变异质性均由 (X_i, U_i) 携带。 - β_t = t 时间点处理对结果的政策效应（causal effect of treatment on outcome at time t）。对于 t < T，β_t = 0（没有处理）。我们感兴趣的 estimand 是 β_T。 - μ_t, ν_t, ξ_t, θ_t, φ_t = 时间变化的回归系数（见模型）。

模型：线性结构模型（原文式 2.1 & 2.2）。

对于每个时间点 t，结果被写成对 (A_i, X_i, U_i) 的线性函数：

Y_it = μ_t + A_i · β_t + X_i^T · ν_t + U_i · ψ_t + ε_it

其中： - μ_t 是时间的固定效应（共同截距）。 - β_t 是处理效应（关键参数，我们想估计 β_T）。 - ν_t （q维）和 ψ_t （标量）是时间变化的系数——即混淆变量 (X_i, U_i) 对结果的影响可以随时间变化。这是关键：如果 ν_t ≡ ν, ψ_t ≡ ψ（系数不随时间变化），那么只要在DID中做差分就能消除混淆。正是因为它们随时间变化，平行趋势才会被违背。 - ε_it 是均值为0、序列相关（AR(1)结构）的随机误差项。其方差为 σ^2，自相关系数为 ρ。

可观测数据：对每个单位 i，我们观察到： 1. 处理状态 A_i。 2. 协变量 X_i。 3. 一系列结果：Y_i0, Y_i1, ..., Y_iT。其中 Y_iT 是处理后的结果，其余是预处理结果。

不可观测/潜在： 1. U_i（未观测混杂）。 2. ε_it 的具体实现。

第二步：讲最小内核¶

最小特例：设定 T=2（只有t=0，t=1，t=2 三时刻，其中t=0是基线，t=1是唯一的预处理期，t=2是处理后期）。设定 X_i = 0（无可观测协变量）且 只有一个未观测混杂U_i。

在这个特例下，模型退化为：

Y_i0 = μ_0 + 0·β_0 + U_i·ψ_0 + ε_i0 Y_i1 = μ_1 + 0·β_1 + U_i·ψ_1 + ε_i1 Y_i2 = μ_2 + A_i·β_2 + U_i·ψ_2 + ε_i2

其中 A_i ∈ {0,1}。

经典（不匹配）DiD估计量：

DiD_unmatched = (|Y_treated,2| - |Y_treated,1|) - (|Y_control,2| - |Y_control,1|)

这里 |Y| 是组均值。

现在引入匹配：我们只匹配预处理结果 Y_i1（t=1时的结果），这是 Daw & Hatfield (2018) 的核心设定。我们从控制组中选出那些 Y_i1 与处理组单位 Y_i1 相近的单位。

匹配偏倚的代价与收益（核心直觉）：

收益：通过匹配 Y_i1，我们实际上间接地平衡了 U_i 的一部分。因为 Y_i1 = μ_1 + U_i·ψ_1 + ε_i1，所以 Y_i1 携带了 U_i 的信息。在匹配 Y_i1 后，处理组和匹配控制组中 U_i 的条件均值变得更接近了。这减弱了在经典DiD中因 ψ_2 - ψ_1 ≠ 0 而产生的偏倚。收益多寡取决于“结果变量的可靠性”（reliability），即 Y_i1 中 U_i 的方差占比：ψ_1^2 Var(U) / (ψ_1^2 Var(U) + σ^2 / (1-ρ^2)). 可靠性越高，匹配 U_i 越有效。
成本：（回归到均值）通过匹配 Y_i1，我们迫使控制组中除了U的影响外，还额外要求 ε_i1 也必须与处理组的ε匹配。由于匹配是在条件于U下的随机变量上进行的，匹配的过程会诱导出选择性：处理组通常倾向有较高的 Y_i1（因为处理A可能与U关联，导致基于U的项更大），因此匹配选出的控制组单位，其ε_i1 也倾向于为正。但当处理期到来时（t=2），这些控制组单位的ε_i2 (由于序列相关 ρ<1) 会“退化”回到零均值。因此，其 Y_i2 相对于 Y_i1 的平均变化会低估真实的变化，这就在 DiD 的第二重差分中注入了偏倚。这个偏倚的大小取决于 ρ （当 ρ 高时，后续的退化小，因此成本小；当 ρ=0时，成本最大），以及 Y_i1 的方差。

这个最小例子展示了论文的核心数学思想：偏倚可以写成 Bias(matched DiD) = (收益项) - (成本项) 其中收益项正比于 (ψ_2 - ψ_1)^2 / (ψ_1^2 + 噪声分量)，成本项正比于 (1-ρ) * (处理组和控制组在 Y1 上的差距)。当收益大于成本时匹配有益；否则有害。

三、这篇论文做了什么¶

三句话：
1. 在时变效应线性结构模型下，论文解析地刻画了“匹配+DiD”估计的偏倚结构，将其分成匹配基线协变量的收益、匹配预处理结果的部分收益（平衡未观测混杂）与成本（回归到均值）。
2. 核心工具是线性模型下的偏倚分解，结合对数据生成机制（AR(1)误差 + 时变系数）和匹配机制（精确匹配或倾向得分匹配）的显式建模。
3. 主要结论：匹配基线协变量几乎总是降低偏倚；额外匹配预处理结果带来权衡，其净效应（收益减成本）由结果变量的可靠性和序列相关性决定；作者给出一个基于可观测数据的启发式判据。

关键设定与假设¶

设定：多期面板数据（T≥1个预处理期，1个处理后期）；处理在单一时间点引入；处理组和控制组都是预先确定的（非rolling treatment）。
模型：线性结构模型 (Y_it ~ μ_t + A_iβ_t + X_i^Tν_t + U_iψ_t + ε_it)。关键假设：
- 假设1（线性性 & 可加性）：所有效应（处理、观测协变量、未观测混杂）都是线性且可加的。这是最严格的假设，也是解析推导的代价。
- 假设2（时不变协变量）：X_i 和 U_i 不随时间变化（time-invariant）。这意味着所有时间变化都通过系数 ν_t 和 ψ_t 承载。
- 假设3（误差结构）：ε_it ~ AR(1)：ε_it = ρ ε_{i,t-1} + η_it，其中 η_it 是均值为0、独立同分布的噪声。这界定了序列相关结构。
- 假设4（匹配机制）：匹配是基于预处理结果 Y_i1, ..., Y_{i,T-1} 和/或 X_i 进行的，且匹配是近似精确匹配（即匹配单元之间在这些变量上非常接近）。作者在证明中进一步假定匹配是基于预处理结果的线性组合，使得这成为一个机制上的假设。
- 假设5（重叠性）：匹配可行，即处理组和控制组在匹配变量上有足够的共同支撑。
- 相比已有文献放宽了哪些：相比 Daw & Hatfield (2018) 和 Zeldow & Hatfield (2021) 的模拟设定，本文最关键的放宽是显式地引入了时变的未观测混杂效应（ψ_t 可以变化）。同时，它提供了一个解析框架而不是模拟。
- 相比已有文献强化了哪些：一个关键的强化是线性结构。在实际应用中，关系很可能是非线性的。作者自己也承认这一点，将其放在未来工作中或作为局限性。

主要结果¶

定理4.1（偏倚分解——匹配仅基线协变量X）：当匹配仅基于 X_i 时（完美匹配X），匹配后的DiD的偏倚为 0。直觉上，因为匹配平衡了X，而X直接在模型中控制，所以偏倚消失。这个结果很直接。

定理4.2（偏倚分解——匹配X与单个预处理结果Y_i1）：这是核心结果。假设对 Y_i1 和 X_i 做完美匹配。匹配后DiD的偏倚可以写成一个解析表达式，其中包含三个部分： - Bias_X（来自于X匹配不完美）：通常很小。 - Bias_U_收益：来自于Y1匹配带来的U不平衡的改善。正比于 (ψ_T - ψ_1)^2/(ψ_1^2 + σ^2/(1-ρ^2))。 - Bias_RTM（成本）：回归到均值的偏倚。正比于 (1-ρ)/(1+ρ) 乘以选自不用组的Y1的差距。

定理5.1 & 5.2（多期预处理匹配）：当匹配基于所有预处理结果时，偏倚结构类似，但收益项和成本项被标准化（averaged over time）。匹配的平均预处理结果（ins_Y_mean）与匹配单期结果的收益-成本关系结构相同。

Reliability的界定：作者将Y_i1 的 可靠性 (Reliability) 定义为 [ψ_1^2 Var(U)] / [ψ_1^2 Var(U) + σ^2/(1-ρ^2)]。这是一个0到1之间的值。高可靠性 = Y 主要由 U 驱动（而不是噪声），此时匹配Y_i1 平衡U的效果好（收益大）。低可靠性 = Y 主要由噪声驱动，此时平衡U的效果差（收益小），而 RTM 成本大。

启发式指南（Heuristic Guideline）：基于偏倚表达式，作者建议实践者估算 “净边际收益”：净收益 ≈ (Reliability) - (具体因子 * 序列相关性缺失程度) 当可靠性高+序列相关强时匹配预处理结果收益大；当可靠性低+序列相关弱时成本高。

证明路线与技术技巧¶

整体路线（逻辑主干，3步）：

偏倚分解：将匹配后DiD的估计量写为处理后的差分减去预处理差的差分的形式。然后用结构模型替换Y的期望，分离出真实效应β_T和误差项。证明的目标是计算 E[估计量 - β_T]。
匹配的效应概率化：完美匹配意味着，对于处理组的每个单位，其匹配的控制组单位在匹配变量上完全一致。这意味着在计算条件期望时，结果变量分布中的不确定性（来自U和ε）在匹配集上的条件均值将被近似地视为来自同一个分布。这一步使用关键引理：完美匹配令匹配后的处理组和控制组在匹配变量上同分布。
解析表达式的推导：利用AR(1)误差结构的自协方差和U的分布，精确地推导出条件期望的差异。这涉及高阶矩计算：E[ε_{i,T} | Y_i1, ε_{i1}, ..., ε_{i,T-1}] 的表达式中涉及ρ和噪声项。RTM偏倚正是来源于这个条件期望不为零且不为F值本身。收益项来源于匹配Y1后，控制组U的分布被朝向处理组U的分布拉近了（部分平衡）。作者使用线性投影（linear prediction）来处理这个条件期望。

关键跳跃点/引理：

引理4.1 (Conditional Expectation of ε_iT Given Y_i1)：证明在没有完美匹配时，直接匹配Y1引起E[ε_iT | 匹配条件] ≠ 0，这一点是整个RTM费用的数学来源。跳跃点：从无条件期望转为条件期望，计算出这个条件期望的表达式。

技术技巧点名：

线性结构模型下的显式计算：这是整个工作的基础。不是empirical process，也不是minimax，就是代数。
AR(1)过程的自协方差结构：利用 ρ 来刻画噪声的时序依赖性。
条件期望的线性投影：用于推导给定Y1时U和ε的联合矩。
匹配作为“条件于样本”的过程：将匹配理解为对控制组样本的加权（权重0/1），将DiD表达为加权平均，使偏倚计算变成计算这个加权平均的期望值。

真实例子与应用¶

有，必须详细讲。

数据/场景：使用 Bartanen, Grissom & Rogers (2019) 研究的校长离职（principal turnover）对学校成绩的影响。处理组是经历了校长离职的学校（t=某年离职）；控制组是同年未离职的学校。使用Missouri和Tennessee两州的纵向数据（包含学生成绩等）。
如何应用本文方法：
- 作者复制了原研究中匹配+DiD的估计结果：先基于基线学校特征（X：规模、种族构成等）和预处理期学校成绩（Y：t-1, t-2 年的考试成绩）做匹配（遗传匹配/遗传匹配倾向得分匹配），然后做DiD。
- 接着，作者用本文的解析表达式来“验证”匹配的收益与成本。他们没有直接重构估计，而是根据匹配前后样本统计量（如匹配前后的Y均值差异，Y的可靠性估计，ρ的估计）计算出理论上的偏倚分解，并与原研究的估计值进行比较。他们发现：匹配后的DiD估计是-0.03 SD (对成绩的影响)；其RTM成本偏倚估计为约-0.01 SD （即低估了真实效应），而平衡U的收益大致抵消了这部分成本，因此净偏倚很小。作者指出，匹配的确令估计更可信。
这个例子想说明什么：想说明两件事：1）本文的解析指南在实践中是可行的，可以用真实数据算出近似的RTM成本与U平衡收益；2）在很多应用（如校长离职）中，匹配预处理结果的收益（平衡U）可能恰好与成本（RTM）相抵消，从而使得匹配是净有益的，或至少不是严重有害的。这给了匹配+DiD一个“平反”的论证：不要因为Daw & Hatfield (2018) 的警示就完全放弃它，在常见的高可靠性和强序列相关的现实数据中，它的收益可能弥补成本。

🔎 结论是否比证明窄¶

是。一条明显的窄结论在于：所有推导严格依赖于线性结构模型和AR(1)误差结构。论文通篇并未将结论推广到非线性或非参数设定。作者在结语中承认“Our approach relies on a linear structural model”，因此全篇的“结论”应理解为“在线性可加模型下，匹配+DiD的偏倚结构是...”。任何超出这个模型的泛化都只是作者的推测或实践者的直觉，不是证明。作者没有直接 claim “我们的结果适用于所有DGP”，但他们称其为“guideline”时，暗含了“可以外推”的意思，这一点值得研究者留意。

四、开放问题（点到为止）¶

非线性拓展：能否将本文的偏倚分解推广到非线性结构模型（如logit link，或具有交互效应的结构模型中）？若可以，序列相关和可靠性的指标将如何重新定义？扎根于本文式 (2.1) 的线性假设。
多期处理异质性：本文只处理了单一处理时间点。在staggered DiD（不同单位在不同时间被处理）下，匹配处理组和不同批次控制组，其收益-成本权衡会如何变化？扎根于本文通篇对A_i的设定（单一时间点）。
匹配策略的优化：本文比较的是“不匹配”和“匹配”两种极端。但匹配可以是“部分匹配”（只匹配Y1到一定容差度）或“加权匹配”（如caliper matching）。是否存在一个最优匹配强度（matched closeness）来最大化净收益？可延伸自Theorem 4.2中偏倚关于匹配误差的函数关系。

Maintained by 陈星宇 · Homepage · Source on GitHub