跳转至

Benefits and costs of matching prior to a difference in differences analysis when parallel trends does not hold

作者: Dae Woong Ham, Luke Miratrix
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向的核心问题是:当经典的平行趋势假设(parallel trends)不成立时,差分中差分(DiD)估计的偏倚如何被匹配(matching)改变——匹配是放大还是缩小偏倚?其净效应能否被解析地刻画?这是一个偏倚分析(bias analysis)问题,而非一个开发新估计量的问题。该子领域的成熟度属于半成熟:已有大量零散的经验观察(模拟研究指出匹配既可能帮也可能害),但缺少统一的、非模拟的解析框架来量化其“收益”与“成本”的权衡。

发展脉络(history)

奠基工作:DiD的传统识别完全依赖平行趋势假设。当该假设可疑时,匹配作为一种预处理策略被引入:先匹配(基于基线协变量和/或预处理结果),再在匹配样本上跑DiD。Heckman et al. (1998) 和 A. Smith & E. Todd (2005) 是最早一批将匹配与DiD结合的经验工作,其隐含信念是“条件于相似的协变量,平行趋势更可能成立”。

主要进展(零散经验观察):2017年前后出现了一组对“匹配+DiD”策略的警告。Daw & Hatfield (2018) 通过蒙特卡洛模拟演示了:在预处理结果水平与处理分配相关、且序列相关性弱的设定下,匹配会注入偏倚(回归到均值的效应);Lindner & McConnell (2018) 和 Zeldow & Hatfield (2021) 也在模拟中观察到类似现象。这些工作被原文引用为“analyze matching prior to a DiD analysis and show that matching may actually hurt or help depending on different scenarios”。同时,有一条反向的观察来自 Ding & Li (2019):DiD 与滞后因变量调整(LDV)之间存在一个“括号关系”(bracketing relationship),即两个估计量对真实效应的估计位于两边——但需要注意的是,这篇工作处理的是不同模型选择,而非匹配策略

当前 Frontier(进入解析阶段):此前的工作几乎都是基于模拟的“警示”,缺乏对偏倚结构的解析刻画。而 Illenberger, Small & Shaw (2020) 则将回归到均值的偏倚分析从DiD拓展到了合成控制(synthetic control),证明该偏倚普遍存在于这种“通过匹配预处理结果来构建反事实”的策略中。本文(Ham & Miratrix) 的位置正是接续这条线索:在 DGP 层次上用线性结构模型把匹配的收益(平衡未观测混杂)和成本(回归到均值的偏倚)解析地分离出来,并给出偏倚的封闭形式表达式。

子线索聚类

这些被引文献大致落在三条子线索上:

  1. 匹配+DiD的应用与警示(经验/模拟主导)

    • Daw & Hatfield (2018), Lindner & McConnell (2018), Zeldow & Hatfield (2021):通过模拟展示匹配在特定条件下不如不匹配。
    • Heckman et al. (1998), A. Smith & Todd (2005), Imai, Kim & Wang (2021):早期的匹配+DiD应用,信念是匹配能改善平行趋势的合理性。
    • 这些工作构成了一条“经验-警示”的对话:前者说匹配会害,后者用匹配做研究。本文正是在回答“何时会害、何时会帮、害和帮各多大”这个问题。
  2. DiD 自身识别条件与敏感性分析

    • Callaway & Sant’Anna (2021):多期DiD的识别与估计,处理条件平行趋势下的估计问题。
    • Ding & Li (2019):DiD与LDV的括号关系。
    • Kim & Steiner (2021/2020):从图形模型(causal graph)角度理解DiD和gain score的识别条件。
    • 这条线索不直接讨论匹配,但为判断“平行趋势为何会被违背”提供了认识论基础——未观测的时间可变混杂是最有害的。
  3. 匹配方法的理论基础与局限性

    • Stuart (2010):匹配方法的综述,强调依赖可观测协变量即可ignorability。
    • D’Amour et al. (2021):高维协变量下重叠性(overlap)的诅咒——完美匹配不可行。
    • Shpitser, VanderWeele & Robins (2010):covariate adjustment的图条件。
    • 这条线索涉及匹配本身的能力边界:在什么条件下匹配能真正block confounding?在什么条件下它会引入新的偏倚(如M-bias)?

这个方向在追问的核心问题(2-4个)

  1. 匹配是帮还是害? 给定一个具体的设定(基线协变量、预处理结果、观测/未观测混杂的结构),匹配后的DiD的偏倚是小于还是大于不匹配的DiD?
  2. 偏倚由什么决定? 偏倚的符号和大小如何依赖于DGP参数(如序列相关性、结果变量的可靠性、混杂效应的时间变化、未观测混杂与处理的相关强度)?
  3. 如何在实际中判断? 能否给出一个简单、可操作的准则(heuristic guideline),让实践者仅用可观测数据就能判断匹配是否值得?
  4. 解析路径 vs. 模拟路径:这个问题能否被解析地处理(而非只能靠模拟)?线性模型下可以得到封闭解,但非线性或非参数设定下呢?

当前主流方法与瓶颈:主流方法是模拟(Daw & Hatfield, 2018等),瓶颈在于模拟结果难以外推到用户的特定DGP。本文提供了第一个系统性的解析框架,但代价是高度依赖线性设定时不变未观测混杂

⚠️ 作者的 framing

  • 作者的缺口表述:作者把缺口 frame 为“匹配的偏倚成本与收益尚未被解析刻画;现有文献依赖模拟,缺乏普适性”。因此,这篇论文的“显然的下一步”就是:在一个足够灵活(能允许时间可变效应)但依然可处理的线性结构模型中,给出偏倚的解析表达式,并据此给出指南。
  • 被淡化或回避的竞争路线:主要有两条被回避的路线:
    1. 非参数/半参数的替代策略,例如合成控制的拓展(Augmented SCM, Ben-Michael et al., 2018)。这些方法不像匹配那样需要完美拟合(perfect fit on pre-treatment outcomes),而是通过偏置校正来处理糟糕的拟合。作者仅在定理5.2的注记中承认“regression to the mean phenomenon ... also present in synthetic controls”,但并未将Augmented SCM作为一个更优的替代来讨论。
    2. 基于反事实投影的方法(如 Callaway & Sant’Anna 的条件平行趋势框架)。这些方法允许直接对平行趋势的偏离进行建模(例如通过逆概率加权或回归调整),而不是先匹配再DiD。作者显然选择了“匹配+DiD”这一子问题,而非整个“条件平行趋势”大类。
  • 什么明显该被引/该存在、却没出现在intro里? 作者在讨论回归到均值的偏倚时,引用了 Illenberger, Small & Shaw (2020) 在合成控制中的对应结果。但一个明显的缺失是 Rubin (1973, "Matching to Remove Bias in Observational Studies") 以及从那时起文献中对“匹配诱发M-bias / bias amplification”的更早期讨论。作者引用了 Ding & Miratrix (2015),后者正是讨论M-bias的,但并未将匹配+DiD中的偏倚与更一般的M-bias框架连接起来。这可能是作者有意为之:M-bias涉及的是因变量(collider)的无意识条件,而匹配+DiD的核心困扰是回归到均值(这是值得研究者去查的问题:是否有一条被忽略的文献线索,将回归到均值的偏倚与匹配/条件因果图中的M-bias统一了起来?)

张力

未见明显对立引用。Daw & Hatfield (2018) 与 Heckman et al. (1998) 虽有经验结论的不同(前者说匹配有害,后者认为有益),但前者是在“匹配预处理结果”这一特定操作下得出的,后者是更一般的匹配基线协变量。两种结论其实并不矛盾,只是设定不同。本文将它们统一在了同一个解析框架下。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: - i = 单位索引(学校、城市、个人等)。总数 N = N_treated + N_control. - t = 时间索引。本文仅有 T+1 个时间点:t = 0, 1, ..., T。其中 t = 0 为基线(base-line),t = 1, ..., T-1 为预处理期(pre-treatment),t = T 为处理后期(post-treatment)。 - Y_it = 结果变量(连续标量)。 - A_i ∈ {0, 1} = 处理指示变量。本文设定:处理仅在 t=T 时施加(一个简单、常见的设定)。因此 A_i = 1 表示单位 i 在 t=T 被处理,A_i = 0 表示从未被处理(控制组)。 - obs_X_i = 可观测的基线协变量(q维向量)。可观测。 - U_i = 不可观测的基线协变量(标量,本文简化为一维)。不可观测(潜在变量)。 - α_i, γ_i = 单位特定的固定效应(时间不变)。在作者的设定中,α_i 和 γ_i 被吸收在基于 (X_i, U_i) 的线性结构里。实际上,本文的基本结构没有独立的单位固定效应,所有时间不变异质性均由 (X_i, U_i) 携带。 - β_t = t 时间点处理对结果的政策效应(causal effect of treatment on outcome at time t)。对于 t < T,β_t = 0(没有处理)。我们感兴趣的 estimand 是 β_T。 - μ_t, ν_t, ξ_t, θ_t, φ_t = 时间变化的回归系数(见模型)。

模型: 线性结构模型(原文式 2.1 & 2.2)。

对于每个时间点 t,结果被写成对 (A_i, X_i, U_i) 的线性函数:

Y_it = μ_t + A_i · β_t + X_i^T · ν_t + U_i · ψ_t + ε_it

其中: - μ_t 是时间的固定效应(共同截距)。 - β_t 是处理效应(关键参数,我们想估计 β_T)。 - ν_t (q维)和 ψ_t (标量)是时间变化的系数——即混淆变量 (X_i, U_i) 对结果的影响可以随时间变化。这是关键:如果 ν_t ≡ ν, ψ_t ≡ ψ(系数不随时间变化),那么只要在DID中做差分就能消除混淆。正是因为它们随时间变化,平行趋势才会被违背。 - ε_it 是均值为0、序列相关(AR(1)结构)的随机误差项。其方差为 σ^2,自相关系数为 ρ。

可观测数据:对每个单位 i,我们观察到: 1. 处理状态 A_i。 2. 协变量 X_i。 3. 一系列结果:Y_i0, Y_i1, ..., Y_iT。其中 Y_iT 是处理后的结果,其余是预处理结果。

不可观测/潜在: 1. U_i(未观测混杂)。 2. ε_it 的具体实现。

第二步:讲最小内核

最小特例:设定 T=2(只有t=0,t=1,t=2 三时刻,其中t=0是基线,t=1是唯一的预处理期,t=2是处理后期)。设定 X_i = 0(无可观测协变量)且 只有一个未观测混杂U_i

在这个特例下,模型退化为

Y_i0 = μ_0 + 0·β_0 + U_i·ψ_0 + ε_i0 Y_i1 = μ_1 + 0·β_1 + U_i·ψ_1 + ε_i1 Y_i2 = μ_2 + A_i·β_2 + U_i·ψ_2 + ε_i2

其中 A_i ∈ {0,1}。

经典(不匹配)DiD估计量

DiD_unmatched = (|Y_treated,2| - |Y_treated,1|) - (|Y_control,2| - |Y_control,1|)

这里 |Y| 是组均值。

当 U_i 的处理组和控制组分布不同(例如 E[U_i | A_i=1] ≠ E[U_i | A_i=0]),且 ψ_2 ≠ ψ_1(未观测混杂效应随时间变化),那么DiD_unmatched 是有偏的。直觉:预处理期差分 Δ_pre = (|Y_treated,1| - |Y_control,1|) 包含了与 U_i 相关的项 (E[U|A=1] - E[U|A=0])·(ψ_1 - ψ_0)。但处理后期差分 Δ_post = (|Y_treated,2| - |Y_control,2|) 包含的是不同项 (E[U|A=1] - E[U|A=0])·(ψ_2 - ψ_0)。只要 ψ 不恒定,Δ_post - Δ_pre ≠ β_2,因为U的效应没有被差分干净。

现在引入匹配:我们只匹配预处理结果 Y_i1(t=1时的结果),这是 Daw & Hatfield (2018) 的核心设定。我们从控制组中选出那些 Y_i1 与处理组单位 Y_i1 相近的单位。

匹配偏倚的代价与收益(核心直觉)

  • 收益:通过匹配 Y_i1,我们实际上间接地平衡了 U_i 的一部分。因为 Y_i1 = μ_1 + U_i·ψ_1 + ε_i1,所以 Y_i1 携带了 U_i 的信息。在匹配 Y_i1 后,处理组和匹配控制组中 U_i 的条件均值变得更接近了。这减弱了在经典DiD中因 ψ_2 - ψ_1 ≠ 0 而产生的偏倚。收益多寡取决于“结果变量的可靠性”(reliability),即 Y_i1 中 U_i 的方差占比:ψ_1^2 Var(U) / (ψ_1^2 Var(U) + σ^2 / (1-ρ^2)). 可靠性越高,匹配 U_i 越有效。

  • 成本:(回归到均值)通过匹配 Y_i1,我们迫使控制组中除了U的影响外,还额外要求 ε_i1 也必须与处理组的ε匹配。由于匹配是在条件于U下的随机变量上进行的,匹配的过程会诱导出选择性:处理组通常倾向有较高的 Y_i1(因为处理A可能与U关联,导致基于U的项更大),因此匹配选出的控制组单位,其ε_i1 也倾向于为正。但当处理期到来时(t=2),这些控制组单位的ε_i2 (由于序列相关 ρ<1) 会“退化”回到零均值。因此,其 Y_i2 相对于 Y_i1 的平均变化会低估真实的变化,这就在 DiD 的第二重差分中注入了偏倚。这个偏倚的大小取决于 ρ (当 ρ 高时,后续的退化小,因此成本小;当 ρ=0时,成本最大),以及 Y_i1 的方差。

这个最小例子展示了论文的核心数学思想:偏倚可以写成 Bias(matched DiD) = (收益项) - (成本项) 其中收益项正比于 (ψ_2 - ψ_1)^2 / (ψ_1^2 + 噪声分量),成本项正比于 (1-ρ) * (处理组和控制组在 Y1 上的差距)。当收益大于成本时匹配有益;否则有害。


三、这篇论文做了什么

  • 三句话
    1. 在时变效应线性结构模型下,论文解析地刻画了“匹配+DiD”估计的偏倚结构,将其分成匹配基线协变量的收益、匹配预处理结果的部分收益(平衡未观测混杂)与成本(回归到均值)。
    2. 核心工具是线性模型下的偏倚分解,结合对数据生成机制(AR(1)误差 + 时变系数)和匹配机制(精确匹配或倾向得分匹配)的显式建模。
    3. 主要结论:匹配基线协变量几乎总是降低偏倚;额外匹配预处理结果带来权衡,其净效应(收益减成本)由结果变量的可靠性和序列相关性决定;作者给出一个基于可观测数据的启发式判据。

关键设定与假设

  • 设定:多期面板数据(T≥1个预处理期,1个处理后期);处理在单一时间点引入;处理组和控制组都是预先确定的(非rolling treatment)。
  • 模型:线性结构模型 (Y_it ~ μ_t + A_iβ_t + X_i^Tν_t + U_iψ_t + ε_it)。关键假设:
    • 假设1(线性性 & 可加性):所有效应(处理、观测协变量、未观测混杂)都是线性且可加的。这是最严格的假设,也是解析推导的代价。
    • 假设2(时不变协变量):X_i 和 U_i 不随时间变化(time-invariant)。这意味着所有时间变化都通过系数 ν_t 和 ψ_t 承载。
    • 假设3(误差结构):ε_it ~ AR(1):ε_it = ρ ε_{i,t-1} + η_it,其中 η_it 是均值为0、独立同分布的噪声。这界定了序列相关结构。
    • 假设4(匹配机制):匹配是基于预处理结果 Y_i1, ..., Y_{i,T-1} 和/或 X_i 进行的,且匹配是近似精确匹配(即匹配单元之间在这些变量上非常接近)。作者在证明中进一步假定匹配是基于预处理结果的线性组合,使得这成为一个机制上的假设。
    • 假设5(重叠性):匹配可行,即处理组和控制组在匹配变量上有足够的共同支撑。
    • 相比已有文献放宽了哪些:相比 Daw & Hatfield (2018) 和 Zeldow & Hatfield (2021) 的模拟设定,本文最关键的放宽是显式地引入了时变的未观测混杂效应(ψ_t 可以变化)。同时,它提供了一个解析框架而不是模拟。
    • 相比已有文献强化了哪些:一个关键的强化是线性结构。在实际应用中,关系很可能是非线性的。作者自己也承认这一点,将其放在未来工作中或作为局限性。

主要结果

定理4.1(偏倚分解——匹配仅基线协变量X): 当匹配仅基于 X_i 时(完美匹配X),匹配后的DiD的偏倚为 0。直觉上,因为匹配平衡了X,而X直接在模型中控制,所以偏倚消失。这个结果很直接。

定理4.2(偏倚分解——匹配X与单个预处理结果Y_i1): 这是核心结果。假设对 Y_i1 和 X_i 做完美匹配。匹配后DiD的偏倚可以写成一个解析表达式,其中包含三个部分: - Bias_X(来自于X匹配不完美):通常很小。 - Bias_U_收益:来自于Y1匹配带来的U不平衡的改善。正比于 (ψ_T - ψ_1)^2/(ψ_1^2 + σ^2/(1-ρ^2))。 - Bias_RTM(成本):回归到均值的偏倚。正比于 (1-ρ)/(1+ρ) 乘以选自不用组的Y1的差距。

定理5.1 & 5.2(多期预处理匹配): 当匹配基于所有预处理结果时,偏倚结构类似,但收益项和成本项被标准化(averaged over time)。匹配的平均预处理结果(ins_Y_mean)与匹配单期结果的收益-成本关系结构相同。

Reliability的界定: 作者将Y_i1 的 可靠性 (Reliability) 定义为 [ψ_1^2 Var(U)] / [ψ_1^2 Var(U) + σ^2/(1-ρ^2)]。这是一个0到1之间的值。高可靠性 = Y 主要由 U 驱动(而不是噪声),此时匹配Y_i1 平衡U的效果好(收益大)。低可靠性 = Y 主要由噪声驱动,此时平衡U的效果差(收益小),而 RTM 成本大。

启发式指南(Heuristic Guideline): 基于偏倚表达式,作者建议实践者估算 “净边际收益”: 净收益 ≈ (Reliability) - (具体因子 * 序列相关性缺失程度) 当可靠性高+序列相关强时匹配预处理结果收益大;当可靠性低+序列相关弱时成本高。

证明路线与技术技巧

整体路线(逻辑主干,3步)

  1. 偏倚分解:将匹配后DiD的估计量写为处理后的差分减去预处理差的差分的形式。然后用结构模型替换Y的期望,分离出真实效应β_T和误差项。证明的目标是计算 E[估计量 - β_T]。

  2. 匹配的效应概率化:完美匹配意味着,对于处理组的每个单位,其匹配的控制组单位在匹配变量上完全一致。这意味着在计算条件期望时,结果变量分布中的不确定性(来自U和ε)在匹配集上的条件均值将被近似地视为来自同一个分布。这一步使用关键引理:完美匹配令匹配后的处理组和控制组在匹配变量上同分布。

  3. 解析表达式的推导:利用AR(1)误差结构的自协方差和U的分布,精确地推导出条件期望的差异。这涉及高阶矩计算:E[ε_{i,T} | Y_i1, ε_{i1}, ..., ε_{i,T-1}] 的表达式中涉及ρ和噪声项。RTM偏倚正是来源于这个条件期望不为零且不为F值本身。收益项来源于匹配Y1后,控制组U的分布被朝向处理组U的分布拉近了(部分平衡)。作者使用线性投影(linear prediction)来处理这个条件期望。

关键跳跃点/引理

  • 引理4.1 (Conditional Expectation of ε_iT Given Y_i1):证明在没有完美匹配时,直接匹配Y1引起E[ε_iT | 匹配条件] ≠ 0,这一点是整个RTM费用的数学来源。跳跃点:从无条件期望转为条件期望,计算出这个条件期望的表达式。

技术技巧点名

  • 线性结构模型下的显式计算:这是整个工作的基础。不是empirical process,也不是minimax,就是代数。
  • AR(1)过程的自协方差结构:利用 ρ 来刻画噪声的时序依赖性。
  • 条件期望的线性投影:用于推导给定Y1时U和ε的联合矩。
  • 匹配作为“条件于样本”的过程:将匹配理解为对控制组样本的加权(权重0/1),将DiD表达为加权平均,使偏倚计算变成计算这个加权平均的期望值。

真实例子与应用

有,必须详细讲。

  • 数据/场景:使用 Bartanen, Grissom & Rogers (2019) 研究的校长离职(principal turnover)对学校成绩的影响。处理组是经历了校长离职的学校(t=某年离职);控制组是同年未离职的学校。使用Missouri和Tennessee两州的纵向数据(包含学生成绩等)。
  • 如何应用本文方法
    • 作者复制了原研究中匹配+DiD的估计结果:先基于基线学校特征(X:规模、种族构成等)和预处理期学校成绩(Y:t-1, t-2 年的考试成绩)做匹配(遗传匹配/遗传匹配倾向得分匹配),然后做DiD。
    • 接着,作者用本文的解析表达式来“验证”匹配的收益与成本。他们没有直接重构估计,而是根据匹配前后样本统计量(如匹配前后的Y均值差异,Y的可靠性估计,ρ的估计)计算出理论上的偏倚分解,并与原研究的估计值进行比较。他们发现:匹配后的DiD估计是-0.03 SD (对成绩的影响);其RTM成本偏倚估计为约-0.01 SD (即低估了真实效应),而平衡U的收益大致抵消了这部分成本,因此净偏倚很小。作者指出,匹配的确令估计更可信。
  • 这个例子想说明什么:想说明两件事:1)本文的解析指南在实践中是可行的,可以用真实数据算出近似的RTM成本与U平衡收益;2)在很多应用(如校长离职)中,匹配预处理结果的收益(平衡U)可能恰好与成本(RTM)相抵消,从而使得匹配是净有益的,或至少不是严重有害的。这给了匹配+DiD一个“平反”的论证:不要因为Daw & Hatfield (2018) 的警示就完全放弃它,在常见的高可靠性和强序列相关的现实数据中,它的收益可能弥补成本

🔎 结论是否比证明窄

是。 一条明显的窄结论在于:所有推导严格依赖于线性结构模型和AR(1)误差结构。论文通篇并未将结论推广到非线性或非参数设定。作者在结语中承认“Our approach relies on a linear structural model”,因此全篇的“结论”应理解为“在线性可加模型下,匹配+DiD的偏倚结构是...”。任何超出这个模型的泛化都只是作者的推测或实践者的直觉,不是证明。作者没有直接 claim “我们的结果适用于所有DGP”,但他们称其为“guideline”时,暗含了“可以外推”的意思,这一点值得研究者留意。


四、开放问题(点到为止)

  1. 非线性拓展:能否将本文的偏倚分解推广到非线性结构模型(如logit link,或具有交互效应的结构模型中)?若可以,序列相关和可靠性的指标将如何重新定义?扎根于本文式 (2.1) 的线性假设
  2. 多期处理异质性:本文只处理了单一处理时间点。在staggered DiD(不同单位在不同时间被处理)下,匹配处理组和不同批次控制组,其收益-成本权衡会如何变化?扎根于本文通篇对A_i的设定(单一时间点)
  3. 匹配策略的优化:本文比较的是“不匹配”和“匹配”两种极端。但匹配可以是“部分匹配”(只匹配Y1到一定容差度)或“加权匹配”(如caliper matching)。是否存在一个最优匹配强度(matched closeness)来最大化净收益?可延伸自Theorem 4.2中偏倚关于匹配误差的函数关系

Maintained by 陈星宇 · Homepage · Source on GitHub

评论