跳转至

A devil’s bargain? Repairing a Difference in Differences parallel trends assumption with an initial matching step

讲者: Luke Miratrix
讨论人: Laura Hatfield
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-11-08
主题: 因果推断
视频: https://youtu.be/tKoxMovw9uY · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

方向:Difference-in-Differences (DiD) 中预处理阶段的匹配(matching)是否可取——即“先匹配、再做 DiD”这一常见做法的偏差-偏差权衡(bias-bias tradeoff)。

该方向的追问:DiD 依赖无条件或条件平行趋势假设(parallel trends)。当无法直接相信该假设时,一个自然补救是找到与处理组“更可比”的控制组——通常通过匹配(或加权)实现。但匹配本身可能引入新的偏差,特别是匹配在预处理结局(pre-treatment outcomes)上可能因噪声代理变量导致回归到均值(regression to the mean)效应(Daw and Hatfield, 2018; Lindner and McConnell, 2019; O’Neill et al., 2016; Zeldow and Hatfield, 2021;Chabé-Ferret, 2015; Ding and Li, 2019 等均在该报告中提及 [幻灯片 p.7, 0:10:09])。因此,核心问题:什么时候匹配是净收益,什么时候是净损失?

已有基础与主流路线: - 经典 DiD 文献(如 Card & Krueger)早已主张通过选择相似对照组来增加平行趋势的可信度。 - Heckman et al. (1998), Smith and Todd (2005), Imai, Kim, and Wang (2021) 等正式引入“条件平行趋势假设”,即给定观测协变量 X,处理组与控制组的潜在结果变化相同 [幻灯片 p.3]。 - Daw and Hatfield (2018) 指出,若平行趋势原本成立,匹配反而会被坏,因为匹配在预处理结局上的噪声会诱导类回归均值偏差。

当前 Frontier:除了匹配对预处理结局的偏差效应,更完整的刻画还需要考虑:观测协变量 X 与隐变量 θ 的相关性、平行趋势“断裂”(breakage)的原点(是协变量-结果关系变化,还是协变量均值随时间变化?),以及多期预处理数据如何提高匹配有效性。Laura Hatfield 在讨论环节 [0:46:23–0:54:40] 进一步扩展了 DiD 偏倚的分解结构,展示了在模型中加入组-时间交互后的 12 种可能偏向组合——比本报告的核心模型更一般。这表明该领域正在系统化分类不同来源的违背平行趋势的情形。

这场报告的站位:它在 Daw and Hatfield 的批判性观察之上,系统地推导匹配前后的偏倚表达式,分离出“匹配带来的偏差降低”与“匹配带来的放大效应”,并提供一个可操作的后端检查(back-of-the-envelope check)来帮助实践者决策。报告并不是提出一个无偏估计量,而是从“偏差减少”目标出发,给出何时匹配利大于弊的清晰条件(涉及可靠性 reliability 和断裂程度 s 的关系)。

二、最小内核 / 一个最简例子

符号与模型:假设只有一个观测协变量 X 和一个隐变量 θ(一维)。两个时间点:t=0(预处理期),t=1(处理期)。在 t=0 时所有单位均未接受处理,在 t=0 到 t=1 之间一部分单位接受处理(Z=1),其余未接受(Z=0)。单元 i 的预处理结局 Y_{i,0} 可观测,后处理结局 Y_{i,1} 可观测(若 Z=1 则为 Y(1),若 Z=0 则为 Y(0))。

潜在结果模型(幻灯片 p.11)

\[Y_{i,t}(0) = \beta_{0,t} + \beta_{\theta,t}\,\theta_i + \beta_{x,t}\,X_i + \epsilon_{i,t}, \quad t=0,1\]
\[Y_{i,t}(1) = Y_{i,t}(0) + \tau \quad (t=1)\]
其中 \(\epsilon_{i,t}\) 为均值为零的 i.i.d. 噪声,方差 \(\sigma^2_E\)。处理效应 τ 为常数(常处理效应假设,无本质限制)。隐变量 θ_i 与观测协变量 X_i 的联合分布随处理组不同:在 Z=z 组内,\((\theta_i, X_i)^\top \sim N\big((\mu_{\theta,z}, \mu_{x,z})^\top, \text{cov}\big)\),均值可不同(引起混杂)[幻灯片 p.12]。

核心量: - 不平衡(imbalance):\(\delta_\theta = \mu_{\theta,1} - \mu_{\theta,0}\)\(\delta_x = \mu_{x,1} - \mu_{x,0}\)。 - 平行趋势断裂(breakage):\(\Delta_\theta = \beta_{\theta,1} - \beta_{\theta,0}\)\(\Delta_x = \beta_{x,1} - \beta_{x,0}\)

最简特例:无观测协变量(d=0),仅有隐变量 θ。此时唯一的不平衡来自 θ,断裂来自 \(\Delta_\theta\)。报告推导了三种估计的期望偏倚 [幻灯片 p.18]: - 简单差分(Naïve DiM):\(E[\hat{\tau}_{\text{DiM}}] - \tau = \beta_{\theta,1}\,\delta_\theta\) - 仅 DiD(无匹配):\(E[\hat{\tau}_{\text{DiD}}] - \tau = \Delta_\theta\,\delta_\theta\) - 在 Y_0 上匹配后再 DiD:\(E[\hat{\tau}_{\text{DiM}}] - \tau = \beta_{\theta,1}\,\delta_\theta\,(1 - r_{\theta|Y_0})\)

其中 \(r_{\theta|Y_0}\) 为可靠性(reliability),表示 Y_0 作为 θ 的噪声度量的信度:\(r_{\theta|Y_0} = \beta_{\theta,0}^2 \sigma^2_\theta / (\beta_{\theta,0}^2 \sigma^2_\theta + \sigma^2_E)\)(标准化后为相关性平方)。

直觉:若平行趋势成立(\(\Delta_\theta = 0\)),DiD 无偏,匹配只会产生回归到均值偏差(因为匹配的是噪声 Y_0,使得匹配后组间 θ 仍有差异,放大 \(\beta_{\theta,1}\,\delta_\theta\) 项)。若平行趋势断裂(\(\Delta_\theta \neq 0\)),匹配可能有利——将偏差从 \((\Delta_\theta\,\delta_\theta)\) 变为 \((1-r_{\theta|Y_0})\beta_{\theta,1}\,\delta_\theta\)。收益条件:\(r_{\theta|Y_0} > 1 - |1 - s|\),其中 \(s = \beta_{\theta,1} / \beta_{\theta,0}\)(断裂的另一种度量)[幻灯片 p.19]。

三、报告主体:讲者讲了什么

[0:00:53–0:01:59] 开场,合作者 David Ham,受 Daw & Hatfield (2018) 启发,研究匹配+DiD 的偏差-偏差权衡。

[0:02:01–0:03:28] DiD 逻辑:比较处理组和控制组的前后变化差异,核心假设是平行趋势。匹配是提高可比性的自然想法,如 Card & Krueger 的新泽西 vs 宾州例子。

[0:03:50–0:04:41] 两种匹配:匹配在基线特征(X)上,以及匹配在预处理结局(Y_pre)上。后者直观上更能捕捉隐变量,但文献指出会引入回归到均值效应。转折:Daw and Hatfield (2018) 指出若平行趋势原已成立,匹配是坏的。

[0:04:41–0:05:41] 目标:开发准则何时匹配有利。强调不是无偏估计,而是偏差降低。

[0:05:55–0:07:02] 校长更替例子(Bartanen, Grissom and Rogers, 2019):学校按年是否有新校长划分为处理/控制,匹配在 7 个学校特征和 6 个预处理考试成绩上。原始估计效应 -0.035 效应量。报告将用此数据评估匹配是否合理。

[0:08:00–0:09:26] 工作模型:线性潜在结果模型,有时间截距、隐变量 θ、观测协变量 X、噪声 ε。处理效应恒定(不限制)。处理分配由 θ 和 X 联合分布依组不同诱发,不是随机。幻灯片 p.11-12 给出了完整公式。

[0:09:26–0:10:52] 平行趋势在此模型下的表达式:总体平行趋势要求 \(\Delta_\theta\,\delta_\theta + \Delta_x\,\delta_x = 0\);条件平行趋势(给定 X)则要求 \(\Delta_\theta = 0\)(即 θ 与 Y 的关系稳定)。引出“不平衡”和“断裂”的概念。

[0:11:08–0:11:29] 模型局限:不考虑 X 或 θ 随时间变化(协变量固定,系数变化);不考虑基于 Y_pre 噪声的入组选择(未来工作)[幻灯片 p.14, 0:11:45]。

[0:12:19–0:13:37] 无匹配的 DiD 偏倚表达式 \(E[\hat{\tau}_{\text{DiD}}] - \tau = \Delta_\theta\,\delta_\theta + \Delta_x\,\delta_x\)。若系数不随时间变化(\(\Delta_\theta = \Delta_x = 0\))或组均值相同(\(\delta_\theta = \delta_x = 0\)),则无偏。偏倚可因正负抵消,导致匹配有时会“揭露”隐藏偏倚。

[0:13:37–0:15:07] 匹配的定义:考虑完美匹配(asymptotic argument),对每个处理单元找到协变量 X 和预处理结局 Y_0 完全相同的控制单元。通过积分得到匹配后对照组期望,从而计算偏倚。

[0:16:19–0:18:59] 简单情况(无 X):三种估计的偏倚比较(公式见第二节)。关键概念:可靠性 r(Y_0 对 θ 的预测度)。匹配后偏倚为 \(\beta_{\theta,1}\,\delta_\theta (1-r)\)。若 r 高,匹配接近完美,偏倚减小;若 r 低,匹配几乎无用。匹配损失了 DiD 的“断裂项” \(\Delta_\theta\),改为承受 \(\beta_{\theta,1}\) 项——可能更坏。

[0:19:39–0:21:07] 收益-成本分解与决策规则:匹配利大于弊当 \(r > 1 - |1 - s|\),其中 \(s = \beta_{\theta,1}/\beta_{\theta,0}\)。图(幻灯片 p.19)显示 s=1(平行趋势成立)始终不匹配,离开 1 则匹配区域逐渐扩大。注意 s 不对称。

[0:21:23–0:23:39] 扩展到有 X 的场景(幻灯片 p.21):列出四个估计量的偏倚: - Naïve DiM: \(\beta_{\theta,1}\delta_\theta + \beta_{x,1}\delta_x\) - DiD: \(\Delta_\theta\delta_\theta + \Delta_x\delta_x\) - 匹配在 X 上 + DiD: \(\Delta_\theta\delta_\theta - \Delta_\theta\,\rho\,\delta_x\)? 等(见幻灯片 p.21准确公式) - 匹配在 X 和 Y_0 上 + DiD: 更复杂,含可靠性 r_{θ|X}(条件在 X 后的剩余 θ 方差)。

一般结论:匹配 X 几乎总是降低偏倚(除非抵消情形)。匹配 Y_0 的额外收益取决于条件可靠性 r_{θ|X} 和 X-θ 相关性。

[0:23:39–0:25:07] 多期扩展:若有多个预处理期,可靠性提升(因为多个测量),匹配更有利。公式见幻灯片 p.23。

[0:26:19–0:27:27] 做出选择:推荐匹配 X(几乎总是)。匹配预处理结局:可能,但需要检查条件可靠性。提供了一个粗略诊断 [幻灯片 p.27]:计算估计的可靠性 \(\hat{r}^T_{\theta|X}\) 和断裂比 \(\hat{\beta}_{\theta,T-1}/\hat{\beta}_{\theta,T}\),若可靠性足够高(> 1 - |1 - 那个比|),则匹配收益为正。

[0:27:27–0:30:12] 实现检查步骤 [幻灯片 p.28]: 1. 将每个时间点的结局对 X 回归,残差化得到 \(\tilde{Y}_{i,t}\)(剥离 X 的影响)。 2. 在控制组中估计残差方差、θ-残差系数等,进而计算 \(\hat{r}^T_{\theta|X}\) 等。 3. 在校长例子中,估计 \(r = 0.86\),断裂比 0.67(≠1),隐含隐变量不平衡 \(\tilde{\delta}_\theta = -0.22\)。匹配 X 减偏倚约 0.01,匹配 X+Y 减偏倚约 0.033,与效应量 -0.035 可比。因此原始匹配合理。

[0:30:32–0:32:00] 未来方向:基于 Y_pre 本身的选择机制(而非仅基于 X,θ)。报告中提及这是常见情况(如坏年份导致校长更替)。

[0:32:00–0:32:28] 结论:匹配可提高可比性但可能代价(回归到均值)。干扰因素是 Y_pre 是隐变量的噪声度量。提供的后端检查可指导匹配决策。

[0:46:23–0:54:40] Laura Hatfield 的讨论: - 扩展示例的偏倚分解:加入组-时间交互后,有 12 种偏倚情形,其中只有 1 种(基线不平衡×时间不变的系数变化)被当前论文处理。提及“挤压气球”效应(Squeezing the Balloon, 即匹配观测协变量可能放大未观测混杂)。提出对论文假设的看法:认为论文处理的场景是“组变化协变量且系数仅随时间变化”,但未处理的场景如“组均值随时间变化”可能同样重要。最后问为什么选择匹配而非其他均衡方法(如 weighting 或回归),以及如何与挤压气球效应衔接。

[0:55:43–0:58:39] 报告者回应:匹配只是便捷方式(假设与 weighting 等价);挤压气球效应在 DiD 中可能发生,值得进一步研究。承认论文中有句“认为实践中两个混杂的不平衡不太可能方向相反”需要澄清。

四、对应论文与开放问题

对应论文: - arXiv: 2205.08644 (2022 年 5 月),标题即报告标题(可能后续有修订版)。报告者提及“正在修订,即将发布新版” [0:45:30]。合作者:Dae Woong (David) Ham 和 Luke Miratrix。资助:IES Grant R305D200010。

开放问题(每条扎根于转写/讨论): 1. 基于 Y_pre 本身的选择机制:如果处理分配直接取决于噪声化的预处理结局(而非仅通过隐变量),本文的偏倚分析是否仍成立?需要扩展模型 [0:30:32–0:31:20, 幻灯片 p.31]。 2. 更一般的平行趋势断裂分类:Laura Hatfield 指出的 12 种偏倚组合只被处理了其中 1 种(基线不平衡×系数随时间变化),其他模式(如组均值随时间变化、系数在组间不同且随时间变化等)如何处理?[0:46:23–0:54:40]。 3. 匹配 vs 其他调整方法:为何聚焦匹配而非 weighting、回归调整等?报告者认为结果应等价,但需严格论证 [0:55:56]。 4. “挤压气球”效应在 DiD 中的表现:匹配在观测协变量上是否可能放大未观测混杂?特别当观测协变量是强预测处理、弱预测结果时,类似 IV 的 bias amplification 效应如何与 DiD 的平行趋势断裂交互?[0:56:56–0:58:39]。 5. 连续处理的情形:DiD 与连续处理结合时的匹配或 check 如何实现?当前框架仅对二元处理 [0:59:40–1:01:34]。 6. 多个预处理期假设的稳定性:报告中假设预处理期内系数稳定(\(\beta_{\theta,t}, \beta_{x,t}\) 对 t=0,…,T-1 有相同模式),若该假设不成立,背靠校检查的可靠性如何?[0:45:14–0:45:26 提到 check 依赖此假设]。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论