A devil’s bargain? Repairing a Difference in Differences parallel trends assumption with an initial matching step¶

讲者: Luke Miratrix
讨论人: Laura Hatfield
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-11-08
主题: 因果推断
视频: https://youtu.be/tKoxMovw9uY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向：Difference-in-Differences (DiD) 中预处理阶段的匹配（matching）是否可取——即“先匹配、再做 DiD”这一常见做法的偏差-偏差权衡（bias-bias tradeoff）。

该方向的追问：DiD 依赖无条件或条件平行趋势假设（parallel trends）。当无法直接相信该假设时，一个自然补救是找到与处理组“更可比”的控制组——通常通过匹配（或加权）实现。但匹配本身可能引入新的偏差，特别是匹配在预处理结局（pre-treatment outcomes）上可能因噪声代理变量导致回归到均值（regression to the mean）效应（Daw and Hatfield, 2018; Lindner and McConnell, 2019; O’Neill et al., 2016; Zeldow and Hatfield, 2021；Chabé-Ferret, 2015; Ding and Li, 2019 等均在该报告中提及 [幻灯片 p.7, 0:10:09]）。因此，核心问题：什么时候匹配是净收益，什么时候是净损失？

已有基础与主流路线： - 经典 DiD 文献（如 Card & Krueger）早已主张通过选择相似对照组来增加平行趋势的可信度。 - Heckman et al. (1998), Smith and Todd (2005), Imai, Kim, and Wang (2021) 等正式引入“条件平行趋势假设”，即给定观测协变量 X，处理组与控制组的潜在结果变化相同 [幻灯片 p.3]。 - Daw and Hatfield (2018) 指出，若平行趋势原本成立，匹配反而会被坏，因为匹配在预处理结局上的噪声会诱导类回归均值偏差。

当前 Frontier：除了匹配对预处理结局的偏差效应，更完整的刻画还需要考虑：观测协变量 X 与隐变量 θ 的相关性、平行趋势“断裂”（breakage）的原点（是协变量-结果关系变化，还是协变量均值随时间变化？），以及多期预处理数据如何提高匹配有效性。Laura Hatfield 在讨论环节 [0:46:23–0:54:40] 进一步扩展了 DiD 偏倚的分解结构，展示了在模型中加入组-时间交互后的 12 种可能偏向组合——比本报告的核心模型更一般。这表明该领域正在系统化分类不同来源的违背平行趋势的情形。

这场报告的站位：它在 Daw and Hatfield 的批判性观察之上，系统地推导匹配前后的偏倚表达式，分离出“匹配带来的偏差降低”与“匹配带来的放大效应”，并提供一个可操作的后端检查（back-of-the-envelope check）来帮助实践者决策。报告并不是提出一个无偏估计量，而是从“偏差减少”目标出发，给出何时匹配利大于弊的清晰条件（涉及可靠性 reliability 和断裂程度 s 的关系）。

二、最小内核 / 一个最简例子¶

符号与模型：假设只有一个观测协变量 X 和一个隐变量 θ（一维）。两个时间点：t=0（预处理期），t=1（处理期）。在 t=0 时所有单位均未接受处理，在 t=0 到 t=1 之间一部分单位接受处理（Z=1），其余未接受（Z=0）。单元 i 的预处理结局 Y_{i,0} 可观测，后处理结局 Y_{i,1} 可观测（若 Z=1 则为 Y(1)，若 Z=0 则为 Y(0)）。

潜在结果模型（幻灯片 p.11）：

\[Y_{i,t}(0) = \beta_{0,t} + \beta_{\theta,t}\,\theta_i + \beta_{x,t}\,X_i + \epsilon_{i,t}, \quad t=0,1\]

\[Y_{i,t}(1) = Y_{i,t}(0) + \tau \quad (t=1)\]

其中 \(\epsilon_{i,t}\) 为均值为零的 i.i.d. 噪声，方差 \(\sigma^2_E\)。处理效应 τ 为常数（常处理效应假设，无本质限制）。隐变量 θ_i 与观测协变量 X_i 的联合分布随处理组不同：在 Z=z 组内，\((\theta_i, X_i)^\top \sim N\big((\mu_{\theta,z}, \mu_{x,z})^\top, \text{cov}\big)\)，均值可不同（引起混杂）[幻灯片 p.12]。

核心量： - 不平衡（imbalance）：\(\delta_\theta = \mu_{\theta,1} - \mu_{\theta,0}\)，\(\delta_x = \mu_{x,1} - \mu_{x,0}\)。 - 平行趋势断裂（breakage）：\(\Delta_\theta = \beta_{\theta,1} - \beta_{\theta,0}\)，\(\Delta_x = \beta_{x,1} - \beta_{x,0}\)。

最简特例：无观测协变量（d=0），仅有隐变量 θ。此时唯一的不平衡来自 θ，断裂来自 \(\Delta_\theta\)。报告推导了三种估计的期望偏倚 [幻灯片 p.18]： - 简单差分（Naïve DiM）：\(E[\hat{\tau}_{\text{DiM}}] - \tau = \beta_{\theta,1}\,\delta_\theta\) - 仅 DiD（无匹配）：\(E[\hat{\tau}_{\text{DiD}}] - \tau = \Delta_\theta\,\delta_\theta\) - 在 Y_0 上匹配后再 DiD：\(E[\hat{\tau}_{\text{DiM}}] - \tau = \beta_{\theta,1}\,\delta_\theta\,(1 - r_{\theta|Y_0})\)

其中 \(r_{\theta|Y_0}\) 为可靠性（reliability），表示 Y_0 作为 θ 的噪声度量的信度：\(r_{\theta|Y_0} = \beta_{\theta,0}^2 \sigma^2_\theta / (\beta_{\theta,0}^2 \sigma^2_\theta + \sigma^2_E)\)（标准化后为相关性平方）。

直觉：若平行趋势成立（\(\Delta_\theta = 0\)），DiD 无偏，匹配只会产生回归到均值偏差（因为匹配的是噪声 Y_0，使得匹配后组间 θ 仍有差异，放大 \(\beta_{\theta,1}\,\delta_\theta\) 项）。若平行趋势断裂（\(\Delta_\theta \neq 0\)），匹配可能有利——将偏差从 \((\Delta_\theta\,\delta_\theta)\) 变为 \((1-r_{\theta|Y_0})\beta_{\theta,1}\,\delta_\theta\)。收益条件：\(r_{\theta|Y_0} > 1 - |1 - s|\)，其中 \(s = \beta_{\theta,1} / \beta_{\theta,0}\)（断裂的另一种度量）[幻灯片 p.19]。

三、报告主体：讲者讲了什么¶

[0:00:53–0:01:59] 开场，合作者 David Ham，受 Daw & Hatfield (2018) 启发，研究匹配+DiD 的偏差-偏差权衡。

[0:02:01–0:03:28] DiD 逻辑：比较处理组和控制组的前后变化差异，核心假设是平行趋势。匹配是提高可比性的自然想法，如 Card & Krueger 的新泽西 vs 宾州例子。

[0:03:50–0:04:41] 两种匹配：匹配在基线特征（X）上，以及匹配在预处理结局（Y_pre）上。后者直观上更能捕捉隐变量，但文献指出会引入回归到均值效应。转折：Daw and Hatfield (2018) 指出若平行趋势原已成立，匹配是坏的。

[0:04:41–0:05:41] 目标：开发准则何时匹配有利。强调不是无偏估计，而是偏差降低。

[0:05:55–0:07:02] 校长更替例子（Bartanen, Grissom and Rogers, 2019）：学校按年是否有新校长划分为处理/控制，匹配在 7 个学校特征和 6 个预处理考试成绩上。原始估计效应 -0.035 效应量。报告将用此数据评估匹配是否合理。

[0:08:00–0:09:26] 工作模型：线性潜在结果模型，有时间截距、隐变量 θ、观测协变量 X、噪声 ε。处理效应恒定（不限制）。处理分配由 θ 和 X 联合分布依组不同诱发，不是随机。幻灯片 p.11-12 给出了完整公式。

[0:09:26–0:10:52] 平行趋势在此模型下的表达式：总体平行趋势要求 \(\Delta_\theta\,\delta_\theta + \Delta_x\,\delta_x = 0\)；条件平行趋势（给定 X）则要求 \(\Delta_\theta = 0\)（即 θ 与 Y 的关系稳定）。引出“不平衡”和“断裂”的概念。

[0:11:08–0:11:29] 模型局限：不考虑 X 或 θ 随时间变化（协变量固定，系数变化）；不考虑基于 Y_pre 噪声的入组选择（未来工作）[幻灯片 p.14, 0:11:45]。

[0:12:19–0:13:37] 无匹配的 DiD 偏倚表达式 \(E[\hat{\tau}_{\text{DiD}}] - \tau = \Delta_\theta\,\delta_\theta + \Delta_x\,\delta_x\)。若系数不随时间变化（\(\Delta_\theta = \Delta_x = 0\)）或组均值相同（\(\delta_\theta = \delta_x = 0\)），则无偏。偏倚可因正负抵消，导致匹配有时会“揭露”隐藏偏倚。

[0:13:37–0:15:07] 匹配的定义：考虑完美匹配（asymptotic argument），对每个处理单元找到协变量 X 和预处理结局 Y_0 完全相同的控制单元。通过积分得到匹配后对照组期望，从而计算偏倚。

[0:16:19–0:18:59] 简单情况（无 X）：三种估计的偏倚比较（公式见第二节）。关键概念：可靠性 r（Y_0 对 θ 的预测度）。匹配后偏倚为 \(\beta_{\theta,1}\,\delta_\theta (1-r)\)。若 r 高，匹配接近完美，偏倚减小；若 r 低，匹配几乎无用。匹配损失了 DiD 的“断裂项” \(\Delta_\theta\)，改为承受 \(\beta_{\theta,1}\) 项——可能更坏。

[0:19:39–0:21:07] 收益-成本分解与决策规则：匹配利大于弊当 \(r > 1 - |1 - s|\)，其中 \(s = \beta_{\theta,1}/\beta_{\theta,0}\)。图（幻灯片 p.19）显示 s=1（平行趋势成立）始终不匹配，离开 1 则匹配区域逐渐扩大。注意 s 不对称。

[0:21:23–0:23:39] 扩展到有 X 的场景（幻灯片 p.21）：列出四个估计量的偏倚： - Naïve DiM: \(\beta_{\theta,1}\delta_\theta + \beta_{x,1}\delta_x\) - DiD: \(\Delta_\theta\delta_\theta + \Delta_x\delta_x\) - 匹配在 X 上 + DiD: \(\Delta_\theta\delta_\theta - \Delta_\theta\,\rho\,\delta_x\)? 等（见幻灯片 p.21准确公式） - 匹配在 X 和 Y_0 上 + DiD: 更复杂，含可靠性 r_{θ|X}（条件在 X 后的剩余 θ 方差）。

一般结论：匹配 X 几乎总是降低偏倚（除非抵消情形）。匹配 Y_0 的额外收益取决于条件可靠性 r_{θ|X} 和 X-θ 相关性。

[0:23:39–0:25:07] 多期扩展：若有多个预处理期，可靠性提升（因为多个测量），匹配更有利。公式见幻灯片 p.23。

[0:26:19–0:27:27] 做出选择：推荐匹配 X（几乎总是）。匹配预处理结局：可能，但需要检查条件可靠性。提供了一个粗略诊断 [幻灯片 p.27]：计算估计的可靠性 \(\hat{r}^T_{\theta|X}\) 和断裂比 \(\hat{\beta}_{\theta,T-1}/\hat{\beta}_{\theta,T}\)，若可靠性足够高（> 1 - |1 - 那个比|），则匹配收益为正。

[0:27:27–0:30:12] 实现检查步骤 [幻灯片 p.28]： 1. 将每个时间点的结局对 X 回归，残差化得到 \(\tilde{Y}_{i,t}\)（剥离 X 的影响）。 2. 在控制组中估计残差方差、θ-残差系数等，进而计算 \(\hat{r}^T_{\theta|X}\) 等。 3. 在校长例子中，估计 \(r = 0.86\)，断裂比 0.67（≠1），隐含隐变量不平衡 \(\tilde{\delta}_\theta = -0.22\)。匹配 X 减偏倚约 0.01，匹配 X+Y 减偏倚约 0.033，与效应量 -0.035 可比。因此原始匹配合理。

[0:30:32–0:32:00] 未来方向：基于 Y_pre 本身的选择机制（而非仅基于 X,θ）。报告中提及这是常见情况（如坏年份导致校长更替）。

[0:32:00–0:32:28] 结论：匹配可提高可比性但可能代价（回归到均值）。干扰因素是 Y_pre 是隐变量的噪声度量。提供的后端检查可指导匹配决策。

[0:46:23–0:54:40] Laura Hatfield 的讨论： - 扩展示例的偏倚分解：加入组-时间交互后，有 12 种偏倚情形，其中只有 1 种（基线不平衡×时间不变的系数变化）被当前论文处理。提及“挤压气球”效应（Squeezing the Balloon, 即匹配观测协变量可能放大未观测混杂）。提出对论文假设的看法：认为论文处理的场景是“组变化协变量且系数仅随时间变化”，但未处理的场景如“组均值随时间变化”可能同样重要。最后问为什么选择匹配而非其他均衡方法（如 weighting 或回归），以及如何与挤压气球效应衔接。

[0:55:43–0:58:39] 报告者回应：匹配只是便捷方式（假设与 weighting 等价）；挤压气球效应在 DiD 中可能发生，值得进一步研究。承认论文中有句“认为实践中两个混杂的不平衡不太可能方向相反”需要澄清。

四、对应论文与开放问题¶

对应论文： - arXiv: 2205.08644 (2022 年 5 月)，标题即报告标题（可能后续有修订版）。报告者提及“正在修订，即将发布新版” [0:45:30]。合作者：Dae Woong (David) Ham 和 Luke Miratrix。资助：IES Grant R305D200010。

开放问题（每条扎根于转写/讨论）： 1. 基于 Y_pre 本身的选择机制：如果处理分配直接取决于噪声化的预处理结局（而非仅通过隐变量），本文的偏倚分析是否仍成立？需要扩展模型 [0:30:32–0:31:20, 幻灯片 p.31]。 2. 更一般的平行趋势断裂分类：Laura Hatfield 指出的 12 种偏倚组合只被处理了其中 1 种（基线不平衡×系数随时间变化），其他模式（如组均值随时间变化、系数在组间不同且随时间变化等）如何处理？[0:46:23–0:54:40]。 3. 匹配 vs 其他调整方法：为何聚焦匹配而非 weighting、回归调整等？报告者认为结果应等价，但需严格论证 [0:55:56]。 4. “挤压气球”效应在 DiD 中的表现：匹配在观测协变量上是否可能放大未观测混杂？特别当观测协变量是强预测处理、弱预测结果时，类似 IV 的 bias amplification 效应如何与 DiD 的平行趋势断裂交互？[0:56:56–0:58:39]。 5. 连续处理的情形：DiD 与连续处理结合时的匹配或 check 如何实现？当前框架仅对二元处理 [0:59:40–1:01:34]。 6. 多个预处理期假设的稳定性：报告中假设预处理期内系数稳定（\(\beta_{\theta,t}, \beta_{x,t}\) 对 t=0,…,T-1 有相同模式），若该假设不成立，背靠校检查的可靠性如何？[0:45:14–0:45:26 提到 check 依赖此假设]。

Maintained by 陈星宇 · Homepage · Source on GitHub

A devil’s bargain? Repairing a Difference in Differences parallel trends assumption with an initial matching step¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论