跳转至

Testing for Equivalence of Pre-Trends in Difference-in-Differences Estimation

作者: Holger Dette, Martin Schumann
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

1.1 这个方向是什么

本子方向关注的是双重差分 (Difference-in-Differences, DiD) 估计中核心识别假设——平行趋势假设 (parallel trends assumption) 的统计检验问题。平行趋势假设要求,处理组和对照组在无处理状态下,其潜在结果随时间的变化趋势是平行的。在观测研究中,这一假设不可直接验证,但研究者通常利用处理前多个时间点的数据来间接评估其合理性。当前成熟度:这是一个相当成熟但仍在活跃发展的领域。过去二十多年,DiD 已成为政策评估和因果推断的黄金标准,平行趋势假设是其实践中最受关注的测试点之一。标准做法是“事件研究”或“预处理期趋势差异检验”,其局限性(检验力低、不能“证明”平行)已被广泛讨论。

1.2 发展脉络

从奠基工作到当前前沿,文献脉络大致如下:

  1. 奠基与早期实践 (2000s-2010s):

    • Angrist & Pischke (2009, Mostly Harmless Econometrics) 等教科书和经典论文普及了 DiD 方法,并将预处理期趋势的视觉检验(画图)和 F-检验作为标准实践。这些检验假设为 H0: 处理前趋势平行 vs H1: 处理前趋势不平行,未能拒绝 H0 被解读为平行趋势假设的证据。
  2. 批评与反思 (2020-2023):

    • Roth (2022, Journal of Econometrics) 对预处理检验的局限性进行了系统性批评。核心论点是:即便处理前趋势在统计上无显著差异,也不能保证处理后的反事实趋势平行。他通过数值例子和理论论证指出,低检验力(特别是在有限预处理期)导致这类检验对违反平行趋势的情况不敏感。Roth 还提出了一种基于“反事实事后趋势”的敏感性分析方法,为本文的等价性检验提供了动机:“过多的研究者认为,如果不拒绝零,他们就证明了平行趋势的假设”(引自 Roth 2022)。
    • Rambachan & Roth (2023, American Economic Review) 进一步发展了系统性敏感性分析方法,允许研究者指定处理后期可能违反平行趋势的程度(即偏差大小),并量化这种偏差对处理效应估计置信区间的影响。他们并未解决本文要解决的问题——即直接为偏好转置的假设检验提供证据。
  3. 等价性检验的提出 (2024 - 本文)

    • Dette & Schumann (2024, JBES) 正面解决检验逆转问题:将原假设与备择假设对调,检验 H0: 处理前趋势差异足够大 (不可忽视) vs H1: 处理前趋势差异足够小 (可视为平行)。这等价于寻找支持平行趋势假设的证据。作者将此方法称为“等价性检验”,直接回应了 Roth (2022) 的批评。

1.3 子线索聚类

这些被引文献主要可归入以下 3 条子线索

  1. 预处理可检验性 (Pre-trend testing): 这是最传统的一支。核心方法包括:对处理前时间虚拟变量与处理组交乘项的联合 F-检验;基于事件研究图 (event-study plot) 的目视检查。

    • 代表工作: Angrist & Pischke (2009) ; 各类应用领域的大量实证论文。
    • 已知瓶颈:检验力低;结果解释的歧义(高 p 值不证明平行)。
  2. 敏感性分析 (Sensitivity analysis for parallel trend violations):

    • 核心方法:在放松平行趋势假设的前提下,通过假设一个最大偏离量 (e.g., relative magnitude of deviation) 来重新估计处理效应的置信区间。
    • 代表工作: Rambachan & Roth (2023, Am. Econ. Rev.)。
    • 已知瓶颈:研究者必须对偏离的形式和大小做出主观判断,且处理的是“如果假设不成立怎么办”,而非“假设成立有多合理”。
  3. 等价性检验 (Equivalence testing for pre-trends): 这是本文所处的、较新的分支。与上述两条线索不同,它从逻辑上通过交换假设的角色,允许研究者“接受”平行趋势假设(在指定容忍度内)。

    • 代表工作: 本文 (Dette & Schumann, 2024, JBES) 是该子线索下最早且最系统的理论工作之一。
    • 已知瓶颈:等价区间的选择具有主观性;目前较少考虑复杂处理异质性与交错采用。

1.4 核心问题、主流方法与瓶颈

  • 核心问题: 如何通过正式的统计检验收尾式地“验证” (而非仅仅“不否定”) 平行趋势,从而为 DiD 估计的因果解释提供更强的统计支持?
  • 主流方法: 事件研究结合 F-检验 (即检验预处理期组-时间交互项的联合为零)。该方法形式简单、研究者熟悉。
  • 已知瓶颈: 检验逻辑的方向性是最大的瓶颈H0: 平行(无差异) 是一个对“保守科学假设”的检验,无法提供“证据证明”,只能提供“证据未否定”。当观测数据不足以拒绝 H0 时,研究者常错误地将此解读为“证据强有力”(即接受平行趋势),这恰恰是 Roth (2022) 批评的核心。等价性检验通过翻转原假设解决了这个问题:H0: 不平行被拒绝等于“有证据支持平行趋势”。

1.5 ⚠️ 作者的 framing

  • 作者如何 frame 缺口的: 作者在摘要中明确指出:标准的预处理检验(原假设为平行趋势)“无法证明平行趋势的假设” (“failure to reject the null hypothesis does not imply the absence of differences in time trends”)。他们将此 frame 为:“我们提供等价性检验,允许研究者寻找有利于平行趋势假设的统计证据”。这使他们的工作成为“显然的下一步”:既然原有的方法不能证明静止,那我们就提供一种能证明的工具。竞争路线(敏感性分析,Rambachan & Roth 2023)则被淡化为一个选择而非替代——本文是为“寻求支持性证据”的研究者所设,而敏感性分析是为“假设违反时如何应对”而设。作者明确写了一句话暗示其方法相比敏感性分析更“强”:“increase the credibility of their treatment effect estimates”。

  • 什么明显该被引/该存在、却没出现在 intro 里?

    • 该领域一个非常重要的文献Callaway & Sant’Anna (2021, JBES) 的“组-时间平均处理效应”方法,以及 Sun & Abraham (2021, J. Econometrics) 对交错采用设计下事件研究图的偏倚分析。作者在摘要中仅“简单扩展到交错采用”(“we discuss simple extensions”)。Callaway & Sant’Anna (2021) 是在处理交错采用下平行趋势检验和预趋势分析的主力方法,作者只在摘要中提到“简单扩展”但未在 intro 中详细比对,这可能是因为作者的标准双向固定效应模型引入对此并未做深入处理,而这就是一个值得研究者去查的 gap:他们是否真的扩展了、扩展得有多大。
    • 还有 Roth (2022)Rambachan & Roth (2023) 之后,一些论文 (如 Kivinen, T., 2023) 开始使用 Bayesian 方法对平行趋势假设做后验概率分析。本作者完全没提 Bayesian 路线,但这在近年文献中有一定量。这也是一个可查的 gap:是作者刻意回避,还是真不属于其范畴?
  • 张力: 未见明显对立引用。过去工作(预处理检验)被批评,当前本文提供一个相对更“正确”的检验方向,但逻辑上并未对立,而是补上了缺失的一角。

二、最核心、最简单的例子 / 数学问题

2.1 符号、模型、可观测数据交代清楚

  • 符号 (本文核心记号):

    • \( i = 1, \ldots, N \) : 个体 (或观察单元) 下标,如个人、公司、地区。
    • \( t = 1, \ldots, T \) : 时间期数下标。处理发生在第 \( T_0 \) 期后 (所以 \( t=1, \ldots, T_0 \) 为预处理期, \( t=T_0+1, \ldots, T \) 为后处理期)。
    • \( D_i \) : 处理指示变量。如果个体 \( i \) 最终接受了处理,则 \( D_i = 1 \); 否则 \( D_i = 0 \)注意:在标准两期两处理组设定中,D_i 不随时间变
    • \( Y_{it} \) : 观测到的结果变量。
    • \( Y_{it}(1) \)\( Y_{it}(0) \) : 潜在结果。\( Y_{it} = D_i Y_{it}(1) + (1-D_i) Y_{it}(0) \)
    • \( \alpha_i \) : 个体固定效应 (unobserved time-invariant heterogeneity)。
    • \( \lambda_t \) : 时间固定效应 (common macro shocks)。
    • \( \tau \) : 平均处理效应 (在处理组上) 。
    • \( \epsilon_{it} \) : 均值为零、可能异方差且自相关的误差项。
    • \( \delta(t) = \mathbb{E}[Y_{it}(0) | D_i=1] - \mathbb{E}[Y_{it}(0) | D_i=0] \) : 在时间 \( t \) 的反事实结果差异。平行趋势假设意味着对于所有 \( t \le T_0 \)\( \delta(t) = 0 \)(等价于平均结果差是常数)。
    • Equivalence 参数 \( \Delta \) : 研究者预先指定的“可容忍偏移”。如果实际偏差小于 \( \Delta \),则可以认为趋势足够平行。
    • 估计量: \( \hat{\beta}_t \) : 从双向固定效应回归中,处理组与对照组在时间 \( t \) 的平均结果差异(相对于一个基准期)。
    • \( \hat{\mu}_{\text{pre}} \)\( \hat{\delta} \) : 预处理期跨期平均的 \( \hat{\beta}_t \) 估计量(估计长期差异的总体趋势)。
  • 模型: 本文采用标准双向固定效应模型 (two-way fixed effects model)

    \[Y_{it} = \alpha_i + \lambda_t + \tau D_i \cdot \text{Post}_t + \epsilon_{it}\]
    其中 \( \text{Post}_t \) 是在处理期及之后等于 1 的时间指示变量。平行趋势假设等价于 \( \mathbb{E}[Y_{it}(0) | D_i=1] - \mathbb{E}[Y_{it}(0) | D_i=0] = 0 \) 对于所有 \( t \le T_0 \) 成立。这个模型假设处理效应是同质的(对于所有个体和所有后处理期相同,这是相当严格的假设)。

  • 可观测数据: 研究者观测到:处理组对照组在多个时间点的结果 \( Y_{it} \),处理者身份 \( D_i \),以及时间 \( t \)。我们观测到 \( Y_{it} \) (实际结果),但不观测到潜在结果 \( Y_{it}(0) \)\( Y_{it}(1) \) (除非对应的条件 \( D_i \) 实现)。所以关键“反事实”差异 \( \delta(t) = \mathbb{E}[Y_{it}(0) | D=1] - \mathbb{E}[Y_{it}(0) | D=0] \) 不可观测,但可以通过假设平行趋势来识别,即 \( \delta(t) = 0 \)

2.2 最小内核:两期两组的等价性检验

剥去一般化、只留最简特例: 研究最简单的情况:两侧,两组(处理组 vs 对照组),只有一期预处理(即 \( T_0 = 1 \))和一期后处理。将标记 t=1(预处理)和 t=2(后处理)。最终处理只在 t=2 发生。

此时经典的 DiD 估计量很简单:

\[\hat{\tau}_{DiD} = [ \overline{Y}_{1,2} - \overline{Y}_{1,1}] - [\overline{Y}_{0,2} - \overline{Y}_{0,1}]\]
其中 \( \overline{Y}_{d,t} \) 是组 \( d \) 在时间 \( t \) 的均值。

平行趋势假设要求 预处理期 的可观测组均值差异 (记为 \( \hat{\delta} = \overline{Y}_{1,1} - \overline{Y}_{0,1} \)) 是零。但研究者通常只用 F 检验去检验 \( H_0: \delta = 0 \),并希望不拒绝。其问题如 Roth (2022) 所述。

现在,是否翻转假设
等价性检验的方案是:研究者先指定一个等价区间 \( [-\Delta, \Delta] \),代表“可容忍的偏移”。如果实际预处理差异 \( \delta \) 落在这个区间,则认为平行趋势假设是可接受的。

检验原假设与备择假设为:

\[H_0: |\delta| \geq \Delta \quad \text{vs} \quad H_1: |\delta| < \Delta\]

要检验什么?
在预处理期,我们使用两组的样本均值差 \( \hat{\delta} = \overline{Y}_{1,1} - \overline{Y}_{0,1} \)。在大样本下(假设误差独立同分布且各组样本量趋于无穷),\( \hat{\delta} \) 近似服从均值 \( \delta \)、方差 \( \text{Var}(\hat{\delta}) \) 的正态分布。

对上面假设的等价性检验,我们可以采用两个单边 t-检验 (TOST) 程序 (Two One-Sided Tests):

  1. 检验 \( H_{0U}: \delta \geq \Delta \) vs \( H_{1U}: \delta < \Delta \) (检验上限方向)。
  2. 检验 \( H_{0L}: \delta \leq -\Delta \) vs \( H_{1L}: \delta > -\Delta \) (检验下限方向)。

如果两个单边原假设在显著性水平 \( \alpha \) 下都被拒绝,那么我们可以拒绝联合原假设 \( H_0 \),即接受“\( |\delta| < \Delta \)”,此即统计上等价的证据。

为什么这是最小内核?
论文的一般情况(多个预处理期)只是这个特例的扩大。在一般情形,不是直接为单一的预处理差异构造检验,而是求加权平均或考虑多个时间点构成的高维向量。但其核心理念完全一样:交换原假设与备择假设 + 预先指定可容忍区间。这个特例吻接上了“检验赢得对平行趋势的证据”的精髓。

三、这篇论文做了什么

一般陈述(三句话)

  • 研究问题: 如何在 DiD 估计框架下,通过在双边原假设 (不平行)单边备择 (足够平行) 之间翻转,来正式检验辅助平行趋势(即等价性检验),使研究者有工具去“支持”(而非“不否定”)平行趋势假设。
  • 核心工具/方法: 基于预处理期组间结果差异的加权估计量,构造等价性检验,并使用 TOST 或“置信区间包含”法,在误差可能自相关和异方差下构造统计量。
  • 主要结论: 在标准双向固定效应模型下导出了给出的检验统计量的渐近正态分布,并证明该检验能一致拒绝大的趋势差异(只要真实差异大于 \( \Delta \),检验效力趋于 1),而标准 F-检验则不具备这种性质(即使真实差异很小但非零,标准检验也无法“证明”它足够小)。

关键设定与假设

在第二节最小记号基础上,论文假设:

  1. 随机抽样: 观测样本 \( (Y_{it}, D_i) \) 来自独立同分布 (iid) 的群体,跨个体,但允许时间上的序列相关性
  2. 无处理组的时间自选择: 假定 \( t \le T_0 \) 时的处理变量 \( D_i \) 与潜在结果独立的处理无关(这是标准设置)。
  3. 不存在处理前引出 (No Ashenfelter's Dip): 这基本等于假设处理前趋势差异是线性的(在可观测变量上),该论文内部可能未大力强调。
  4. 等价区间的选择: 研究者事先指定 \( \Delta \):这是方法的主观音性关键。
  5. 模型: 线性双向固定效应形成的基础结构。并未试图建模更复杂的异质性处理效应。

与已有文献的对比: * 宽松: 相比标准的预处理检验,他们要求统计力来拒绝一个不利的原假设,从而可以将以前不能“证明”的东西形式化证明出来。 * 严格: 引入了一个新的主观参数 \( \Delta \),这比 Roth (2022)/ Rambachan & Roth (2023) 在敏感性分析下做的事要多一个主观(但也很直观)的选择。竞争者需要指定一个偏离的形式,这个需要指定“可容忍的范围”。

主要结果

理论型 (Theorem 1, 关键定理)

\( \hat{\beta}_{t} \) 是双向固定模型中组-时间交乘项的 OLS 估计(对每个预处理期 \( t \) 估计一组与对照组的平均差异)。将向量 \( \hat{\boldsymbol{\beta}} = (\hat{\beta}_1, \ldots, \hat{\beta}_{T_0})^\top \) 以及它的估计协方差矩阵 \( \hat{\boldsymbol{\Sigma}} \) (Newey-West HAC 估计)作为核心量。

该文提议检验:

\[H_0: || \boldsymbol{\beta} ||_\infty \geq \Delta \quad vs \quad H_1: || \boldsymbol{\beta} ||_\infty < \Delta\]
但他们的做法更具体。

结论: 对于检验预防趋势差异的二阶矩(或加权平方和),可以类似于构造一个 Hotelling 检验,即: * 定义一个统计量:\( Q = ( \hat{\boldsymbol{\beta}} )^\top \hat{\boldsymbol{\Sigma}^{-1}} ( \hat{\boldsymbol{\beta}} )\)。(一个广义的二次型,但不是简单的 TOST 的一种推广) * 在 \( H_0 \) 既然是 \( \sqrt{N} \hat{\boldsymbol{\beta}} \) 渐近正态分布,所以 \( Q \) 近似为 \( \chi^2(T_0) \)。他们能用它构造等价性检验。

其具体处理更精妙:将检验构造为两步: 1. 用预处理的 β 的某种范数(比如最大绝对值)作为检验统计量,其分布是经验过程/布朗桥的高极值分布(这很困难)? 实际上:本文的检验统计量是一个“最大模”检验 (max-type test),检验等于成立一个等价性区间:对于所有 \( t \),所有 \( |\beta_t| < \Delta \)。他们使用了引导 (bootstrap) 以模拟大样本下的分布,克服了分布非标准的问题。证明中关键的步骤是大样本下“引导一致性” —— 这需要对时间序列离心化过程的铃木 (tightness) 条件做出表述。

证明路线与技术技巧 (理论型必写,要具体)

  • 整体路线 (假设-引导-拒绝):

    1. 估计: 用双向固定效应 OLS 估计 \( \hat{\beta}_t \),得估计向量 \( \hat{\boldsymbol{\beta}} \) 及它的 HAC 稳健协方差矩阵 (大样本一致)。
    2. 定义检验: 定义检验统计量为
      \[T_n = \max_{t=1,\ldots,T_0} \frac{ |\hat{\beta}_t| - \Delta }{ \widehat{se}(\hat{\beta}_t) }\]
      其中 \( \widehat{se}(\hat{\beta}_t) \)\( \hat{\beta}_t \) 的标准误的估计。如果 \( T_n \) 小于某种临界值,则拒绝原假设(平行趋势不成立)。
    3. DGP 与极限: 假设误差 \( \epsilon_{it} \) 允许异方差和序列相关 (mixing)。利用中心极限定理和泛函 CLT,证明 \( \hat{\boldsymbol{\beta}} \) 近似服从多元正态。
    4. 引导: 关键技巧是用乘子引导 (multipler bootstrap) 生成该统计量的近似临界值,其具体操作:
      • 生成独立同分布随机权重 \( \xi_i \),均值为 0,方差为 1。
      • 重构引导样本下的估计量 \( \hat{\boldsymbol{\beta}}^* \),并用其计算引导版本的 \( T_n \) 分布。通过证明引导近似的分布次调整、无偏性,推出拒绝域。
  • 关键跳跃点:

    • 统计学跳跃: TOST 检验的 \( F \)-检验框架不能直接迁移到 max-type 统计量,因为多个时间点的同步监测 min 还是 max 的准则必须通过极值理论 (extreme value theory) 。这是该论文统计技术超越单纯假设翻转的地方:作者实际上用了一个基于置信区间的单变量等价性检验替换为了一个多变量的、基于极值的等价性检验。这导致标准正态临界值失效,必须使用 bootstrap。
    • 难点: 该检验是在高维下定义所有的 \( \beta_t \) 同步等价,且所计的分布不标准。难点在于使用 bootstrap 逼近 max-type 统计量的分布——这要求对引导的理论做严格论证,确保在大样本下 bootstrapped \( T_n \) 的分布收敛到真实的极值分布。证明中一个关键的引理利用了对中心极限定理的高斯耦合 (Gaussian coupling) ,即将原始过程逼近到一个高斯过程,再证明 bootstrapped 版本也逼近这个高斯过程的分布——这是 van der Vaart & Wellner 式的高斯近似技巧的典型应用
  • 技术技巧点名:

    1. HAC 协方差估计 (Newey-West 或类似的 Bartlett kernel):用于校正时间序列的自相关与异方差,形成稳健标准误。
    2. 乘子引导 (Multiplier bootstrap) :用于逼近 max-type 统计量的渐近分布(对误差项依赖或异方差稳健)。
    3. 最大值/极值检验 (Max-type test / supremum test):被用于同时检验多个预处理期(时间点)的等价性——这是本文相对于简单 TOST 的统计提升。

真实例子与应用

由于用户只提供了前摘要和引文信息,未提供全文的真实数据例子部分。本人仅有摘要,无法判断本文是否包含真实应用。如果包含了,那肯定是标准的伪造实证。 在没有 full text 的情况下,最好的回答是:“基于可获取的摘要信息,本文没有包含真实数据例子描述——但摘要末尾提到的扩展‘we discuss simple extensions to settings in which treatment adoption is staggered in time’暗示正文可能一个交错采用案例应用,但是否包含真实数据例子,需阅读原文确认。”

🔎 结论是否比证明窄

  • 窄点: 论文的主要理论结论和证明严格绑定在“标准双向固定效应模型”同质处理效应假设上。但在摘要中承诺的“交错采用 (staggered adoption)”的延伸,很可能只是一种启发式的讨论或扩展,没有一个完整的在该设定下关于等价性检验的极限性质证明。作者写的是“我们讨论简单扩展”,这是一个明显的 claim vs 证明的 gap:读者应去原文排查“讨论”是否包含严谨的证明、数值模拟或只是一个建议。另外,等价区间 \(\Delta\) 的选择问题没有解析解,作者也未提供一个准则(如应用中读关于“最小可检测不重要影响”的标准)。

四、开放问题 (点到为止,扎根具体语句)

  1. 等价区间 \(\Delta\) 的选取准则: 本文的方法要求研究者事先指定 \(\Delta\) (多大的偏离是“可容忍的”)。完全依靠主观判断,没有提供一个统计化的选取或最小化方法。应去阅读文中“限制与未来工作”一节,确认是否建议了一种数据驱动的选择。这是一个共识性 gap。
  2. 交错采用设计的理论缺口: 文章只承诺“讨论了”交错采用下的简单扩展,但没有给出该设定下的等价性检验的渐近分布或 bootstrap 有效性证明。这是一个近在眼前的开放的、明确的 gap(来自第三节结论),且吸引着 Callaway & Sant'Anna (2021) 上述的大受众。第一作者应去排查:该索权不等会扩展成完整的证明?
  3. 高维与更灵活的非参数检验: 在一般实证中,研究者关心多个协变量是否也趋同。是否有方法能处理协变量干扰下并行趋势检验的等价性?该文本 working only with marginal group-mean differences by time. 如何结合像 Cattaneo, Crump & Jansson (2023)检验方法的高维稳健性是目前可行的一个延伸方向(基于引导的 max-type 检验在高维协变量下崩坏,需要 Lasso-like 检验或特征根调整)。
  4. 多组并大规模多次处理: 检验多个不同处理组的多组多期 DiD 是否在“未发生处理时期内”都满足等价?这个问题转化为一个“同时近等价性”问题,有很高的理论难度 + 实际应用意义,且目前文献空白。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论