跳转至

Difference-in-Differences Estimator of Quantile Treatment Effect on the Treated

作者: Doosoo Kim, Jeffrey M. Wooldridge
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1080/07350015.2024.2388643


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在观测数据且仅有两期(前测-后测)面板/重复截面数据的设定下,如何识别与估计处理组(treated group)潜在结果分布的跨时间变化,进而提取分布层面的因果效应(如分位数处理效应 QTT),而非仅仅停留在均值层面(ATE/ATT)。当前该方向已从早期的均值 DID 走向分布 DID,成熟度中等:识别条件已有数条竞争路线(Copula、CiC、基于秩等),但各自对分布形状或协变量调整的假设限制不同,尚未形成像均值 DID 那样统一且宽松的共识框架。

发展脉络(history): - 奠基工作(均值 DID):传统 DID(Ashenfelter-1978, Card-1990)仅识别 ATT,其核心假设是"处理组与对照组在未处理潜在结果的均值上具有共同时间趋势"。它留下了分布效应无法识别的口子。 - 主要进展(分布 DID 的早期路线): - Athey-Imbens (2006) 提出 Changes-in-Changes (CiC) 模型,首次从分布层面识别 QTT。其假设是:未处理潜在结果由一个严格单调的潜在函数生成,且该函数对两组相同。作者在 intro 中明确指出 CiC 的局限:"CiC 模型与均值 DID 假设不兼容,且难以自然地引入协变量调整"。 - Melly-2005, Chernozhukov-Fernandez-Val-Melly (2013) 等发展了基于 Copula 或秩的分布 DID,假设两组未处理潜在结果的跨期相依结构(Copula)相同。作者指出这类方法"通常要求结果变量连续,且置信带在离散变量下失效"。 - 当前 frontier 与本文位置:近期分布 DID 的 frontier 在于放宽分布形状假设(如不要求单调性或特定 Copula)与允许协变量调整。本文(Kim-Wooldridge 2024)定位在:提出一个基于 CDF 共同时间效应的假设,它既兼容均值 DID,又允许协变量,且对离散结果变量有效。

子线索聚类: 1. 基于潜在函数 / 单调性路线(CiC 及其变体):假设存在一个单调函数 \(h\) 使得 \(Y_{it}(0) = h(Y_{i, t-1}(0), G_i)\),且 \(h\) 不依赖 \(G_i\)。这簇工作识别力强,但假设限制大,且与均值 DID 平行而非包容。 2. 基于秩 / Copula 路线(Rank DID / Quantile DID):假设两组在未处理潜在结果的跨期秩不变或 Copula 相同。这簇工作对连续变量有效,但处理离散变量时秩/Copula 定义模糊,置信带构造困难。 3. 基于 CDF 时间效应路线(本文所属):假设两组在未处理潜在结果的 CDF 上具有共同时间效应(\(F_{Y_{11}(0)|X}(y) - F_{Y_{10}(0)|X}(y) = F_{Y_{01}(0)|X}(y) - F_{Y_{00}(0)|X}(y)\))。这簇工作直接在 CDF 层面做 DID,包容均值 DID,且协变量调整可通过条件 CDF 自然引入。

这个方向在追问的核心问题: 1. 识别:在仅有两期数据且无严格单调性/Copula 假设下,处理组的未处理潜在结果分布 \(F_{Y_{11}(0)|X}\) 能否被观测分布唯一确定?条件是什么? 2. 估计与推断:如何基于经验 CDF 构造 QTT 估计量?在离散结果变量下,经验分位数函数不连续,如何保证估计量的一致性与弱收敛?如何构造对离散变量仍有效的置信带? 3. 协变量调整:如何将分布 DID 的识别假设扩展到条件于协变量 \(X\) 的情形,且估计量不依赖高维非参数条件 CDF 的精确估计?

⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:现有分布 DID 方法(CiC、Copula 路线)要么与均值 DID 不兼容,要么难以引入协变量,要么在离散结果下失效。本文的 CDF 时间效应假设"显然"是均值 DID 在分布层面的自然推广,且直接解决上述三个痛点。 - 被淡化或回避的竞争路线:作者未深入讨论基于秩保持(rank preservation)的分布 DID(如 Athey-Imbens 2006 的秩版本)在离散变量下的近期修正工作,也未对比半参数分布 DID(如 Callaway-Li-2023 等在多期设定下的工作)。 - 明显该被引 / 该存在却未出现在 intro 里的:多期(multi-period)分布 DID 的近期进展(如 Callaway-2021 等),以及半参数效率界在分布 DID 中的理论(本文未讨论估计量的效率性质,也未引用 HOIF 或半参数效率相关文献)。这值得研究者去查:是因两期设定下效率界已知而省略,还是确实未被讨论?

张力: 未见明显对立引用。CiC 与本文假设在不同条件下识别不同对象,但作者指出本文假设包容均值 DID 而 CiC 不包容,这是一个逻辑上的包含关系而非矛盾。不过,值得核查:在既满足 CiC 又满足本文假设的数据生成机制下,两者识别的 QTT 是否一致?若不一致,则存在张力。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号与潜在量
  • \(G_i \in \{0, 1\}\):分组指示,\(G_i=1\) 为处理组,\(G_i=0\) 为对照组。
  • \(T_i \in \{0, 1\}\):时间指示,\(T_i=0\) 为前测期,\(T_i=1\) 为后测期。
  • \(D_i = G_i \cdot T_i\):处理指示,仅当处理组在后测期时 \(D_i=1\)
  • \(Y_{it}(d)\):个体 \(i\) 在时间 \(t\) 的潜在结果,\(d \in \{0, 1\}\) 为处理状态。
  • \(Y_{it}\):可观测结果,\(Y_{it} = D_i Y_{it}(1) + (1-D_i) Y_{it}(0)\)
  • \(X_i\):协变量(可随时间变化,记为 \(X_{it}\),但本文核心设定中假设其不随时间变化或仅用基期 \(X_{i0}\))。
  • \(F_{Y_{gt}(0)|X}(y)\):分组 \(g\)、时间 \(t\)、条件于 \(X\) 的未处理潜在结果的 CDF。
  • QTT(目标 estimand):\(\tau_q = F_{Y_{11}(0)|X}^{-1}(q) - F_{Y_{11}(1)|X}^{-1}(q)\),即处理组在后测期、条件于 \(X\) 下,未处理潜在结果与已处理潜在结果的第 \(q\) 分位数之差。

  • 模型(数据生成机制)

  • 观测数据为 \((Y_{i0}, Y_{i1}, X_i, G_i)\) 的两期面板或 \((Y_i, X_i, G_i, T_i)\) 的重复截面。
  • 核心识别假设(CDF 共同时间效应):对所有 \(y\)\(X\)
    \[F_{Y_{11}(0)|X}(y) - F_{Y_{10}(0)|X}(y) = F_{Y_{01}(0)|X}(y) - F_{Y_{00}(0)|X}(y)\]
    即两组在未处理潜在结果的 CDF 上的时间变化量相同。
  • 该假设等价于:两组未处理潜在结果的密度变化的净差异相同(作者原文:"the net change in the untreated outcome densities is common across treated and control groups")。
  • 当仅关注均值时,该假设退化为传统均值 DID 假设。

  • 可观测数据

  • 研究者实际能观测到的是:\(F_{Y_{10}|X}\)(处理组前测,此时未受处理,故 \(Y_{10}=Y_{10}(0)\))、\(F_{Y_{00}|X}\)(对照组前测,\(Y_{00}=Y_{00}(0)\))、\(F_{Y_{01}|X}\)(对照组后测,\(Y_{01}=Y_{01}(0)\))、\(F_{Y_{11}|X}\)(处理组后测,此时受处理,\(Y_{11}=Y_{11}(1)\))。
  • 想要但观测不到的\(F_{Y_{11}(0)|X}\)(处理组后测的未处理潜在结果分布)。这是识别的关键缺口,需靠上述假设从观测分布中"补出"。

第二步:讲最小内核

剥掉协变量调整与一般性技术假设,支撑整篇论文的最小内核是:在无协变量、两期、且 CDF 共同时间效应假设下,如何用经验 CDF 的逆变换估计 QTT,并证明其在离散结果变量下的一致性与弱收敛

  • 最简特例(无协变量 \(X\)
  • 识别:由 CDF 共同时间效应假设,\(F_{Y_{11}(0)}(y) = F_{Y_{10}}(y) + F_{Y_{01}}(y) - F_{Y_{00}}(y)\)。右侧三项均为可观测 CDF,故 \(F_{Y_{11}(0)}(y)\) 被识别。
  • QTT 识别:\(\tau_q = F_{Y_{11}(0)}^{-1}(q) - F_{Y_{11}}^{-1}(q)\),其中 \(F_{Y_{11}(0)}^{-1}(q)\) 由上述识别的 CDF 取逆得到。
  • 估计:用经验 CDF \(\hat{F}_{Y_{10}}, \hat{F}_{Y_{01}}, \hat{F}_{Y_{00}}\) 替换真实 CDF,构造 \(\hat{F}_{Y_{11}(0)}(y) = \hat{F}_{Y_{10}}(y) + \hat{F}_{Y_{01}}(y) - \hat{F}_{Y_{00}}(y)\),再取逆得 \(\hat{F}_{Y_{11}(0)}^{-1}(q)\),最终 \(\hat{\tau}_q = \hat{F}_{Y_{11}(0)}^{-1}(q) - \hat{F}_{Y_{11}}^{-1}(q)\)
  • 核心数学困难:当 \(Y\) 为离散变量时,经验 CDF 是阶梯函数,\(\hat{F}_{Y_{11}(0)}(y)\) 可能不在 \([0,1]\) 内(因加减运算),且其逆函数 \(\hat{F}_{Y_{11}(0)}^{-1}(q)\) 在跳跃点处不连续。传统分位数推断依赖分位数函数的连续可微性(如 Bahadur 表示),在离散情形下失效。
  • 本文破法:不依赖 Bahadur 表示,而是直接在 CDF 层面建立弱收敛(证明 \(\hat{F}_{Y_{11}(0)}\) 作为随机函数在 \(\ell^\infty(\mathbb{R})\) 中弱收敛到某个零均值高斯过程),然后利用分位数映射的连续性(Chernozhukov-Fernandez-Val-Melly 2013 的技术:若 CDF 过程弱收敛,则其逆映射在适当修改后也弱收敛),将 CDF 层面的弱收敛传递到分位数层面,从而绕过离散变量下逆函数不连续的障碍。

三、这篇论文做了什么

三句话: ①研究了在双重差分框架下,处理组的分位数处理效应(QTT)的识别与估计问题,允许协变量调整且兼容离散结果变量。 ②核心工具是基于 CDF 共同时间效应假设的识别公式,以及经验 CDF 逆变换估计量配合 Donsker 定理与分位数映射连续性。 ③主要结论是:该估计量在离散与连续结果变量下均一致且弱收敛,置信带对离散变量仍有效,且识别假设包容传统均值 DID。

关键设定与假设: - 设定:两期(\(t=0,1\))、两组(\(g=0,1\))面板或重复截面数据,协变量 \(X\) 可选。 - 假设 1(CDF 共同时间效应)\(F_{Y_{11}(0)|X}(y) - F_{Y_{10}(0)|X}(y) = F_{Y_{01}(0)|X}(y) - F_{Y_{00}(0)|X}(y)\)。统计含义:两组在未处理潜在结果的分布变化上平行。相比 CiC(要求单调潜在函数),此假设更弱且包容均值 DID;相比 Copula 路线(要求跨期相依结构相同),此假设仅要求 CDF 差相同,不涉及相依结构。 - 假设 2(无预期效应 / SUTVA 等):处理组在前测期未受处理影响(\(Y_{10}=Y_{10}(0)\)),对照组始终未受处理(\(Y_{0t}=Y_{0t}(0)\)),且个体处理不影响他人(SUTVA)。这些是 DID 标准假设,未放宽。 - 假设 3(协变量调整机制):本文允许 \(X\) 随时间变化,但识别公式中假设条件 CDF 的时间效应在给定 \(X\) 后相同。实际估计中,作者采用倾向得分分层线性概率模型调整来近似条件 CDF,而非直接估计高维非参数条件 CDF,这是技术上的实用选择而非理论必需。

主要结果: - 定理 1(识别):在假设 1-3 下,\(F_{Y_{11}(0)|X}(y)\) 由观测条件 CDF 唯一确定:\(F_{Y_{11}(0)|X}(y) = F_{Y_{10}|X}(y) + F_{Y_{01}|X}(y) - F_{Y_{00}|X}(y)\)。QTT \(\tau_q(x) = F_{Y_{11}(0)|X}^{-1}(q) - F_{Y_{11}|X}^{-1}(q)\) 被识别。 - 定理 2(一致性与弱收敛):估计量 \(\hat{F}_{Y_{11}(0)|X}(y)\)(基于经验条件 CDF 的加减)在 \(\ell^\infty(\mathbb{R})\) 中一致收敛到真实 \(F_{Y_{11}(0)|X}(y)\),且作为随机过程弱收敛到零均值高斯过程。关键必要条件是经验 CDF 过程属于 Donsker 类(对离散/连续变量均成立)。 - 定理 3(QTT 估计量的弱收敛与置信带)\(\hat{\tau}_q(x)\)\(q \in [\epsilon, 1-\epsilon]\) 上弱收敛到零均值高斯过程,且基于 bootstrap 的同时置信带对离散变量仍有效。技术难点在于:离散变量下逆函数不连续,传统 delta 方法失效;本文利用 Chernozhukov-Fernandez-Val-Melly (2013) 的"分位数映射连续性"技术,将 CDF 过程的弱收敛直接传递到分位数过程,无需逆函数可微。

证明路线与技术技巧: - 整体路线: 1. 识别:将 \(F_{Y_{11}(0)|X}\) 表达为观测条件 CDF 的线性组合。 2. 估计:用经验条件 CDF(或倾向得分调整后的经验 CDF)替换真实条件 CDF,构造 \(\hat{F}_{Y_{11}(0)|X}\)。 3. CDF 过程弱收敛:证明经验 CDF 过程属于 Donsker 类,其线性组合亦属于 Donsker 类,故 \(\hat{F}_{Y_{11}(0)|X} - F_{Y_{11}(0)|X}\)\(\ell^\infty(\mathbb{R})\) 中弱收敛到高斯过程。 4. 分位数映射传递:利用 Chernozhukov-Fernandez-Val-Melly (2013) 的定理(若 CDF 过程弱收敛且真实 CDF 左连续,则修改后的逆映射过程也弱收敛),将 CDF 层面的弱收敛传递到 QTT 估计量。 5. 置信带:用 bootstrap 逼近 QTT 过程的分布,构造同时置信带。 - 关键跳跃点: - 从 CDF 弱收敛到分位数弱收敛的跳跃。难点在于 \(\hat{F}_{Y_{11}(0)|X}\) 可能不在 \([0,1]\) 内(因经验 CDF 加减),且离散变量下逆函数不连续。作者通过修改逆映射定义(对超出 \([0,1]\) 的部分取边界值,对跳跃点取左极限)并引用 CFM2013 的连续性定理,绕过此障碍。 - 技术技巧点名: - Donsker 定理 / 经验过程理论:用于证明经验 CDF 过程及其线性组合在 \(\ell^\infty(\mathbb{R})\) 中的弱收敛。这是整个推断的地基。 - 分位数映射连续性(Chernozhukov-Fernandez-Val-Melly 2013):用于将 CDF 过程的弱收敛传递到分位数过程,无需逆函数可微。这是处理离散变量的关键。 - Bootstrap 逼近:用于构造同时置信带,逼近 QTT 过程的分布。 - 倾向得分分层 / 线性调整:用于近似条件 CDF,避免高维非参数估计。这是协变量调整的实用技巧,非理论核心。

真实例子与应用: - 数据 / 场景:美国劳动所得税抵免(EITC)对出生体重的影响。EITC 在 1993 年扩展,增加对有子女家庭的税收抵免;处理组为有子女家庭(\(G=1\)),对照组为无子女家庭(\(G=0\));前测期为 1991-1992,后测期为 1994-1995。 - 怎么用上去:将出生体重作为结果变量 \(Y\)(连续但可离散化为克数),母亲特征(年龄、教育、婚姻等)为协变量 \(X\)。用本文 DID-QTT 方法估计 EITC 扩展对出生体重分布各分位数的影响,并与均值 DID-ATT 对比。 - 得到什么结果:EITC 扩展对出生体重的低分位数(如 10th、25th percentile)有正效应(增加约 50-100 克),对高分位数效应较小或无显著效应。均值 ATT 约为 30 克,但 QTT 显示分布底部的改善大于均值。 - 想说明什么:展示本文方法能揭示均值 DID 无法捕捉的分布异质性效应,且置信带在出生体重(可视为离散化连续变量)下有效。

🔎 结论是否比证明窄: - 作者在 intro 中 claim"本文假设兼容均值 DID 且比 CiC 更弱",这在逻辑上成立(均值 DID 是本文假设的特例),但未讨论本文假设与 CiC 假设在重叠条件下的识别差异——若数据既满足 CiC 又满足本文假设,两者识别的 QTT 是否一致?若不一致,哪个更可信?此点在理论部分未证明,仅在 intro 中泛泛提及。 - 作者 claim"置信带对离散变量有效",这在定理中严格证明(基于 CFM2013 的修改逆映射),但未讨论当 \(\hat{F}_{Y_{11}(0)|X}(y)\) 大幅超出 \([0,1]\) 时(如样本量小或分布差异大时),修改逆映射的偏差对置信带覆盖率的影响——定理假设了 \(\hat{F}\) 超出 \([0,1]\) 的部分可被边界截断而不影响弱收敛,但截断带来的有限样本偏差未量化。


四、开放问题(点到为止,扎根具体语句)

  1. 多期扩展下的识别与推断:本文仅处理两期设定。在多期(\(T>2\))且处理时间交错(staggered adoption)下,CDF 共同时间效应假设如何定义?是否需假设每对相邻期之间的 CDF 差相同?扎根点:intro 第 2 段"we consider a two-period setting",未提及多期;近期 Callaway-2021 等已处理多期均值 DID,但多期分布 DID 仍缺统一框架。

  2. 半参数效率界与最优估计量:本文估计量为经验 CDF 的线性组合逆变换,未讨论其在半参数模型下的效率性质。在 CDF 共同时间效应假设下,QTT 的半参数效率界是什么?本文估计量是否达到该界?扎根点:全文未引用 HOIF 或半参数效率文献,理论部分仅建立一致性与弱收敛,未涉及效率。

  3. 假设偏离下的敏感性:若 CDF 共同时间效应假设部分失效(如两组 CDF 差相差一个常数 \(\delta\)),QTT 识别的偏差如何量化?扎根点:intro 第 3 段"our model assumes a common time effect on the CDFs",未讨论敏感性分析;近期均值 DID 的敏感性分析(如 Rambachan-Roth 2023)已发展,但分布 DID 的敏感性分析仍缺。

  4. 与 CiC 假设的识别冲突与统一:在既满足 CiC 又满足本文假设的数据生成机制下,两者识别的 QTT 是否一致?若不一致,哪个假设更可信?扎根点:intro 第 4 段"unlike the CiC model, our model is compatible with the usual DID assumption",仅指出包容关系,未讨论重叠条件下的识别差异。要确认此点是否真 gap,去读 Athey-Imbens 2006 及近期分布 DID 的 5 篇 intro——若都回避此问题,则是共识缺口。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论