Difference-in-Differences Estimator of Quantile Treatment Effect on the Treated¶

作者: Doosoo Kim, Jeffrey M. Wooldridge
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1080/07350015.2024.2388643

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在观测数据且仅有两期（前测-后测）面板/重复截面数据的设定下，如何识别与估计处理组（treated group）潜在结果分布的跨时间变化，进而提取分布层面的因果效应（如分位数处理效应 QTT），而非仅仅停留在均值层面（ATE/ATT）。当前该方向已从早期的均值 DID 走向分布 DID，成熟度中等：识别条件已有数条竞争路线（Copula、CiC、基于秩等），但各自对分布形状或协变量调整的假设限制不同，尚未形成像均值 DID 那样统一且宽松的共识框架。

发展脉络（history）： - 奠基工作（均值 DID）：传统 DID（Ashenfelter-1978, Card-1990）仅识别 ATT，其核心假设是"处理组与对照组在未处理潜在结果的均值上具有共同时间趋势"。它留下了分布效应无法识别的口子。 - 主要进展（分布 DID 的早期路线）： - Athey-Imbens (2006) 提出 Changes-in-Changes (CiC) 模型，首次从分布层面识别 QTT。其假设是：未处理潜在结果由一个严格单调的潜在函数生成，且该函数对两组相同。作者在 intro 中明确指出 CiC 的局限："CiC 模型与均值 DID 假设不兼容，且难以自然地引入协变量调整"。 - Melly-2005, Chernozhukov-Fernandez-Val-Melly (2013) 等发展了基于 Copula 或秩的分布 DID，假设两组未处理潜在结果的跨期相依结构（Copula）相同。作者指出这类方法"通常要求结果变量连续，且置信带在离散变量下失效"。 - 当前 frontier 与本文位置：近期分布 DID 的 frontier 在于放宽分布形状假设（如不要求单调性或特定 Copula）与允许协变量调整。本文（Kim-Wooldridge 2024）定位在：提出一个基于 CDF 共同时间效应的假设，它既兼容均值 DID，又允许协变量，且对离散结果变量有效。

子线索聚类： 1. 基于潜在函数 / 单调性路线（CiC 及其变体）：假设存在一个单调函数 \(h\) 使得 \(Y_{it}(0) = h(Y_{i, t-1}(0), G_i)\)，且 \(h\) 不依赖 \(G_i\)。这簇工作识别力强，但假设限制大，且与均值 DID 平行而非包容。 2. 基于秩 / Copula 路线（Rank DID / Quantile DID）：假设两组在未处理潜在结果的跨期秩不变或 Copula 相同。这簇工作对连续变量有效，但处理离散变量时秩/Copula 定义模糊，置信带构造困难。 3. 基于 CDF 时间效应路线（本文所属）：假设两组在未处理潜在结果的 CDF 上具有共同时间效应（\(F_{Y_{11}(0)|X}(y) - F_{Y_{10}(0)|X}(y) = F_{Y_{01}(0)|X}(y) - F_{Y_{00}(0)|X}(y)\)）。这簇工作直接在 CDF 层面做 DID，包容均值 DID，且协变量调整可通过条件 CDF 自然引入。

这个方向在追问的核心问题： 1. 识别：在仅有两期数据且无严格单调性/Copula 假设下，处理组的未处理潜在结果分布 \(F_{Y_{11}(0)|X}\) 能否被观测分布唯一确定？条件是什么？ 2. 估计与推断：如何基于经验 CDF 构造 QTT 估计量？在离散结果变量下，经验分位数函数不连续，如何保证估计量的一致性与弱收敛？如何构造对离散变量仍有效的置信带？ 3. 协变量调整：如何将分布 DID 的识别假设扩展到条件于协变量 \(X\) 的情形，且估计量不依赖高维非参数条件 CDF 的精确估计？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成：现有分布 DID 方法（CiC、Copula 路线）要么与均值 DID 不兼容，要么难以引入协变量，要么在离散结果下失效。本文的 CDF 时间效应假设"显然"是均值 DID 在分布层面的自然推广，且直接解决上述三个痛点。 - 被淡化或回避的竞争路线：作者未深入讨论基于秩保持（rank preservation）的分布 DID（如 Athey-Imbens 2006 的秩版本）在离散变量下的近期修正工作，也未对比半参数分布 DID（如 Callaway-Li-2023 等在多期设定下的工作）。 - 明显该被引 / 该存在却未出现在 intro 里的：多期（multi-period）分布 DID 的近期进展（如 Callaway-2021 等），以及半参数效率界在分布 DID 中的理论（本文未讨论估计量的效率性质，也未引用 HOIF 或半参数效率相关文献）。这值得研究者去查：是因两期设定下效率界已知而省略，还是确实未被讨论？

张力：未见明显对立引用。CiC 与本文假设在不同条件下识别不同对象，但作者指出本文假设包容均值 DID 而 CiC 不包容，这是一个逻辑上的包含关系而非矛盾。不过，值得核查：在既满足 CiC 又满足本文假设的数据生成机制下，两者识别的 QTT 是否一致？若不一致，则存在张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号与潜在量：
\(G_i \in \{0, 1\}\)：分组指示，\(G_i=1\) 为处理组，\(G_i=0\) 为对照组。
\(T_i \in \{0, 1\}\)：时间指示，\(T_i=0\) 为前测期，\(T_i=1\) 为后测期。
\(D_i = G_i \cdot T_i\)：处理指示，仅当处理组在后测期时 \(D_i=1\)。
\(Y_{it}(d)\)：个体 \(i\) 在时间 \(t\) 的潜在结果，\(d \in \{0, 1\}\) 为处理状态。
\(Y_{it}\)：可观测结果，\(Y_{it} = D_i Y_{it}(1) + (1-D_i) Y_{it}(0)\)。
\(X_i\)：协变量（可随时间变化，记为 \(X_{it}\)，但本文核心设定中假设其不随时间变化或仅用基期 \(X_{i0}\)）。
\(F_{Y_{gt}(0)|X}(y)\)：分组 \(g\)、时间 \(t\)、条件于 \(X\) 的未处理潜在结果的 CDF。
QTT（目标 estimand）：\(\tau_q = F_{Y_{11}(0)|X}^{-1}(q) - F_{Y_{11}(1)|X}^{-1}(q)\)，即处理组在后测期、条件于 \(X\) 下，未处理潜在结果与已处理潜在结果的第 \(q\) 分位数之差。
模型（数据生成机制）：
观测数据为 \((Y_{i0}, Y_{i1}, X_i, G_i)\) 的两期面板或 \((Y_i, X_i, G_i, T_i)\) 的重复截面。
核心识别假设（CDF 共同时间效应）：对所有 \(y\) 和 \(X\)，
\[F_{Y_{11}(0)|X}(y) - F_{Y_{10}(0)|X}(y) = F_{Y_{01}(0)|X}(y) - F_{Y_{00}(0)|X}(y)\]
即两组在未处理潜在结果的 CDF 上的时间变化量相同。
该假设等价于：两组未处理潜在结果的密度变化的净差异相同（作者原文："the net change in the untreated outcome densities is common across treated and control groups"）。
当仅关注均值时，该假设退化为传统均值 DID 假设。
可观测数据：
研究者实际能观测到的是：\(F_{Y_{10}|X}\)（处理组前测，此时未受处理，故 \(Y_{10}=Y_{10}(0)\)）、\(F_{Y_{00}|X}\)（对照组前测，\(Y_{00}=Y_{00}(0)\)）、\(F_{Y_{01}|X}\)（对照组后测，\(Y_{01}=Y_{01}(0)\)）、\(F_{Y_{11}|X}\)（处理组后测，此时受处理，\(Y_{11}=Y_{11}(1)\)）。
想要但观测不到的：\(F_{Y_{11}(0)|X}\)（处理组后测的未处理潜在结果分布）。这是识别的关键缺口，需靠上述假设从观测分布中"补出"。

第二步：讲最小内核

剥掉协变量调整与一般性技术假设，支撑整篇论文的最小内核是：在无协变量、两期、且 CDF 共同时间效应假设下，如何用经验 CDF 的逆变换估计 QTT，并证明其在离散结果变量下的一致性与弱收敛。

最简特例（无协变量 \(X\)）：
识别：由 CDF 共同时间效应假设，\(F_{Y_{11}(0)}(y) = F_{Y_{10}}(y) + F_{Y_{01}}(y) - F_{Y_{00}}(y)\)。右侧三项均为可观测 CDF，故 \(F_{Y_{11}(0)}(y)\) 被识别。
QTT 识别：\(\tau_q = F_{Y_{11}(0)}^{-1}(q) - F_{Y_{11}}^{-1}(q)\)，其中 \(F_{Y_{11}(0)}^{-1}(q)\) 由上述识别的 CDF 取逆得到。
估计：用经验 CDF \(\hat{F}_{Y_{10}}, \hat{F}_{Y_{01}}, \hat{F}_{Y_{00}}\) 替换真实 CDF，构造 \(\hat{F}_{Y_{11}(0)}(y) = \hat{F}_{Y_{10}}(y) + \hat{F}_{Y_{01}}(y) - \hat{F}_{Y_{00}}(y)\)，再取逆得 \(\hat{F}_{Y_{11}(0)}^{-1}(q)\)，最终 \(\hat{\tau}_q = \hat{F}_{Y_{11}(0)}^{-1}(q) - \hat{F}_{Y_{11}}^{-1}(q)\)。
核心数学困难：当 \(Y\) 为离散变量时，经验 CDF 是阶梯函数，\(\hat{F}_{Y_{11}(0)}(y)\) 可能不在 \([0,1]\) 内（因加减运算），且其逆函数 \(\hat{F}_{Y_{11}(0)}^{-1}(q)\) 在跳跃点处不连续。传统分位数推断依赖分位数函数的连续可微性（如 Bahadur 表示），在离散情形下失效。
本文破法：不依赖 Bahadur 表示，而是直接在 CDF 层面建立弱收敛（证明 \(\hat{F}_{Y_{11}(0)}\) 作为随机函数在 \(\ell^\infty(\mathbb{R})\) 中弱收敛到某个零均值高斯过程），然后利用分位数映射的连续性（Chernozhukov-Fernandez-Val-Melly 2013 的技术：若 CDF 过程弱收敛，则其逆映射在适当修改后也弱收敛），将 CDF 层面的弱收敛传递到分位数层面，从而绕过离散变量下逆函数不连续的障碍。

三、这篇论文做了什么¶

三句话： ①研究了在双重差分框架下，处理组的分位数处理效应（QTT）的识别与估计问题，允许协变量调整且兼容离散结果变量。 ②核心工具是基于 CDF 共同时间效应假设的识别公式，以及经验 CDF 逆变换估计量配合 Donsker 定理与分位数映射连续性。 ③主要结论是：该估计量在离散与连续结果变量下均一致且弱收敛，置信带对离散变量仍有效，且识别假设包容传统均值 DID。

关键设定与假设： - 设定：两期（\(t=0,1\)）、两组（\(g=0,1\)）面板或重复截面数据，协变量 \(X\) 可选。 - 假设 1（CDF 共同时间效应）：\(F_{Y_{11}(0)|X}(y) - F_{Y_{10}(0)|X}(y) = F_{Y_{01}(0)|X}(y) - F_{Y_{00}(0)|X}(y)\)。统计含义：两组在未处理潜在结果的分布变化上平行。相比 CiC（要求单调潜在函数），此假设更弱且包容均值 DID；相比 Copula 路线（要求跨期相依结构相同），此假设仅要求 CDF 差相同，不涉及相依结构。 - 假设 2（无预期效应 / SUTVA 等）：处理组在前测期未受处理影响（\(Y_{10}=Y_{10}(0)\)），对照组始终未受处理（\(Y_{0t}=Y_{0t}(0)\)），且个体处理不影响他人（SUTVA）。这些是 DID 标准假设，未放宽。 - 假设 3（协变量调整机制）：本文允许 \(X\) 随时间变化，但识别公式中假设条件 CDF 的时间效应在给定 \(X\) 后相同。实际估计中，作者采用倾向得分分层或线性概率模型调整来近似条件 CDF，而非直接估计高维非参数条件 CDF，这是技术上的实用选择而非理论必需。

主要结果： - 定理 1（识别）：在假设 1-3 下，\(F_{Y_{11}(0)|X}(y)\) 由观测条件 CDF 唯一确定：\(F_{Y_{11}(0)|X}(y) = F_{Y_{10}|X}(y) + F_{Y_{01}|X}(y) - F_{Y_{00}|X}(y)\)。QTT \(\tau_q(x) = F_{Y_{11}(0)|X}^{-1}(q) - F_{Y_{11}|X}^{-1}(q)\) 被识别。 - 定理 2（一致性与弱收敛）：估计量 \(\hat{F}_{Y_{11}(0)|X}(y)\)（基于经验条件 CDF 的加减）在 \(\ell^\infty(\mathbb{R})\) 中一致收敛到真实 \(F_{Y_{11}(0)|X}(y)\)，且作为随机过程弱收敛到零均值高斯过程。关键必要条件是经验 CDF 过程属于 Donsker 类（对离散/连续变量均成立）。 - 定理 3（QTT 估计量的弱收敛与置信带）：\(\hat{\tau}_q(x)\) 在 \(q \in [\epsilon, 1-\epsilon]\) 上弱收敛到零均值高斯过程，且基于 bootstrap 的同时置信带对离散变量仍有效。技术难点在于：离散变量下逆函数不连续，传统 delta 方法失效；本文利用 Chernozhukov-Fernandez-Val-Melly (2013) 的"分位数映射连续性"技术，将 CDF 过程的弱收敛直接传递到分位数过程，无需逆函数可微。

证明路线与技术技巧： - 整体路线： 1. 识别：将 \(F_{Y_{11}(0)|X}\) 表达为观测条件 CDF 的线性组合。 2. 估计：用经验条件 CDF（或倾向得分调整后的经验 CDF）替换真实条件 CDF，构造 \(\hat{F}_{Y_{11}(0)|X}\)。 3. CDF 过程弱收敛：证明经验 CDF 过程属于 Donsker 类，其线性组合亦属于 Donsker 类，故 \(\hat{F}_{Y_{11}(0)|X} - F_{Y_{11}(0)|X}\) 在 \(\ell^\infty(\mathbb{R})\) 中弱收敛到高斯过程。 4. 分位数映射传递：利用 Chernozhukov-Fernandez-Val-Melly (2013) 的定理（若 CDF 过程弱收敛且真实 CDF 左连续，则修改后的逆映射过程也弱收敛），将 CDF 层面的弱收敛传递到 QTT 估计量。 5. 置信带：用 bootstrap 逼近 QTT 过程的分布，构造同时置信带。 - 关键跳跃点： - 从 CDF 弱收敛到分位数弱收敛的跳跃。难点在于 \(\hat{F}_{Y_{11}(0)|X}\) 可能不在 \([0,1]\) 内（因经验 CDF 加减），且离散变量下逆函数不连续。作者通过修改逆映射定义（对超出 \([0,1]\) 的部分取边界值，对跳跃点取左极限）并引用 CFM2013 的连续性定理，绕过此障碍。 - 技术技巧点名： - Donsker 定理 / 经验过程理论：用于证明经验 CDF 过程及其线性组合在 \(\ell^\infty(\mathbb{R})\) 中的弱收敛。这是整个推断的地基。 - 分位数映射连续性（Chernozhukov-Fernandez-Val-Melly 2013）：用于将 CDF 过程的弱收敛传递到分位数过程，无需逆函数可微。这是处理离散变量的关键。 - Bootstrap 逼近：用于构造同时置信带，逼近 QTT 过程的分布。 - 倾向得分分层 / 线性调整：用于近似条件 CDF，避免高维非参数估计。这是协变量调整的实用技巧，非理论核心。

真实例子与应用： - 数据 / 场景：美国劳动所得税抵免（EITC）对出生体重的影响。EITC 在 1993 年扩展，增加对有子女家庭的税收抵免；处理组为有子女家庭（\(G=1\)），对照组为无子女家庭（\(G=0\)）；前测期为 1991-1992，后测期为 1994-1995。 - 怎么用上去：将出生体重作为结果变量 \(Y\)（连续但可离散化为克数），母亲特征（年龄、教育、婚姻等）为协变量 \(X\)。用本文 DID-QTT 方法估计 EITC 扩展对出生体重分布各分位数的影响，并与均值 DID-ATT 对比。 - 得到什么结果：EITC 扩展对出生体重的低分位数（如 10th、25th percentile）有正效应（增加约 50-100 克），对高分位数效应较小或无显著效应。均值 ATT 约为 30 克，但 QTT 显示分布底部的改善大于均值。 - 想说明什么：展示本文方法能揭示均值 DID 无法捕捉的分布异质性效应，且置信带在出生体重（可视为离散化连续变量）下有效。

🔎 结论是否比证明窄： - 作者在 intro 中 claim"本文假设兼容均值 DID 且比 CiC 更弱"，这在逻辑上成立（均值 DID 是本文假设的特例），但未讨论本文假设与 CiC 假设在重叠条件下的识别差异——若数据既满足 CiC 又满足本文假设，两者识别的 QTT 是否一致？若不一致，哪个更可信？此点在理论部分未证明，仅在 intro 中泛泛提及。 - 作者 claim"置信带对离散变量有效"，这在定理中严格证明（基于 CFM2013 的修改逆映射），但未讨论当 \(\hat{F}_{Y_{11}(0)|X}(y)\) 大幅超出 \([0,1]\) 时（如样本量小或分布差异大时），修改逆映射的偏差对置信带覆盖率的影响——定理假设了 \(\hat{F}\) 超出 \([0,1]\) 的部分可被边界截断而不影响弱收敛，但截断带来的有限样本偏差未量化。

四、开放问题（点到为止，扎根具体语句）¶

多期扩展下的识别与推断：本文仅处理两期设定。在多期（\(T>2\)）且处理时间交错（staggered adoption）下，CDF 共同时间效应假设如何定义？是否需假设每对相邻期之间的 CDF 差相同？扎根点：intro 第 2 段"we consider a two-period setting"，未提及多期；近期 Callaway-2021 等已处理多期均值 DID，但多期分布 DID 仍缺统一框架。
半参数效率界与最优估计量：本文估计量为经验 CDF 的线性组合逆变换，未讨论其在半参数模型下的效率性质。在 CDF 共同时间效应假设下，QTT 的半参数效率界是什么？本文估计量是否达到该界？扎根点：全文未引用 HOIF 或半参数效率文献，理论部分仅建立一致性与弱收敛，未涉及效率。
假设偏离下的敏感性：若 CDF 共同时间效应假设部分失效（如两组 CDF 差相差一个常数 \(\delta\)），QTT 识别的偏差如何量化？扎根点：intro 第 3 段"our model assumes a common time effect on the CDFs"，未讨论敏感性分析；近期均值 DID 的敏感性分析（如 Rambachan-Roth 2023）已发展，但分布 DID 的敏感性分析仍缺。
与 CiC 假设的识别冲突与统一：在既满足 CiC 又满足本文假设的数据生成机制下，两者识别的 QTT 是否一致？若不一致，哪个假设更可信？扎根点：intro 第 4 段"unlike the CiC model, our model is compatible with the usual DID assumption"，仅指出包容关系，未讨论重叠条件下的识别差异。要确认此点是否真 gap，去读 Athey-Imbens 2006 及近期分布 DID 的 5 篇 intro——若都回避此问题，则是共识缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub

Difference-in-Differences Estimator of Quantile Treatment Effect on the Treated¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论