跳转至

Double-Robust Two-Way-Fixed-Effects Regression For Panel Data

讲者: Lihua Lei
讨论人: Jeffrey Wooldridge
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-04
主题: 因果推断
视频: https://youtu.be/z4MXrYFDlQg · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2107.13737 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

方向:面板数据因果推断中的双向固定效应(TWFE)回归及其鲁棒化

在面板数据因果推断中,一个核心追问是:当处理状态随时间变化、且处理效应可能存在异质性时,如何从观测数据中可靠地估计平均处理效应?传统方法——TWFE回归(即控制单位固定效应、时间固定效应、处理指示变量的OLS)——曾是行业标准,尤其在双重差分(DiD)设置中。然而,自2017年以来的一系列工作指出,TWFE估计量在以下情形下会扭曲:处理效应随时间或单位变化(异质性)、处理模式非“完美交错”(staggered adoption)或存在同期群效应,此时估计量不再是某个有意义的加总处理效应(如ATE),而是混入了负权重(如 Goodman-Bacon '21de Chaisemartin & d'Haultfoeuille '20Borusyak, Jaravel & Spiess '21Callaway & Sant'Anna '21Sun & Abraham '21)。

现有解法大致分两派:(a)识别导向:通过分组 / 事件研究设计(event study)定义并估计可解释的“同期群 - 时间 ATT”,例如 Callaway & Sant'Anna('21)、Sun & Abraham('21);(b)加权 / 匹配导向:对单位加权以恢复平行趋势或处理组间平衡,例如 Arkhangelsky et al. '21(the synthetic DiD paper)、Borusyak et al. '21(imputation-based)。这些方法大多限定于交错采纳设定(处理一旦进入便不退出)。

这场报告站位: 讲者(Lihua Lei)及其合作者(Dmitry Arkhangelsky, Guido Imbens, Xiaoman Luo)主张即使在 完全一般的处理模式(单位可在任意时间进入或退出处理)下,TWFE 框架也未被完全理解。他们开辟了一条不同于现有路线的方案:

  • 不丢弃TWFE结构,而是将逆概率加权(IPW)思想融入TWFE回归目标函数——通过重写TWFE OLS目标,用广义倾向得分的倒数加权重构,使估计量收敛到用户指定权重的“双重平均处理效应”(Doubly Average Treatment Effect, DATE)。
  • 由此推出一类新估计量:RIPW-TWFE(Reshaped IPW TWFE),它有两层关键性质:
    1. 设计基推断:若处理分配机制(广义倾向得分)已知,则RIPW-TWFE对任意异质固定潜在结果一致且可做有效推断(有限总体框架,允许单位间相关设计)。
    2. 双重稳健性:在观测研究中,若处理分配模型或TWFE模型(线性、常数效应)中有一个正确指定,则RIPW-TWFE一致估计DATE;且偏差为两个建模误差的乘积(“强”双重稳健)。

关键先行工作(确认性): - Arkhangelsky, Imbens, Lei & Luo (2021),即本报告直接对应的论文(arXiv:2107.13737)。 - 处理分配一般模式下的交叉界面 IPW-TWFE的直观例子:Imbens (2000) 的广义倾向得分。 - 常规双重稳健(AIPW)在面板 / DiD的应用:Sant'Anna & Zhao (2020)——但本报告的“双重稳健”不同于那种(不需要条件平行趋势,但要求TWFE模型)。

关键的术语 / 人名确认:转写中[0:01:14]提到的合作者"Demetri Kasyoki"(应为Dmitry Arkhangelsky / CEMFI)、"Hedo Impens"(Guido Imbens / Stanford)、"Shawn Ma Lu"(Xiaoman Luo / UC Davis)。[0:59:50] "Santana-Jao" 应为Sant'Anna & Zhao


二、最小内核 / 一个最简例子

符号与模型(已核对幻灯片)

  • 面板数据: \( n \) 个单位,\( T \) 个时间点;\( T \) 固定(比大T处理更难——单位固定效应无法一致估计)。
  • 可观测:
    • 二元处理指示变量 \( W_{it} \in \{0,1\} \);每个单位有一个处理路径向量 \( \mathbf{W}_i = (W_{i1},\dots,W_{iT}) \)
    • 潜在结果式: 对每个单位-时间对 \( (i,t) \),有 \( (Y_{it}(1), Y_{it}(0)) \)(视为固定值,无模型), 观测结果 \( Y_{it} = Y_{it}(W_{it}) \)(SUTVA,仅依赖当期处理)。
    • 单位-时间特定效应: \( \tau_{it} = Y_{it}(1) - Y_{it}(0) \)——可以任意异质
  • 广义倾向得分(GPT)\( \pi_i(\mathbf{w}) = \Pr(\mathbf{W}_i = \mathbf{w}) \),是处理路径的分布。
  • 目标 estimand: 双重平均处理效应(DATE)
    \[\tau(\xi) = \sum_{t=1}^{T} \xi_t \cdot \frac{1}{n} \sum_{i=1}^{n} \tau_{it}\]
    其中 \( \xi = (\xi_1, \dots, \xi_T) \) 是用户指定的时间权重(非负、和为1)。 最简特例: 等权 DATE \( \tau_{\text{eq}} = \frac{1}{nT} \sum_{i=1}^n \sum_{t=1}^T \tau_{it} \)。本报告主要围绕等权DATE展开。

最简直觉:为什么要RIPW IPW-TWFE?

用一个\( n \) 个州,\( T=3 \)的例子,处理是暂态:每个州最多只处理一次(如某个促销券只有一个;或一次自然事件)。 支持集 \( S = \{(0,0,0), (0,0,1), (0,1,0), (1,0,0)\} \)

  • 朴素IPW-TWFE: 对TWFE目标函数中的每一项使用权重 \( 1/\pi_i(\mathbf{W}_i) \)。幻灯片与转写均标明,在此例下IPW-TWFE估计量会收敛到 \( \frac{1}{3}\tau_1 + \frac{1}{3}\tau_2 + \frac{1}{3}\tau_3 = \tau_{\text{eq}} \)([0:12:48 - 0:13:37])。好极了——IPW自然地恢复了一个可解释的DATE。

  • 但若换成交错采纳(staggered rollout):支持集 \( S' = \{(0,0,0), (0,0,1), (0,1,1), (1,1,1)\} \)。 IPW-TWFE收敛到的DATE权重不再是等权,而是变为 \((0.3, 0.4, 0.3)\)(幻灯与转写[0:14:26 - 0:14:42])。虽然仍是DATE,但权重不可解释(大部分在中间,两端几乎无权重)。用户想要等权DATE,但IPW给出的权重被数据支持结构强制规定。

RIPW解决问题:引入一个用户选择的数据无关分布 \( \Pi \) 在支持集 \( S \) 上。RIPW-TWFE估计量定义为:

\[\hat{\tau}_{\text{RIPW}}(\Pi) = \arg\min_{\tau} \sum_{i=1}^n \sum_{t=1}^T (Y_{it} - \alpha_i - \lambda_t - W_{it}\tau)^2 \cdot \frac{\Pi(\mathbf{W}_i)}{\pi_i(\mathbf{W}_i)}\]
(去掉IPW中的 \( \pi_i \),替换为 \( \Pi \))。只要选择适当的 \( \Pi \) 满足一组二次方程(DATE方程,纯基于支持集 \( S \) 而非数据),RIPW就可以收敛到用户想要的DATE(如等权DATE)。在交错范例中,存在一族 \( \Pi \)(两个解的凸组合,公式见幻灯片)使RIPW-TWFE收敛到等权DATE——而均匀 \( \Pi \) 不满足条件,解释了IPW为何失败。

RIPW的经济解释:当 \( \pi_i = \Pi \)(随机化实验),RIPW退化为普通TWFE。因此DATE方程也刻画了:在哪些完全随机化实验下,普通TWFE“有意识地”估计一个用户指定的DATE。


三、报告主体:讲者讲了什么

第一部分:DATE, RIPW与设计基推断 [0:00:53 - 0:30:56]

讲者内容: - 动机[0:00:53-0:03:45]: 回顾TWFE模型及其在异质效应 / 平行趋势违反下的偏倚,列举近年大量替代方法。核心问题:“TWFE是否被完全理解?”——答案是否定的。 - 设置[0:06:01-0:08:22]: 定义符号。强调 \( T \) 固定(因单位FE不可一致估计),潜在结果为固定值(有限总体),SUTVA(潜在结果仅依赖当期处理)。给出DATE公式。 - 从IPW到IPW-TWFE[0:10:20-0:12:47]: 演示标准横截面IPW(Hájek估计量)等价于一个加权LS(用 \( 1/\pi(W_i) \) 重写LS目标)。将此想法扩展到面板:将LS目标替换为TWFE目标,得到IPW-TWFE估计量。 - IPW-TWFE收敛到哪里?[0:12:48-0:15:36]: 用两个 \( T=3 \) 的例子(暂态 / 交错)展示IPW-TWFE收敛到的DATE权重是数据决定的(权重 \( \propto \eta_t(1-\eta_t) \),其中 \( \eta_t = \frac{|\mathbf{w} \in S: w_t=1|}{|S|} \))。在交错中权重不可解释,激励RIPW。 - RIPW与DATE方程[0:17:42-0:23:30]: 提出RIPW估计量,引入 \( \Pi \)。定理:RIPW-TWFE收敛到DATE(\( \xi \))当且仅当 \( \Pi \) 满足一个纯基于支持集 \( S \) 的二次方程组(DATE方程)。该方程有线性约束(simplex, nonnegativity),对许多常见设定(DiD、暂态、交错、交叉设计)有封闭解,其他可用BFGS求解。 - 转写中[0:20:03-0:20:18]约略提到“cryptic equation”——具体形式见幻灯片中的DATE equation:

\[\mathbb{E}_{W\sim\Pi}\left[ (\text{diag}(W) - \xi W^\top) J (W - \mathbb{E}_{W\sim\Pi}[W]) \right] = 0\]
其中 \( J = I - \frac{1}{T} \mathbf{1}_T \mathbf{1}_T^\top \)(投影到零和向量)。讲者仅以此展示方程仅依赖支持集而不依赖数据。 - 对等权DATE (\( \xi_t = 1/T \))在3-period暂态中,\( \Pi \) 的解是 \( \lambda(1,0,0,0) + (1-\lambda)(0,1/3,1/3,1/3) \),均匀分布是一个解。 - 在3-period交错中,均匀分布不是解,但存在两个解(幻灯片给出具体权重)。 - 设计基推断[0:27:54-0:29:11]: 基于RIPW估计量的渐近线性表示,可构造Asymptotically Conservative真实方差和Wald置信区间。适用于伯努利设计、无放回抽样、整群随机化、两阶段随机化等。这与RIPW“降维”为横截面问题的机理有关。 - 关于“负权重”的澄清[0:29:12-0:30:52]: 讲者强调,经典文献中说TWFE有“负权重”是在给定处理分配的条件下(设计固定)讨论的,而本报告将\( W_i \)视为随机变量。因此“负权重”是条件于固定分配的负权重,非平均意义。RIPW的解保证了非负权重。

参与者Q&A: - [0:21:49] 提问(动态效应)及讲者回答:本报告处理静态设定(潜在结果仅依赖当期 \( W_t \)),但短程动态是可扩展的工作方向。 - [0:23:39] 提问(DATE方程解集的约束与选择):讲者指出可对 \( \Pi \) 施加额外约束(如方差最小化)来选解,只要选择不依赖数据。 - [0:24:40] 提问(RIPW权重的极端值):如同横截面IPW,极端 \( \Pi \) 对应极端广义倾向得分,可通过剪裁或倚重结果模型解决。

第二部分:RIPW的双重稳健性[0:31:00 - 0:40:22]

讲者内容: - 引入协变量[0:31:00-0:32:32]: 引入可能时变协变量 \( X_i \),假设潜在可忽略性(latent ignorability,包含严格外生性/可忽略性作为特例)。 - 估计分配模型与结果模型[0:32:32-0:34:06]: - 分配模型:交错设置中用Cox比例风险模型估计生存函数,利用差异计算 \( \hat{\pi}_i(\mathbf{W}_i) \);一般设计可用离散马尔可夫模型 / 条件逻辑模型。 - 结果模型:利用线性TWFE模型 \( Y_{it} = \alpha_i + \lambda_t + X_{it}^\top\beta + \epsilon_{it} \),仅估计 \( \beta \)(无需估计 \( \alpha_i, \lambda_t \)——这一点至关重要,因为 \( T \) 固定使单位FE不可一致估计,但 \( \beta \) 可以一致估计)。 - RIPW双重稳健估计量[0:33:39-0:35:00]:使用修正的结局 \( Y_{it} - \hat{m}_{it} \) 代替 \( Y_{it} \),用 \( \hat{\pi}_i \) 代替 \( \pi_i \),再运行RIPW-TWFE。 - 双重稳健性[0:35:00-0:36:53]:如果分配模型被良好估计TWFE模型正确,RIPW 一致估计DATE。直觉:若分配机制正确可复现第一部分的设计基结论;若TWFE模型正确,加权LS仍一致估计线性模型参数。 - 与文献中其他双重稳健(Sant'Anna & Zhao '20)的比较[0:35:00-0:36:53]:本报告不需要条件平行趋势(对横截面无要求);但Sant'Anna & Zhao有更灵活的结果模型。这是一个正交的方向,讲者指明正在扩展结果模型(引用Jeff Wooldridge的工作)。 - 强双重稳健性(Strong DR)[0:37:42-0:40:22]:若 \( \hat{\pi}_i, \hat{m}_i \) 是固定的(非cross-fitted但一致),则RIPW的偏差为 \( \bar{\delta}_\pi \cdot \bar{\delta}_m \)(两个误差项的乘积),因此若两者都估计良好,偏差可小于\( O(1/\sqrt{n}) \)的阈值,实现有效推断。cross-fitting下,只要估计量渐近确定性,结论同样成立。

第三部分:案例研究[0:40:27 - 0:47:00]

讲者内容: - 背景与数据[0:40:27-0:42:23]:研究美国各州宣布紧急状态(COVID-19初期)对餐饮业(OpenTable数据,年化就餐人数变动率)的短期效应。时间窗口:2020年2月29日–3月13日(14天)。紧急状态是“几乎是第一次影响大部分公众的政策”,因此相比后期政策(口罩令、封锁)更不易受混杂影响;餐饮业反应迅速,对长期混杂不敏感。 - 分配模型[0:43:15-0:45:50]:将“宣布时间”视为一个事件,拟合Cox比例风险模型(共三个协变量:州累计确诊病例、2016年民主党选票比例、人均床位数)。利用生存函数计算精确密度:若州在期间宣布,\( \hat{\pi}_i = \hat{F}_i(T_i) - \hat{F}_i(T_i+1) \);若不宣布,\( \hat{\pi}_i = 1 - \hat{F}_i(03/13) \)。同时给出Schoenfeld残差检验,未能拒绝比例风险假设(全球检验p=0.338)。讲者并未声称分配模型是完美的,只是作为一个充分稳健的基准。 - 结果模型与RIPW估计[0:45:58-0:46:38]:用标准未加权TWFE模型拟合结果模型(线性,包含累积确诊病例、民主党选票、人均床位数)。估计的RIPW-等权DATE:−4.0%(90% CI: [−7.9%, −0.1%];95% CI: [−8.6%, 0.6%])。相比之下,未加权TWFE估计值为−1.1%(95% CI: [−4.3%, 2.1%]),不显著。讲者指出RIPW更宽的区间来源于其更大的稳健性(可处理异质性)。

讨论者:Jeff Wooldridge[0:49:30 - 1:03:50]

Wooldridge的观点与质疑: 1. TWFE与估计目标[0:50:18-0:51:30]:把标准TWFE的偏见问题与目标 estimand的选择联系起来——RIPW估计的是“整体平均处理效应”(ATE),而交错设定中的其他方法(如Callaway & Sant'Anna)可估计“处理组上的平均处理效应”(ATT on Treated),两者不可直接比较。实践中应决定哪种参数更有意义。 2. 结果模型普适性限制[0:51:31-0:51:56]:强调RIPW的结果模型的使用是TWFE形式的(线性、常数效应、无动态),这比很多现有DiD方法更受限制。讲者已承认这会收窄。 3. 平行趋势的角色[0:51:57-0:53:34]:对“当分配模型正确时不需要平行趋势”这一主张感到惊叹,提出问题:这一“不依赖平行趋势”的能力是否是针对特定参数(DATE)才有的?是否存在隐含的放松? 4. SUTVA与动态效应的不能[0:53:34-0:53:52]:SUTVA在这一设定中意味着没有交叉单位溢出效应,也排除了滞后处理效应。这使得其难以与允许动态的框架直接比较。 5. T=2时的细节[1:00:00-1:03:34]:Wooldridge指出,经典的DiD-T=2设置下,TWFE和所有加权实现等效;他展示了自己思考的“不同时间概率权重”版本。他怀疑RIPW对平行趋势的豁免在T=2时是否真的成立——因为仅从两个时间点,“条件平行趋势”似乎不能省去。讲者的回应[1:04:00-1:05:31]澄清了这一点:在有限总体下,若知道每个单位的“广义倾向得分”,则该假设等价于无混杂趋势(unconfounded trend),而非平行趋势(homogeneous trend + unconfounded trend)。无混杂趋势允许每个单位有不同的趋势(不可检验),而平行趋势包含“趋势相同”的可检验部分。RIPW在分配模型正确时完全不需要平行趋势,但代价是做出了不可检验的无混杂假设。


四、对应论文与开放问题

对应论文

  • 论文: Dmitry Arkhangelsky, Guido W. Imbens, Lihua Lei, Xiaoman Luo. "Design-Robust Two-Way-Fixed-Effects Regression For Panel Data". arXiv:2107.13737 (2021). 本报告的内容与该摘要完全对应。

报告留下的开放问题(每条基于转写具体内容)

  1. 动态效应扩展[0:22:00-0:23:34]:讲者明确承认静态SUTVA假定(\( Y_{it} \)仅依赖\( W_{it} \)),但在话语中提出一种可能:“若我们相信潜在结局不仅依赖当期处理,也依赖于过去至多K期的处理状态”,则存在扩展RIPW到短程动态的可能。问题:如何将RIPW框架扩展到允许滞后处理效应?需要改变支持集为2^K路径还是别的?会发生怎样的组合爆炸?

  2. 更具通融性的结果模型[0:36:06-0:36:53]:讲者明确提到其团队正在与Wooldridge(Wooldridge '21)合作,将RIPW扩展到更灵活的结果模型(如加入处理×协变量交互、协变量×时间趋势)。问题:能否在保持“不需要单位FE”的同时加入这些交互?在一般分配模式下这样的模型是否仍会导致double robustness的弱化(例如退化为需要平行趋势)?

  3. \( \Pi \)的选择与方差-权重权衡[0:23:39-0:24:30] & [0:24:40-0:25:41]:当存在多个\( \Pi \)满足DATE方程,每种对应的RIPW估计量方差不同。讲者提到可通过添加约束(如最小化渐近方差)来挑选特定\( \Pi \)问题:如何计算RIPW-TWFE的渐近方差与\( \Pi \)的关系?能否找到\( \Pi \)的最优解(如[最小推理区间]或[最小加权LS方差])?

  4. 分配模型误设定的敏感性:[1:03:56-1:05:31] 讨论者Wooldridge与讲者就「无混杂趋势 vs 平行趋势」的区分进行了实质辩论。问题:是否可能开发一个敏感性分析框架,量化在分配模型错误指定时,RIPW估计量向ATE的偏差随分配模型误设程度的变化?这与横截面AIPW的敏感性分析有何不同?

  5. DATE方程解的存在性与数值求解:[0:23:39-0:24:30] 讲者指出一般支持集下DATE方程可能无解、有唯一解或无穷多解;通用解法是BFGS(非线性规划)。问题:是否存在对支持集\( S \)的简洁图论/组合条件,足以保证对给定\( \xi \)有解?在天数T较大或支持集复杂化(如允许在某些时间退出处理)时,BFGS的收敛性是否仍可靠?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论