Double-Robust Two-Way-Fixed-Effects Regression For Panel Data¶

讲者: Lihua Lei
讨论人: Jeffrey Wooldridge
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-04
主题: 因果推断
视频: https://youtu.be/z4MXrYFDlQg · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2107.13737 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

方向：面板数据因果推断中的双向固定效应（TWFE）回归及其鲁棒化

在面板数据因果推断中，一个核心追问是：当处理状态随时间变化、且处理效应可能存在异质性时，如何从观测数据中可靠地估计平均处理效应？传统方法——TWFE回归（即控制单位固定效应、时间固定效应、处理指示变量的OLS）——曾是行业标准，尤其在双重差分（DiD）设置中。然而，自2017年以来的一系列工作指出，TWFE估计量在以下情形下会扭曲：处理效应随时间或单位变化（异质性）、处理模式非“完美交错”（staggered adoption）或存在同期群效应，此时估计量不再是某个有意义的加总处理效应（如ATE），而是混入了负权重（如 Goodman-Bacon '21，de Chaisemartin & d'Haultfoeuille '20，Borusyak, Jaravel & Spiess '21，Callaway & Sant'Anna '21，Sun & Abraham '21）。

现有解法大致分两派：（a）识别导向：通过分组 / 事件研究设计（event study）定义并估计可解释的“同期群 - 时间 ATT”，例如 Callaway & Sant'Anna（'21）、Sun & Abraham（'21）；（b）加权 / 匹配导向：对单位加权以恢复平行趋势或处理组间平衡，例如 Arkhangelsky et al. '21（the synthetic DiD paper）、Borusyak et al. '21（imputation-based）。这些方法大多限定于交错采纳设定（处理一旦进入便不退出）。

这场报告站位： 讲者（Lihua Lei）及其合作者（Dmitry Arkhangelsky, Guido Imbens, Xiaoman Luo）主张即使在 完全一般的处理模式（单位可在任意时间进入或退出处理）下，TWFE 框架也未被完全理解。他们开辟了一条不同于现有路线的方案：

不丢弃TWFE结构，而是将逆概率加权（IPW）思想融入TWFE回归目标函数——通过重写TWFE OLS目标，用广义倾向得分的倒数加权重构，使估计量收敛到用户指定权重的“双重平均处理效应”（Doubly Average Treatment Effect, DATE）。
由此推出一类新估计量：RIPW-TWFE（Reshaped IPW TWFE），它有两层关键性质：
1. 设计基推断：若处理分配机制（广义倾向得分）已知，则RIPW-TWFE对任意异质固定潜在结果一致且可做有效推断（有限总体框架，允许单位间相关设计）。
2. 双重稳健性：在观测研究中，若处理分配模型或TWFE模型（线性、常数效应）中有一个正确指定，则RIPW-TWFE一致估计DATE；且偏差为两个建模误差的乘积（“强”双重稳健）。

关键先行工作（确认性）： - Arkhangelsky, Imbens, Lei & Luo (2021)，即本报告直接对应的论文（arXiv:2107.13737）。 - 处理分配一般模式下的交叉界面 IPW-TWFE的直观例子：Imbens (2000) 的广义倾向得分。 - 常规双重稳健（AIPW）在面板 / DiD的应用：Sant'Anna & Zhao (2020)——但本报告的“双重稳健”不同于那种（不需要条件平行趋势，但要求TWFE模型）。

关键的术语 / 人名确认：转写中[0:01:14]提到的合作者"Demetri Kasyoki"（应为Dmitry Arkhangelsky / CEMFI）、"Hedo Impens"（Guido Imbens / Stanford）、"Shawn Ma Lu"（Xiaoman Luo / UC Davis）。[0:59:50] "Santana-Jao" 应为Sant'Anna & Zhao。

二、最小内核 / 一个最简例子¶

符号与模型（已核对幻灯片）

面板数据: \( n \) 个单位，\( T \) 个时间点；\( T \) 固定（比大T处理更难——单位固定效应无法一致估计）。
可观测:
- 二元处理指示变量 \( W_{it} \in \{0,1\} \)；每个单位有一个处理路径向量 \( \mathbf{W}_i = (W_{i1},\dots,W_{iT}) \)。
- 潜在结果式: 对每个单位-时间对 \( (i,t) \)，有 \( (Y_{it}(1), Y_{it}(0)) \)（视为固定值，无模型）, 观测结果 \( Y_{it} = Y_{it}(W_{it}) \)（SUTVA，仅依赖当期处理）。
- 单位-时间特定效应: \( \tau_{it} = Y_{it}(1) - Y_{it}(0) \)——可以任意异质。
广义倾向得分（GPT）：\( \pi_i(\mathbf{w}) = \Pr(\mathbf{W}_i = \mathbf{w}) \)，是处理路径的分布。
目标 estimand: 双重平均处理效应（DATE）：
\[\tau(\xi) = \sum_{t=1}^{T} \xi_t \cdot \frac{1}{n} \sum_{i=1}^{n} \tau_{it}\]
其中 \( \xi = (\xi_1, \dots, \xi_T) \) 是用户指定的时间权重（非负、和为1）。 最简特例: 等权 DATE \( \tau_{\text{eq}} = \frac{1}{nT} \sum_{i=1}^n \sum_{t=1}^T \tau_{it} \)。本报告主要围绕等权DATE展开。

最简直觉：为什么要RIPW IPW-TWFE？

用一个\( n \) 个州，\( T=3 \) 天的例子，处理是暂态：每个州最多只处理一次（如某个促销券只有一个；或一次自然事件）。支持集 \( S = \{(0,0,0), (0,0,1), (0,1,0), (1,0,0)\} \)。

朴素IPW-TWFE: 对TWFE目标函数中的每一项使用权重 \( 1/\pi_i(\mathbf{W}_i) \)。幻灯片与转写均标明，在此例下IPW-TWFE估计量会收敛到 \( \frac{1}{3}\tau_1 + \frac{1}{3}\tau_2 + \frac{1}{3}\tau_3 = \tau_{\text{eq}} \)（[0:12:48 - 0:13:37]）。好极了——IPW自然地恢复了一个可解释的DATE。
但若换成交错采纳（staggered rollout）：支持集 \( S' = \{(0,0,0), (0,0,1), (0,1,1), (1,1,1)\} \)。 IPW-TWFE收敛到的DATE权重不再是等权，而是变为 \((0.3, 0.4, 0.3)\)（幻灯与转写[0:14:26 - 0:14:42]）。虽然仍是DATE，但权重不可解释（大部分在中间，两端几乎无权重）。用户想要等权DATE，但IPW给出的权重被数据支持结构强制规定。

RIPW解决问题：引入一个用户选择的数据无关分布 \( \Pi \) 在支持集 \( S \) 上。RIPW-TWFE估计量定义为：

\[\hat{\tau}_{\text{RIPW}}(\Pi) = \arg\min_{\tau} \sum_{i=1}^n \sum_{t=1}^T (Y_{it} - \alpha_i - \lambda_t - W_{it}\tau)^2 \cdot \frac{\Pi(\mathbf{W}_i)}{\pi_i(\mathbf{W}_i)}\]

（去掉IPW中的 \( \pi_i \)，替换为 \( \Pi \)）。只要选择适当的 \( \Pi \) 满足一组二次方程（DATE方程，纯基于支持集 \( S \) 而非数据），RIPW就可以收敛到用户想要的DATE（如等权DATE）。在交错范例中，存在一族 \( \Pi \)（两个解的凸组合，公式见幻灯片）使RIPW-TWFE收敛到等权DATE——而均匀 \( \Pi \) 不满足条件，解释了IPW为何失败。

RIPW的经济解释：当 \( \pi_i = \Pi \)（随机化实验），RIPW退化为普通TWFE。因此DATE方程也刻画了：在哪些完全随机化实验下，普通TWFE“有意识地”估计一个用户指定的DATE。

三、报告主体：讲者讲了什么¶

第一部分：DATE, RIPW与设计基推断 [0:00:53 - 0:30:56]¶

讲者内容： - 动机[0:00:53-0:03:45]: 回顾TWFE模型及其在异质效应 / 平行趋势违反下的偏倚，列举近年大量替代方法。核心问题：“TWFE是否被完全理解？”——答案是否定的。 - 设置[0:06:01-0:08:22]: 定义符号。强调 \( T \) 固定（因单位FE不可一致估计），潜在结果为固定值（有限总体），SUTVA（潜在结果仅依赖当期处理）。给出DATE公式。 - 从IPW到IPW-TWFE[0:10:20-0:12:47]: 演示标准横截面IPW（Hájek估计量）等价于一个加权LS（用 \( 1/\pi(W_i) \) 重写LS目标）。将此想法扩展到面板：将LS目标替换为TWFE目标，得到IPW-TWFE估计量。 - IPW-TWFE收敛到哪里？[0:12:48-0:15:36]: 用两个 \( T=3 \) 的例子（暂态 / 交错）展示IPW-TWFE收敛到的DATE权重是数据决定的（权重 \( \propto \eta_t(1-\eta_t) \)，其中 \( \eta_t = \frac{|\mathbf{w} \in S: w_t=1|}{|S|} \)）。在交错中权重不可解释，激励RIPW。 - RIPW与DATE方程[0:17:42-0:23:30]: 提出RIPW估计量，引入 \( \Pi \)。定理：RIPW-TWFE收敛到DATE(\( \xi \))当且仅当 \( \Pi \) 满足一个纯基于支持集 \( S \) 的二次方程组（DATE方程）。该方程有线性约束（simplex, nonnegativity），对许多常见设定（DiD、暂态、交错、交叉设计）有封闭解，其他可用BFGS求解。 - 转写中[0:20:03-0:20:18]约略提到“cryptic equation”——具体形式见幻灯片中的DATE equation:

\[\mathbb{E}_{W\sim\Pi}\left[ (\text{diag}(W) - \xi W^\top) J (W - \mathbb{E}_{W\sim\Pi}[W]) \right] = 0\]

其中 \( J = I - \frac{1}{T} \mathbf{1}_T \mathbf{1}_T^\top \)（投影到零和向量）。讲者仅以此展示方程仅依赖支持集而不依赖数据。 - 对等权DATE (\( \xi_t = 1/T \))在3-period暂态中，\( \Pi \) 的解是 \( \lambda(1,0,0,0) + (1-\lambda)(0,1/3,1/3,1/3) \)，均匀分布是一个解。 - 在3-period交错中，均匀分布不是解，但存在两个解（幻灯片给出具体权重）。 - 设计基推断[0:27:54-0:29:11]: 基于RIPW估计量的渐近线性表示，可构造Asymptotically Conservative真实方差和Wald置信区间。适用于伯努利设计、无放回抽样、整群随机化、两阶段随机化等。这与RIPW“降维”为横截面问题的机理有关。 - 关于“负权重”的澄清[0:29:12-0:30:52]: 讲者强调，经典文献中说TWFE有“负权重”是在给定处理分配的条件下（设计固定）讨论的，而本报告将\( W_i \)视为随机变量。因此“负权重”是条件于固定分配的负权重，非平均意义。RIPW的解保证了非负权重。

参与者Q&A: - [0:21:49] 提问（动态效应）及讲者回答：本报告处理静态设定（潜在结果仅依赖当期 \( W_t \)），但短程动态是可扩展的工作方向。 - [0:23:39] 提问（DATE方程解集的约束与选择）：讲者指出可对 \( \Pi \) 施加额外约束（如方差最小化）来选解，只要选择不依赖数据。 - [0:24:40] 提问（RIPW权重的极端值）：如同横截面IPW，极端 \( \Pi \) 对应极端广义倾向得分，可通过剪裁或倚重结果模型解决。

第二部分：RIPW的双重稳健性[0:31:00 - 0:40:22]

讲者内容： - 引入协变量[0:31:00-0:32:32]: 引入可能时变协变量 \( X_i \)，假设潜在可忽略性（latent ignorability，包含严格外生性/可忽略性作为特例）。 - 估计分配模型与结果模型[0:32:32-0:34:06]: - 分配模型：交错设置中用Cox比例风险模型估计生存函数，利用差异计算 \( \hat{\pi}_i(\mathbf{W}_i) \)；一般设计可用离散马尔可夫模型 / 条件逻辑模型。 - 结果模型：利用线性TWFE模型 \( Y_{it} = \alpha_i + \lambda_t + X_{it}^\top\beta + \epsilon_{it} \)，仅估计 \( \beta \)（无需估计 \( \alpha_i, \lambda_t \)——这一点至关重要，因为 \( T \) 固定使单位FE不可一致估计，但 \( \beta \) 可以一致估计）。 - RIPW双重稳健估计量[0:33:39-0:35:00]：使用修正的结局 \( Y_{it} - \hat{m}_{it} \) 代替 \( Y_{it} \)，用 \( \hat{\pi}_i \) 代替 \( \pi_i \)，再运行RIPW-TWFE。 - 双重稳健性[0:35:00-0:36:53]：如果分配模型被良好估计或TWFE模型正确，RIPW 一致估计DATE。直觉：若分配机制正确可复现第一部分的设计基结论；若TWFE模型正确，加权LS仍一致估计线性模型参数。 - 与文献中其他双重稳健（Sant'Anna & Zhao '20）的比较[0:35:00-0:36:53]：本报告不需要条件平行趋势（对横截面无要求）；但Sant'Anna & Zhao有更灵活的结果模型。这是一个正交的方向，讲者指明正在扩展结果模型（引用Jeff Wooldridge的工作）。 - 强双重稳健性（Strong DR）[0:37:42-0:40:22]：若 \( \hat{\pi}_i, \hat{m}_i \) 是固定的（非cross-fitted但一致），则RIPW的偏差为 \( \bar{\delta}_\pi \cdot \bar{\delta}_m \)（两个误差项的乘积），因此若两者都估计良好，偏差可小于\( O(1/\sqrt{n}) \)的阈值，实现有效推断。cross-fitting下，只要估计量渐近确定性，结论同样成立。

第三部分：案例研究[0:40:27 - 0:47:00]

讲者内容： - 背景与数据[0:40:27-0:42:23]：研究美国各州宣布紧急状态（COVID-19初期）对餐饮业（OpenTable数据，年化就餐人数变动率）的短期效应。时间窗口：2020年2月29日–3月13日（14天）。紧急状态是“几乎是第一次影响大部分公众的政策”，因此相比后期政策（口罩令、封锁）更不易受混杂影响；餐饮业反应迅速，对长期混杂不敏感。 - 分配模型[0:43:15-0:45:50]：将“宣布时间”视为一个事件，拟合Cox比例风险模型（共三个协变量：州累计确诊病例、2016年民主党选票比例、人均床位数）。利用生存函数计算精确密度：若州在期间宣布，\( \hat{\pi}_i = \hat{F}_i(T_i) - \hat{F}_i(T_i+1) \)；若不宣布，\( \hat{\pi}_i = 1 - \hat{F}_i(03/13) \)。同时给出Schoenfeld残差检验，未能拒绝比例风险假设（全球检验p=0.338）。讲者并未声称分配模型是完美的，只是作为一个充分稳健的基准。 - 结果模型与RIPW估计[0:45:58-0:46:38]：用标准未加权TWFE模型拟合结果模型（线性，包含累积确诊病例、民主党选票、人均床位数）。估计的RIPW-等权DATE：−4.0%（90% CI: [−7.9%, −0.1%]；95% CI: [−8.6%, 0.6%]）。相比之下，未加权TWFE估计值为−1.1%（95% CI: [−4.3%, 2.1%]），不显著。讲者指出RIPW更宽的区间来源于其更大的稳健性（可处理异质性）。

讨论者：Jeff Wooldridge[0:49:30 - 1:03:50]

Wooldridge的观点与质疑： 1. TWFE与估计目标[0:50:18-0:51:30]：把标准TWFE的偏见问题与目标 estimand的选择联系起来——RIPW估计的是“整体平均处理效应”（ATE），而交错设定中的其他方法（如Callaway & Sant'Anna）可估计“处理组上的平均处理效应”（ATT on Treated），两者不可直接比较。实践中应决定哪种参数更有意义。 2. 结果模型普适性限制[0:51:31-0:51:56]：强调RIPW的结果模型的使用是TWFE形式的（线性、常数效应、无动态），这比很多现有DiD方法更受限制。讲者已承认这会收窄。 3. 平行趋势的角色[0:51:57-0:53:34]：对“当分配模型正确时不需要平行趋势”这一主张感到惊叹，提出问题：这一“不依赖平行趋势”的能力是否是针对特定参数（DATE）才有的？是否存在隐含的放松？ 4. SUTVA与动态效应的不能[0:53:34-0:53:52]：SUTVA在这一设定中意味着没有交叉单位溢出效应，也排除了滞后处理效应。这使得其难以与允许动态的框架直接比较。 5. T=2时的细节[1:00:00-1:03:34]：Wooldridge指出，经典的DiD-T=2设置下，TWFE和所有加权实现等效；他展示了自己思考的“不同时间概率权重”版本。他怀疑RIPW对平行趋势的豁免在T=2时是否真的成立——因为仅从两个时间点，“条件平行趋势”似乎不能省去。讲者的回应[1:04:00-1:05:31]澄清了这一点：在有限总体下，若知道每个单位的“广义倾向得分”，则该假设等价于无混杂趋势（unconfounded trend），而非平行趋势（homogeneous trend + unconfounded trend）。无混杂趋势允许每个单位有不同的趋势（不可检验），而平行趋势包含“趋势相同”的可检验部分。RIPW在分配模型正确时完全不需要平行趋势，但代价是做出了不可检验的无混杂假设。

四、对应论文与开放问题¶

对应论文

论文: Dmitry Arkhangelsky, Guido W. Imbens, Lihua Lei, Xiaoman Luo. "Design-Robust Two-Way-Fixed-Effects Regression For Panel Data". arXiv:2107.13737 (2021). 本报告的内容与该摘要完全对应。

报告留下的开放问题（每条基于转写具体内容）

动态效应扩展[0:22:00-0:23:34]：讲者明确承认静态SUTVA假定（\( Y_{it} \)仅依赖\( W_{it} \)），但在话语中提出一种可能：“若我们相信潜在结局不仅依赖当期处理，也依赖于过去至多K期的处理状态”，则存在扩展RIPW到短程动态的可能。问题：如何将RIPW框架扩展到允许滞后处理效应？需要改变支持集为2^K路径还是别的？会发生怎样的组合爆炸？
更具通融性的结果模型[0:36:06-0:36:53]：讲者明确提到其团队正在与Wooldridge（Wooldridge '21）合作，将RIPW扩展到更灵活的结果模型（如加入处理×协变量交互、协变量×时间趋势）。问题：能否在保持“不需要单位FE”的同时加入这些交互？在一般分配模式下这样的模型是否仍会导致double robustness的弱化（例如退化为需要平行趋势）？
\( \Pi \)的选择与方差-权重权衡[0:23:39-0:24:30] & [0:24:40-0:25:41]：当存在多个\( \Pi \)满足DATE方程，每种对应的RIPW估计量方差不同。讲者提到可通过添加约束（如最小化渐近方差）来挑选特定\( \Pi \)。问题：如何计算RIPW-TWFE的渐近方差与\( \Pi \)的关系？能否找到\( \Pi \)的最优解（如[最小推理区间]或[最小加权LS方差]）？
分配模型误设定的敏感性：[1:03:56-1:05:31] 讨论者Wooldridge与讲者就「无混杂趋势 vs 平行趋势」的区分进行了实质辩论。问题：是否可能开发一个敏感性分析框架，量化在分配模型错误指定时，RIPW估计量向ATE的偏差随分配模型误设程度的变化？这与横截面AIPW的敏感性分析有何不同？
DATE方程解的存在性与数值求解：[0:23:39-0:24:30] 讲者指出一般支持集下DATE方程可能无解、有唯一解或无穷多解；通用解法是BFGS（非线性规划）。问题：是否存在对支持集\( S \)的简洁图论/组合条件，足以保证对给定\( \xi \)有解？在天数T较大或支持集复杂化（如允许在某些时间退出处理）时，BFGS的收敛性是否仍可靠？

Maintained by 陈星宇 · Homepage · Source on GitHub