Factorial Difference-in-Differences¶
讲者: Yiqing Xu
讨论人: Erin Hartman
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-12-03
主题: 因果推断
视频: https://youtu.be/NzFFlXxkloE?si=j9M8cXb6EJHduaq4 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2407.11937 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这条工作线(Factorial Difference-in-Differences, FDID) 的核心追问是: 在 「事件(event)影响所有单元」(universal exposure) 的经典面板数据情境中——即标准 DID 的「纯对照组」(never-treated group)不存在——如何定义、识别和估计因果参数?
- 具体而言,这类数据中,研究者通常观测到:
- 一个基线因子(baseline factor)\( G \)(如社会资本、天主教徒占比),是时不变的;
- 一个事件(如大饥荒、工业革命),发生在某个固定时间点,所有单元在事件后都暴露于事件(\( Z = 1 \));
- 研究者通常运行 双向固定效应(TWFE)模型,把 \( G \) 与事件后时虚拟变量的交互项系数解读为 \( G \) 的因果效应(或 \( G \) 对事件效果的调节效应)。
但这场报告指出:在没有纯对照组的设定下,标准 DID 假设(无预期 + 平行趋势)只让 DID 估计量识别「效应修正」(effect modification)——一个描述性的、关联性的量——而非 G 的因果效应(causal moderation / causal interaction)。要想做因果解释,须加一个更苛刻的假设:因子平行趋势(factorial parallel trends)。
奠基与主流路线:
- 经典 DID(Card and Krueger, 1994; Angrist and Pischke, 2009):有 never-treated 控制组,标准假设识别 ATT(the ATT among the exposed)。
- “回归 DID”(regression DD):Card (1992) 的 minium wage 研究实际就用了 factorial DID 的雏形——所有郡都被政策影响,没有纯控制组,用基线特征(如 low-wage share)来构造比较组。但这条线一直没有统一的因果设定框架。
- 因子设计(factorial designs):Fisher 和 Yates 的经典实验框架;Zhao and Ding (2021) 的现代理论为结构化因子实验提供了严谨的因果定义,如个体条件效应与交互效应(interaction effect)。这是 FDID 的核心理论工具。
- Bartik instruments / shift-share instruments(Goldsmith-Pinkham et al., 2020; Borusyak, Hull & Jaravel, 2022):共享逻辑:利用基线特征与共同时间冲击的交互来识别因果效应,但 FDID 将问题更明确地定位为 2×2 因子设计,而非工具变量框架。
- Lord's Paradox(Lord, 1967; Holland and Rubin, 1986):经典例子证明,在不同假设(平行趋势 vs. 不变的方差)下,同一个估计量能被解读出完全不同的因果结论。FDID 的工作可以被看作提供了一个澄清该悖论的新视角。
这场报告的位置:
- 它不是一篇用更复杂方法(i.e., 新估计量)来做 DID 的 paper,而是一篇识别框架 paper:它澄清“同一个 DID 估计量,在不同的识别假设下,分别对应什么因果/非因果参数”。
- 核心理论贡献:把 FDID 明确地等价为一个假想的 2×2 因子实验(factor \( G \) 和 factor \( Z \)),然后逐层阐述:
1. 标准 DID 假设 => 效应修正 (effect modification),一个关联性量
2. 加上“排除限制”(exclusion restriction)=> 识别标准 DID 的 ATT
3. 加上“因子平行趋势”(factorial parallel trends)=> 识别因果交互效应 (causal moderation / interaction)
- 实证展示:社会资本对大饥荒死亡率的影响(Cao, Xu & Zhang, 2022)。
二、最小内核 / 一个最简例子¶
考虑最简单的2组 × 2期面板,无协变量(是最简特例):
-
数据:
单元 \( i = 1,\dots,n \),时间 \( t \in \{ \text{pre}, \text{post} \} \)。
基线因子 \( G_i \in \{0,1\} \)(时不变)。
事件在 post 时期发生,所有单元在 post 期都被暴露给事件(即 \( Z_i = 1 \) 对所有 \( i \))。
观测数据:\( \{ G_i, Y_{i,\text{pre}}, Y_{i,\text{post}} \} \)。
虽然 \( Z_i \) 无变化(永远=1),但它仅用于分析性目的,将问题框架为因子设计。 -
符号与模型:
潜在结果(potential outcomes)索引为 \( Y_{i,t}(g, z) \),其中 \( g \in \{0,1\} \),\( z \in \{0,1\} \)。
因此每个单元有 8 个潜在结果(2时点 × 2组G × 2级Z),但每条观测只揭示其中 2 个。
观测结果: - \( Y_{i,\text{pre}} = Y_{i,\text{pre}}(G_i, Z_i) = Y_{i,\text{pre}}(G_i, 1) \)
- \( Y_{i,\text{post}} = Y_{i,\text{post}}(G_i, Z_i) = Y_{i,\text{post}}(G_i, 1) \)
四个未观测的量(对每个单元)永远无法观测:
\( Y_{i,t}(0,0), Y_{i,t}(0,1), Y_{i,t}(1,0) \)(但 post 期 \( z=0 \) 的量从未出现,需额外假设连接它们)。
- 核心估计量:
经典的 DID 估计量(概率极限记为 \( \tau_{\text{DID}} \)):
- 因果量(目标参数):
论文主要关心的因果参数是平均因果交互效应(average causal interaction effect):
可以解读为“改变 G 从 0 到 1 对事件效应(Z)的平均因果调节”。
- 最简例子:
假设有一个二值基线因子 \( G \)(如“社会资本高/低”),事件是大饥荒(所有县都被饥荒影响)。研究者想问:“在社会资本不同的两群县之间,饥荒的死亡率效应的差别,是不是由社会资本的因果效应导致的?” - 如果只看 \(\tau_{\text{DID}}\),它只是定量地描述了这个差别;
- 但如果想把这个差别归因于社会资本本身(“社会资本拯救了生命”),就需要额外的、更强的假设来排除其他时变混杂因素的影响。
三、报告主体:讲者讲了什么¶
时间线:
-
[0:01:20] – [0:02:00] 开场与动机:
讲者 Yiqing Xu(斯坦福政治学)用他2019年的社会资本与大饥荒论文作为引子。数据:跨省面板(县),一个基线因子(social capital,基于族谱测量),事件为大饥荒(1958-1961)。观测数据:高/低社会资本组在饥荒前/后死亡率趋势显著不同。关键词:“the rise in the mortality rate during famine is significantly smaller in counties with higher social capital”。 -
[0:02:00] – [0:04:45] 更多现存例子:
展示了一系列类似设计的社会科学研究:对德国移民的歧视 vs 一战;天主教徒 vs 工业革命;精英据点 vs 国家建设改革;穆斯林比例 vs 1891/1892 俄罗斯饥荒。提醒听众:所有这些例子都使用了同一个 DID 估计量,但加给了不同的研究设计。 -
[0:04:45] – [0:06:00] 问题定位:
讲者明确提出:“这是 Factorial DID,一个不同的 research design(不是标准 DID)”。“同一个估计量,不同的 Research Design”。“Factorial” 来自统计学传统(Fisher, Yates 的因子实验);“DID”来自经济学传统。讲者强调:虽使用相同的 DID 估计量,但它的识别假设是不同的,从而得到不同的(因果或非因果)参数。 -
[0:06:00] – [0:08:10] 关键对比:Canonical DID vs. Factorial DID:
- 标准 DID:第一组暴露,第二组未暴露(纯对照组),识别 ATT。
-
Factorial DID:所有单元在第二期都暴露于事件,没有纯对照组。因此,DID 估计量识别的是“治疗效应的异质性(effect heterogeneity)”,而非“平均处理效应”。这个效应异质性是关联性(associative)的,不是因果(causal)的。
-
[0:08:10] – [0:12:00] 核心识别结果(无协变量):
- 在无预期 + 平行趋势下:
\[\tau_{\text{DID}} = \mathbb{E}[Y_{\text{post}}(1,1) - Y_{\text{pre}}(1,0) \mid G=1] - \mathbb{E}[Y_{\text{post}}(0,1) - Y_{\text{pre}}(0,0) \mid G=0]\]这不是一个因果量(因为 condition on G),而是一个描述性的效应修正(effect modification)。 - 如果额外施加排除限制(exclusion restriction:对 \( G=0 \) 组,事件 Z 的效果为零),则 \(\tau_{\text{DID}}\) 变为标准 DID 中的 ATT(即 \( \mathbb{E}[Y(1,1)-Y(1,0) \mid G=1] \))。
-
更一般的 Factorial DID:如果希望 \(\tau_{\text{DID}}\) 等于平均因果交互效应,需要一个更强的假设——因子平行趋势(factorial parallel trends),即“基线因子 G 均值独立于潜在结果趋势”。
-
[0:12:00] – [0:14:45] 符号与设定:
正式定义 2×2 因子设计(G × Z),潜在结果 \( Y_{i,t}(g,z) \)。明确说明:由于所有单元都有 Z=1,所以只观测到 \( Y_{i,t}(g,1) \),而未观测的 \( Y_{i,t}(g,0) \) 须假设来连接。定义关键因果参数:因果交互效应(causal interaction effect)= \( \tau_{\text{int}} \)。 -
[0:14:45] – [0:17:10] 用图形展示识别链:
讲者用清晰的图形展示了从统计量 \(\tau_{DID}\) 到效应修正(EM)再到因果交互(\(\tau_{\text{int}}\))的桥梁。强调的关键点: - 无协变量时,平行趋势假设 + 无预期 = 效应修正。
- 加上因子平行趋势(均值独立于 G)= 因果交互效应。
-
报告没说全的是:因子平行趋势是否可以被协变量削减?讲者在后面(扩展部分)提到了有协变量的条件版本。
-
[0:17:10] – [0:21:40] 连接标准 DID 与 FDID:
讲者解释了如何通过一个排除限制(exclusion restriction:对 \( G=0 \) 组,Z 没有效果)把 FDID 简化回标准 DID: - 如果排除限制成立,则效应修正退化为未处理组的效果为零,于是 \(\tau_{DID}\) 识别 ATT(对 \( G=1 \) 组)。
-
这个排除限制并非自动成立(如 spillover 或 general equilibrium effects 会破坏它)。
-
[0:21:40] – [0:23:40] 因果调节需要的更强假设:
讲者明确解释为什么即使平行趋势成立,“\(\tau_{DID} =\) 效应修正不等于因果调节”(这一部分回答了许多实证研究者的误区)。他说:“因为 G 不是随机的”。因此需要因子平行趋势(ignorability of first-differences with respect to G)来让 \(\tau_{DID} = \tau_{\text{int}}\)。 -
注意:这个假设比无预期 + 平行趋势强,因为它要求这个均值独立对所有四个潜在结果趋势都成立,而不仅仅是对“未处理状态”(Z=0)流行。
-
[0:23:40] – [0:29:30] 扩展至协变量:
讲者根据幻灯片(文字抽取),介绍了有协变量时的 TWFE 回归使用。实际应用中,研究者通常会加入交互项(G×X×post)。但讲者指出:标准 TWFE 相互作用项只有当“G 是随机分配的或 G 的线性趋势与协变量无关”时才干净。他推荐的做法更谨慎: - 先对 X 去均值;
- 加入三向交互项(G×X×post),允许 X 对 ΔY 的效果随 G 不同而不同;
-
还可以使用灵活的模型(IPW, AIPW)替换 ΔY,然后对 G=0 和 G=1 组做因果推断。
-
[0:29:30] – [0:36:30] 回到实证例子:
用同样的数据(社会资本 vs 大饥荒),展示效应在离散化的 G 下如何变化。对“有较少族谱记录 vs 大量族谱记录”两种地方分别做 AIPW,发现只有大量族谱记录的地方有显著因果调节,这可能爱是因果效应的信号。 -
[0:36:30] – [0:40:47] 结论与实操建议:
要点: - FDID 是一个独立的 research design(identification strategy);
- 标准 DID 假设识别效应修正;
- 要识别因果调节,需要更强假设(因子平行趋势);
- 实操推荐:先检验平行趋势(pre-trend test,但注意这只是对平行趋势的检验,不检验因子平行趋势)、随后进行敏感性分析;
-
不要自动假设“无 carryover effects”。
-
[0:41:00] – [0:56:00] 讨论者评论与 Q&A:
讨论者 Erin Hartman(UC Berkeley)的核心问题: - “因果交互效应真的是应用研究者的首要目标吗?” 她倾向于法度,因为多数基线因子(如社会资本)是不可干预的,所以“效应修正”本身已经是足够好的量。她认为 FDID 论文的贡献更多在于澄清“同一个估计量、不同假设得到不同参数”,而不在于推动因果交互效应。
- 她追问了一个核心技术问题:如何检验或正当化「因子平行趋势」这一非常强的假设? 她认为对这个假设几乎没有可检验的含义。
- 讲者回应:除敏感性分析外别无他法(“就像无混杂设定一样,我们无法检验,只能靠背景知识与敏感性分析”)。
四、对应论文与开放问题¶
(a) 对应论文
- arXiv 2407.11937: Factorial Difference-in-Differences, Yiqing Xu, Anqi Zhao, Peng Ding (2024)
根据幻灯片和报告内容,可以百分百确认这篇论文就是这场报告所对应的论文。
- 相关的应用论文(作为实证例子):
- Cao, Xu & Zhang (2022): “How social capital saved lives during China’s Great Famine”
(b) 开放问题(根植于转写)
- “能否发展一套比「因子平行趋势」更温和 / 更准掌握可解读的条件,以使 DID 估计量识别因果交互效应?”
-
转写中讲者提到“还有大量充分条件可以得到这个结果”,但只示意了一个变种的、类似于“无混杂”但聚焦于一阶差分的假设([0:21:40]-[0:23:40])。讨论人 Hartman 明确质疑该假设的实用性。
→ 问题:能否对其放松 / 建立基于工具变量或代理变量的更易正当化的条件给定“universal exposure”? -
“如何为因子平行趋势推导出可检验的隐含意义(testable implications)?”
-
讨论者 Hartman 提出“对于这个假设,我完全想不出如何获得 leverage”([0:49:00]-[0:50:10])。讲者承认只能做敏感性分析,无正式检验。
→ 问题:是否可能设计 placebo tests / 比较与已知无效的事件(比如过去可比的非事件)来进行验证? -
“当 G 是连续变量或无序多值时,怎样拓展因子平行趋势?”
-
在实证部分([0:36:30]-[0:38:00]),讲者对三分类的 G 用了 AIPW,但没有给出相应的识别假设是什么。
→ 问题:连续 G 的 FDID 的识别假设是否仍等价于“均值独立于潜在结果趋势”?该如何验证? -
“如何构建一个完整的、以校正因子平行趋势违反的敏感性分析框架,类似于 Cinelli & Hazlett (2020) 对 OLS 的方法?”
- 讲者在讨论中说“我们做了敏感性分析”——但在演示中只有散点图([0:55:30]-[0:56:00]),没有方法论细节。
→ 问题:能否借鉴已有的 DID 敏感性分析文献(如 Rambachan & Roth 2023)并适配此设定?
Maintained by 陈星宇 · Homepage · Source on GitHub