Factorial Difference-in-Differences¶

讲者: Yiqing Xu
讨论人: Erin Hartman
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-12-03
主题: 因果推断
视频: https://youtu.be/NzFFlXxkloE?si=j9M8cXb6EJHduaq4 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2407.11937 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这条工作线（Factorial Difference-in-Differences, FDID）的核心追问是： 在 「事件（event）影响所有单元」（universal exposure） 的经典面板数据情境中——即标准 DID 的「纯对照组」（never-treated group）不存在——如何定义、识别和估计因果参数？
- 具体而言，这类数据中，研究者通常观测到： - 一个基线因子（baseline factor）\( G \)（如社会资本、天主教徒占比），是时不变的； - 一个事件（如大饥荒、工业革命），发生在某个固定时间点，所有单元在事件后都暴露于事件（\( Z = 1 \)）； - 研究者通常运行 双向固定效应（TWFE）模型，把 \( G \) 与事件后时虚拟变量的交互项系数解读为 \( G \) 的因果效应（或 \( G \) 对事件效果的调节效应）。
但这场报告指出：在没有纯对照组的设定下，标准 DID 假设（无预期 + 平行趋势）只让 DID 估计量识别「效应修正」（effect modification）——一个描述性的、关联性的量——而非 G 的因果效应（causal moderation / causal interaction）。要想做因果解释，须加一个更苛刻的假设：因子平行趋势（factorial parallel trends）。

奠基与主流路线： - 经典 DID（Card and Krueger, 1994; Angrist and Pischke, 2009）：有 never-treated 控制组，标准假设识别 ATT（the ATT among the exposed）。 - “回归 DID”（regression DD）：Card (1992) 的 minium wage 研究实际就用了 factorial DID 的雏形——所有郡都被政策影响，没有纯控制组，用基线特征（如 low-wage share）来构造比较组。但这条线一直没有统一的因果设定框架。 - 因子设计（factorial designs）：Fisher 和 Yates 的经典实验框架；Zhao and Ding (2021) 的现代理论为结构化因子实验提供了严谨的因果定义，如个体条件效应与交互效应（interaction effect）。这是 FDID 的核心理论工具。 - Bartik instruments / shift-share instruments（Goldsmith-Pinkham et al., 2020; Borusyak, Hull & Jaravel, 2022）：共享逻辑：利用基线特征与共同时间冲击的交互来识别因果效应，但 FDID 将问题更明确地定位为 2×2 因子设计，而非工具变量框架。 - Lord's Paradox（Lord, 1967; Holland and Rubin, 1986）：经典例子证明，在不同假设（平行趋势 vs. 不变的方差）下，同一个估计量能被解读出完全不同的因果结论。FDID 的工作可以被看作提供了一个澄清该悖论的新视角。

这场报告的位置：
- 它不是一篇用更复杂方法(i.e., 新估计量)来做 DID 的 paper，而是一篇识别框架 paper：它澄清“同一个 DID 估计量，在不同的识别假设下，分别对应什么因果/非因果参数”。
- 核心理论贡献：把 FDID 明确地等价为一个假想的 2×2 因子实验（factor \( G \) 和 factor \( Z \)），然后逐层阐述：
1. 标准 DID 假设 => 效应修正 (effect modification)，一个关联性量
2. 加上“排除限制”（exclusion restriction）=> 识别标准 DID 的 ATT
3. 加上“因子平行趋势”（factorial parallel trends）=> 识别因果交互效应 (causal moderation / interaction)
- 实证展示：社会资本对大饥荒死亡率的影响（Cao, Xu & Zhang, 2022）。

二、最小内核 / 一个最简例子¶

考虑最简单的2组 × 2期面板，无协变量（是最简特例）：

数据：
单元 \( i = 1,\dots,n \)，时间 \( t \in \{ \text{pre}, \text{post} \} \)。
基线因子 \( G_i \in \{0,1\} \)（时不变）。
事件在 post 时期发生，所有单元在 post 期都被暴露给事件（即 \( Z_i = 1 \) 对所有 \( i \)）。
观测数据：\( \{ G_i, Y_{i,\text{pre}}, Y_{i,\text{post}} \} \)。
虽然 \( Z_i \) 无变化（永远=1），但它仅用于分析性目的，将问题框架为因子设计。
符号与模型：
潜在结果（potential outcomes）索引为 \( Y_{i,t}(g, z) \)，其中 \( g \in \{0,1\} \)，\( z \in \{0,1\} \)。
因此每个单元有 8 个潜在结果（2时点 × 2组G × 2级Z），但每条观测只揭示其中 2 个。
观测结果：
\( Y_{i,\text{pre}} = Y_{i,\text{pre}}(G_i, Z_i) = Y_{i,\text{pre}}(G_i, 1) \)
\( Y_{i,\text{post}} = Y_{i,\text{post}}(G_i, Z_i) = Y_{i,\text{post}}(G_i, 1) \)

四个未观测的量（对每个单元）永远无法观测：
\( Y_{i,t}(0,0), Y_{i,t}(0,1), Y_{i,t}(1,0) \)（但 post 期 \( z=0 \) 的量从未出现，需额外假设连接它们）。

核心估计量：
经典的 DID 估计量（概率极限记为 \( \tau_{\text{DID}} \)）：

\[\tau_{\text{DID}} = \big[ \mathbb{E}(Y_{\text{post}} \mid G=1) - \mathbb{E}(Y_{\text{pre}} \mid G=1) \big] - \big[ \mathbb{E}(Y_{\text{post}} \mid G=0) - \mathbb{E}(Y_{\text{pre}} \mid G=0) \big].\]

因果量（目标参数）：
论文主要关心的因果参数是平均因果交互效应（average causal interaction effect）：

\[\tau_{\text{int}} = \mathbb{E}\big[ Y_{\text{post}}(1,1) - Y_{\text{post}}(0,1) - Y_{\text{post}}(1,0) + Y_{\text{post}}(0,0) \big],\]

可以解读为“改变 G 从 0 到 1 对事件效应（Z）的平均因果调节”。

最简例子：
假设有一个二值基线因子 \( G \)（如“社会资本高/低”），事件是大饥荒（所有县都被饥荒影响）。研究者想问：“在社会资本不同的两群县之间，饥荒的死亡率效应的差别，是不是由社会资本的因果效应导致的？”
如果只看 \(\tau_{\text{DID}}\)，它只是定量地描述了这个差别；
但如果想把这个差别归因于社会资本本身（“社会资本拯救了生命”），就需要额外的、更强的假设来排除其他时变混杂因素的影响。

三、报告主体：讲者讲了什么¶

时间线：

[0:01:20] – [0:02:00] 开场与动机：
讲者 Yiqing Xu（斯坦福政治学）用他2019年的社会资本与大饥荒论文作为引子。数据：跨省面板（县），一个基线因子（social capital，基于族谱测量），事件为大饥荒（1958-1961）。观测数据：高/低社会资本组在饥荒前/后死亡率趋势显著不同。关键词：“the rise in the mortality rate during famine is significantly smaller in counties with higher social capital”。
[0:02:00] – [0:04:45] 更多现存例子：
展示了一系列类似设计的社会科学研究：对德国移民的歧视 vs 一战；天主教徒 vs 工业革命；精英据点 vs 国家建设改革；穆斯林比例 vs 1891/1892 俄罗斯饥荒。提醒听众：所有这些例子都使用了同一个 DID 估计量，但加给了不同的研究设计。
[0:04:45] – [0:06:00] 问题定位：
讲者明确提出：“这是 Factorial DID，一个不同的 research design（不是标准 DID）”。“同一个估计量，不同的 Research Design”。“Factorial” 来自统计学传统（Fisher, Yates 的因子实验）；“DID”来自经济学传统。讲者强调：虽使用相同的 DID 估计量，但它的识别假设是不同的，从而得到不同的（因果或非因果）参数。
[0:06:00] – [0:08:10] 关键对比：Canonical DID vs. Factorial DID：
标准 DID：第一组暴露，第二组未暴露（纯对照组），识别 ATT。
Factorial DID：所有单元在第二期都暴露于事件，没有纯对照组。因此，DID 估计量识别的是“治疗效应的异质性（effect heterogeneity）”，而非“平均处理效应”。这个效应异质性是关联性（associative）的，不是因果（causal）的。
[0:08:10] – [0:12:00] 核心识别结果（无协变量）：
在无预期 + 平行趋势下：

\[\tau_{\text{DID}} = \mathbb{E}[Y_{\text{post}}(1,1) - Y_{\text{pre}}(1,0) \mid G=1] - \mathbb{E}[Y_{\text{post}}(0,1) - Y_{\text{pre}}(0,0) \mid G=0]\]
这不是一个因果量（因为 condition on G），而是一个描述性的效应修正（effect modification）。
如果额外施加排除限制（exclusion restriction：对 \( G=0 \) 组，事件 Z 的效果为零），则 \(\tau_{\text{DID}}\) 变为标准 DID 中的 ATT（即 \( \mathbb{E}[Y(1,1)-Y(1,0) \mid G=1] \)）。
更一般的 Factorial DID：如果希望 \(\tau_{\text{DID}}\) 等于平均因果交互效应，需要一个更强的假设——因子平行趋势（factorial parallel trends），即“基线因子 G 均值独立于潜在结果趋势”。
[0:12:00] – [0:14:45] 符号与设定：
正式定义 2×2 因子设计（G × Z），潜在结果 \( Y_{i,t}(g,z) \)。明确说明：由于所有单元都有 Z=1，所以只观测到 \( Y_{i,t}(g,1) \)，而未观测的 \( Y_{i,t}(g,0) \) 须假设来连接。定义关键因果参数：因果交互效应（causal interaction effect）= \( \tau_{\text{int}} \)。
[0:14:45] – [0:17:10] 用图形展示识别链：
讲者用清晰的图形展示了从统计量 \(\tau_{DID}\) 到效应修正（EM）再到因果交互（\(\tau_{\text{int}}\)）的桥梁。强调的关键点：
无协变量时，平行趋势假设 + 无预期 = 效应修正。
加上因子平行趋势（均值独立于 G）= 因果交互效应。
报告没说全的是：因子平行趋势是否可以被协变量削减？讲者在后面（扩展部分）提到了有协变量的条件版本。
[0:17:10] – [0:21:40] 连接标准 DID 与 FDID：
讲者解释了如何通过一个排除限制（exclusion restriction：对 \( G=0 \) 组，Z 没有效果）把 FDID 简化回标准 DID：
如果排除限制成立，则效应修正退化为未处理组的效果为零，于是 \(\tau_{DID}\) 识别 ATT（对 \( G=1 \) 组）。
这个排除限制并非自动成立（如 spillover 或 general equilibrium effects 会破坏它）。
[0:21:40] – [0:23:40] 因果调节需要的更强假设：
讲者明确解释为什么即使平行趋势成立，“\(\tau_{DID} =\) 效应修正不等于因果调节”（这一部分回答了许多实证研究者的误区）。他说：“因为 G 不是随机的”。因此需要因子平行趋势（ignorability of first-differences with respect to G）来让 \(\tau_{DID} = \tau_{\text{int}}\)。
注意：这个假设比无预期 + 平行趋势强，因为它要求这个均值独立对所有四个潜在结果趋势都成立，而不仅仅是对“未处理状态”（Z=0）流行。
[0:23:40] – [0:29:30] 扩展至协变量：
讲者根据幻灯片（文字抽取），介绍了有协变量时的 TWFE 回归使用。实际应用中，研究者通常会加入交互项（G×X×post）。但讲者指出：标准 TWFE 相互作用项只有当“G 是随机分配的或 G 的线性趋势与协变量无关”时才干净。他推荐的做法更谨慎：
先对 X 去均值；
加入三向交互项（G×X×post），允许 X 对 ΔY 的效果随 G 不同而不同；
还可以使用灵活的模型（IPW, AIPW）替换 ΔY，然后对 G=0 和 G=1 组做因果推断。
[0:29:30] – [0:36:30] 回到实证例子：
用同样的数据（社会资本 vs 大饥荒），展示效应在离散化的 G 下如何变化。对“有较少族谱记录 vs 大量族谱记录”两种地方分别做 AIPW，发现只有大量族谱记录的地方有显著因果调节，这可能爱是因果效应的信号。
[0:36:30] – [0:40:47] 结论与实操建议：
要点：
FDID 是一个独立的 research design（identification strategy）；
标准 DID 假设识别效应修正；
要识别因果调节，需要更强假设（因子平行趋势）；
实操推荐：先检验平行趋势（pre-trend test，但注意这只是对平行趋势的检验，不检验因子平行趋势）、随后进行敏感性分析；
不要自动假设“无 carryover effects”。
[0:41:00] – [0:56:00] 讨论者评论与 Q&A：
讨论者 Erin Hartman（UC Berkeley）的核心问题：
“因果交互效应真的是应用研究者的首要目标吗？” 她倾向于法度，因为多数基线因子（如社会资本）是不可干预的，所以“效应修正”本身已经是足够好的量。她认为 FDID 论文的贡献更多在于澄清“同一个估计量、不同假设得到不同参数”，而不在于推动因果交互效应。
她追问了一个核心技术问题：如何检验或正当化「因子平行趋势」这一非常强的假设？ 她认为对这个假设几乎没有可检验的含义。
讲者回应：除敏感性分析外别无他法（“就像无混杂设定一样，我们无法检验，只能靠背景知识与敏感性分析”）。

四、对应论文与开放问题¶

(a) 对应论文
- arXiv 2407.11937: Factorial Difference-in-Differences, Yiqing Xu, Anqi Zhao, Peng Ding (2024)
根据幻灯片和报告内容，可以百分百确认这篇论文就是这场报告所对应的论文。
- 相关的应用论文（作为实证例子）：
- Cao, Xu & Zhang (2022): “How social capital saved lives during China’s Great Famine”

(b) 开放问题（根植于转写）

“能否发展一套比「因子平行趋势」更温和 / 更准掌握可解读的条件，以使 DID 估计量识别因果交互效应？”
转写中讲者提到“还有大量充分条件可以得到这个结果”，但只示意了一个变种的、类似于“无混杂”但聚焦于一阶差分的假设（[0:21:40]-[0:23:40]）。讨论人 Hartman 明确质疑该假设的实用性。
→ 问题：能否对其放松 / 建立基于工具变量或代理变量的更易正当化的条件给定“universal exposure”？
“如何为因子平行趋势推导出可检验的隐含意义（testable implications）？”
讨论者 Hartman 提出“对于这个假设，我完全想不出如何获得 leverage”（[0:49:00]-[0:50:10]）。讲者承认只能做敏感性分析，无正式检验。
→ 问题：是否可能设计 placebo tests / 比较与已知无效的事件（比如过去可比的非事件）来进行验证？
“当 G 是连续变量或无序多值时，怎样拓展因子平行趋势？”
在实证部分（[0:36:30]-[0:38:00]），讲者对三分类的 G 用了 AIPW，但没有给出相应的识别假设是什么。
→ 问题：连续 G 的 FDID 的识别假设是否仍等价于“均值独立于潜在结果趋势”？该如何验证？
“如何构建一个完整的、以校正因子平行趋势违反的敏感性分析框架，类似于 Cinelli & Hazlett (2020) 对 OLS 的方法？”
讲者在讨论中说“我们做了敏感性分析”——但在演示中只有散点图（[0:55:30]-[0:56:00]），没有方法论细节。
→ 问题：能否借鉴已有的 DID 敏感性分析文献（如 Rambachan & Roth 2023）并适配此设定？

Maintained by 陈星宇 · Homepage · Source on GitHub