Synthetic Difference in Differences¶

讲者: Susan Athey
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-01-12
主题: 因果推断
视频: https://www.youtube.com/watch?v=r2DzGAigTl4&feature=youtu.be · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

1812.09970 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告介绍「Synthetic Difference-in-Differences (SDID)」方法，属于面板数据（panel data）因果效应估计这一子方向。该方向要解决的核心问题是：当仅对部分单位（如州、国家）在某个时间点之后施加处理（如政策、立法），如何利用其他从未受处理单位（控制组）在多个时间点的观测数据，来为受处理单位构造无处理时的反事实（counterfactual）。

奠基与主流路线：

Diff-in-Diffs (DID，双固定效应回归)：假设在无处理下，处理组与控制组的时间趋势是平行的（平行趋势假设）。用 Y(it) = α_i + β_t + τ W(it) + ε(it) 建模。当处理组可能拥有与时间趋势相关但未被观测到的特征时，倾向于产生偏误。这里用简单算术平均来聚合控制组和处理组的数据。
Synthetic Control Method (SCM，合成控制法)（Abadie, Diamond, Hainmueller, 2010; 2015）：为受处理单位寻找一组非负且和为一的权重，使得处理前各期，控制组的加权平均值在数值上非常接近受处理单位的实际值。然后将该权重应用在处理后时期，得到反事实预测。该方法需要受处理单位的处理前趋势落在控制组单位的凸包（convex hull）内才能良好工作。
Unconfoundedness / Horizontal Regression：将每个单位的前期观测看作其自身的协变量，基于条件独立假设，用加权回归等方法控制。该方法更适用于单位多、时期少的情景。
Doudchenko & Imbens (2016)：首次将SCM解释为一种「竖直回归（Vertical Regression）」，并把它与DID、未混淆性等放在同一个加权平均框架下比较，指出了桥梁。该工作奠定了SDID的思考基础。

当前Frontier与SDID的定位：

上述三种主流方法各有所长，且各自依赖于较强的、可能互斥的假设。
同期的工作还有：Athey et al. (2018) Matrix Completion Methods for Causal Panel Data Models（这场报告的讲者与合作者），基于矩阵补全（用核范数正则化）来直接估计低秩矩阵 L。
Ben-Michael, Feller & Rothstein (2018) The Augmented Synthetic Control Method，提出了增强合成控制法（ASC），其思想与SDID非常接近（双稳健性），但技术上有所不同。
这场报告的SDID站在所有这些工作的交汇处，尝试将单位权重、时间权重、双固定效应三者融合进一个加权DID回归框架，以期达到对多种数据生成过程都具有鲁棒性的效果。其核心贡献是系统性地将权重选择算法化，并给出了渐进正态性理论。

二、最小内核 / 一个最简例子¶

符号与模型：

可观测数据：N 个单位 × T 个时期的矩阵 Y（已实现的、可能受处理影响的结果）；二元处理矩阵 W（前 N0 个单位在前 T0 个时期为 0，后 N1 个单位在最后 T1 个时期为 1）。
- 令 N = N0 + N1, T = T0 + T1.
目标估计量（Estimand）：受处理单位的平均处理效应（ATT），记为 τ。对「块状（block）」分配模式，该报告聚焦：τ = (1/N1 * T1) * sum_{i > N0, t > T0} E[Y_it(1) - Y_it(0)].
潜在数据生成过程（非估计模型，仅用于分析性质）： Y = L + τ W + ε，其中 L 是一个低秩矩阵（未知秩 r），例如 L_{ij} = β_i^T μ_j。该模型不要求 W ⊥ L（即允许处理分配与潜因子相关）。
幻灯片给出的核心算法：SDID通过三步得到 τ̂：
1. 找单位权重 ω̂i（对控制组单位 i≤N0，非负且和为1，带 ridge 惩罚）：使得 ω̂_0 + Σ_i ω̂_i Y{it} 在 t≤T0 期间尽量接近处理组单位的各期均值。
2. 找时间权重 λ̂t（对前T0期，非负且和为1，无 ridge 惩罚）：使得 λ̂_0 + Σ_t λ̂_t Y{it} 在 i≤N0 期间尽量接近处理组时间段的各期均值。
3. 执行加权DID回归： τ̂, α̂, γ̂ = argmin Σ_{i,t} (Y_{it} - γ_t - α_i - τ W_{it})^2 * ω̂_i * λ̂_t。幻灯片显示了该加权二乘回归估计出的 τ̂ 就是SDID估计量。

最简特例：假设只有1个处理单位，在单一处理时期（T1=1）后受处理，并假设 T0 个前期和 N0 个控制单位。幻灯片第3页展示了这种特例。

此时 L 是一个 (N0+1) x (T0+T1) 矩阵。
单位权重 ω̂_i 通过最小化以下损失得到（允许常数项 ω̂_0）： Min_{ω̂_0, ω̂_i≥0, Σ ω̂_i=1} (1/T0) Σ_{t≤T0} (Y_{N,t} - ω̂_0 - Σ_{i≤N0} ω̂_i Y_{i,t})^2 + ζ^2||ω̂||^2。直观上，这条损失函数在寻找一组控制单位的权重，使其处理前趋势（Y_i,t）经过常数平移（ω̂_0）后，尽可能与处理单位（Y_N,t）的趋势重合。
时间权重 λ̂_t 的损失定义类似（不含惩罚项），寻求最“像”处理后的时期的前期。
SDID最终估计： τ̂ = (Y_{N,T} - (ω̂_0 + Σ_i ω̂_i Y_{i,T})) - (Σ_t λ̂_t Y_{N,t} - (λ̂_0 + Σ_i ω̂_i Σ_t λ̂_t Y_{i,t}))。前括号是处理后单位-合成控制差异；后括号是处理前单位-合成控制差异。两者相减即得SDID。
核心思想对比：
- DID：取所有控制组单位的简单平均（ω̂_i=1/N0），取所有处理前时期的简单平均（λ̂_t=1/T0）。
- SC：只取单位权重（λ̂_t=0，不控制时间）；需要权重对应所有前期完全拟合。
- SDID：用数据自动选择“对反事实预测最重要”的那一部分控制单位和那一部分前期时间，再进行双差异比较，且允许常数平移。

三、报告主体：讲者讲了什么¶

[0:00-0:02] 开场与致谢。

[0:02-0:10] 引言与背景。以加州禁烟立法（Prop 99）为例，引出面板数据反事实推断问题。强调方法常用于具有潜在内生性且难以随机化的政策评估。

[0:10-0:19] 三种经典方法的直观介绍： - 合成控制法（SC）：通过画图展示加州（紫线）和合成加州（绿线）的处理前拟合“看起来不错”。幻灯片强调了权重非负且和为1的约束对可解释性的重要性。 - 竖直回归 (Vertical Regression)：将SC的加权方案转换为回归问题（幻灯片第5页）。 - 水平回归 (Horizontal Regression / Unconfoundedness)：转写[0:15:53-0:16:39]引入对称思想——将时间视为“协变量”，在各单位上做回归（幻灯片第6页）。讲者指出这两种文献之前交流不多，因为数据通常偏向某一维度（如 N 小 T 大时用SC，N 大 T 小时用 Unconfoundedness）。

[0:19-0:23] 问题的提出：如何整合这三种方法？ - SC依赖单位间的稳定关系；Unconfoundedness依赖时期间的稳定关系；DID依赖加法可分解的潜在支出（单位+时间固定效应）。 - 核心目标：提出一个方法，能结合三种方法的优势，而非三者选一。幻灯片第8页明确写出此意图。

[0:23-0:28] 设定正式模型与假设。 - 假设数据来自低秩矩阵+噪声（幻灯片第9页）： Y = L + τW + ε，其中 L 是低秩的（例如写出为 β_i^T μ_j）。关键假设是 W 与 L 相关（允许选择偏误），但 W 与 ε 不相关。 - 强调：这只用于理论分析，估计时并不要求精确估计 L。估计的目标是改进反事实预测的精度和鲁棒性。

[0:28-0:43] SDID估计方法。 - 单位权重 ω̂ 的构造（幻灯片第10页上）：通过带常数项、非负和为一、带ridge惩罚的回归，在前期拟合处理组趋势。常数项的加入使得SC对凸包假设有放松（转写[0:30:25-0:30:53]）。 - 时间权重 λ̂ 的构造（幻灯片第10页下）：类似，但不使用ridge惩罚（因为要允许权重聚焦于近期时间点，而非分布到全时期；转写[0:31:05-0:31:42]）。 - 最终SDID估计（幻灯片第11、12页）：对 Y_it = γ_t + α_i + τ W_it 做 加权最小二乘回归：每个观测 (i,t) 的权重为 ω̂_i * λ̂_t。幻灯片给出了一个2x2表格形式来展现加权平均的四项结构，非常清晰。

[0:43-0:51] SDID的稳健性与双稳健性。 - 双稳健性（幻灯片第13页）：报告声称SDID是双稳健的。解释：如果单位权重好（能消除单位间的混淆），即使双固定效应模型误设，也是渐近无偏的；如果双固定效应模型好（接近真模型），即使单位权重不太理想，也是渐近无偏的。这通过上述加权回归隐含实现。 - 与矩阵补全方法的比较（幻灯片第14页）：Athey et al. (2018)提出的MC方法（核范数正则化）属于另一种从低秩假设出发的完整估计，但会更直接地估计整个 L 矩阵。SDID在某种程度上对处理时空块的预测进行了“定制”。

[0:51-0:57] 理论结果与理解策略（需谨慎对待转写细节）。 - 主要策略：幻灯片第16页提出“oracle weights”（伪真实权重）的概念——在知道 L 和 ε 分布的情况下，最小化期望风险得到的最优权重 ω*, λ*。证明思路是：估计的 ω̂、λ̂ 收敛到或acles权重，然后基于oracle权重的 τ* 有良好的性质（渐近正态）。 - 误差分解（幻灯片第18页）：τ̂ - τ ≈ (Deviation from Oracle) + (Oracle Noise) + (Oracle Bias)。讲者强调三个部分都需要被控制。 - 渐进正态的条件（幻灯片第22、38页）： - N1 或 T1 之一足够大（使中心极限定理可应用于处理块内的平均处理效应）。 - √min(N0, T0) >> 秩(L)；以及近似误差项的条件。 - 处理前和处理后的矩阵足够大，使单位和时间权重有充分的支撑，避免过度集中在少数单元。 - 误差项的行满足某种独立/弱相依性（如AR过程）。

[0:57:00-1:00:00] 模拟设计与结果。 - 模拟设计方法论的关键贡献（转写[0:51:41-0:53:43]）：讲者强力批评了标准做法——在真实数据上随机分配处理状态进行模拟。因为这默认了“处理状态与系统因素无关”，会高估所有方法的表现。 - 提出的更真实模拟流程（幻灯片第24、25页）： 1. 选择一个真实的数据集（如CPS收入数据，40年×50州）。 2. 用秩-4因子模型分解 Y 为固定效应 F、低秩 L、残差 E。 3. 从 E 拟合一个AR(2)模型。 4. 构建真实处理分配：基于真实法规（如最低工资法）的存在与否，用逻辑回归预测处理概率，并以该概率分配处理给各州。这确保了处理组拥有与结果因子相关的系统性特征（R²约0.3）。 - 模拟结果（幻灯片第26/27页）：在结构化分配下，SDID的RMSE始终低于DID和SC，并与矩阵补全（MC）相当。按讲者的说法，SDID是“在所有情景下做得都比较好的那个”。

[1:00-1:03] 回看加州烟草数据案例。 - 展示了加州实际数据（紫线）和SDID的构造（蓝线；“zizag”部分用以展示时间权重集中在最后三年）。 - 估计值：DID为-27.4 (se 16.4)，SC为-20.1 (se 7.7)，SDID为-13.4 (se 7.6)。SDID的估计效应更小，SE也较小（与SC相近 vs DID很大）。 - 解释：SC由于需拟合整个17年前期，可能在最后几期已经出现偏离；DID因对所有单位等权重（使用低信息量的单位）而方差巨大且可能偏误。SDID通过聚焦信息量最高的时期和单位得出更稳健且更合理的估计。

[1:03-1:07] 结论与问答。

四、对应论文与开放问题¶

(a) 对应论文：

本报告的主要工作直接对应： - Arkhangelsky, Athey, Hirshberg, Imbens, and Wager (2021), Synthetic Difference-in-Differences, originally arXiv:1812.09970, also published as NBER Working Paper No. 25532. - 报告中还紧密关联：Athey, Bayati, Doudchenko, Imbens, and Khosravi (2018), Matrix Completion Methods for Causal Panel Data Models, arXiv:1710.10251.

(b) 报告留下的开放问题（每条扎入转写/幻灯片）：

时间权重的正则化选择：讲者提到对于时间权重没有使用正则化惩罚（结构化分配时间权重聚焦于最近几期），并指出“这个选择有点ad hoc……依然是个开放问题”（转写[0:31:42-0:32:22]）。你的可用工具：从 moderately_familiar 中的半参数理论出发，考虑一种数据驱动的模型选择（如交叉验证）来确定是否需要对λ添加局部性或正则化惩罚。这在计算上很轻量。
处理效应异质性：在问答中，观众问及扩展到Heterogeneous Treatment Effects（HTE），例如用因果森林。讲者认为在“强信号”情况可以轻松操作，但对“弱信号”（目标真实效应小、噪声大）时需警惕虚假发现（转写[0:37:12-0:38:40]）。你的可用工具：可以探索一个两步法：先用加权DID估计 τ̂ 作为反事实，然后用 \(\hat{\tau}_{i}=\overline{Y}_{i,\text{post}} - \hat{Y}_{i,\text{post}}(0)\) 对协变量做推断性回归（如 higher-order U-statistics 或近似推断）。这可以利用你已经熟悉的 U-统计量和 M-估计。
迭代估计单位和时间权重：听众提问是否可以联合/迭代估计单位权重和时间权重以获得更优性能。讲者和Imbens都承认这是个理想方向，但联合优化会导致“过拟合并选取少数最相似的单元格”，且最终性能可能有限（转写[0:39:42-0:41:50]）。判断：这看起来不是一个低垂果实，可行性存疑。
理论假设的进一步放松：报告的理论渐近性假设了 √min(N0, T0) >> rank(L)。当 N0 和 T0 数量级相近但秩相对较高时，理论失效。同时，报告假设了误差项行是独立同分布或弱相依。这为使用随机矩阵理论或高维统计的工具来刻画更一般的误差结构（如强空间/时间相依性）提供了可能。你的very_familiar工具箱中包含了高维渐近理论和随机矩阵理论，正好可以用来攻击这个理论边界。
模拟设计的推广：报告提出的基于真实法规的逻辑回归模拟设计是一个重要的方法论贡献（转写[0:51:41-0:56:36]），但目前只用于类似于 DGP 一一匹配的情景（即使用真实数据分解）。扩展问题：为给定的面板数据实例设计“最具有破坏性的”模拟（adversarial simulation），其中一种已知的方法（如DID）表现极差，而SDID是否依然表现良好。这可以帮助实际研究的敏感度分析。

Maintained by 陈星宇 · Homepage · Source on GitHub