Synthetic Controls for Experimental Design¶

讲者: Alberto Abadie
讨论人: Dmitry Arkhangelsky
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-18
主题: 因果推断
视频: https://youtu.be/FeS9a_USwqA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向：将合成控制（Synthetic Control, SC）方法从观察性研究拓展到实验设计。 这条工作线直接回答一个实践中的核心矛盾：当干预必须在聚合层面（如城市、市场、地区）部署时，随机化实验（如个体层次的A/B测试）往往不可行或无效，而仅仅随机化少数几个聚合单元又会造成“垃圾设计”（treated unit 与 control units 在特征上严重不匹配）。

标准 SC 的故事（Abadie, Diamond & Hainmueller 2010, 2014; 以及大量后续工作）：给定一个受干预的单元（如加州、巴斯克地区）和一个不受干预的 donor pool，SC 通过求解权重使得 pre-treatment 结果与协变量的加权组合逼近 treated unit 的 pre-treatment 轨迹，然后用该加权组合作为反事实估计干预效果。这里 treated unit 是“给定的”——讲者不能选择谁被处理。

这场报告在追问：如果实验者可以自由选择哪些单元被处理、哪些作为 donor，那么我们应该如何选择？这变成了一个设计问题，而非估计问题。核心在于：(1) 选择一个 synthetic treated unit (由带权重 w 的 unit 构成) 使其特征代表总体；(2) 选择一个 synthetic control unit (由带权重 v 的单元构成) 使其特征匹配 synthetic treated unit 的反事实。wr 和 v 是非负、和为1、每个单元只能属于其中一个。目标是在预算约束（最多只能处理 n̄ 个单元）下最小化估计偏差。

本研究的定位：它不是在已有的 SC 估计方法上修修补补，而是提出了一个新的问题框架——SC 式的设计选择。该方法在工业界已有广泛应用（如 Uber、DoorDash 的聚合层实验），但学术文献还很少。报告提及的关键前序工作：(a) De & co-authors 的“Synthetic Controls for Experimental Design”类论文（讲者名字听不清，待核实）; (b) Chamberlain (2017, 2020?) 或类似 Uber 的内部方法（“Johann & Barrow from Uber”，名字不确定）。报告本身来自 Abadie 与 Jinglong Zhao（正在线嘉宾）合作的工作论文。

二、最小内核 / 一个最简例子¶

数据设定：一个面板，有 J 个单元 (j=1,…,J)，观测时段 t=1,…,T。实验者站在 T0 时刻（实验前），拥有 T0 个 pre-intervention 时段。实验将在之后 T1 个时段展开（整个 T1 期所有被选为 treated 的单元都受干预）。即：所有 pre-intervention 数据可用，实验是“全时段端到端”的（而非随时间推出）。

模型与符号： - 潜在结果：Y_{jt}(0) = 如果没有干预的潜在结果；Y_{jt}(1) = 如果有干预。 - 观测结果：Y_{jt} = W_j·Y_{jt}(1) + (1-W_j)·Y_{jt}(0)，其中 W_j ∈ {0,1} 是实验阶段的处理分配（固定整个 T1 期）。 - 目标 estimand：平均处理效应 ATT（population average treatment effect）， θ = 1/J Σ_j (1/T1) Σ_{t=T0+1}^{T0+T1} [Y_{jt}(1) - Y_{jt}(0)]，其中总体权重可以是均匀的（f_j=1/J）或与城市人口/市场规模成正比。

合成控制设计中的核心结构：实验者选择两组权重 w = (w_1,…,w_J) 和 v = (v_1,…,v_J)，均非负且和为1，且每个 j 只能使 w_j>0 或者 v_j>0（不能同时>0）。解释： - w_j > 0 的单元被分到 treated 组，组成 synthetic treated unit； - w_j = 0 的单元组成 donor pool，其中 v_j > 0 的单元贡献给 synthetic control unit。

估计量：在实验结束后，观测到 Ŷ̄treated = Σ_j w_j Y{jt} (含有干预); Ŷ̄control = Σ_j v_j Y{jt} (无干预); 估计的 ATE_{t} = Ŷ̄_treated - Ŷ̄_control; 再对 T1 期取平均。

最简例子（J=3, T0=2 个拟合时段, T1=1 个实验时段, n̄=1）： - 3 个城市：A、B、C。只有一个可以接受干预（n̄=1），其余两个是 donor。 - 两个 pre-intervention 时段（t=1,2）作为 fitting periods。 - 实验者要决定哪个城市被处理，以及如何从 donor pool 中构造 synthetic control。 - 例如，若选 A 为 treated（w_A=1, w_B=w_C=0），则 donor pool={B,C}，v 可以取 (v_B=0.6, v_C=0.4)。合成估计量 = Y_{A,post} - (0.6·Y_{B,post} + 0.4·Y_{C,post})。 - 目的是使得设计能代表总体（比如这三个城市的平均特征），并且 synthetic control 的 pre-treatment 轨迹与 A 的反事实接近。

讲了这段核心思想后，报告提出如何通过优化选择 (w,v)：最小化 synthetic treated 与 synthetic control 在 pre-treatment / fitting period 中预测变量的差异，同时保持 synthetic treated 能代表总体（即 Σ_j w_j·X_j ≈ 总体平均 X̄），以及约束预算 (∑ w_j ≤ n̄)。这是该框架的最简可理解版本。

三、报告主体：讲者讲了什么¶

[0:01:05–0:05:18] 动机例子：美国一家网约车公司想评估提高司机激励的效果。起初考虑在单个城市内随机分配司机到 treatment/control，但引发公平性（同城不同薪资）和干扰（treated 司机工作更久会抢走 control 司机订单）问题。然后考虑跨城市随机化，将所有城市的一半归为 treatment 一半归为 control，但发现昂贵、难回退、且若城市数量少则统计无效。最终决定只在一两个城市试点，核心问题是选择哪个/哪些城市作为 treated。

[0:05:18–0:06:41] 随机化在单元很少时可能产生“very defective designs”（treated 与 control 在特征上差异很大）。因此提出非随机化实验，用合成控制思想直接去选择 treated 单元与 control 单元以达到平衡。

[0:08:54–0:12:45] 符号与概念： - J 个单元，T0 个 pre-experimental 时段，T1 个 experimental 时段。 - 潜在结果 Y_{jt}(1), Y_{jt}(0)；观测结果 Y_{jt}；处理效应定义为差值。 - 目标 estimand: 加权总体平均处理效应 θ = Σ_j f_j (1/T1) Σ_t [Y_{jt}(1)-Y_{jt}(0)]。权重 f_j 通常是 1/J，也可用人口权重。 - 设计选择 w 和 v（非负、和为1、互斥）。 - 估计量：Ŷ̄_treated(t) – Ŷ̄_control(t)。

[0:12:45–0:14:35] 设计的理想目标： - 理想情况 1+2：synthetic treated 的平均结果=总体 treated 平均；synthetic control 的平均结果=总体 control 平均 → 则估计量直接等于 ATT。 - 备选目标 3（讲者提到的 De 等人论文所用）：synthetic control 匹配 synthetic treated 的未处理反事实 → 得到 ATT on the treated（即 ATET）。 - 实际中只能拟合 predictors（包括 pre-treatment 结果和其他协变量）。

[0:14:57–0:19:48] 设计选择算法： - 定义 fitting periods（T_e 个时段），可以是全部 pre-intervention 时段，但如果保留一部分作为 blank periods 对后续推断有利。 - 构造 predictor 向量（包括 fitting periods 的结果及其他协变量），并计算总体平均 X̄。 - 基本优化问题：选择 (w,v) 使得 Σ_j w_j· X_j ≈ X̄ 且 Σ_j v_j· X_j ≈ X̄，约束 w_j, v_j ≥ 0, Σ w_j = Σ v_j = 1, 且 w_j 与 v_j 不能同时>0。此外，加预算约束 Σ w_j ≤ n̄（最多处理 n̄ 个单元）。 - 性质：问题在 w 与 v 上几乎对称，除预算约束外。因此对称结构会导致最优解中存在互换 W 和 V 的可能性，论文讨论了如何选择。 - 变体：对每个 treated unit 分别拟合 synthetic control（而非统一的一刀切），然后通过一个参数 ξ 调控对总体匹配（population representation）与对 treated unit 单独匹配（ATT vs ATET）之间的权衡。

[0:19:48–0:20:50] 聚类想法：在 predictor 空间中对单元聚类，再从每个簇中抽取一个 treated 单元（如三个簇各选一个 treated 代替三个都从同一个簇中选），这样设计更稳健。图示：数据点有清晰三个簇，选 red 点在中间（不合理） vs 每簇一个（合理）。

[0:20:52–0:24:02] 估计性质（理论分析）： - 采用标准因子模型作为潜在结果 DGP（不使用干预时模型的自然延伸，但加上了干预时的表达式）： Y_{jt}(0) = δ_t + λ_t'·μ_j + θ_t'·C_j + ε_{jt} Y_{jt}(1) = Y_{jt}(0) + τ(D大项，具体未展开) - 保号：若 synthetic treated 与 synthetic control 都能精确再现 X̄ 和内在因子部分（μ_j），则偏差上界为 O(σ_ε / √T_e)，其中 σ_ε 是噪声的方差代理，T_e 是 fitting periods 数。这一上界来自过拟合效应：如果拟合主要来自噪声而非真实因子 μ，则偏差大。 - 若不精确匹配（有残差），则偏差上界增加一个与拟合误差成正比的分量。

[0:24:59–0:29:01] 推断方法： - 利用 blank periods 的安慰剂效应做检验。基本思路：假设在某些时段（blank periods）无处理效应，则在这些时段得到的估计量（安慰剂）应与实验期的估计量有相同分布（若交换性成立）。通过比较某种检验统计量（如 mean absolute error）来获得 p 值。 - 优点：(1) 即使 λ_t 不满足严格交换性，当 T_e 大时结果仍近似有效；(2) 允许 Y_{jt} 有趋势、季节性（通过 δ_t + θ_t·C_j 部分实现），而以往结果常要求 Y_{jt}(0) 是 i.i.d.。 - 另一种方法：若假设干预不影响个体暂态冲击 ε 的分布，则可用 blank periods 的安慰剂效应分布构造置信区间。

[0:29:11–0:31:28] 实证示例：Walmart 数据（45个店铺, 143周, 100 fitting + 28 blank + 15 实验期）： - 目标是估计零效应（因为并无真实干预）。合成控制设计拟合得很好：synthetic treated 与 synthetic control 在 fitting/blank 期高度吻合，实验期也接近零，p 值大，区间含零。

[0:31:32–0:35:23] 模拟（15 个单元, 20 fitting + 5 blank + 5 实验期）： - 展示一个代表性模拟：在拟合和空白期零效应，在实验期有处理效应，检验能拒绝零假设。 - 转写中提到对比“unconstrained case”（任意 w 与 v 单位数）与“constrained case”（限制只有1/2/3个 treated 单元）。未约束时偏差最小，但即使只有1~3个 treated 单元，表现也“quite well”。 - 零效应假设下的 p 值分布接近均匀。

[0:35:23–0:37:20] 对比：合成控制设计 vs 随机化 vs 分层（stratification）： - 在单元少时，随机化可能导致很差的平衡，而合成控制设计有显著更低的 RMSE。 - 分层在仅有一个 treated unit 时退化为随机化（每个 stratum 至少需要1 treated unit），在多 treated 单元时改进也不明显。 - 事后调整（post-stratification adjustment, regression adjustment）在当前模拟（15 unit, 协变量多）中效果差。

[0:37:48–0:41:12] 总结评论： - 实验≠随机化；实验是干预研究，可以非随机化。 - 当实验单元少、干预在聚合层部署时，随机化可能不是最佳方法。 - 本方法给出一个选择 treated/control 单元的优化框架，适合在 industry A/B tests 和学术情境中有类似约束的研究。

四、对应论文与开放问题¶

(a) 报告对应的论文： - 转写中提到“this is a working paper with Jinglong Zhao”，标题即“Synthetic Controls for Experimental Design”。 - 可搜索：Abadie, Zhao, “Synthetic Controls for Experimental Design”, 2024 或 2025。尚无 arXiv 或正式发表记录（待核实）。 - 讲者及嘉宾还提及一篇相关论文：De & co-authors (名字听不清，可能为 “De Dacon” 或类似) 以及 Chamberlain 等 Uber 内部工作。

(b) 开放问题（从转写中提取，每条都有时间点）： - [0:35:23-0:37:20] 当单元数很少（如15个）、协变量多时，事后回归调整的效果差。是否能设计更好的变体（如正则化或降维）以处理高维协变量？ - [0:41:12-0:43:45] (讨论者提问) 处理分配 w(·) 直接依赖于过去结果（即过去误差），这与标准 SC 假设（过去误差与 future 独立）冲突。这会导致何种偏差，如何量化？ - [0:47:48-0:48:33] (讨论者建议) 是否可以先对面板数据拟合一个参数模型（如线性因子模型），然后从拟合模型仿真大量的 assignment 结果，将得到的平均估计量视为一种“袋装合成控制”？这样可提供实验框架保证，并可能减少离散性带来的波动。 - [0:48:48-0:49:27] (讲者回应) 是否可以在合成控制之间结合基于模型的推断（如 parametric bootstrap）与纯设计推断（permutation）？讲者觉得这是一个方向，但尚不清楚收益。 - [0:49:27-0:50:50] (讨论者建议) 对不同的 panel 数据模型（如 AR、状态空间模型），对应的设计方法会不同。讲者也认可这一点（如 bar 模型可能更好）。 - [0:50:52-0:51:12] (讲者结尾) 推断方法能否在单一手法下适配不同模型，同时避免“researcher degrees of freedom”？

Maintained by 陈星宇 · Homepage · Source on GitHub