A Bayesian Alternative to Synthetic Control for Comparative Case Studies: A Dynamic Multilevel Latent Factor Model with Hierarchical Shrinkage¶

讲者: Yiqing Xu and Xun Pang
讨论人: Dmitry Arkhangelsky
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-07-21
主题: 因果推断
视频: https://www.youtube.com/watch?v=BAX_VuIPMf0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于 「比较案例研究」（comparative case studies）中的因果推断 这一子方向。这个子方向追问的是：当你只有一个或很少几个接受处理的单位（如一个国家、一个州），而控制组（donor pool）也很小，处理非随机分配，且有未观测到的时变混杂因素时，如何可信地估计处理效应并量化不确定性？

奠基与主流路线： - 合成控制法 (SCM)（Abadie, Diamond & Hainmueller, 2010, 2015）：标志性工作。用控制组的凸组合构造处理单位的反事实，高度透明、可解释；但推断困难，主要依赖安慰剂检验而非形式化推断。SCM 的核心优势是利用截面相关性而非时序相关性来构造反事实，因此不依赖平行趋势或时序可忽略性假设。 - 因子模型方法：以 Xu (2017) 的交互固定效应（interactive fixed effects）模型为代表，假定未处理的潜在结果服从因子结构（Y_it(0) = λ_i' f_t + ε_it），并利用控制组数据估计因子与载荷，预测处理组的反事实。这类方法处理多个处理单元和交错采纳时很自然，但推断仍依赖大样本渐近。

当前前沿与竞争者：近年来发展了多种方法试图同时解决识别、估计和推断问题： - 双重稳健方法：Ben-Michael, Feller & Rothstein (2019) 提出的增强合成控制（augmented SCM）；Arkhangelsky et al. (2018) 的合成差中差（synthetic DiD）。 - 回归与惩罚方法：Doudchenko & Imbens (2017)；Hsiao, Ching & Wan (2012) 的基于最佳子集回归的方法。 - 贝叶斯方法：Brodersen et al. (2014) 的 CausalImpact（基于状态空间模型，但仅限单个处理单元，不利用截面信息）；Samartsidis et al. (2020) 的贝叶斯因子模型（但报告指出其不允许协变量，识别假设不明确）。

这场报告的站位：讲者声称要提供一个完整的贝叶斯替代方案，其目标是： 1. 为单个或多个处理单元的比较案例研究提供有效的贝叶斯推断（后验分布、置信区间）。 2. 明确所依赖的识别假设（特别是「潜可忽略性」+「可行数据提取」），这是该领域许多工作未能清晰阐述的。 3. 利用动态多层因子模型 + 贝叶斯层次收缩，实现模型规范和变量选择的自动化（避免交叉验证等在数据量小时不可靠的方式），并保持灵活性和稀疏性。 4. 提供一个开源 R 包（C++ 后端）给应用研究者。

关键参考文献（根据幻灯片+转写，听不准的用“（可能）”标注）： - Abadie, Diamond & Hainmueller (2010, 2015) - Abadie (2020) — JEL 综述 - Hahn & Shi (2017); Firpo & Possebom (2018) — 指出 SCM 推断困难 - Ferman, Pinto & Possebom (2020) — 分析 SCM 中研究者自由度导致过度拒绝 - Xu (2017) — 交互固定效应模型的典型代表；此报告的讲者之一 Yiqing Xu 正是该文的作者 - Athey et al. (2018) — 矩阵补全方法 - Bai & Ng (2020) — 因子模型 - Ben-Michael, Feller & Rothstein (2019); Arkhangelsky et al. (2018) — 双重稳健方法 - Brodersen et al. (2014); Samartsidis et al. (2020) — 已有贝叶斯方法，报告指出其不足 - 讨论人 Dmitry Arkhangelsky 提及的两篇 econometric 论文（用于理解此类问题的理论结构）： - (a) Moon & Weidner (2017?), 《Econometrica》, 关于交互固定效应模型（有空间命题?）中潜变量被“固定在模型中”的大 T 渐近性质，讨论先验应满足何种条件。 - (b) 可能为 Arellano & Bonhomme (2009) 或 Bai (2009)——文中提到“马尔科夫链”和“维数关注”（“the dimension of them components matters a lot”），不确定具体是哪篇，但指的是处理未观测异质性时贝叶斯推断对模型维数的敏感性。

二、最小内核 / 一个最简例子¶

符号与模型： - 可观测数据：一组面板数据，有 N 个单位，T 个时间点。对于每个单位 i，观测到结果 Y_it，处理指示 W_it ∈ {0,1}（0 = 未处理，1 = 处理），以及可能的协变量向量 X_it。 - 潜在结果框架（SUTVA + 交错采纳）： - 假设每个单位 i 在某个时间点 A_i（A_i ∈ {1,...,T, ∞}）开始接受处理，且一旦开始就持续接受处理（staggered adoption）。 - 潜在结果 Y_it(0) 和 Y_it(1)，前者是未处理的潜在结果，后者是处理的潜在结果。 - 观测到的结果 Y_it = W_it * Y_it(1) + (1-W_it) * Y_it(0)。 - 待估因果量：处理组中处理后的平均处理效应（ATT），可以是随时间动态的，即 δ_t = E[Y_it(1) - Y_it(0) | W_it=1, A_i ≤ t]。 - 核心挑战：Y_it(0) 在 W_it=1 时是缺失的（反事实）。我们需要为处理组中的单位在 t ≥ A_i 后的时间段预测其反事实。

一个最简特例： - 设定：N=10 个单位（1个处理单位 + 9个控制单位），T=20 个时间点。处理发生在 t=11，且只处理这一个单位（A_1 = 11，其他 A_i = ∞）。无协变量（X 为空）。 - 讲者的核心思想： 1. 识别假设（潜可忽略性）：反事实 Y_it(0) 与处理分配 W_it 不是独立的，但它们之间所有相关性都可以通过一个（或几个）潜变量 U_i（一个随时间变化的值/向量）来解释。即：在给定 U_i 和历史的情况下，处理分配与潜在结果是独立的。这个 U_i 正是我们需要从数据中学习的东西。 2. 可行数据提取：这个潜变量 U_i 可以被近似为 U_i ≈ λ_i' f_t，即一个低秩的因子结构（K 个潜因子 f_t 与单位特定的载荷 λ_i）。这正是因子模型的设定。 3. 估计策略： - 第一步（“学习潜变量”）：只使用所有单位在处理前（t=1..10）以及控制组单位在所有时间（t=1..20）的观测结果 Y_it。假设这些“未处理”的结果（即 Y_it(0)）都服从因子结构 Y_it(0) = λ_i' f_t + ε_it。利用贝叶斯 MCMC，我们可以估计出潜因子 f_t 以及所有单位的载荷 λ_i（包括处理单位的 λ_1，因为它在处理前有数据）。 - 第二步（“预测反事实”）：假设因子模型在处理后也成立。利用估计得到的 f_t（对于 t=11..20）和处理单位的载荷 λ_1，我们可以在贝叶斯框架下预测处理单位在 t=11..20 的反事实 Y_1t(0)。具体来说，从后验分布中抽取参数，生成 Y_1t(0) 的预测分布。 - 第三步（“推断因果效应”）： - 个体处理效应：δ_1t = Y_1t(obs) - Y_1t(pred)，其中 Y_1t(obs) 是观测到的真实结果。 - 平均处理效应（只处理一个单位，即为 δ_1t 的平均）：计算 δ_1t 的后验分布，给出点估计和 95% 置信区间。 - 为什么“最简”： - 没有协变量，没有变系数，只有最简单的线性因子模型。 - 处理只影响一个单位，且只在一个时间点开始，避免交错采纳。 - 但即使在这种最简单的情况下，贝叶斯推断的优势已经显现：我们不需要依赖大样本渐近理论（因为只有1个处理单位），而是直接从后验分布中得到量化不确定性——这正是 SCM 和许多频率学派方法的困难所在。

三、报告主体：讲者讲了什么¶

(1) [0:05:00-0:11:00] 开场与动机 - 整理结构：Yiqing Xu（斯坦福政治学）介绍研究背景，点明比较案例研究的三个特征：处理单位少、处理非随机、效应高度异质性。 - 两个例子：西德统一（single treated unit）与选举日登记（staggered adoption），直观展示平行趋势假设难以成立。 - 总结 SCM 的优点与挑战： - 优点：利用前处理期结局、利用截面相关性（而非时序相关性）、凸组合可解释、预留测试期（安慰剂检验）。 - 挑战：一次只能处理一个单位，推断困难（Hahn & Shi, 2017; Firpo & Possebom, 2018）；研究者自由度导致过度拒绝（Ferman, Pinto & Possebom, 2020）；有时找不到好的凸解。

(2) [0:11:00-0:17:00] 其他方法的缺点与本研究的目标 - 幻灯片列出其他方法及缺点： - 回归/惩罚方法（Doudchenko & Imbens 等）：推断困难，依赖大 T 和 N，交叉验证不可靠，模型选择不确定性未纳入。 - 因子模型方法（Xu 2017 等）：同上。 - 双重稳健方法：同上。 - 已有贝叶斯方法（Brodersen 2014; Samartsidis 2020）：不利用截面相关/B，不处理协变量，识别假设不清晰/不清楚。 - 本研究的目标： - 为比较案例研究提供有效的贝叶斯推断。 - 全贝叶斯（全先验+后验），将反事实视为缺失数据。 - 半参数味道：灵活的动态因子模型 + 随机变量选择（随机模型规范搜索）。

(3) [0:17:00-0:25:30] 核心识别框架（Yiqing Xu 主讲） - 正式定义： - 每个单位 i 有采纳时间 A_i，处理矩阵 W 由此确定。 - SUTVA 假设（无干扰）：单位的潜在结果只受自身的处理状态影响。 - 由于交错采纳，潜在结果可简化为 Y_it(0) 和 Y_it(1)。 - 因果参数： - 个体效应 δ_it = Y_it(1) - Y_it(0)（对处理单位 t ≥ A_i 感兴趣）。 - ATT by duration: ATT(p) = E[δ_it | W_it=1, t - A_i + 1 = p]（动态效应曲线）。 - 关键识别假设（“最小内核”的核心）： - (a) 潜可忽略性（Latent Ignorability）：假定存在一个(组)潜变量 U_i，使得在给定 U_i 和观测协变量的条件下，处理分配与潜在结果条件独立。定理：P(W | Y(0), Y(1), X) = 乘积 P(W_i | U_i, X_i ...)，且如果 U_i 可以被数据学习，则此条件可被用于忽略处理机制（即不建模处理分配）。 - (b) 可行数据提取（Feasible Data Extraction）：假定 U_i 可以被一个低秩矩阵（即因子结构 λ_i' f_t）充分近似。这是该报告核心的模型假设，也是其与一般因子模型方法（Xu 2017）最直接的连接。它保证了我们可以从未处理的数据（控制组+处理后前的处理组）中学到 U_i 的“代理”。 - (c) 条件可交换性（Conditional Exchangeability）：给定 U_i，Y_i(0) 与 Y_j(0) 之间除了 U_i（通过因子结构捕捉的结构性差异外，没有系统性的跨单位信息）。这允许跨单位折叠信息，用于后验预测。

(4) [0:28:00-0:46:00] 建模与计算细节（Xun Pang 主讲） - 模型设定（动态多层因子模型）： - Y_it(0) = X_it' β_it + λ_i' f_t + γ_t + ε_it - X_it' β_it：协变量的贡献，系数可以是单位线性或时间规律（以捕捉时变关系）。 - λ_i' f_t：动态因子项，这是建模未观测潜变量的核心。因子 f_t 和载荷 λ_i 可以是时变的（例如，f_t 遵循 AR(1) 过程），以允许潜变量随时间演变。 - γ_t：时间固定效应。 - ε_it：噪声（允许异方差、序列相关，但不强制默认 i.i.d.）。 - 关键创新：不预先指定因子个数 K，而是通过贝叶斯 LASSO 对载荷的方差进行层次收缩。具体而言： - 对每个潜在的因子 k，其载荷 λ_{i,k} 有一个公共的方差参数 ω_k。 - 将 ω_k 视为一个超参数，对其施加一个（接近）平坦的 Gamma 先验。 - 如果 ω_k 的后验分布明显呈双峰（bimodal, around zero），意味着该因子被“保留”了；如果后验集中在 0（unimodal, concentrated near 0），则意味着该因子被“收缩/排除”了。 - 这是该报告的一个技术亮点：通过一个巧妙的重参数化（reparameterization），将变量选择（变量是否变系数、因子是否纳入）整合进了 MCMC 采样中，避免了交叉验证。讲话者 PANG 说：“we do not need them to be identified... we just treat this as a permutation... to ensure... symmetrical bimodal... shrink...”。 - 随机模型规范搜索（SSVS）：在 MCMC 的每一步，算法会从模型空间（是否包含某个因子、某个协变量是否变系数）中采样。最终的后验均值实际上是模型平均的结果，天然地纳入了模型选择不确定性。

(5) [0:39:00-0:50:00] 模拟与实证 - 模拟：生成数据：50 单位，30 期，5 单位在 21 期开始被处理。处理与潜因子相关。模拟 ATT 设定为随处理时长递增。 - 结果：ID 方法（即忽略潜变量的简单固定效应 DID）严重有偏；报告的方法估计准确，后验区间覆盖好。 - 因子选择：后验 ω_k 的双峰/单峰形态正确识别了真正的因子数量（K=2）。 - 实证 1：西德统一： - 点估计与标准 SCM 相似，但提供了每年的贝叶斯后验区间，包括前处理期（极窄）。 - 安慰剂检验（设置 1985-1989 为虚拟处理期）：未发现显著效应，验证了模型预测的准确性。 - 因子选择：从 10 个候选因子中选择了 4 个（双峰迹象明确）；所有协变量的载荷都被收缩到 0（意味着因子和时间趋势即可解释 GDP 动态）。 - 实证 2：选举日注册： - 重点比较了贝叶斯后验区间与参数 Bootstrap 的频率置信区间。贝叶斯区间在后处理期（prediction period）明显更窄。 - 讲者归因于：(i) 先验信息（即使使用平坦先验）；(ii) 层次模型（跨单位/跨时间借用信息）；(iii) 动态建模（因子和系数的自回归结构提升预测）。

(6) [0:50:00-1:05:00] 讨论与开放问题 - 讨论人 Dmitry Arkhangelsky： - 关键观点 1：这个贝叶斯方法本质上是依赖于一个灵活的结果模型 + 潜可忽略性，从而避免建模处理机制。这对于小样本是合理的（仅一个处理单位，其处理分配信息对后验贡献很弱），但在更一般的情况下，这可能会丢失宝贵信息。 - 关键观点 2：与 SCM / 传统面板计量方法的哲学对比：SCM 不试图学习整体 DGP，而是寻找平衡/变换（如凸组合），使得潜在混杂被“调整掉”；这更透明、对模型错误设定更稳健，但牺牲了形式化推断。本报告的方法提供了形式化推断，但付出了更严格的模型假设的代价。 - 关键观点 3：潜变量维数（此处为因子个数）非常重要——这与 Moon & Weidner (2017) 和另一篇（可能 Arellano & Bonhomme）的结论一致：先验选择会影响结果。 - Q&A 问题（一个）：目标参数是否相当于观测数据的一个显式泛函？讲者未给出显式闭解（这不符合半参数理论要求）。回答可能涉及与因子模型辨识性相关的问题（字幕不清晰，[1:02:00-1:04:00]）。

四、对应论文与开放问题¶

(a) 对应论文 这场报告对应的工作是 Pang, Liu, and Xu (2020?), 题为 "A Bayesian Alternative to Synthetic Control for Comparative Case Studies: A Dynamic Multilevel Latent Factor Model with Hierarchical Shrinkage"。幻灯片标注为“极其初步的工作”。合作者：Xun Pang（清华）、Licheng Liu（MIT 博士生）、Yiqing Xu（斯坦福）。没有提供 arXiv 链接或期刊信息。该工作对应的应用软件/包：一个以 C++ 为后端的 R 包，名称尚未在转写中提到。

(b) 报告留下的开放问题（每条扎根于转写/幻灯片的具体点）

潜可忽略性假设的适用边界：讨论人 Dmitry 的核心质疑。该假设了处理分配信息对后验的贡献相对于结果模型的信息可被忽略。对于只有一个或几个处理单位的场景，这可能合理（Dmitry 也认同）。但当处理单位更多、处理分配机制非随机且不可忽略时，忽略它会引入多大的偏差？这个假设（以及由此产生的“不建模处理分配”行为）何时是安全的？[0:59:00-1:01:00, Dmitry 讨论部分]
贝叶斯推断对模型规范（特别是潜变量维数/因子个数）的敏感性：Dmitry 指出，Moon & Weidner（以及另一篇）强调了这里潜变量维数（本报告中通过层次收缩的 ω_k 决定）影响极大。报告中的模拟和实证显示因子选择在人工数据中工作良好，但“基于经验数据集...结果不像模拟中那样清晰”（[0:45:00]）。问题： 当真实潜变量结构不是严格的低秩因子（比如是更复杂的高维非线性结构）时，基于这种“可行数据提取”近似推断的反事实后验区间有多稳健？这是一个开放的方法论问题。
结果模型与效应模型的不对称性：Dmitry 的观察。报告对基线（Y(0)）使用了非常灵活的因子模型，但对处理效应 δ_it 则完全没有建模（直接取后验差）。“基准模型超级灵活，但效应模型完全自由”——当 N 较大、处理交错发生时，这可能至少是信息效率的损失。开放问题： 能否对称地建模干预效应（例如，假设 δ_it 也服从某种低维结构）来提高效率？这在哪些设计下是可行的？
合成控制法透明性的一种牺牲：报告的方法是一个“参数丰富”的模型，正因模型复杂，研究者难以了解“每个控制单位贡献程度”（“it’s very difficult to know each donor’s contribution...”，[0:50:00]）。这是它相对于传统 SCM（其权重就是单位权重）的一个劣势。开放问题： 能否在这样的贝叶斯框架下设计出具有与 SCM 同等透明度的模型诊断或解释工具？

Maintained by 陈星宇 · Homepage · Source on GitHub

A Bayesian Alternative to Synthetic Control for Comparative Case Studies: A Dynamic Multilevel Latent Factor Model with Hierarchical Shrinkage¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论