Better Than Difference in Differences¶

讲者: Andrew Gelman
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-09-19
主题: 因果推断
视频: https://youtu.be/Sya-s-wibnw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：在多实验（或多时间点）设置下，如何处理有噪音的控制组数据——在偏倚校正与方差控制之间自适应权衡。

这个大方向在追问什么：当研究者手握两个备选估计量——一个无偏但高方差（如差值估计，Difference-in-Differences），另一个有偏但低方差（如仅用实验组估计）——如何根据数据本身决定使用哪一个，或构造一个介于二者之间的折中方案。
奠基与主流路线：
- 标准做法（讲者称为“默认”或“保守”做法）是无条件做差值估计（y_{j1} - y_{j0}），因为它在模型（1）下无偏。代价是方差加倍（若两个标准误相同）。这在经济学、政治学、流行病学的面板数据或DID中很常见。
- 另一种极端是只用实验组数据 y_{j1}，在认为偏倚可忽略时效率更高。Borusyak & Jaravel (2017) 以及 Goodman-Bacon (2021) 等DID诊断文献指出了无条件差分可能引入的“负权重”问题，但思路不同。
- 经典贝叶斯元分析（Smith, Spiegelhalter and Thomas 1995; Higgins and Whitehead 1996）通常只对处理效应做部分合并，但不建模偏倚。讲者引用了 Hill (2011) 和 Wager & Athey (2018) 作为正则化处理的代表。
- 测量误差模型：讲者在讨论中明确指出ANCOVA-style回归（以 y_{j0} 为协变量）可视为一种替代，但讲者认为最优做法是回归于潜变量 E[y_{j0}] 而非观测值，这本质上是一个测量误差模型。他在讨论中提及，在MCMC/Stan普及之前这种模型很难拟合。
当前frontier与这份报告站在哪：
- 这份报告（Gelman & Vákár, 2021, Statistics in Medicine）将贝叶斯分层模型同时应用于处理效应和偏倚，实现了自适应调整：当J足够大（如38个实验）时，超参数可从数据中估计，模型自动在“全差分”和“不做调整”之间插值。
- 与主流DID文献的分布式不同——主流DID在平行趋势假设下追求无偏性，而这个工作线从均方误差（MSE）出发，认为在有数次重复实验时，完全差分可能带来效率灾难。
- 报告明确留出了一个开放问题：在单次面板DID（J=1）的场景中如何应用这一思路，此时超参数无法从数据中估计，需要依仗先验。

点名关键工作（有把握的）： - Hill (2011) "Bayesian nonparametric modeling for causal inference"——贝叶斯树回归用于异质性处理效应。 - Wager & Athey (2018) "Estimation and inference of heterogeneous treatment effects using random forests"——正则化处理效应的频率派方法。 - Gelman & Vákár (2021) "Slamming the sham"——这场报告的对应论文。

二、最小内核 / 一个最简例子¶

符号与模型： - 可观测数据：对每个实验 j = 1,...,J，我们有 - y_{j1} = 从真实处理实验中得到的估计效应（如钙离子外流量差值），附带标准误 s_{j1}。 - y_{j0} = 同一频率下的“假处理”（sham）实验的估计效应，附带标准误 s_{j0}。 - 潜在变量： - θ_j = 实验 j 的真实处理效应（感兴趣的estimand）。 - b_j = 实验 j 的偏倚（共同由真实和假处理实验共享）。 - 模型（出自幻灯片第2节公式1-2）：

\[y_{j1} \sim \text{normal}(\theta_j + b_j, s_{j1}), \quad y_{j0} \sim \text{normal}(b_j, s_{j0})\]

\[b_j \sim \text{normal}(\mu_b, \sigma_b), \quad \theta_j \sim \text{normal}(\mu_\theta, \sigma_\theta)\]

- 三个候选估计量： 1. 仅用实验组：y_{j1}，方差 s_{j1}^2，但可能因 b_j ≠ 0 而有偏。 2. 差值估计（DID）：y_{j1} - y_{j0}，无偏（因为 b_j 消去），但方差为 s_{j1}^2 + s_{j0}^2（若 s_{j1} = s_{j0}，方差翻倍）。 3. 贝叶斯后验均值：从分层模型算出，会自适应地在 1 与 2 之间插值。

最简特例：J = 2 个实验，每个实验的标准误相同 s_{j1} = s_{j0} = 1（为方便假设已知）。 - 数据：实验1: y_{11}=0.5, y_{10}=0.01（sham 几乎零）; 实验2: y_{21}=0.6, y_{20}=0.5（sham 显著非零）。 - 如果用差值估计（DID): 实验1 θ̂₁ = 0.49（SE≈1.41），实验2 θ̂₂ = 0.1（SE≈1.41）。由于SE很大，两个都不显著。 - 如果用贝叶斯模型，置平坦先验于 (µ_θ, σ_θ, µ_b, σ_b) ： - 实验1的 y_{10} 接近0且标准误小，后验会推断 µ_b ≈ 0, σ_b ≈ 0 → b_j 后验压缩至接近0 → 实验1的 θ_j 后验近似 y_{j1} 即0.5，SE≈1.0，可以显著。 - 实验2的 y_{20}=0.5 提示 b_j 可能非零，后验不再将 b_j 压缩到0 → θ_j 后验近似 y_{j1} - y_{j0}=0.1 但方差介于 1^2 与 √2 之间。 - 直觉：贝叶斯模型用两个实验的 sham 信息“学习”到 σ_b ≈ 0，从而对实验1 的 sham 不做调整，对实验2 的 sham 做充分调整。

三、报告主体：讲者讲了什么¶

[H:MM] 标注基于转写稿时间戳，可能因ASR有 ± 若干秒偏差。

[0:00–0:05] 开场与动机：讲者先反思了“因果推断的两种范式”——组间比较（controlled comparison） 和前后比较（before-after study）。他认为两者都需强假设，但多水平模型（within-person + between-person）才是最优。这不直接是报告主题，而是将听众引向“为何单纯使用差值估计可能不够”的思想背景。

[0:05–0:07] 细胞培养实验（小故事）：引出“似保守 vs 似大胆”的抉择。4个处理，每个5个培养皿×6个细胞，两种误差估计方式（分层 vs 聚集）。讲者指出：保守做法（以培养皿为单元）其实更优，因为即使单元独立，分层标准误本质上等于聚集标准误（√30 vs √5 ×(单个皿内标准差)）。这个小故事是铺垫，欲与后续鸡脑实验做对比。

[0:07–0:17] 鸡脑实验背景（转写 0:07–0:17, 幻灯片 §3.1）： - 1980年代低频率电磁场（60Hz附近）与儿童白血病的争议。能量太低无法直接致癌，但可能干扰脑信号→抑制免疫→导致白血病。 - 38个鸡脑（频率1–510 Hz，间隔15Hz）实验。每个频率都有 Real（开磁场）和 Sham（关磁场）两部分，各测钙离子外流量的相对变化。 - 发表论文（Blackman et al. 1988）的标准方式：每个频率 的效应估计 = real - sham，标准误 = √(SE_real² + SE_sham²)。然后以显著性（p<0.01, 0.01–0.05, >0.05）给结果分类，并据此报告模式（如“15,45,75,105 Hz 有强效应，30,60,90 Hz 只有弱效应”）。

[0:17–0:20] 讲者的反思： - Sham 的估计值均接近零（图1c曲线），统计上无证据表明有偏倚。因此，减掉 Sham 相当于把标准误乘 √2（相当于丢掉一半样本量的信息）。 - 矛盾：研究者设计了 sham（有理由担心偏倚），但从数据看，没用上这份担心。完全减掉或完全不减都感觉不对——报告核心问题诞生了。

[0:20–0:25] 提出模型（幻灯片 §2.1–2.2）： - 模型 (1)–(2) 如上节所述。讲者强调：每个频率有自己的 b_j，因为如果偏倚在不同频率下有不同来源，设计就支持单独 b_j 而非共享偏倚。 - 偏差校正“减法”并非最优：差分估计 y_{j1} - y_{j0} 在模型(1)下确实无偏，但讲者指出“它看起来太干净了，但并非正确的条件推断”。 - 超参数 (µ_θ, σ_θ, µ_b, σ_b) 用平坦先验。当 J=38，可以从数据估计。

[0:25–0:32] 结果展示（幻灯片 §3.2, 图1）： - 左图：原始发表的差值估计 + p值分类。右图：贝叶斯后验估计。二者表面相似，但科学结论发生重要变化： - 原始论文中“每30Hz模式”（两组30Hz间隔，分别有强/弱效应）的说法在后验估计中消失。 - 讲者指出：随着后验对 θ_j 做部分合并，极端值被拉回，模式更平滑。这既有统计效率提升，也改变了生物学解读。

[0:32–0:40] 模拟评估（幻灯片 §2.3, §5）： - 沿着 σ_b（偏倚标准差）变化，从0到0.1（与效应大小可比较的量级）。 - 四个评价指标：显著结果数量、Type S 错误率（方向错）、均方误差（RMSE）、排序相关性。 - 对比三种 estimator：差值，仅实验组，贝叶斯分层。 - 结论： - 当 σ_b 很小时：贝叶斯/仅实验组占优，差值方差大 → 显著结果少、Type S 错误率更高。 - 当 σ_b 增大时：仅实验组 Type S 错误率急剧上升，因为它忽略了偏差；差值表现更稳定；贝叶斯几乎与差值一样好。 - 排序相关性：贝叶斯在所有 σ_b 水平波动最小，尤其在中间区段。

[0:40–0:45] 讨论：将贝叶斯估计视为部分减法： - 后验均值可近似写为 y_{j1} - λ y_{j0}，其中 λ ∈ [0,1]。这直接类比教育研究中的“gain score”（后-前）与“回归-adjusted” 后-β·前 的讨论。 - 讲者指出：当 σ_b → 0 时 λ → 0（不调整）；当 σ_b → ∞ 时 λ → 1（完全调整）。

[0:45–1:15] 与讨论者的互动（贯穿讨论环节）： - Guido Imbens 指出：本报告的实际 DID 结构不同于经典面板DID（后者有同个体在不同时间的测量）。讲者接受这一描述，但坚持数学形式上相同。 - Pedro Santana 提出：用 ANCOVA 回归（以 sham 为协变量）可达到类似的自适应效果。讲者回应：最优方法应是测量误差模型，即回归于潜变量 E[y_{j0}]，而非观测值 y_{j0}。 - Elizabeth Tipton 问：是否这意味着在设计时对 sham 组可以少用样本？讲者回答：理论上可以，但 J 小时需要强先验。 - 讨论者 一致认为‘安全性’的直觉在不同场景下截然相反——在培养皿故事中保守（以皿为单元）安全，在鸡脑故事中保守（无条件差分）反而造成效率灾难。讲者承认这一点增强了方法的复杂性和必要性。

四、对应论文与开放问题¶

对应论文（有把握，转写中提到合作者 Vákár，幻灯片首页清楚标识）： Gelman, A. & Vákár, M. (2021). "Slamming the sham: A Bayesian model for adaptive adjustment with noisy control data." Statistics in Medicine.

arXiv 或代码链接未在转写/幻灯片中给出，但幻灯片首页注明数据与代码在 https://github.com/VMatthijs/Slamming-the-sham 。研究者可自行查阅。
第二个应用是关于 transcranial magnetic stimulation (TMS) 治疗抑郁的元分析（引用 Berlim et al. 2014），讲者未在报告详细展开。

开放问题（每条均根据转写或讨论中明确留出的疑点）：

如何推广到单次面板 DID（J=1）场景？（讨论中 [0:45–0:55] 多次提及）。
讲者明确指出：当只有一次实验（例如一个州提高最低工资，对照一个州），超参数 (µ_b, σ_b) 无法从数据估计，推断将严重依赖先验。这是一个完全开放的问题，是否及如何将本模型的“自适应调整”思想应用于典型的单个-DID 应用，仍待研究。
在面板数据中，如何恰当地设定分层结构的方向？（讨论中 [0:55–1:05] Pedro 提出）。
若将 Sham 视为“before”、Real 视为“after”，或者反过来，会形成不同的层次结构；更一般地，可以定义联合层次。转写第 [1:00] 处讲者承认：“我有这个想法很久了但没去做……把它当时间序列建模可能更合理”。这是一个结构建模难题。
偏倚与效应之间存在相关性的场景如何处理？（幻灯片 §2.2 提及但未在报告中详细展开）。
讲者假设 θ_j 与 b_j 独立，但承认“在某些场景下，当处理效应大时偏倚也可能大”是一个合理的担忧。转写无明显内容，但可将此视为一个模型扩展问题。
如何量化“设计效率损失”并指导将来实验的 Sham 规模？（讨论末尾 [1:00–1:15]）。
讲者提到“如果真相信有偏倚，或许只需要小 pilot 而不是 full-size sham”；但相应频率下的 pilot 也可能因样本量小而对偏倚不敏感。这转化为一个实验设计 + 贝叶斯连续决策问题。
如何用低度多项式的困难度来刻画‘自适应调整’在 J 很小时的计算局限性？（虽非报告本身内容，但与研究者兴趣对应）。
本报告中的贝叶斯推断不涉及计算复杂度限制（使用 MCMC 即可）。但若研究者希望用低度检验（low-degree polynomial test）或其它统计-计算权衡框架来分析‘是否能在多项式时间内区分小偏倚与零偏倚’等问题，这是一种有潜力的方法前沿——完全不是报告中已有的内容，是研究者个人方向的可能延伸。

Maintained by 陈星宇 · Homepage · Source on GitHub

Better Than Difference in Differences¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论