跳转至

Better Than Difference in Differences

讲者: Andrew Gelman
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-09-19
主题: 因果推断
视频: https://youtu.be/Sya-s-wibnw · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向:在多实验(或多时间点)设置下,如何处理有噪音的控制组数据——在偏倚校正与方差控制之间自适应权衡。

  • 这个大方向在追问什么:当研究者手握两个备选估计量——一个无偏但高方差(如差值估计,Difference-in-Differences),另一个有偏但低方差(如仅用实验组估计)——如何根据数据本身决定使用哪一个,或构造一个介于二者之间的折中方案。

  • 奠基与主流路线

    • 标准做法(讲者称为“默认”或“保守”做法)是无条件做差值估计(y_{j1} - y_{j0}),因为它在模型(1)下无偏。代价是方差加倍(若两个标准误相同)。这在经济学、政治学、流行病学的面板数据或DID中很常见。
    • 另一种极端是只用实验组数据 y_{j1},在认为偏倚可忽略时效率更高。Borusyak & Jaravel (2017) 以及 Goodman-Bacon (2021) 等DID诊断文献指出了无条件差分可能引入的“负权重”问题,但思路不同。
    • 经典贝叶斯元分析(Smith, Spiegelhalter and Thomas 1995; Higgins and Whitehead 1996)通常只对处理效应做部分合并,但不建模偏倚。讲者引用了 Hill (2011) 和 Wager & Athey (2018) 作为正则化处理的代表。
    • 测量误差模型:讲者在讨论中明确指出ANCOVA-style回归(以 y_{j0} 为协变量)可视为一种替代,但讲者认为最优做法是回归于潜变量 E[y_{j0}] 而非观测值,这本质上是一个测量误差模型。他在讨论中提及,在MCMC/Stan普及之前这种模型很难拟合。
  • 当前frontier与这份报告站在哪

    • 这份报告(Gelman & Vákár, 2021, Statistics in Medicine)将贝叶斯分层模型同时应用于处理效应和偏倚,实现了自适应调整:当J足够大(如38个实验)时,超参数可从数据中估计,模型自动在“全差分”和“不做调整”之间插值。
    • 与主流DID文献的分布式不同——主流DID在平行趋势假设下追求无偏性,而这个工作线从均方误差(MSE)出发,认为在有数次重复实验时,完全差分可能带来效率灾难。
    • 报告明确留出了一个开放问题:在单次面板DID(J=1)的场景中如何应用这一思路,此时超参数无法从数据中估计,需要依仗先验。

点名关键工作(有把握的): - Hill (2011) "Bayesian nonparametric modeling for causal inference"——贝叶斯树回归用于异质性处理效应。 - Wager & Athey (2018) "Estimation and inference of heterogeneous treatment effects using random forests"——正则化处理效应的频率派方法。 - Gelman & Vákár (2021) "Slamming the sham"——这场报告的对应论文。

二、最小内核 / 一个最简例子

符号与模型: - 可观测数据:对每个实验 j = 1,...,J,我们有 - y_{j1} = 从真实处理实验中得到的估计效应(如钙离子外流量差值),附带标准误 s_{j1}。 - y_{j0} = 同一频率下的“假处理”(sham)实验的估计效应,附带标准误 s_{j0}。 - 潜在变量: - θ_j = 实验 j 的真实处理效应(感兴趣的estimand)。 - b_j = 实验 j 的偏倚(共同由真实和假处理实验共享)。 - 模型(出自幻灯片第2节公式1-2):

\[y_{j1} \sim \text{normal}(\theta_j + b_j, s_{j1}), \quad y_{j0} \sim \text{normal}(b_j, s_{j0})\]
\[b_j \sim \text{normal}(\mu_b, \sigma_b), \quad \theta_j \sim \text{normal}(\mu_\theta, \sigma_\theta)\]
- 三个候选估计量: 1. 仅用实验组y_{j1},方差 s_{j1}^2,但可能因 b_j ≠ 0 而有偏。 2. 差值估计(DID)y_{j1} - y_{j0},无偏(因为 b_j 消去),但方差为 s_{j1}^2 + s_{j0}^2(若 s_{j1} = s_{j0},方差翻倍)。 3. 贝叶斯后验均值:从分层模型算出,会自适应地在 1 与 2 之间插值。

最简特例J = 2 个实验,每个实验的标准误相同 s_{j1} = s_{j0} = 1(为方便假设已知)。 - 数据:实验1: y_{11}=0.5, y_{10}=0.01(sham 几乎零); 实验2: y_{21}=0.6, y_{20}=0.5(sham 显著非零)。 - 如果用差值估计(DID): 实验1 θ̂₁ = 0.49(SE≈1.41),实验2 θ̂₂ = 0.1(SE≈1.41)。由于SE很大,两个都不显著。 - 如果用贝叶斯模型,置平坦先验于 (µ_θ, σ_θ, µ_b, σ_b) : - 实验1的 y_{10} 接近0且标准误小,后验会推断 µ_b ≈ 0, σ_b ≈ 0b_j 后验压缩至接近0 → 实验1的 θ_j 后验近似 y_{j1} 即0.5,SE≈1.0,可以显著。 - 实验2的 y_{20}=0.5 提示 b_j 可能非零,后验不再将 b_j 压缩到0 → θ_j 后验近似 y_{j1} - y_{j0}=0.1 但方差介于 1^2√2 之间。 - 直觉:贝叶斯模型用两个实验的 sham 信息“学习”到 σ_b ≈ 0,从而对实验1 的 sham 不做调整,对实验2 的 sham 做充分调整。

三、报告主体:讲者讲了什么

[H:MM] 标注基于转写稿时间戳,可能因ASR有 ± 若干秒偏差。

[0:00–0:05] 开场与动机:讲者先反思了“因果推断的两种范式”——组间比较(controlled comparison)前后比较(before-after study)。他认为两者都需强假设,但多水平模型(within-person + between-person)才是最优。这不直接是报告主题,而是将听众引向“为何单纯使用差值估计可能不够”的思想背景。

[0:05–0:07] 细胞培养实验(小故事):引出“似保守 vs 似大胆”的抉择。4个处理,每个5个培养皿×6个细胞,两种误差估计方式(分层 vs 聚集)。讲者指出:保守做法(以培养皿为单元)其实更优,因为即使单元独立,分层标准误本质上等于聚集标准误(√30 vs √5 ×(单个皿内标准差))。这个小故事是铺垫,欲与后续鸡脑实验做对比。

[0:07–0:17] 鸡脑实验背景(转写 0:07–0:17, 幻灯片 §3.1): - 1980年代低频率电磁场(60Hz附近)与儿童白血病的争议。能量太低无法直接致癌,但可能干扰脑信号→抑制免疫→导致白血病。 - 38个鸡脑(频率1–510 Hz,间隔15Hz)实验。每个频率都有 Real(开磁场)和 Sham(关磁场)两部分,各测钙离子外流量的相对变化。 - 发表论文(Blackman et al. 1988)的标准方式:每个频率 的效应估计 = real - sham,标准误 = √(SE_real² + SE_sham²)。然后以显著性(p<0.01, 0.01–0.05, >0.05)给结果分类,并据此报告模式(如“15,45,75,105 Hz 有强效应,30,60,90 Hz 只有弱效应”)。

[0:17–0:20] 讲者的反思: - Sham 的估计值均接近零(图1c曲线),统计上无证据表明有偏倚。因此,减掉 Sham 相当于把标准误乘 √2(相当于丢掉一半样本量的信息)。 - 矛盾:研究者设计了 sham(有理由担心偏倚),但从数据看,没用上这份担心。完全减掉或完全不减都感觉不对——报告核心问题诞生了。

[0:20–0:25] 提出模型(幻灯片 §2.1–2.2): - 模型 (1)–(2) 如上节所述。讲者强调:每个频率有自己的 b_j,因为如果偏倚在不同频率下有不同来源,设计就支持单独 b_j 而非共享偏倚。 - 偏差校正“减法”并非最优:差分估计 y_{j1} - y_{j0} 在模型(1)下确实无偏,但讲者指出“它看起来太干净了,但并非正确的条件推断”。 - 超参数 (µ_θ, σ_θ, µ_b, σ_b) 用平坦先验。当 J=38,可以从数据估计。

[0:25–0:32] 结果展示(幻灯片 §3.2, 图1): - 左图:原始发表的差值估计 + p值分类。右图:贝叶斯后验估计。二者表面相似,但科学结论发生重要变化: - 原始论文中“每30Hz模式”(两组30Hz间隔,分别有强/弱效应)的说法在后验估计中消失。 - 讲者指出:随着后验对 θ_j 做部分合并,极端值被拉回,模式更平滑。这既有统计效率提升,也改变了生物学解读。

[0:32–0:40] 模拟评估(幻灯片 §2.3, §5): - 沿着 σ_b(偏倚标准差)变化,从0到0.1(与效应大小可比较的量级)。 - 四个评价指标:显著结果数量、Type S 错误率(方向错)、均方误差(RMSE)、排序相关性。 - 对比三种 estimator:差值,仅实验组,贝叶斯分层。 - 结论: - 当 σ_b 很小时:贝叶斯/仅实验组占优,差值方差大 → 显著结果少、Type S 错误率更高。 - 当 σ_b 增大时:仅实验组 Type S 错误率急剧上升,因为它忽略了偏差;差值表现更稳定;贝叶斯几乎与差值一样好。 - 排序相关性:贝叶斯在所有 σ_b 水平波动最小,尤其在中间区段。

[0:40–0:45] 讨论:将贝叶斯估计视为部分减法: - 后验均值可近似写为 y_{j1} - λ y_{j0},其中 λ ∈ [0,1]。这直接类比教育研究中的“gain score”(后-前)与“回归-adjusted” 后-β·前 的讨论。 - 讲者指出:当 σ_b → 0λ → 0(不调整);当 σ_b → ∞λ → 1(完全调整)。

[0:45–1:15] 与讨论者的互动(贯穿讨论环节): - Guido Imbens 指出:本报告的实际 DID 结构不同于经典面板DID(后者有同个体在不同时间的测量)。讲者接受这一描述,但坚持数学形式上相同。 - Pedro Santana 提出:用 ANCOVA 回归(以 sham 为协变量)可达到类似的自适应效果。讲者回应:最优方法应是测量误差模型,即回归于潜变量 E[y_{j0}],而非观测值 y_{j0}。 - Elizabeth Tipton 问:是否这意味着在设计时对 sham 组可以少用样本?讲者回答:理论上可以,但 J 小时需要强先验。 - 讨论者 一致认为‘安全性’的直觉在不同场景下截然相反——在培养皿故事中保守(以皿为单元)安全,在鸡脑故事中保守(无条件差分)反而造成效率灾难。讲者承认这一点增强了方法的复杂性和必要性。

四、对应论文与开放问题

对应论文(有把握,转写中提到合作者 Vákár,幻灯片首页清楚标识): Gelman, A. & Vákár, M. (2021). "Slamming the sham: A Bayesian model for adaptive adjustment with noisy control data." Statistics in Medicine.

  • arXiv 或代码链接未在转写/幻灯片中给出,但幻灯片首页注明数据与代码在 https://github.com/VMatthijs/Slamming-the-sham 。研究者可自行查阅。
  • 第二个应用是关于 transcranial magnetic stimulation (TMS) 治疗抑郁的元分析(引用 Berlim et al. 2014),讲者未在报告详细展开。

开放问题(每条均根据转写或讨论中明确留出的疑点):

  1. 如何推广到单次面板 DID(J=1)场景?(讨论中 [0:45–0:55] 多次提及)。
    讲者明确指出:当只有一次实验(例如一个州提高最低工资,对照一个州),超参数 (µ_b, σ_b) 无法从数据估计,推断将严重依赖先验。这是一个完全开放的问题,是否及如何将本模型的“自适应调整”思想应用于典型的单个-DID 应用,仍待研究

  2. 在面板数据中,如何恰当地设定分层结构的方向?(讨论中 [0:55–1:05] Pedro 提出)。
    若将 Sham 视为“before”、Real 视为“after”,或者反过来,会形成不同的层次结构;更一般地,可以定义联合层次。转写第 [1:00] 处讲者承认:“我有这个想法很久了但没去做……把它当时间序列建模可能更合理”。这是一个结构建模难题。

  3. 偏倚与效应之间存在相关性的场景如何处理?(幻灯片 §2.2 提及但未在报告中详细展开)。
    讲者假设 θ_jb_j 独立,但承认“在某些场景下,当处理效应大时偏倚也可能大”是一个合理的担忧。转写无明显内容,但可将此视为一个模型扩展问题。

  4. 如何量化“设计效率损失”并指导将来实验的 Sham 规模?(讨论末尾 [1:00–1:15])。
    讲者提到“如果真相信有偏倚,或许只需要小 pilot 而不是 full-size sham”;但相应频率下的 pilot 也可能因样本量小而对偏倚不敏感。这转化为一个实验设计 + 贝叶斯连续决策问题。

  5. 如何用低度多项式的困难度来刻画‘自适应调整’在 J 很小时的计算局限性?(虽非报告本身内容,但与研究者兴趣对应)。
    本报告中的贝叶斯推断不涉及计算复杂度限制(使用 MCMC 即可)。但若研究者希望用低度检验(low-degree polynomial test)或其它统计-计算权衡框架来分析‘是否能在多项式时间内区分小偏倚与零偏倚’等问题,这是一种有潜力的方法前沿——完全不是报告中已有的内容,是研究者个人方向的可能延伸


Maintained by 陈星宇 · Homepage · Source on GitHub

评论