跳转至

Using national data and meta-analysis techniques to get a handle on how bad some biases might be in practice

讲者: Luke Miratrix
讨论人: Elizabeth Tipton
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-12-15
主题: 因果推断
视频: https://www.youtube.com/watch?v=n0r8HB-uhao&feature=youtu.be · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这条工作线在追问:在具体的实证领域中,常见的因果推断偏差(如未观测混杂、损耗偏差)在实践中到底有多严重? 这是一个将方法论与大规模行政数据结合的实证元分析(empirical meta-analysis)方向。其奠基性工作包括: - 内部研究比较(Within-Study Comparison, WSC):最经典的例子是 LaLonde (1986),它用 RCT 的估计作为“黄金标准”,考察匹配等非实验方法能否复制出同样的因果效应。后续有 Wong et al. (2018) 等综述。WSC 的核心限制是它只回答“在这个特定的情境中方法是否有效”,而无法直接外推。 - 偏差的元分析:已有一些尝试将多个 WSC 的偏差估计汇总,如 Weiss et al. (2017) 评估教育研究中的异质性;Bell et al. (2016) 直接估计设计效应;Deke & Chiang (2017) 给出不同类型的偏差的基准范围。 - 当前 frontier:大多数 WSC 只有少量对比(几十个),且分散在不同的干预、结果、人群上,难以得到关于偏差“在总体上”有多大的精确结论。此外,损耗偏差的实证研究远少于选择偏差。

这场报告站在哪里:报告利用 英格兰国家学生数据库(National Pupil Database, NPD)——一个包含几乎所有学生人口统计、学业成绩、学校特征、邻里信息的全人口面板数据——与 EEF RCT 档案(英国教育捐赠基金会的学校层次 RCT 档案)的链接,大规模地计算了两类偏差: 1. 选择偏差(selection bias):42 个 RCT×结果组合,比较匹配设计与 RCT 的对照组差异。 2. 损耗偏差(attrition bias):10 个 RCT 的 22 个结果,比较全样本(利用国家考试成绩)与仅含“应答者”(参加原始商业测试的学生)的分析结果。

然后,它使用 随机效应元分析(random-effects meta-analysis) 来估计这些偏差的均值、方差和分布,从而给出更精确的“在实践中偏差有多大”的陈述,并为新研究提供修正标准误的启发式工具。它不是提出新的识别策略,而是系统性地、大规模地、在一个具有高度可比性的背景下量化已有的担忧

二、最小内核 / 一个最简例子

核心思想:用 RCT 作为黄金标准(其估计因随机化而无偏),将非实验方法或受损耗影响样本的估计与之对比,差值即为该偏差的规模。然后收集大量这样的“偏差估计”,用元分析模型汇总。

最简特例: - 假设只有一个 RCT(例如“国际象棋进学校”项目),包含若干所学校。 - RCT 的对照组(CT)给出了一个无偏估计 𝜏̂_RCT = 10(比如考试成绩的均值差)。 - 用匹配方法从全国学校数据库中为处理组(TR)学校找“相似”的学校作为比较组(CO),得到非实验估计 𝜏̂_NonRCT = 12。 - 偏差估计 β̂ = 𝜏̂_NonRCT - 𝜏̂_RCT = 2。这个值反映了未观测混杂或匹配未能修正的偏差的规模。 - 但 β̂ 本身有抽样误差(因为 RCT 和匹配估计都有标准误),所以来自一个 RCT 的 β̂ 是“噪音”和“真实偏差”的混合。

符号与模型(仅看见/不可见部分): - 可观测数据:对于每个学生 i,我们观测到: - Y_i(结果,如国家考试成绩) - T_i(处理分配指示:RCT 处理组、RCT 对照组、或全国数据库中的其他学校/学生) - X_i(协变量,如 KS1 成绩、人口统计、学校特征) - 对于 RCT 部分,还有 R_i = 1 表示应答(参加了原始实验的商业测试),0 表示损耗。 - 潜在不可观测量Y_i(1)(处理下的潜在结果),Y_i(0)(对照下的潜在结果)。在真实 RCT 中,我们只观察到每个单元的一个版本。 - Estimandτ_full = 全样本的平均处理效应(ATE)。但损耗导致的估计量 τ̃_responder 估计的是应答者样本的对比,不一定是 ATE。 - 目标参数:回答“在实践中,估计值 τ̂_RCTτ̂_NonRCT 之间的差 β 总体上多大?”用随机效应模型: - β̂_k | β_k ~ N(β_k, σ²_k) (第 k 个对照的偏差估计,带有已知的采样方差) - β_k ~ N(ν, τ²) (真实偏差来自一个均值为 ν、方差为 τ² 的分布) - 最简情境(d=1, 二值处理):报告可以聚焦于单个二值处理变量(参加 vs. 不参加某种学校项目),单个连续结果(KS2 数学成绩),单个 RCT 与匹配对照组的对比,来阐明方法。关键量τ²——偏差的方差。即使均值 ν=0,若 τ² 很大(例如 > 0.03²),则某些研究的偏差会很大。

三、报告主体:讲者讲了什么

[0:00:04-0:01:35] 开场与问题:报告由两个项目组成,均在英格兰教育背景中,利用 EEF RCT 档案与 NPD 的链接。两个项目分别针对 (1) 匹配设计中未观测混杂的残余偏差(2) RCT 中的损耗偏差

[0:01:38-0:04:04] 偏差分类:三类(外部效度/选择谁入样、内部效度/处理分配方式、损耗/分析谁的)。一个表格(幻灯片 5)给出文献中不同设计在各偏差源上的典型大小(small=0.05σ; medium=0.1σ)。报告要填补文献中“消耗偏差的无观测部分”这一空白(幻灯片 5 中的 "?" 表格)。

[0:04:05-0:07:08] 方法与工具内部研究比较(WSC) + 元分析。WSC:用 RCT 为真值,比较其估计与“现实会怎么做”(如匹配)的估计,差值即为偏差估计。多个 WSC 的偏差估计被视为多个“研究”,用元分析(具体是随机效应模型)估计偏差的分布(均值 ν、方差 τ²)。

[0:07:10-0:09:50] 第一部分:匹配设计的选择偏差。利用 WSC:RCT 对照组的均值 Ȳ^R_CT 是真值,匹配构建的比较组均值 Ȳ^(adj)_CO 是实际做法。偏差 β̂ = Ȳ^R_CT - Ȳ^(adj)_CO(见幻灯片 9)。

[0:09:50-0:12:00] 哲学性补充:WSC 是“类比论证”——它检验的是“能否为 RCT 中的对照组找到好匹配”,而非真正的“能否为自我选择的处理组找到好匹配”。二者是否等价取决于决策机制是否类似。在 EEF 的等待列表 RCT 中,该机制被认为与学校自愿采用项目相似。

[0:12:00-0:14:00] 文献现状:Wong et al. (2018) 的图表展示了已有的少数学校 WSC,大多显示偏差较小。

[0:14:00-0:16:00] 数据的优势:NPD(人口/学校/邻里) + EEF RCT 档案。NPD 包含几乎所有英格兰学生的人口统计、先修成绩(KS1)、学校信息及标准化国家考试(KS2 数学、阅读、写作)成绩。这些是 常用的结果变量,对所有学生都可获得。通过 1:1 匹配 + 马氏距离 + 倾向得分卡尺(一种标准但非最先进的匹配)+ 匹配后回归,每次 WSC 得到偏差估计 β̂

[0:16:00-0:17:53] 具体估计步骤β̂_Match 在匹配后使用多层次模型(含学校固定效应)来估计。计算高效。

[0:17:53-0:19:01] 结果(未调整 vs. 调整后):箱线图显示,未经调整的“天真”偏差分布远偏离 0(负的,说明 RCT 学校与全国平均水平差异大),但调整后的偏差集中于 0 附近,但有尾部(-0.1 到 0.1 效应量区间)。

[0:19:01-0:22:00] 元分析结果:采用随机效应元分析模型,其中每个 WSC 的 β̂ 有自己的标准误 σ² 并假设已知,真实 β 服从 N(ν, τ²)。然后使用经验贝叶斯收缩(再缩放以保持方差)得到每个 WSC 的 β̂_Eb核心输出:调整后偏差的标准差 τ ≈ 0.03σ(幻灯片中未明确列出,但 0:22:44 左右讲者提及 "the standard deviation is about .03")。这意味着大多数匹配研究的偏差在 ±0.06σ 范围内(2τ ≈ 0.06)。

[0:22:00-0:23:19] 对结果的解读与局限:在 42 次对比中未发现系统偏差(均值 ν 近 0),但存在范围;偏差 0.1σ 是可能的但罕见。讲者强调这是运动中的靶子,需要持续复核。

[0:23:19-0:26:00] 统计方法细节:估计每个 WSC 的 σ² 需考虑多重结果的相关性(利用自举/置换抽样)。见论文附件。

[0:26:00-0:29:18] 第二部分:损耗偏差。原理:利用 NPD 国家考试成绩作为所有原始随机化学生的结果(无论他们是否完成商业测试)。比较: - 全样本(所有随机化学生,以 NPD 结果为结果)的 ATE 估计 - 应答者样本(参加了商业测试的学生)的 ATE 估计 差值即为损耗偏差。

[0:29:20-0:34:24] 损耗偏差的类型: 1. 非差异性损耗(“nice” attrition):同等类型的学生从两组中退出,得到的估计是有效的 ATE(对剩余样本),但不可推广至原始全样本。 2. 差异性损耗:不同组的学生因不同原因退出,导致两组无充分可比性,估计值不再是 ATE。 数学分解(幻灯片 28-29):损耗偏差 β = PT*ΔT - PC*ΔC,其中: - PT, PC = 处理组和对照组的损耗率(可观测) - ΔT = E[Y(1) | 损耗] - E[Y(1) | 应答] (处理组损耗者与应答者在潜在结果 1 上的差异,不可观测) - ΔC = E[Y(0) | 损耗] - E[Y(0) | 应答] (类似)

协变量调整可以部分缓解因观测变量导致的差异性损耗。

[0:34:35-0:36:40] 估计方法:识别了 10 个 EEF RCT(其中原始商业测试有非微量损耗)。对这些 RCT 的每个结果,将全样本(NPD 结果)的 ATE 与应答者样本(同一 NPD 结果,但仅限完成商业测试的学生)的 ATE 进行比较。β̂ = 估计的损耗偏差。

[0:36:40-0:37:10] 损耗率:平均 ~19%(处理组与控制组大致平衡)。

[0:37:20-0:38:50] 损耗偏差的实证结果:偏差分布从 -0.04σ 到 0.02σ 左右,均值为 0.004σ,典型幅值约为 0.015σ。这与流行的担忧相比,是相对较小的。

[0:38:50-0:39:20] 分解机制:通过 β̂ 和有观察的 PT, PC,可以反推 ΔTΔC。结果表明,调整协变量后 ΔTΔC 的符号和大小接近,解释了为何总偏差小(两者因符号相反而部分抵消)。

[0:39:20-0:42:00] 实用工具:敏感度分析与标准误调整:利用从本元分析中得到的 Δ 分布(典型或最差值),可以: 1. 进行情境分析:对新的、有高损耗的 RCT(如 Reach 阅读干预,处理组损耗 27%,对照 32%),代入这些 Δ 值,看其估计结果多大程度上会“恶化”。案例显示即使在最坏观测到的 Δ 下,修正后的效应仍显著(>0.2σ)。 2. 更新标准误:将损耗偏差视作一个额外的随机误差项,其方差 Var(β | PT, PC, Δ分布) 可计算并加回到原方差中(使置信区间扩大约 12%)。该新方差中约 20% 来自损耗不确定性。

[0:42:00-0:44:44] 总结:两项工作的结果都相对“乐观”(偏差小),但强调其语境限制(英国教育、非激进干预、等待列表 RCT)及需要更多类似研究。

[0:44:44-0:46:00] Q&A 讨论者 (Elizabeth Tipton):对“乐观”结论持有限度质疑,提出几点: - 偏差 vs. 效应大小:当平均处理效应本身小(如 <0.1σ)时,偏差 0.03σ 或 0.1σ 可成为实质性威胁。 - 协变量集的依赖性:英国 NPD 包含先验考试成绩,而美国数据往往缺少这种强大的预测变量;若删除考试分数,偏差调整是否会失效? - WSC 的选择机制:是“选入 RCT”而非“选入治疗”,可能导致对 QED(准实验设计)的偏差的低估(因 RCT 的样本本身更具选择性,使匹配更容易)。 - 损耗偏差对损耗率与差异损耗率的依赖性:Deke & Chiang (2017) 给出的 WWC 指南在不同区域有不同表现,需要进一步探究。

[0:46:00-1:01:10] 回应 (Luke Miratrix):承认“大与小”是相对的,取决于决策框架(是极小化最大后悔还是关注期望?)。他更倾向后者。讨论了“选入 RCT”与“选入治疗”的差异,强调这是一种“类比论证”。对 Tipton 的评论表示感谢,并认为应深化与 WWC 指南的联系。

四、对应论文与开放问题

对应论文: 1. 选择偏差部分:Weidmann, B. & Miratrix, L. (2020). "Lurking Inferential Monsters? Quantifying bias in non-experimental evaluations of school programs." Journal of Policy Analysis and Management. (已发表。见幻灯片 8;讲者 [0:17:17] 提及“recently been published”) 2. 损耗偏差部分:Weidmann, B. & Miratrix, L. (working title). "Missing, presumed different: Quantifying the risk of attrition bias in education evaluations." (未发表,发表于 [0:25:23] 提到"submitted but not yet published",可从实验室网站获取。)

开放问题(每条基于转写/幻灯片中的某句): - 能否将偏差分布推广到其他设计/领域? 讲者自己强调“selection bias is a moving target” ([0:23:24-0:24:03]),并呼吁“more of these within-study comparisons in different contexts” ([0:24:30-0:24:34])。这提出了一个 跨情境的系统性元分析 问题:如何建立更大、更全面的偏差基准数据库? - 偏差与效应大小的相对规模:Tipton ([0:47:00-0:48:30]) 指出,平均效应可能为 0.06-0.09σ,与偏差 0.03-0.1σ 重叠。这提出了 将偏差分布纳入效应量不确定性 的问题,超越了简单地将偏差视为一个加性项。如何构建一个联合模型(posterior of effect size + bias distribution)? - 协变量引力:若无法获得类似英国 NPD 那样强有力的先验成绩协变量(如美国数据),调整后的偏差会有多大?Tipton ([0:48:30-0:49:30]) 提出了这个关键问题:敏感性分析中对缺失协变量强键性的量化。能否开发出形式化的推论(e.g., 给定观测协变量的平均偏 R²,需要多大未观测混杂才能推翻结论?)? - 选入 RCT vs. 选入治疗的偏差:Tipton ([0:50:00-0:51:00]) 明确指出“选入 RCT”可能导致对 QED 偏差的系统性低估。这是一个 WSC 框架的识别性偏差问题。有没有办法利用数据直接量化“选入 RCT”与“选入治疗”的差异?能否使用“选入 RCT”的 WSC 结果作为“选入治疗”的 WSC 结果的“自然上界”? - 损耗偏差的极端情况:Deke & Chiang (2017) 的指南在损耗率很高(>40-45%)时也声称“安全”,但实证基础薄弱。Tipton ([0:53:00-0:54:30]) 提醒,本报告的损耗研究可能无法完全涵盖这些极端情况。这提出 在极端损耗下,基于低维参数(Δ)的简洁分解是否能捕获所有非线性效应 这一问题?是否需要用更复杂的模型(如选择进入-退出模型)验证? - 多源偏差的联合推断:报告将选择偏差与损耗偏差分开考量。但实践中它们同时出现且可能交互。如何将两者(以及测量误差、外部效度偏差等)联合建模,并给出一个总的不确定性区间?讲者自己([0:42:15-0:42:52]) 极少提及了这个想法("if we have some rough sense of where all the pieces of uncertainty are..."),这是一个开放但有趣的 偏差分解与组合 问题。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论