Using national data and meta-analysis techniques to get a handle on how bad some biases might be in practice¶

讲者: Luke Miratrix
讨论人: Elizabeth Tipton
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-12-15
主题: 因果推断
视频: https://www.youtube.com/watch?v=n0r8HB-uhao&feature=youtu.be · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这条工作线在追问：在具体的实证领域中，常见的因果推断偏差（如未观测混杂、损耗偏差）在实践中到底有多严重？ 这是一个将方法论与大规模行政数据结合的实证元分析（empirical meta-analysis）方向。其奠基性工作包括： - 内部研究比较（Within-Study Comparison, WSC）：最经典的例子是 LaLonde (1986)，它用 RCT 的估计作为“黄金标准”，考察匹配等非实验方法能否复制出同样的因果效应。后续有 Wong et al. (2018) 等综述。WSC 的核心限制是它只回答“在这个特定的情境中方法是否有效”，而无法直接外推。 - 偏差的元分析：已有一些尝试将多个 WSC 的偏差估计汇总，如 Weiss et al. (2017) 评估教育研究中的异质性；Bell et al. (2016) 直接估计设计效应；Deke & Chiang (2017) 给出不同类型的偏差的基准范围。 - 当前 frontier：大多数 WSC 只有少量对比（几十个），且分散在不同的干预、结果、人群上，难以得到关于偏差“在总体上”有多大的精确结论。此外，损耗偏差的实证研究远少于选择偏差。

这场报告站在哪里：报告利用 英格兰国家学生数据库（National Pupil Database, NPD）——一个包含几乎所有学生人口统计、学业成绩、学校特征、邻里信息的全人口面板数据——与 EEF RCT 档案（英国教育捐赠基金会的学校层次 RCT 档案）的链接，大规模地计算了两类偏差： 1. 选择偏差（selection bias）：42 个 RCT×结果组合，比较匹配设计与 RCT 的对照组差异。 2. 损耗偏差（attrition bias）：10 个 RCT 的 22 个结果，比较全样本（利用国家考试成绩）与仅含“应答者”（参加原始商业测试的学生）的分析结果。

然后，它使用 随机效应元分析（random-effects meta-analysis） 来估计这些偏差的均值、方差和分布，从而给出更精确的“在实践中偏差有多大”的陈述，并为新研究提供修正标准误的启发式工具。它不是提出新的识别策略，而是系统性地、大规模地、在一个具有高度可比性的背景下量化已有的担忧。

二、最小内核 / 一个最简例子¶

核心思想：用 RCT 作为黄金标准（其估计因随机化而无偏），将非实验方法或受损耗影响样本的估计与之对比，差值即为该偏差的规模。然后收集大量这样的“偏差估计”，用元分析模型汇总。

最简特例： - 假设只有一个 RCT（例如“国际象棋进学校”项目），包含若干所学校。 - RCT 的对照组（CT）给出了一个无偏估计 𝜏̂_RCT = 10（比如考试成绩的均值差）。 - 用匹配方法从全国学校数据库中为处理组（TR）学校找“相似”的学校作为比较组（CO），得到非实验估计 𝜏̂_NonRCT = 12。 - 偏差估计 β̂ = 𝜏̂_NonRCT - 𝜏̂_RCT = 2。这个值反映了未观测混杂或匹配未能修正的偏差的规模。 - 但 β̂ 本身有抽样误差（因为 RCT 和匹配估计都有标准误），所以来自一个 RCT 的 β̂ 是“噪音”和“真实偏差”的混合。

符号与模型（仅看见/不可见部分）： - 可观测数据：对于每个学生 i，我们观测到： - Y_i（结果，如国家考试成绩） - T_i（处理分配指示：RCT 处理组、RCT 对照组、或全国数据库中的其他学校/学生） - X_i（协变量，如 KS1 成绩、人口统计、学校特征） - 对于 RCT 部分，还有 R_i = 1 表示应答（参加了原始实验的商业测试），0 表示损耗。 - 潜在不可观测量：Y_i(1)（处理下的潜在结果），Y_i(0)（对照下的潜在结果）。在真实 RCT 中，我们只观察到每个单元的一个版本。 - Estimand：τ_full = 全样本的平均处理效应（ATE）。但损耗导致的估计量 τ̃_responder 估计的是应答者样本的对比，不一定是 ATE。 - 目标参数：回答“在实践中，估计值 τ̂_RCT 与 τ̂_NonRCT 之间的差 β 总体上多大？”用随机效应模型： - β̂_k | β_k ~ N(β_k, σ²_k) （第 k 个对照的偏差估计，带有已知的采样方差） - β_k ~ N(ν, τ²) （真实偏差来自一个均值为 ν、方差为 τ² 的分布） - 最简情境（d=1, 二值处理）：报告可以聚焦于单个二值处理变量（参加 vs. 不参加某种学校项目），单个连续结果（KS2 数学成绩），单个 RCT 与匹配对照组的对比，来阐明方法。关键量：τ²——偏差的方差。即使均值 ν=0，若 τ² 很大（例如 > 0.03²），则某些研究的偏差会很大。

三、报告主体：讲者讲了什么¶

[0:00:04-0:01:35] 开场与问题：报告由两个项目组成，均在英格兰教育背景中，利用 EEF RCT 档案与 NPD 的链接。两个项目分别针对 (1) 匹配设计中未观测混杂的残余偏差 和 (2) RCT 中的损耗偏差。

[0:01:38-0:04:04] 偏差分类：三类（外部效度/选择谁入样、内部效度/处理分配方式、损耗/分析谁的）。一个表格（幻灯片 5）给出文献中不同设计在各偏差源上的典型大小（small=0.05σ; medium=0.1σ）。报告要填补文献中“消耗偏差的无观测部分”这一空白（幻灯片 5 中的 "?" 表格）。

[0:04:05-0:07:08] 方法与工具：内部研究比较（WSC） + 元分析。WSC：用 RCT 为真值，比较其估计与“现实会怎么做”（如匹配）的估计，差值即为偏差估计。多个 WSC 的偏差估计被视为多个“研究”，用元分析（具体是随机效应模型）估计偏差的分布（均值 ν、方差 τ²）。

[0:07:10-0:09:50] 第一部分：匹配设计的选择偏差。利用 WSC：RCT 对照组的均值 Ȳ^R_CT 是真值，匹配构建的比较组均值 Ȳ^(adj)_CO 是实际做法。偏差 β̂ = Ȳ^R_CT - Ȳ^(adj)_CO（见幻灯片 9）。

[0:09:50-0:12:00] 哲学性补充：WSC 是“类比论证”——它检验的是“能否为 RCT 中的对照组找到好匹配”，而非真正的“能否为自我选择的处理组找到好匹配”。二者是否等价取决于决策机制是否类似。在 EEF 的等待列表 RCT 中，该机制被认为与学校自愿采用项目相似。

[0:12:00-0:14:00] 文献现状：Wong et al. (2018) 的图表展示了已有的少数学校 WSC，大多显示偏差较小。

[0:14:00-0:16:00] 数据的优势：NPD（人口/学校/邻里） + EEF RCT 档案。NPD 包含几乎所有英格兰学生的人口统计、先修成绩（KS1）、学校信息及标准化国家考试（KS2 数学、阅读、写作）成绩。这些是 常用的结果变量，对所有学生都可获得。通过 1:1 匹配 + 马氏距离 + 倾向得分卡尺（一种标准但非最先进的匹配）+ 匹配后回归，每次 WSC 得到偏差估计 β̂。

[0:16:00-0:17:53] 具体估计步骤：β̂_Match 在匹配后使用多层次模型（含学校固定效应）来估计。计算高效。

[0:17:53-0:19:01] 结果（未调整 vs. 调整后）：箱线图显示，未经调整的“天真”偏差分布远偏离 0（负的，说明 RCT 学校与全国平均水平差异大），但调整后的偏差集中于 0 附近，但有尾部（-0.1 到 0.1 效应量区间）。

[0:19:01-0:22:00] 元分析结果：采用随机效应元分析模型，其中每个 WSC 的 β̂ 有自己的标准误 σ² 并假设已知，真实 β 服从 N(ν, τ²)。然后使用经验贝叶斯收缩（再缩放以保持方差）得到每个 WSC 的 β̂_Eb。核心输出：调整后偏差的标准差 τ ≈ 0.03σ（幻灯片中未明确列出，但 0:22:44 左右讲者提及 "the standard deviation is about .03"）。这意味着大多数匹配研究的偏差在 ±0.06σ 范围内（2τ ≈ 0.06）。

[0:22:00-0:23:19] 对结果的解读与局限：在 42 次对比中未发现系统偏差（均值 ν 近 0），但存在范围；偏差 0.1σ 是可能的但罕见。讲者强调这是运动中的靶子，需要持续复核。

[0:23:19-0:26:00] 统计方法细节：估计每个 WSC 的 σ² 需考虑多重结果的相关性（利用自举/置换抽样）。见论文附件。

[0:26:00-0:29:18] 第二部分：损耗偏差。原理：利用 NPD 国家考试成绩作为所有原始随机化学生的结果（无论他们是否完成商业测试）。比较： - 全样本（所有随机化学生，以 NPD 结果为结果）的 ATE 估计 - 应答者样本（参加了商业测试的学生）的 ATE 估计差值即为损耗偏差。

[0:29:20-0:34:24] 损耗偏差的类型： 1. 非差异性损耗（“nice” attrition）：同等类型的学生从两组中退出，得到的估计是有效的 ATE（对剩余样本），但不可推广至原始全样本。 2. 差异性损耗：不同组的学生因不同原因退出，导致两组无充分可比性，估计值不再是 ATE。 数学分解（幻灯片 28-29）：损耗偏差 β = PT*ΔT - PC*ΔC，其中： - PT, PC = 处理组和对照组的损耗率（可观测） - ΔT = E[Y(1) | 损耗] - E[Y(1) | 应答] （处理组损耗者与应答者在潜在结果 1 上的差异，不可观测） - ΔC = E[Y(0) | 损耗] - E[Y(0) | 应答] （类似）

协变量调整可以部分缓解因观测变量导致的差异性损耗。

[0:34:35-0:36:40] 估计方法：识别了 10 个 EEF RCT（其中原始商业测试有非微量损耗）。对这些 RCT 的每个结果，将全样本（NPD 结果）的 ATE 与应答者样本（同一 NPD 结果，但仅限完成商业测试的学生）的 ATE 进行比较。β̂ = 估计的损耗偏差。

[0:36:40-0:37:10] 损耗率：平均 ~19%（处理组与控制组大致平衡）。

[0:37:20-0:38:50] 损耗偏差的实证结果：偏差分布从 -0.04σ 到 0.02σ 左右，均值为 0.004σ，典型幅值约为 0.015σ。这与流行的担忧相比，是相对较小的。

[0:38:50-0:39:20] 分解机制：通过 β̂ 和有观察的 PT, PC，可以反推 ΔT 与 ΔC。结果表明，调整协变量后 ΔT 和 ΔC 的符号和大小接近，解释了为何总偏差小（两者因符号相反而部分抵消）。

[0:39:20-0:42:00] 实用工具：敏感度分析与标准误调整：利用从本元分析中得到的 Δ 分布（典型或最差值），可以： 1. 进行情境分析：对新的、有高损耗的 RCT（如 Reach 阅读干预，处理组损耗 27%，对照 32%），代入这些 Δ 值，看其估计结果多大程度上会“恶化”。案例显示即使在最坏观测到的 Δ 下，修正后的效应仍显著（>0.2σ）。 2. 更新标准误：将损耗偏差视作一个额外的随机误差项，其方差 Var(β | PT, PC, Δ分布) 可计算并加回到原方差中（使置信区间扩大约 12%）。该新方差中约 20% 来自损耗不确定性。

[0:42:00-0:44:44] 总结：两项工作的结果都相对“乐观”（偏差小），但强调其语境限制（英国教育、非激进干预、等待列表 RCT）及需要更多类似研究。

[0:44:44-0:46:00] Q&A 讨论者 (Elizabeth Tipton)：对“乐观”结论持有限度质疑，提出几点： - 偏差 vs. 效应大小：当平均处理效应本身小（如 <0.1σ）时，偏差 0.03σ 或 0.1σ 可成为实质性威胁。 - 协变量集的依赖性：英国 NPD 包含先验考试成绩，而美国数据往往缺少这种强大的预测变量；若删除考试分数，偏差调整是否会失效？ - WSC 的选择机制：是“选入 RCT”而非“选入治疗”，可能导致对 QED（准实验设计）的偏差的低估（因 RCT 的样本本身更具选择性，使匹配更容易）。 - 损耗偏差对损耗率与差异损耗率的依赖性：Deke & Chiang (2017) 给出的 WWC 指南在不同区域有不同表现，需要进一步探究。

[0:46:00-1:01:10] 回应 (Luke Miratrix)：承认“大与小”是相对的，取决于决策框架（是极小化最大后悔还是关注期望？）。他更倾向后者。讨论了“选入 RCT”与“选入治疗”的差异，强调这是一种“类比论证”。对 Tipton 的评论表示感谢，并认为应深化与 WWC 指南的联系。

四、对应论文与开放问题¶

对应论文： 1. 选择偏差部分：Weidmann, B. & Miratrix, L. (2020). "Lurking Inferential Monsters? Quantifying bias in non-experimental evaluations of school programs." Journal of Policy Analysis and Management. （已发表。见幻灯片 8；讲者 [0:17:17] 提及“recently been published”） 2. 损耗偏差部分：Weidmann, B. & Miratrix, L. (working title). "Missing, presumed different: Quantifying the risk of attrition bias in education evaluations." （未发表，发表于 [0:25:23] 提到"submitted but not yet published"，可从实验室网站获取。）

开放问题（每条基于转写/幻灯片中的某句）： - 能否将偏差分布推广到其他设计/领域？ 讲者自己强调“selection bias is a moving target” ([0:23:24-0:24:03])，并呼吁“more of these within-study comparisons in different contexts” ([0:24:30-0:24:34])。这提出了一个 跨情境的系统性元分析 问题：如何建立更大、更全面的偏差基准数据库？ - 偏差与效应大小的相对规模：Tipton ([0:47:00-0:48:30]) 指出，平均效应可能为 0.06-0.09σ，与偏差 0.03-0.1σ 重叠。这提出了 将偏差分布纳入效应量不确定性 的问题，超越了简单地将偏差视为一个加性项。如何构建一个联合模型（posterior of effect size + bias distribution）？ - 协变量引力：若无法获得类似英国 NPD 那样强有力的先验成绩协变量（如美国数据），调整后的偏差会有多大？Tipton ([0:48:30-0:49:30]) 提出了这个关键问题：敏感性分析中对缺失协变量强键性的量化。能否开发出形式化的推论（e.g., 给定观测协变量的平均偏 R²，需要多大未观测混杂才能推翻结论？）？ - 选入 RCT vs. 选入治疗的偏差：Tipton ([0:50:00-0:51:00]) 明确指出“选入 RCT”可能导致对 QED 偏差的系统性低估。这是一个 WSC 框架的识别性偏差问题。有没有办法利用数据直接量化“选入 RCT”与“选入治疗”的差异？能否使用“选入 RCT”的 WSC 结果作为“选入治疗”的 WSC 结果的“自然上界”？ - 损耗偏差的极端情况：Deke & Chiang (2017) 的指南在损耗率很高（>40-45%）时也声称“安全”，但实证基础薄弱。Tipton ([0:53:00-0:54:30]) 提醒，本报告的损耗研究可能无法完全涵盖这些极端情况。这提出 在极端损耗下，基于低维参数（Δ）的简洁分解是否能捕获所有非线性效应 这一问题？是否需要用更复杂的模型（如选择进入-退出模型）验证？ - 多源偏差的联合推断：报告将选择偏差与损耗偏差分开考量。但实践中它们同时出现且可能交互。如何将两者（以及测量误差、外部效度偏差等）联合建模，并给出一个总的不确定性区间？讲者自己([0:42:15-0:42:52]) 极少提及了这个想法（"if we have some rough sense of where all the pieces of uncertainty are..."），这是一个开放但有趣的 偏差分解与组合 问题。

Maintained by 陈星宇 · Homepage · Source on GitHub