W ill this Intervention Work in this Population? Designing Randomized Trials for Generalization¶

讲者: Elizabeth Tipton
讨论人: Andrew Gelman
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-04-14
主题: 因果推断
视频: https://www.youtube.com/watch?v=HYP32wzEZMA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于「从随机试验推广到政策相关总体」(generalization from randomized trials to target populations) 这一子方向。这个方向的根本追问是：一个在非随机选出的样本人群上得到估计的因果效应（例如，某个教育干预在 40 所同意参与的学校中的平均处理效应），是否以及在什么条件下能揭示该干预在一个明确定义的、政策相关的目标总体（例如，美国所有公立小学）中的效果？

奠基与主流路线： - 该问题的标准处理方式属于外部效度 (external validity / generalizability) 框架。其方法论核心是采样可忽略性 (sampling ignorability) 假设：给定一组观测到的、同时影响结果和采样过程的协变量，采样过程与潜在结果条件独立。 - 早期事后校正方法：在试验结束后，利用目标总体的代表性数据，通过重赋权（propensity score weighting, Stuart et al., 2011; Tipton, 2013）、回归外推 (Kern et al., 2016) 或边界法 (bounding approaches, Chan, 2017) 来估计总体 ATE。这类方法的软肋是覆盖不足 (under-coverage)：当样本完全不含目标总体的某些子群时，外推变得不可靠 (Tipton, 2013)。

当前 frontier 与这场报告的站位：

这场报告并非主要发展事后校正方法，而是推动另一种路线：在试验设计阶段就嵌入推广性考虑——通过精心设计样本选择，而非等事后补救，来提升样本与总体的相似性。这一路线的代表性工作包括：
- Tipton 和同事的“偏差鲁棒”分层抽样方法 (Tipton, 2014b; Tipton et al., 2014)：用 K-means 聚类将目标总体分成若干层（strata），然后从各层中按比例或便利方式招募学校。只要分层所用的变量包含了所有影响处理效应异质性的 site-level 调节变量（即采样可忽略性成立），那么样本 ATE 就是对总体 ATE 的无偏估计。
- 该方法在国家学习心态研究 (National Study of Learning Mindsets, Yeager et al., 2019) 中被大规模实践——从全美概率抽样，再按关注的调节变量分层。

这场报告的独特之处在于：
它把焦点从「推广平均处理效应 (ATE)」转向 「检测和估计处理效应异质性 (treatment effect heterogeneity)」——即调节变量 (moderators) 的作用。核心论点是：我们不仅需要样本在均值上与总体匹配，更需要样本在调节变量上具有足够的变异 (variation) 才能有统计功效去发现异质性。报告进而发展了一套在 ATE 估计最优性与调节变量估计最优性之间的权衡设计。

关键背景工作（部分人名听不准，待核实）： - 功效分析框架：Dong, Kelcey, & Spybrook (2018)；Spybrook, Kelcey, & Dong (2016) 提供了 cluster-randomized trials 中检验调节变量交互效应的最小可检测效应量差异 (MDESD) 公式。 - 最优实验设计历史：报告引用多因子实验室实验的最优设计文献，但将其转移到 site-level 调节变量估计的样本选择问题上。

当前可能被挑战的假设： - 报告假定研究者能事前知道哪些变量可能调节处理效应（幻灯片第 3 页提到“little is collectively known regarding sources of treatment effect variation”）。 - 报告主要针对单层 site-level 调节变量（如学校层面的城镇化率、贫富状况），而忽略了个体层面调节变量（如学生的家庭背景）在 cluster-randomized trial 中的估计问题。 - 报告中的统计功效分析基于线性混合模型，但未深入讨论当调节变量与处理效应间存在非线性关系或高维交互时，该设计是否依然有效。

二、最小内核 / 一个最简例子¶

符号与模型： - 设有 J 个站点（学校），每个站点内有 n_j 个个体（学生）。以 j 索引站点。 - T_j 为站点层面的处理分配指示：T_j = +1/2 表示处理组，T_j = -1/2 表示控制组（这种编码使得 γ₀ 直接是 ATE）。 - 结果变量 Y_ij（学生 i 在站点 j 的考试成绩）。 - X_j 为站点层面的连续调节变量（例如学校中享受免费/减价午餐的学生比例，已中心化，在总体中均值为 0，方差 σ_X² = 1）。

潜在结果模型（幻灯片第 4-5 页的核心线性设定）：

Y_ij(0) = γ₀₀ + γ₁₀ X_j
Y_ij(1) = γ₀₁ + γ₁₁ X_j

个体 i 在站点 j 的处理效应：Δ_ij = Y_ij(1) - Y_ij(0) = (γ₀₁ - γ₀₀) + (γ₁₁ - γ₁₀) X_j = γ₀ + γ₁ X_j。

可观测数据：(Y_ij, T_j, X_j)。由于 T_j 是随机分配的，T_j ⟂ X_j。在 cluster-randomized trial 中，我们观测到的回归模型（幻灯片第 5 页，式 3）为：

Y_ij = γ₀ + γ₀ T_j + γ₂ X_j + γ₁ T_j×X_j + r_j + e_ij

其中 r_j ~ N(0, τ²) 为站点随机截距，e_ij ~ N(0, σ²) 为个体误差。

人群参数 (estimands)： - γ₀ = 总体 ATE（注意设定 E[X] = 0）。 - γ₁ = 调节变量效应：X_j 每变化 1 个单位，ATE 变化 γ₁。

标准化的效应量（幻灯片第 6 页）： - 标准化 ATE: δ_ATE = γ₀ / √(σ² + τ²)。 - 标准化的调节效应（SESD）: δ_SESD = γ₁ √σ_X² / √(σ² + τ²) = γ₁ / √(σ² + τ²) （因为已设 σ_X² = 1）。

核心直觉——为何样本异质性影响功效： - 设 X_j 是二值的（城镇 vs. 乡村）。
- 若在总体中城镇与乡村各占 50%（X_j 的总体标准差 ≈ 0.5），但样本中 90% 是城镇学校（样本标准差 ≈ 0.30），则样本中 X_j 的变异缩小了。这会导致：
- 交互项 γ₁ 的估计标准误变大（因为它依赖于 X_j 在样本中的分散程度）。
- 原本在总体中可能显著的交互效应，在样本中可能变成不显著——不是因为效应本身小，而是因为样本未能涵盖极端值的站点。

一个非正式的展示： - 设总体中 γ₁ = 0.80（即 X_j 两个水平间的标准化差异 ≈ 0.80），则具有代表性的样本（r_X = S_X / σ_X = 1）在 J=40 个站点下，检验功效可能为 0.80。
- 若样本仅为总体的子集且同质化（r_X = 0.7），则所需站点数需增加到 J ≈ 60+ 才能达到相同功效。

三、报告主体：讲者讲了什么¶

[0:02:14 – 0:06:18] 背景与问题动机
讲者首先描述了教育领域随机试验的现状：
- 过去 15 年仅在 IES 资助下就有超过 500 项 efficacy/effectiveness 试验。但大多数为 cluster-randomized（站点随机化），站点数仅 20-50 个。
- 试验招募几乎完全基于便利（convenience）——研究者选择他们有人脉的、位于研究型大学附近的、规模偏大的学区。引用一张地图（幻灯片 OCR 中有 "map of the general location"），显示沿海地区（研究重镇）过度代表，而南部和中部代表性严重不足。
- 更关键的是，招募过程的数据几乎从未被记录（没人记录哪些学校被联系、哪些拒绝了、为什么拒绝），因此事后校正方法无法区分「未被联系」和「拒绝参与」，导致可忽略性假设难以验证。

[0:06:18 – 0:08:50] 为什么事后校正不够
讲者指出事后方法（重赋权、最大熵、边界法）的一个致命约束是覆盖不足 (under-coverage)：许多单位在样本中的选择概率实际上是 0，这使得重赋权方法在外推上严重依赖模型假设。她因此将研究重点从「事后补救」转向「事前设计」——即在试验设计阶段就将推广性纳入考量。

[0:08:50 – 0:11:28] 推广性问题为何罕见被提出？
讲者分享了与教育研究者的对话经验：
- 许多研究者不认为推广性是个问题——他们通过说服自己这些因素不重要来继续做他们正在做的实验。
- 即便承认问题，目标总体的定义本身就很困难（“你可推广的总体 vs. 你希望可推广的总体”之间的迭代）。
- 资源与时间约束：招募发生在获得资助之前，研究人员缺时间、缺数据、缺知识。

[0:11:28 – 0:13:08] 讲者的解：基于分层的样本选择
讲者的核心设计思想是：利用已有的人口普查/行政数据（如 Common Core of Data, American Community Survey），通过 K-means 聚类对目标总体的所有站点按一组潜在的调节变量（如学校规模、城乡、贫困率等）进行分层（幻灯片第 2 页、第 3 页）。
- 层数保持较小（通常 K=4-6），因为样本量很小（J=30-60）。
- 分层后，按比例（proportional）分配样本到各层；但 实际招募中，随机抽样常常不可行，讲者承认即便只用分层而不用层内随机抽样，也比完全不考虑总体要好。
- 讲者强调了“凡事有利于一步就是好的”——她宁愿见研究者用了不完美的分层，也不见得他们完全不做。
- 她创建了一个免费的在线工具 the Generalizer（[0:28:42 – 0:42:00]），它引导非统计背景的研究者一步步定义目标总体、选择变量、生成分层方案，并最终产出带有学校联系信息的 CSV 文件。

[0:42:00 – 0:49:05] 核心理论贡献：AT vs. 调节变量估计的设计冲突
这是报告的技术高潮：
- 讲者引入 标准化效应量差异 (SESD, δ_SESD)（幻灯片第 6-7 页）——交互效应 γ₁ 的总体标准化版本。她强调 标准化所用的标准差必须是总体标准差 σ_X，而非样本标准差 S_X。若用样本标准差，则同一干预在同质 vs 异质样本中会得到完全不同的 δ_SESD，使跨研究的比较失去意义。
- 引出 功效分析的新维度：现有功效公式（如 Dong et al., 2018）假设样本与总体在 X 的变异上一致（S_X ≈ σ_X）。但她的实证分析（[0:45:48 – 0:46:30]）显示：在 34 项 IES 资助的 RCT 中，绝大部分样本的 S_X / σ_X 远低于 1（中位数约 √0.5 ≈ 0.71），即样本远比总体同质（见幻灯片第 10-11 页的图 & 箱线图部分）。这直接导致：
- 实验中检验调节变量效应的实际功效远低于研究者以为的功效。
- 等效地：一个在 40 个代表性站点中就能检测到的交互效应，在典型同质样本中可能需要 70 甚至更多站点。
- 最小可检测效应量差异 (MDESD) 被重新写作依赖「样本与总体标准差之比」r_X = S_X / σ_X 的形式（幻灯片第 10 页，式 9）：
MDESD(sample) = MDESD(population) / r_X。
若 r_X = 1/√2，则样本身的 MDESD 是总体的 √2 倍（即功效降低约一半）。

[0:46:57 – 0:49:05] 权衡设计：augmentation 方法
讲者提出解决上述冲突的一种策略：
- 用样本的 大部分（如 80%）按照推广 ATE 最优的方式（即与总体均值匹配的分层抽样）来选择。
- 小部分样本（如 20%）故意选择在调节变量上极端的站点（如高贫困率 vs. 低贫困率的学校），以增加 X 的变异，提升调节变量估计的功效。
- 这是一个偏差-方差权衡：牺牲少量的 ATE 估计精度（通过引入非代表性样本），换取对交互效应 γ₁ 估计的大幅提升。研究表明，在小样本中这种牺牲很小。
- 幻灯片第 11-12 页引入“最优设计”概念，其核心源于经典实验设计：为估计一个交互效应，我们希望 X 在样本中分布在两端（即最大化 X 的变异），这与代表性样本（X 的分布需与总体一致）直接冲突。

[0:49:05 – 0:58:08] 讨论环节 (Andrew Gelman 的评论)
Gelman 用几个核心论点深化了该报告的意义：
1. 这篇报告展示的是“应用反哺理论”：而不仅仅是公式套用。
2. 这些一般化问题同样适用于医疗、经济学等所有因果推断领域。
3. 交互效应比主效应更难估计——甚至在主效应上已经是“不可靠”的情况下，交互效应可能更不可靠。
4. 提出一个更深层的挑战：也许我们根本不应该奢望一个绝对的“evidence-based policy”（如“这个课程有效”），而应将量化证据用于实施监控（如资金是否花了、老师是否按时上课），把效果的评估留给更不确定的定性判断。

四、对应论文与开放问题¶

对应论文： - 演讲的核心内容相当大程度上基于以下（转写稿和幻灯片均提及）： - Tipton, E., & Olsen, R. B. (2018). A review of methods for handling and generalizing from nonprobability samples of sites. Journal of Research on Educational Effectiveness. - Tipton, E., Spybrook, J., & students (引用为 Spybrook, Wang, & Tipton, 2019) 对 34 项 IES 资助 RCT 的招募过程与样本异质性的实证研究。 - 报告的新理论部分（最适设计与 ATE vs. moderator 权衡）似乎对应的是一篇 正在进行的论文（可能未正式发表）。幻灯片第 1 页标题显示为 "Beyond generalization of the ATE: Designing randomized trials to understand treatment effect heterogeneity"。
- 具体 arXiv 链接或期刊信息在转写中未提供，待从讲者页面或后续论文库中核对。

开放问题（每条扎根于转写/幻灯片的对应位置，只罗列，不判断研究者胜算）：

调节变量选择 (Moderator selection)——报告假定研究者可以进行识别的、对处理效应变异有影响的、且存在于现有的总体测量中的调节变量。但实际上，许多真正的调节变量（如“教学文化”、“教师能动性”）可能不存在于任何行政管理数据库中（幻灯片第 3 页：“little is collectively known regarding sources of treatment effect variation across studies”）。那么有没有一种在资源受限下的 原理性方法，用于在“设计前”从大量可能的调节变量中筛选出最重要者？
目标总体定义与唯一性——讲者在 Q&A 回应时暗示目标总体的定义是一个“迭代而充满争议的过程”（[0:11:28 – 0:13:08]）。若有多个合理的目标总体（如“美国所有高中” vs. “都市学区” vs. “有计算机条件的学区”），基于一个总体设计的最优样本可能完全不适用于另一个总体。这是否意味着 推广设计本质上依赖于对一个唯一、合理总体的主观选择，我们能否量化设计对总体选择差异的稳健性？
最优补偿设计 (Augmentation design)——讲者提出的“80% ATE-optimal + 20% moderator-boosting”的方案（[0:47:05 – 0:49:05]）是启发式的。我们能否推导出一个形式化的最优比例，在给定的 ATE 精度损失约束下最大化 moderator 估计的功效？这种优化在高维调节变量或多个调节变量时如何扩展？
超出线性模型——所有理论推导（MDESD 公式、SESD）都基于线性混合模型和线性交互。当真实数据生成过程涉及非线性、高维交互或非连续调节变量（如类别变量）时，这些最优设计结果是否依然有效？对更灵活的非参或 ML 方法（如随机森林 for moderator detection），我们需要的是否是另一种样本选择策略？
超额随机化 (over-randomization) 的成本——报告讨论了一种「好」的采样设计，但未深入分析在此设计下租用（recruitment）失去随机性的成本。现实中，很多人就算有分层计划，也会因为高拒绝率而最终无法严格按照比例招募。这种 分层计划与真实招募之间的差距 如何纳入设计阶段的风险分析？是否存在一种 稳健设计，它在面对不可预测的高拒绝率时，仍能确保总体推广性与调节变量功效不失衡？

Maintained by 陈星宇 · Homepage · Source on GitHub