Designing Randomized Trials to Predict Treatment Effects¶

讲者: Elizabeth Tipton
讨论人: Andrew Gelman
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-01-09
主题: 因果推断
视频: https://youtu.be/d8w3pKBeeqw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于 “预测单位/个体处理效应（ITE）的实验设计” 这一交叉子方向。它追问的核心是：

当我们设计随机试验时，目标不再仅仅是估计平均处理效应（ATE），而是要为每一个决策单元（学校、学生、患者）预测它自己的处理效应——那么现有的 试验规划框架（基于功效分析的样本量公式） 应该如何修正？

奠基与主流路线：
- 经典回归预测（即幻灯片 8–13 的线性回归框架）给出了单位级预测误差的封闭表达式（MSPE），这在任何统计教材中都能找到；但在因果推断语境下，它包含了一个不可识别的项 —— 潜在结果之间的相关性 ρ(Y(0), Y(1))，即 τ²_x。
- CATE 估计（因果森林、BART、R-learner 等）聚焦于事后用灵活的非参/ML 模型估计异质性，但其不确定性度量通常不连接试验规划阶段的样本量决定。
- 泛化/运输（generalization / transport） 文献（如 Stuart et al. 2017; Tipton et al. 2020）讨论了 ATE 从样本到目标总体的外推，但未系统处理 ITE 预测在外推时的额外误差项。

本报告的位置：
报告明确提出了 “针对 ITE 预测的试验设计” — 它不依赖 ML，而是用线性回归的封闭解来推导 规划阶段 就能使用的 MSPE 公式，并比较两种策略：(1) 使用协变量作为调节变量（interaction model）；(2) 直接使用（经过协方差调整的）ATE 作为所有人的预测。报告的第二部分将问题延伸到 样本非随机来自目标总体 时的外推，引入了方差比、马氏距离等项，并评估了加权回归（类似逆概率加权）的可行性。

关键可查引用（根据幻灯片第 36 页）：
- Tipton, E. & Mamakos, M. (2023). Designing Randomized Experiments to Predict Unit-Specific Treatment Effects. arXiv:2310.18500.
- 报告中提及的实证背景：Stuart et al. (2017), Tipton et al. (2020) 关于教育研究中样本选择偏差；Weiss & Bloom 关于变异在影响中的经验分布。

二、最小内核 / 一个最简例子¶

设定（单协变量，样本随机来自目标总体）：

总体：N 所学校，每所学校的处理效应 δ_j = Y_j(1) − Y_j(0)。
实验：从总体中随机抽取 n 所学校（n = n₁ + n₀），随机分配 n₁ 所到处理组，n₀ 所到对照组。
模型（幻灯片 7–8）：
处理组：Y_i(1) = μ₁ + β₁ x_i + ε₁i，ε₁i ~ N(0, σ²₁|x)
对照组：Y_i(0) = μ₀ + β₀ x_i + ε₀i，ε₀i ~ N(0, σ²₀|x)
(参数正态假设，与功率分析惯例一致)
预测：对新学校 j（已知其协变量 x_j，但未参与实验），预测
δ̂_j = (μ̂₁ − μ̂₀) + x_j (β̂₁ − β̂₀)。

核心思想（幻灯片 10–12）：

条件于 x_j，预测的均方误差为

\[\operatorname{SPE}(\hat\delta_j) = E[(\hat\delta_j - \delta_j)^2 \mid x_j] = \left(\frac{\sigma^2_{0|x}}{n_0} + \frac{\sigma^2_{1|x}}{n_1}\right) \left(1 + \frac{(x_j - \mu_x)^2}{\sigma^2_x}\right) + \tau^2_x,\]

其中 \(\tau^2_x = \operatorname{Var}[\delta_j \mid x_j]\) 是条件处理效应方差，它依赖于不可识别的 ρ(Y(0),Y(1))。

关键洞察：
- 预测误差大于 ATE 的抽样方差（多了一个“新残差” τ²_x 和杠杆项 \((x_j - \mu_x)^2 / \sigma^2_x\)）。
- 如果只用一个常数（ATE）作为所有学校的预测，则 MSPE = (σ²₀|x / n₀ + σ²₁|x / n₁) + τ²_x（幻灯片 17–18，忽略协方差调整的增益）。
- 因此，当样本量小、协变量对处理效应变异的解释力弱时，ATE 反而可能比任何调节模型做得更好，因为调节模型付出的“拟合额外参数”代价超过了其解释力带来的收益。

三、报告主体：讲者讲了什么¶

以下时间点以转写（ASR）中的 [H:MM] 为参考；转写与幻灯片冲突时以幻灯片为准。

[0:00–0:10] 背景与动机¶

讲者介绍自己在教育研究领域的背景：ESRA（2002）创立 IES，资助了 >400 项 RCT，结果汇总至 What Works Clearinghouse。
IES 主任 Mark Schneider 的 mantra：“What works, for whom, and under what conditions?” — 这本质上是一个预测问题，而非平均估计问题。
当前系统只设计用于检验 ATE 的假设，但决策者想要的是“我的学校会怎样？”。

[0:10–0:22] 设置与符号（对应幻灯片 6–8）¶

定义：N 所学校（预测目标总体），实验样本 n = n₁ + n₀，随机分配。
对每所学校 j，希望预测 δ_j = Y_j(1) − Y_j(0)，利用协变量 x_j。
使用分离回归：处理组和对照组分别拟合线性模型，再将系数组合成预测。

Q&A 时间 [0:18–0:21]： - 问题 1：参数假设（高斯）？讲者确认，并解释这是为了与功率分析公式保持一致（规划阶段通常做更强的假设）。
- 问题 2：与 Oaxaca 分解的联系？讲者表示有共鸣，但非初衷。
- 问题 3：学校级 vs. 学生级？讲者指出聚焦学校级可以避免嵌套复杂性，公式校正后类似。

[0:22–0:33] 随机样本下的 MSPE 推导（对应幻灯片 9–14）¶

推导条件 SPE，然后取平均得到 MSPE：

\[\operatorname{MSPE}(\hat\delta) = \left(\frac{\sigma^2_{0|x}}{n_0} + \frac{\sigma^2_{1|x}}{n_1}\right)(1 + p) + \tau^2_x,\]
其中 p 是协变量个数（假设已中心化）。
讲者强调：这个结果并非新东西（回归教材可拼凑），但包含了 τ²_x 这一因果不可识别项。
给了一个直观比喻：预测误差的“新残差”和“杠杆”项都比 ATE 的标准误大。

[0:23–0:27] 规划用的参数形式（对应幻灯片 15–16）¶

用标准的“功率分析”参数重写：
R²_₋₀ = 1 − R²（Y(0) 中未被协变量解释的方差比例）
R²_₋τ = 1 − R²_τ（处理效应方差中未被解释的比例）
τ²* = τ²_x / σ²₀（标准化处理效应方差）
得到的 MSPE 公式（幻灯片 16）包含了这些参数以及 ρ₀η|x（残差相关性），便于在不同情景下评估。

[0:27–0:30] 与 ATE 的比较（对应幻灯片 17–21）¶

将 ATE（均值差异或 ANCOVA）视为一种“所有单位同一个预测”的模型。其 MSPE 公式（幻灯片 18）缺少处理效应解释项，但保留了残差和 τ²_x。
关键数值结果（幻灯片 19–20）：
CRT 案例：n₀ = n₁ = 20（常见教育 RCT），τ ≈ 0.10 时，一个协变量需要解释 ≥ 62% 的处理效应方差才能优于 ATE；τ ≈ 0.25 时需 ≥ 34%。
当 n₀ = n₁ = 300（学生级）时，需求降至 8% 和 5%。
讲者引用 Weiss & Bloom 的经验证据：实际中处理效应变异通常较小（τ* 约 0.1–0.25），且很少有协变量能解释这么高的比例。
结论：在样本量小或中等时，ATE 可能是“最佳”的 ITE 预测（MSPE 最小）；但预测区间可能很宽，包含正负值。

Q&A [0:30–0:33]： - 问题 4：与异质性处理效应（CATE）文献的连接？讲者指出 ML 方法在此规划语境下没有封闭解，且参数假设己经很乐观；数据少时不能指望 ML 超越线性回归。
- 问题 5：关于 ρ(Y(0), Y(1)) 的敏感性？讲者承认这是关键未识别量，可尝试用现有数据（如匹配研究）进行范围假设。
- 问题 6：如何改变聚类策略？讲者回应：问题不在单个实验，而在于整个系统——如果真想预测，需要更大的样本和更好的调节变量测量。

[0:33–0:45] 外推（样本非随机来自目标总体）（对应幻灯片 22–31）¶

放弃随机样本假设，考虑两个总体：P_A（实验所在）和 P_B（预测目标）。
预测 δ_j = Δ_A + x′_{j|A} δ_B + η_j，其中 Δ_A 是 P_A 的 ATE。
MSPE 分解（幻灯片 25–26）：新增三项
D = tr(Σ_B Σ^{-1}_A)：方差比
M = (μ_B − μ_A)′ Σ^{-1}_A (μ_B − μ_A)：马氏距离（均值差异）
E：外推偏差（因关系在 P_A 和 P_B 不同）
简单单协变量情形（幻灯片 26）：MSPE 显式包含 σ²_B / σ²_A 和 (μ_B − μ_A)² / σ²_A。
关键观察：由于实验常选更同质的样本（σ²_A 小），比值会放大误差。
加权方法（幻灯片 27–28）：逆赔率加权（Shimodaira 2000; Steingrimsson et al. 2023）可减少偏差，但需要条件独立和正性假设，且带来方差膨胀因子 VIF。
实证（幻灯片 29–30）：用美国各州数据（6 个协变量）计算 D+M 与 VIF。
结果显示方差差异 D 主导了 MSPE 的增加，而非均值差异 M（与传统泛化偏误来源不同）。
加权后正性假设通常只能覆盖 60–80% 的总体，且 VIF 很大。

[0:45–0:47] 结论与总结（对应幻灯片 32–35）¶

规划预测试验需要：(a) 明确定义预测总体；(b) 预先考虑调节变量及其解释力。这两点在假设检验规划中都不需要。
样本与总体的距离（D + M）直接进入 MSPE。
小样本下 ATE 可能是最佳的 ITE 预测，但该 ATE 也面临推广偏差问题。
根本困境：我们需要更大的样本和更好的机制性调节变量，而这需要整个研究文化转变。

[0:46–0:55] Andrew Gelman 的讨论与回应¶

Gelman 强调：(i) 实验规模必须与政策决策匹配（“100 人或 1000 人样本驱动政策是荒谬的”）；(ii) 同时指出“大量实验+小型样本”模式的人性和经费限制；(iii) 教育干预的机制是交互性的（师生、课堂），不同于“按按钮、吃药”模型。
讲者回应：同意；并补充说决策者对误差的容忍度可能不同于研究者（类型 I 误差 0.05 是惯例，但决策者或许能接受更高）。她再次强调目前我们没有好的调节变量，且现有数据不支持精确预测。

四、对应论文与开放问题¶

（a）对应论文¶

绝对核心：Tipton, E. & Mamakos, M. (2023). Designing Randomized Experiments to Predict Unit-Specific Treatment Effects. arXiv:2310.18500. [幻灯片 36]
注意：转写中“Mahalis micos”应为 Michalis Mamakos（合作者）。
参考文献中提到的背景工作：
Stuart et al. (2017) 和 Tipton et al. (2020) ——教育样本选择偏差经验研究。
Weiss & Bloom ——处理效应变异的经验度量（未给出具体文献，可在审阅时补查）。
Shimodaira (2000) / Steingrimsson et al. (2023) ——加权回归用于均势/泛化。

（b）开放问题（每条扎根在转写或幻灯片的具体位置）¶

不可识别的 τ²_x（处理效应方差）的合理范围
幻灯片 11 和转写 [0:14] 指出 τ²_x 依赖于 ρ(Y(0), Y(1))，无法从 RCT 数据中识别。讲者建议“假定一个值或用现有相关性数据”。
问题：能否通过元分析或多个实验的汇总数据为常见教育干预给出经验界限？这对规划阶段的 MSPE 计算至关重要。
选择调节变量（moderators）的先验标准
幻灯片 19–20 显示，即使中等变异（τ* ≈ 0.25），一个调节变量也需要解释 34% 的处理效应方差才能胜过 ATE。
问题：什么类型的变量（机制性、心理测量、实施保真度）在实证中能接近这个水平？是否有领域通用的推荐清单？
加权方法的稳健性与性能边界
幻灯片 27–30 指出加权回归的 VIF 可能很大，且正性假设在实践中常被违反（仅覆盖 60–80% 总体）。
问题：是否存在不依赖严格正性的替代方法（如外推模型、贝叶斯收缩）？加权与直接用未加权但考虑协变量偏移的 MSE 相比，在什么条件下更优？
小样本下“ATE 是最佳 ITE 预测”的适用范围
幻灯片 20–21 和转写 [0:29–0:30] 指出该结论来自线性参数模型。
问题：若放松线性、正态假设（例如用半参方法），该结论能否继续保持？是否存在非参数规划公式的类似物？
从系统层面优化试验组合
Gelman 的讨论 [0:48–0:50] 和讲者回应 [0:56] 触及“更大但更少的实验 vs. 更多但更小的实验”的权衡。
问题：给定固定总预算（样本量 × 实验数），应如何分配到不同干预和人群上，以最小化总体预测误差（覆盖所有决策单位）？这更像一个组合优化问题，而非单一实验设计。

Maintained by 陈星宇 · Homepage · Source on GitHub