ML-assisted Randomization Tests for Complex Treatment Effects in A/B Experiments¶

讲者: Panos Toulis, Wenxuan Guo
讨论人: Xinran Li
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-12-10
主题: 因果推断
视频: https://youtu.be/4x0vbIjd5hk · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的工作线是 “Fisherian Randomization Tests (FRT) 在复杂处理效应检测中的现代化”，核心在于将随机化检验与基于机器学习的检验统计量结合，以提升对有 异质性（heterogeneity） 和 溢出效应（spillover/interference） 等复杂处理效应的检验功效。

方向背景：Fisher (1935) 提出的随机化检验，通过在已知的随机化分配分布下重抽处理，为检验 sharp null（如 H₀: Yi(1) = Yi(0) 对所有 i 成立）提供了一种有限样本精确（finite-sample exact）的方法。这个方法只需随机化分配机制已知，不依赖任何对结果分布的参数假设。传统上，FRT 中使用的是简单的检验统计量，如均值差（difference-in-means）。
当前前沿与挑战：随机化检验的一个核心挑战是 检验功效（power） 如何随着数据维度和复杂性提升。同时，在实际 A/B 测试中，处理效应可能非常复杂（异质性、网络溢出），传统基于线性模型或简单统计量的 FRT 往往无力检测。近年来，学界已开始研究将 covariate adjustment / 残差化方法 (Rosenbaum, 2002) 或模型辅助方法推广到 FRT 中，但多是基于线性模型或简单的半参数模型，没有系统性地利用 ML 模型的预测能力来构造检验统计量。本报告提出的方案（ML-FRT）是这一方向的一种自然但精巧的推广。
这场报告的站位：报告的贡献是 将基于差异的运行检验框架与 ML 模型的预测误差比较结合起来，构造了一种新的“ANOVA 型”检验统计量（基于交叉验证预测误差之差）。这样，检验问题就被转化为 变量重要性（variable importance） 问题（treatment Z 对 outcome Y 的预测性），而决策区间（rejection region）则由随机化分配决定。理论上，报告证明了 “更好的预测能力 ⇒ 更大的变量重要性 Δ ⇒ 更高的统计功效”，这个定理建立了一个清晰的直接联系。这显然不同于传统的基于线性模型或简单对比的 FRT。报告还展示了该方法可以自然地扩展到对异质性处理效应和网络溢出效应的检验，通过一系列模拟并对比了该领域经典方法（如 Ding et al. (2016) 的 VR/SKS 方法、Athey et al. (2018) 的 ELC 方法）。它本质上是 “FRT + Causal ML” 的精简融合。

二、最小内核 / 一个最简例子¶

符号设定¶

考虑最简单的 完全随机化实验 (CRD)：n 个独立同分布单位。 * 随机变量/样本： * 处理分配向量 \( Z = (Z_1, ..., Z_n) \)，\( Z_i \in \{0, 1\} \)。在完全随机化中，一半个体接收处理，另一半接收对照，但以下讨论基于独立伯努利分配。 * 协变量矩阵 \( X \in \mathbb{R}^{n \times p} \)，第 i 行是 \( X_i \in \mathbb{R}^p \)。 * 结果变量 \( Y = (Y_1, ..., Y_n) \)。 * 模型/可观测结构：结果被假设遵循：

\[Y_i = \mu + b(X_i) + Z_i \underbrace{h(X_i)}_{\text{异质性}} + \epsilon_i,\]

其中 \( \epsilon_i \) 是均值为 0 的独立噪声，且 \( \epsilon \perp\!\!\!\perp Z \mid X \)。这是 Potthoff (1964) 的随机化实验模型的推广。 * 目标 / 参数量 (Estimand)： * 全局零假设 \( H_0^{\text{glob}}: h = 0 \)，即处理 Z 对 Y 没有任何影响（包括异质性或溢出）。 * 备择假设 \( H_1^{\text{glob}}: h \neq 0 \)。 * 检验统计量：定义一个“变量重要性”度量，作为检测的基础。 * 潜在不可观测量：此处不涉及传统反事实框架。核心的可观测是 \( (Y_i, Z_i, X_i) \)，检验完全建立在这之上。干扰 (interference) 效应 g 被忽略。

一个最简特例：检测一个恒定的处理效应¶

设定 d=1（只有一个协变量 \( X_i \)），且处理效应恒定：\( h(X_i) = \tau \) (常数)，没有干扰 (\( g=0 \))。即：

\[Y_i = \mu + b(X_i) + \tau \cdot Z_i + \epsilon_i.\]

核心思想： 我们的目标是检验 \( H_0: \tau = 0 \) 是否有异。我们将构造两个预测模型：

无处理效应的模型 M0：只用协变量来预测结果：\( \widehat{\mu}_i^{(0)} \approx \mu + b(X_i) \)。
含处理效应的模型 M1：用协变量和处理来预测结果：\( \widehat{\mu}_i^{(1)} \approx \mu + b(X_i) + \tau Z_i \)。

检验统计量 \( t_n \): 定义它为两个模型在 k 折交叉验证（k-CV）上的平方误差损失之差：

\[t_n(Y, Z, X) = CV_k(\text{M0}) - CV_k(\text{M1}).\]

直观上看，如果 \( \tau \neq 0 \)，M1 的预测误差会显著小于 M0，因此 \( t_n \) 会很大。（如果 \( \tau = 0 \)，两个模型预测能力相近，\( t_n \) 基本围绕 0 波动）。因为这是一个随机化实验，我们知道 Z 的真实分布，我们可以用一次“真实随机化参考分布”来校准 \( t_n \)。

具体操作（程序1）： 1. 计算原始数据下的检验统计量 \( t_{n}^{\text{obs}} \)。 2. 对于 \( r = 1, ..., R \)：在保持 \( Y, X \) 不变情况下，独立重新随机化 Z 为 \( Z^{(r)} \)（服从同样的 \( P(Z) \)），并计算新的统计量 \( t_n(Y, Z^{(r)}, X) \)。 3. 右尾 p 值：

\[p = \frac{1}{R+1} \left( \sum_{r=1}^R \mathbf{1}\{ t_n(Z^{(r)}) > t_n^{\text{obs}} \} + 1 \right).\]

4. 关键性质：在 \( H_0 \) 下，Z 不影响 Y，所以 \( t_n(\cdot) \) 在 \( Z^{(r)} \) 下的分布与在每次实际数据下观察到的分布相同。因此 p 值在有限样本下是准确成立的（不需要渐近理论）。如果 \( \tau \neq 0 \)，\( t_n^{\text{obs}} \) 倾向于大于大多数随机化版本，p 值会很小，从而给出强功效。

功效来源： 报告的核心理论指出，\( t_n \) 的功效可以用参数 Δ（变量重要性）来量化。恒定效应下，\( \Delta_{\text{ML}} = \pi(1-\pi)\cdot E[h^2(X)] \)（此处即 \( \tau^2 \)）。这意味着，如果 ML 模型抓住了 \( \tau \)，功效就会随效应强度升高而升高。

三、报告主体：讲者讲了什么¶

[0:00 – 0:06] 引言与框架 * 讲者（Panos Toulis）开头，强调实验（尤其是 A/B 测试）在因果推断中的地位。 * 指出传统方法（t-test、线性回归对于边际效应有效，但面对复杂效应受限。 * 引出 Fisherian Randomization Test (FRT) 的核心优势：有限样本有效，基于随机化分配而非模型假设。 * [0:03:20] 传统 FRT 只是简单地把 t 统计量重抽。现在他们用更复杂的统计量，并保留 FRT 的有效性。

[0:06:00 – 0:10:00] 核心提议 & 主定理 * 核心提议：使用两个 ML 模型——M0（仅用 X 预测 Y）和 M1（用 X 和 Z 预测 Y）。检验统计量为 CV_error(M0) — CV_error(M1)。[0:09:30] 这个统计量是“ANOVA 型”的，类似比较两个模型的残差平方和，但用 CV 误差替代。 * 主定理：[0:15:30] 在合理假设（伯努利设计、i.i.d. 等）下，备择假设成立时，p 值大于显著性水平 α 的概率（即 Type II 错误率）以指数速率衰减：\( O\big(k \exp(-C n \Delta^2 / k M^4)\big) \)。其中，Δ 定义为：

\[\Delta = \inf_{f_0\in\mathcal{F}_0} \mathbb{E}[Y - f_0(X)]^2 - \inf_{f\in\mathcal{F}} \mathbb{E}[Y - f(X, Z)]^2.\]

* 直观：Δ 衡量了在给定最优预测类时，包含 Z 带来的预测误差减少。ML 越好，Δ 越大，功效越高。 * 与残差法的比较：[0:18:00] 提出将他们的方法与 Rosenbaum (2002) 的残差法（\( \widehat{Y} \) 对 X 回归后取残差，再对残差比较处理的均值）进行功率比较。他们的方法对异质性效应的检测量 Δ_ML = π(1-π) * E[h²(X)] ，而残差法的对应量为 Δ_RES = π(1-π) * (E[h(X)])²，两者之差比例于 Var(h(X))。这意味着：有异质性时，他们的方法功率更高；无异质性时，两者持平。

[0:20:00 – 0:26:00] 扩展：异质性检验 * 问题：如何检验“处理效应是常数” (\( H_0^{\text{het}}: h(X) = \tau \)，τ 未知)？ * 策略（Wenxuan Guo 讲述）：[0:21:30] 使用一个“兜底（majorization）”技巧： 1. 对某一假设的常数 τ₀，构造变换后的结果 \( Y'_i = Y_i - \tau_0 Z_i \). 2. 在 {\( Y' \), Z, X} 上应用 FRT 程序，得到 p-value pval(τ₀). 3. 最终的 p 值为 \( p^* = \sup_{\tau_0 \in \mathbb{R}} \text{pval}(\tau_0) \)。这个组合在有限样本下仍然有效（遵循 Berger & Boos 的思想）。 * 模拟：[0:27:00] 使用了 Künzel et al. (2019) 的 DGP。 * Linear（处理效应是 X 的线性函数）：LM-FRT（含正确指定的线性模型）最好。 * Nonlinear（处理效应是 X 的阶跃函数）：ML-FRT(随机森林)最佳，远胜 LM-FRT、VR、SKS（Ding et al. 2016）。这直观显示了“ML 预测力 => 更高测试功效”的逻辑。

[0:26:00 – 0:35:00] 扩展：溢出效应（Interference） * 问题：检验是否存在 spillover effects（干扰）。设定一个两阶段随机化（Basse & Feller 2018）。 * 策略：模型的输入变为 M0: Y ~ Z + X, M1: Y ~ Z + \( A_i Z \) + X（其中 A 是观测到的邻接矩阵）。检验统计量类似是 CV(M0) - CV(M1)。使用条件随机化（CRT）以获得有限样本有效性 [0:26:30]。 * 模拟：在两个设置上测试： * Constant spillover：所有方法（ML-FRT, LM-FRT, ELC (Athey et al. 2018)）功率相当。 * Nonlinear spillover：只有 ML-FRT 能够维持检测能力。这再次强调了 复杂效应需要复杂模型来检测。 * [0:32:00] 讲者强调，这类检测（尤其是异质性和溢出）是作为 筛查工具（initial screening tools），一旦检测到有，才用更标准的估计方法去量化。

[0:35:00 – 0:38:00] 讨论时间（Xinran Li 和 Panos） * Xinran Li 讨论：将这一框架放入“基于随机化推断”的悠久传统中。她指出，对于 non-sharp null hypothesis（例如检验平均处理效应），需要更精巧的检验统计量（如学生化统计量）。使用 CV 差作为统计量可能无法简单地“学生化”以得到正确的渐近分布，这是一个关键的技术挑战。 * Panos 回应：与残差法（拟合一次模型）比，他们的方法（每次随机化都重新拟合）计算量大，但可以捕捉更高阶的交互效应。作为筛查工具，他们的方法旨在为后续更精确的估计互补使用。

四、对应论文与开放问题¶

对应论文： * 报告引用的工作来自讲者与学生 Wenxuan Guo（Booth）、JungHo Lee（CMU）。幻灯片结尾 [Slides 27] 声明：“ML-assisted Randomization Tests for Complex Treatment Effects in Experiments, preprint, 2024. Draft available upon request.” 所以这是一篇在写或刚完成的工作论文，尚未公开（arXiv 可能未上传）。这需要与该领域（causal inference community）的交流中直接获取。

开放问题（扎根于转写和幻灯片）

以下问题全部源于报告本身，不涉及外部判断：

对非锐利零假设的推广（讨论区，时间戳[0:49:00 – 0:51:00]）：当前的 ML-FRT 主要直接针对 Sharp null（H₀: h=0），但很多实际问题关注弱零假设（例如平均处理效应 ATT 为零）。Xinran Li 指出这需要检验统计量满足“相似性（similarity）”假设以便有效学生化。一个开放问题是：能否构造一个基于 ML 的检验统计量（如经过适当准化的 CV 差），使其对随机化的条件分布保持适用，从而有效地检验这些非锐利零假设？
多重检验与 Family-wise Error Rate (FWER)（转写中无直接讨论，但幻灯片 [Slide 26] 提到“factorial experiments”）：报告已经在几个假设（全局零、异质性、溢出）上个体地展示了方法。但当一个实验中同时对这三个假设或对多个不同的处理（如因子实验）进行检验时，如何在保持有限样本有效性的同时控制 FWER？目前尚无理论结果。
极稀疏处理下的计算-统计权衡（转写 [0:36:00] 暗示，但未深入）：每次随机化都重新拟合一次 ML 模型的计算成本可能很大（尤其在大 n 或复杂模型时）。Xinran Li 提出了“残差法”（只拟一次模型）作为更具计算效率的替代。两者之间如何做最佳权衡？不仅在功率上（Panos 指出的捕捉复杂交互），也在实际 SCALING 上。
U-statistics / Tensor Contraction 结构（拓展的可能联系）：测量变量重要性统计量 Δ 在本质上是一个 U 型量：\( \hat{\Delta}(\mathcal{D}) = \frac{1}{n} \sum_i \phi_i \) (像平均值)，但不是简单的参数函数。高维情形下，它的准确估计可能与高阶 U 统计量的计算/迹相关，这间接指向你在higher-order U-statistics and tensor contraction 方面的研究兴趣。

Maintained by 陈星宇 · Homepage · Source on GitHub