Randomization and Regression Adjustment¶

讲者: Peng Ding
讨论人: Tirthankar DasGupta
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-10-07
主题: 因果推断
视频: https://www.youtube.com/watch?v=FzVm5MF2Sbw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

1906.11291 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

报告讲的是 「在随机化实验中，如何通过设计（rerandomization）和分析（回归调整）联合使用协变量来提升因果效应的估计精度」。

这个子方向追问的核心问题是：给定一个完全随机化实验（CRE），我们能否以及如何利用协变量信息来获得比“差之均值（difference-in-means）”更精确的处理效应估计？ 传统上回答这个问题的两条路线分别是：

设计阶段（Design stage）：在分配处理前，利用协变量来“平衡”处理组与对照组，例如经典的 区组随机化（blocking）（Fisher 1935）。当代的 rerandomization（Morgan & Rubin 2012）提供了一个更灵活的框架：持续抽取处理分配向量，直到某个协变量平衡准则（如Mahalanobis距离）低于一个预设阈值。
分析阶段（Analysis stage）：在观测到结果后，用回归来调整协变量。Fisher的ANCOVA是经典方法，但Freedman (2008) 指出，在Neyman的随机化推断框架下（不假设线性模型正确），Fisher的ANCOVA可能比简单的差之均值还差，而且其标准误差估计也可能不一致。Lin (2013) 的一个关键突破是：通过在最小二乘法中包含处理-协变量交互项，得到的回归调整估计量在任何条件下（在随机化推断下）都优于或等于差之均值，并且Eicker-Huber-White (EHW) 标准误是保守的。

这一条工作线的当前前沿在于，设计阶段和分析阶段往往是独立的。实践中，实验者可能用rerandomization设计，但分析者只用简单的差之均值或错误地使用Fisher ANCOVA；或者完全随机化但事后用Lin的回归调整。问题是：如果把两者结合起来，用rerandomization做设计，再用Lin的回归调整做分析，我们还能不能得到更好的统计推断？怎样做是最优的？最优（optimality）在联合使用时应如何定义？

这场报告（Li & Ding, JRSSB, 2020）就站在这个交点，系统回答了「同时使用两者的理论」。其不寻常之处在于： * 它将Neyman的有限总体（finite-population） 随机化推断框架作为严格的底层，不依赖任何随机抽样假设。 * 它同时考虑了设计者（拥有协变量 \(X\)）和分析者（拥有协变量 \(W\)）可能拥有不同的、非嵌套的协变量信息的情况，这是非常现实的场景。 * 它还引入了两种不同的最优性概念：S-optimality（基于估计量的真实采样分布）和C-optimality（基于通过EHW标准误构造的置信区间的估计精度）。这两者在此处会不一致，因为采样分布不能一致地估计。 * 报告指出，在实际操作中，一个非常简单的程序——在分析时使用Lin的交互项回归调整，并报告相应的EHW标准误——具有很好的性质：在任何设计下它都不会降低估计精度（C-optimal），且当设计信息未知或缺小时，其理论性质特别稳健。

二、最小内核 / 一个最简例子¶

核心场景：假设你有一个包含 \(n\) 个对象的有限总体，正在进行一个二元处理的随机化实验。

可观测数据：
- \(Z_i \in \{0,1\}\)：处理分配指示变量。
- \(Y_i\)：观测到的结果。
- \(x_i\)：设计者观测到的协变量向量（\(K\) 维）。
- \(w_i\)：分析者观测到的协变量向量（\(L\) 维）。
不可观测量（潜在结果）：
- \(Y_i(1)\)：对象 \(i\) 在接受处理时的潜在结果。
- \(Y_i(0)\)：对象 \(i\) 在对照下的潜在结果。
目标量（Estimand）：\(\tau = \frac{1}{n} \sum_{i=1}^n [Y_i(1) - Y_i(0)]\)：有限总体平均处理效应（ATE）。
模型与随机性：最关键的假设是没有模型假设。\(Y_i(1), Y_i(0), x_i, w_i\) 被视为固定的常数或潜在属性。唯一的随机性来源于处理分配 \(Z\)，它是一个随机排列。这就是Neyman的随机化推断模型。

最简特例（\(d=1\)，单一协变量，完全随机化）：假设你有一个完全随机化实验，\(n_1\) 个处理，\(n_0\) 个对照。因为 \(X\) 和 \(W\) 在报告里可以不同，为了最简，让 \(x_i, w_i\) 都是同一个一维协变量（已中心化）。目标是用这个协变量来改善对 \(\tau\) 的估计。

思想的核心步骤： 1. 基准：简单差之均值 \(\hat{\tau} = \frac{1}{n_1}\sum Z_i Y_i - \frac{1}{n_0}\sum (1-Z_i)Y_i\) 在随机化下是 \(\tau\) 的无偏估计，其方差近似为 \(\frac{S^2_{Y(1)}}{n_1} + \frac{S^2_{Y(0)}}{n_0}\)。 2. 问题：如果协变量 \(w_i\) 能预测 \(Y_i(1)\) 和 \(Y_i(0)\)，那么 \(\hat{\tau}\) 的方差中可能包含大量可由 \(w_i\) 解释的变异。 3. 解决方案（回归调整）：考虑一个线性调整的估计量：\(\hat{\tau}(\beta_1, \beta_0) = \frac{1}{n_1}\sum Z_i (Y_i - \beta_1 w_i) - \frac{1}{n_0}\sum (1-Z_i)(Y_i - \beta_0 w_i)\)。这和用 \(Y_i - \beta_{Z_i} w_i\) 代替原始 \(Y_i\) 再计算差之均值一样。关键问题是：如何选择 \(\beta_1\) 和 \(\beta_0\)？ 4. 直观：\(\beta_1\) 和 \(\beta_0\) 应分别逼近处理组和对照组中 \(Y\) 对 \(w\) 的回归系数，这样 \(Y_i - \beta_{Z_i} w_i\) 才是其“不可解释”的部分，方差更小。 5. Lin (2013) 的技巧：报告指出，运行一个有交互项的回归：lm(Y ~ Z + w + Z:w)，然后取 \(Z\) 的系数。这个估计量自动地、最优地选择 \(\beta_1\) 和 \(\beta_0\) 为两个组内回归的LS系数（即 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\)）。在随机化推断下，它始终不差于简单的差之均值，并且EHW标准误是保守的。 6. 加上Rerandomization：在设计阶段，不只是完全随机化，而是反复随机化直到由 \(x_i\) 计算的Mahalanobis距离很小。这相当于强制性地让处理组和对照组在 \(x_i\) 上非常接近。这会直接降低 \(\hat{\tau}\) 中与 \(\bar{x}_{treatment} - \bar{x}_{control}\) 相关的那个分量。如果 \(w_i\) 与 \(x_i\) 相关，rerandomization就相当于暗中“帮了”回归调整一把。

结论的核心几何直觉（幻灯片第19页）：报告的核心公式是：

\[\sqrt{n}(\hat{\tau}(\beta_1, \beta_0) - \tau) \mid \text{ReM}_a \rightarrow \\ \sqrt{V(\beta_1, \beta_0)} \left( \sqrt{1 - R^2_{;x}(\beta_1, \beta_0)} \cdot \epsilon + \sqrt{R^2_{;x}(\beta_1, \beta_0)} \cdot L_{K,a} \right)\]

其中 \(V\) 是在完全随机化下的方差，\(R^2_{;x}\) 是调整后的估计量 \(\hat{\tau}(\beta_1, \beta_0)\) 与协变量差之均值 \(\hat{\tau}_x\) 间的相关系数的平方，\(\epsilon\) 是标准正态，\(L_{K,a}\) 是截断正态分布（因为rerandomization）。这个公式意味着，rerandomization 功能上等同于“砍掉”了 \(\hat{\tau}\) 中与协变量线性相关的那部分分布（使 \(L_{K,a}\) 的支撑集变小），而回归调整则是尽可能地缩小了剩余部分（\(\epsilon\) 项）的方差。这形成了完美的互补。

三、报告主体：讲者讲了什么¶

[0:00-0:05] 开场：Ding教授介绍了这是一个关于随机化实验的经典统计话题，合作者是Xinran Li。 [0:05-0:20] 背景与Neyman框架：概述了随机化实验的历史（Fisher, Neyman, Box等）和社会科学、在线A/B测试中的应用。正式定义了Neyman有限总体下的潜在结果、平均处理效应 \(\tau\) 和完全随机实验（CRE）。他强调了有限总体推断和设计推断的理由：对数据生成过程假设弱，迫使关注实验设计本身。 [0:20-0:30] 回归调整的历史与Freedman批判：介绍了用回归调整协变量的动机。他回顾了Fisher的ANCOVA（\(Y \sim Z + w\)），并引用了David Freedman (2008) 的批判：在Neyman随机化模型下，当有异质性处理效应和不平衡的分配比例时，Fisher的ANCOVA可能不如简单的差之均值，其标准误差也不一致。 [0:30-0:40] Lin (2013) 的解决方案：讲述Winston Lin关于通过包含交互项的回归（\(Y \sim Z + w + Z:w\)）来“修正”ANCOVA的工作。Ding强调Lin的估计量 \(\hat{\tau}_L\) 在随机化推断下总是优于简单差之均值，且EHW标准误是保守的，且不依赖线性模型假设。 [0:40-0:50] Rerandomization与理论：介绍了rerandomization（ReM），特别是基于Mahalanobis距离的ReM。提出协变量 \(X\)（设计者）和协变量 \(W\)（分析者）可以是不同的。回顾了之前的工作（Li et al., 2018, JRSSB），该工作展示了在ReM下差之均值估计量 \(\hat{\tau}\) 的非正态极限分布，并且指出ReM和回归调整在某些条件下是“对偶的”。 [0:50-1:00] 核心问题与两阶段使用：提出问题：既然两者都好，为什么不结合使用ReM（设计）和回归调整（分析）？他列出了三个核心问题：(1) 在这种结合下如何进行统计推断？ (2) 如何最优地选择回归系数 \(\beta_1, \beta_0\)？ (3) 如何量化设计和分析的增益？ [1:00-1:10] 理论工具与关键公式（核心贡献开始）： * [1:00] 展示了在CRE下 \(\hat{\tau}, \hat{\tau}_x, \hat{\tau}_w\) 的联合渐近正态性，其均值零，协方差矩阵为有限总体协方差矩阵 \(V\)。 * [1:02-1:05] 引入了两类投影：有限总体投影（将潜在结果投影到 \(W\) 上，得到真系数 \(\beta_1^{proj}, \beta_0^{proj}\) 和残差方差 \(S^2_{Y(z)|w}\)）；重复抽样投影（将随机变量 \(\hat{\tau}\) 投影到 \(\hat{\tau}_w\) 上，得到系数 \(\gamma\)）。一个关键等式是 \(r_0\beta_1^{proj} + r_1\beta_0^{proj} = \gamma\)，这说明了为什么 \(\beta_1\) 和 \(\beta_0\) 的个体值不重要，其加权组合 \(\gamma\) 才重要。 * [1:05-1:18] 对于固定的 \(\beta_1, \beta_0\)，定义了调整后的潜在结果和相应的方差 \(V(\beta_1, \beta_0)\) 和 \(R^2_{;x}(\beta_1, \beta_0)\)。然后陈述了核心定理（第18-20页幻灯片）：

\[\sqrt{n}(\hat{\tau}(\beta_1, \beta_0) - \tau) \mid \text{ReM}_a \rightarrow \sqrt{V(\beta_1, \beta_0)} \left( \sqrt{1 - R^2_{;x}} \epsilon + \sqrt{R^2_{;x}} L_{K,a} \right)\]

他用几何直觉解释这个公式：\(\hat{\tau}\) 可以被分解为与 \(\hat{\tau}_x\) 平行的部分（被ReM截断）和垂直的部分（不受影响）。\(R^2\) 测量了两者之间的相关强度。极限分布是一个混合分布（正态与截断正态）。 [1:18-1:25] 最优性定义：引入了两个最优性概念： * S-optimality（采样最优）：基于估计量真实的、未知的采样分布。目标是使分位数范围最小。 * C-optimality（置信区间最优）：基于通过EHW标准误差估计出来的采样分布。目标是使估计的置信区间宽度最小。他明确指出，在本框架下（因不能一致地估计采样分布），两者是不同的。 [1:25-1:45] S-optimality 的详细分析：Ding深入分析了不同信息场景下的S-optimality。 * [1:25-1:30] 嵌套情况（第24-27页幻灯片）： * 分析者有更多信息 (\(X \subset W\)): 当 \(W\) 包含 \(X\) 时，S-optimal 的 \(\gamma\) 选择就是Lin的 \(\gamma\)（即 \(\gamma^{\text{Lin}}\)），且S-optimal的估计量是Lin的估计量。其极限分布变成正态分布，且与 \(X\) 和阈值 \(a\) 无关。这意味着，如果分析者知道设计者所用的所有协变量（以及更多），回归调整完全消除了rerandomization对极限分布的影响。 * 分析者有更少信息 (\(W \subset X\)): S-optimal的依然是 Lin的估计量。但其极限分布不再是非正态，仍受 \(X\) 影响。 * [1:30-1:45] 非嵌套情况（第28-29页幻灯片）： * 当 \(X\) 和 \(W\) 不相交（或非嵌套）时，S-optimal的线性调整估计量可能不存在。此时，回归调整可能会降低采样精度“hurt”（用幻灯片第29页的例子）。但rerandomization无论何时都不会降低（对任一固定估计量）的采样精度。 [1:45-1:55] 推断与C-optimality： * [1:45-1:50] 介绍了如何基于样本进行推断（第30页幻灯片）。 * [1:50-1:55] 讨论了不完全信息场景：如果分析者不知道 \(X\) 或 \(a\)，无法计算 \(R^{2}\) 或 \(L_{K,a}\)。保守处理是把未知的 \(R^2\) 设为0。Ding的结论非常清晰：在这种情况下，C-optimal 的选择也是 Lin 的估计量。其极限分布简化为正态，且与rerandomization的细节无关。因此，从置信区间准确性（C-optimality）的角度看，永远推荐使用Lin的回归调整（第32-34页幻灯片）。 [1:55-结束] 总结与推荐： * [1:55-1:59] 用一个 \(2 \times 2\) 表格（设计：CRE/ReM vs. 分析：DM/RegAdj）总结了四个场景的贡献。 * [最后一页] 给出明确的实践建议（第37页幻灯片）： * 设计阶段：用Rerandomization（如ReM）。 * 分析阶段：用Lin的回归调整（\(Y \sim Z + w + Z:w\)）。 * 报告EHW标准误。这个程序总是C-optimal的，且在不完全信息场景下尤其稳健。

讨论环节：讲者Ding和讨论者Tirthankar DasGupta进行了简短的交流，涉及了rerandomization与区组设计间的关系、有限样本中过度平衡可能带来的“自由度损失”问题，以及高维协变量场景下的扩展可能（如惩罚回归、岭回归）。

四、对应论文与开放问题¶

(a) 对应论文（来源明确） * 这场报告的核心论文: Li, X., & Ding, P. (2020). Rerandomization and regression adjustment. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 82(2), 241-268. (arXiv: 1906.11291)。这已在用户提供的幻灯片和元数据中明确。

(b) 开放问题（扎根转写与讨论） 1. 有限样本中的自由度校正与最优块数： * 来源：讨论者Tirthankar DasGupta的提问以及Ding的回应 [1:00-1:03 讨论]。 * 内容：在有限样本下，增加区组数量（或类似地，极度严格的rerandomization阈值 a）会消耗“自由度”，可能导致方差估计不准确或下降。报告中的理论是渐近的。如何在有限样本下自动、最优地选择rerandomization的阈值 \(a\)，或量化其与自由度损失的关系，仍是一个开放问题。（Ding认为这是一个“very difficult question”）。

高维协变量下的扩展：
- 来源：讨论者提问和Ding的回应 [1:03 讨论]。
- 内容：当协变量维度 \(K, L\) 很大时，传统的Mahalanobis距离和全交互回归会变得不稳定或不可行。如何将惩罚方法（如Lasso、岭回归）同时融入设计阶段（定义新的平衡准则，如“岭回随机化”Zack Branson的工作）和分析阶段（进行惩罚回归调整）？其渐近理论（特别是S-optimality和C-optimality）会是什么？
非连续或更复杂的结果类型：
- 来源：Ding在回应讨论者时提及 [1:03 讨论]。
- 内容：如何处理二元结果、计数结果、序数结果或一般广义线性模型下的rerandomization和回归调整？Ding提到Guillaume和Kevin的论文涉及二元结果，但系统的理论尚未建立。

Maintained by 陈星宇 · Homepage · Source on GitHub