跳转至

Randomization and Regression Adjustment

讲者: Peng Ding
讨论人: Tirthankar DasGupta
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-10-07
主题: 因果推断
视频: https://www.youtube.com/watch?v=FzVm5MF2Sbw · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 1906.11291 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

报告讲的是 「在随机化实验中,如何通过设计(rerandomization)和分析(回归调整)联合使用协变量来提升因果效应的估计精度」

这个子方向追问的核心问题是:给定一个完全随机化实验(CRE),我们能否以及如何利用协变量信息来获得比“差之均值(difference-in-means)”更精确的处理效应估计? 传统上回答这个问题的两条路线分别是:

  1. 设计阶段(Design stage):在分配处理前,利用协变量来“平衡”处理组与对照组,例如经典的 区组随机化(blocking)(Fisher 1935)。当代的 rerandomization(Morgan & Rubin 2012)提供了一个更灵活的框架:持续抽取处理分配向量,直到某个协变量平衡准则(如Mahalanobis距离)低于一个预设阈值。
  2. 分析阶段(Analysis stage):在观测到结果后,用回归来调整协变量。Fisher的ANCOVA是经典方法,但Freedman (2008) 指出,在Neyman的随机化推断框架下(不假设线性模型正确),Fisher的ANCOVA可能比简单的差之均值还差,而且其标准误差估计也可能不一致。Lin (2013) 的一个关键突破是:通过在最小二乘法中包含处理-协变量交互项,得到的回归调整估计量在任何条件下(在随机化推断下)都优于或等于差之均值,并且Eicker-Huber-White (EHW) 标准误是保守的。

这一条工作线的当前前沿在于,设计阶段和分析阶段往往是独立的。实践中,实验者可能用rerandomization设计,但分析者只用简单的差之均值或错误地使用Fisher ANCOVA;或者完全随机化但事后用Lin的回归调整。问题是:如果把两者结合起来,用rerandomization做设计,再用Lin的回归调整做分析,我们还能不能得到更好的统计推断?怎样做是最优的?最优(optimality)在联合使用时应如何定义?

这场报告(Li & Ding, JRSSB, 2020)就站在这个交点,系统回答了「同时使用两者的理论」。其不寻常之处在于: * 它将Neyman的有限总体(finite-population) 随机化推断框架作为严格的底层,不依赖任何随机抽样假设。 * 它同时考虑了设计者(拥有协变量 \(X\))和分析者(拥有协变量 \(W\))可能拥有不同的、非嵌套的协变量信息的情况,这是非常现实的场景。 * 它还引入了两种不同的最优性概念:S-optimality(基于估计量的真实采样分布)和C-optimality(基于通过EHW标准误构造的置信区间的估计精度)。这两者在此处会不一致,因为采样分布不能一致地估计。 * 报告指出,在实际操作中,一个非常简单的程序——在分析时使用Lin的交互项回归调整,并报告相应的EHW标准误——具有很好的性质:在任何设计下它都不会降低估计精度(C-optimal),且当设计信息未知或缺小时,其理论性质特别稳健。

二、最小内核 / 一个最简例子

核心场景:假设你有一个包含 \(n\) 个对象的有限总体,正在进行一个二元处理的随机化实验。

  • 可观测数据
    • \(Z_i \in \{0,1\}\):处理分配指示变量。
    • \(Y_i\):观测到的结果。
    • \(x_i\):设计者观测到的协变量向量(\(K\) 维)。
    • \(w_i\):分析者观测到的协变量向量(\(L\) 维)。
  • 不可观测量(潜在结果)
    • \(Y_i(1)\):对象 \(i\) 在接受处理时的潜在结果。
    • \(Y_i(0)\):对象 \(i\) 在对照下的潜在结果。
  • 目标量(Estimand)\(\tau = \frac{1}{n} \sum_{i=1}^n [Y_i(1) - Y_i(0)]\):有限总体平均处理效应(ATE)。
  • 模型与随机性:最关键的假设是没有模型假设\(Y_i(1), Y_i(0), x_i, w_i\) 被视为固定的常数或潜在属性。唯一的随机性来源于处理分配 \(Z\),它是一个随机排列。这就是Neyman的随机化推断模型。

最简特例(\(d=1\),单一协变量,完全随机化): 假设你有一个完全随机化实验,\(n_1\) 个处理,\(n_0\) 个对照。因为 \(X\)\(W\) 在报告里可以不同,为了最简,让 \(x_i, w_i\) 都是同一个一维协变量(已中心化)。目标是用这个协变量来改善对 \(\tau\) 的估计。

思想的核心步骤: 1. 基准:简单差之均值 \(\hat{\tau} = \frac{1}{n_1}\sum Z_i Y_i - \frac{1}{n_0}\sum (1-Z_i)Y_i\) 在随机化下是 \(\tau\) 的无偏估计,其方差近似为 \(\frac{S^2_{Y(1)}}{n_1} + \frac{S^2_{Y(0)}}{n_0}\)。 2. 问题:如果协变量 \(w_i\) 能预测 \(Y_i(1)\)\(Y_i(0)\),那么 \(\hat{\tau}\) 的方差中可能包含大量可由 \(w_i\) 解释的变异。 3. 解决方案(回归调整):考虑一个线性调整的估计量:\(\hat{\tau}(\beta_1, \beta_0) = \frac{1}{n_1}\sum Z_i (Y_i - \beta_1 w_i) - \frac{1}{n_0}\sum (1-Z_i)(Y_i - \beta_0 w_i)\)。这和用 \(Y_i - \beta_{Z_i} w_i\) 代替原始 \(Y_i\) 再计算差之均值一样。关键问题是:如何选择 \(\beta_1\)\(\beta_0\)? 4. 直观\(\beta_1\)\(\beta_0\) 应分别逼近处理组和对照组中 \(Y\)\(w\)回归系数,这样 \(Y_i - \beta_{Z_i} w_i\) 才是其“不可解释”的部分,方差更小。 5. Lin (2013) 的技巧:报告指出,运行一个有交互项的回归:lm(Y ~ Z + w + Z:w),然后取 \(Z\) 的系数。这个估计量自动地、最优地选择 \(\beta_1\)\(\beta_0\) 为两个组内回归的LS系数(即 \(\hat{\beta}_1\)\(\hat{\beta}_0\))。在随机化推断下,它始终不差于简单的差之均值,并且EHW标准误是保守的。 6. 加上Rerandomization:在设计阶段,不只是完全随机化,而是反复随机化直到由 \(x_i\) 计算的Mahalanobis距离很小。这相当于强制性地让处理组和对照组在 \(x_i\) 上非常接近。这会直接降低 \(\hat{\tau}\) 中与 \(\bar{x}_{treatment} - \bar{x}_{control}\) 相关的那个分量。如果 \(w_i\)\(x_i\) 相关,rerandomization就相当于暗中“帮了”回归调整一把。

结论的核心几何直觉(幻灯片第19页): 报告的核心公式是:

\[\sqrt{n}(\hat{\tau}(\beta_1, \beta_0) - \tau) \mid \text{ReM}_a \rightarrow \\ \sqrt{V(\beta_1, \beta_0)} \left( \sqrt{1 - R^2_{;x}(\beta_1, \beta_0)} \cdot \epsilon + \sqrt{R^2_{;x}(\beta_1, \beta_0)} \cdot L_{K,a} \right)\]
其中 \(V\) 是在完全随机化下的方差,\(R^2_{;x}\) 是调整后的估计量 \(\hat{\tau}(\beta_1, \beta_0)\) 与协变量差之均值 \(\hat{\tau}_x\) 间的相关系数的平方,\(\epsilon\) 是标准正态,\(L_{K,a}\) 是截断正态分布(因为rerandomization)。这个公式意味着,rerandomization 功能上等同于“砍掉”了 \(\hat{\tau}\) 中与协变量线性相关的那部分分布(使 \(L_{K,a}\) 的支撑集变小),而回归调整则是尽可能地缩小了剩余部分(\(\epsilon\) 项)的方差。这形成了完美的互补。

三、报告主体:讲者讲了什么

[0:00-0:05] 开场:Ding教授介绍了这是一个关于随机化实验的经典统计话题,合作者是Xinran Li。 [0:05-0:20] 背景与Neyman框架:概述了随机化实验的历史(Fisher, Neyman, Box等)和社会科学、在线A/B测试中的应用。正式定义了Neyman有限总体下的潜在结果、平均处理效应 \(\tau\) 和完全随机实验(CRE)。他强调了有限总体推断设计推断的理由:对数据生成过程假设弱,迫使关注实验设计本身。 [0:20-0:30] 回归调整的历史与Freedman批判:介绍了用回归调整协变量的动机。他回顾了Fisher的ANCOVA(\(Y \sim Z + w\)),并引用了David Freedman (2008) 的批判:在Neyman随机化模型下,当有异质性处理效应和不平衡的分配比例时,Fisher的ANCOVA可能不如简单的差之均值,其标准误差也不一致。 [0:30-0:40] Lin (2013) 的解决方案:讲述Winston Lin关于通过包含交互项的回归(\(Y \sim Z + w + Z:w\))来“修正”ANCOVA的工作。Ding强调Lin的估计量 \(\hat{\tau}_L\) 在随机化推断下总是优于简单差之均值,且EHW标准误是保守的,且不依赖线性模型假设[0:40-0:50] Rerandomization与理论:介绍了rerandomization(ReM),特别是基于Mahalanobis距离的ReM。提出协变量 \(X\)(设计者)和协变量 \(W\)(分析者)可以是不同的。回顾了之前的工作(Li et al., 2018, JRSSB),该工作展示了在ReM下差之均值估计量 \(\hat{\tau}\) 的非正态极限分布,并且指出ReM和回归调整在某些条件下是“对偶的”。 [0:50-1:00] 核心问题与两阶段使用:提出问题:既然两者都好,为什么不结合使用ReM(设计)和回归调整(分析)?他列出了三个核心问题:(1) 在这种结合下如何进行统计推断? (2) 如何最优地选择回归系数 \(\beta_1, \beta_0\)? (3) 如何量化设计和分析的增益? [1:00-1:10] 理论工具与关键公式(核心贡献开始): * [1:00] 展示了在CRE下 \(\hat{\tau}, \hat{\tau}_x, \hat{\tau}_w\) 的联合渐近正态性,其均值零,协方差矩阵为有限总体协方差矩阵 \(V\)。 * [1:02-1:05] 引入了两类投影:有限总体投影(将潜在结果投影到 \(W\) 上,得到真系数 \(\beta_1^{proj}, \beta_0^{proj}\) 和残差方差 \(S^2_{Y(z)|w}\));重复抽样投影(将随机变量 \(\hat{\tau}\) 投影到 \(\hat{\tau}_w\) 上,得到系数 \(\gamma\))。一个关键等式是 \(r_0\beta_1^{proj} + r_1\beta_0^{proj} = \gamma\),这说明了为什么 \(\beta_1\)\(\beta_0\) 的个体值不重要,其加权组合 \(\gamma\) 才重要。 * [1:05-1:18] 对于固定的 \(\beta_1, \beta_0\),定义了调整后的潜在结果和相应的方差 \(V(\beta_1, \beta_0)\)\(R^2_{;x}(\beta_1, \beta_0)\)。然后陈述了核心定理(第18-20页幻灯片):

\[\sqrt{n}(\hat{\tau}(\beta_1, \beta_0) - \tau) \mid \text{ReM}_a \rightarrow \sqrt{V(\beta_1, \beta_0)} \left( \sqrt{1 - R^2_{;x}} \epsilon + \sqrt{R^2_{;x}} L_{K,a} \right)\]
他用几何直觉解释这个公式:\(\hat{\tau}\) 可以被分解为与 \(\hat{\tau}_x\) 平行的部分(被ReM截断)和垂直的部分(不受影响)。\(R^2\) 测量了两者之间的相关强度。极限分布是一个混合分布(正态与截断正态)。 [1:18-1:25] 最优性定义:引入了两个最优性概念: * S-optimality(采样最优):基于估计量真实的、未知的采样分布。目标是使分位数范围最小。 * C-optimality(置信区间最优):基于通过EHW标准误差估计出来的采样分布。目标是使估计的置信区间宽度最小。 他明确指出,在本框架下(因不能一致地估计采样分布),两者是不同的。 [1:25-1:45] S-optimality 的详细分析:Ding深入分析了不同信息场景下的S-optimality。 * [1:25-1:30] 嵌套情况(第24-27页幻灯片): * 分析者有更多信息 (\(X \subset W\)): 当 \(W\) 包含 \(X\) 时,S-optimal 的 \(\gamma\) 选择就是Lin的 \(\gamma\)(即 \(\gamma^{\text{Lin}}\)),且S-optimal的估计量是Lin的估计量。其极限分布变成正态分布,且与 \(X\) 和阈值 \(a\) 无关。这意味着,如果分析者知道设计者所用的所有协变量(以及更多),回归调整完全消除了rerandomization对极限分布的影响。 * 分析者有更少信息 (\(W \subset X\)): S-optimal的依然是 Lin的估计量。但其极限分布不再是非正态,仍受 \(X\) 影响。 * [1:30-1:45] 非嵌套情况(第28-29页幻灯片): * 当 \(X\)\(W\) 不相交(或非嵌套)时,S-optimal的线性调整估计量可能不存在。此时,回归调整可能会降低采样精度“hurt”(用幻灯片第29页的例子)。但rerandomization无论何时都不会降低(对任一固定估计量)的采样精度。 [1:45-1:55] 推断与C-optimality: * [1:45-1:50] 介绍了如何基于样本进行推断(第30页幻灯片)。 * [1:50-1:55] 讨论了不完全信息场景:如果分析者不知道 \(X\)\(a\),无法计算 \(R^{2}\)\(L_{K,a}\)。保守处理是把未知的 \(R^2\) 设为0。Ding的结论非常清晰:在这种情况下,C-optimal 的选择也是 Lin 的估计量。其极限分布简化为正态,且与rerandomization的细节无关。因此,从置信区间准确性(C-optimality)的角度看,永远推荐使用Lin的回归调整(第32-34页幻灯片)。 [1:55-结束] 总结与推荐: * [1:55-1:59] 用一个 \(2 \times 2\) 表格(设计:CRE/ReM vs. 分析:DM/RegAdj)总结了四个场景的贡献。 * [最后一页] 给出明确的实践建议(第37页幻灯片): * 设计阶段:用Rerandomization(如ReM)。 * 分析阶段:用Lin的回归调整(\(Y \sim Z + w + Z:w\))。 * 报告EHW标准误。这个程序总是C-optimal的,且在不完全信息场景下尤其稳健。

讨论环节:讲者Ding和讨论者Tirthankar DasGupta进行了简短的交流,涉及了rerandomization与区组设计间的关系、有限样本中过度平衡可能带来的“自由度损失”问题,以及高维协变量场景下的扩展可能(如惩罚回归、岭回归)。

四、对应论文与开放问题

(a) 对应论文(来源明确) * 这场报告的核心论文: Li, X., & Ding, P. (2020). Rerandomization and regression adjustment. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 82(2), 241-268. (arXiv: 1906.11291)。这已在用户提供的幻灯片和元数据中明确。

(b) 开放问题(扎根转写与讨论) 1. 有限样本中的自由度校正与最优块数: * 来源:讨论者Tirthankar DasGupta的提问以及Ding的回应 [1:00-1:03 讨论]。 * 内容:在有限样本下,增加区组数量(或类似地,极度严格的rerandomization阈值 a)会消耗“自由度”,可能导致方差估计不准确或下降。报告中的理论是渐近的。如何在有限样本下自动、最优地选择rerandomization的阈值 \(a\),或量化其与自由度损失的关系,仍是一个开放问题。(Ding认为这是一个“very difficult question”)。

  1. 高维协变量下的扩展

    • 来源:讨论者提问和Ding的回应 [1:03 讨论]。
    • 内容:当协变量维度 \(K, L\) 很大时,传统的Mahalanobis距离和全交互回归会变得不稳定或不可行。如何将惩罚方法(如Lasso、岭回归)同时融入设计阶段(定义新的平衡准则,如“岭回随机化”Zack Branson的工作)和分析阶段(进行惩罚回归调整)?其渐近理论(特别是S-optimality和C-optimality)会是什么?
  2. 非连续或更复杂的结果类型

    • 来源:Ding在回应讨论者时提及 [1:03 讨论]。
    • 内容:如何处理二元结果、计数结果、序数结果或一般广义线性模型下的rerandomization和回归调整?Ding提到Guillaume和Kevin的论文涉及二元结果,但系统的理论尚未建立。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论