Randomization and Regression Adjustment¶
讲者: Peng Ding
讨论人: Tirthankar DasGupta
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-10-07
主题: 因果推断
视频: https://www.youtube.com/watch?v=FzVm5MF2Sbw · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 1906.11291 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
报告讲的是 「在随机化实验中,如何通过设计(rerandomization)和分析(回归调整)联合使用协变量来提升因果效应的估计精度」。
这个子方向追问的核心问题是:给定一个完全随机化实验(CRE),我们能否以及如何利用协变量信息来获得比“差之均值(difference-in-means)”更精确的处理效应估计? 传统上回答这个问题的两条路线分别是:
- 设计阶段(Design stage):在分配处理前,利用协变量来“平衡”处理组与对照组,例如经典的 区组随机化(blocking)(Fisher 1935)。当代的 rerandomization(Morgan & Rubin 2012)提供了一个更灵活的框架:持续抽取处理分配向量,直到某个协变量平衡准则(如Mahalanobis距离)低于一个预设阈值。
- 分析阶段(Analysis stage):在观测到结果后,用回归来调整协变量。Fisher的ANCOVA是经典方法,但Freedman (2008) 指出,在Neyman的随机化推断框架下(不假设线性模型正确),Fisher的ANCOVA可能比简单的差之均值还差,而且其标准误差估计也可能不一致。Lin (2013) 的一个关键突破是:通过在最小二乘法中包含处理-协变量交互项,得到的回归调整估计量在任何条件下(在随机化推断下)都优于或等于差之均值,并且Eicker-Huber-White (EHW) 标准误是保守的。
这一条工作线的当前前沿在于,设计阶段和分析阶段往往是独立的。实践中,实验者可能用rerandomization设计,但分析者只用简单的差之均值或错误地使用Fisher ANCOVA;或者完全随机化但事后用Lin的回归调整。问题是:如果把两者结合起来,用rerandomization做设计,再用Lin的回归调整做分析,我们还能不能得到更好的统计推断?怎样做是最优的?最优(optimality)在联合使用时应如何定义?
这场报告(Li & Ding, JRSSB, 2020)就站在这个交点,系统回答了「同时使用两者的理论」。其不寻常之处在于: * 它将Neyman的有限总体(finite-population) 随机化推断框架作为严格的底层,不依赖任何随机抽样假设。 * 它同时考虑了设计者(拥有协变量 \(X\))和分析者(拥有协变量 \(W\))可能拥有不同的、非嵌套的协变量信息的情况,这是非常现实的场景。 * 它还引入了两种不同的最优性概念:S-optimality(基于估计量的真实采样分布)和C-optimality(基于通过EHW标准误构造的置信区间的估计精度)。这两者在此处会不一致,因为采样分布不能一致地估计。 * 报告指出,在实际操作中,一个非常简单的程序——在分析时使用Lin的交互项回归调整,并报告相应的EHW标准误——具有很好的性质:在任何设计下它都不会降低估计精度(C-optimal),且当设计信息未知或缺小时,其理论性质特别稳健。
二、最小内核 / 一个最简例子¶
核心场景:假设你有一个包含 \(n\) 个对象的有限总体,正在进行一个二元处理的随机化实验。
- 可观测数据:
- \(Z_i \in \{0,1\}\):处理分配指示变量。
- \(Y_i\):观测到的结果。
- \(x_i\):设计者观测到的协变量向量(\(K\) 维)。
- \(w_i\):分析者观测到的协变量向量(\(L\) 维)。
- 不可观测量(潜在结果):
- \(Y_i(1)\):对象 \(i\) 在接受处理时的潜在结果。
- \(Y_i(0)\):对象 \(i\) 在对照下的潜在结果。
- 目标量(Estimand):\(\tau = \frac{1}{n} \sum_{i=1}^n [Y_i(1) - Y_i(0)]\):有限总体平均处理效应(ATE)。
- 模型与随机性:最关键的假设是没有模型假设。\(Y_i(1), Y_i(0), x_i, w_i\) 被视为固定的常数或潜在属性。唯一的随机性来源于处理分配 \(Z\),它是一个随机排列。这就是Neyman的随机化推断模型。
最简特例(\(d=1\),单一协变量,完全随机化): 假设你有一个完全随机化实验,\(n_1\) 个处理,\(n_0\) 个对照。因为 \(X\) 和 \(W\) 在报告里可以不同,为了最简,让 \(x_i, w_i\) 都是同一个一维协变量(已中心化)。目标是用这个协变量来改善对 \(\tau\) 的估计。
思想的核心步骤:
1. 基准:简单差之均值 \(\hat{\tau} = \frac{1}{n_1}\sum Z_i Y_i - \frac{1}{n_0}\sum (1-Z_i)Y_i\) 在随机化下是 \(\tau\) 的无偏估计,其方差近似为 \(\frac{S^2_{Y(1)}}{n_1} + \frac{S^2_{Y(0)}}{n_0}\)。
2. 问题:如果协变量 \(w_i\) 能预测 \(Y_i(1)\) 和 \(Y_i(0)\),那么 \(\hat{\tau}\) 的方差中可能包含大量可由 \(w_i\) 解释的变异。
3. 解决方案(回归调整):考虑一个线性调整的估计量:\(\hat{\tau}(\beta_1, \beta_0) = \frac{1}{n_1}\sum Z_i (Y_i - \beta_1 w_i) - \frac{1}{n_0}\sum (1-Z_i)(Y_i - \beta_0 w_i)\)。这和用 \(Y_i - \beta_{Z_i} w_i\) 代替原始 \(Y_i\) 再计算差之均值一样。关键问题是:如何选择 \(\beta_1\) 和 \(\beta_0\)?
4. 直观:\(\beta_1\) 和 \(\beta_0\) 应分别逼近处理组和对照组中 \(Y\) 对 \(w\) 的回归系数,这样 \(Y_i - \beta_{Z_i} w_i\) 才是其“不可解释”的部分,方差更小。
5. Lin (2013) 的技巧:报告指出,运行一个有交互项的回归:lm(Y ~ Z + w + Z:w),然后取 \(Z\) 的系数。这个估计量自动地、最优地选择 \(\beta_1\) 和 \(\beta_0\) 为两个组内回归的LS系数(即 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\))。在随机化推断下,它始终不差于简单的差之均值,并且EHW标准误是保守的。
6. 加上Rerandomization:在设计阶段,不只是完全随机化,而是反复随机化直到由 \(x_i\) 计算的Mahalanobis距离很小。这相当于强制性地让处理组和对照组在 \(x_i\) 上非常接近。这会直接降低 \(\hat{\tau}\) 中与 \(\bar{x}_{treatment} - \bar{x}_{control}\) 相关的那个分量。如果 \(w_i\) 与 \(x_i\) 相关,rerandomization就相当于暗中“帮了”回归调整一把。
结论的核心几何直觉(幻灯片第19页): 报告的核心公式是:
三、报告主体:讲者讲了什么¶
[0:00-0:05] 开场:Ding教授介绍了这是一个关于随机化实验的经典统计话题,合作者是Xinran Li。 [0:05-0:20] 背景与Neyman框架:概述了随机化实验的历史(Fisher, Neyman, Box等)和社会科学、在线A/B测试中的应用。正式定义了Neyman有限总体下的潜在结果、平均处理效应 \(\tau\) 和完全随机实验(CRE)。他强调了有限总体推断和设计推断的理由:对数据生成过程假设弱,迫使关注实验设计本身。 [0:20-0:30] 回归调整的历史与Freedman批判:介绍了用回归调整协变量的动机。他回顾了Fisher的ANCOVA(\(Y \sim Z + w\)),并引用了David Freedman (2008) 的批判:在Neyman随机化模型下,当有异质性处理效应和不平衡的分配比例时,Fisher的ANCOVA可能不如简单的差之均值,其标准误差也不一致。 [0:30-0:40] Lin (2013) 的解决方案:讲述Winston Lin关于通过包含交互项的回归(\(Y \sim Z + w + Z:w\))来“修正”ANCOVA的工作。Ding强调Lin的估计量 \(\hat{\tau}_L\) 在随机化推断下总是优于简单差之均值,且EHW标准误是保守的,且不依赖线性模型假设。 [0:40-0:50] Rerandomization与理论:介绍了rerandomization(ReM),特别是基于Mahalanobis距离的ReM。提出协变量 \(X\)(设计者)和协变量 \(W\)(分析者)可以是不同的。回顾了之前的工作(Li et al., 2018, JRSSB),该工作展示了在ReM下差之均值估计量 \(\hat{\tau}\) 的非正态极限分布,并且指出ReM和回归调整在某些条件下是“对偶的”。 [0:50-1:00] 核心问题与两阶段使用:提出问题:既然两者都好,为什么不结合使用ReM(设计)和回归调整(分析)?他列出了三个核心问题:(1) 在这种结合下如何进行统计推断? (2) 如何最优地选择回归系数 \(\beta_1, \beta_0\)? (3) 如何量化设计和分析的增益? [1:00-1:10] 理论工具与关键公式(核心贡献开始): * [1:00] 展示了在CRE下 \(\hat{\tau}, \hat{\tau}_x, \hat{\tau}_w\) 的联合渐近正态性,其均值零,协方差矩阵为有限总体协方差矩阵 \(V\)。 * [1:02-1:05] 引入了两类投影:有限总体投影(将潜在结果投影到 \(W\) 上,得到真系数 \(\beta_1^{proj}, \beta_0^{proj}\) 和残差方差 \(S^2_{Y(z)|w}\));重复抽样投影(将随机变量 \(\hat{\tau}\) 投影到 \(\hat{\tau}_w\) 上,得到系数 \(\gamma\))。一个关键等式是 \(r_0\beta_1^{proj} + r_1\beta_0^{proj} = \gamma\),这说明了为什么 \(\beta_1\) 和 \(\beta_0\) 的个体值不重要,其加权组合 \(\gamma\) 才重要。 * [1:05-1:18] 对于固定的 \(\beta_1, \beta_0\),定义了调整后的潜在结果和相应的方差 \(V(\beta_1, \beta_0)\) 和 \(R^2_{;x}(\beta_1, \beta_0)\)。然后陈述了核心定理(第18-20页幻灯片):
讨论环节:讲者Ding和讨论者Tirthankar DasGupta进行了简短的交流,涉及了rerandomization与区组设计间的关系、有限样本中过度平衡可能带来的“自由度损失”问题,以及高维协变量场景下的扩展可能(如惩罚回归、岭回归)。
四、对应论文与开放问题¶
(a) 对应论文(来源明确) * 这场报告的核心论文: Li, X., & Ding, P. (2020). Rerandomization and regression adjustment. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 82(2), 241-268. (arXiv: 1906.11291)。这已在用户提供的幻灯片和元数据中明确。
(b) 开放问题(扎根转写与讨论) 1. 有限样本中的自由度校正与最优块数: * 来源:讨论者Tirthankar DasGupta的提问以及Ding的回应 [1:00-1:03 讨论]。 * 内容:在有限样本下,增加区组数量(或类似地,极度严格的rerandomization阈值 a)会消耗“自由度”,可能导致方差估计不准确或下降。报告中的理论是渐近的。如何在有限样本下自动、最优地选择rerandomization的阈值 \(a\),或量化其与自由度损失的关系,仍是一个开放问题。(Ding认为这是一个“very difficult question”)。
-
高维协变量下的扩展:
- 来源:讨论者提问和Ding的回应 [1:03 讨论]。
- 内容:当协变量维度 \(K, L\) 很大时,传统的Mahalanobis距离和全交互回归会变得不稳定或不可行。如何将惩罚方法(如Lasso、岭回归)同时融入设计阶段(定义新的平衡准则,如“岭回随机化”Zack Branson的工作)和分析阶段(进行惩罚回归调整)?其渐近理论(特别是S-optimality和C-optimality)会是什么?
-
非连续或更复杂的结果类型:
- 来源:Ding在回应讨论者时提及 [1:03 讨论]。
- 内容:如何处理二元结果、计数结果、序数结果或一般广义线性模型下的rerandomization和回归调整?Ding提到Guillaume和Kevin的论文涉及二元结果,但系统的理论尚未建立。
Maintained by 陈星宇 · Homepage · Source on GitHub