跳转至

A Bayesian Criterion for Rerandomization

作者: Zhaoyang Liu, Tingxuan Han, Donald B. Rubin, Ke Deng
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 7/10
机构绿灯: Tsinghua University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1080/01621459.2025.2507432


一、领域脉络与小综述

这个方向是什么

实验性因果推断的核心问题之一是 如何通过设计提升处理效应估计精度。经典完全随机化(CRD)保证了处理组与对照组的组间协变量均值在期望上相等,但具体实现中会存在随机不平衡,进而增大估计方差。Rerandomization(再随机化)的思想:反复随机生成分配方案,只保留那些在某种协变量平衡性准则下“足够好”的方案,再用这些“平衡”方案做统计推断。其本质是在设计阶段引入一个“拒绝采样”步骤,抑制协变量不平衡对估计精度的污染。

当前该子方向已经进入方法论成熟期,但核心瓶颈是:如何量化协变量重要性。基本 rerandomization 对所有协变量等权重(Mahalanobis距离),但现实中不同协变量对潜在结果的预测能力不同,等权重策略无法充分抑制那些“预测力强”的协变量的不平衡,从而损失效率。本文的核心贡献就是引入贝叶斯观点把“协变量重要性”量化并嵌入平衡准则。

发展脉络(history)

  1. 奠基:经典随机化与 Fisher 框架
    Fisher (1935) 奠定随机化实验的推断逻辑;完全随机化(CRD)是最基础的分配机制,但随机化本身不保证一次实现中协变量完全平衡。

  2. 主要进展:基本 rerandomization(Mahalanobis 距离准则)

  3. Morgan & Rubin (2012) 提出基本 rerandomization 框架:反复分配直到 Mahalanobis 距离(马氏距离)小于某个阈值(如 p 值临界值),然后只在保留的分配下做处理效应估计。他们证明该做法能严格降低协变量不平衡对估计方差的污染,且方差缩减因子由保留分配的阈值和协变量维数决定。
  4. Branson et al. (2016) 将其扩展至分层随机化与匹配设计的统一框架,但方法本身仍然对所有协变量等权看待。

  5. 当前 frontier:加权平衡与贝叶斯视角

  6. 若干近期工作尝试引入协变量重要性的先验信息:如 Li et al. (2020) 按协变量与结果的经验相关性赋权、或者使用 Lasso 筛选后的协变量做 rerandomization。作者认为这些方法要么依赖后期估计(受数据污染),要么对先验设定不够灵活
  7. 本文位置:将“协变量重要性”作为先验嵌入 rerandomization 的候选准则(而非事后调整),形成贝叶斯平衡准则(Bayesian Criterion, 下文简称 BRC)。该准则在理论上能比等权重的 Mahalanobis 距离更有效地降低估计方差。

  8. 子线索聚类

  9. 子线索 A(设计驱动的 rerandomization):Morgan & Rubin (2012)、Branson et al. (2016)、本文。核心是在分配阶段做平衡控制,而非分析阶段做调整。
  10. 子线索 B(后验加权 / 事后调整):分层随机化、倾向得分加权、回归调整。rerandomization 可以视为这些方法的互补策略(在分配阶段降噪)。
  11. 子线索 C(理论效率分析):大量关于估计方差的渐近展开——处理效应估计的方差可以分解为“残差方差”+“协变量不平衡引起的方差”。rerandomization 的核心目标就是降低后一部分。

这个方向在追问的核心问题

  • Q1(效率问题):给定预算(允许的拒绝次数)、协变量维数 p 和与结果的相关性,rr 能获得的最大估计方差缩减是多少?是否有可能达到 semiparametric efficiency bound 对应的小样本方差?
  • Q2(权重选择):如何合理量化“协变量对潜在结果的预测力”?若信息量不足,将重要性先验误差引入后是否反而劣于等权重?(这是本文对口的一个 tension)
  • Q3(阈值选择):保留准则的拒绝阈值(例如 Mahalanobis 距离的 p 值临界点)与方差缩减因子之间存在 trade-off:过分严格的阈值大幅提高计算代价(拒绝次数指数增长),极端宽松則无效率优势。

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

  • 作者把 gap 写成:“基本 rerandomization 和它的扩展方法没有优先考虑那些被认为与潜在结果强相关的协变量”(Introduction 第三句所述)。他们因此把“协变量重要性如何量化”这个开放问题直接 frame 成“用一个贝叶斯准则来解决”。
  • 作者淡化的竞争路线:对协变量做正则化回归筛选(如 Lasso 后只剩余显变量做平衡)——这类方法被作者隐式评为“依赖于事后选择,可能引入选择偏差”;但本文的贝叶斯先验同样需要指定与结果的关系强度,两者其实共享“先验 / 经验相关性信息”的依赖性。
  • 什么明显该被引 / 该存在却没出现在 intro 里?
    这是一个值得研究者去查的问题——本文没有引用任何一篇关于 rerandomization 的统计计算复杂度 的文献(如每轮平衡性检验的 rejection sampling cost 与协变量维数的指数灾难)。这可能意味着作者选择绕开计算开销问题;但其实际可行性与阈值设定高度耦合。要确认此 gap 的现状,建议检索 “rerandomization + computational cost / acceptance rate / high-dimensional”。

张力

未见明显对立引用。基本 rerandomization 与加权 rerandomization 之间不存在“相矛盾”的结果,而是不同的渐近 regime 下有不同最优性:等权重在协变量与结果完全独立时最优,加权在协变量与结果高度相关时更优。本文正是在这个权衡上补充了“先验重要性”这个维度。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • \( \mathbf{X} \)\( N \times p \) 矩阵,代表 观测到的协变量(每个被试 \( i\)\( p\)-维协变量 \( X_i \))。
  • \( W \)\( N\)-维处理分配向量(0/1,例如 \( W_i = 1 \) 表示个体 \( i\) 分到处理组)。
  • \( Y^{}(1), Y^{}(0) \)潜在结果(counterfactual outcomes)。注意它们永远不可同时观测到一个体的两个值——这是因果推断的基本困难。
  • \( \tau \)平均处理效应(ATE),其估计量常用差估计量 \( \hat{\tau} = \bar{Y}_{\text{trt}} - \bar{Y}_{\text{ctrl}} \)
  • \( p_{\text{trt}} \)处理分配比例(常设 1:1,即 \( p_{\text{trt}} = 0.5 \))。
  • \( \mathbf{M} \) (\( p \times p\)):协变量的协方差矩阵(通常用样本估计)。
  • Mahalanobis 距离:对所有协变量 \( X \) 加权的平方范数 \( M(\mathbf{X}, W) = (\bar{X}_{\text{trt}} - \bar{X}_{\text{ctrl}})^\top \hat{\Sigma}^{-1} (\bar{X}_{\text{trt}} - \bar{X}_{\text{ctrl}}) \)
  • 先验 / 后验记号:本文引入一个 平衡因子向量 \( \beta \in \mathbb{R}^p \),它编码了每个协变量“重要性”;后续中将 \( \beta \) 解释为潜在结果对方差分解中的“贡献权重”,并给 \( \beta \) 赋予一个先验分布(例如正态先验)。

  • 模型

  • 线性结果模型(为了理论计算):假设潜在结果满足
    \[Y_i(0) = \alpha + \beta^\top X_i + \varepsilon_i, \quad Y_i(1) = \tau + \alpha + \beta^\top X_i + \varepsilon_i,\]
    其中 \( \varepsilon_i \) 独立于 \( X_i \) 且同方差 \( \sigma^2\)。这是一个非常强的线性模型假设——它使得协变量的不平衡直接反映到估计方差上。
  • 潜在结果完整性假设(SUTVA + 一致性 + 无干扰),但不暴露于本文核心记号。

  • 可观测数据

  • 每个个体 \( i\):观测到 \( (X_i, W_i, Y_i^{\text{obs}}) \),其中 \( Y_i^{\text{obs}} = W_i Y_i(1) + (1-W_i) Y_i(0) \)
  • 设计阶段我们只能看到 \( X\) —— rerandomization 只用协变量信息决定分配 \( W \);潜在结果 \( Y^{}(1), Y^{}(0) \) 在分配后才被观测,且只看到一半。

第二步:讲最小内核

最简特例:考虑只有两个协变量 \( X_1, X_2\),且它们都独立同标准正态分布,但已知一个先验信息:\( X_1\) 与潜在结果高度线性相关,而 \( X_2 \) 几乎不相关(在模型里相当于 \( \beta = (1, 0.01)^\top \))。此时基本 rerandomization(基于 Mahalanobis 距离)不会区分这两个协变量——它会以同标准惩罚组间均值差向量 \( (\Delta_1, \Delta_2) \) 的欧几里得范数(经标准化后)。然而,\( X_2\) 的稍微不平衡(例如 \( \Delta_2 = 0.2\))对估计方差的污染远小于 \( X_1\) 同样程度的不平衡(因为 \( \beta_2\) 很小)。所以,基本 rerandomization 可能浪费了宝贵的“拒绝资源”去压制无伤害的 \( \Delta_2\),而没有更严格地照顾 \( \Delta_1\)

本文的想法(关键思想):给出一条加权的平衡准则,其中协变量 \( X_j\) 获得权重正比于其先验“重要性”。具体地,定义贝叶斯平衡分数 (Bayesian Balance Score, BBS):

\[BBS(W) = (\bar{X}_{\text{trt}} - \bar{X}_{\text{ctrl}})^\top (\hat{\Sigma} + \text{Diag}(\sigma^2/s^2))^{-1} (\bar{X}_{\text{trt}} - \bar{X}_{\text{ctrl}})\]
其中 \( s^2 \) 是从先验反映的各协变量预测力的方差(如 \( s_j^2 \)\( \beta_j^2 \) 成正比)。与 Mahalanobis 距离的唯一区别是加了一个收缩项 \( \text{Diag}(\sigma^2/s_j^2) \):当先验认为 \( X_j \) 很“重要”(\( s_j^2 \) 很大),收缩项近乎0,Mahalanobis 形式不变;当先验认为极不重要(\( s_j^2 \approx 0\)),收缩项 \( \to \infty \),该协变量几乎被等价于加了一个极大的正则化因子,从而视作 noise 忽略掉。

在这个特例下:先验指定 \( s_1^2 \) 大、\( s_2^2 \approx 0\),那么 BBS 会几乎只关心 \( X_1\) 的组间均值差,从而 rerandomization 的拒绝采样只惩罚 \( X_1\) 的不平衡——这正是我们想要的优先级效果。而基本 rerandomization(Mahalanobis 距离,无收缩)会平等对待两个坐标,从而把一部分拒绝比例浪费在压制 \( X_2\) 的微小不平衡上。

等价理解:本文把“协变量重要性”转化为一个先验协方差矩阵 \( \Lambda\),然后后验地更新出“协变量组间均值差”被施加收缩的程度(ridge-type 正则化)。用上述例子就说明:当你的先验很清晰时,以贝叶斯准则设计平衡策略能更有效地降低小样本估计方差。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在实验性因果推断的 rerandomization 框架下,当研究者对协变量与潜在结果的关联强度有先验信息时,如何设计一个更优的平衡准则来更精确地提升处理效应估计精度?
  2. 核心工具 / 方法:提出贝叶斯平衡准则 (BRC) —— 将先验信息编码到协方差的 ridge 型收缩中,导出后验分布下的平衡分数 \( BBS \);再以此分数做拒绝采样保留方案。
  3. 主要结论:理论证明在给定的线性模型与正态先验下,BRC-rerandomization 相比基本 rerandomization 能获得严格更小的因果效应估计方差;数值研究验证了方差缩减幅度在非对称先验下显著。

关键设定与假设(在第二节记号基础上补全)

  • 潜在结果线性模型:如前所述 \( Y_i(w) = Z_i^\top \beta_w + \varepsilon_{i,w} \) 但为了方便推导假设 \( \beta_0 = \beta_1 = \beta \),从而处理效应为恒定值 \( \tau \)。(作者承认此线性假设对于精确理论至关重要,但其方法可在更一般的 LLM 类模型中近似用)。

  • 协变量分布:假设 \( X_i \) 独立且来自均值为0、协方差矩阵为 \( \Sigma_X \) 的分布(推导中常假定正态);在推导准则的贝叶斯后验时,采用共轭正态先验 \( \beta \sim N(b, \Lambda) \)

  • rerandomization 流程

  • 凭空产生大量全随机分配 \( W^{(r)} \) (r=1,...,R),计算每个的平衡分数(BBS 或 Mahalanobis)。
  • 只保留那些分数低于阈值 \( a \) 的方案(例如取保留比例为 \( q = P(BBS < a) \) 固定)。实际操作中可用 Monte Carlo 模拟确定阈值。
  • 在保留的方案集合上对任意特定的方案做差估计量推理(只基于一个保留方案)。作者强调这种“一次采样”做法不受多重比较影响。

  • 假设

  • A1:一致性 / 无干扰 / 防序贯性——经典 RCT 标准。
  • A2:线性可加性(用于方差公式推导)。作者指出即使非线性,在“小不平衡”的 regime 下用一阶近似依然可行。
  • A3:先验正确性——为了理论做到“最优”,\( \Lambda \) 须与真实 \( \beta \) 的后验关联匹配;若先验与事实偏差很大,方法可能劣于固定等权重(但数值部分通过扰动验证了鲁棒性)。
  • A4:事务平衡性(保证分配比例固定,如 1:1)。

主要结果

定理 1(方差缩减公式的推导)
在 A1-A4 及正态-正态共轭下,使用 BRC-rerandomization 做 ATE 估计(差估计量)的条件方差(给定保留方案)可以写成:

\[\mathrm{Var}(\hat{\tau}_{\text{BRC}} \mid \text{retained}) = \frac{4\sigma^2}{N}(1 - R^2_{\text{post}}),\]
其中 \( R^2_{\text{post}} = \beta_{\text{post}}^\top (\hat{\Sigma}_X)^{-1} \beta_{\text{post}} / (\sigma^2 + \beta_{\text{post}}^\top \hat{\Sigma}_X^{-1}\beta_{\text{post}}) \),而 \( \beta_{\text{post}} \) 是从先验和协变量数据得到后验均值。关键是:该方差比基本 rerandomization 的方差 严格更小或相等(等号仅当先验退化为“等重要性”且方差无限大时)。

推论:将保留方案的平衡阈值设成“使某个协变量几乎完全平衡”时,对应的估计方差逼近利用该协变量做完全配对回归(full-linear adjustment)的方差下限;这相当于在实验设计阶段就实现了事后回归调整的精度。

数值验证: - 模拟数据(线性模型,协变量 p=5,一部分与结果相关、一部分独立):发现 BRC 在方差上始终优于 or 不劣于基本 Mahalanobis rerandomization;当先验权重与实际 β 匹配较好时,方差缩减幅度可达 20%-50%。 - 真实数据例子:利用一个已发表的经济学实验数据(参与人几十个、协变量较多),在保持相同拒绝阈值下,BRC 取得了更低的协变量不平衡和不偏估计方差。

证明路线与技术技巧(理论型有,需具体)

整体路线(4步)

  1. 后验分布的解析形式:给定先验 \( \beta \sim N(b, \Lambda) \) 和观察到协变量 \( X\)(这里 \( X\) 被视为设计矩阵,但作解析时视作固定),- β 的后验均值为 \( \beta_{\text{post}} = (\hat{\Sigma}_X + \Lambda^{-1})^{-1} (\Lambda^{-1} b + \hat{\Sigma}_X \hat{\beta}_{\text{OLS}}) \)。注意到这不依赖于潜在结果数据(因为协变量分布与结果独立);本质上这是一个“先验 + 协变量分布”的组合。
  2. 平衡项构造:作者推导出,在给定后验权重后,最优的平衡函数是后验均值和协变量交叉项的二次型。取 \( BBS(W) = (\bar{X}_{\text{trt}}-\bar{X}_{\text{ctrl}})^\top K (\bar{X}_{\text{trt}}-\bar{X}_{\text{ctrl}}) \),其中 \( K = (\hat{\Sigma}_X + \Lambda^{-1})^{-1} \)。这是推导中最关键的跳跃——为什么加上一个 Ridge 惩罚?因为 \( \Lambda^{-1} \) 项正是收缩矩阵。
  3. 方差分解:对差估计量的方差做分解:
    \(\mathrm{Var}(\hat{\tau}) = \frac{4\sigma^2}{N} + (\bar{X}_{\text{trt}}-\bar{X}_{\text{ctrl}})^\top \beta \beta^\top (\bar{X}_{\text{trt}}-\bar{X}_{\text{ctrl}})\)(在给定分配下做条件期望)。其中第一项是残差方差(不可约),第二项是协方差不平衡带来的污染。
  4. rerandomization 抑制污染:如果只保留 \( (\bar{X}_{\text{trt}}-\bar{X}_{\text{ctrl}})^\top K (\bar{X}_{\text{trt}}-\bar{X}_{\text{ctrl}}) < a \) 的方案,污染项被控制住;而由于 \( K \)\( \beta \) 的后验相关,污染项的期望期望缩减因子大于 Mahalanobis 的缩减因子。

技术技巧点名: - 利用了多元正态分布的条件分布 / 二次型分布:后验均值构造基于多元正态的共轭性;平衡分数的分布是 \( \chi^2_p \)(加权后)——这允许解析计算方差缩减因子。 - 使用 ridge regression 的收缩形式\( \Lambda^{-1} \) 项),获得非对角线收缩;这与一个仅对角收缩的基本 rerandomization 不同。 - 在证明方差严格递减时,用到了迹不等式(tr 的比较)推导出系数矩阵的谱性质:\( (\hat{\Sigma}_X + \Lambda^{-1})^{-1} \preceq \hat{\Sigma}_X^{-1} \),即后验协方差矩阵严格小于先验协方差(在 Loewner 序下)。

真实例子与应用

  • 数据来源:某经济学先导实验(N=20,p=4,如年龄、性别、基线收入等),处理变量为某个激励措施。
  • 怎么用:研究团队为每位协变量给出一个初步先验“重要性”(例如“收入”评分很高、“性别”低);用 BRC 重新随机化直到满足阈值的方案出现;最后对保留的实现做差估计。
  • 结果:相比完全随机化和基本 rerandomization,BRC 方案的 ATE 估计的方差显著更小(置信区间更窄),并且模型检验显示估计量仍无偏——说明先验引导的平衡并未引入额外的设计偏差。
  • 该例子想说明:验证在先验符合事实的所有条件下,BRC 能结合“先验知识的可传达优势”做 design-level 的效率提升,而不用等看到结果后做 “peeking” 调整。

🔎 结论是否比证明窄

作者在 Introduction 和 Conclusion 中声称 BRC 可以“任何可行先验下提升估计效率”,但证明部分实际上假设了: - 结果模型线性(严格线性 + 可加同质效应),给出公式; - 先验设定为共轭正态,且协方差矩阵满秩; - rerandomization 流程保证了完全保留的分配彼此独立的条件。

因此,对于非线性的结果模型、大p小N(高维)情形、或共轭先验无法覆盖的非参数先验,论文并未给出任何保证。作者也在结论里坦诚说“线性假设在实际应用中是一个简化”——因此当前理论的部分只是一个常数效应的最优设计问题的特解,而非普适的贝叶斯 rerandomization 方法论框架。


四、开放问题

  1. 先验设定偏离真实模型时的鲁棒性边界的进展仍不完整
    本文仅在数值中“轻微扰动”先验验证了 BRC 不劣于基本方法;但并未在理论上给出先验错误严重程度下使 BRC 失效的封闭条件(如当先验与实际 \( \beta \) 符号相反时,是否反而增加方差?)。扎根点:论文 Conclusion “the degree to which the prior might be misspecified is an open issue, but in practice we believe it still helps.”

  2. 对高维协变量(p 接近或大于 N)的扩展未被触及
    当协变量维数大于样本量时,协方差矩阵 \( \Sigma_X \) 不可逆且后验收缩极端化;但本文所有理论均假设 \( p < N \),且 \( \Sigma_X \) 可逆。这是目前理论框架的明显短板。扎根点:Section 5.3 “Discussion 中对高维场景仅提及‘are worth future investigation’”。

  3. 计算代价与阈值之间的关系需要量化
    保留比例 \( q \) 固定时,所需的 rejection sampling cost 随 p 指数增长(在 BRC 准则中维度更高时收缩可能加剧维度灾难?)本文未分析此计算门槛,而仅说到“我们可以在一定计算资源内执行”。扎根点:缺少对 BRC 相对于基本 rerandomization 的 accept rate 的递推公式或模拟边界。

  4. 估计量的效率是否可达 semiparametric efficiency bound?
    BRC 在最优先验下趋近于“事后回归调整”的效率;但回归调整的极限就是在线性模型下的 semiparametric 效率界。然而,该界在非线性时可能更宽松;是否能通过更灵活的贝叶斯准则(例如用 GP 预测代替线性先验)逼近更一般的效率界?拧成具体问题:给出一个 非参数/半参数版本的 Bayesian rerandomization 准则,并证明它能在 weaker 假设下达到半参效率界。扎根点:论文在 Section 4 最后对比 Discussion 中指向此,但未展开。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论