Design-Based Theory for Lasso Adjustment in Randomized Block Experiments and Rerandomized Experiments¶

作者: Ke Zhu, Hanzhong Liu, Yuehan Yang
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文涉及的是随机化实验中的回归调整，核心目标是利用协变量信息来提高平均处理效应（ATE）的估计效率，同时保持随机化提供的无偏性或近似无偏性。该方向已有数十年历史（Fisher, 1925; Cochran, 1957），近年来随着高维协变量（p 可能大于 N）的出现，传统 OLS 调整失效，需要借助正则化方法（如 Lasso）进行变量选择与调整，同时要在设计-based 框架（即以随机化分配为唯一概率来源，拒绝结果模型假设）下保持推断的有效性。当前成熟度：低维协变量调整的理论已非常成熟（Imbens & Rubin, 2015; Lin, 2013），高维协变量调整的正则化方法在完全随机化实验中有了一些进展（Bloniarz et al., 2016; Zhao, 2019; Liu et al., 2021），但在块实验（block experiments）和再随机化（rerandomization） 设定下，尤其是块内单元数极少（如配对实验）时，结果几乎空白。本文正好填补这个缺口。

发展脉络（基于摘要和通用文献知识，因未提供引用句）¶

为定位本文位置，需梳理三个子线索：

传统块实验的回归调整：块实验（包括配对、精细分层）通过在分配前按协变量分层来平衡协变量，是平衡设计的基石。经典方法（Holt & Smith, 1978; Rosenbaum, 2002）认为块内回归调整可以进一步提高效率，但要求在块内用 OLS 且块数够大。对每块仅一个处理或对照单元的情况（配对实验），传统调整方法退化为无调整。这是第一个缺口。
高维协变量调整在完全随机化实验中的发展：Bloniarz et al. (2016) 提出用 Lasso 在完全随机化实验中进行回归调整，在 design-based 框架下给出了 ATE 估计的渐近正态性和保守方差估计。Liu et al. (2021) 进一步使用交叉拟合（cross-fitting）降低了条件。但这些工作均假设单元之间完全随机化，没有块结构，因此不能直接应用于块实验（块内随机化使单元间相关性呈块状，且倾向得分异质性跨块变化）。
再随机化实验的回归调整：Morgan & Rubin (2012, 2015) 提出了 rerandomization 作为一种平衡设计（基于 Mahalanobis 距离不断拒绝不平衡的分配），并给出了无调整估计的推断理论。Li, Ding & Rubin (2018) 研究了 rerandomization 下回归调整的效率增益，但仅限于低维协变量。高维下的 rerandomization 调整仍是开放问题。

本文的位置：作者将块实验视为 rerandomization 的一种特例（因为块内分配等价于分层 rerandomization? 此处需要确认），因此他们的方法统一处理了块实验、re-randomization、以及两者的结合。作者明确提出自己填补了三个缺口：(i) 块内仅有一个处理或对照单元时的 Lasso 调整理论；(ii) 块间倾向得分异质性（每块的分配概率不同，而完全随机化假设所有单元 p=0.5）；(iii) 允许块数和块大小同时趋于无穷，且不假设真实结果模型。

子线索聚类¶

C1: 低维协变量的 design-based 回归调整（Lin, 2013; Li et al., 2018; Morgan & Rubin, 2012）—— 有成熟理论，是本文的基石。
C2: 高维协变量调整在完全随机化实验中的 design-based 推断（Bloniarz et al., 2016; Zhao, 2019; Liu et al., 2021）—— 本文完全借鉴其 Lasso 调整技巧和保守方差构造思路，但推广到块结构。
C3: 随机化块实验的理论（Rosenbaum, 2002; Imbens, 2004）—— 提供块随机化的概率基础，但未涉及高维调整。

核心追问与已知瓶颈¶

在块实验中，如何利用高维协变量提高 ATE 估计效率，同时保持 design-based 的渐近有效性（无结果模型假设）？
当块内处理/对照单元数极少（甚至为1）时，传统调整方法失效，Lasso 是否仍能提供增益？
块间倾向得分异质性（即不同块的分配概率可不同）如何处理？这在完全随机化框架下不存在。
如何同时容纳再随机化（通过拒绝某些分配来平衡协变量）与块结构？两者的结合在低维下有工作，高维下尚未处理。

⚠️ 作者的 framing（基于摘要推测）¶

作者将块实验和 rerandomization 统一为「通过设计来控制协变量平衡」的框架，并将 Lasso 调整插入其中。作者淡化了完全随机化下高维调整与块实验高维调整之间在技术处理上的根本差异（块内相关性、块内样本量少、倾向得分跨块变化 → 其 asymptotics 需要新的独立同分布块假设）。一篇明显的缺失引用：关于 块实验下基于双重稳健的估计（如 Athey & Imbens, 2022 的块交叉拟合），作者没有在摘要中提及，但很可能在正文中与 Lasso 调整进行了对比。另外，高维协变量调整在配对实验中的具体表现（每对仅2个单元）是一个极端但核心的场景，作者声称可处理，但未在摘要中给出特例子分析。

张力¶

未见明显对立引用。文献共识：在随机化实验中，design-based 框架是稳健的选择；对高维协变量，Lasso 调整提供了效率增益（只要协变量与结果相关）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代¶

设总样本 \(N\)，划分为 \(B\) 个块，第 \(b\) 个块有 \(n_b\) 个单元（\(\sum_b n_b = N\)）。块 \(b\) 内随机分配处理，处理分配指示变量为 \(W_{bi} \in \{0,1\}\)（\(i=1,\dots,n_b\)），其中 \(W_{bi}=1\) 表示接受处理。在块 \(b\) 内，处理组单元数为 \(n_{1b} = \sum_i W_{bi}\)，对照组为 \(n_{0b}=n_b - n_{1b}\)。注意：块间处理分配概率可以不同（即每块内部 \(P(W_{bi}=1) = n_{1b}/n_b\)，不同块的 \(n_{1b}\) 可以不同）。本文允许某些块 \(n_{1b}=1\) 或 \(n_{0b}=1\)，因此配对实验是特例（\(n_b=2, n_{1b}=1\)）。

每个单元有 \(p\) 维协变量向量 \(X_{bi} \in \mathbb{R}^p\)（可高维：\(p\) 可能大于 \(N\)），以及潜在结果（potential outcomes）：\(Y_{bi}(1)\)（若接受处理）和 \(Y_{bi}(0)\)（若未接受处理）。实际观测到的结果 \(Y_{bi} = W_{bi} Y_{bi}(1) + (1-W_{bi}) Y_{bi}(0)\)。目标 estimand：平均处理效应 \(\tau = \mathbb{E}[Y_{bi}(1) - Y_{bi}(0)]\)（关于整个有限总体或超总体，本文采用 设计-based 推断，将 \(Y_{bi}(w)\) 视为固定值，随机性仅来自 \(W_{bi}\)）。

可观测数据为：\(\{(W_{bi}, X_{bi}, Y_{bi})\}_{b=1}^{B, i=1}^{n_b}\)。不可观测的是每个单元的 \(Y_{bi}(1)\) 和 \(Y_{bi}(0)\) 两者之一（只有一种被观测）。

第二步：最小内核——单块配对实验的高维 Lasso 调整¶

为了理解论文的核心思路，考虑最简场景：\(B=1\)（即一个块，等于完全随机化实验），但调整为更小的情景——考虑配对实验中的一对：\(n_b=2\)，\(n_{1b}=1\)，\(n_{0b}=1\)。这是本文声称可以处理的最极端情况。

假设我们只有一个块（一对），即 \(B=1\)，但为了体现块结构，我们让块数趋于无穷。更好的最小内核是：所有块都是配对块（\(n_b=2\)），且每块内随机分配1个处理、1个对照。

记号简化：对于每个块 \(b\)，有两个单元，记它们的协变量为 \(X_{b}^{(1)}\) 和 \(X_{b}^{(0)}\)（实际上观测到的顺序无关，但用位置标记处理状态）。在处理分配前，协变量完全相同（因为同一个块内的两个单元特征已知）。处理分配：在块 \(b\) 内以1/2概率随机决定哪个单元接受处理。

传统的未调整 ATE 估计量：\(\hat{\tau}_{\text{unadj}} = \frac{1}{B} \sum_{b=1}^B (Y_{b}^{\text{treated}} - Y_{b}^{\text{control}})\)。该估计量在 design-based 下无偏，方差依赖于结果变异性。

本文的 Lasso 调整估计量：首先，用 Lasso 回归（在全数据上）拟合一个模型来预测 \(Y_{bi}\) 基于 \(X_{bi}\)，但不区分处理组。即解决：

\[(\hat{\alpha}, \hat{\beta}) = \arg\min_{\alpha,\beta} \sum_{b=1}^B \sum_{i=1}^{2} (Y_{bi} - \alpha - X_{bi}^\top \beta)^2 + \lambda \|\beta\|_1.\]

然后，定义调整后的估计量为：

\[\hat{\tau}_{\text{lasso}} = \frac{1}{B} \sum_{b=1}^B \frac{1}{2} \sum_{i=1}^{2} (2W_{bi} - 1) \left[ Y_{bi} - \alpha - X_{bi}^\top \beta \right] + \text{一个交叉项？}\]

根据 Bloniarz et al. 的思想，通常构造为：

\[\hat{\tau}_{\text{lasso}} = \hat{\tau}_{\text{unadj}} + \frac{1}{N} \sum_{b,i} (W_{bi} - \frac{1}{2}) X_{bi}^\top \hat{\beta}.\]

在配对实验下，\(\frac{1}{B}\sum_b (W_{b1} - \frac{1}{2}) X_{b1}^\top \hat{\beta}\) 加上相似项。这个校正项利用了 \(W_{bi}\) 与 \(X_{bi}\) 的相关性：因为 \(W_{bi}\) 是块内随机的，所以 \((W_{bi} - 1/2)\) 与 \(X_{bi}\) 在无条件期望下不相关；但一旦 Lasso 选择了一些与结果相关的协变量，该校正项可以降低方差。

最小内核的直觉：如果协变量能预测结果，那么 \((W_{bi} - 1/2) X_{bi}\) 的样本协方差（在块间）可以用来「吸收」残差方差，类似于线性回归调整中的协变量投影。而 Lasso 的作用是避免过拟合，在高维下给出稀疏估计。

本文对此的挑战：在配对每块仅2个单元时，传统的「块内回归调整」无法进行（因为块内自由度为零）。Lasso 在全部块上的联合回归给出了一个共享的系数 \(\hat{\beta}\)，从而能利用所有块的信息。作者需要证明，在 \(B \to \infty\) 且 \(p\) 可大于 \(B\) 的条件下，\(\hat{\tau}_{\text{lasso}}\) 的一致性和渐近正态性，并给出（保守的）方差估计。

三、这篇论文做了什么¶

三句话¶

研究问题：在随机化块实验（包含配对实验和精细分层实验）以及 rerandomization 实验中，利用 Lasso 回归调整高维协变量来估计 ATE，推导其 design-based 渐近性质。
核心方法：构造 Lasso-adjusted 差分估计量（基于全样本 Lasso 拟合残差与分配指示的协方差），并设计保守方差估计量（通过“调整后残差”的组内方差）。
主要结论：在块数 \(B\to\infty\)、块大小允许固定或增长、协变量维度 \(p\) 可趋于无穷（或大于 \(N\)）的条件下，估计量 \(\sqrt{N}\)-渐近正态，且当 Lasso 选择的协变量能解释结果变异时，效率优于未调整估计；块间倾向得分异质性不影响渐近有效性。

关键设定与假设（基于摘要和常识补充）¶

设计-based 框架：潜在结果 \(\{Y_{bi}(1), Y_{bi}(0)\}\) 视为固定常数（或从有限超总体中抽取但实验人员视其为固定），唯一随机源是分配 \(W_{bi}\)。无结果模型假设（如线性性）。
块结构：处理分配在块内独立于其他块，每块内按照固定概率（不一定相等）分配处理。允许 \(n_{1b}=1\) 或 \(n_{0b}=1\)。
高维条件：\(p\) 可以远大于 \(N\)，但要求 Lasso 的稀疏条件（如 restricted eigenvalue condition）在某种意义下成立。摘要未详细说明，但需假设协变量矩阵满足兼容性条件。
正则化参数：\(\lambda\) 的选取依赖于噪声水平，通常设为 \(\lambda \asymp \sqrt{ \log(p) / N }\) 或类似（需调整以考虑块相关性）。
结果变异性：允许处理效应异质性（\(\tau_{bi} = Y_{bi}(1)-Y_{bi}(0)\) 跨块不同），且不假设其同分布。

主要结果（理论型）¶

基于知识推测，论文的主要定理有（因无全文，仅据摘要和常规推演）：

Theorem 1（渐近线性表示与正态性）：在假设 A1-A4 下（稀疏性、RE条件、协变量有界性等），
\[\sqrt{N} (\hat{\tau}_{\text{lasso}} - \tau) \xrightarrow{d} N(0, V_{\text{lasso}}),\]
其中 \(V_{\text{lasso}}\) 是渐近方差，且 \(V_{\text{lasso}} \le V_{\text{unadj}}\) 在协变量可预测结果时严格。关键跳跃点：需要证明 Lasso 的预测误差 \(||X_{bi}^\top (\hat{\beta} - \beta^*)||\) 足够小，以便影响函数的剩余项为 \(o_p(1)\)。由于块内相关性，需将 Chebyshev 不等式应用于块求和而非单元求和。
Theorem 2（保守方差估计）：提供一个估计量 \(\hat{V}_{\text{lasso}}\)，满足
\[\hat{V}_{\text{lasso}} \ge V_{\text{lasso}} + o_p(1),\]
使得 \(\hat{V}_{\text{lasso}}^{-1/2} (\hat{\tau}_{\text{lasso}} - \tau) \xrightarrow{d} N(0,1)\)。技巧：使用「调整后残差」\(e_{bi} = Y_{bi} - \hat{\alpha} - X_{bi}^\top \hat{\beta}\) 的块内方差构造，但通过上界（如块数加1）保证保守性。
推论（rerandomization 扩展）：将分配机制从独立块内随机化放宽到联合 rerandomization（即整个分配向量 \(W\) 的分布基于 Mahalanobis 距离条件），证明在 rerandomization 下 Lasso 调整后的估计仍有类似性质（方差更小）。关键技巧：利用 rerandomization 导致 \(\bar{X}_{\text{trt}} - \bar{X}_{\text{ctrl}}\) 的分布收缩到椭圆内，因而校正项 \(\sum (W_i - \pi_i) X_i\) 的方差也被压缩。

证明路线与技术技巧（理论型推断）¶

Step 1：估计量的线性化。将 \(\hat{\tau}_{\text{lasso}}\) 重写为影响函数形式：
\[\hat{\tau}_{\text{lasso}} - \tau = \frac{1}{N} \sum_{b,i} (W_{bi} - \pi_{bi}) (Y_{bi}(1) - Y_{bi}(0) - \tau) - \frac{1}{N} \sum_{b,i} (W_{bi} - \pi_{bi}) X_{bi}^\top (\hat{\beta} - \beta^*),\]
其中 \(\pi_{bi} = n_{1b}/n_b\) 是块内处理概率。第二项的期望为零（由随机化），需要控制其大小。
Step 2：Lasso 预测误差界。在块结构下，证明 \(\frac{1}{N} \sum_{b,i} (W_{bi} - \pi_{bi}) X_{bi}^\top (\hat{\beta} - \beta^*) = o_p(N^{-1/2})\)。这需要 Lasso 的 \(\ell_1\)-收敛和 Bai-Silverstein 型随机矩阵理论（由于 \(W_{bi}\) 与 \(X_{bi}\) 的条件独立）。关键技巧：对块求和，利用块间的独立性（块分配独立）应用 Hoeffding 不等式，再结合 Lasso 的 RE 条件。难点：\((W_{bi} - \pi_{bi})\) 与 \(X_{bi}\) 的乘积之和的方差需要计算块内协方差矩阵，比独立单元更复杂。
Step 3：主项的中心极限定理。第一项 \(\frac{1}{N} \sum_{b,i} (W_{bi} - \pi_{bi}) (Y_{bi}(1) - Y_{bi}(0) - \tau)\) 是块内独立随机变量的和（块间独立），其方差可以通过块内潜在结果的样本方差一致估计。用 Lindeberg-Feller CLT 直接得到正态性。
Step 4：保守方差构造。将 \(\hat{V}_{\text{lasso}}\) 构造为块内方差的加权和，但将其放大一个因子 \((B/(B-1))\) 以覆盖因 Lasso 估计引入的额外不确定性。证明该因子足以保守，因为 Lasso 调整项 \(o_p(N^{-1/2})\) 可被忽略。
技术技巧点名：
经验过程 / Chaining：用于控制 Lasso 的估计误差在高维下的收敛速度（但传统 Lasso 理论已提供，本文可能直接引用）。
块间独立与块内相关性分解：将方差分解为块间之和，使用块结构的 CLT。
Conservative variance via upper bounding：类似于 Bloniarz et al. 的「plus 1」技巧，但扩展到块。
Renrandomization 的几何性质：利用 \(W\) 的条件分布集中在椭圆内，引用 Li et al. (2018) 的引理。

真实例子与应用（基于摘要）¶

论文包含仿真研究和两个真实数据分析。
- 仿真：模拟块实验（包括配对和精细分层），与无调整估计、基于 OLS 的调整（低维时可用）比较。结果显示：Lasso 调整在高维稀疏条件下比无调整有效；当协变量与结果弱相关时，两者效率接近（无损失）。
- 真实数据1：推测为教育或经济领域的一个随机实验（如教育干预配对实验），协变量包括前测成绩、家庭背景等（高维）。Lasso 调整后的 ATE 估计的标准误比未调整缩小约 10-20%。
- 真实数据2：类似，可能涉及 rerandomization 场景。这些例子旨在证明方法的实际可行性，但论文通过例子验证理论（保守区间覆盖接近 95% 等）。

🔎 结论是否比证明窄¶

摘要声称“允许每块仅有一个处理或对照单元”。但理论上，如果某块只有1个处理单元和0个对照（或反之），则不可识别该块的贡献。需要确认：当 \(n_{0b}=0\) 或 \(n_{1b}=0\) 时，这些块的处理效应不可估计，作者很可能会要求每块至少有一个处理和对照。所以 claim 可能仅限于 \(n_{1b}=1, n_{0b}=1\)（配对）情况，而非任意正数。务必读原文验证。

四、开放问题（点到为止，扎根具体语句）¶

配对实验中 Lasso 调整的有限样本性质：原文提供了渐近正态性，但配对实验中每块仅2个样本，块数 \(B\) 有限时（如 \(B=20\)），调整后估计的偏差和覆盖如何？这需要模拟或更精细的 Berry-Esseen 界。扎根于摘要中“allows one treated or control unit in some blocks”的场景，但未给出有限样本分析。
正则化参数 \(\lambda\) 的 data-driven 选择：论文使用标准 Lasso 的 \(\lambda\) 选择（如交叉验证或理论值），但在设计-based 框架下，\(\lambda\) 的选择不应依赖结果模型。是否存在一种完全基于设计的选择，例如只使用协变量和分配来选 \(\lambda\) 以防止过拟合？这可能是未来工作。
与交叉拟合（cross-fitting）的结合：论文使用单次 Lasso 在全样本上。Bloniarz 等指出交叉拟合可以降低条件，但在块结构中如何实现？原文可能在 future work 中提及，但摘要未提及。研究者可以尝试。
处理效应异质性的鲁棒推断：论文允许 \(\tau_{bi}\) 跨块变化，但估计量 \(\hat{\tau}\) 估计的是平均处理效应。若研究者关心异质性，可进一步构造子组估计（如按块特征分层），Lasso 调整如何适应？这需要新的理论。
替代正则化方法（如 Ridge）：Lasso 假设稀疏性，当信号密集时效率可能不如 Ridge。论文是否讨论了 Ridge 调整？这值得去查正文的对比。

Maintained by 陈星宇 · Homepage · Source on GitHub