跳转至

Covariate adjustment in stratified experiments

作者: Max Cytrynbaum
来源: Quantitative Economics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向研究在分层/配对随机化实验(stratified / matched-pair experiments)中,如何通过协变量调整(covariate adjustment,通常是线性回归)来提高平均处理效应(ATE)估计的精度(降低渐近方差),并给出设计基或超总体基下的有效推断(置信区间)。核心统计问题是:分层设计本身已经消耗了部分协变量信息(用于分组),此时在估计阶段再引入剩余协变量做回归调整,其效率增益的数学结构是什么?传统的“交互回归”是否仍然安全?推断方法能否完全反映设计与调整的双重增益,而不是保守的?当前该方向在理论层面已相当成熟,正从“保证不比差”走向“刻画最优与精确推断”。

发展脉络: 1. 奠基与警示(Freedman 到 Lin):Freedman (2008) 指出在完全随机化下,OLS 协变量调整可能增加渐近方差且推断失效。Lin (2013) [引用1] 修补了这一缺口,证明在完全随机化下,只要回归中包含处理-协变量交互项,调整就弱改善效率(不会比未调整差)。作者引用原话定位:“OLS adjustment cannot hurt asymptotic precision when a full set of treatment-covariate interactions is included.” 这确立了完全随机化下的“交互回归”基准。 2. 分层设计的推断基础(Bugni 等,Bai 等):随后的工作转向分层设计。Bugni, Canay, Shaikh (2018) [引用8,9] 研究了协变量自适应随机化下的推断,指出通常的 heteroskedasticity-robust 方差估计是保守的。Bai, Romano, Shaikh (2021) [引用2] 证明在匹配对设计中,常用的 t 检验也是保守的。作者引用定位:“Confidence intervals based on the usual heteroskedasticity robust variance estimator are known to be conservative in stratified experiments.” 3. 分层下的回归调整探索(Fogarty, Liu & Yang, Lu & Liu 等):Fogarty (2016) [引用6] 与 Liu & Yang (2020) [引用7] 开始研究分层/配对下的回归调整,但多聚焦于样本平均处理效应(SATE)或粗分层,且多给出保守推断。Lu & Liu (2022) [引用4] 提出 ToM(tyranny-of-the-minority)回归,声称在分层下比 Lin 交互回归更稳健且最优。作者对此的定位是:这些工作与本文的区别在于“(1) studying inference on the sample average treatment effect (SATE) rather than the ATE in a super-population, (2) restricting to coarse stratification”。 4. 效率界与最优设计(Armstrong, Bai):Armstrong (2022) [引用15] 推导了实验设计的渐近效率界。Bai (2022) [引用12] 证明匹配对设计在所有分层方案中达到最大精度。作者引用 Armstrong 定位本文的效率界:“In this case, \(\gamma^* = 1\) makes the middle variance term identically zero, and \(\theta^{adj}\) achieves the Armstrong (2022) semiparametric variance bound.” 5. 本文的位置:本文填补了“分层设计 + 超总体 ATE + 最优线性调整 + 精确推断”这一组合缺口。它首先指出 Lin 交互回归在分层下失效(可能增加方差),然后推导出给定分层下的渐近最优线性调整形式,并提供渐近精确的推断方法。

子线索聚类: - 线索 A:完全随机化下的调整安全性(Freedman → Lin → Negi & Wooldridge)。核心是证明交互回归弱改善效率,且 HCSE 推断有效。 - 线索 B:分层/配对设计的推断保守性(Bugni et al. → Bai et al.)。核心是指出标准 robust 方差估计在分层下保守,并构造修正的精确推断。 - 线索 C:分层下的回归调整形式与效率(Fogarty → Liu & Yang → Lu & Liu → Bai et al. 2023 [引用16])。核心是寻找分层下保证不比差或最优的调整回归形式。Bai et al. (2023) 证明在匹配对中,带配对固定效应的调整最优;本文将此推广到一般分层。 - 线索 D:效率界与最优设计(Hahn 1998 → Armstrong 2022 → Bai 2022)。核心是刻画 ATE 估计的半参数效率界,并证明特定设计(如匹配对)达到该界。

这个方向在追问的核心问题: 1. 安全性问题:在分层设计下,哪种回归调整形式能保证绝不增加渐近方差?(已知:完全随机化下交互回归安全;分层下交互回归不安全。) 2. 最优性问题:给定分层方案,线性协变量调整的渐近方差下界是什么?哪种可行估计量达到此界? 3. 精确推断问题:如何构造置信区间,使其覆盖率精确达到名义水平,完全反映分层与调整的双重方差缩减,而不保守?

⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口 frame 为“现有文献多研究 SATE 或粗分层,且 Lin 交互回归在分层下非有效甚至有害,缺乏一般分层下的最优线性调整与精确推断”。这使得本文的“推导最优调整 + 构造精确推断”成为显然的下一步。 - 哪些竞争路线被他淡化或回避了:Lu & Liu (2022) 的 ToM 回归声称在分层下最优且稳健,但作者仅在引用列表中提及,未在 intro 中正面比较其与本文最优调整的异同或优劣。此外,半参数/双重稳健(Doubly Robust, DR)估计路线(如 Bai et al. 2023 [引用16] 研究了基于 DR moment condition 的调整)在 intro 中被完全忽略,本文只聚焦于线性调整类。 - 什么明显该被引 / 该存在、却没出现在 intro 里:高维协变量调整(如 Lasso adjustment, Zhu et al. 2021 [引用19])在分层下的理论未被讨论;半参数 DR 估计在分层下的效率比较未被提及。这两条是值得研究者去查的缺口。

张力: 未见明显对立引用。各工作在不同设定(SATE vs ATE, 完全随机化 vs 分层, 线性 vs DR)下得出不同结论,但无直接矛盾。唯一微妙点:Lu & Liu (2022) 声称 ToM 在分层下最优,本文声称另一形式最优——这需要研究者去核对两者的“最优”定义是否在同一类估计量上。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 参数 / Estand\(\theta = E[Y(1) - Y(0)]\),超总体中的平均处理效应(ATE)。
  • 潜在量\(Y_i(1), Y_i(0)\),单元 \(i\) 在处理和控制下的潜在结果。
  • 可观测结果\(Y_i = Y_i(D_i)\),其中 \(D_i \in \{0, 1\}\) 是处理指示。
  • 协变量\(X_i \in \mathbb{R}^{d_x}\),基线协变量(可观测)。
  • 分层指示\(S_i \in \mathcal{S}\),单元 \(i\) 所属的分层(可观测,由设计决定)。
  • 样本量与维数\(n\) 为总样本量,\(d_x\) 为协变量维数,\(|\mathcal{S}|\) 为分层层数。
  • 分层设计机制:给定 \((X_i, S_i)\) 后,\(D_i\) 的分配概率由分层设计决定。在分层 \(s\) 中,处理比例 \(p_s = P(D_i = 1 | S_i = s)\) 是确定性的或渐近确定的(如匹配对中 \(p_s = 0.5\))。
  • 模型 / 数据生成机制\((Y_i(1), Y_i(0), X_i, S_i)\) 从超总体中 i.i.d. 抽取(\(S_i\) 可视为 \(X_i\) 的函数或额外变量);抽取后,\(D_i\) 在各分层内按特定随机化机制分配(如完全随机化、粗分层、匹配对)。目标是基于可观测数据 \((Y_i, D_i, X_i, S_i)\) 估计 \(\theta\)
  • 可观测与不可观测的区分:可观测的是 \((Y_i, D_i, X_i, S_i)\);不可观测的是反事实 \(Y_i(1 - D_i)\),只能靠设计假设(随机化)与分层结构去识别。

第二步:讲最小内核

论文的核心数学困难在于:分层设计改变了残差的结构,使得完全随机化下最优的交互回归调整,在分层下变成了非最优甚至有害的调整。最小内核体现在匹配对设计(matched pairs)这一特例中。

最简特例:匹配对设计下的协变量调整 - 设 \(n\) 为偶数,样本被分成 \(n/2\) 个对(pairs)。每对内两个单元的 \(X_i\) 尽量接近,且随机分配一个 \(D_i = 1\),一个 \(D_i = 0\)\(p_s = 0.5\))。 - 未调整估计量:配对差均值 \(\hat{\theta}_{unadj} = \frac{2}{n} \sum_{g=1}^{n/2} (Y_{g,1} - Y_{g,0})\),其中 \(g\) 是对索引,1/0 是对内处理/控制索引。其渐近方差为 \(V_{unadj} = E[\text{Var}(Y(1) - Y(0) | X)] + E[\text{Var}(\mu(1, X) - \mu(0, X) | S)]\)\(\mu(d, x) = E[Y(d) | X = x]\))。 - Lin 交互回归调整:在匹配对下,回归 \(Y_i = \alpha + \beta D_i + \gamma X_i + \delta D_i X_i\) 的系数 \(\hat{\beta}\) 作为 ATE 估计。本文证明,在匹配对下,此估计量的渐近方差通常大于未调整估计量!直觉:匹配对已经使对内 \(X\) 平衡,交互项 \(D_i X_i\) 的引入反而破坏了对内平衡的残差结构,引入了额外噪声。 - 最优线性调整:本文推导出,在匹配对下,最优线性调整是回归 \(Y_i = \alpha_g + \beta D_i + \gamma X_i\)(包含配对固定效应 \(\alpha_g\),但不包含 \(D_i X_i\) 交互项)。此回归的 \(\hat{\beta}\) 渐近方差达到给定匹配对设计下的最小值(Armstrong 界)。直觉:配对固定效应吸收了由匹配带来的方差缩减,而线性调整 \(X_i\) 吸收了剩余协变量的方差缩减,两者不冲突。 - 最小内核的数学命题:在匹配对设计下,带配对固定效应的线性调整回归估计量 \(\hat{\beta}_{FE}\) 的渐近方差为 \(V_{FE} = E[\text{Var}(Y(1) - Y(0) | X)]\),这严格小于未调整方差 \(V_{unadj}\)(除非 \(\mu(1, X) - \mu(0, X)\) 在对内常数),且严格小于 Lin 交互回归的方差。\(V_{FE}\) 达到了 Armstrong (2022) 的半参数效率界。


三、这篇论文做了什么

三句话: ①研究了分层实验下 ATE 的线性协变量调整估计问题,指出 Lin 交互回归在分层下非有效甚至有害; ②核心工具是设计基渐近理论与半参数效率界推导; ③主要结论是推导出给定分层下的最优线性调整形式(匹配对下为带固定效应的线性回归),并构造渐近精确推断方法。

关键设定与假设: - 超总体框架\((Y_i(1), Y_i(0), X_i, S_i)\) i.i.d. 抽取,目标是超总体 ATE \(\theta\)。这与 SATE 框架(Fogarty, Liu & Yang 部分)不同。 - 分层设计\(S_i\) 为分层变量,分层内处理比例 \(p_s\) 已知或渐近已知。涵盖匹配对(\(p_s = 0.5\), 对内 \(X\) 接近)、粗分层(\(p_s\) 可变,层数少)、完全随机化(单层)。 - 假设 1(渐近分层结构):层数 \(|\mathcal{S}|\) 可随 \(n\) 增长(如匹配对中 \(|\mathcal{S}| = n/2\)),但需满足特定平衡条件(如对内 \(X\) 差距渐近消失)。 - 假设 2(矩条件):潜在结果与协变量有足够高阶的矩(保证渐近正态性与方差估计的一致性)。 - 假设 3(线性调整类):考虑形如 \(\hat{\theta}_{adj} = \hat{\theta}_{unadj} - \frac{1}{n} \sum_{i=1}^n \hat{\gamma}' (D_i - p_{S_i}) (X_i - \bar{X}_{S_i})\) 的线性调整估计量,其中 \(\hat{\gamma}\) 是基于样本估计的调整系数向量,\(p_{S_i}\) 是分层 \(S_i\) 的处理比例,\(\bar{X}_{S_i}\) 是分层内协变量均值。相比已有文献,本文允许 \(|\mathcal{S}| \to \infty\)(如匹配对),且不限制为粗分层。

主要结果: 1. 定理 1(Lin 交互回归的非有效性):在分层设计下,Lin 交互回归调整(\(Y_i \sim D_i + X_i + D_i X_i\))的渐近方差通常大于未调整估计量,更大于最优调整。仅在完全随机化(单层)下,它弱改善效率。直觉与证明:分层设计已使 \((D_i - p_{S_i})\)\((X_i - \bar{X}_{S_i})\) 在分层内正交(设计保证),交互项的引入破坏了这一正交性,导致调整系数 \(\hat{\gamma}\) 估计的噪声渗入渐近方差。 2. 定理 2(最优线性调整形式):给定分层设计,渐近最优的线性调整系数为 \(\gamma^* = \text{Var}(X_i | S_i)^{-1} \text{Cov}(X_i, Y_i(1) - Y_i(0) | S_i)\)。对应的可行估计量 \(\hat{\theta}_{adj}\) 渐近方差为 \(V_{adj} = E[\text{Var}(Y(1) - Y(0) | X)]\),达到 Armstrong (2022) 的半参数效率界。在匹配对特例下,\(\gamma^*\) 的可行实现即为带配对固定效应的线性回归的系数。 3. 定理 3(渐近精确推断):本文构造的方差估计量 \(\hat{V}_{adj}\) 是渐近精确的(consistent for \(V_{adj}\)),而非保守的。基于 \(\hat{V}_{adj}\) 的置信区间覆盖率渐近达到名义水平。这修正了 Bai et al. (2021) 指出的“通常 robust 方差估计在分层下保守”的问题。

证明路线与技术技巧: - 整体路线: 1. 刻画未调整估计量的渐近方差:用设计基中心极限定理(CLT)证明 \(\hat{\theta}_{unadj}\) 渐近正态,方差为 \(V_{unadj}\)。 2. 刻画线性调整估计量的渐近方差:将 \(\hat{\theta}_{adj}\) 分解为 \(\hat{\theta}_{unadj} - \hat{\gamma}' \frac{1}{n} \sum_i (D_i - p_{S_i})(X_i - \bar{X}_{S_i})\)。由于 \(\hat{\gamma}\) 是样本估计,需处理其估计噪声对渐近方差的影响。 3. 推导最优调整系数 \(\gamma^*\):通过最小化 \(V_{adj}\) 关于 \(\gamma\) 的表达式,得到 \(\gamma^*\) 的闭式解。关键在于利用分层设计的正交性 \((D_i - p_{S_i}) \perp (X_i - \bar{X}_{S_i}) | S_i\),简化方差表达式。 4. 构造可行估计量与精确推断:用样本矩估计 \(\gamma^*\),证明可行估计量达到 \(V_{adj}\);构造方差估计 \(\hat{V}_{adj}\),证明其一致性。 - 关键跳跃点: - 跳跃点 1:处理 \(\hat{\gamma}\) 的估计噪声。在分层设计(尤其 \(|\mathcal{S}| \to \infty\) 如匹配对)下,\(\hat{\gamma}\) 的估计噪声不能被忽略(不像完全随机化下可忽略)。作者通过投影与残差分解,将 \(\hat{\gamma}\) 的噪声项归入一个可精确计算的方差分量,并证明在最优调整 \(\gamma^*\) 下,此噪声项恰好为零(即 \(\gamma^* = 1\) 使中间方差项消失,引用 Armstrong)。 - 跳跃点 2:精确方差估计的构造。通常的 HCSE 在分层下保守,因为它估计的是 \(E[\text{Var}(Y(d) | S)]\) 而非 \(E[\text{Var}(Y(d) | X)]\)。作者通过残差投影到 \(X\) 空间,构造出估计 \(E[\text{Var}(Y(d) | X)]\) 的方差估计量,从而实现精确推断。 - 技术技巧点名: - 设计基渐近理论:用于推导所有估计量的渐近分布,不依赖超总体模型假设。 - 投影与残差分解:将 \(Y_i(d)\) 分解为 \(\mu(d, X_i) + e_i(d)\),其中 \(e_i(d)\) 是条件于 \(X\) 的残差。方差分解 \(V = E[\text{Var}(\mu(1 - 0, X) | S)] + E[\text{Var}(e(1 - 0) | X)]\) 是核心。 - 正交性利用:分层设计保证 \((D_i - p_{S_i}) \perp (X_i - \bar{X}_{S_i}) | S_i\),这使得调整项的方差可独立计算,且交互项的引入破坏此正交性。 - 半参数效率界:引用 Armstrong (2022) 的界,证明本文最优调整达到该界。

真实例子与应用: - 数据 / 场景:Baysan (2022) [引用3] 的土耳其选举信息实验(匹配对设计,评估信息对选民极化的影响)。 - 怎么用上去:用本文的带配对固定效应线性调整估计 ATE,并用本文的精确方差估计构造置信区间。 - 得到什么结果:通常的 robust 置信区间在分层实验下显著 overcover(覆盖率远大于名义水平),而本文的精确置信区间覆盖率接近名义水平,且区间长度更短,完全反映了分层与调整的双重效率增益。 - 想说明什么:验证理论预测——通常 robust 方差估计在分层下保守,本文方法实现精确推断;同时展示最优调整(带固定效应)的实际效率增益。

🔎 结论是否比证明窄: - 作者在定理 2 中声称 \(\hat{\theta}_{adj}\) 达到 Armstrong (2022) 的半参数效率界,但证明仅限于线性调整类。是否在所有半参数估计量中达到界,证明未覆盖,依赖 Armstrong 的界本身是否为全局半参数界(Armstrong 证明的是特定设计下的界,本文引用其结论)。研究者需核对 Armstrong (2022) 的界是否涵盖非线性调整。 - 定理 3 的精确推断要求矩条件与分层平衡条件,但在实证应用中,匹配对的平衡条件(对内 \(X\) 差距渐近消失)可能不完全满足,作者未讨论此情形下推断的稳健性。


四、开放问题(点到为止)

  1. 高维协变量调整:本文聚焦于固定维数 \(d_x\) 的线性调整。当 \(d_x \gg n\) 时,如何构造达到 Armstrong 界的可行调整?(扎根:本文设定假设 \(d_x\) 固定,且引用列表中 Zhu et al. 2021 [引用19] 已探索 Lasso 调整但未达精确推断,两者存在缺口)。
  2. 半参数 / 非线性调整的效率:本文最优调整在线性类内达到效率界。是否存在非线性调整(如 DR 估计)在分层下达到更低的渐近方差?(扎根:Bai et al. 2023 [引用16] 研究了匹配对下的 DR 调整,本文 intro 未比较;Armstrong 界是否为全局界需核对)。
  3. 分层平衡条件不满足时的推断:本文精确推断依赖分层内 \(X\) 平衡的渐近条件(如匹配对内 \(X\) 差距消失)。若分层粗糙或平衡不完美,精确推断是否仍成立,或需修正?(扎根:定理 3 的假设与 Bai et al. 2021 的平衡条件,实证中可能不完全满足)。
  4. 与 ToM 回归的关系:Lu & Liu (2022) 的 ToM 回归声称在分层下最优,本文推导了另一最优形式。两者在线性类内是否等价,或何者更稳健?(扎根:本文引用 Lu & Liu 但未正面比较,需核对两者的最优定义与调整类)。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论