Covariate adjustment in stratified experiments¶

作者: Max Cytrynbaum
来源: Quantitative Economics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究在分层/配对随机化实验（stratified / matched-pair experiments）中，如何通过协变量调整（covariate adjustment，通常是线性回归）来提高平均处理效应（ATE）估计的精度（降低渐近方差），并给出设计基或超总体基下的有效推断（置信区间）。核心统计问题是：分层设计本身已经消耗了部分协变量信息（用于分组），此时在估计阶段再引入剩余协变量做回归调整，其效率增益的数学结构是什么？传统的“交互回归”是否仍然安全？推断方法能否完全反映设计与调整的双重增益，而不是保守的？当前该方向在理论层面已相当成熟，正从“保证不比差”走向“刻画最优与精确推断”。

发展脉络： 1. 奠基与警示（Freedman 到 Lin）：Freedman (2008) 指出在完全随机化下，OLS 协变量调整可能增加渐近方差且推断失效。Lin (2013) [引用1] 修补了这一缺口，证明在完全随机化下，只要回归中包含处理-协变量交互项，调整就弱改善效率（不会比未调整差）。作者引用原话定位：“OLS adjustment cannot hurt asymptotic precision when a full set of treatment-covariate interactions is included.” 这确立了完全随机化下的“交互回归”基准。 2. 分层设计的推断基础（Bugni 等，Bai 等）：随后的工作转向分层设计。Bugni, Canay, Shaikh (2018) [引用8,9] 研究了协变量自适应随机化下的推断，指出通常的 heteroskedasticity-robust 方差估计是保守的。Bai, Romano, Shaikh (2021) [引用2] 证明在匹配对设计中，常用的 t 检验也是保守的。作者引用定位：“Confidence intervals based on the usual heteroskedasticity robust variance estimator are known to be conservative in stratified experiments.” 3. 分层下的回归调整探索（Fogarty, Liu & Yang, Lu & Liu 等）：Fogarty (2016) [引用6] 与 Liu & Yang (2020) [引用7] 开始研究分层/配对下的回归调整，但多聚焦于样本平均处理效应（SATE）或粗分层，且多给出保守推断。Lu & Liu (2022) [引用4] 提出 ToM（tyranny-of-the-minority）回归，声称在分层下比 Lin 交互回归更稳健且最优。作者对此的定位是：这些工作与本文的区别在于“(1) studying inference on the sample average treatment effect (SATE) rather than the ATE in a super-population, (2) restricting to coarse stratification”。 4. 效率界与最优设计（Armstrong, Bai）：Armstrong (2022) [引用15] 推导了实验设计的渐近效率界。Bai (2022) [引用12] 证明匹配对设计在所有分层方案中达到最大精度。作者引用 Armstrong 定位本文的效率界：“In this case, \(\gamma^* = 1\) makes the middle variance term identically zero, and \(\theta^{adj}\) achieves the Armstrong (2022) semiparametric variance bound.” 5. 本文的位置：本文填补了“分层设计 + 超总体 ATE + 最优线性调整 + 精确推断”这一组合缺口。它首先指出 Lin 交互回归在分层下失效（可能增加方差），然后推导出给定分层下的渐近最优线性调整形式，并提供渐近精确的推断方法。

子线索聚类： - 线索 A：完全随机化下的调整安全性（Freedman → Lin → Negi & Wooldridge）。核心是证明交互回归弱改善效率，且 HCSE 推断有效。 - 线索 B：分层/配对设计的推断保守性（Bugni et al. → Bai et al.）。核心是指出标准 robust 方差估计在分层下保守，并构造修正的精确推断。 - 线索 C：分层下的回归调整形式与效率（Fogarty → Liu & Yang → Lu & Liu → Bai et al. 2023 [引用16]）。核心是寻找分层下保证不比差或最优的调整回归形式。Bai et al. (2023) 证明在匹配对中，带配对固定效应的调整最优；本文将此推广到一般分层。 - 线索 D：效率界与最优设计（Hahn 1998 → Armstrong 2022 → Bai 2022）。核心是刻画 ATE 估计的半参数效率界，并证明特定设计（如匹配对）达到该界。

这个方向在追问的核心问题： 1. 安全性问题：在分层设计下，哪种回归调整形式能保证绝不增加渐近方差？（已知：完全随机化下交互回归安全；分层下交互回归不安全。） 2. 最优性问题：给定分层方案，线性协变量调整的渐近方差下界是什么？哪种可行估计量达到此界？ 3. 精确推断问题：如何构造置信区间，使其覆盖率精确达到名义水平，完全反映分层与调整的双重方差缩减，而不保守？

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：作者将缺口 frame 为“现有文献多研究 SATE 或粗分层，且 Lin 交互回归在分层下非有效甚至有害，缺乏一般分层下的最优线性调整与精确推断”。这使得本文的“推导最优调整 + 构造精确推断”成为显然的下一步。 - 哪些竞争路线被他淡化或回避了：Lu & Liu (2022) 的 ToM 回归声称在分层下最优且稳健，但作者仅在引用列表中提及，未在 intro 中正面比较其与本文最优调整的异同或优劣。此外，半参数/双重稳健（Doubly Robust, DR）估计路线（如 Bai et al. 2023 [引用16] 研究了基于 DR moment condition 的调整）在 intro 中被完全忽略，本文只聚焦于线性调整类。 - 什么明显该被引 / 该存在、却没出现在 intro 里：高维协变量调整（如 Lasso adjustment, Zhu et al. 2021 [引用19]）在分层下的理论未被讨论；半参数 DR 估计在分层下的效率比较未被提及。这两条是值得研究者去查的缺口。

张力：未见明显对立引用。各工作在不同设定（SATE vs ATE, 完全随机化 vs 分层, 线性 vs DR）下得出不同结论，但无直接矛盾。唯一微妙点：Lu & Liu (2022) 声称 ToM 在分层下最优，本文声称另一形式最优——这需要研究者去核对两者的“最优”定义是否在同一类估计量上。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

参数 / Estand：\(\theta = E[Y(1) - Y(0)]\)，超总体中的平均处理效应（ATE）。
潜在量：\(Y_i(1), Y_i(0)\)，单元 \(i\) 在处理和控制下的潜在结果。
可观测结果：\(Y_i = Y_i(D_i)\)，其中 \(D_i \in \{0, 1\}\) 是处理指示。
协变量：\(X_i \in \mathbb{R}^{d_x}\)，基线协变量（可观测）。
分层指示：\(S_i \in \mathcal{S}\)，单元 \(i\) 所属的分层（可观测，由设计决定）。
样本量与维数：\(n\) 为总样本量，\(d_x\) 为协变量维数，\(|\mathcal{S}|\) 为分层层数。
分层设计机制：给定 \((X_i, S_i)\) 后，\(D_i\) 的分配概率由分层设计决定。在分层 \(s\) 中，处理比例 \(p_s = P(D_i = 1 | S_i = s)\) 是确定性的或渐近确定的（如匹配对中 \(p_s = 0.5\)）。
模型 / 数据生成机制：\((Y_i(1), Y_i(0), X_i, S_i)\) 从超总体中 i.i.d. 抽取（\(S_i\) 可视为 \(X_i\) 的函数或额外变量）；抽取后，\(D_i\) 在各分层内按特定随机化机制分配（如完全随机化、粗分层、匹配对）。目标是基于可观测数据 \((Y_i, D_i, X_i, S_i)\) 估计 \(\theta\)。
可观测与不可观测的区分：可观测的是 \((Y_i, D_i, X_i, S_i)\)；不可观测的是反事实 \(Y_i(1 - D_i)\)，只能靠设计假设（随机化）与分层结构去识别。

第二步：讲最小内核

论文的核心数学困难在于：分层设计改变了残差的结构，使得完全随机化下最优的交互回归调整，在分层下变成了非最优甚至有害的调整。最小内核体现在匹配对设计（matched pairs）这一特例中。

最简特例：匹配对设计下的协变量调整 - 设 \(n\) 为偶数，样本被分成 \(n/2\) 个对（pairs）。每对内两个单元的 \(X_i\) 尽量接近，且随机分配一个 \(D_i = 1\)，一个 \(D_i = 0\)（\(p_s = 0.5\)）。 - 未调整估计量：配对差均值 \(\hat{\theta}_{unadj} = \frac{2}{n} \sum_{g=1}^{n/2} (Y_{g,1} - Y_{g,0})\)，其中 \(g\) 是对索引，1/0 是对内处理/控制索引。其渐近方差为 \(V_{unadj} = E[\text{Var}(Y(1) - Y(0) | X)] + E[\text{Var}(\mu(1, X) - \mu(0, X) | S)]\)（\(\mu(d, x) = E[Y(d) | X = x]\)）。 - Lin 交互回归调整：在匹配对下，回归 \(Y_i = \alpha + \beta D_i + \gamma X_i + \delta D_i X_i\) 的系数 \(\hat{\beta}\) 作为 ATE 估计。本文证明，在匹配对下，此估计量的渐近方差通常大于未调整估计量！直觉：匹配对已经使对内 \(X\) 平衡，交互项 \(D_i X_i\) 的引入反而破坏了对内平衡的残差结构，引入了额外噪声。 - 最优线性调整：本文推导出，在匹配对下，最优线性调整是回归 \(Y_i = \alpha_g + \beta D_i + \gamma X_i\)（包含配对固定效应 \(\alpha_g\)，但不包含 \(D_i X_i\) 交互项）。此回归的 \(\hat{\beta}\) 渐近方差达到给定匹配对设计下的最小值（Armstrong 界）。直觉：配对固定效应吸收了由匹配带来的方差缩减，而线性调整 \(X_i\) 吸收了剩余协变量的方差缩减，两者不冲突。 - 最小内核的数学命题：在匹配对设计下，带配对固定效应的线性调整回归估计量 \(\hat{\beta}_{FE}\) 的渐近方差为 \(V_{FE} = E[\text{Var}(Y(1) - Y(0) | X)]\)，这严格小于未调整方差 \(V_{unadj}\)（除非 \(\mu(1, X) - \mu(0, X)\) 在对内常数），且严格小于 Lin 交互回归的方差。\(V_{FE}\) 达到了 Armstrong (2022) 的半参数效率界。

三、这篇论文做了什么¶

三句话： ①研究了分层实验下 ATE 的线性协变量调整估计问题，指出 Lin 交互回归在分层下非有效甚至有害； ②核心工具是设计基渐近理论与半参数效率界推导； ③主要结论是推导出给定分层下的最优线性调整形式（匹配对下为带固定效应的线性回归），并构造渐近精确推断方法。

关键设定与假设： - 超总体框架：\((Y_i(1), Y_i(0), X_i, S_i)\) i.i.d. 抽取，目标是超总体 ATE \(\theta\)。这与 SATE 框架（Fogarty, Liu & Yang 部分）不同。 - 分层设计：\(S_i\) 为分层变量，分层内处理比例 \(p_s\) 已知或渐近已知。涵盖匹配对（\(p_s = 0.5\), 对内 \(X\) 接近）、粗分层（\(p_s\) 可变，层数少）、完全随机化（单层）。 - 假设 1（渐近分层结构）：层数 \(|\mathcal{S}|\) 可随 \(n\) 增长（如匹配对中 \(|\mathcal{S}| = n/2\)），但需满足特定平衡条件（如对内 \(X\) 差距渐近消失）。 - 假设 2（矩条件）：潜在结果与协变量有足够高阶的矩（保证渐近正态性与方差估计的一致性）。 - 假设 3（线性调整类）：考虑形如 \(\hat{\theta}_{adj} = \hat{\theta}_{unadj} - \frac{1}{n} \sum_{i=1}^n \hat{\gamma}' (D_i - p_{S_i}) (X_i - \bar{X}_{S_i})\) 的线性调整估计量，其中 \(\hat{\gamma}\) 是基于样本估计的调整系数向量，\(p_{S_i}\) 是分层 \(S_i\) 的处理比例，\(\bar{X}_{S_i}\) 是分层内协变量均值。相比已有文献，本文允许 \(|\mathcal{S}| \to \infty\)（如匹配对），且不限制为粗分层。

主要结果： 1. 定理 1（Lin 交互回归的非有效性）：在分层设计下，Lin 交互回归调整（\(Y_i \sim D_i + X_i + D_i X_i\)）的渐近方差通常大于未调整估计量，更大于最优调整。仅在完全随机化（单层）下，它弱改善效率。直觉与证明：分层设计已使 \((D_i - p_{S_i})\) 与 \((X_i - \bar{X}_{S_i})\) 在分层内正交（设计保证），交互项的引入破坏了这一正交性，导致调整系数 \(\hat{\gamma}\) 估计的噪声渗入渐近方差。 2. 定理 2（最优线性调整形式）：给定分层设计，渐近最优的线性调整系数为 \(\gamma^* = \text{Var}(X_i | S_i)^{-1} \text{Cov}(X_i, Y_i(1) - Y_i(0) | S_i)\)。对应的可行估计量 \(\hat{\theta}_{adj}\) 渐近方差为 \(V_{adj} = E[\text{Var}(Y(1) - Y(0) | X)]\)，达到 Armstrong (2022) 的半参数效率界。在匹配对特例下，\(\gamma^*\) 的可行实现即为带配对固定效应的线性回归的系数。 3. 定理 3（渐近精确推断）：本文构造的方差估计量 \(\hat{V}_{adj}\) 是渐近精确的（consistent for \(V_{adj}\)），而非保守的。基于 \(\hat{V}_{adj}\) 的置信区间覆盖率渐近达到名义水平。这修正了 Bai et al. (2021) 指出的“通常 robust 方差估计在分层下保守”的问题。

证明路线与技术技巧： - 整体路线： 1. 刻画未调整估计量的渐近方差：用设计基中心极限定理（CLT）证明 \(\hat{\theta}_{unadj}\) 渐近正态，方差为 \(V_{unadj}\)。 2. 刻画线性调整估计量的渐近方差：将 \(\hat{\theta}_{adj}\) 分解为 \(\hat{\theta}_{unadj} - \hat{\gamma}' \frac{1}{n} \sum_i (D_i - p_{S_i})(X_i - \bar{X}_{S_i})\)。由于 \(\hat{\gamma}\) 是样本估计，需处理其估计噪声对渐近方差的影响。 3. 推导最优调整系数 \(\gamma^*\)：通过最小化 \(V_{adj}\) 关于 \(\gamma\) 的表达式，得到 \(\gamma^*\) 的闭式解。关键在于利用分层设计的正交性 \((D_i - p_{S_i}) \perp (X_i - \bar{X}_{S_i}) | S_i\)，简化方差表达式。 4. 构造可行估计量与精确推断：用样本矩估计 \(\gamma^*\)，证明可行估计量达到 \(V_{adj}\)；构造方差估计 \(\hat{V}_{adj}\)，证明其一致性。 - 关键跳跃点： - 跳跃点 1：处理 \(\hat{\gamma}\) 的估计噪声。在分层设计（尤其 \(|\mathcal{S}| \to \infty\) 如匹配对）下，\(\hat{\gamma}\) 的估计噪声不能被忽略（不像完全随机化下可忽略）。作者通过投影与残差分解，将 \(\hat{\gamma}\) 的噪声项归入一个可精确计算的方差分量，并证明在最优调整 \(\gamma^*\) 下，此噪声项恰好为零（即 \(\gamma^* = 1\) 使中间方差项消失，引用 Armstrong）。 - 跳跃点 2：精确方差估计的构造。通常的 HCSE 在分层下保守，因为它估计的是 \(E[\text{Var}(Y(d) | S)]\) 而非 \(E[\text{Var}(Y(d) | X)]\)。作者通过残差投影到 \(X\) 空间，构造出估计 \(E[\text{Var}(Y(d) | X)]\) 的方差估计量，从而实现精确推断。 - 技术技巧点名： - 设计基渐近理论：用于推导所有估计量的渐近分布，不依赖超总体模型假设。 - 投影与残差分解：将 \(Y_i(d)\) 分解为 \(\mu(d, X_i) + e_i(d)\)，其中 \(e_i(d)\) 是条件于 \(X\) 的残差。方差分解 \(V = E[\text{Var}(\mu(1 - 0, X) | S)] + E[\text{Var}(e(1 - 0) | X)]\) 是核心。 - 正交性利用：分层设计保证 \((D_i - p_{S_i}) \perp (X_i - \bar{X}_{S_i}) | S_i\)，这使得调整项的方差可独立计算，且交互项的引入破坏此正交性。 - 半参数效率界：引用 Armstrong (2022) 的界，证明本文最优调整达到该界。

真实例子与应用： - 数据 / 场景：Baysan (2022) [引用3] 的土耳其选举信息实验（匹配对设计，评估信息对选民极化的影响）。 - 怎么用上去：用本文的带配对固定效应线性调整估计 ATE，并用本文的精确方差估计构造置信区间。 - 得到什么结果：通常的 robust 置信区间在分层实验下显著 overcover（覆盖率远大于名义水平），而本文的精确置信区间覆盖率接近名义水平，且区间长度更短，完全反映了分层与调整的双重效率增益。 - 想说明什么：验证理论预测——通常 robust 方差估计在分层下保守，本文方法实现精确推断；同时展示最优调整（带固定效应）的实际效率增益。

🔎 结论是否比证明窄： - 作者在定理 2 中声称 \(\hat{\theta}_{adj}\) 达到 Armstrong (2022) 的半参数效率界，但证明仅限于线性调整类。是否在所有半参数估计量中达到界，证明未覆盖，依赖 Armstrong 的界本身是否为全局半参数界（Armstrong 证明的是特定设计下的界，本文引用其结论）。研究者需核对 Armstrong (2022) 的界是否涵盖非线性调整。 - 定理 3 的精确推断要求矩条件与分层平衡条件，但在实证应用中，匹配对的平衡条件（对内 \(X\) 差距渐近消失）可能不完全满足，作者未讨论此情形下推断的稳健性。

四、开放问题（点到为止）¶

高维协变量调整：本文聚焦于固定维数 \(d_x\) 的线性调整。当 \(d_x \gg n\) 时，如何构造达到 Armstrong 界的可行调整？（扎根：本文设定假设 \(d_x\) 固定，且引用列表中 Zhu et al. 2021 [引用19] 已探索 Lasso 调整但未达精确推断，两者存在缺口）。
半参数 / 非线性调整的效率：本文最优调整在线性类内达到效率界。是否存在非线性调整（如 DR 估计）在分层下达到更低的渐近方差？（扎根：Bai et al. 2023 [引用16] 研究了匹配对下的 DR 调整，本文 intro 未比较；Armstrong 界是否为全局界需核对）。
分层平衡条件不满足时的推断：本文精确推断依赖分层内 \(X\) 平衡的渐近条件（如匹配对内 \(X\) 差距消失）。若分层粗糙或平衡不完美，精确推断是否仍成立，或需修正？（扎根：定理 3 的假设与 Bai et al. 2021 的平衡条件，实证中可能不完全满足）。
与 ToM 回归的关系：Lu & Liu (2022) 的 ToM 回归声称在分层下最优，本文推导了另一最优形式。两者在线性类内是否等价，或何者更稳健？（扎根：本文引用 Lu & Liu 但未正面比较，需核对两者的最优定义与调整类）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Covariate adjustment in stratified experiments¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论