Robust and Efficient Estimation of Potential Outcome Means Under Random Assignment¶

作者: Akanksha Negi, Jeffrey M. Wooldridge
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

此方向研究的核心问题是：在随机实验（randomized experiment）这一因果推断的“黄金标准”设定下，如何利用协变量（covariates）的信息，在估计不同处理组（treatment arms）的潜在结果均值（potential outcome means, POMs）时获得统计效率上的提升。其根本关切是，当实验保证处理分配（T）独立于潜在结果（Y(0), Y(1), …, Y(T)）时，我们是否能够且应该如何在保持估计量一致性的前提下，通过回归调整（regression adjustment）来降低方差。该方向当前的成熟度很高，是计量经济学和因果推断教科书中的经典内容，但多集中在二值处理（binary treatment）的平均处理效应（ATE）估计上。本文则聚焦于多处理组（≥3个）且目标为每个处理组的POM（而非单一ATE）时，不同回归调整策略的渐近效率排序和鲁棒性。

发展脉络¶

奠基工作：关于“回归调整能否提升随机实验的效率”的讨论可追溯到 Cochran (1968)、Fisher (1935) 等人的经典工作。他们的核心洞见是，在随机分配下，线性回归中处理变量的系数（对于ATE而言）是一个一致估计量，而其方差可以通过引入与结果变量相关的协变量来降低。这是“回归调整（RA）”的雏形。留下的口子是：结论强烈依赖于线性模型设定，且通常关注的是单参数ATE。
主要进展（二值处理与ATE）：Freedman (2008a, 2008b) 在一系列论文中指出了线性回归在随机实验中的陷阱：如果使用的是“带处理交互项”的饱和回归（saturated regression，即对每个处理水平允许不同的斜率），那么OLS估计的ATE方差不一定小于简单均值差；甚至可能更大，且传统异方差稳健标准误可能不一致。这引发了大量后续工作。Imbens & Wooldridge (2009), Lin (2013), Frison & Pocock (1992) 等论文则表明，真正的改进来自于使用对处理组指示变量和协变量交互项的回归（亦即本文说的separate RA），或者利用非参数预测模型（如随机森林）配合“Augmented Inverse Propensity Weighting (AIPW)”风格的双稳健（doubly robust）估计量。Schochet (2010) 讨论了多处理组场景，但通常关注的是多个成对比较（pairwise contrasts），而非联合估计所有POMs。留口：这些工作多以二值处理或单一比较为落脚点，对于多处理组（≥ 3）下直接估计所有POMs向量的效率排序，特别是“分别估计每个处理组”（separate RA）与“合并数据只估计一个共同斜率”（pooled RA）的严格比较，缺少系统性理论刻画。
当前Frontier：Negi (2019) 的前期工作（本文第一作者）是本文最直接的先驱。Negi (2019) 证明了在多处理组随机实验中，对每个处理组分别进行线性回归调整（separate RA）得到的POM估计量，其渐近方差不超过仅使用子样本均值（不需任何回归调整）时的方差。本文发表于2024年，其位置就是在Negi (2019) 的基础上，向前推进两个关键步骤：① 证明separate RA严格优于pooled RA（除非各组的线性投影斜率完全相同）；② 将一致性结论从线性模型大幅扩展至非线性RA（如logit, Probit, Poisson等非线性条件均值模型）。

子线索聚类¶

根据作者的引言和引用，该领域被引文献大致落在以下两条子线索：

子线索 A：“随机实验 vs. 观察研究”的理论谱系：这一簇工作核心是讨论“在随机实验（已知propensity score）中，回归调整是否总是能提升效率”。代表性工作包括上述Cochran, Fisher, Lin, Freedman系列论文。争论的焦点是：对处理变量和协变量的交互项进行建模（允许斜率不同）是必要的；如果不建模交互项（即只用了一个主效应项），则方差并不一定会降低。本文的作者显然站在“必须允许不同斜率”这一边，并以此作为立论基础。
子线索 B：多处理组与联合估计的效率理论：这一簇工作将问题从单一的ATE扩展到多处理组下的POMs向量或多个处理效应的联合估计。包括 Schochet (2010)、Negi (2019)、Rothe (2014)、Belloni et al. (2014, 2017) 等。其中，Negi (2019) 建立了separate RA优于无调整的结论；本文进一步在它之上刻画了separate vs. pooled的效率差距，以及非线性RA的一致性。

这个方向在追问的核心问题¶

效率排序：给定一个随机实验且处理组数 T ≥ 3，对于估计向量 θ = (E[Y(1)], …, E[Y(T)])ᵀ，不同的回归调整策略在渐近方差上如何排序？
一致性鲁棒性：当条件均值模型（如线性、Logistic、Probit等参数模型）被误设（misspecified）时，这些RA估计量是否还能一致地估计POMs？
非线性RA的一致性条件：在线性RA之外，还有哪些非线性RA方法（如基于link function的广义线性模型）能在模型误设下保持对POMs的一致性估计？其充分条件是什么？

当前主流方法与瓶颈：主流方法分两派—— - “无回归”（无RA）： 直接使用各组样本均值，即子样本均值估计量。优点是绝对鲁棒，缺点是效率不是最优。 - “带回归”（RA）： 对每个处理组或所有组一起拟合某种回归模型（通常是线性的）。优点是效率高，但缺点是若模型误设，在非随机分配下会导致偏倚。由于本文设定是随机实验，处理分配独立于潜在结果，因此回归调整的“偏倚”来源被消除，唯一的代价/收益体现在方差上。瓶颈在于，在非参数设定下，理论比较依赖复杂的渐近展开；而在参数设定（如广义线性模型）下，一致性并非自动成立。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口frame成：“现有文献关于二值处理场景的效率比较理论和多处理组场景下的效率比较理论之间存在空白”。他们认为，对于T ≥ 3，直接计算所有POMs的渐近方差（而非两两比较）并将其作为比较指标是自然的下一步。他们淡化了非参数/半参数方法（如AIPW、TMLE、交叉拟合CBPS）——这些方法能够在更宽松的条件下做到双稳健（double robustness）甚至效率最优，但作者只在讨论中一笔带过，并未在理论框架中将本方法与他们进行比较（例如，如果使用一个非参数的回归函数估计，其效率可能优于任何线性或固定参数非线性模型）。值得研究者去查的问题：哪些“明显该被引、该存在、却不在此intro”的工作？——半参数效率理论（如 Bickel et al. (1993) 的BKRW效率界，van der Vaart (2000) 的教课书内容）在此场景下直接应用是什么结果？在随机实验下，POMs的Efficient Influence Function (EIF) 是已知的。EIF-based estimator（如DML中用的）在此处是否等价于作者提出的separate RA，但其渐近方差是否一定更优？本文没有把其估计量与半参数有效估计量（在本设定下，即一个对每个处理组分别进行非参数回归的特征函数估计量）做对比。这暗示了本文关注的“模型驱动”而非“数据驱动”的效率提升，是基于固定维数线性/参数模型的最佳选择。

张力¶

未见明显对立引用。Cochran/Lin等支持同侧（separate RA更优），Freedman的质疑在于饱和回归不一定比无调整好，但本文结论（第一定理）直接回应并解决了这个质疑——它在Negi (2019)的工作中已经证明，当估计POMs而非ATE时，无交互项的饱和回归（即本文说的separate RA）绝对不差于（asymptotically no worse than）无调整。因此，Freedman的预警被精确地化解（即，对ATE而言可能有陷阱，但对单个POM而言没有）。各部分逻辑自洽，无内部理论冲突。

二、最小内核 / 核心数学问题¶

第一步：符号、模型、可观测数据¶

符号：
- T：处理水平数量（离散有限，T ≥ 2）。处理变量 G ∈ {0, 1, …, T-1}，代表个体被分配到的组。
- Y：可观测结果。潜在结果：Y(0), Y(1), …, Y(T-1)，即个体分别接受每个处理时的结果。
- 目标 estimand：θ* = (E[Y(0)], E[Y(1)], …, E[Y(T-1)])ᵀ。这是一个长度为T的向量。
- X：协变量向量（可观测，维度d）。作为回归调整的输入。
- n：全样本量。
- 样本：可观测数据由独立同分布(i.i.d.)的随机三元组 {(Yi, Gi, Xi)}_{i=1}^n 组成。
- 子样本量：对于处理组g，有 ng = Σᵢ 1(Gi=g)。
- 潜在结果的均值：E[Y(g)]。
- 不可观测量：对于任意个体，最多只能观测到其G对应的那一个潜在结果（Y(G)）。Y(g) 对于g≠G是潜伏的。识别它需要随机分配假设。
- 随机分配假设（关键）：G ⟂ Y(0), Y(1), …, Y(T-1)（即处理分配与所有潜在结果独立）。这是全文立论的基石。注意，它不要求条件于X的独立性，因为我们不需要估计倾向得分。有了这个假设，E[Y(g)] = E[Y | G=g]，即处理组g中可观测结果的期望，是直接识别的。但我们可以利用X来降方差。
模型：
- 无模型设定：本文的核心识别是一个非参数条件（只是随机分配），没有任何参数模型用于识别E[Y(g)]。回归调整模型（线性、Logistic等）只是用来提升效率的辅助工具（working model），不是数据生成机制。因此，不存在“模型对”/“模型错”的问题在识别层面，但它在效率层面有关键影响。
- 线性RA（核心模型）：对每个处理组g，我们假设存在一个线性投影模型（不是真实数据生成机制）： E[Y|G=g, X] ≈ Xᵀ βg。更准确地说，我们并不假设这个线性模型是正确的，而是在最小二乘意义下（population least squares）定义参数 βg = argmin_E[(Y - Xᵀb)² | G=g]。这个“线性投影系数”是我们实际要估计的辅助参数。pooled RA则类似，定义β_pool = argmin_E[(Y - Xᵀb)²]（全样本上的投影）。
可观测数据：研究者现有的每一条数据是 (Y_i, G_i, X_i)。其对应的潜在结果是不可观测的，除了与G_i相同的那个。想要但观测不到的是E[Y(g)]。我们通过随机分配假设把它转化为可观测量：E[Y(g)] = E[Y | G=g]。

第二步：最小内核（二值处理的最简特例）¶

为了理解本文的核心，我们先看最简单的情况：只有两个处理组，T=2（如G=0: 对照；G=1: 处理）。

最小设定：随机实验。我们估计两个潜在结果均值 θ_0 = E[Y(0)], θ_1 = E[Y(1)]。随机分配保证 θ_0 = E[Y|G=0], θ_1 = E[Y|G=1]。
无调整估计量（β₀ = β₁ = 0）：这是最原始的方法：ˆθ_0 = (1/n₀) Σᵢ: G=0 Yᵢ；ˆθ_1 = (1/n₁) Σᵢ: G=1 Yᵢ。其方差为：Var(ˆθ_0) = σ²₀/n₀，其中σ²₀ = Var(Y|G=0)；类似地有σ²₁/n₁。
Separate线性RA估计量：我们分别在每个组内做Y对X的回归，得到斜率ˆβ₀和ˆβ₁。然后构造回归调整估计量：
- ˆθ₀_sep = (1/n) Σᵢ [1(Gᵢ=0) (Yᵢ - Xᵢᵀ ˆβ₀) + (1/n) Σᵢ Xᵢᵀ ˆβ₀] = (1/n) Σᵢ [1(Gᵢ=0) Yᵢ + (1/n) Σᵢ Xᵢᵀ ˆβ₀ - (1/n) Σᵢ 1(Gᵢ=0) Xᵢᵀ ˆβ₀]。注意，这个表达式比简单的均值更复杂。它的核心想法是：对于每个处理组，用回归残差（[Y_i - X_iᵀ ˆβ_g]）加上全样本协变量均值处的预测值（(1/n) Σᵢ Xᵢᵀ ˆβ_g）。关键是在做平均时，整个样本都用于估计预测均值，从而降低了方差。
Pooled线性RA估计量：在全样本（不分处理组）上做Y对X的回归，得到单一斜率ˆβ_pool。然后构造：
- ˆθ_g_pool = (1/n) Σᵢ [1(Gᵢ=g) (Yᵢ - Xᵢᵀ ˆβ_pool) + (1/n) Σᵢ Xᵢᵀ ˆβ_pool]。这里对两组的调整是相同的（使用同一个ˆβ_pool）。
最小内核结论（本文核心结果在二值处理下的退化）：
- Theorem 1（特例）：在二值处理下，Separate RA的渐近方差不大于无调整估计量的渐近方差。即：AVar(ˆθ_g_sep) ≤ AVar(ˆθ_g_mean)。等号成立当且仅当在子组g上，Y的条件期望与X无线性关系（即β_g = 0）。
- Theorem 2（特例）：Separate RA严格优于Pooled RA，除非β₀ = β₁（即两组Y对X的线性投影斜率完全相同）。直观上，如果两组斜率不同，用一个共同的斜率进行拟合，结果会为两组的预测均值带来额外的偏差（Bias，但在随机实验下不影响一致性，只增方差），从而导致方差更大。这个定理是全新的贡献，即使在二值处理下也没有被明确证明过，是打开多处理组秘密的钥匙。

所以，就是这样一个简单直观的“分别回归 vs. 合并回归”的比较，在二值处理的微尘展开后，提供了全局性的理论洞见。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在随机实验且处理组数T ≥ 2的设定下，研究了分别对每个处理组进行回归调整（separate RA）与将所有处理数据合并后只进行一次回归调整（pooled RA）这两种策略在估计所有潜在结果均值向量时的渐近效率差异。
核心工具/方法：主要基于 M-estimation 和 Delta method 的经典渐近理论，对separate RA、pooled RA和非线性RA估计量进行联合推断。关键数学工具是渐近方差矩阵（asymptotic variance matrix）的解析比较，不涉及任何高维或半参非标准技术。
主要结论：
- ① 线性RA：Separate RA的渐近方差（协方差矩阵）在正半定（Loewner）序意义下，严格不大于（优于或等于）无调整的（子样本均值）估计量。Separate RA的渐近方差严格小于Pooled RA，除非各组的线性投影斜率完全相同。
- ② 非线性RA：对于一大类非线性条件均值模型（如Logit, Probit, Poisson等GLM），只要满足“每个处理组的条件均值函数被各自单独估计”（separate estimation）这一条件，即使模型被任意误设（misspecified），所得POM估计量仍然是一致估计（Consistent）。

关键设定与假设¶

设定：随机实验，处理水平 T ≥ 2。总体和目标群体不做任何特殊假定。样本为 i.i.d.。
关键假设（在第二节基础上补充）：
1. 随机分配（最强假设）：与潜在结果独立，已足够识别所有POMs，不需条件独立性（CIA）。这是全文立论的基础。它允许我们在处理组内直接使用Y的均值。
2. 有限二阶矩：对所有g，Var(Y|G=g)和Var(X|G=g)存在且有限。这确保了渐近方差可定义。
3. 回归调整模型的线性/可识别：对于线性RA，每个子组内X的协方差矩阵（在子组内）是满秩的，以保证最小二乘系数β_g可以被唯一定义和估计。这只是一个常规的正则条件。
4. 对于非线性RA的“一一致估计”条件：作者引入了一个新的概念——“Consistent Estimation Condition”(CEC)，它是比参数模型正确设定更宽松的条件。其核心是：只要对每个处理组分别实施一个“正确的M-估计问题”（即目标函数在总体上是唯一定义的），那么即使该目标函数来自于一个错误设定的参数模型，所得的POM估计量也一致。这本质上是M-estimation在“错误模型”下的一致性。
5. 相比已有文献：假设没有放松。随机分配是强假设，但本文的主体贡献就是在在这个强假设下精炼效率理论，而非放松它。Freedman 关注的是同一设定下的“陷阱”；本文通过证明separate RA的“从不差于”属性直接解决了陷阱。相比半参数方法对倾向得分的额外假设（POS, overlap）以及对回归模型的特定形式，本文的假设（只需要随机分配、区分处理组、有限二阶矩）是最简单的计算最直接的。

主要结果¶

论文有3个核心定理和一个推论：

定理1：（线性RA，separate优于无调整）
- 陈述：对于每个潜在结果均值θ_g，采用separate RA的估计量ˆθ_sep_g，其渐近方差不大于（在矩阵Loewner序意义下）仅采用子样本均值的估计量ˆθ_mean_g（即无调整）。且对于所有g，等号成立当且仅当E[Y|G=g, X]是常数（即X对Y无预测力）。
- 直觉：separate RA的预测部分（Xᵀβ_g）吸收了可被X解释的Y的变异，从而各方差来源均被消减。只要X与Y相关，即β_g ≠ 0，就带来严格方差降低。
- 必要条件：β_g ≠ 0 且 Var(X|G=g) 非退化。
定理2：（线性RA，separate优于pooled）
- 陈述：对于全体潜在结果均值向量θ，separate RA的渐近方差协方差矩阵严格小于pooled RA的双变量渐近方差协方差矩阵，除非β₀ = β₁ = … = β_{T-1}（所有处理组斜率完全相同）。
- 直觉：当各组斜率不同时，pooled RA为了用一个共同的斜率去拟合差异化的关系，会引入一个“拟合偏差”——这个偏差在随机分配下虽然不影响一致性，但会增加预测均值的方差，从而导致整个estimator的方差增大。而separate RA完美地避免了这个问题。
- 解决的技术难点：比较两个向量估计的渐近方差矩阵的Loewner序需要解析其对应对角元和非对角元。非对角元（不同处理的POM估计量之间的协方差）在pooled RA时会更复杂，因为贡献来自同一个全样本回归。作者通过精心构建的Delta method公式，直接用分块矩阵运算展示了严格不等式成立的条件。
定理3 + 推论1：（非线性RA的一致性）
- 陈述：设 ˆθ_g 是使用一个非线性条件均值模型（广义线性模型，GLM）得到的POM估计量。假定这个模型被“基于子组的正确M-估计”（即对g组单独进行该模型的拟似然估计）。则即使该非线性模型被完全误设（模型无法准确捕捉Y和X的任何平均关系），ˆθ_g 仍然是E[Y|G=g]的一个一致估计。
- 直觉：这个定理的妙处在于，它把一致性从“模型正确”重新定位到“行为正确”（即M-estimation的目标函数在总体上是针对该子组唯一条件均值来定义的）。关键在于，M-estimation在参数模型错误时仍能给出 “某个总体参数” 的一致估计；而在这个随机实验设定下，通过巧妙的结构，这个“某个总体参数”恰好与目标POM一致。它不依赖于任何关于Y|X的模型假设——完全是一场符号运算的胜利。
- 必要条件：估计步骤必须“分开做”（separately），即对每个g单独拟合参数；模型必须可被写为某个已知link函数g(·)的逆形式，且满足拟似然（quasi-likelihood）的正则条件（即二阶矩矩阵是信息矩阵）。Logit、Probit、Poisson、Gamma等所有指数族成员都自动满足。

证明路线与技术技巧¶

整体路线：
1. 定义estimator：对于separate RA，ˆθ_g = (1/n) Σᵢ [1(Gᵢ=g) Yᵢ + Xᵢᵀ ˆβ_g - 1(Gᵢ=g) Xᵢᵀ ˆβ_g]。对于pooled RA，ˆθ_pool_g类似但使用全样本 ˆβ_pool。
2. M-estimation形式：将ˆθ_g视为某个M-estimator ˆµ的g-th分量。ˆµ满足一组矩条件（moment conditions），包括：
  - 子组内Y的样本均值（辅助条件）。
  - 子组内最小二乘的正交条件（E[ X (Y - Xᵀβ_g) | G=g ] = 0）。
  - 子组内协变量均值的条件（直接用样本均值作为对E[X|G=g]的估计）。这是一个经典的“两步法”M-estimation：先估计β_g（第一步），再估计θ_g（第二步）。
3. 计算渐近方差：利用Δ-method或M-estimation se理论（在Masterov & Negi 2023预印本基础上），将展开放到联合矩条件的方差上，得到ˆθ各分量之间的联合渐近方差公式。分离别RA、pooled RA、无调整三种情况列出解析表达式。
4. 比较矩阵：将这三个方差-协方差矩阵相减，证明差矩阵是半正定（定理1）或正定（定理2）的。关键操作在于使用 Block-matrix Schur complement 和协变量差分向量 (X - E[X|G=g]) 的二次型。
5. 非线性推广：利用Quasi-MLE的“一致估计条件”定理（Gourieroux, Monfort, & Trognon, 1984; White, 1982）和信息不等式，论证即使模型高度误设，由于随机分配，目标函数（对数拟似然）的总体最大化唯一解恰为θ_g。证明其关键一步是：拟似然得分函数的期望为零的条件在随机分配下自然满足，与模型正确否无关。
关键跳跃点：
- 跳跃点1：定理2中比较separate和pooled RA的方差。初看起来，两个方差公式非常相似。关键在于，pooled RA的方差中包含了跨组成分之间的协方差项（cov(ˆθ_g, ˆθ_h) for g≠h），这些协方差在separate RA中实际上是零（因为不同子组之间的残差和预测项独立或近似独立）。作者利用矩阵差分的正定性定理，将问题转化为证明一个由协变量条件方差和斜率差分（β_g-β_pool）组成的二次型是严格正定的。一旦斜率不同，这个二次型便严格正，从而整个方差矩阵差正定。
- 跳跃点2：非线性RA中“一致估计条件”的明确刻画。许多读者直觉上以为非线性模型误设意味着所有估计都不可靠。作者引入了条件期望函数的“可分离性”——当我们对每个处理组分别估计一个（可能错误的）函数，最终我们平均的是 这个函数在中心点的值。由于随机分配，这个平均值的期望正好等于E[Y|G=g]，而与函数本身形式无关。这需要函数满足一个额外的条件（比如被平滑性、可微分、以及估计方程的正交性），但指数族自动满足。
技术技巧点名：
- Delta method / M-estimation 理论：这是整个渐近推断的底。
- Block-matrix Schur complement：用于简化并证明定理2中的方差差结构。
- Population least squares几何：用于理解为什么β_g ≠ β_pool会导致pooled效率下降。
- 拟似然（Quasi-likelihood）理论：处理非线性RA时所依赖的“即使模型错误，在特定正交条件下参数仍一致”的定理。
- 泛函Delta方法（Functional Delta Method）：隐式使用，因为估计量的表达式是样本均值和回归系数的光滑函数。

真实例子与应用¶

有真实例子。 论文使用了加利福尼亚州石油泄漏预防项目（Oil Spill Prevention Program）的支付意愿（WTP）下限估计数据（数据来自Bishop et al., 2014的Choice Experiment）。

使用数据/场景：受访者被随机分配到五个不同的“预防力度”处理组（从“0%预防”到“100%预防”），每个组下受访者被询价一个随机金额（cost）。分析目标是在不同预防水平下，估计人群的接受该成本的意愿的下限（即“下限平均WTP”）。
怎么实现：作者将此处理水平视为多处理组（T=5），将询价金额作为协变量X。在每个处理组内，用Logistic回归（或线性回归）对Y（是否愿意支付，二值）与X进行回归拟合。然后带入本文提出的separate RA结构来估计每个组的ˆθ_g。
得到什么结果：前结论与直观相符：预防力度越高，WTP下限越高。然而，核心发现是效率提升：与直接使用子样本均值和pooled RA相比，separate RA在大多数处理水平上显著缩小了估计量的置信区间（最多缩小约15%），从而使得更精细的处理效应比较在统计上显著，而使用前两种方法则无法达到。例如，从“50%预防”到“75%预防”的WTP增长，在separate RA下统计显著，但在pooled或无调整下不显著。
这个例子想说明什么：该例子展示了本文理论结果的现实效用。它生动说明，在同一个随机实验数据上，仅仅是改变“回归调整是分别做还是一起做”这个计算选择，就能获得可观的效率增益，从而使得更细微的政策比较变得可行。

🔎 结论是否比证明窄¶

是的，存在明显收缩。论文定理全部建立在固定维数、低维参数（如线性模型或固定参数的GLM）的回归调整上。作者在第5节“Extensions”中提到了“可以考虑机器学习方法作为回归函数”，但没有给出任何理论保障：对于分离使用随机森林、boosting等非参数模型，作者只是推测（conjecture）“可能会进一步改进效率”，但未证明其一致性和渐近方差公式。这引出了关键的开放问题。此外，定理2的“严格优于”是建立在线性RA这一具体设定上的。如果从半参数效率理论看，最优的非参数单独回归（NP separate regression）得到的半参数有效估计量，其渐近方差一定不劣于任何线性separate RA，但其非线性（甚至是非参数）形式在现有理论下未被处理。所以，论文的漂亮结论仅限于“分别用了正确类别的参数模型（指数族）或线性模型，且各自是独立的”的瞎子估计策略，而非更一般的算法无关的效率界。

四、开放问题¶

非参数回归调整的效率界：本文证明了在线性RA下，separate优于pooled。半参数效率理论下的最优非参数separate RA的效率界是什么？它能达到什么水平？与本文给出的线性RA的方差差距应当被量化。扎根处：第四节（Extensions）末尾“我们推测类似的结果对非参数方法也成立……但这留待未来研究”。
严格定理2在非线性场景下的推广：定理2严格比较了线性RA；其“separate优于pooled”的直觉是否对任意非线性RA（包括拟合GLM或Generalized function形式）的渐近方差也成立？对非线性模型，其渐近方差公式通常不是线性投影的简单扩展，且系数β的自相关结构会改变方差的表达式。需要严格的矩阵不等式分析。扎根处：第3.3节的定理3（proved consistent）没有与pooled非线性RA做方差比较。
处理组不独立时的潜在协方差：本文假设处理水平是完全互斥的。在实际设计中，可能存在多重处理（multiple treatments），它们不必互斥（如一个病人同时接受介入A和介入B）。此时，各潜在结果之间存在相关结构，而本文的separate RA的结构是建立在独立子组上的。如何处理这种多重处理的依赖结构下的效率增益？ 扎根处：引言指出其考虑“more than two treatment levels”，但处理水平是互斥的。
高维协变量/稀疏性下的延伸：本文要求X的维度固定且n>>d。如果协变量维度d大于样本量n（即使经过随机化，也会削弱回归的识别能力），在高维稀疏设定下，separate RA能否通过Lasso、Post-Lasso等方法来实现效率提升？此时，对每个处理组单独做Lasso是否比全样本pooled Lasso更好？随机分配是否会使高维调节更容易？扎根处：本文引用了Belloni et al. (2014, 2017) 但并未将他们的Post-Lasso纳入主要理论框架。

最后提醒：要确认某条是否为真gap，可以同时去读Bowers et al. (2015) 用随机实验做“分而治之分析”的论调，或者Aronow & Middleton (2013) 对分离估计的批评。以及，不妨将本文的结尾与 Bloniarz et al. (2016) (高维Lasso回归调整的随机实验) 联合阅读——Bloniarz 实际上证明了在随机实验下，如果不对系数施加稀疏性惩罚，Lasso的分离估计可能代价高昂。这可以与本文对非线性一致的论证产生有趣的张力。

Maintained by 陈星宇 · Homepage · Source on GitHub