Berry–Esseen bounds for design-based causal inference with possibly diverging treatment levels and varying group sizes¶

作者: Lei Shi, Peng Ding
来源: Annals of Statistics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1214/25-aos2569

核心问题与动机¶

本文解决的是Neyman随机化模型下，当处理水平数（treatment levels $K$）可能发散且各组样本量差异巨大时，设计因果推断的大样本理论失效问题。重要性在于：现代实验（如因子设计、多臂实验）中处理水平数往往很大，经典基于有限$K$和均衡样本的渐近理论不再适用。已有方法的不足在于：1) 缺乏在$K \to \infty$及样本量不均条件下的严格中心极限定理（CLT）保证；2) 当某些处理组没有重复观测（$n_k=1$）时，无法进行方差估计，导致因果效应的推断存在理论空白。

主要贡献¶

将设计因果推断中的估计量重构为线性置换统计量，为处理变量间的依赖结构提供统一的代数刻画。
利用Stein方法推导出估计量线性和二次函数的Berry-Esseen界限，给出了非渐近的收敛速率，填补了发散维数下随机化推断的理论缺口。
提出了在无重复观测（no replications）的多处理水平实验下，因果效应的新型方差估计量，解决了经典Neyman方差估计在$n_k=1$时不可定义的难题。
基于上述BE界限与方差估计，为发散维数因果效应的联合推断（如F检验、多重比较）提供了强理论保障。

方法框架¶

模型设定：Neyman随机化框架，潜在结果${Y_i(k)}$视为固定常数，随机性仅来源于处理分配机制$Z$。
关键假设：
随机化分配：处理分配服从某种置换分布。
发散维数与不均衡组：允许处理水平数$K \to \infty$，各组样本量$n_k$可以异质（varying）。
核心步骤：
将因果效应估计量（如样本均值差）表示为线性置换统计量 $S_n = \sum_{i=1}^N c_{Z_i} Y_i$ 的形式。
引入Stein方法，针对置换分布的依赖结构构造解耦合方程，量化估计量与正态分布的Kolmogorov距离。
针对无重复组（$n_k=1$），利用组间变异或其他处理水平的信息构造可识别的方差估计量。

主要理论结果¶

Berry-Esseen Bounds：证明了估计量的线性及二次函数到标准正态分布的Kolmogorov距离收敛速率为 $O(K^{3/2}/N)$（具体速率取决于$K$与总样本量$N$及组间样本量变异的阶），这是对经典$O(1/\sqrt{N})$速率在高维/不均衡设定下的推广。
方差估计的相合性：证明了在$K$发散且存在无重复组的情况下，所提方差估计量仍能相合地估计真实方差。
推断有效性：基于BE界限，严格保证了发散维数因果效应向量的Wald型检验统计量依分布收敛于$\chi^2$分布，且误差可控。

实验 / 数值仿真¶

摘要未详述具体仿真设计，但基于Annals of Statistics的发表惯例，实验部分通常包含： - 评估指标：经验覆盖率、第一类错误率。 - 主要发现：验证在$K$较大、组间样本量极度不均（含$n_k=1$）时，传统方法覆盖率崩溃，而本文基于BE bound的推断及新方差估计量能维持名义水平。

与研究者兴趣的关联¶

因果推断：直接推进了Neyman随机化推断在多处理/高维处理下的理论基础。
数理统计与假设检验：利用Stein方法推导置换统计量的Berry-Esseen bound，为高维因果效应的假设检验提供了非渐近的Type I error控制。
高维统计：处理水平$K$发散及因果效应维度发散的设定，属于高维统计范畴，其BE bound的推导技巧对高维随机排列矩阵/向量研究有借鉴意义。
可借鉴技巧：将因果估计量转化为线性置换统计量并使用Stein方法处理置换依赖结构，是处理复杂随机化设计（如聚类、网络干扰）下非渐近理论的极佳范式。

局限性与开放问题¶

非线性效应：目前理论主要针对估计量的线性和二次函数，对于非参数或更高阶的U-统计量型因果效应，置换分布下的BE bound仍属开放问题。
极端不均衡的下界：BE bound的收敛速率对组间样本量变异可能有隐式要求，若某些组$n_k$极小（如全为1），方差估计的稳定性及最小最大性值得进一步探讨。
超总体框架：本文严格遵循设计基础（固定潜在结果），如何将此非渐近BE bound推广至潜在结果也随机的超总体框架，是结合半参数效率理论的潜在方向。

Maintained by 陈星宇 · Homepage · Source on GitHub