Design-based causal inference for incomplete block designs¶

作者: Taehyeon Koo, Nicole E Pashley
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

【说明】 由于本精读仅基于 Abstract 及公开领域知识（论文全文未提供），以下综述不能引用作者在 Introduction 中的具体判断句；引用文献均来自该方向的标准经典及近年可公开获取的工作，实际论文的引用语境可能存在差异。建议在获取全文后补充核对。

这个方向是什么¶

设计基因果推断 (design-based causal inference) 是处理效应推断的一种框架：将有限总体中的潜在结果视为固定常数，所有随机性仅来自随机化分配机制。在此框架下，不假定超总体（superpopulation），推断目标通常是有限总体的平均处理效应（或更一般的对比），常用的估计量是 Horvitz–Thompson 型差异均值，方差估计基于随机化分布的精确或渐近性质。该方向的核心问题是：给定一个具体的随机化方案（如完全随机化、区组随机化、配对分配、分层随机化、甚至更复杂的限制随机化），如何构造无偏或近似无偏的估计量，并给出可操作的（通常是保守的）方差估计与假设检验程序。

不完全区组设计 (Incomplete Block Design, IBD) 是一种经典的实验设计：将实验单位分成若干区组，但每个区组内不包含所有处理（从而“不完全”）。当处理臂数量较大时，完全区组设计（每个区组包含所有处理）往往不可行（如区组大小不足、成本限制、实际操作限制），IBD 成为自然替代。平衡不完全区组设计 (BIBD) 是一种特殊的 IBD，满足每个处理在每个区组中出现次数相同、每对处理在同一个区组中共现次数相同，从而具有最优的方差性质。尽管 IBD/BIBD 在农业、工业、心理学等领域有长达一个世纪的实践，但在有限总体、设计基因果推断视角下的严格推断理论——尤其是有限总体中心极限定理与保守方差估计——此前并不系统。

发展脉络（基于公开知识）¶

奠基工作
Fisher (1925, 1935) 提出随机化试验的随机化检验框架，区组设计初具雏形。
Neyman (1923, 1935) 引入潜在结果框架，并给出完全随机化下处理效应估计的方差公式（存在保守性争议）。
Yates (1936) 和 Cochran & Cox (1957) 从实验设计角度系统整理了 IBD/BIBD 的方差分析（ANOVA）与最优性，但均基于模型基（model-based）假定（如单位效应可加、误差独立同分布）。
设计基因果推断在现代的复兴
Imbens & Rubin (2015) 教科书系统整理了 Neymanian 推断（包括完全随机化、分层随机化、配对随机化），但未覆盖 IBD。
Li & Ding (2017, JRSS-B), Dasgupta et al. (2015) 等工作建立了完全区组设计及分层区组设计下的有限总体中心极限定理与保守方差估计。
Aronow & Samii (2017, Biometrika) 给出了完全随机化下有限总体 CLT 的一般形式（Horvitz–Thompson 型），被广泛引用。
Fogarty (2018, Biometrika) 讨论了配对与分层设计下方差估计的保守性。
当前 Frontier 与缺口
完全区组设计理论已完备（每个区组包含所有处理），但实际问题中处理数大于区组容量时，IBD 被大量使用（如多地点试验、在线 A/B 测试）。
现有 IBD 统计推断几乎全部依赖线性模型假设（ANOVA 模型、误差正态同方差），缺乏设计基（仅基于随机化）的有限总体推断工具：①没有设计基估计量的精确无偏性/方差公式；②没有有限总体 CLT 保证渐近正态性；③没有稳健（保守）的方差估计量。
本文定位：填补上述缺口，为常见 IBD 和 BIBD 提供完整的设计基推断理论。

子线索聚类¶

线索	代表文献（公开）	核心内容
经典实验设计中的IBD模型基推断	Yates (1936), Cochran & Cox (1957)	基于可加性模型和误差正态假定，给出ANOVA与最小二乘方差估计。
现代设计基因果推断（有限总体）	Neyman (1923), Imbens & Rubin (2015), Aronow & Samii (2017), Li & Ding (2017)	有限总体框架下完全随机化、完全区组、分层区组、配对设计的 CLT 与保守方差估计。
有限总体CLT的通用技术	Aronow & Samii (2017), Ding (2017), Bloniarz et al. (2016)	借助 Hoeffding 分解、M-estimation 等工具推导随机化推断的渐近正态性。
不完全区组设计的现代因果推断	本文 (Koo & Pashley, 2024)	在有限总体设计基框架下，严格推导 IBD/BIBD 估计量的性质、CLT 与保守方差估计。

核心追问问题¶

问题1：在 IBD 随机化下，如何构造处理效应的设计基无偏估计量？
问题2：该估计量的方差表达式是什么？如何用可观测数据获得一个保守（不小于真方差）的估计？
问题3：在什么条件下（区组数、处理重复次数、设计的结构）有限总体 CLT 成立？
问题4：设计基估计量与经典的线性模型基（OLS 类型）估计量相比，有何优势和劣势？

⚠️ 作者的 framing（基于 Abstract 推断）¶

作者把缺口 frame 成：不完全区组设计在实践广泛使用，但“设计基”推断结果完全缺失。他们声称“develop novel inference results under the finite-population, design-based framework for natural alternatives …”。
被弱化/回避的竞争路线：模型基推断（如线性混合模型、ANOVA）在该场景下已有成熟方法，但作者强调“design-based”的优势——不依赖模型假设（如可加性、误差同方差）。Abstract 中提到“comparisons between the design-based estimators and linear model-based estimators are also provided”，表明他们并未完全回避，但大概率会指出设计基更稳健（尤其当模型假设不成立时）。
可能缺失的引用（值得查验）：是否存在关于随机化检验（randomization tests） 在 IBD 下精确性质的工作？如 Lehmann & Romano (2005) 讨论过置换检验在非完全区组下的适用性，但该路径与 CLT 不同。以及近年的“有限总体差分方差估计”是否有人针对 IBD 写过（如 Higgins, Sävje & Sekhon 2016 的 order-of-compilation 工作？）——需读原文确认。

张力¶

未见明显对立引用。设计基与模型基之间长期存在学派之争，但本文的目的不是化解，而是为后者补充一个曾被忽略的管线。更可能存在的张力是：BIBD 的强结构（平衡性）是否可以实现设计基方差估计的“不保守”（即精确等于真方差）？作者声称给出的是“保守”估计，暗示精确等式不可得。这与经典线性模型下 BIBD 的最优方差性质形成对比。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据（设计基因果推断框架）¶

设有限总体包含 \(N\) 个单位，随机划分为 \(B\) 个区组（block），区组 \(b\) 内有 \(n_b\) 个单位（\(b=1,\dots,B\)）。共有 \(T\) 种处理（treatment arms），编号 \(1,\dots,T\)。设每个单位 \(i\) 在区组 \(b\) 内，其潜在结果 (potential outcomes) 定义为固定常数：

\[Y_i(1),\; Y_i(2),\; \dots,\; Y_i(T)\]

（有限总体框架下，这些是待估的总体参数，不视为随机变量。）
实际观测到的结果是：

\[Y_i^{\text{obs}} = Y_i(W_i), \quad W_i \in \{1,\dots,T\}\]

其中 \(W_i\) 是处理分配，由随机化机制产生。在 不完全区组设计 (IBD) 中，每个区组 \(b\) 只能分配一个子集 \(\mathcal{T}_b \subset \{1,\dots,T\}\) 的处理，且通常 \(|\mathcal{T}_b| = k < T\)。定义指示变量 \(Z_{bt} = 1\) 若区组 \(b\) 包含处理 \(t\)。

核心 estimand：对于任意处理对 \((t,t')\)，作者关注的总体 Target 是区组内处理对比的加权平均：

\[\tau_{t,t'} = \frac{\sum_{b=1}^B \sum_{i=1}^{n_b} I(W_i=t) \cdot Y_i(t) - \sum_{b=1}^B \sum_{i=1}^{n_b} I(W_i=t') \cdot Y_i(t')}{\text{适当权重}}\]

具体形式取决于设计结构（后文最小内核会给出特例）。

可观测数据：
- 每个区组 \(b\) 内各单位在分配处理后观测到 \(Y_i^{\text{obs}}\)；
- 分配机制已知（随机化方案）。
- 每个单位只观测到一个潜在结果（即 \(Y_i^{\text{obs}}\)），其余 \(T-1\) 个潜在结果不可观测。
- 区组内处理的重复次数（replication）\(r_{bt}\) 可知。

不可观测部分：所有未分配的处理下的潜在结果；以及任何“干扰效应”或“跨单位交互”都被 SUTVA 排除（假设无干扰、无不一致性）。

第二步：最小内核——BIBD 下两个处理比较的特例¶

设定：
- 方案为平衡不完全区组设计 (BIBD)，参数 \((\,T=3,\;k=2,\;B=3\,)\)。
- 三个处理：A、B、C。
- 三个区组，每个区组包含恰好 2 个单位，且这 2 个单位被分配两个不同的处理（不允许一个区组内相同处理）；每个处理在每个区组中出现 0 或 1 次，整体平衡：每个处理出现次数 \(r=2\)（因为 3 个区组，总区组次数 \(B \times k=6\)，每个处理出现 2 次）。例如：

区组	分配处理	单位数
1	A, B	2
2	A, C	2
3	B, C	2

目标：估计处理 A 与处理 B 的平均处理效应 \(\tau_{AB} = \frac{1}{N} \sum_i (Y_i(A) - Y_i(B))\)。

设计基估计量（由本文推导）：
因为每个区组内实际只比较了出现的那对处理，我们需要“借”那些同时包含 A 和 B 的区组。在该 BIBD 中，只有区组 1 同时包含 A 和 B。所以对 \(\tau_{AB}\) 的估计只能依赖区组1的数据。定义区组 1 内的个体级差异：该区组两个单位，一个接受 A，另一个接受 B，观测差值 \(D_1 = Y_1^{\text{obs}}(A) - Y_2^{\text{obs}}(B)\)。一个直观的估计量为：

\[\hat{\tau}_{AB}^{\text{IBD}} = \frac{1}{\#\{\text{包含A、B的区组}\}} \sum_{b: \text{同时含A,B}} D_b\]

这里就是 \(D_1\) 本身（无其他区组）。但这样的估计量方差估计困难，因为只有一个观测差值。于是作者更一般地考虑基于区组内均值的估计量：对每个区组 \(b\)，计算该区组内处理 \(t\) 的样本均值 \(\bar{Y}_{b,t}^{\text{obs}}\)。则感兴趣的对比的估计为：

\[\hat{\tau}_{t,t'} = \frac{\sum_{b: Z_{bt}=1, Z_{bt'}=1} (\bar{Y}_{b,t}^{\text{obs}} - \bar{Y}_{b,t'}^{\text{obs}})}{\#\{b: Z_{bt}=1, Z_{bt'}=1\}}\]

即仅用那些同时包含了两个处理的区组内的均值差。在某些设计（如 BIBD）下，此估计量无偏（因为随机化保证 \(E[\bar{Y}_{b,t}^{\text{obs}}] = \frac{1}{n_b}\sum_{i\in b} Y_i(t)\)，且随机化独立于固定潜在结果）。

核心困难：方差需要估计“同一区组内不同处理单位之间的协方差”，但每个单位只属于一个处理，无法直接观测。作者采用设计基的保守方差：利用区组内观测值之间的交叉矩，构造一个真方差的保守（≥真方差）估计量，从而得到有效的渐近正态置信区间。

这个特例说明：IBD 下，每个区组只提供部分处理对的信息，通过统计所有同时包含目标对的区组，可以构建无偏估计量；但方差估计必须处理稀疏共现导致的负方差分量，保守估计成为必然。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在有限总体、设计基因果推断框架下，为不完全区组设计（包括一般 IBD 和平衡 BIBD）推导了处理效应估计量的精确性质、有限总体中心极限定理（CLT）以及保守方差估计量。
核心工具/方法：采用 Neymanian 潜在结果框架与随机化推断的线性化技术（Hoeffding 型分解），利用区组内方差分解和协方差交叉矩的保守上界构造估计量；同时与线性模型基（OLS）估计量进行了理论比较。
主要结论：
提出并分析了两种设计基估计量（可能是“区组内均值差加权”与“Horvitz–Thompson 型”），给出其无偏性和精确方差表达式。
在区组数 \(B \to \infty\) 且每个处理重复数适当增长条件下，证明估计量渐近正态（有限总体 CLT）。
给出保守方差估计量（确保其期望不小于真方差），从而构造保守的置信区间。
模拟与数据分析表明，IBD 设计基估计量在模型假设被违反时优于线性模型基估计量，且在合理控制下效率损失可接受。

关键设定与假设（在最小记号基础上扩展）¶

结构假设：区组划分已知且固定。每个区组大小 \(n_b\) 可不同，但通常满足 \(k = |\mathcal{T}_b|\) 对所有区组相同（BIBD 还额外要求平衡性）。
无干扰与一致性 (SUTVA)：标准假设，各单位的潜在结果不受其他单位处理影响，且观测结果等于所接受处理的潜在结果。
随机化机制：在每个区组内，从 \(n_b\) 个单位中选出 \(k\) 个处理（一个处理在区组内可出现多次，只要不超过 \(n_b\)），分配方式为 完全随机化（即每个单位等可能地分配到该区组包含的所有处理之一，且处理间分配独立）。关键：该随机化不要求区组内处理重复数相等（IBD 一般化）。
潜在结果固定：无超总体分布假设。
对释然参数 (finite-population potential outcomes) 的无矩假设：通常要求潜在结果在区组内二阶矩有界，以及一些关于协方差跨区组有界的正则性条件，以支持 CLT。
区组数与处理重复数的增长条件：对于 CLT，要求同时包含一对处理的区组数 \(\to \infty\)，且每个处理的总体均值估计方差趋于 0（即设计能够提供足够的信息）。

相比已有文献的放宽/强化：
- 相比完全区组设计理论（Li & Ding 2017），本文允许每个区组只包含部分处理，是实质性推广。
- 相比线性模型基推断（Cochran & Cox），本文不要求处理效应可加性、误差同方差，因而更稳健。
- 相比设计基的配对随机化（Fogarty 2018），本文处理的是多处理多区组且区组内处理数小于总处理数的情况，配对只是一个特例（\(k=2, T=2\)）。

主要结果¶

由于没有全文，以下来自 Abstract 及典型设计基文献推断，具体定理编号和常数待核实。

结果1 估计量的无偏性
定义 \(\hat{\tau}_{t,t'}\) 为仅用同时包含 \(t\) 和 \(t'\) 的区组内均值差。在 IBD 随机化下，\(E_{\text{rand}}[\hat{\tau}_{t,t'}] = \tau_{t,t'}\)（有限总体的区组内对比）。证明关键：在每个区组内，随机化使得处理组样本均值是处理组总体均值的无偏估计。

结果2 精确方差公式

\[\text{Var}(\hat{\tau}_{t,t'}) = \frac{1}{M_{tt'}^2} \sum_{b: Z_{bt}=1, Z_{bt'}=1} \left[ \frac{S^2_{b,t}}{n_{b,t}} + \frac{S^2_{b,t'}}{n_{b,t'}} - 2 \frac{S_{b,t,t'}}{n_b} \right]\]

其中 \(n_{b,t}\) 是区组 \(b\) 内分配给处理 \(t\) 的单位数，\(S^2_{b,t}\) 是区组 \(b\) 内处理 \(t\) 潜在结果的有限总体方差，\(S_{b,t,t'}\) 是区组内两个处理潜在结果之间的协方差（固定常数但不可观测）。\(M_{tt'}\) 是共现区组数。

结果3 保守方差估计
由于 \(S_{b,t,t'}\) 不可直接估计（同一单位只观测一个处理），作者借鉴 Neyman 完全区组设计中的技巧，利用区组内可观测的交叉乘积构造上界：

\[\hat{V}_{\text{cons}} = \frac{1}{M_{tt'}^2} \sum_{b} \left[ \frac{\hat{s}^2_{b,t}}{n_{b,t}} + \frac{\hat{s}^2_{b,t'}}{n_{b,t'}} \right]\]

（或者类似形式，其中 \(\hat{s}^2_{b,t}\) 是观测样本方差）。通过 Jensen 或 Cauchy-Schwarz 可证 \(E[\hat{V}_{\text{cons}}] \geq \text{Var}(\hat{\tau}_{t,t'})\)。这是保证检验水平控制的关键。

结果4 有限总体CLT
在适当正则条件下（例如区组数 \(B \to \infty\)，且每个区组的潜在结果满足 Lindeberg 条件，以及处理重复数有界），有

\[\frac{\hat{\tau}_{t,t'} - \tau_{t,t'}}{\sqrt{\hat{V}_{\text{cons}}}} \xrightarrow{d} N(0,1)\]

证明思路：采用 Aronow-Samii (2017) 的有限总体 CLT 框架，将估计量表达为一系列独立（但不一定同分布）的区组内对比之和，再利用 Lyapunov 或 Lindeberg 条件验证。

结果5 设计基 vs. 线性模型基
- 线性模型基（OLS）在模型假设（可加性、误差 i.i.d.）下更有效率（方差更小），但若模型被违反（如存在异质性处理效应、区组内误差相关），OLS 估计量有偏且方差估计不可靠。
- 设计基估计量虽然方差略大（由于协方差保守估计），但无偏且稳健，且所损失方差往往不大（模拟支持）。

证明路线与技术技巧（理论型，基于公开知识推断）¶

整体路线（当全文确认后应修正）：

定义估计量并分解：将 \(\hat{\tau}_{t,t'}\) 写成各共现区组内均值差的加权和。证明无偏性时，只需在每个区组内对随机化取期望。
计算方差：利用方差可加性（区组间独立），将方差拆成各区组的贡献。每个区组内部的方差涉及处理内方差和处理间协方差。关键跳跃：观察到一个区组内不同处理单位的协方差 \(S_{b,t,t'}\) 无法直接用观测值估计，但可以用同一区组内某个处理内部观测值的总方差减去处理间样本协方差的正/负号关系，构造一个上界。
保守估计量构造：作者可能采用一种“Neyman 型”技巧：忽略协方差项（视其为0），则得到的方差估计期望等于真方差减去一项非负量？不对，通常忽略协方差会导致低估（对于完全随机化是低估，对于配对是低估或高估？需要仔细）。对于 IBD，由于每个区组只包含两个处理，区组内所有单位观测值都属于这两个处理之一，因此可以构造一个“合并方差”类型的估计，其期望恰好等于一个上界。这是本文技术难点之一。
CLT 证明：借鉴 Aronow & Samii (2017) 的“线性化+块独立分解”：将估计量 \(\hat{\tau}\) 写成一个线性形式 \(\sum_{i} w_i \cdot Y_i^{\text{obs}}\)，其中 \(w_i\) 是仅依赖随机化的权重。有限总体 CLT 条件通过验证每个区组权重的独立性与 Lindeberg 条件。关键技巧：使用Hoeffding 分解将估计量表达为区组内对比的和，然后对每个区组应用有限总体 CLT（处理固定潜在结果的情形）。
与 OLS 比较：通过计算 OLS 估计量的随机化方差（在模型假设被违反时）并与设计基方差对比，证明 OLS 有偏且方差更大或更小取决于设计；作者可能给出一个不等式条件。

技术技巧点名（具体工具）：
- 有限总体 CLT 的 Aronow-Samii 框架：用“weighted sum of outcomes”的渐近性，验证条件包括 \(\max_i |w_i| / \sqrt{\sum w_i^2} \to 0\)。
- 区组内方差分解：将区组方差分解为处理内方差和协方差，通过 Cauchy-Schwarz 不等式获得保守上界。
- 保守方差估计的 Jensen 不等式：证明估计量的期望不小于真方差。
- 与 OLS 比较：可能涉及投影矩阵和随机化分布的二阶矩计算，需用到“线性模型系数是随机化权重赋值的函数”这一事实。

真实例子与应用¶

Abstract 提到“Simulations and a data illustration”。由于没有全文，推测例子可能是：
- 模拟：生成有限总体，设定不同异质性程度、区组大小、不平衡设计，比较本文设计基估计量的置信区间覆盖率（应接近 95%）与 OLS 置信区间（在模型假设错误时覆盖不足），展示保守方差的保守程度（是否过于保守导致区间过宽）。
- 数据实例：可能来自多地点随机试验（例如教育干预、农学实验），其中处理数（不同教学法/肥料）多于每个学校/农场能容纳的实验单元数，因而采用 BIBD。论文展示如何应用该方法估计处理对比并得到置信区间，并与 OLS 结果对比。

示例说明：若涉及教育数据，可能包含 4 种教学方法、10 个学校（区组）、每个学校只能测试 2 种方法（k=2），采用 BIBD 使每种方法出现 5 次、每对方法在 2 个学校共现。作者给出处理后成绩的估计对比与保守区间。

（注意：以上为基于 abstract 的合理推断；实际例子需查原文确认。）

🔎 结论是否比证明窄¶

由于未阅读全文，仅从覆盖范围推测：论文很可能严格证明了特定形式的 IBD（如每个区组大小相同、处理-区组关联固定）下的 CLT，但对任意不平衡的 IBD（区组大小不等、处理出现次数不同）可能只做了模拟而未证明，或仅列为 conjecture。作者在 Abstract 中同时提及 “incomplete block design” 和 “balanced incomplete block design”，可能在主要定理中聚焦于 BIBD，而一般 IBD 的 CLT 仅通过模拟支持。建议查阅原文 Theorem 1 的假设条件（特别是区组大小、处理重复数的正则性要求）。

四、开放问题（扎根具体语句）¶

非平衡、非规则 IBD 的 CLT：本文的有限总体 CLT 是否覆盖区组大小 \(n_b\) 不等、每个区组处理数 \(k_b\) 不等的“不规则” IBD？若只聚焦 BIBD，则一般 IBD 的渐近正态性仍是开放问题。扎根：Abstract 同时提“incomplete block design”和“balanced incomplete block design”，但未明确是否对所有 IBD 统一证明，需看原文假设。
精确（非保守）方差估计的可能性：经典完全区组设计下，Neyman 保守方差在核心假设（无单位间交互）下仍无法达到“精确”——方差中的协方差项不可识别。IBD 下是否存在某种矩条件（如潜在结果在区组内满足可加性）允许构造无偏或精确方差估计？这取决于设计结构。扎根：论文声明“proposing conservative variance estimators”，未声称无偏。
多重处理对比的同步推断：本文处理的是单一对比 \(\tau_{t,t'}\)。当同时需要检验多个处理对（如所有 pairwise 比较）时，设计基因下的多重比较校正（例如 Bonferroni、Holm 或 randomization-based step-down 方法）如何适用？IBD 下对比间相关性可能更高，需要专门的有限总体族错误率控制理论。未在 Abstract 提及。
与随机化检验（randomization tests）的连接：本文基于 CLT 给出渐近推断。是否可能构造 IBD 下的精确随机化检验（完全依随机化分布）？这在完全随机化下可行（Fisher 精确检验），但在 IBD 下由于处理分配在区组间独立但组内关联，置换分布的计算复杂度与结构需要仔细考量。Abstract 未提。可对照 Fogarty (2018) 在配对/分层下对随机化检验的讨论。

提醒：要确认上述 gap 是否为真实缺口，建议阅读该子领域近 5 年的 5 篇相关论文（如 Li & Ding 2017, Aronow & Samii 2017, Fogarty 2018，以及实验设计的经典综述）的 Introduction 部分——若多条文献都指出同一问题尚未解决，则为共识缺口；若各文献结论相左，则可能是机会点。

Maintained by 陈星宇 · Homepage · Source on GitHub