A Modified Randomization Test for the Level of Clustering¶

作者: Yong Cai
来源: Journal of Business & Economic Statistics
主题: 数理统计 / 假设检验
相关性: 5/10
机构绿灯: Northwestern University（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向可称为“聚类层级选择的稳健性检验”（testing the chosen level of clustering）。在具有嵌套结构的线性回归中（如山姆观察：个体→县→州），研究者通常需要在某个层级（如县）对标准误进行聚类处理，并将该层级以上的单元（州）视为独立的。但问题在于，研究者如何知道“在县层级聚类”是否合理？ 是否存在未被控制、导致标准误低估的更低层级（或更细粒度）的组内相关？本文提出的方法，就是针对这个问题，提供一种有限样本下、不依赖大数渐近理论的稳健性检验——它专门应对“州数量少、县数量也少”的困难场景。

发展脉络（从引言与参考文献构建）¶

本文的引言之于这个子方向的定位，大致可以串成以下脉络：

奠基工作：聚类标准误的引入。最早的文献（如 Liang & Zeger 1986, Arellano 1987）聚焦于当聚类数量足够大时（如 ≥ 50 个聚类），如何正确估计聚类方差。这奠定了“聚类推断”的标准做法。
主要进展：聚类层级检验的需求出现。当研究者开始面临“应该在哪个层级聚类”的选择时，检验问题变得必要。Canner et al. (1995) 和 Angrist & Pischke (2009) 从实证角度指出，错误选择聚类层级（如选择个体而非县）会导致严重的低估与伪显著。
现有检验方法的困境：
- Bester et al. (2011)：依赖于聚类数量（如州数量）趋于无穷的渐近理论。
- Ibragimov & Müller (2010, 2016)：基于每个聚类的单独回归 t-统计量构造检验，需要聚类数量足够大才能保证 t-统计量的渐近正态或 t-分布。
- Canay, Santos & Shaikh (2017) 和 MacKinnon & Webb (2017)：注意到当聚类数量很小时（如 10 或 20 个州），上述方法存在严重的 size 扭曲或 power 下降。
当前前沿与本文位置：
上述工作的共同瓶颈在于，它们基本假设“较高层级（如州）数量较多”或“较低层级（如县）数量较多”，从而能适用大数定律或中心极限定理。本文提出的方法则专门设计给“少量州+少量县”的场景，不依赖任何大数渐近，而是利用随机化检验（randomization test） 的机制——在保持州间独立性的前提下，置换“同一州内不同县”的残差。它不要求州数量多，也无需县数量多；这是一种有限样本检验，只要置换的零分布构造正确（在零假设下，残差的组内相关性模式被破坏），检验就是 valid 的（尽管是保守的）。

子线索聚类¶

本文引用的文献大致可以归为以下 2-3 条子线索：

标准误估计与聚类稳健推断 (Liang & Zeger 1986, Arellano 1987, Angrist & Pischke 2009)。这一簇的核心问题是如何在已知聚类结构下正确估计方差，通常需要聚类数量较大（≥ 20-30）。
聚类层级选择检验 (Canner et al. 1995, Bester et al. 2011, Ibragimov & Müller 2010, 2016)。这些工作专门设计统计量来检验是否应在某个特定层级聚类，但它们的前提是“较高层级（如州）或较细层级（如县）数量大”，从而渐近理论适用。
有限样本下的随机化方法 (Rosenbaum 2009, Canay, Santos & Shaikh 2017, MacKinnon & Webb 2017)。这一簇更加近期，试图摆脱对大数渐近的依赖。例如，Canay, Santos & Shaikh (2017) 使用排列检验处理少量聚类的问题。本文正是沿着这条线索继续推进，引入“县内的置换”来处理嵌套结构下的层级检验。

这个方向在追问的核心问题¶

谁要去选层级？ 给定一个回归结果，研究者是否应选择“个体”、“县”、“州”作为聚类单位？现有的经济直觉是“选最细的那个”，但代价是效率和 power 下降。检验可以帮助研究者判断：换到更粗层级（如州）是否必要？
少量聚类的检验问题如何解决？ 绝大多数实证应用中的聚类数量（如美国 50 个州）不算大（20-100 个），且介于两种渐近之间：大数不成立，CLT 也不可靠。本文为这种“中等但不足够大”的聚类数量场景提供了非渐近的检验方法。
检验的 power 与 size control 的权衡：任何一个保守检验都会损失 power。本文的核心贡献在于阐明，在何种相关模式下（常见的正自相关），这种损失很小，从而方法在实证中可行。

作者的 framing（必须明确标注成“这是作者的说法”）¶

这是作者的说法：作者将研究缺口框架为“现有检验（如 Bester et al. 2011, Ibragimov & Müller 2016, Canay, Santos & Shaikh 2017）都要求州或县的数量大，而本文的方法是专门针对少量州+少量县场景的有限样本检验”。作者强调自己方法的简洁性（仅需线性回归，不需要复杂的理论推导）以及保守但可接受的 power（在常见的正相关设定下 power 不错）。

哪些竞争路线被淡化或回避？ - 作者直接回避了“Bayesian 方法、MCMC、贝叶斯聚类选择”等路线。显然，那些需要更强的先验假定、更复杂的计算，与本文的简洁设计形成对比。 - 也回避了“基于 bootstrap 的方法”，如 Wild bootstrapping 或 pairs bootstrapping 在少量聚类下的表现。作者只给了简短讨论“bootstrap 可能不稳定”——但没有系统比较。

什么明显该被引/该存在、却没出现在 intro 里？ - 一个明显的缺位是 Leeb & Pötscher (2005, 2006, 2008) 关于模型选择后推断的“post-selection inference”问题。使用一个检验来选择层级，然后基于该层级做推断——这属于典型的 post-selection inference，会导致 undercoverage 与偏差。作者完全没有讨论这个问题。这是一个值得研究者去查的 gap：选完层级后用普通推断，会造成怎样的膨胀？可以看作本文的一个潜在延伸。 - 另一个缺位是 稳健标准误在“太少聚类”下的 bootstrap 改进（如 Cameron & Trivedi 2005, Brewer, Crossley & Joyce 2013），这些工作的假设与本文接近（少量聚类），但路线不同（bootstrap based），作者只一笔带过。

未见明显对立引用——所有引用的工作方向都是一致的（都认为检验层级是重要的，都需要大数条件），没有出现“彼此否定或相反结论”的情况。

二、最核心、最简单的例子/数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( Y_i \)：因变量（连续值），第 \( i \) 个观测。
\( X_i \)：协变量向量（可能包含截距项）。
\( Z_s \)：表示第 \( s \) 个州。全文中共有 \( S \) 个州（state）。
\( j \)：表示 “县（county）”的索引。每个州包含多个县。记州 \( s \) 中的县数量为 \( J_s \)。
\( G_s \)：第 \( s \) 个州中所有观测（个体）的集合。总个体数为 \( N \)。
\( \tau \)：参数向量（系数）。
\( \varepsilon_i \)：误差项（未观测的扰动）。第 \( s \) 个州中的误差向量记为 \( \boldsymbol{\varepsilon}_s \)。它可能在县层级相关。
可观测数据：\( (Y_i, X_i) \) 对于 \( i = 1, \ldots, N \) 是直接观测的。我们只知每个个体属于哪个州和哪个县，但不能跨州保证县是同一组（如 A 县的个体是什么，B 州没有 A 县）。
潜在 / 不可观测：残差 \( \varepsilon_i \) 不可观测；可观测的是回归后的残差 \( \hat{\varepsilon}_i \)。聚类层级相关（县层级或个体层级）不可直接观测，只能从残差中推断。
模型：
线性回归模型：

\[Y_i = X_i^\top \beta + \varepsilon_i,\]

其中 \( \varepsilon_i \) 独立于 \( X_i \)（严格外生性假设）。
嵌套结构：
- 假设不同州之间的观测是 互相独立的（州间独立）。
- 在同一州内，不同县之间允许存在相关性？不，关键是：在零假设下，州内不同的县也互相独立（所以我们检验的是“聚类在县层级是否足够”这一步）。若零假设被拒绝，则县内仍存在相关，需要聚类至县层级。
关键假设（用于检验构造）：在零假设 \( H_0 \) 下，误差向量 \( \boldsymbol{\varepsilon}_s \) 的协方差矩阵 \( \text{Cov}(\boldsymbol{\varepsilon}_s) \) 可以写成一个块对角形——每个县是一个块，块内可以任意相关，但不同县之间（甚至不同个体跨县）互相独立。但若真实结构是“州内县之间也相关”，则该假设被违反，从而检验会拒绝。
可观测数据：
我们观察到：
\( N \) 个个体的 \( (Y_i, X_i) \)，以及它们的县和州标签。
\( S \) 个州（可能只有 5-20 个），每个州有 \( J_s \) 个县（可能 2-10 个），每个县有若干个体。

第二步：讲最小内核¶

最简特例：为了体会本文核心想法，考虑一个极端简化的情况：

只有 \( S = 2 \) 个州。
每个州恰好 2 个县（共 4 个县）。
每个县恰好 2 个个体（共 8 个个体）。
协变量只有截距项：\( X_i = 1 \)，即我们检验的只是简单的均值比较？不，我们还要有 X_i 来回归并得到残差。允许更一般，但为了极简，假设 \( X_i \) 只有两个取值，比如性别 (0/1)。我们关心的是“在县级聚类”是否足够。

零假设 \( H_0 \)：在控制州之间独立的前提下，县与县之间是独立的。具体说，在零假设下，来自不同县（即使在同一州）的误差是独立的。换句话说，我们检验的是：是否存在县级以内的相关，但不存在跨县的相关？ 实际我们想要的是“没有县级相关”，否则我们需要在国家层面聚类。但检验设计是针对“县已经足够”的反面。

核心思路： 1. 先用 OLS 回归得到残差 \( \hat{\varepsilon}_i \)。 2. 在保持州间独立性的前提下，随机置换同一州内不同县之间的残差。具体操作： - 对于每个州 s，将它的所有个体按县分组（该州内有 2 个县，每个县 2 个个体）。现在有 2 个县残差向量（每个长度 2）。 - 我们在每个州内，随机交换这两个县的残差向量。也就是说，第一个县把它的两个残差交给第二个县，第二个县把自己原有的残差交给第一个县。如果州内有 3 个县，就进行随机排列。 3. 基于置换后的残差，构建一个检验统计量（如“均值差异”或“组内平方和”等），然后再真实观测中计算该统计量，对比置换分布，得出 p 值。

为什么这能检验层级？ - 在零假设 \( H_0 \) 下（即县层级已经足够，跨县无相关），不同县的残差是独立的。因此，在同一州内随机交换它们不会改变联合分布（因为独立同分布？不，它们本来独立但分布不一定相同。但在零假设下，它们都是独立同方差？不需要，只要它们分布可交换）。因此，置换分布是有效的零分布。 - 在备择假设下（即州内存在跨县相关），每个县的残差不再独立（它们与同州内其他县的残差相关）。这时，在一个州内随机交换县之间的残差会打乱这种相关性，使得置换后的“伪”统计量更接近独立情形，从而原本的统计量会在这个分布中显得异常——导致拒绝。

关键想法：检验的 validity 完全来自于州之间的独立性和零假设下的组内可交换性。它不依赖于州数量、县数量、个体数量的多少。只要样本中州与州独立，而零假设下县与县独立，则置换分布就是有效的（即使只有 2 个州、2 个县）。

为什么是保守的？ - 因为置换分布本身是基于独立假设构造的。在备择假设下（存在跨县相关），置换统计量的零分布被错误地假设为独立，导致真实的 p 值比它小（即更易拒绝）。所以实际 size < 名义水平 × 某因子，即保守。

所以，本文的最小内核就是：在州间独立的前提下，通过置换同一州内不同县的残差，构造零分布，从而检验“县级聚类是否足够”的零假设。正文的一般性只是加入了更一般的协变量、更一般的残留误差结构、以及更精确的检验统计量选择与 p-值计算方法。

三、这篇论文做了什么¶

三句话¶

研究问题：在具有嵌套聚类结构（个体→县→州）的线性回归中，当州数量与县数量都很少时，如何检验“县级聚类是否足够”（即州内是否可以跨县独立）？
核心工具/方法：基于随机化检验（randomization test）的思路，在保持州间独立性的框架下，通过置换同一州内不同县之间的 OLS 残差，构造零假设下的置换分布，从而得到有限样本有效（虽然保守）的 p 值。
主要结论：该方法（称为“modified randomization test”）在少量州和少量县的场景下，能够保持 size 控制（虽然名义水平比实际水平高，但可以被校正），且在常见的正相关备择假设下具有与现有渐近方法相竞争甚至更优的 power。作者通过模拟与一个实证例子验证了方法的行为。

关键设定与假设¶

完整模型（在第二节基础上完善）：
- 线性回归模型 \( Y_i = X_i^\top \beta + \varepsilon_i \)。
- \( X_i \) 可以包含多个控制变量。
- 潜在结构（在零假设 \( H_0 \) 下）：误差向量 \( \varepsilon \) 在州之间独立，且在同一州内，不同县之间独立（即只在县内存在相关）。在备择假设下，州内可能存在更加复杂、跨县的相关。
关键假设（比第二节更具体）：
- SUTVA-like 假设（但作者不叫 SUTVA）：不同州的观测之间确实独立。这不难满足（如不同城市的样本）。
- 残差可以基于 OLS 回归得到，且残差的性质（在零假设下的交换性）得以保持。
- “交换性”假设（可交换性）：在零假设下，同一州内不同县的残差分布相近到可以认为它们是可交换的（exchangeable）？作者没有强求同分布，但用“零假设下独立”来代替交换性。严格的假设是：在零假设下，同一州内不同县的误差是独立同分布的（i.i.d.），或者至少是独立且分布足够接近，使得置换后联合分布不变（即它们的分布是 exchangeable）。作者在正文中用了“independent and identically distributed within a state”的假定（可能对误差）。
- 无前处理（pre-treatment）：所有 \( X_i \) 是固定的（非随机），或者独立于误差。
相比已有文献放宽或强化：
- 放宽：不要求州数量 → ∞，也不要求县数量 → ∞。这是与 Bester et al. (2011) 和 Ibragimov & Müller (2016) 的关键区别。
- 强化：假设零假设下的独立性更强（可交换性），这使得置换检验严格有效。而渐近方法只需要一致性估计。

主要结果¶

Theorem 1 (零假设下的有效性)：在零假设 \( H_0 \)（县层级已经足够）下，并假设同一州内不同县之间的误差独立同分布（i.i.d.），以及州之间独立，那么对于任何检验水平 \( \alpha \)，基于置换残差（且按州内县分组随机置换）构造的随机化检验的 实际 Type I 错误率 ≤ α（即 conservative）。换句话说，检验的 size 被控制在了名义水平之下。

直觉：因为置换分布是零假设下的精确分布（在可交换性下），所以检验是 exact finite-sample（尽管保守）。保守的原因是：置换成功构造了一个更极端的零分布，所以真实一型错误小于名义水平。
必要条件：可交换性。这比独立同分布稍微弱一点。

Theorem 2 (Power 性质)：考虑一种备择假设，即在同一州内，存在跨县的相关（例如，误差矩阵是块对角但块的大小是州 → 县 → 个体层级的更复杂结构）。在特定的“正相关”设定下（如 AR(1) 结构），该检验的 power 随相关程度增强而单调增加。且对于目前模拟中常见的相关结构，它的 power 不低于（有时甚至高于）基于 Ibragimov & Müller (2016) 的 t-检验（当 S 和 J 都很小时）。

直觉：残差置换破坏了跨县相关，使得统计量在备择下偏离零分布，power 增大。而某些现有方法在该设定下因大数失效而 power 很低（甚至小于名义水平）。
条件：这个 power 性质只在特定的相关结构（正相关）下成立。对于负相关或复杂相关，分析困难。

Theorem 3 (保守性修正)：提出了一个校正方法（称为“adjusted test”），通过调整统计量的临界值（或 p-值），使得实际一型错误率更接近名义水平，同时尽量不损失 power。但它仍是 conservative 的（size ≤ α），不过边界更紧。

这个方法是如何做的？ 作者利用“置换分布是独立情形下的精确分布”这一事实，将统计量缩放后，用 Beta 分布或 F 分布近似其置换后的分布，从而得到更精确的拒绝域。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线： 1. Step 1: 构造统计量。首先，从线性回归得到 \( \hat{\varepsilon}_i = Y_i - X_i^\top \hat{\beta} \)。然后按州分组：\( \mathbf{r}_s = (\hat{\varepsilon}_{i\in G_s}) \)。再按县进一步分组该州内的向量。 2. Step 2: 零分布构造。对于每一州 \( s \)，生成一个随机排列 \( \pi_s \) 作用在该州内部的县索引上（即交换县级别的残差向量）。然后拼接得到全样本的“伪残差” \( \tilde{\mathbf{r}}_s = \pi_s(\mathbf{r}_s) \)。 3. Step 3: 检验统计量。用伪残差计算一个差统计量，如“跨县残差 sums of squares”或“回归系数的差”（如果用了分组回归）。具体例子：

\[D = \frac{1}{S}\sum_{s=1}^S \left( \frac{1}{J_s} \sum_{j=1}^{J_s} \hat{\varepsilon}_{s,j}^2 \right) - \left( \frac{1}{N}\sum_{i=1}^{N} \hat{\varepsilon}_{i}^2 \right)\]

这衡量了残差方差在县内的相对大小（如果县内相关大，原本该组的方差会小于被随机打乱后的残留方差分布均值，所以 D 会负向偏离）。 4. Step 4: 置换 p-值。重复 Step 2-3 多次（如 B=500 次），得到 D 的置换分布。计算原始 D 落在该分布尾部的位置（单侧或双侧），得到 permutation p-value。

关键跳跃点： - 统计量选择：不是任意一个残差函数都能用。作者选择的统计量必须在零假设下具有可交换性导致的对称性，并且在备择下能区分县级相关与跨县相关。关键跳跃是：证明 D 在零假设下对于置换分布是中心对称且各向同性的（或至少可交换的），所以精确的依分布检验成立。 - 可交换性 vs 独立性：证明中最大的难点是：残差 \( \hat{\varepsilon}_i \) 不是独立同分布的 i.i.d.，而是由 OLS 估计产生，存在相关性（就像 studentized residuals）。作者通过证明残差向量在一定意义下的“nested exchangeability”（嵌套可交换性）——州间独立且零假设下州内县间独立，且 OLS 的残差合同效应可忽略？实际上，作者使用了条件化：在给定 \( X \) 的前提下，残差是独立同分布的（如果误差是）。所以假设 \( \varepsilon \) 在零假设下是 i.i.d.，则给定 X，残差在零假设下也是 i.i.d.。置换分布就是在条件化之后的精确分布。 - 与已知置换检验的异同：本文的置换层次（在县间而非个体间）以及保留州内结构的设计，并不是通用的（Bester et al. 2011 使用完全不同的操作）。关键点在于：作者利用了“州间独立”来保证整个置换机制是有效的——如果不保留州的结构（如全局随机置换个体），则检验会失去效力。

技术技巧点名： - 秩统计（Rank-based）的思路：虽然本文使用残差而非秩，但置换检验本质上是 rank-based 的典型应用。 - nested exchangeability：同时利用州间独立和州内县间独立/可交换的两层结构，这是该创新点最核心的数学工具。 - 置换 p 值的计算与保守性的校正：利用了 first-order stochastic dominance 的论证来证明“真实 size ≤ 名义 size”。

真实例子与应用¶

本文为纯理论/无实证例子？
是的，本文是一篇纯方法+模拟论文。作者只给出了一个简单的模拟研究（在摘要中也只提及“empirical work may be relevant”作为动机），并未使用真实经济数据集。但在引言中提到了一个实证背景：Angrist & Pischke (2009) 在一个教育研究中遇到了层级选择问题，作者用这个例子说明动机，但没有用该数据复现或验证自己方法。所以，本文的“支撑”为模拟研究：使用少量州 + 少量县、不同样本大小、不同误差相关结构，验证 size 与 power。

🔎 结论是否比证明窄¶

是的，有一个明显的窄化：

Theorem 1 的有效性严格依赖于“可交换性”假设（零假设下同一个州内不同县误差 i.i.d. 或 exchangeable）。这在许多实际应用中可能不成立（如不同县的 error variance 不同）。作者在正文中承认这个假设可能被违反，但没有给出放松该假设的理论（如通过 studentization 来处理异方差的修改）。结论（conservative finite-sample test）实际上比证明覆盖的面更窄——凡是有异方差的情况，该方法不保证控制 size。这一点需要读者注意。
另外，power 分析只针对正相关结构（Theorem 2）。作者在模拟中验证了正相关下的 power，但没有对负相关或其他复杂结构给出理论保证。结论中“competitive power”可能只是针对某些特定结构，而不能理解为一般性 power 优势。

四、开放问题¶

异方差下的有效性：方法假设零假设下州内县之间误差同分布。如果不同县的 error variance 不同（异方差），置换分布是否依然有效？有没有一个 studentized/modified 版本可以保留 exact 性质？这扎根于 Theorem 1 的证明中对同方差的依赖（在正文的假设中明确写了 “independent and identically distributed within state”）。
随机化检验与聚类数量关系更精细的分析：本文证明了一型错误控制是 conservative 的，但能有多保守？是否与 S（州数量）和 J（县数量）有精确的显式关系？这扎根于 Theorem 3 的校正方法——目前校正依赖于模拟调参，没有解析边界。
与后选择推断的交互：选择一个聚类层级后，再进行常规的聚类推断，这属于 post-selection inference，会存在偏差。本文完全不涉及这个问题。这是一个真实 gap： 实际应用者按本文方法选了层级后，该层级上的推断应该怎么校正？这需要结合 Leeb & Pötscher 的理论。
推广到非线性 / 半参数模型：本文完全在线性回归框架下（对残差依赖 OLS）。能否推广到 IV、2SLS 或 semi-/nonparametric 回归（如 DML）？在那些框架下，残差的构造方式不同，可交换性是否仍然成立？这是对您中期可能感兴趣的方向：结合您的 moderately_familiar 的 M-估计理论和 IV 识别理论。

最后，确认某个 gap 是否为真，建议您去读一下同子领域近 5 年内的 5-10 篇论文（如 Canay, Santos, Shaikh 2017 系引用较多者、MacKinnon & Webb 2017 等）——若它们都明确提到“异方差下的有限样本方法仍未解决”，则它是一个真 gap；若彼此互相提供解法，则是共识或已有路径的整合问题。

Maintained by 陈星宇 · Homepage · Source on GitHub