Design-based theory for cluster rerandomization¶

作者: Xin Lu, Tianle Liu, Hanzhong Liu, Peng Ding
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：在随机化实验（尤其是集群随机化实验）的设计阶段，如何利用先验协变量信息剔除“不平衡”的随机化分配方案（即重随机化 / Rerandomization），并在纯设计视角（design-based，随机性仅来自处理分配而非抽样）下，严格建立重随机化后因果效应估计量的渐近理论、量化方差缩减，以及比较不同协变量平衡准则的效率优劣。当前该方向已形成较成熟的个体层面重随机化渐近理论体系，但集群层面的重随机化理论此前完全空白。

发展脉络 - 奠基工作：Morgan & Rubin (2012) 正式化了重随机化概念，提出在个体随机化中用 Mahalanobis 距离作为协变量不平衡度量，剔除不满足阈值 \(a\) 的分配方案。这确立了“设计阶段协变量平衡”的范式，但未给出渐近分布理论。 - 主要进展（个体层面渐近理论）：Li, Ding & Rubin (2018) 建立了个体层面重随机化的渐近理论，证明差值估计量的渐近分布为非正态的截断正态分布，并给出方差缩减因子；Li & Ding (2020) 将重随机化与回归调整统一在同一框架下，证明两者叠加“绝不伤害”渐近精度；Morgan & Rubin (2015) 引入分层 Mahalanobis 距离以处理协变量先验重要性分层。 - 集群实验的渐近理论（无重随机化）：Su & Ding (2021) 建立了集群随机化（无重随机化）下设计基渐近理论，比较了不同回归调整策略（个体数据、集群均值、集群总量）的效率，指出集群总量回归最优且协变量调整能提升效率。 - 当前 frontier 与本文位置：作者指出：“The existing design-based theory for rerandomization assumes that the treatments are assigned at the individual level (Morgan and Rubin, 2012; Li et al., 2018), leaving it unclear how rerandomization would theoretically work in cluster experiments.” 本文即填补此空白——将 Li et al. (2018) 与 Li & Ding (2020) 的个体重随机化理论推广至集群重随机化，并引入加权欧氏距离与分层 Mahalanobis 距离两种利用先验信息的方案进行比较。

子线索聚类 1. 重随机化渐近理论（个体层面）：Morgan & Rubin (2012) 定义框架 → Li et al. (2018) 给出渐近分布与方差缩减因子 → Li & Ding (2020) 统一重随机化与回归调整 → Li et al. (2017) 推广至因子实验。这一簇的核心是：在个体随机化下，重随机化使估计量渐近分布从正态退化为截断正态，方差缩减因子为 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\)。 2. 集群随机化设计基理论（无重随机化）：Su & Ding (2021) 建立集群总量回归的渐近最优性 → Schochet (2020) 讨论分组行政数据的设计基估计量 → Athey & Imbens (2017) 综述集群实验的计量方法。这一簇的核心是：集群总量回归 + robust SE 是集群随机化下的推荐分析程序。 3. 集群实验的约束随机化（应用与模拟）：Li et al. (2015, 2017a) 在群随机化试验中评估约束随机化（即重随机化的另一名称）的 Type I error 与 power，但仅基于模拟，无渐近理论支撑。

这个方向在追问的核心问题 1. 重随机化如何改变估计量的渐近分布？ 已知个体层面下渐近分布为截断正态；集群层面下由于集群间异质性及集群规模变异，渐近分布形态是否仍为截断正态？方差缩减因子如何表达？ 2. 如何利用协变量先验重要性？ 分层 Mahalanobis 距离（Morgan & Rubin 2015）与加权欧氏距离是两种自然方案，哪种在方差缩减上更优？ 3. 设计阶段重随机化与分析阶段回归调整如何叠加？ Li & Ding (2020) 在个体层面证明叠加“绝不伤害”；集群层面是否成立？推荐的分析程序是什么？

⚠️ 作者的 framing - 作者把缺口 frame 成什么：作者将缺口定位为“集群重随机化的渐近理论空白”，并强调公共卫生与社会科学中集群随机化+重随机化的实践普遍性（引用 Donner & Klar 2000; Hayes & Moulton 2017; Turner et al. 2017a,b 等），使本文成为“显然的下一步”。 - 哪些竞争路线被淡化或回避：作者未讨论基于模型（model-based）的协变量调整框架（如 GEE、混合模型），也未讨论最优重随机化设计（Kallus 2018 提出的最小化不平衡分配集，Johansson et al. 2021 讨论其推断问题）。作者仅在讨论 Fisher 随机化检验时提及 Johansson et al. (2021) 关于阈值 \(a\) 选择的建议，但未将其作为竞争设计方案。 - 什么明显该被引 / 该存在却没出现：Kallus (2018) 的最优分配设计在重随机化文献中是重要竞争路线，intro 中未出现；此外，半参数效率理论（如效率界、HOIF）在协变量调整效率比较中是自然参照，但 intro 未引用任何半参数效率文献。这两条是值得研究者去查的问题。

张力未见明显对立引用。Li & Ding (2020) 证明重随机化+回归调整“绝不伤害”渐近精度，而 Johansson et al. (2021) 指出追求“最优设计”（最小不平衡集）可能导致推断仅反映抽样不确定性而忽略随机化不确定性——这是设计目标与推断目标之间的张力，但本文未直接引用 Kallus (2018) 或深入讨论此张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(M\)：集群总数（有限正整数）。
\(n_i\)：集群 \(i\) 中的个体数（已知、可观测）。
\(N = \sum_{i=1}^M n_i\)：总个体数。
\(Z_i\)：集群 \(i\) 的处理分配变量，取值 \(1\)（处理）或 \(0\)（控制）。\(Z = (Z_1, \dots, Z_M)\) 为分配向量。
\(Y_{ij}(z)\)：集群 \(i\) 中个体 \(j\) 在处理 \(z \in \{0,1\}\) 下的潜在结果（不可观测）。
\(Y_{ij}^{\text{obs}} = Z_i Y_{ij}(1) + (1-Z_i) Y_{ij}(0)\)：可观测结果。
\(e_i = n_i / N\)：集群 \(i\) 的个体占比（已知、可观测）。
\(\tau\)：目标因果 estimand，本文定义为加权平均处理效应 \(\tau = \sum_{i=1}^M e_i \tau_i\)，其中 \(\tau_i = \frac{1}{n_i} \sum_{j=1}^{n_i} (Y_{ij}(1) - Y_{ij}(0))\) 为集群 \(i\) 的平均处理效应。
\(\hat{\tau}\)：差值估计量（未调整），定义为 \(\hat{\tau} = \sum_{i: Z_i=1} e_i \bar{Y}_{i}(1) - \sum_{i: Z_i=0} e_i \bar{Y}_{i}(0)\)，其中 \(\bar{Y}_{i}(z) = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij}(z)\) 为集群均值。
\(X_i\)：集群 \(i\) 的协变量向量（\(p\) 维），可包含集群层面协变量与个体层面协变量的集群均值。在设计阶段已知、可观测。
\(\hat{X}_t - \hat{X}_c\)：处理组与对照组协变量加权均值之差，定义为 \(\sum_{i: Z_i=1} e_i X_i - \sum_{i: Z_i=0} e_i X_i\)。
\(V\)：完全随机化下 \(\hat{\tau}\) 的渐近方差矩阵（或标量），\(V_{XX}\) 为 \(\hat{X}_t - \hat{X}_c\) 的渐近方差矩阵，\(V_{\tau X}\) 为 \(\hat{\tau}\) 与 \(\hat{X}_t - \hat{X}_c\) 的渐近协方差。
\(R^2\)：方差缩减因子中的关键量，定义为 \(R^2 = V_{\tau X} V_{XX}^{-1} V_{\tau X}^T / V_{\tau\tau}\)（标量情形下为 \(V_{\tau X}^2 / (V_{\tau\tau} V_{XX})\)），衡量 \(\hat{\tau}\) 与协变量不平衡的线性关联强度。
\(a\)：重随机化阈值（预设正数），决定接受分配方案的不平衡标准。
\(\Pr(\chi^2_{p+2} \le a)\)：截断正态分布的调整因子，源自 Li et al. (2018) 的方差缩减公式。

模型与数据生成机制 - 设计机制：首先进行集群完全随机化（等概率分配 \(M/2\) 个集群到处理、\(M/2\) 到控制）；然后计算协变量不平衡度量（如 Mahalanobis 距离 \(M(Z) = (\hat{X}_t - \hat{X}_c)^T V_{XX}^{-1} (\hat{X}_t - \hat{X}_c)\)）；若 \(M(Z) \le a\) 则接受该分配，否则拒绝并重新随机化，直至接受。此过程即为集群重随机化。 - 统计模型：无参数模型假设。潜在结果 \(\{Y_{ij}(0), Y_{ij}(1)\}\) 视为固定常数（有限种群视角），唯一随机源为分配向量 \(Z\)，其分布为在满足 \(M(Z) \le a\) 的分配集上的均匀分布。 - 可观测数据：研究者实际能观测到的是 \(\{(Z_i, X_i, Y_{ij}^{\text{obs}}) : i=1,\dots,M, j=1,\dots,n_i\}\)。潜在结果 \(Y_{ij}(1)\) 或 \(Y_{ij}(0)\) 中只能观测到其中一个（由 \(Z_i\) 决定），另一个为不可观测的潜在量，只能靠设计假设（如 SUTVA）与随机化机制进行识别与推断。

第二步：最小内核——最简特例（\(p=1\) 维协变量，等集群规模 \(n_i = n\)）

在 \(p=1\)（单一协变量）、等集群规模 \(n_i = n\) 的特例下，集群重随机化的核心数学问题退化为一维截断正态问题，与个体重随机化形式上相似但方差成分不同：

完全随机化下的渐近分布：当 \(M \to \infty\)，\(\sqrt{M}(\hat{\tau} - \tau)\) 依分布收敛到 \(N(0, V_{\tau\tau})\)，其中 \(V_{\tau\tau}\) 为集群间处理效应异质性导致的方差。
重随机化下的渐近分布：定义不平衡度量 \(M(Z) = (\hat{X}_t - \hat{X}_c)^2 / V_{XX}\)（一维 Mahalanobis 距离即平方不平衡）。重随机化接受 \(M(Z) \le a\) 的分配。此时 \(\sqrt{M}(\hat{\tau} - \tau)\) 的渐近分布为：
\[\sqrt{M}(\hat{\tau} - \tau) \mid M(Z) \le a \;\dot{\sim}\; (1 - R^2) \cdot N(0, V_{\tau\tau}) + R^2 \cdot \epsilon \cdot \sqrt{V_{\tau\tau}} \cdot L(a, 1)\]
其中 \(R^2 = V_{\tau X}^2 / (V_{\tau\tau} V_{XX})\)，\(\epsilon\) 为 \(\pm 1\) 的对称随机变量，\(L(a, 1)\) 为标准正态在 \(\chi^2_1 \le a\) 条件下的截断分布（即 \(|Z| \le \sqrt{a}\) 下的 \(Z\)）。
方差缩减因子：重随机化下 \(\hat{\tau}\) 的渐近方差为 \(V_{\tau\tau} \cdot (1 - R^2 \Pr(\chi^2_3 \le a))\)。注意这里维度参数是 3（即 \(p+2\)，\(p=1\) 时为 3），而非直觉上的 1 或 2——这是 Li et al. (2018) 的关键结论，源自截断正态二阶矩的计算。
与个体重随机化的区别：在个体重随机化中，\(V_{\tau\tau}\) 反映个体间异质性；在集群重随机化中，\(V_{\tau\tau}\) 反映集群间异质性（即 \(\tau_i\) 的方差与集群内均值变异的混合）。当集群规模不等时，\(V_{\tau\tau}\) 的表达式更复杂（涉及 \(e_i\) 的加权），但方差缩减因子形式不变——这是本文的核心发现：集群重随机化的方差缩减因子与个体重随机化形式完全一致，仅 \(R^2\) 的定义从个体协方差变为集群加权协方差。

为什么成立（证明直觉）：关键在于 \(\hat{\tau}\) 可分解为 \(\hat{\tau} = \tau + (\hat{\tau} - \tau_{\mid X}) + (\tau_{\mid X} - \tau)\)，其中 \(\tau_{\mid X} = E[\hat{\tau} \mid \hat{X}_t - \hat{X}_c]\) 为协变量不平衡对 \(\hat{\tau}\) 的线性投影部分。重随机化仅约束 \(\hat{X}_t - \hat{X}_c\)（使其落入 \(\chi^2_p \le a\) 的椭球），而残差 \(\hat{\tau} - \tau_{\mid X}\) 与 \(\hat{X}_t - \hat{X}_c\) 渐近独立（由有限种群 CLT 的联合正态性保证）。因此残差部分仍为正态，投影部分变为截断正态，两者混合即为上述分布。集群异质性仅改变 \(V_{\tau\tau}\) 的具体构成，不改变“投影+残差”的分解结构——这就是最小内核揭示的核心机制。

三、这篇论文做了什么¶

三句话 ①研究了集群随机化实验中叠加重随机化（cluster rerandomization）的设计基渐近理论问题；②核心工具是有限种群中心极限定理（Li & Ding 2017）与截断正态分布理论，并引入加权欧氏距离与分层 Mahalanobis 距离两种利用协变量先验重要性的重随机化方案；③主要结论是：集群重随机化下估计量的渐近分布为截断正态，方差缩减因子形式与个体重随机化一致；在最优权重与正交化协变量下，加权欧氏距离方案严格优于分层 Mahalanobis 距离方案；分析阶段推荐使用带 robust SE 的协变量调整 OLS。

关键设定与假设 - 集群重随机化定义：在集群完全随机化基础上，根据协变量不平衡度量（个体层面或集群层面）剔除不平衡分配，重复随机化直至接受。接受标准为 \(M(Z) \le a\) 或 \(W(Z) \le a\)（分别对应 Mahalanobis 距离与加权欧氏距离）。 - SUTVA：个体 \(ij\) 的观测结果仅依赖自身集群的处理 \(Z_i\)，无跨集群干扰，无多版本处理。 - 有限种群视角：潜在结果 \(\{Y_{ij}(0), Y_{ij}(1)\}\) 与协变量 \(X_i\) 视为固定常数，唯一随机源为 \(Z\)。 - 集群数量渐近序列：\(M \to \infty\)，集群规模 \(n_i\) 可变异但需满足有界性条件（\(\max n_i / \min n_i\) 有界）。 - 有限种群 CLT 条件：需满足 Li & Ding (2017) 的矩条件与正则条件（如潜在结果与协变量的四阶矩有界、集群规模不极端变异），以保证 \(\sqrt{M}(\hat{\tau} - \tau, \hat{X}_t - \hat{X}_c)\) 的联合渐近正态性。 - 分层 Mahalanobis 距离（Tiered Mahalanobis）：将协变量分为 \(K\) 层（tier），第 \(k\) 层含 \(p_k\) 个协变量，定义 \(M_k(Z) = (\hat{X}_{t,k} - \hat{X}_{c,k})^T V_{XX,k}^{-1} (\hat{X}_{t,k} - \hat{X}_{c,k})\)，接受标准为 \(\forall k: M_k(Z) \le a_k\)。 - 加权欧氏距离：定义 \(W(Z) = (\hat{X}_t - \hat{X}_c)^T \Gamma (\hat{X}_t - \hat{X}_c)\)，其中 \(\Gamma\) 为正定权重矩阵。最优权重为 \(\Gamma^* = V_{XX}^{-1/2} V_{\tau X} V_{\tau X}^T V_{XX}^{-1/2}\)（需先对协变量做正交化：\(\tilde{X}_i = V_{XX}^{-1/2} X_i\)）。 - 与已有文献的关系：相比 Li et al. (2018) 的个体重随机化，本文放宽了“个体层面分配”的假设，允许集群层面分配与集群规模变异；相比 Su & Ding (2021) 的集群随机化理论，本文增加了重随机化设计阶段的约束；相比 Morgan & Rubin (2015) 的分层 Mahalanobis，本文在集群设定下比较了其与加权欧氏距离的效率。

主要结果

定理 1（集群重随机化的渐近分布）：在集群重随机化（基于 Mahalanobis 距离 \(M(Z) \le a\)）下，\(\sqrt{M}(\hat{\tau} - \tau)\) 的条件渐近分布为：
\[\sqrt{M}(\hat{\tau} - \tau) \mid M(Z) \le a \;\dot{\sim}\; (1 - R^2) \cdot \mathcal{N}(0, V_{\tau\tau}) + R^2 \cdot \epsilon \cdot \sqrt{V_{\tau\tau}} \cdot L(a, p)\]
其中 \(L(a, p)\) 为 \(p\) 维标准正态在 \(\chi^2_p \le a\) 下的截断分布，\(\epsilon\) 为对称 \(\pm 1\) 随机变量。无条件渐近分布为上述分布的混合（\(\epsilon\) 的随机性被平均掉，分布更集中）。方差缩减因子为 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\)。
直觉：\(\hat{\tau}\) 分解为协变量投影部分与残差部分，重随机化仅约束投影部分使其落入截断椭球，残差部分不受约束仍为正态。
必要条件：有限种群 CLT 条件（矩有界、集群规模不极端变异）、\(R^2 < 1\)（否则 \(\hat{\tau}\) 完全由协变量决定，重随机化使分布退化为点）。
解决的技术难点：集群规模变异导致 \(\hat{\tau}\) 与 \(\hat{X}_t - \hat{X}_c\) 的方差-协方差矩阵涉及复杂的 \(e_i\) 加权，需证明联合渐近正态性仍成立且 \(R^2\) 的表达式可解析给出。
定理 2（加权欧氏距离 vs 分层 Mahalanobis 距离的方差缩减比较）：在正交化协变量 \(\tilde{X}_i = V_{XX}^{-1/2} X_i\) 与最优权重 \(\Gamma^* = \tilde{V}_{\tau X} \tilde{V}_{\tau X}^T\) 下，加权欧氏距离重随机化的方差缩减因子为 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\)；而分层 Mahalanobis 距离重随机化的方差缩减因子为 \(1 - \sum_{k=1}^K R_k^2 \Pr(\chi^2_{p_k+2} \le a_k)\)（其中 \(R_k^2\) 为第 \(k\) 层协变量对 \(\hat{\tau}\)的方差解释比例）。前者严格优于后者（方差缩减更大），因为 \(\Pr(\chi^2_{p+2} \le a) \ge \sum_{k=1}^K \Pr(\chi^2_{p_k+2} \le a_k)\) 当 \(a\) 与 \(a_k\) 满足特定关系时（且 \(R^2 = \sum R_k^2\)）。
直觉：分层 Mahalanobis 对每层独立约束不平衡，相当于在 \(p\) 维空间中用多个小椭球约束；而加权欧氏距离用单一椭球约束，能更有效地利用所有协变量的联合信息。
必要条件：协变量需先正交化（\(\tilde{X}_i\)），否则跨层协变量相关性会使分层约束产生冗余；权重需取最优 \(\Gamma^*\)，否则加权欧氏距离可能不如分层 Mahalanobis。
定理 3（重随机化 + 回归调整的叠加效率）：在集群重随机化设计下，若分析阶段使用协变量调整 OLS（基于集群总量回归，带 robust SE），则调整后估计量 \(\hat{\tau}_{\text{adj}}\) 的渐近方差为 \(V_{\tau\tau \mid X} \cdot (1 - R^2_{\text{adj}} \Pr(\chi^2_{p+2} \le a))\)，其中 \(V_{\tau\tau \mid X}\) 为调整后残差方差，\(R^2_{\text{adj}}\) 为调整后估计量与协变量不平衡的关联强度。叠加效果为：重随机化缩减设计阶段方差，回归调整缩减分析阶段残差方差，两者乘积效应叠加。
与 Li & Ding (2020) 的关系：结论形式一致，但本文在集群设定下证明，且指出 Su & Ding (2021) 的标准误公式在重随机化下过度保守（因忽略截断正态成分）。

证明路线与技术技巧

整体路线（5 步）：
Step 1：建立联合渐近正态性。证明 \(\sqrt{M}(\hat{\tau} - \tau, \hat{X}_t - \hat{X}_c)\) 在完全随机化下依分布收敛到联合正态 \(N(0, V)\)，其中 \(V\) 为 \(1+p\) 维方差-协方差矩阵。此步依赖 Li & Ding (2017) 的有限种群 CLT，需验证集群规模变异下的正则条件。
Step 2：条件分布分解。利用联合正态性，将 \(\hat{\tau}\) 分解为 \(\hat{\tau} = \tau + V_{\tau X} V_{XX}^{-1} (\hat{X}_t - \hat{X}_c) + \text{residual}\)，其中残差与 \(\hat{X}_t - \hat{X}_c\) 渐近独立。
Step 3：重随机化下的条件分布。重随机化约束 \(\hat{X}_t - \hat{X}_c\) 落入 \(\{M(Z) \le a\}\)（或 \(\{W(Z) \le a\}\)），使投影部分变为截断正态，残差部分仍为正态。两者混合即为定理 1 的分布。
Step 4：方差缩减因子计算。计算截断正态二阶矩，利用 \(\chi^2\) 分布性质得到 \(\Pr(\chi^2_{p+2} \le a)\) 因子。
Step 5：两种重随机化方案的比较。在正交化协变量与最优权重下，将分层 Mahalanobis 的方差缩减因子分解为各层贡献，与加权欧氏距离的全局贡献比较，利用 \(\chi^2\) 分布的卷积性质证明前者更优。
关键跳跃点：
引理：集群规模变异下的联合 CLT。这是最吃功夫的引理，因为 \(e_i = n_i/N\) 的权重使方差矩阵 \(V\) 的表达式复杂（涉及 \(\tau_i\) 的异质性、集群内均值变异、\(e_i\) 的变异）。作者依赖 Li & Ding (2017) 的一般性有限种群 CLT，但需验证集群框架下的正则条件——特别是当 \(n_i\) 变异时，\(e_i\) 的极端值可能导致 CLT 失效，作者通过假设 \(\max n_i / \min n_i\) 有界来规避。
引理：截断正态二阶矩的解析表达。需计算 \(E[Z^2 \mid \chi^2_p \le a]\)，其中 \(Z\) 为 \(p\) 维标准正态。此计算依赖 \(\chi^2\) 分布与正态分布的矩关系，结果为 \(\Pr(\chi^2_{p+2} \le a)\)——这是 Li et al. (2018) 的关键技巧，本文直接沿用。
技术技巧点名：
有限种群 CLT（Li & Ding 2017）：用于 Step 1，保证集群框架下联合渐近正态性成立。
截断正态分布理论：用于 Step 3-4，刻画重随机化约束下投影部分的分布形态。
\(\chi^2\) 分布矩计算：用于 Step 4，解析给出方差缩减因子中的 \(\Pr(\chi^2_{p+2} \le a)\)。
协变量正交化与最优权重：用于 Step 5，将协变量变换为 \(\tilde{X}_i = V_{XX}^{-1/2} X_i\) 使 \(V_{\tilde{X}\tilde{X}} = I_p\)，从而简化加权欧氏距离的比较。
条件期望分解：用于 Step 2，将 \(\hat{\tau}\) 分解为协变量投影与残差，利用渐近独立性分离重随机化的约束效应。

真实例子与应用 - 数据 / 场景：本文使用 Kenya HIV 集群随机化实验数据（Turner et al. 2017a,b 引用的数据），包含 \(M=28\) 个集群，每集群 \(n_i\) 从几十到几百不等，协变量包含集群层面（如地理位置）与个体层面（如性别比例）的变量。 - 怎么用上去：作者计算了完全随机化、集群重随机化（Mahalanobis 距离）、集群重随机化（加权欧氏距离）三种设计下 \(\hat{\tau}\) 的方差估计与方差缩减因子，并比较了未调整与协变量调整 OLS 的效率。 - 得到什么结果：加权欧氏距离重随机化 + 协变量调整 OLS 的方差缩减最大（相比完全随机化未调整，方差缩减约 60%）；分层 Mahalanobis 重随机化 + 协变量调整的方差缩减约 40%；完全随机化 + 协变量调整的方差缩减约 30%。这与定理 2 的理论预测一致。 - 想说明什么：验证理论结论（加权欧氏距离优于分层 Mahalanobis），展示集群重随机化 + 回归调整的叠加效率增益，并说明推荐程序（集群总量回归 + robust SE）在实际数据中的可行性。

🔎 结论是否比证明窄 - 定理 2 的严格条件：加权欧氏距离优于分层 Mahalanobis 的结论在正交化协变量与最优权重下严格证明，但作者在讨论中泛泛 claim“加权欧氏距离一般更优”——若协变量未正交化或权重非最优，此结论可能不成立，作者未给出反例也未讨论失效条件。 - 定理 3 的保守标准误：作者指出 Su & Ding (2021) 的标准误在重随机化下过度保守，但未严格证明本文推荐的 robust SE 在重随机化下的覆盖率是否精确达到 nominal level——仅基于渐近近似与模拟，未给出有限样本覆盖率保证。

四、开放问题（点到为止，扎根具体语句）¶

最优重随机化与推断的张力：Johansson et al. (2021) 指出追求最小不平衡分配集可能导致推断仅反映抽样不确定性；本文的阈值 \(a\) 选择仅提及“确保非平凡 power”，未讨论 \(a \to 0\)（趋近最优设计）时推断的失效模式。扎根点：Section 5 讨论 Fisher 随机化检验时引用 Johansson et al. (2021) 的建议，但未展开 \(a\) 的极限行为。
半参数效率界与重随机化的关系：本文的方差缩减因子 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\) 是否逼近集群随机化下的半参数效率界？若协变量维度 \(p\) 增大，\(\Pr(\chi^2_{p+2} \le a)\) 趋近 1，方差缩减趋近 \(1 - R^2\)——这与回归调整的方差缩减一致，但未与半参数效率界（如 HOIF 理论）比较。扎根点：intro 未引用任何半参数效率文献，定理 3 的方差缩减公式未与效率界对照。
集群规模极端变异下的 CLT 失效：本文假设 \(\max n_i / \min n_i\) 有界以保证 CLT；若集群规模有极端异质性（如少数集群含大量个体），有限种群 CLT 是否仍成立？方差缩减因子是否需修正？扎根点：定理 1 的正则条件（Assumption 1）要求集群规模有界比率，但实际数据中常出现极端变异。
模型化协变量调整与设计基调整的竞争：本文推荐设计基的 OLS + robust SE，但未与模型化方法（如 GEE、混合模型）在重随机化下的效率比较——Su & Ding (2021) 在无重随机化下比较了两者，但重随机化下模型化方法是否仍保守？扎根点：Section 5 仅讨论设计基调整，未涉及模型化框架。

要确认某条是否真 gap，建议读近期 5 篇集群实验设计 / 重随机化文献的 intro——若都指向 \(a\) 选择与效率界问题 = 共识（真 gap），若互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Design-based theory for cluster rerandomization¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论