Design-based theory for cluster rerandomization¶
作者: Xin Lu, Tianle Liu, Hanzhong Liu, Peng Ding
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 这个子方向要解决的根本统计问题是:在随机化实验(尤其是集群随机化实验)的设计阶段,如何利用先验协变量信息剔除“不平衡”的随机化分配方案(即重随机化 / Rerandomization),并在纯设计视角(design-based,随机性仅来自处理分配而非抽样)下,严格建立重随机化后因果效应估计量的渐近理论、量化方差缩减,以及比较不同协变量平衡准则的效率优劣。当前该方向已形成较成熟的个体层面重随机化渐近理论体系,但集群层面的重随机化理论此前完全空白。
发展脉络 - 奠基工作:Morgan & Rubin (2012) 正式化了重随机化概念,提出在个体随机化中用 Mahalanobis 距离作为协变量不平衡度量,剔除不满足阈值 \(a\) 的分配方案。这确立了“设计阶段协变量平衡”的范式,但未给出渐近分布理论。 - 主要进展(个体层面渐近理论):Li, Ding & Rubin (2018) 建立了个体层面重随机化的渐近理论,证明差值估计量的渐近分布为非正态的截断正态分布,并给出方差缩减因子;Li & Ding (2020) 将重随机化与回归调整统一在同一框架下,证明两者叠加“绝不伤害”渐近精度;Morgan & Rubin (2015) 引入分层 Mahalanobis 距离以处理协变量先验重要性分层。 - 集群实验的渐近理论(无重随机化):Su & Ding (2021) 建立了集群随机化(无重随机化)下设计基渐近理论,比较了不同回归调整策略(个体数据、集群均值、集群总量)的效率,指出集群总量回归最优且协变量调整能提升效率。 - 当前 frontier 与本文位置:作者指出:“The existing design-based theory for rerandomization assumes that the treatments are assigned at the individual level (Morgan and Rubin, 2012; Li et al., 2018), leaving it unclear how rerandomization would theoretically work in cluster experiments.” 本文即填补此空白——将 Li et al. (2018) 与 Li & Ding (2020) 的个体重随机化理论推广至集群重随机化,并引入加权欧氏距离与分层 Mahalanobis 距离两种利用先验信息的方案进行比较。
子线索聚类 1. 重随机化渐近理论(个体层面):Morgan & Rubin (2012) 定义框架 → Li et al. (2018) 给出渐近分布与方差缩减因子 → Li & Ding (2020) 统一重随机化与回归调整 → Li et al. (2017) 推广至因子实验。这一簇的核心是:在个体随机化下,重随机化使估计量渐近分布从正态退化为截断正态,方差缩减因子为 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\)。 2. 集群随机化设计基理论(无重随机化):Su & Ding (2021) 建立集群总量回归的渐近最优性 → Schochet (2020) 讨论分组行政数据的设计基估计量 → Athey & Imbens (2017) 综述集群实验的计量方法。这一簇的核心是:集群总量回归 + robust SE 是集群随机化下的推荐分析程序。 3. 集群实验的约束随机化(应用与模拟):Li et al. (2015, 2017a) 在群随机化试验中评估约束随机化(即重随机化的另一名称)的 Type I error 与 power,但仅基于模拟,无渐近理论支撑。
这个方向在追问的核心问题 1. 重随机化如何改变估计量的渐近分布? 已知个体层面下渐近分布为截断正态;集群层面下由于集群间异质性及集群规模变异,渐近分布形态是否仍为截断正态?方差缩减因子如何表达? 2. 如何利用协变量先验重要性? 分层 Mahalanobis 距离(Morgan & Rubin 2015)与加权欧氏距离是两种自然方案,哪种在方差缩减上更优? 3. 设计阶段重随机化与分析阶段回归调整如何叠加? Li & Ding (2020) 在个体层面证明叠加“绝不伤害”;集群层面是否成立?推荐的分析程序是什么?
⚠️ 作者的 framing - 作者把缺口 frame 成什么:作者将缺口定位为“集群重随机化的渐近理论空白”,并强调公共卫生与社会科学中集群随机化+重随机化的实践普遍性(引用 Donner & Klar 2000; Hayes & Moulton 2017; Turner et al. 2017a,b 等),使本文成为“显然的下一步”。 - 哪些竞争路线被淡化或回避:作者未讨论基于模型(model-based)的协变量调整框架(如 GEE、混合模型),也未讨论最优重随机化设计(Kallus 2018 提出的最小化不平衡分配集,Johansson et al. 2021 讨论其推断问题)。作者仅在讨论 Fisher 随机化检验时提及 Johansson et al. (2021) 关于阈值 \(a\) 选择的建议,但未将其作为竞争设计方案。 - 什么明显该被引 / 该存在却没出现:Kallus (2018) 的最优分配设计在重随机化文献中是重要竞争路线,intro 中未出现;此外,半参数效率理论(如效率界、HOIF)在协变量调整效率比较中是自然参照,但 intro 未引用任何半参数效率文献。这两条是值得研究者去查的问题。
张力 未见明显对立引用。Li & Ding (2020) 证明重随机化+回归调整“绝不伤害”渐近精度,而 Johansson et al. (2021) 指出追求“最优设计”(最小不平衡集)可能导致推断仅反映抽样不确定性而忽略随机化不确定性——这是设计目标与推断目标之间的张力,但本文未直接引用 Kallus (2018) 或深入讨论此张力。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(M\):集群总数(有限正整数)。
- \(n_i\):集群 \(i\) 中的个体数(已知、可观测)。
- \(N = \sum_{i=1}^M n_i\):总个体数。
- \(Z_i\):集群 \(i\) 的处理分配变量,取值 \(1\)(处理)或 \(0\)(控制)。\(Z = (Z_1, \dots, Z_M)\) 为分配向量。
- \(Y_{ij}(z)\):集群 \(i\) 中个体 \(j\) 在处理 \(z \in \{0,1\}\) 下的潜在结果(不可观测)。
- \(Y_{ij}^{\text{obs}} = Z_i Y_{ij}(1) + (1-Z_i) Y_{ij}(0)\):可观测结果。
- \(e_i = n_i / N\):集群 \(i\) 的个体占比(已知、可观测)。
- \(\tau\):目标因果 estimand,本文定义为加权平均处理效应 \(\tau = \sum_{i=1}^M e_i \tau_i\),其中 \(\tau_i = \frac{1}{n_i} \sum_{j=1}^{n_i} (Y_{ij}(1) - Y_{ij}(0))\) 为集群 \(i\) 的平均处理效应。
- \(\hat{\tau}\):差值估计量(未调整),定义为 \(\hat{\tau} = \sum_{i: Z_i=1} e_i \bar{Y}_{i}(1) - \sum_{i: Z_i=0} e_i \bar{Y}_{i}(0)\),其中 \(\bar{Y}_{i}(z) = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij}(z)\) 为集群均值。
- \(X_i\):集群 \(i\) 的协变量向量(\(p\) 维),可包含集群层面协变量与个体层面协变量的集群均值。在设计阶段已知、可观测。
- \(\hat{X}_t - \hat{X}_c\):处理组与对照组协变量加权均值之差,定义为 \(\sum_{i: Z_i=1} e_i X_i - \sum_{i: Z_i=0} e_i X_i\)。
- \(V\):完全随机化下 \(\hat{\tau}\) 的渐近方差矩阵(或标量),\(V_{XX}\) 为 \(\hat{X}_t - \hat{X}_c\) 的渐近方差矩阵,\(V_{\tau X}\) 为 \(\hat{\tau}\) 与 \(\hat{X}_t - \hat{X}_c\) 的渐近协方差。
- \(R^2\):方差缩减因子中的关键量,定义为 \(R^2 = V_{\tau X} V_{XX}^{-1} V_{\tau X}^T / V_{\tau\tau}\)(标量情形下为 \(V_{\tau X}^2 / (V_{\tau\tau} V_{XX})\)),衡量 \(\hat{\tau}\) 与协变量不平衡的线性关联强度。
- \(a\):重随机化阈值(预设正数),决定接受分配方案的不平衡标准。
- \(\Pr(\chi^2_{p+2} \le a)\):截断正态分布的调整因子,源自 Li et al. (2018) 的方差缩减公式。
模型与数据生成机制 - 设计机制:首先进行集群完全随机化(等概率分配 \(M/2\) 个集群到处理、\(M/2\) 到控制);然后计算协变量不平衡度量(如 Mahalanobis 距离 \(M(Z) = (\hat{X}_t - \hat{X}_c)^T V_{XX}^{-1} (\hat{X}_t - \hat{X}_c)\));若 \(M(Z) \le a\) 则接受该分配,否则拒绝并重新随机化,直至接受。此过程即为集群重随机化。 - 统计模型:无参数模型假设。潜在结果 \(\{Y_{ij}(0), Y_{ij}(1)\}\) 视为固定常数(有限种群视角),唯一随机源为分配向量 \(Z\),其分布为在满足 \(M(Z) \le a\) 的分配集上的均匀分布。 - 可观测数据:研究者实际能观测到的是 \(\{(Z_i, X_i, Y_{ij}^{\text{obs}}) : i=1,\dots,M, j=1,\dots,n_i\}\)。潜在结果 \(Y_{ij}(1)\) 或 \(Y_{ij}(0)\) 中只能观测到其中一个(由 \(Z_i\) 决定),另一个为不可观测的潜在量,只能靠设计假设(如 SUTVA)与随机化机制进行识别与推断。
第二步:最小内核——最简特例(\(p=1\) 维协变量,等集群规模 \(n_i = n\))
在 \(p=1\)(单一协变量)、等集群规模 \(n_i = n\) 的特例下,集群重随机化的核心数学问题退化为一维截断正态问题,与个体重随机化形式上相似但方差成分不同:
- 完全随机化下的渐近分布:当 \(M \to \infty\),\(\sqrt{M}(\hat{\tau} - \tau)\) 依分布收敛到 \(N(0, V_{\tau\tau})\),其中 \(V_{\tau\tau}\) 为集群间处理效应异质性导致的方差。
- 重随机化下的渐近分布:定义不平衡度量 \(M(Z) = (\hat{X}_t - \hat{X}_c)^2 / V_{XX}\)(一维 Mahalanobis 距离即平方不平衡)。重随机化接受 \(M(Z) \le a\) 的分配。此时 \(\sqrt{M}(\hat{\tau} - \tau)\) 的渐近分布为:
\[\sqrt{M}(\hat{\tau} - \tau) \mid M(Z) \le a \;\dot{\sim}\; (1 - R^2) \cdot N(0, V_{\tau\tau}) + R^2 \cdot \epsilon \cdot \sqrt{V_{\tau\tau}} \cdot L(a, 1)\]其中 \(R^2 = V_{\tau X}^2 / (V_{\tau\tau} V_{XX})\),\(\epsilon\) 为 \(\pm 1\) 的对称随机变量,\(L(a, 1)\) 为标准正态在 \(\chi^2_1 \le a\) 条件下的截断分布(即 \(|Z| \le \sqrt{a}\) 下的 \(Z\))。
- 方差缩减因子:重随机化下 \(\hat{\tau}\) 的渐近方差为 \(V_{\tau\tau} \cdot (1 - R^2 \Pr(\chi^2_3 \le a))\)。注意这里维度参数是 3(即 \(p+2\),\(p=1\) 时为 3),而非直觉上的 1 或 2——这是 Li et al. (2018) 的关键结论,源自截断正态二阶矩的计算。
- 与个体重随机化的区别:在个体重随机化中,\(V_{\tau\tau}\) 反映个体间异质性;在集群重随机化中,\(V_{\tau\tau}\) 反映集群间异质性(即 \(\tau_i\) 的方差与集群内均值变异的混合)。当集群规模不等时,\(V_{\tau\tau}\) 的表达式更复杂(涉及 \(e_i\) 的加权),但方差缩减因子形式不变——这是本文的核心发现:集群重随机化的方差缩减因子与个体重随机化形式完全一致,仅 \(R^2\) 的定义从个体协方差变为集群加权协方差。
为什么成立(证明直觉):关键在于 \(\hat{\tau}\) 可分解为 \(\hat{\tau} = \tau + (\hat{\tau} - \tau_{\mid X}) + (\tau_{\mid X} - \tau)\),其中 \(\tau_{\mid X} = E[\hat{\tau} \mid \hat{X}_t - \hat{X}_c]\) 为协变量不平衡对 \(\hat{\tau}\) 的线性投影部分。重随机化仅约束 \(\hat{X}_t - \hat{X}_c\)(使其落入 \(\chi^2_p \le a\) 的椭球),而残差 \(\hat{\tau} - \tau_{\mid X}\) 与 \(\hat{X}_t - \hat{X}_c\) 渐近独立(由有限种群 CLT 的联合正态性保证)。因此残差部分仍为正态,投影部分变为截断正态,两者混合即为上述分布。集群异质性仅改变 \(V_{\tau\tau}\) 的具体构成,不改变“投影+残差”的分解结构——这就是最小内核揭示的核心机制。
三、这篇论文做了什么¶
三句话 ①研究了集群随机化实验中叠加重随机化(cluster rerandomization)的设计基渐近理论问题;②核心工具是有限种群中心极限定理(Li & Ding 2017)与截断正态分布理论,并引入加权欧氏距离与分层 Mahalanobis 距离两种利用协变量先验重要性的重随机化方案;③主要结论是:集群重随机化下估计量的渐近分布为截断正态,方差缩减因子形式与个体重随机化一致;在最优权重与正交化协变量下,加权欧氏距离方案严格优于分层 Mahalanobis 距离方案;分析阶段推荐使用带 robust SE 的协变量调整 OLS。
关键设定与假设 - 集群重随机化定义:在集群完全随机化基础上,根据协变量不平衡度量(个体层面或集群层面)剔除不平衡分配,重复随机化直至接受。接受标准为 \(M(Z) \le a\) 或 \(W(Z) \le a\)(分别对应 Mahalanobis 距离与加权欧氏距离)。 - SUTVA:个体 \(ij\) 的观测结果仅依赖自身集群的处理 \(Z_i\),无跨集群干扰,无多版本处理。 - 有限种群视角:潜在结果 \(\{Y_{ij}(0), Y_{ij}(1)\}\) 与协变量 \(X_i\) 视为固定常数,唯一随机源为 \(Z\)。 - 集群数量渐近序列:\(M \to \infty\),集群规模 \(n_i\) 可变异但需满足有界性条件(\(\max n_i / \min n_i\) 有界)。 - 有限种群 CLT 条件:需满足 Li & Ding (2017) 的矩条件与正则条件(如潜在结果与协变量的四阶矩有界、集群规模不极端变异),以保证 \(\sqrt{M}(\hat{\tau} - \tau, \hat{X}_t - \hat{X}_c)\) 的联合渐近正态性。 - 分层 Mahalanobis 距离(Tiered Mahalanobis):将协变量分为 \(K\) 层(tier),第 \(k\) 层含 \(p_k\) 个协变量,定义 \(M_k(Z) = (\hat{X}_{t,k} - \hat{X}_{c,k})^T V_{XX,k}^{-1} (\hat{X}_{t,k} - \hat{X}_{c,k})\),接受标准为 \(\forall k: M_k(Z) \le a_k\)。 - 加权欧氏距离:定义 \(W(Z) = (\hat{X}_t - \hat{X}_c)^T \Gamma (\hat{X}_t - \hat{X}_c)\),其中 \(\Gamma\) 为正定权重矩阵。最优权重为 \(\Gamma^* = V_{XX}^{-1/2} V_{\tau X} V_{\tau X}^T V_{XX}^{-1/2}\)(需先对协变量做正交化:\(\tilde{X}_i = V_{XX}^{-1/2} X_i\))。 - 与已有文献的关系:相比 Li et al. (2018) 的个体重随机化,本文放宽了“个体层面分配”的假设,允许集群层面分配与集群规模变异;相比 Su & Ding (2021) 的集群随机化理论,本文增加了重随机化设计阶段的约束;相比 Morgan & Rubin (2015) 的分层 Mahalanobis,本文在集群设定下比较了其与加权欧氏距离的效率。
主要结果
- 定理 1(集群重随机化的渐近分布):在集群重随机化(基于 Mahalanobis 距离 \(M(Z) \le a\))下,\(\sqrt{M}(\hat{\tau} - \tau)\) 的条件渐近分布为:
\[\sqrt{M}(\hat{\tau} - \tau) \mid M(Z) \le a \;\dot{\sim}\; (1 - R^2) \cdot \mathcal{N}(0, V_{\tau\tau}) + R^2 \cdot \epsilon \cdot \sqrt{V_{\tau\tau}} \cdot L(a, p)\]其中 \(L(a, p)\) 为 \(p\) 维标准正态在 \(\chi^2_p \le a\) 下的截断分布,\(\epsilon\) 为对称 \(\pm 1\) 随机变量。无条件渐近分布为上述分布的混合(\(\epsilon\) 的随机性被平均掉,分布更集中)。方差缩减因子为 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\)。
- 直觉:\(\hat{\tau}\) 分解为协变量投影部分与残差部分,重随机化仅约束投影部分使其落入截断椭球,残差部分不受约束仍为正态。
- 必要条件:有限种群 CLT 条件(矩有界、集群规模不极端变异)、\(R^2 < 1\)(否则 \(\hat{\tau}\) 完全由协变量决定,重随机化使分布退化为点)。
-
解决的技术难点:集群规模变异导致 \(\hat{\tau}\) 与 \(\hat{X}_t - \hat{X}_c\) 的方差-协方差矩阵涉及复杂的 \(e_i\) 加权,需证明联合渐近正态性仍成立且 \(R^2\) 的表达式可解析给出。
-
定理 2(加权欧氏距离 vs 分层 Mahalanobis 距离的方差缩减比较):在正交化协变量 \(\tilde{X}_i = V_{XX}^{-1/2} X_i\) 与最优权重 \(\Gamma^* = \tilde{V}_{\tau X} \tilde{V}_{\tau X}^T\) 下,加权欧氏距离重随机化的方差缩减因子为 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\);而分层 Mahalanobis 距离重随机化的方差缩减因子为 \(1 - \sum_{k=1}^K R_k^2 \Pr(\chi^2_{p_k+2} \le a_k)\)(其中 \(R_k^2\) 为第 \(k\) 层协变量对 \(\hat{\tau}\)的方差解释比例)。前者严格优于后者(方差缩减更大),因为 \(\Pr(\chi^2_{p+2} \le a) \ge \sum_{k=1}^K \Pr(\chi^2_{p_k+2} \le a_k)\) 当 \(a\) 与 \(a_k\) 满足特定关系时(且 \(R^2 = \sum R_k^2\))。
- 直觉:分层 Mahalanobis 对每层独立约束不平衡,相当于在 \(p\) 维空间中用多个小椭球约束;而加权欧氏距离用单一椭球约束,能更有效地利用所有协变量的联合信息。
-
必要条件:协变量需先正交化(\(\tilde{X}_i\)),否则跨层协变量相关性会使分层约束产生冗余;权重需取最优 \(\Gamma^*\),否则加权欧氏距离可能不如分层 Mahalanobis。
-
定理 3(重随机化 + 回归调整的叠加效率):在集群重随机化设计下,若分析阶段使用协变量调整 OLS(基于集群总量回归,带 robust SE),则调整后估计量 \(\hat{\tau}_{\text{adj}}\) 的渐近方差为 \(V_{\tau\tau \mid X} \cdot (1 - R^2_{\text{adj}} \Pr(\chi^2_{p+2} \le a))\),其中 \(V_{\tau\tau \mid X}\) 为调整后残差方差,\(R^2_{\text{adj}}\) 为调整后估计量与协变量不平衡的关联强度。叠加效果为:重随机化缩减设计阶段方差,回归调整缩减分析阶段残差方差,两者乘积效应叠加。
- 与 Li & Ding (2020) 的关系:结论形式一致,但本文在集群设定下证明,且指出 Su & Ding (2021) 的标准误公式在重随机化下过度保守(因忽略截断正态成分)。
证明路线与技术技巧
- 整体路线(5 步):
- Step 1:建立联合渐近正态性。证明 \(\sqrt{M}(\hat{\tau} - \tau, \hat{X}_t - \hat{X}_c)\) 在完全随机化下依分布收敛到联合正态 \(N(0, V)\),其中 \(V\) 为 \(1+p\) 维方差-协方差矩阵。此步依赖 Li & Ding (2017) 的有限种群 CLT,需验证集群规模变异下的正则条件。
- Step 2:条件分布分解。利用联合正态性,将 \(\hat{\tau}\) 分解为 \(\hat{\tau} = \tau + V_{\tau X} V_{XX}^{-1} (\hat{X}_t - \hat{X}_c) + \text{residual}\),其中残差与 \(\hat{X}_t - \hat{X}_c\) 渐近独立。
- Step 3:重随机化下的条件分布。重随机化约束 \(\hat{X}_t - \hat{X}_c\) 落入 \(\{M(Z) \le a\}\)(或 \(\{W(Z) \le a\}\)),使投影部分变为截断正态,残差部分仍为正态。两者混合即为定理 1 的分布。
- Step 4:方差缩减因子计算。计算截断正态二阶矩,利用 \(\chi^2\) 分布性质得到 \(\Pr(\chi^2_{p+2} \le a)\) 因子。
-
Step 5:两种重随机化方案的比较。在正交化协变量与最优权重下,将分层 Mahalanobis 的方差缩减因子分解为各层贡献,与加权欧氏距离的全局贡献比较,利用 \(\chi^2\) 分布的卷积性质证明前者更优。
-
关键跳跃点:
- 引理:集群规模变异下的联合 CLT。这是最吃功夫的引理,因为 \(e_i = n_i/N\) 的权重使方差矩阵 \(V\) 的表达式复杂(涉及 \(\tau_i\) 的异质性、集群内均值变异、\(e_i\) 的变异)。作者依赖 Li & Ding (2017) 的一般性有限种群 CLT,但需验证集群框架下的正则条件——特别是当 \(n_i\) 变异时,\(e_i\) 的极端值可能导致 CLT 失效,作者通过假设 \(\max n_i / \min n_i\) 有界来规避。
-
引理:截断正态二阶矩的解析表达。需计算 \(E[Z^2 \mid \chi^2_p \le a]\),其中 \(Z\) 为 \(p\) 维标准正态。此计算依赖 \(\chi^2\) 分布与正态分布的矩关系,结果为 \(\Pr(\chi^2_{p+2} \le a)\)——这是 Li et al. (2018) 的关键技巧,本文直接沿用。
-
技术技巧点名:
- 有限种群 CLT(Li & Ding 2017):用于 Step 1,保证集群框架下联合渐近正态性成立。
- 截断正态分布理论:用于 Step 3-4,刻画重随机化约束下投影部分的分布形态。
- \(\chi^2\) 分布矩计算:用于 Step 4,解析给出方差缩减因子中的 \(\Pr(\chi^2_{p+2} \le a)\)。
- 协变量正交化与最优权重:用于 Step 5,将协变量变换为 \(\tilde{X}_i = V_{XX}^{-1/2} X_i\) 使 \(V_{\tilde{X}\tilde{X}} = I_p\),从而简化加权欧氏距离的比较。
- 条件期望分解:用于 Step 2,将 \(\hat{\tau}\) 分解为协变量投影与残差,利用渐近独立性分离重随机化的约束效应。
真实例子与应用 - 数据 / 场景:本文使用 Kenya HIV 集群随机化实验数据(Turner et al. 2017a,b 引用的数据),包含 \(M=28\) 个集群,每集群 \(n_i\) 从几十到几百不等,协变量包含集群层面(如地理位置)与个体层面(如性别比例)的变量。 - 怎么用上去:作者计算了完全随机化、集群重随机化(Mahalanobis 距离)、集群重随机化(加权欧氏距离)三种设计下 \(\hat{\tau}\) 的方差估计与方差缩减因子,并比较了未调整与协变量调整 OLS 的效率。 - 得到什么结果:加权欧氏距离重随机化 + 协变量调整 OLS 的方差缩减最大(相比完全随机化未调整,方差缩减约 60%);分层 Mahalanobis 重随机化 + 协变量调整的方差缩减约 40%;完全随机化 + 协变量调整的方差缩减约 30%。这与定理 2 的理论预测一致。 - 想说明什么:验证理论结论(加权欧氏距离优于分层 Mahalanobis),展示集群重随机化 + 回归调整的叠加效率增益,并说明推荐程序(集群总量回归 + robust SE)在实际数据中的可行性。
🔎 结论是否比证明窄 - 定理 2 的严格条件:加权欧氏距离优于分层 Mahalanobis 的结论在正交化协变量与最优权重下严格证明,但作者在讨论中泛泛 claim“加权欧氏距离一般更优”——若协变量未正交化或权重非最优,此结论可能不成立,作者未给出反例也未讨论失效条件。 - 定理 3 的保守标准误:作者指出 Su & Ding (2021) 的标准误在重随机化下过度保守,但未严格证明本文推荐的 robust SE 在重随机化下的覆盖率是否精确达到 nominal level——仅基于渐近近似与模拟,未给出有限样本覆盖率保证。
四、开放问题(点到为止,扎根具体语句)¶
- 最优重随机化与推断的张力:Johansson et al. (2021) 指出追求最小不平衡分配集可能导致推断仅反映抽样不确定性;本文的阈值 \(a\) 选择仅提及“确保非平凡 power”,未讨论 \(a \to 0\)(趋近最优设计)时推断的失效模式。扎根点:Section 5 讨论 Fisher 随机化检验时引用 Johansson et al. (2021) 的建议,但未展开 \(a\) 的极限行为。
- 半参数效率界与重随机化的关系:本文的方差缩减因子 \(1 - R^2 \Pr(\chi^2_{p+2} \le a)\) 是否逼近集群随机化下的半参数效率界?若协变量维度 \(p\) 增大,\(\Pr(\chi^2_{p+2} \le a)\) 趋近 1,方差缩减趋近 \(1 - R^2\)——这与回归调整的方差缩减一致,但未与半参数效率界(如 HOIF 理论)比较。扎根点:intro 未引用任何半参数效率文献,定理 3 的方差缩减公式未与效率界对照。
- 集群规模极端变异下的 CLT 失效:本文假设 \(\max n_i / \min n_i\) 有界以保证 CLT;若集群规模有极端异质性(如少数集群含大量个体),有限种群 CLT 是否仍成立?方差缩减因子是否需修正?扎根点:定理 1 的正则条件(Assumption 1)要求集群规模有界比率,但实际数据中常出现极端变异。
- 模型化协变量调整与设计基调整的竞争:本文推荐设计基的 OLS + robust SE,但未与模型化方法(如 GEE、混合模型)在重随机化下的效率比较——Su & Ding (2021) 在无重随机化下比较了两者,但重随机化下模型化方法是否仍保守?扎根点:Section 5 仅讨论设计基调整,未涉及模型化框架。
要确认某条是否真 gap,建议读近期 5 篇集群实验设计 / 重随机化文献的 intro——若都指向 \(a\) 选择与效率界问题 = 共识(真 gap),若互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub