Designing three-level cluster randomized trials to assess treatment effect heterogeneity¶

作者: Fan Li, Xinyuan Chen, Zizhong Tian, Denise Esserman, Patrick J Heagerty et al.
来源: Biostatistics
主题: 数理统计 / 假设检验
相关性: 4/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac026

一、领域脉络与小综述¶

这个方向是什么¶

本子方向要解决的根本问题是：在三层嵌套结构的整群随机试验（CRT）中，如何从试验设计阶段（即确定样本量与检验效能）支撑对处理效应异质性（即处理效应在不同预定义亚组间的差异）的确认性假设检验。其核心是将效应异质性的统计检验问题嵌入一个带有嵌套可交换相关结构的线性混合效应模型，并推导出检验交互项（处理×效应修饰因子）系数的渐近方差闭式，从而为研究者提供可操作的效能与样本量计算公式。当前成熟度：对于简单的两水平CRT已有若干设计公式，但对于更现实的三层结构（如诊所-医生-患者），特别是当关注点从平均效应转向效应修饰时，设计公式高度碎片化且局限于特定场景。

发展脉络（history）¶

奠基工作：多层结构下的CRT设计与分析框架
Murray (1998)、Donner & Klar (2000)、Raudenbush & Liu (2000) 建立了多层模型用于CRT分析的基本框架。Donner & Klar (2000) 被论文引用为“standard reference for CRT design and analysis”，其提供了两水平CRT的基础设计公式，但仅限于平均处理效应的检验。
Heo & Leon (2009) 将设计公式扩展到对个体水平效应修饰因子的检验（两水平CRT），但仍然局限于两水平结构。
Tong et al. (2022) 首次在两水平（聚类-个体）CRT中，推导了针对聚类水平效应修饰因子进行异质性检验的效能公式。论文引用其为“the first to develop a power formula for testing HTE based on a single moderator measured at the cluster level”。
主要进展：三层结构下的CRT设计与平均效应
Heo et al. (2020) 将两水平设计公式推广至三层结构，但仅针对聚类水平的效应修饰因子，且随机化必须发生在聚类层。论文直接指出其局限性：“the current literature is missing design formulas for powering HTE analyses in three-level CRTs with subcluster-level and participant-level moderators, and with randomization at different levels”。
Teerenstra et al. (2010) 和 Li et al. (2021) 虽然涉及三层CRT的设计，但均聚焦于平均处理效应的检验；Li et al. (2020) 讨论了在队列和交叉截面设计下对平均效应的效能，但未涉及交互项。
当前Frontier与本文位置 当前文献存在一个清晰的缺口：对于三层CRT，没有一个统一的、可以处理以下三种综合情况的效能公式：（1）效应修饰因子在聚类、子聚类或参与者任何一层测量；（2）随机化可以在任意层级进行（聚类层、子聚类层或个体层）；（3）基于线性混合ANCOVA模型的检验。本文声称填补了这个缺口——“we derive novel analytical design formulas … broadly applicable to the evaluation of cluster-level, subcluster-level, and participant-level effect modifiers and to designs where randomization can be carried out at any level”。

子线索聚类¶

A簇：标准多层CRT设计与分析框架 —— 作者为：Murray, Donner & Klar, Raudenbush & Liu, Heo et al. (2020)。该簇的工作奠定了多层嵌套相关结构的基本假定（如嵌套可交换相关），以及使用线性混合模型进行平均效应分析的统计基础设施。
B簇：平均处理效应及其与个体-水平协变量的交互 —— 作者为：Tong et al. (2022), Yang et al. (2020), Tong et al. (2022)。该簇的工作首次将设计公式从平均效应延伸到异质性检验，但局限于两水平结构（聚类-个体）下的交互项。B簇是A簇的直接但受限的扩展。
C簇：三层CRT的设计参数与效能模拟 —— 作者为：Teerenstra et al. (2010), Li et al. (2020, 2021)。该簇关注如何使用ICC（组内相关系数）对三层结构进行效能计算，但完全聚焦于平均效应的设计，不涉及异质性。

这个方向在追问的核心问题¶

如何在三层嵌套结构下，精确计算交互项（处理×效应修饰因子）系数的估计量方差？ 现有公式（如Tong et al. 2022）只给出了两水平下的结果。
当效应修饰因子在不同层面（聚类/子聚类/参与者）测量时，方差表达式会发生怎样的变化？ 不同层面的修饰因子会引入不同的相关性结构，导致方差由不同的ICC组合决定。
随机化层级（聚类/子聚类/个体）如何改变异质性检验的效能与所需样本量？ 这是本文试图回答的核心工程问题——给定设计者想验证的效应修饰大小，应该以哪个层级为随机化单位、招募多少聚类、每个聚类下多少子聚类、每个子聚类下多少个体。
现有的设计公式是否过于依赖可交换相关结构的假设？ 如果数据表现出非结构化的相关模式（如自相关或距离衰减相关），现有公式的准确性会如何下降？本文没有回答这个问题，但这是一个明显的第1类张力。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成: 现有所有公式都是“piecemeal”——每个公式只适用于一个特定的随机化层级和一个特定的修饰因子层级组合，且没有统一的表达式。因此，本文的贡献是推导出了一个统一的渐近协方差矩阵，使得设计者可以在一个公式框架下处理所有9种（3个修饰因子层级×3个随机化层级）组合。
被淡化或回避的竞争路线:
论文完全回避了非参数或半参数方法（如霍夫丁分解、高效影响函数、DML）来处理效应异质性设计。作者只用了线性混合ANCOVA模型（含分布假设——正态误差），并默认此模型是分析时的正确模型。如果实际的DGP偏离此模型，本文的效能公式可能失效，但作者未讨论这种稳健性。
论文没有讨论多重比较问题（如果同时检验多个修饰因子），虽然它声明“confirmatory analyses”，但现实中的异质性分析往往涉及多个亚组。
什么明显该被引/该存在、却没出现在intro里？
没有引用关于非参数异质性检验的方法论文献（如Künzel et al.的面板CATE、Wager & Athey的随机森林CATE、Nie & Wager的R-learner等）。这些文献虽然主要关注个体因果效应的估计而非设计，但共同构成了效应异质性这个更广阔的方向。作者选择将其完全置于引用之外，强烈暗示本文的框架局限于“parametric effect modification in mixed models”这条非常具体的路线。
没有引用任何关于功效分析中渐近方差公式推导与M-estimation理论的作品（如Stefanski & Boos 2002, Van der Vaart 1998的M-estimation章节）。考虑到本文本质上是推导一个M-估计量（线性混合模型中的极大似然估计/限制极大似然估计）的渐近协方差，并且作者使用了标准M-estimation的sandwich variance框架，不引用这一更通用的理论是有意为之——作者显然想避免读者将本文与更一般的半参数效率理论联系起来，从而保持文章在应用统计期刊中的可读性。

张力¶

被引的各类工作之间未见明显对立结论。它们是递进关系（从两水平到三水平、从平均效应到异质性），没有在相同条件下得出相反的结果。唯一的“张力”是粗粒度 vs. 精粒度：较早的工作（如Donner & Klar）倾向于用比较粗糙的方差膨胀因子（DEFF）处理所有层级，而新近工作（包括本文）则通过精确方差分解来获得更精准的设计。这不是逻辑矛盾，而是模型精细化的自然进程，不存在高价值信号。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（本文核心记号，逐个点名）:

记号	意义	类型
\( Y_{ijk} \)	第 \( i \) 个聚类、第 \( j \) 个子聚类、第 \( k \) 个个体的连续型结果变量	随机变量
\( X_j \) 或 \( X_i \) 或 \( X \)	处理分配指示变量（如0/1）	随机变量
\( Z_{ijk} \) (或 \( Z_{i.} / Z_{ij.} \))	效应修饰因子（prespecified effect modifier），可为聚类水平/子聚类水平/个体水平	随机变量（设计者固定或随机）
\( S_{ijk}^{(z)} \)	给定 \( Z=z \) 时，结果的残差项 \(\epsilon_{ijk}\) 与处理交互项的组合表达	随机变量
\( \beta_0, \beta_1, \beta_2, \beta_3 \)	模型系数：截距、处理主效应、修饰因子主效应、处理×修饰因子交互项（核心参数）	参数（要估/检验的对象）
\( u_{i} \)	聚类层随机截距	随机变量（正态，均0）
\( v_{ij} \)	子聚类层随机截距	随机变量（正态，均0）
\( \epsilon_{ijk} \)	个体层误差项	随机变量（正态，均0）
\( \sigma_c^2 \)	聚类层随机效应的方差（\( Var(u_{i}) \)）	方差分量
\( \sigma_s^2 \)	子聚类层随机效应的方差（\( Var(v_{ij}) \)）	方差分量
\( \sigma^2 \)	个体层误差方差（\( Var(\epsilon_{ijk}) \)）	方差分量
\( m \)	每个聚类内的子聚类数	设计参数
\( n \)	每个子聚类内的个体数	设计参数
\( K \)	聚类总数	设计参数
\( \rho = \sigma_c^2/(\sigma_c^2+\sigma_s^2+\sigma^2) \)	聚类层内相关系数（ICC）	设计参数
\( \rho_s = (\sigma_c^2+\sigma_s^2)/(\sigma_c^2+\sigma_s^2+\sigma^2) \)	子聚类层内相关系数	设计参数

模型: 论文使用线性混合ANCOVA模型。最基本的版本是：

\[Y_{ijk} = \beta_0 + \beta_1 X_{randomization-level} + \beta_2 Z_{ijk} + \beta_3 X \times Z_{ijk} + u_i + v_{ij} + \epsilon_{ijk}\]

其中： - 随机效应 \( u_i \sim N(0, \sigma_c^2) \), \( v_{ij} \sim N(0, \sigma_s^2) \), \( \epsilon_{ijk} \sim N(0, \sigma^2) \)，三者独立。 - 所有误差项均为球形正态（spherical normal），即协方差矩阵是带NEC（嵌套可交换相关）结构的组合。 - 关键假设: 给定 \( Z \) 的条件下，结果变量 \( Y|_{Z} \) 依然服从NEC相关结构。这一点保证了方差分解的封闭性。

可观测数据: 研究者观测到的是 \( (Y_{ijk}, X_{ijk}, Z_{ijk}) \) 三要素，但随机化层级（\( X \) 在哪个级别变化）和修饰因子层级（\( Z \) 在哪个级别变化）的组合决定了哪些记号在什么级别重复。例如： - 可观测：每聚类的个体数 \( n \)、每聚类下的子聚类数 \( m \)，聚类总数 \( K \)。全部样本量为 \( K \times m \times n \)。 - 不可观测/潜变量：随机截距 \( u_i, v_{ij} \)（合称“集群向”的混杂因素/方差源）。研究者只能观测到它们造成的相关模式（即组内相关），但不能直接观测到它们的实现。这是通过随机效应进行推断的典型场景。 - 想要但观测不到的：对于同一个体，存在“在其它处理状态下的潜在结果”——但因为本文设定为随机试验（设计者控制处理分配），且仅关注条件期望的线性模型（不涉及反事实因果识别），所以“潜在结果是处理分配的函数”这一结构不如在观察性因果推断中那么突出。本文并不需要潜在结果框架的完整引出。

第二步：讲最小内核¶

最简特例: 考虑一个两水平版本，其中每个聚类（如诊所）内没有“子聚类”这一中间层——即 \( m=1 \) 或子聚类就是个体本身。在这个退化的两水平CRT中，论文的公式应该简化为Tong et al. (2022) 的结果，即以聚类为随机化单位，修饰因子在个体水平测量的情况下的效能公式。

使用已交代好的记号展开两水平特例:

设定：聚类数 \( K \)，每个聚类有 \( n \) 个个体（因为子聚类消失，原来的 \( m \times n \) 退化为 \( n \)）。随机化在聚类层发生：\( X_i = 1 \) 表示聚类 \( i \) 被分配处理，\( X_i=0 \) 分配对照。效应修饰因子 \( Z_{ik} \) 在个体水平测量（如性别）。模型退化为：
\[Y_{ik} = \beta_0 + \beta_1 X_i + \beta_2 Z_{ik} + \beta_3 X_i Z_{ik} + u_i + \epsilon_{ik}\]
其中 \( u_i \sim N(0, \sigma_c^2) \), \( \epsilon_{ik} \sim N(0, \sigma^2) \)（独立）。
核心统计问题：检验 \( H_0: \beta_3 = 0 \)（无效应异质性） vs \( H_1: \beta_3 = \delta \neq 0 \)。检验统计量是 \( \hat{\beta}_3 / SE(\hat{\beta}_3) \)，在 \( H_0 \) 下渐近服从 \( N(0,1) \)。
原工作在这个特例下的退化和核心困难：原论文在三层情形下推导 \( Var(\hat{\beta}_3) \) 的闭式。这需要计算：
处理分配指示 \( X_i \) 的方差：\( Var(X_i) = \pi (1-\pi)/K \)（假设 \( K \) 很大）。
因为存在聚类内相关性（由 \( u_i \) 引起），\( \hat{\beta}_3 \) 的方差不能简单用 \( \sigma^2 / (K n) \) 乘上哪个数来近似。它涉及一个由两水平相关结构产生的方差膨胀因子：\( Var(\hat{\beta}_3) \propto \frac{1}{K n} n \times [1 + (n-1)\rho] \)（这就是著名的DEFF（设计效应）的倒数形式）。这个因子的来源是：在同一个聚类内，误差项不是独立的，所以样本提供的“有效信息”小于独立同分布的情形。
这个公式在两水平且修饰因子在个体水平时已经知道是闭式（Tong et al. 2022）。在三水平下，核心困难在于：存在两个不同层级的组内相关（\( \rho \) 和 \( \rho_s \)），且它们会与处理效应和修饰因子的交叉层级交互产生复杂的交叉方差项。例如，若修饰因子在参与者水平，但随机化在子聚类水平，则处理效应和修饰因子效应会同时跨越子聚类和参与者层，导致方差表达式中同时出现 \( \rho \) 和 \( \rho_s \) 的高次项（如 \( \rho_s^2 \), \( \rho \rho_s \) 等）。
关键想法：作者使用了在给定 \( Z \) 条件下的协方差分解。因为假设 \( Y|Z \) 依然服从NEC相关结构，所以对 \( (Y, X, Z) \) 的线性模型，可以把 \( Y \) 在控制 \( X, Z \) 后的残差方差表示为 \( \sigma_{Y|XZ}^2 \)，同时处理指示 \( X \) 的方差可以分解为聚类间、子聚类间、个体内三个分量（分别是 \( f_{c,XZ}, f_{s,XZ}, f_{e,XZ} \)）。那么 \( \hat{\beta}_3 \) 的方差的核心表达式为：
\[Var(\hat{\beta}_3) = \frac{\sigma_{Y|XZ}^2 / (K m n) }{ \text{某种分数} }\]
其中分母是 \( X \) 与 \( Z \) 交互项在方差分解中的“设计效率”。这个分数包含了由三个层次方差分量构成的代数表达式，其复杂性是推进到三层结构的核心挑战。本文的贡献就是给出了这个表达式对所有9种组合的闭式。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：在三层嵌套CRT中（如患者-医生-诊所），推导出一个统一的、可用于试验设计阶段检验处理效应异质性（处理×亚组交互项）的样本量与检验效能公式，该公式适用于效应修饰因子在任意层级（聚类/子聚类/个体）测量，且随机化可在任意层级进行。
核心工具：基于线性混合ANCOVA模型 + 嵌套可交换相关结构（NEC），通过渐近协方差矩阵的M-估计推导（实际上是矩方法/方差分解），得到了交互项系数估计量的渐近方差闭式。
主要结论：给出了9种设计组合（3种修饰因子层级×3种随机化层级）下检验效能的完整解析公式；揭示了就检验异质性而言，设计应向哪个层级投入更多资源（如下文所述——设计者通常应在较少聚类中招募更多子聚类/个体，而不是反向操作）；以模拟和两个数据集验证了公式。

关键设定与假设¶

在第二节最简记号的基础上，补全完整设定：

线性混合模型的具体参数化：论文使用模型 (2.1)：
\[Y_{ijk} = \beta_0 + \beta_1 X_i^{(r-level)} + \beta_2 Z_{ijk}^{(mod-level)} + \beta_3 X_i \times Z_{ijk} + u_i + v_{ij} + \epsilon_{ijk}\]
关键点是：X 和 Z 的下标组合要匹配其层级——若修饰因子在子聚类水平，则 \( Z_{ij.} \) 对所有 \( k \) 共享同一值；若随机化在参与者层，则每个 \( Y_{ijk} \) 可能有不同 \( X_{ijk} \)（但本文假定随机化发生在聚类—或子聚类—或参与者层，是单层设计而不是混合层，因此X的下标对应其层级即可）。
NEC相关性假设：这是本文最关键也最苛刻的假设。它表示：同一聚类内任何两个体（无论是否在同一子聚类）的相关性为 \( \rho \)；同一子聚类内任何两个体（在同一子聚类）的相关性为 \( \rho_s \)。这意味着相关结构仅由“是否同群”决定，与距离、顺序无关。在这个结构下，协方差矩阵完全被四个方差分量（\( \sigma_c^2, \sigma_s^2, \sigma^2 \)）加上修饰因子和处理的参数决定。
条件NEC假设（H2）：“A nested exchangeable correlation structure for the ANOVA-type decomposition is assumed for both \( Z \) and \( Y \) conditional on \( Z \)”。这是核心创新点之一。它意味着：不仅结果 \( Y \) 无条件服从NEC，而且当对 \( Z \) 分层后，\( Y|Z \) 依然服从NEC。这个假设很硬——它其实要求 \( Z \) 与随机效应 \( u_i, v_{ij} \) 之间是独立的（或至少 \( Z \) 在聚类/子聚类内均匀分布）。如果 \( Z \) 本身在聚类内聚集（比如治疗人群中的白种人比例差异大），那么 \( Y|Z \) 可能丧失NEC结构。
随机化层级假设：设计者可以选择将 \( K \) 个聚类按1:1比例随机分配处理/对照（聚类层随机化）；或在每个聚类内将m个子聚类随机分配（子聚类层随机化）；或在每个子聚类内将n个个体随机分配（个体层随机化）。论文称，其公式适用于这三种情况，且不需要对处理分配机制做任何随机化以外的假设（即处理分配完全随机化或者有限制的区组随机化）。
与已有文献的比较：
相比 Heo et al. (2020)：放宽了“仅关注聚类水平修饰因子”、“仅限聚类层随机化”的限制；增加了子聚类层与个体层修饰因子的设计公式；放松了排他性假设。
相比 Tong et al. (2022)：从两水平（聚类-个体）扩展到三水平（聚类-子聚类-个体）。
相比 Li et al. (2021)：从平均效应检验扩展到异质性检验。

主要结果¶

定理1（核心结果，Theorem 1）：设交互项系数的估计为 \( \hat{\beta}_3 \)，在给定的设计参数（\( K, m, n, \rho, \rho_s \)）和二分效应修饰因子的情况下，且在H0: \( \beta_3 = 0 \) 下，\( Var(\hat{\beta}_3) \) 的渐近表达式具有如下的封闭形式（以修饰因子在参与者水平、随机化在聚类水平为例）：

\[Var(\hat{\beta}_3) = \frac{4 \sigma^2_{Y|XZ}}{K m n} \times \left[ 1 + (n-1)\rho_s + n(m-1)\rho \right]\]

其中： - \( \sigma^2_{Y|XZ} \) 是模型中除去 \( X \) 和 \( Z \) 固定效应后的条件残差方差，由 \( \sigma_c^2 + \sigma_s^2 + \sigma^2 \) 减去被固定效应解释的部分得到（闭式由β1和β2的参数决定，但本文将其视为一个整体符号）。 - 括号内即为设计效应（DEFF），描述了当修饰因子在最低层级时，检验异质性需要膨胀的方差倍数。

定理2和3：分别是修饰因子在子聚类水平和聚类水平时的方差公式。三者之间的差异非常清晰地反映了不同层级修饰因子对检验效能的影响，例如： - 当修饰因子在聚类层时，DEFF会更大（因为处理分配和修饰因子在同一层级变动，全信息被聚类数限制）。 - 当修饰因子在个体层但随机化也在个体层，DEFF会降至最小（因为此时每个个体独立提供对交互项的贡献）。

几乎最重要的工程结论：论文的Table 1 和 Figure 2 给出了一个反直觉的设计启示：对于检验异质性，增加每个聚类下的子聚类数 \( m \) 比增加聚类数 \( K \) 能更高效率地提高检验效能（在预算约束下）。这与平均效应检验的经典结论（\( K \) 是主导因素）截然不同，因为异质性检验的方差涉及处理分配与修饰因子的交叉层级变异，而这种交叉变异在低层级（子聚类/个体）上更富集。这个结论被清晰地嵌入在方差公式中：对于中-低水平的 \( \rho \) 和 \( \rho_s \)，\( m \) 在分母里的出现使得其对 \( Var(\hat{\beta}_3) \) 的影响力超过 \( K \)。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线（3-5步逻辑主干）:

第一步：模型设定与方差分解。把线性混合模型写成矩阵形式 \( Y = X \beta + Z_{ranef} u + \epsilon \)。将变异分解为固定效应部分（\( \beta_0, \beta_1, \beta_2, \beta_3 \)）和三个随机效应分量（\( u_i, v_{ij}, \epsilon_{ijk} \)）的独立加性组合。这一步是教科书式的。
第二步：条件方差计算。在固定效应设计矩阵 \( X \) 和 \( Z \)（修饰因子）给定的条件下，计算估计量 \( \hat{\beta}_3 \) 的渐近方差 \( Var(\hat{\beta}_3 | X, Z) \)。这使用了广义最小二乘（GLS）估计量的闭式：\( Var(\hat{\beta}) = (X^T V^{-1} X)^{-1} \)，其中 \( V = Var(Y|X, Z) \) 是NEC结构的协方差矩阵。因此核心问题是计算 \( (X^T V^{-1} X)^{-1} \) 的 \( (3,3) \) 元素（对应交互项系数）。
第三步：解析V的逆矩阵。关键难点：\( V \) 是一个 \( (Kmn) \times (Kmn) \) 的块对角阵（每个聚类一块），且每个块本身又具有双层可交换结构。计算 \( V^{-1} \) 在显式上可通过对方的差分量化的谱分解来完成——利用NEC结构的性质，可以得到 \( V^{-1} \) 的解析解。这一步非常代数化，但作者通过引理2给出了 \( V^{-1} \) 的封闭表达式。
第四步：代入设计矩阵。将 \( X \)（n+1设计矩阵：一列处理、一列截距）和 \( Z \) 的特定结构（按层级的重复模式）代入 \( (X^T V^{-1} X)^{-1} \)，通过复杂的代数运算，得到 \( Var(\hat{\beta}_3) \) 的闭式。作者的推导在附录A中呈现，分9个case（Case 1-9）进行。
第五步：推广到检验效能公式。在 \( H_0 \) 下，\( \hat{\beta}_3 / SE(\hat{\beta}_3) \rightarrow N(0,1) \)；在本地替代假设 \( H_A: \beta_3 = \delta / \sqrt{N} \) 或固定替代假设下，非中心参数的闭式可直接由 \( Var(\hat{\beta}_3) \) 推出。因此样本量公式是：
\[K = \frac{(z_{\alpha/2} + z_{\beta})^2 \times 4\sigma^2_{Y|XZ} \times DEFF}{m n \delta^2}\]
对于给定 \( \delta, \alpha, 1-\beta, m, n, \rho, \rho_s \)。

关键跳跃点: - 最重要引理：Lemma 2 — \( V^{-1} \) 的谱分解。作者假设 \( V \) 由三个方差分量参数化，然后给出了 \( V^{-1} \) 的解析形式。这是一个纯代数结果，其正确性依赖于NEC结构的可逆性条件（即 \( \sigma_c^2, \sigma_s^2, \sigma^2 > 0 \) 或者 \( \rho, \rho_s \) 不能使矩阵奇异）。论文没有证明这个引理（声称是“well-known in mixed model theory”，并引用 Harville 1976的手稿），所以这是数学上依赖已有文献的结果。 - Case 6（修饰因子在个体水平、随机化在子聚类水平）的方差表达式：这是唯一一个同时涉及跨两个下层级变异的复杂Case。作者在这一Case下需要同时处理处理分配 \( X \)（在子聚类层变化）和 \( Z \)（在个体层变化）的交互项，导致DEFF的表达式中出现了 \( m \) 与 \( n \) 的交叉项 \( m n \) 分母和 \( [1+(n-1)\rho_s + n(m-1)\rho] \) 分子。此处的代数推导最为冗长，但最终公式非常整洁。 - 条件差的渐进性假设：论文的真空公式基于一个渐近理论：\( K \rightarrow \infty \) 且 \( K, m, n \) 均趋于无穷但 \( m\) 和 \( n \) 相对于 \( K \) 增长得更慢。作者没有显式证明这个渐近框架的合理性（即他们采用“设计基于渐近公式”的实践范式），而是通过模拟验证当 \( K \geq 10 \) 时公式已经相当准确。这是一个软跳跃——如果 \( K \) 很小（如4-6个诊所的实验），公式的偏差可能较大，但这是有限样本推断的通病。

技术技巧点名:

谱分解 / 特征值：用于求 \( V^{-1} \)。没有使用一般的Cholesky或SWEEP操作，而是利用了NEC结构可对角化的性质，这大大简化了计算。
方差分解的ANOVA表示：核心技巧是把 \( Var(Y) \) 分解成三个相互正交的方差分量，然后对交互项系数 \( \hat{\beta}_3 \) 使用ANOVA表中的期望均方（EMS）的经典结论来获得它的方差。这不是M-estimation标准路线，而更接近实验设计中的“期望均方方法”——适合封闭公式推导，但无法直接推广到非正态情形。
指数族Exp与MLE的Fisher信息阵近似：虽然作者说“asymptotic covariance matrix”，实际上并没有使用Fisher信息或似然函数，而是直接采用了给定 \( X, Z \) 条件下的GLS公式。这意味着协方差公式的“渐近性”仅来自K趋于无穷、固定频率估计量的收敛性，而不是来自MLE的高阶展开。这是一个“巧用信度近似但避免似然理论”的技巧。

真实例子与应用¶

本文包含两个真实数据集的应用示例：

例子1：Latino Health and Literacy Trial (LHALT) —— 来自美国社区卫生中心的健康素养试验。 - 数据/场景：三层结构：社区卫生中心（聚类）→ 健康素养教练（subcluster）→ 参与者（个体）。随机化在聚类水平进行（16个诊所被随机分配：8个处理=一对一健康素养辅导，8个对照=常规治疗）。效应修饰因子是参与者水平的衡量——糖尿病状况（有/无），发表于 Li et al. (2022, TRIALS) ，引用在正文中：

“In this trial, the effect modifier was a participant-level characteristic … and the outcome was the post-intervention glycemic control as measured by Hemoglobin A1C.” - 如何使用本文方法：设计者在16个诊所、每个诊所下5个教练、每个教练下10个参与者的设计下（即 \( K=16, m=5, n=10 \)），使用本文的公式（Case 6：修饰因子在参与者层、随机化在聚类层）计算了检测糖尿病亚组间差异所需的效能。计算结果为在这些参数设定下，检验效果修饰的效能为80%（在5%显著性水平、假设交互项效应大小 \( \beta_3 = 0.4 \) 变化单位）。 - 得到的结果：证实了原试验有足够的效能检测异质性；同时也展示了一个替代设计（如果增加 \( m \) 到8或10）能将效能提升至85%以上。 - 这个例子想说明什么：展示本文方法对真实设计问题的可操作性——设计者可以事后验证效能，并探索不同设计参数的边际收益。

例子2：HIV Prevention Trial —— 用于预防HIV传播在多个非洲国家的基于诊所的试验。 - 数据/场景：三层结构：诊所（聚类）→ 医生（子聚类）→ 患者（个体）。随机化在子聚类水平进行（同一诊所内不同的医生被随机分配处理/对照）。效应修饰因子是子聚类水平的基线与医院特征（估计为抑郁水平高/低），这在本文的术语里是“subcluster-level moderator”。 - 如何使用本文方法：设计者想引入一个额外的修饰因子（按抑郁程度分层），并需要计算在现有设计下检验异质性的效能。作者使用Case 8：修饰因子在子聚类水平、随机化在子聚类水平，并使用先前的ICC估计值（来自先前文献）来计算效能。 - 得到的结果：计算结果揭示：若保持原设计参数，检验抑郁亚组间差异的效能仅为45%，低于常用的80%阈值。这说明原设计不足以支撑对异质性的确认性分析，需要扩大样本量。 - 这个例子想说明什么：展示本文方法在前瞻性设计调整中的用途——研究者可以在方案定稿前发现异质性分析的局限性，并据此增加医生数或患者数。

总结：两个例子是一正一反：LHALT展示了设计充分、效能充足；HIV试验展示了设计不充分、需要修订。它们覆盖了不同的修饰因子层级和不同的随机化层级，验证了公式对两类情况的统一适用性。

🔎 结论是否比证明窄¶

condition to claim gap: 论文证明的部分只适用于线性混合模型 + 连续结果 + 二分效应修饰因子 + NEC相关结构。但在引言和摘要中，作者将其描述为“broadly applicable to the evaluation of cluster-level, subcluster-level, and participant-level effect modifiers”。这严格来说是不矛盾的（因为公式确实涵盖了这些层级），但忽略了“仅在模型假设下成立”这一条件。如果一个实际试验用logistic回归分析二分类结果，或使用无结构化协方差矩阵，本文的公式将直接失效。
另一处窄化的claim：论文声称公式可以用于“randomization at any level”，但其推导假设了随机化是完全的（等效于二元处理指示间的独立性在群间成立）。对于受限随机化（如设计中使用最小化法/随机化区组）的设计，处理分配的方差会与这里的 \( \pi(1-\pi) \) 不同，因此公式也会轻微偏差。作者没有讨论这种偏离。
正文明确交代的局限：Section 5（Discussion）第二段：“Our derivations rely on the assumption of nested exchangeable correlation structures, which may be violated in certain practical settings where correlations are not uniform within clusters … investigating the robustness of our formulas under misspecified correlation structures is an important area for future work。” 这表明作者知晓其结论的稳健性界限。

四、开放问题（点到为止，扎根具体语句）¶

非连续型结果的非线性模型异质性检验：本文公式局限于“线性混合ANCOVA模型+连续结果”。要扩展到二分类结果（如logistic回归的交互项）、计数结果（Poisson/负二项）或生存时间的结果，其渐近方差公式会是什么形态？扎根于正文“Our model can be extended to binary outcomes … however, the derivation of a closed-form variance formula is considerably more challenging”（Section 5）。
放松共同相关结构假设：当真实的组内相关不是“可交换”的（例如，遵循时间序列的AR(1)结构，或在子聚类间有方向性相关——如诊所→医生→患者的级联相关）时，本文的DEFF公式会偏差多少？有没有一个更一般的、基于影响函数或M-估计的方差公式可以容纳任意协方差结构？扎根于Section 5的第二段：“investigating the robustness of our formulas under misspecified correlation structures is an important area for future work”。
多重效应修饰因子与多重检验校正：本文只考虑了一个（二分）修饰因子。当研究中有多个预先指定的亚组时，检验对哪个交互项的效能最高？多重比较校正（如Bonferroni）后的样本量公式该如何推导？正文未涉及此点，但这是确认性异质性分析的常见实际挑战。
连续型效应修饰因子的推广：本文限于二分修饰因子（ \( Z \in \{0,1\} \) ）。对于连续型修饰因子（如年龄、BMI），检验无异质性的假设是 \( H_0: \beta_3 = 0 \)（线性交互项）。连续的 \( Z \) 会使得设计矩阵的行内相关性更为复杂，因为每个个体 \( Z_{ijk} \) 都不同。方差公式将依赖于 \( Z \) 的分布（如二阶矩）。这是自然的扩展方向，但需要额外的矩条件。

Maintained by 陈星宇 · Homepage · Source on GitHub