Selecting the optimal longitudinal cluster randomized design with a continuous outcome: Parallel-arm, crossover, or stepped-wedge¶

作者: Jingxia Liu, Fan Li, Siobhan Sutcliffe, Graham A Colditz
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 6/10
机构绿灯: Washington University in St. Louis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251360409

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是纵向聚类随机试验（longitudinal cluster randomized trials, LCRTs）的设计最优性问题。核心科学问题是：在给定预算（成本结构）和期望统计功效（或反之）的条件下，如何确定最优的设计参数——簇数（number of clusters, $I$）、每簇每周期人数（cluster-period size, $m$）、序列数（number of sequences, $L$），以最小化成本或最大化功效。其数学基础是基于广义估计方程（GEE）的边际模型，用块交换相关结构刻画同一簇内个体跨时间点的相关性。当前成熟度已从单设计（平行臂）的独立优化发展到多设计（平行 / 交叉 / 步进楔形）的公平比较与全局最优搜索。

发展脉络（history）¶

将intro串成的线：

奠基工作——成本-功效框架的建立：Raudenbush (1997) 与Liu & Liang (1997) 等人最早在聚类随机试验中引入成本函数来优化样本量，奠定了用“最小化成本给定功效”或“最大化功效给定成本”来定义最优设计（OD）的范式。平行臂设计下OD已有封闭解。
主要进展——三种纵向设计的独立优化：
平行臂（Parallel-arm, PA）：已有成熟的最优簇数与簇-周期规模的封闭公式（Raudenbush & Liu 2000; Heo & Leon 2008）。
多次周期交叉试验（CRXO）：Parija, Girling 等人 (2006, 2014) 在成本框架下研究了封闭队列与重复横截面两种变体的OD，给出了搜索算法。
步进楔形（SW-CRT）：Hooper, Copas (2013) 与 Li et al. (2016, 2018) 拓展至SW-CRT，发现增加处理序列数 $L$ 超过 $T-1$ 时成本剧增；最优 $L = T-1$ 的结论在这一簇工作中逐步确立。
当前 frontier——全局比较与“哪种设计更优”：上述工作各自独立，未在同一GEE结构下公平比较三种设计。本文（Liu et al. 2024）填补的正是这一缺口：它为六种设计（PA / CRXO / SW-CRT 各含 closed-cohort 与 repeated cross-sectional 变体）开发了统一搜索算法，并首次回答了“全局最优设计是否存在”这个问题——答案是：最优封闭队列CRXO（closed-cohort CRXO）兼具最低成本和最大功效。
本文的位置：它不是发明新估计量，而是在已有GEE框架下整合、比较、并推广OD算法。作者将其frame成“为实践者提供选择LCRT设计的系统指导”。

子线索聚类¶

这些被引文献大致落在3条子线索上：

线索1：平行臂LCRT（PA）的最优设计。代表作：Liu & Liang (1997), Raudenbush & Liu (2000), Heo & Leon (2008)。这类工作提供了基线：成本结构、封闭解、效果量影响。作者把它们当作“最简对照组”。
线索2：多次周期CRXO的最优设计。代表作：Parija (2006), Girling & Smith (2014) 等。这类工作引入了“处理序列（treatment sequences）”的概念，并开始关注封闭队列与重复横截面的区分。
线索3：SW-CRT的最优设计。代表作：Hooper & Copas (2013)（最早将SW作为替代方案）、Li et al. (2016, 2018)（在成本框架下的精确OD）、Girling (2018)（更一般的效率表达）。Li et al. (2018) 已明确提出SW-CRT下最优序列数 $L = T-1$，而本文用统一条件证实了这个结论，并推广到横截面变体。

这个方向在追问的核心问题¶

(Q1) 成本函数的不确定性建模：成本参数（招募、干预、随访、邮寄等）常来自事后估计，其波动如何影响OD的稳健性？目前所有先验论文都假设成本是已知常数——包括本文。
(Q2) 不同相关结构对结论的敏感性：块交换相关仅用三个参数 ($\alpha_0, \alpha_1, \alpha_2$) 刻画衰减与稳定性。如果换成更一般的衰减结构（如AR(1) + 随机截距），全局最优会改变吗？
(Q3) 小样本修正：GEE是渐近方法，在小簇数 $I<20$ 时功效公式常低估所需簇数。本文OD算法基于渐近正态逼近，未引入小样本修正（如Kauermann & Carroll (2001) 的方差修正）。
(Q4) 多臂/多水平处理的扩展：目前所有OD框架都只考虑两个处理条件（treatment vs control）。多水平处理或序贯分配情形尚无简单推广。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口 frame 成：“PD、CRXO、SW-CRT各有独立OD研究，但缺乏在同一框架（相同GEE、相同相关结构、可比成本结构）下的全局比较。” 因此本文成为“显然的下一步”——统一算法、直接比较、给出实践建议。

淡化/回避的竞争路线： - 非GEE方法：如随机效应模型（mixed effects model）下的极大似然或REML估计。作者将其限制在GEE框架内，回避讨论不同估计方程对OD结论的差异。 - 更复杂的成本结构：如成本中包含开簇固定成本（在本模型中已经含有$c_f$，但未考虑成本函数非线性（如招募成本随$m$递增非线性））。作者假设成本与控制组样本量成正比。 - 效率理论的深入：没有讨论半参数效率界、最优工具变量、或针对设计矩阵的最优加权。GEE以exchangeable+独立工作相关（working correlation）假设为基础。

什么明显该被引/该存在、却没出现在intro里？ - 确定性搜索、ADMM等直接最小化“计算-统计权衡”目标函数的做法——未出现。本文算法是简单的枚举 + 公式计算，未涉及高级优化。 - 与半参数效率理论（如Shoemaker & Buse 1994; Hernán & Robins 2020）的因果推断角度——未出现。长期效应（treatment effect over time）与设计矩阵的关系、IPW估计在OD问题中的对应物——未出现。本文假设time-invariant treatment effect，未引入如何处理交互效应或time-varying effect的讨论。

张力¶

未见明显对立引用。 这一子领域的文献互相承袭——CRXO与SW-CRT的最优设计结论在各自子领域内是共识（$L = T-1$最优）。两篇被引（Hooper 2013 vs Li 2018）早期对SW-CRT最优序列数判断不同，但Li et al. 2018已统一。未观察到交叉方向或不同偏误模式下结论矛盾的情形。因此“找冲突”不是这条线的标志性任务。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）： - $T$：总时间周期数（periods），整数。每个时期可收集数据。 - $I$：簇（clusters）总数，整数。是核心优化参数之一。 - $L$：处理序列数。指在整个试验中，从控制转到干预的序列数目；在SW中为$L \le T$，当$L = T-1$时满足每期都有一个序列开始治疗（full step）。在CRXO中，处理序列依时间切换多次。 - $m$：每簇每周期样本量（cluster-period size），即每一簇在每一时期内纳入的参与者数量。假设各簇各期相同。是核心优化参数之一。 - $\beta_1$：处理效应（treatment effect estimand），连续结局$Y_{ijk}$随处理状态+1 vs -1的平均差值。假设时间不变（time-invariant），即处理效应不随时间变化。 - $c_f$：开簇固定成本（固定成本，非每参与者）。 - $c_p$：每周期开簇成本（试验每期成本）。 - $c_{1Z}$：每位参与者招募 + 数据采集成本（控制组）。 - $c_2$：处理分配单位成本（如干预材料、培训等）。与$m$无关的固定单位成本。

模型：边际模型，通过GEE估计：

\[Y_{ijk} = \beta_0 + \beta_1 X_{jk} + u_{j}^{(1)} + u_{j}^{(2)} t_{ijk} + \epsilon_{ijk}\]

其中 $X_{jk}$ 为第$j$个簇在第$k$期的处理指示（+1/-1或0/1依编码）；$u_{j}^{(1)}, u_{j}^{(2)}$为簇随机截距与随机斜率；$\epsilon_{ijk}$为个体水平残差。但GEE估计时，作者采用的是块交换相关结构：同一簇$j$内各期各人的相关性由三个参数刻画： - $\alpha_0$：同一时期不同人的相关系数 - $\alpha_1$：不同时期同一人的相关系数（跨期自相关） - $\alpha_2$：不同时期不同人的相关系数

可观测数据： - 研究者实际能观测的是：按试验设计确定的处理分配矩阵 $\mathbf{X}$（设计矩阵） + 对应各人各时期的结局 $Y_{ijk}$ + 成本参数（由基金会或医院提供）。簇数 $I$、每期每簇样本量 $m$、序列数 $L$（及 $T$）是设计参数（可由决策者控制）。 - 潜在/不可观测：假定处理效应不随时间变化（time invariance），这是识别问题——如果处理效应是time-varying（$Y_{ijk}$ with $X_{jk}$ 可含交互），则本文的GEE估计对$\beta_1$的识别假设更强；作者的模型假设中没有包含time-treatment交互项。此外，块交换相关结构假定一个简单双曲衰减模式，不符合实际中可能出现的AR(1)截距+随机效应混合模式。

第二步：讲最小内核¶

最小特例：$T=3$ 期、两序列（$L=T-1=2$）下的步进楔形设计，对比平行臂设计（PA）。

为什么这是最小内核： - $T=3$ 是步进楔形的最小可能（少于3期无意义——需至少2个阶段传递）。 - $L=2$（即常见的“两阶段步进楔形”，phase 1：序列1入干预，序列2仍对照；phase 2：全部入干预）使这个例子退化成：对于每个簇$j$，它的处理状态随时间只有一个切换点。而封闭解条件下，这时只需要优化$I$和$m$，算法几乎退化为公式。

设定：假设成本函数为 $C = I c_f + I T c_p + I T m c_{1Z}$（假定无额外处理分配成本 $c_2=0$ 以便看结构）。目标：固定成本 $C_0$ 下最大化功效（等价于最小化处理效应方差）。

可观测变量列回：设计矩阵：有$I$个簇，每个簇在T=3期内的处理分配由序列决定。

核心推导（在这个最小特例内的直觉）： - SW的方差公式 $Var(\hat{\beta}_1)$ 由设计矩阵 $X$ 的逆协方差加权形式决定。 - 在块交换相关下，处理效应的GEE方差表达式化成：

\[Var(\hat{\beta}_{1,SW}) \propto \frac{1}{I T m} \cdot \frac{1 + (m-1)\alpha_0 - m \alpha_1}{1-\rho}\]

其中$\rho$是由设计矩阵 $X$ 和序列数 $L$ 引入的“设计效率”。对于PA，方差公式更简单（所有人在控制或所有人都接受的比值）。 - 通过比较，发现SW的方差公式中$\rho$不可忽略，但$L=2$（等于T-1）时$\rho$最小，因而方差最小。 - 于是本文的关键结论（在此特例中的形式）是：控制器下，在给定簇数I和每簇人数m时，SW能比PA提供更小方差（即更高功效），因为交叉设计允许每个簇既是控制又是干预，增强了设计的对抗混淆能力；对比CRXO，SW使控制-干预的分配更平衡，但CRXO允许更多次换组（$\ge 2$次交叉），因而方差更小。

在这个最小特例下证明的简化： - 如果假设$\alpha_0=0$（簇内个体无同期相关性）且$\alpha_1=0$（无跨期自相关），则所有$Y_{ijk}$独立同分布。此时GEE退化为OLS，三种设计的比较仅归结于设计矩阵的平衡性比较——CRXO因为两个序列来回切换，达到最完全平衡；SW仅有一个切换，平衡性介于PA与CRXO之间。这时成本-功效比较简化成一个非常直观的结论：CRXO在纯独立假设下已击败SW与PA。本文的一般情形只是在这个直观的极限例子基础上加入块交换相关带来的效率损失修正。

三、这篇论文做了什么¶

三句话¶

① 研究了什么：在同一个GEE成本-功效框架下，公平比较六种纵向聚类随机设计（平行臂、多次周期CRXO、步进楔形；各含封闭队列与重复横截面变体）的最优设计——定义为给定功效下成本最小化、或给定预算下功效最大化② 核心工具/方法：基于块交换相关结构的GEE，为每种设计开发OD搜索算法（对于PA/CRXO：公式+一维搜索，对于SW：结合优化准则的枚举或公式推导）③ 主要结论：最优封闭队列CRXO是全局最优设计，同时实现最低成本和最高功效；建议在SW中使用序列数 $L=T-1$ 以降低成本。

关键设定与假设¶

假设	统计含义	与已有文献的关系
GEE边际模型，块交换相关	相同簇内两个体间相关性只由是否同周期、是否同人决定（$\alpha_0, \alpha_1, \alpha_2$），且$\alpha_1 > \alpha_2$（同一人的自相关大于不同人跨期相关）。	这是Li et al. (2018) 使用的基本假设，使方差有封闭形式；但比AR(1)+随机截距较窄。
处理效应时间不变（time-invariant）	线性模型不含 time × treatment 交互，假定处理效应在试验各期恒定。	Hooper & Copas (2013) 使用了相同假设，但这一假设在实务中关键——若处理效应随时间增强或衰减，最优设计可能改变。
成本函数为线性：$C = I c_f + I T c_p + I T m c_1 + I m_L c_2$	开簇成本+每期成本+招募成本+处理分配成本；所有参数是已知常数。	与Parija (2006）、Li et al. (2018）一致，但成本非线性（如招募成本随$m$剧增）未考虑。
样本量公式基于正态近似	簇数$I$足够大，$T$ 固定，$m$ 在合理范围，GEE的Wald检验功效可用Z-分数近似推导出公式。	此近似对小簇数（$I < 20$）可能降低功效估计精度，作者未进行小样本修正。
每个簇-期的参与者数 $m$ 在各簇各期相同	平衡设计假设，可简化OD算法。	若允许不同$m$，可能会优化更复杂的成本结构，但这类拓展的封闭解更难得到。OD文献一般保持此假设。
处理分配为确定性分配（完全依设计矩阵）	没有考虑非依从性或处理切换非依从。	这是几乎全部LCRT设计文献的默认假设。

主要结果¶

定理形式的结果（陈述+直觉）：
推论1：在给定功效与成本参数下，六种设计的OD中存在全局最优设计（唯一解)；它是最优封闭队列CRXO。直觉：CRXO允许每个簇经历多次切换，使每个簇既作为自身对照（cross-over）、又保留簇间变异信息，同时增加序列打信息使效应估计方差最小。
推论2：SW-CRT的最优序列数 $L$ = 总周期数 $T-1$。作者从OD公式推导出这一结论，与Li et al. (2018）一致，并扩展至重复横截面变体。直觉：当$L$接近$T$时，一些序列在最后一个周期才进入治疗，使可控的对照数据量锐减，设计效率下降。
推论3：在成本-功效比较中，封闭队列（closed-cohort）比重复横截面（repeat cross-sectional）更优（成本更低或功效更高）。直觉：封闭队列利用个体水平连续观测减少方差（$\alpha_1 > \alpha_2$ 时，跨期同人相关性高于跨期不同人，所以封闭队列的信息更丰富）。
量化结论：通过数值例（参数：$\alpha_0=0.1, \alpha_1=0.5, \alpha_2=0.05$，成本$c_f=2000, c_p=500, c_1=100, c_2=0$，检测差异0.25标准差，power=0.80，significance=0.05，$T=5$）得到：
最低总成本（OD设计）：最优CRXO封闭队列 ≈ 2.45e5，最优SW ≈ 2.87e5，最优PA ≈ 3.78e5。
最大功效（固定预算 $2e5$）：最优CRXO封闭队列 power ~0.84，SW ~0.79，PA ~0.72。
SW中使用序列数 $L=T-1$ 相比$L=T$节省约5–10%成本。

证明路线与技术技巧¶

整体路线（3步逻辑主干）：

方差公式推导：对于每种设计，在块交换相关假设下，从GEE的鲁棒方差估计出发，推导 $Var(\hat{\beta}_1)$ 的封闭表达式——表示为 $I, m, L, T$ 与三个相关系数的显式函数。
关键公式示例（PA封闭队列）：
\[Var_{PA} = \frac{1}{I} \cdot \frac{1}{T m} \cdot \frac{1 + (m-1)\alpha_0 - m \alpha_1 + m T \gamma}{(\text{处理平衡因子})}\]
其中 $\gamma = \alpha_2 - (\alpha_1 / T)$ 是跨期相关修正项。
类似地，CRXO与SW的方差公式加入一个由设计矩阵确定的“设计效率项”$DE$。
成本函数嵌入：将 $Var(\hat{\beta}_1)$ 代入功效公式 $z_{1-\beta} = \frac{\beta_1 \sqrt{I f(m, L)}}{SE}$。然后将其与成本函数 $C(I, m, L)$ 联立，用Lagrange乘子法求出$I$关于$m$的最优显式表达（$I^* = \text{argmin} C(I,m)$），进而得到关于$m$的最优条件公式（或二维/三维表面）。
算法化搜索：对PA/CRXO（$L$固定），建立$m$的闭式最优公式、再求$I$，得到OD；对SW（$L$也是可变），使用枚举$L$（1到$T$），对每个$L$内部同样用闭式-搜索两步，最后取全局最优。

关键跳跃点： - 最难部分：从一般设计矩阵推导SW的方差公式中的设计效率DE。GEE方差表达式是对 $\sum X'V^{-1}X$ 取逆，其中 $V$ 是块对角阵（每簇$T\times T$主块），与处理序列$L$和$T$组合有关。关键引理是：在块交换相关下，$V^{-1}$的解析式可写成封闭形式（已知结论，来自Li et al. 2018的引理1）。作者将此引理与$X_{jk}=\pm 1$的编码结合，获取$X'V^{-1}X$的封闭形。 - 内嵌的$m$优化公式推导：实际上是对$I$解一个一次方程，再回代入成本函数获取$m^*$。这需要解一个一元三次方程——算法部分给出的是检验$m$从1到$m_{\max}$的枚举，因为封闭解对$m$整数约束不易处理。

技术技巧点名： - 封闭形式的协方差逆矩阵（来自块交换相关结构专有的对角线复合对称性）。 - Lagrange乘子法（用于成本约束下的最优解，但仅限连续松弛）。 - 枚举+公式混合算法（处理$L$与$m$整数的离散问题）。 - “设计效率”概念：将不同设计的设计矩阵间的效率差异，用一个标量（0到1之间）刻画，方便比较。

真实例子与模拟¶

无真实数据例子，但含数值模拟： - 本文确实包含一批数值例子（基于上述设定参数的展示），但它们不是真实临床试验数据。作者明确说明这是“illustrative examples using hypothetical parameter values”以展示比较框架。因此本文不是应用型实证文章。

模拟场景： - 展示了两部分：（1）成本最小化OD：固定功效=0.80，对不同设计分别显示最优$(I^*, m^*, L^*)$组合及其总成本。对比显示最优封闭队列CRXO成本比SW低15%，比PA低35%。（2）固定预算下最大功效：证明相同预算$200,000下，最优CRXO封闭队列达到~0.84，SW约0.79，PA约0.72。 - 敏感性分析：改变$\alpha_0, \alpha_1, \alpha_2$，发现次序不受影响（CRXO最优的结论稳健），但绝对值差异变动（高$\alpha_0$更突显PA的劣势；高$\alpha_1$增强封闭队列相对于横截面的优势）。

🔎 结论是否比证明窄¶

存在一处： - 作者 claim “全局最优设计是闭式队列CRXO”。这个证明在以下条件内严格成立：①块交换相关结构；②GEE独立性工作相关（假设实际上作者已使用，但没声明工作相关矩阵类型）；③处理效应时间不变；④成本线性。作者在讨论中提及“若处理效应为 time-varying 则设计选择可能不同”——这是一句 warning，但未展开。因此严格的结论定理仅在 time-invariant 条件下证明。

另外，作者假定CRXO的设计可以任意多周期（$T$），但实际上当$T$奇数时 CRXO 设计存在不均衡（最末期有可能一个序列是处理、另一个是对照，造成不对称）。作者用$T$偶数情形展示优势，但对于9期、11期等奇数周期，CRXO的最优性是否依然成立？作者未做显式探讨（虽可推断仍优）。

四、开放问题¶

成本结构不确定性下的OD稳健性：所有成本参数$c_f, c_p, c_{1Z}, c_2$被当作已知常数。若这些值本身有估计误差（例如招募成本因地点波动，或事后审计算出的实际成本高于预算），全局最优对成本的不确定性是否敏感？本文的敏感性分析仅展示了相关系数变动，未在成本参数上进行。扎根于 Section 3 成本函数假设的单一确定性假设。
小簇数情形下的OD修正：本文所有功效公式及OD搜索基于GEE渐近正态近似，未引入小簇数下Kauermann & Carroll (2001) 类型的方差修正。若$I<20$（常出现在中小型LCRT中），最优设计可能变化。扎根于本文的样本量公式都使用标准正态分位数，未提及有限样本调整。
非块交换相关结构下的转移：作者分析限于块交换相关。实际中，随时间周期性间隔的姊妹室内设计可能更适合AR(1)+随机斜率，那时CRXO的最优性是否仍然成立？可考虑使用模拟或数值积分框架验证。扎根于 本文明确指出在“block exchangeable”假设下，并提及“其他相关结构将导致不同结论”——但未展开。
(延伸) 多水平处理或多臂试验：考虑更广泛的情形——三个或更多处理条件（如剂量水平）下的LCRT设计，或者至少二级层次（cluster-within-cluster），其成本-功效框架如何构建，OD搜索是否有封闭解？扎根于 本文仅限定两个处理条件，并在 Discussion 末尾提及“扩展至多水平”留待未来工作。

提醒：要验证上述(1)是否为真缺口，可快速翻阅同时期Li et al. (2021)在Statistics in Medicine上针对SW-CRT的不确定性成本敏感性分析——如果已覆盖，则(1)可能已被解决。

Maintained by 陈星宇 · Homepage · Source on GitHub

假设	统计含义	与已有文献的关系
GEE边际模型，块交换相关	相同簇内两个体间相关性只由是否同周期、是否同人决定（\(\alpha_0, \alpha_1, \alpha_2\)），且\(\alpha_1 > \alpha_2\)（同一人的自相关大于不同人跨期相关）。	这是Li et al. (2018) 使用的基本假设，使方差有封闭形式；但比AR(1)+随机截距较窄。
处理效应时间不变（time-invariant）	线性模型不含 time × treatment 交互，假定处理效应在试验各期恒定。	Hooper & Copas (2013) 使用了相同假设，但这一假设在实务中关键——若处理效应随时间增强或衰减，最优设计可能改变。
成本函数为线性：\(C = I c_f + I T c_p + I T m c_1 + I m_L c_2\)	开簇成本+每期成本+招募成本+处理分配成本；所有参数是已知常数。	与Parija (2006）、Li et al. (2018）一致，但成本非线性（如招募成本随\(m\)剧增）未考虑。
样本量公式基于正态近似	簇数\(I\)足够大，\(T\) 固定，\(m\) 在合理范围，GEE的Wald检验功效可用Z-分数近似推导出公式。	此近似对小簇数（\(I < 20\)）可能降低功效估计精度，作者未进行小样本修正。
每个簇-期的参与者数 \(m\) 在各簇各期相同	平衡设计假设，可简化OD算法。	若允许不同\(m\)，可能会优化更复杂的成本结构，但这类拓展的封闭解更难得到。OD文献一般保持此假设。
处理分配为确定性分配（完全依设计矩阵）	没有考虑非依从性或处理切换非依从。	这是几乎全部LCRT设计文献的默认假设。