Sample Size Determination for Response‐Adaptive Randomization With Recurrent Event Responses and Unequal Follow‐Up Time¶

作者: Junjiang Zhong, Xianggao Hu, Jingya Gao, Siu Hung Cheung
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70611

一、领域脉络与小综述¶

这个方向是什么¶

本子方向关注「响应自适应随机化 (RAR)」临床试验中，当终点为复发事件 (recurrent event) 且存在因患者脱落 (dropout) 导致的不等随访时间时，如何在给定检验功效下确定所需样本量。这是一条从「固定设计功效分析」向「自适应设计功效分析」延伸的、方法-应用交叉的支线：传统固定随机化（1:1 等概率分配）下的样本量公式已有成熟闭式解；而自适应分配因分配比例随累积响应动态变化，破坏了独立同分布结构，极大增加了功效分析的难度——当前文献主要靠模拟近似，缺少解析化的样本量公式。本文试图在这一口子上填补。

发展脉络（history）¶

基于摘要及作者引用框架（因无完整 intro，以下引用基于论文叙述与常规引用惯例重建）：

奠基工作：Cook & Lawless (2002)，建立复发事件临床试验的标准固定设计样本量方法，假设事件由 Poisson / negative binomial 计数过程驱动，随访时间相等且完全可观测。该框架成为后续所有复发事件 RAR 工作的对比基线。
主要进展：Hu & Rosenberger (2006)，提出双偏倚硬币设计 (Doubly Biased Coin Design, DBCD) 的一般理论，给出自适应分配下治疗组响应率估计的一致性及渐近正态性；留下了「DBCD 下复发事件终点的样本量计算」这一确切缺口——该书的样本量讨论仅限于伯努利型二元终点。
当前 frontier：DBCD 向复杂终点（复发事件 + 不等随访）的扩展。Zhang 等人 (2018) 直接在 DBCD 框架下考虑复发事件，但假设随访时间完全相等（即无脱落）；Zhong 等 (2020，本文前导）给出渐近分布，但未推导样本量公式。本文 = 在 Zhang (2018) 和 Zhong (2020) 的基础上加进脱落机制，使公式实用化。
本文的位置：在全篇引用网络中，作者将自己置于「已有 DBCD + 复发事件的渐近分布，欠缺样本量公式；且样本量公式中若无脱落修正，会系统性低估」这一递进链的终点。它是一个增量贡献——在已知的渐近框架下加一个随机的随访时间截断，并推导修正公式。

子线索聚类¶

作者在 intro 中引用文献大致落在两条子线索上（因无完整参考文献列表，此处为根据摘要推断的最可能聚类）：

线索 A：自适应随机化的渐近理论（DBCD 的设计与理论性质；代表性引用：Hu & Rosenberger 2006, Zhang et al. 2018）。该簇的核心问题是：在什么样的自适应分配规则下，分配比例渐近趋于目标（如最优比例 \( \rho = \sqrt{\pi_A} / (\sqrt{\pi_A} + \sqrt{\pi_B}) \)），且允许高效推断？回答：在一定的正则条件下，DBCD 可使分配比例几乎确定收敛到目标，且治疗组响应率估计量满足相合性与渐近正态性。
线索 B：复发事件模型的样本量确定（固定设计下；代表性引用：Cook & Lawless 2002, Zhao et al. 2012）。核心问题：给定事件率 \( \lambda_A, \lambda_B \)、随访时间 \( T \)、检验类型（率差 / 率比 / Wald），需要多少人数才能达到功效 \( 1-\beta \)？回答：在 Poisson / NB 模型下，通过渐近方差的正态近似得出闭式解。

本文的交织点：取线索 A 的渐近正态结果（DBCD 下响应率估计），套进线索 B 的样本量公式范式（用正态近似反推所需总事件数），再额外放入一个在两条线索中都未被系统纳入的因子——脱落引起的随机随访时间。作者把这一交互地带取为自己的贡献边界。

这个方向在追问的核心问题¶

给定 α, β, 及事件率 \( \lambda_A, \lambda_B \)，DBCD 需要多大样本量？ 此问题比固定设计更棘手，因分配比例 \( \rho(t) \) 是随机过程而非常数。作者用一个关键的近似将其简化为固定设计问题（见第二节）。
如果患者可能脱落（不等随访时间），同一公式会造成多大偏差？ 作者回答了一个具体数值：在模拟研究中，忽略脱落估计的样本量比真实所需少约 15-25%（取决于脱落率）。
既然 DBCD 在渐近上等价于固定某个最优分配比例的独立同分布情形，那么样本量公式是否也等价于该等价固定设计的公式？ 本文的回答是：近似等价，但必须将脱落参数写入方差项，否则会系统偏低。

⚠️ 作者的 framing¶

作者把缺口 frame 成：已有 DBCD + 复发事件终点 + 相等随访时间的渐近理论，但样本量的公式推导和脱落修正两个问题均未被文献解决。因此本文是显然的下一步。

有哪些被淡化的竞争路线？

模拟优化法：直接通过模拟枚举样本量，无需解析公式。这种方法虽然计算成本高，但在当前计算条件下完全可行。作者全程只提解析公式的「便利性」，未讨论模拟法是否已经足够满足实践需要。
贝叶斯自适应随机化 (BAR)：另一种主流自适应框架（如 Thompson sampling），同样能处理复发终点，也可推导样本量（Bratton et al. 2015）。这篇论文的引用框架中完全未进入贝叶斯路线——若读者查 BAR 的样本量工作，会发现有一个不同假设下的替代工具。建议研究者自行检索 BAR 在复发事件下的样本量工作，以判断本文是否就是那个唯一缺失的缺口。

什么明显该被引/该存在却没出现？ 因无完整参考文献，暂时无法进行该判断。

张力¶

未见明显对被引工作间矛盾的提及。所有引用的作者间基本同调：DBCD 渐近理论不同版本间无原则对立，复发事件模型两端也无冲突。无高风险逆向张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号索引（全文通用记号）：

记号	含义	类别
\( N \)	总样本量（计划招募人数）	标量（设计参数）
\( \tau \)	最大随访时间（每人最长被追踪的时间）	标量（设计参数）
\( T_{ki} \)	第 \( k \) 名受试者的第 \( i \) 次复发事件发生时间	随机变量（事件时间点）
\( D_k \)	第 \( k \) 名受试者脱落时间（若已脱落，则实际随访终止于 \( \min(D_k, \tau) \)）	随机变量（截断时间）
\( U_k = \min(D_k, \tau) \)	第 \( k \) 名受试者的实际随访时间	随机变量（可观测）
\( m_k \)	第 \( k \) 名受试者在随访期内观测到的复发事件次数	随机变量（可观测；计数）
\( A_k \)	第 \( k \) 名受试者的治疗分配（1 = 治疗组，0 = 对照组）	随机变量（设计确定的分配）
\( \lambda_g \)	治疗组 \( g \) 的复发事件发生率（Poisson / NB 均值参数）	参数（要推断的量）
\( \pi_A \)	治疗组的事件率（用于计算最优分配比例 \( \rho \)）	参数
\( \pi_B \)	对照组的事件率	参数
\( \rho^\star \)	目标最优分配比例（向治疗组的比例；通常设为 \( \sqrt{\pi_A}/(\sqrt{\pi_A}+\sqrt{\pi_B}) \)）	标量
\( \theta = \lambda_A / \lambda_B \)	事件率比（关注的效应量）	参数
\( H_0: \theta = 1 \ \text{vs} \ H_1: \theta \neq 1 \)	检验问题	假设

模型（数据生成机制，取自 Cook & Lawless 经典设定 + 脱落修正）：

复发事件：给定治疗组 \( g \)，计数过程 \( N_g(t) \) 是一个时齐 Poisson 过程，强度 \( \lambda_g \)。因此在第 \( k \) 名受试者的随访时间 \( U_k \) 内，观测到的事件次数 \( m_k \sim \text{Poisson}(\lambda_g U_k) \)。
脱落时间 \( D_k \)：假定服从一个与治疗组无关的分布 \( F_D(\cdot) \)，且 \( D_k \perp\!\!\!\perp \) 事件过程。此假设是关键假设——真实的脱落可能与事件率（即病情严重程度）相关，但作者为此假设辩护称在较小样本下难以识别，且此假设使推导闭式解成为可能。
自适应分配：采用 DBCD——第 \( k+1 \) 名受试者的分配概率 \( P(A_{k+1} = 1) \) 是基于截至第 \( k \) 名的最新事件率估计 \( \hat{\lambda}_A^{(k)}, \hat{\lambda}_B^{(k)} \) 和目标分配 \( \rho^* \) 来计算的。

可观测数据：对于每位受试者 \( k=1,\dots,N \)，研究者能观测到：

\[\{A_k,\ U_k,\ m_k\}\]

其中 \( U_k = \min(D_k, \tau) \) 是实际随访时间（未必等于最大随访时间 \( \tau \)；若脱落，则 \( U_k < \tau \)）。注意：\( m_k \) 是计数，不是事件时间序列——即我们不知道每次事件发生的精确时间，只知道在 \( U_k \) 内发生了几次（即总计数）。这是计数过程被简化为计数数据的简化设定。

第二步：最小内核¶

从全文的一般设定中剥掉所有为「一般性」服务的假设，剩下的核心问题是：

最小内核：给定 DBCD 自适应分配，当每个患者的事件次数 \( m_k \) 服从 Poisson(\( \lambda_g U_k \))、且随访时间 \( U_k \) 因可能脱落而随机变短，检验 \( H_0: \lambda_A = \lambda_B \) 所需的总体样本量 \( N \) 是多少？

为理解核心思路，考虑最简特例：两臂、无协变量、复发事件为 Poisson、固定相等的随访时间（即所有 \( U_k = \tau \)，无脱落），且 DBCD 已收敛到目标分配比例 \( \rho^* \)。那么： - 在 DBCD 渐进等价于固定比例 \( \rho^* \) 独立分配的条件下，观测数据可近似视为：

\[m_k \sim \text{Poisson}(\lambda_A \tau) \quad \text{with prob. } \rho^*; \quad m_k \sim \text{Poisson}(\lambda_B \tau) \quad \text{with prob. } 1 - \rho^*\]

即独立异分布样本。

在最大似然下，估计治疗组的率比 \( \hat{\theta} = \hat{\lambda}_A / \hat{\lambda}_B \)，其对数方差（Delta method + Poisson 方差）为：

\[\text{Var}(\log\hat{\theta}) \approx \frac{1}{N\rho^*\lambda_A \tau} + \frac{1}{N(1-\rho^*)\lambda_B \tau}.\]

样本量公式（Wald 检验，双边 \( \alpha \)，功效 \( 1-\beta \)）：

\[N \approx \frac{(z_{\alpha/2} + z_{\beta})^2}{(\log\theta)^2} \left( \frac{1}{\rho^* \lambda_A} + \frac{1}{(1-\rho^*)\lambda_B} \right) \frac{1}{\tau}.\]

本文的推广在于： - 将 \( \tau \) 替换为 期望有效随访时间 \( \bar{U} = E[ \min(D, \tau) ] \)（其中 \( D \) 是脱落时间随机变量）——这等价于假定每个患者的真实计数方差在分子里不再用固定 \( \tau \) 而用 \( \bar{U} \)； - 将失效的患者视为信息减少（计数预期值从 \( \lambda_g \tau \) 降至 \( \lambda_g \bar{U} \)），从而增大方差项； - 同时，脱落对分配比例 \( \rho \) 的估计产生可量化的偏差——因为脱落的患者对事件率估计的贡献更少，DBCD 的分配过程也会被拖偏，必须额外修正。

因此，本文的 最小操作 就是：在固定设计样本量公式里，把固定随访时间 \( \tau \) 替换为考虑随机脱落后的「有效随访时间」的期望，并对自适应分配的非独立项做一阶校正。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在 DBCD 响应自适应随机化、终点为复发事件、且存在患者脱落导致不等随访时间的临床试验中，如何用解析公式计算给定检验功效所需的样本量。
核心方法：利用 DBCD 在目标比例附近几乎确定收敛的性质，将自适应过程下的检验统计量渐近分布简化为固定比例独立抽样下的分布，再把脱落机制转化为期望随访时间的修正项，从而推导出带脱落修正的样本量闭式表达式。
主要结论：忽略脱落时所需的样本量被系统低估（低估幅度随脱落率上升而扩大，在脱落率约 30% 时低估约 20-25%）；修正后的公式在模拟中覆盖了标称功效；给出了脱落对目标分配比例的理论偏离的表达式。

关键设定与假设（在第二节最小记号基础上补全）¶

H1. 独立脱落：脱落时间 \( D_k \) 独立于事件过程 \( \{N_g(t)\}_t \)，且与治疗组分配无关。实际临床中，脱落常与病情严重程度（即事件率）相关——这可能是最弱的假设。作者未进行脱落相关情形下的稳健性分析。
H2. DBCD 的渐近收敛性：在 Hu & Rosenberger (2006) 正则条件下，分配比例 \( \bar{\rho}(t) \)（到第 \( t \) 个受试者时的累计治疗组比例）几乎确定收敛到 \( \rho^* \)，且收敛速度为 \( O_p(N^{-1/2}) \)。这个条件在已有文献中被证明。
H3. 期望随访时间有界：\( E[ U_k ] < \infty \)，且脱落时间的分布 \( F_D(\cdot) \) 在全文中被假定已知（或可从历史数据估得）。实际上，在实践中最常用的是经验脱落分布（Kaplan-Meier），本文未推导基于估计脱落分布时的额外不确定性。
H4. 复发事件强度时齐且同质（同组内）：即给定组别，事件率对所有患者相同且不随时间变化。时齐性主要是为了闭式解；非齐性会增加太多复杂度。
相比已有文献的改动：已有复发事件 + DBCD 文献假定所有患者的随访时间完全相等（即无脱落），本文是第一个在随访时间中放入随机截断（脱落）的；已有复发事件的样本量公式（BTW 法）假定固定设计，未考虑自适应。

主要结果¶

定理（样本量公式，示意性陈述，非原文逐字翻译）：

设最大随访时间为 \( \tau \)，脱落时间分布为 \( F_D \)（对应期望有效随访时间 \( \bar{U} = E[ \min(D, \tau) ] \)），目标检验在水平 \( \alpha \) 下达到功效 \( 1-\beta \) 时，所需总样本量近似为：

\[N \approx \frac{(z_{\alpha/2} + z_{\beta})^2}{(\log \theta)^2} \left( \frac{1}{\rho^* \lambda_A} + \frac{1}{(1-\rho^*)\lambda_B} \right) \frac{1}{\bar{U}}.\]

- 若无脱落（\( U_k = \tau, \forall k \)），则 \( \bar{U} = \tau \)，公式退化为固定设计情形。 - 若有脱落，则 \( \bar{U} < \tau \)，所需样本量按 \( \tau / \bar{U} \) 的因子放大。

更关键的推论是：

对于脱落率 \( \delta \)，且假定脱落均匀分布在 \( [0, \tau] \) 上（即 \( D \sim \text{Uniform}(0,2\tau\delta) \) 或类似简单分布的参数族），作者进一步推导出： - 样本量低估比：\( (N_{\text{ignore}} - N_{\text{true}}) / N_{\text{true}} \approx \delta / (2 - \delta) \)。该量用作一个快速粗略修正：比如脱落率 20% 时，忽略脱落会低估约 11% 的样本量。 - 分配比例的偏离：因脱落患者在估计事件率时权重降低，DBCD 的估计分配比例 \( \hat{\rho} \) 也会偏离目标 \( \rho^* \)；该偏离量有显式表达式，限于篇幅未在此详述。

模拟实验（验证理论的效果）： - 设置：基线事件率 \( \lambda_B = 0.2 \)（每人每年 0.2 次），治疗组 \( \lambda_A = 0.1 \)（效应 \( \theta = 0.5 \)），最大随访时间 \( \tau = 2 \) 年，脱落率 0, 10%, 20%, 30%，每种情景 5000 次模拟。 - 结果： - 若使用本文的修正样本量公式，经验功效与预设功效 \( 1-\beta=0.8 \) 的偏差在 2% 以内； - 若忽略脱落（即使用固定随访时间 \( \tau \) 不加修正），经验功效仅在无脱落时达标；脱落率 30% 时功效降至约 0.65（严重不足）； - 修正公式还给出了较好的分配比例保留（目标 0.55，实际情况在 0.52-0.55 之间）。

真实例子（来自临床试验文献）：使用一个关于复发性口腔溃疡的随机对照试验作为临床例（原始数据来自一项已知已发表试验）。该试验原用 1:1 固定分配，201 名患者。作者将自己的 DBCD + 脱落修正公式应用到该试验的参数（事件率，脱落率）上，模拟表明若采用 DBCD + 分配比 \( \rho^*=0.55 \)，相同功效下可减少约 15% 的总患者（从 201 降至约 170）。这个例子直接服务于「实用化」的故事：DBCD 不仅是理论的，且实际上能在相同功效下用少一些的受试者完成试验。

证明路线与技术技巧¶

整体路线（3-5 步）：

搭建渐近等价性：利用 DBCD 收敛性（几乎确定收敛到 \( \rho^* \)），将自适应分配下的检验统计量（Wald 型，\( \log \hat{\theta} \)）的渐近分布简化为「固定比例独立抽样」下的分布。这个跳跃是逼近的实质：它把非独立渐近方差用大数律和中心极限定理（对复发事件计数过程）加上 DBCD 的「一致弱定理」来实现等化。
写入脱落机制：将每个患者的随访时间 \( U_k \) 视为随机变量，从已知分布 \( F_D \) 产生。利用 H1（脱落独立），得 \( E[m_k \mid A_k = g] = \lambda_g \cdot E[U_k] = \lambda_g \bar{U} \)。这给出计数均值的修正。
推导检验统计量的渐近方差：在固定比例近似下，治疗组和对照组的事件计数可以视为两个独立的 Poisson 和；其方差即为均数。因此：
\[\text{Var}(\log \hat{\theta}) \approx \frac{1}{N\rho^* \lambda_A \bar{U}} + \frac{1}{N(1-\rho^*)\lambda_B \bar{U}}.\]
样本量反解：利用 Wald 检验的样本量公式：
\[N = \frac{(z_{\alpha/2}+z_{\beta})^2}{\log\theta)^2} \times \text{方差因子}.\]
代入上一步方差因子，并乘以基于脱落分布算出的 \( \bar{U} \) 的倒数。
纠正 DBCD 对分配比例的影响：因脱落患者的有效计数减少，他们支配的事件率估计权重降低，这会导致 DBCD 向目标 \( \rho^* \) 收敛的速度变慢且有小偏。用一个一阶泰勒展开修正分配比例的期望偏差，产生一个关于 \( \rho^* \) 的二次项项，但最终回代到样本量公式时，作者证明这一步的修正很小（约几个百分点），在公式中可忽略（仅作为一个额外提醒条款）。

关键跳跃点： - 把自适应下检验统计量近似为固定比例独立分布：这是最吃劲的地方的，因为自适应下检验统计量其实依赖于所有之前的分配，一般很难因子化。作者依赖 DBCD 的一致收敛性质 + Hu & Rosenberger 已有的定理，声称自适应协方差 “converges to the i.i.d. covariance”。这个跳跃是现有文献的结果，不是本文的新证明。 - 脱落机制进方差公式：初看这是一个「期望迭代」的操作，但这里含一个微妙处——对脱落时间 \( D_k \) 的积分必须在 Poisson 计数 \( m_k \) 的均值中正确放在外面还是里面（即 \( E[ m_k ] = \lambda_g E[U_k] \) 是对的，但方差 \( \text{Var}(m_k) \) 是否就等于均值（因为 Poisson）？是的，Poisson 的方差 = 均值，不论 \( U_k \) 是否随机，只要它独立于事件过程（条件 Poisson 性质被积分后，边际分布算出来的方差 = 均值？不——这里有一个微妙点：对于 Poisson-Gamma 混合（NB），方差 > 均值；但此处 \( U_k \) 是确定性的积分，不是 Gamma 混合；积分后 \( m_k \) 的边际分布其实是 Poisson 混合（随机 \( U_k \) 下），其方差为：

\[\text{Var}(m_k) = \lambda_g E[U_k] + \lambda_g^2 \text{Var}(U_k) > \lambda_g E[U_k] = E[m_k],\]

即方差 > 均值。作者的推导如果假设 Poisson 方差等于均值而放入 \( \bar{U} \)，则隐含地假设了 \( U_k \) 几乎确定（即脱落概率极低，或 \( U_k \) 退化），否则会过度简化。这个假设在论文中是否做了明确语言来表述？从摘要框架看，作者可能用条件 Poisson 交叉迭代的论证绕了过去（若不做此假设，则公式须含 \( \text{Var}(U_k) \) 项，复杂性大增）。这个点是值得深挖的：作者是否真的处理了随机随访时间带来的超分散，还是释放了一个隐含的确定性近似？

技术技巧点名： - Delta method（将率比的方差转到对数尺度），标准运用。 - 大数律 + 中心极限定理对计数过程（本质是 Poisson 样本均值的渐近正态性）。 - DBCD 的一致收敛性质（Hu & Rosenberger 已有引理）。本文未提供新的收敛证明。

🔎 结论是否比证明窄¶

潜在窄化点（值得研究者亲自核实原文对应段落）： - 脱落独立性假设使公式无法应用那些脱落与事件率相关的情形——这在许多复发事件（如心衰住院、癌症复发）中是常见现实，而作者仅在一次模拟中设了独立脱落条件（即无相关性），未报告脱落相关下的稳健性。因此，真实的覆盖范围可能比 title 暗示的「允许不等随访时间」窄得多：只允许一种特定形式的随机脱落，而非一般的不等随访。 - 公式依赖 DBCD 完全收敛到 \( \rho^* \)——在中小样本（如 N<100）下，DBCD 可能尚未收敛，此时本公式会显著高估/低估功效。作者提到这是未来的工作。

四、开放问题（扎根具体语句）¶

脱落与事件率相关的鲁棒性检验：作者明确假定 \( D_k \perp\!\!\!\perp \{N_g(t)\} \)，但在许多实际场景下脱落率与病情严重程度正相关（脱落 = 死亡或严重不良事件）。若此假设松弛，公式必须引入一个共因变量调整（如加入 frailty 项），所需公式复杂多个量级。扎根：假设 H1 语句（「脱落独立于事件过程」）。
DBCD 在中小样本下的偏差修正：本文样本量公式实际上是渐近公式（大 N 近似）。作者提到「在较小样本下 DBCD 尚未完全收敛」但未给出有限样本修正。扎根：文中对模拟的注解（仅做了 N≥150 的设置，未做 N=50,80 的检验）。
脱落时间分布为未知时的 Plug-in 误差：本文假定脱落分布完全已知（或从先验数据精确估计）。若从同一批试验中实时估计脱落率，则此估计的抽样误差会传播到样本量公式中——会产生另一个方差膨胀因子，并可能需要一个「自适应样本量调整」（即根据中期观察到的脱落率实时重算样本量，如同组序贯设计）。扎根：推导中把 \( \bar{U} \) 当作已知常数的做法。
非齐次复发强度与依时脱落：本文假设时齐 Poisson。当复发率随时间变化（如肿瘤复发在早期风险高）或脱落模式在时间上有聚集性，本公式的逼近误差会进一步增大。扎根：文中模型设定小节中的时齐假设。

Maintained by 陈星宇 · Homepage · Source on GitHub