Adaptive sample size re-estimation designs for a two-stage randomized trial with binary outcome¶

作者: Zhixin Tang, Guogen Shan
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 1/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251399914

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在两阶段（或多阶段）随机化临床试验中，当结局为二值变量时，如何在保证 I 类错误率严格控制的前提下，利用第一阶段已观测到的数据动态调整第二阶段的样本量，从而在期望样本量与检验功效之间取得更优的平衡。当前该方向在方法学上已高度成熟，主流框架已被监管机构（如 FDA）接纳并写入指导原则，当前 frontier 主要集中在不同约束条件（如条件概率约束）下的精确分布（而非渐近分布）推导及具体设计参数的优化。

发展脉络： - 奠基工作：Jennison & Turnbull (1999) 的 Group Sequential Methodology 建立了分组序贯设计的理论基石，允许试验在中间阶段提前终止以节省样本量或保护受试者，但该框架主要基于渐近正态分布，且一旦设定中间期分析规则，样本量路径即被锁定，无法根据中间结果反向调整。 - 主要进展：Proschan & Hunsberger (1995) 提出了 Conditional Power（条件功效）的概念，为基于第一阶段数据预测试验最终成功概率提供了量化指标；随后，Müller & Schäfer (2001) 提出了基于条件功效的适应性设计原则，允许在保持条件 I 类错误率的前提下修改后续设计，但未系统解决样本量再估计的最优规则问题。 - 当前 frontier：Mehta & Pocock (2011) 引入了 Promising Zone Design，将条件功效划分为不同区间，仅在试验结果处于"有希望但未稳赢"的区间内增加样本量，从而在无条件功效与期望样本量之间取得工程上的平衡；在二值结局的精确检验方面，Shan et al. (2018) 等人发展了基于 Exact Binomial Distribution 的分组序贯设计，避免了小样本下渐近正态近似失准导致的 I 类错误膨胀。 - 本文的位置：本文在 Exact Binomial Group Sequential Design 的基础上，引入 Mehta & Pocock 的 Promising Zone 思想与 Müller & Schäfer 的条件误差控制原则，构建了同时满足"条件概率约束"与"精确 I 类错误控制"的两种新设计。

子线索聚类： 1. 精确二项分布设计线：针对二值结局，放弃大样本渐近近似，使用精确二项分布计算临界值与误差率。这一簇的工作（如 Shan et al., 2018）主要解决小样本或极端概率下渐近方法失控的问题，留下的口子是：精确分布下如何引入样本量再估计（因为再估计会破坏原设计的固定样本路径，精确分布的计算变得极其复杂）。 2. 适应性样本量再估计线：基于条件功效，允许在期中分析后调整总样本量。这一簇的工作（如 Proschan & Hunsberger, 1995; Müller & Schäfer, 2001）主要解决设计灵活性问题，但大多依赖渐近理论，且往往只保证无条件或条件 I 类错误，未同时兼顾条件概率约束。 3. Promising Zone 设计线：Mehta & Pocock (2011) 开创，将适应性调整限制在条件功效的特定区间，避免在条件功效极低时盲目加样或在极高时无谓加样。这一簇主要在渐近正态框架下讨论，本文将其移植到精确二项框架。

这个方向在追问的核心问题： 1. 在二值结局的两阶段试验中，基于第一阶段数据的样本量再估计规则，能否在精确二项分布下严格控制 I 类错误率？ 2. 适应性设计在提升无条件功效的同时，是否必然带来期望样本量的显著增加？如何通过区间划分（Promising Zone）缓解这一张力？ 3. 条件概率约束（即给定第一阶段结果，试验进入第二阶段时的条件概率不低于某预设值）在样本量再估计中是否必然被破坏？能否构造同时满足该约束与 I 类错误控制的设计？

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有的 Group Sequential Design 虽能控制 I 类错误，但无法调整样本量；现有的 Adaptive Design 虽能调整样本量，但往往基于渐近分布且无法保证条件概率约束。因此，"基于精确二项分布且保证条件概率约束的适应性设计"成为显然的下一步。 - 被淡化或回避的竞争路线：作者未讨论基于似然比或贝叶斯后验概率的适应性设计路线（如 Inference by Bayes 或 Predictive Probability 法），这些路线在二值结局临床试验中同样有广泛应用，且天然具备条件推断性质。 - 明显该被引却未出现的文献：关于适应性设计联合检验的闭环理论（如 Bauer & Köhne, 1994 的 combination test 框架），该框架是适应性设计保持 I 类错误的另一大主流流派，与本文的 Conditional Error Approach 互为竞争，intro 中未见引用，值得研究者去查。

张力：被引的这些工作之间未见明显对立结论。Mehta & Pocock 的 Promising Zone 与 Müller & Schäfer 的条件误差原则在渐近框架下是兼容的，本文的移植也未产生矛盾。真正的张力存在于本文的结论与经典直觉之间：本文发现适应性设计虽大幅提升无条件功效，但期望样本量的代价极高，而 Promising Zone 设计在功效与样本量之间取得了平衡——这并非对立结论，而是同一目标下不同约束组合的量化权衡。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(p_1\)：对照组（金标准）的真实反应概率（二值结局取 1 的概率）。
\(p_2\)：试验组（新治疗）的真实反应概率。
\(\Delta = p_2 - p_1\)：两组反应概率之差，本文关注的核心 estimand。原假设 \(H_0: \Delta \le 0\)，备择假设 \(H_1: \Delta > 0\)。
维数 / 样本量等指标：
\(n_1\)：第一阶段每组分配的样本量。
\(n_2\)：第二阶段每组分配的样本量（在适应性设计中，\(n_2\) 可依赖第一阶段数据动态调整；在固定设计中，\(n_2\) 为预设常数）。
\(N = n_1 + n_2\)：每组总样本量。
\(n_{max}\)：每组允许的最大样本量上限。
随机变量 / 样本：
\(X_1\)：第一阶段对照组中反应为 1 的受试者数，服从 \(Bin(n_1, p_1)\)。
\(Y_1\)：第一阶段试验组中反应为 1 的受试者数，服从 \(Bin(n_1, p_2)\)。
\(X_2\)：第二阶段对照组中反应为 1 的受试者数，服从 \(Bin(n_2, p_1)\)（若试验进入第二阶段）。
\(Y_2\)：第二阶段试验组中反应为 1 的受试者数，服从 \(Bin(n_2, p_2)\)（若试验进入第二阶段）。
可观测数据：研究者实际能观测到的是分阶段的累积数据。在第一阶段结束时，观测到 \((X_1, Y_1)\)；若试验继续，在第二阶段结束时观测到 \((X_2, Y_2)\)。最终用于检验的完整数据为 \((X_1+X_2, Y_1+Y_2)\)。
潜在 / 不可观测量：若试验在第一阶段因早期成功或失败而提前终止，则 \((X_2, Y_2)\) 成为潜在（counterfactual）量，永远无法被观测。此外，真实的 \((p_1, p_2)\) 是不可观测的，只能通过样本比例估计，而第二阶段的样本量 \(n_2\) 在适应性设计中依赖于不可观测的真实参数的估计值。

第二步：讲最小内核

支撑整篇论文的最小内核是一个二值结局、两组平行、两阶段、且第二阶段样本量只能取两个固定值（\(n_{2,fix}\) 或 \(n_{2,max}\)）的特例。在这个特例下，核心数学问题退化成：

如何基于第一阶段观测 \((X_1, Y_1)\)，构造一个决策规则 \(n_2(X_1, Y_1) \in \{n_{2,fix}, n_{2,max}\}\)，使得： 1. 整体 I 类错误率不超过 \(\alpha\)：\(\Pr_{H_0}(\text{拒绝 } H_0) \le \alpha\)。 2. 条件概率约束成立：给定第一阶段结果 \((X_1, Y_1)\) 且试验进入第二阶段，条件概率 \(\Pr(\text{最终拒绝 } H_0 \mid X_1, Y_1, \text{进入第二阶段})\) 不低于某预设下限 \(CP_{min}\)。 3. 无条件功效最大化：\(\Pr_{H_1}(\text{拒绝 } H_0)\) 尽可能大。

在这个特例下，证明与构造怎么走、为什么成立： - 条件误差控制原则（Müller & Schäfer）：只要我们规定"在第一阶段观测为 \((x_1, y_1)\) 时，若试验进入第二阶段，最终拒绝的条件概率 \(CP(x_1, y_1)\) 等于某个预设函数 \(f(x_1, y_1)\)"，那么整体 I 类错误率就等于第一阶段拒绝的概率加上第一阶段未拒绝时 \(f(x_1, y_1)\) 对 \((X_1, Y_1)\) 在 \(H_0\) 下的期望。因此，只要 \(f(x_1, y_1)\) 的取值与第一阶段拒绝临界值联合满足一个线性约束，整体 I 类错误即可严格控制在 \(\alpha\)。 - 样本量调整的合法性：在精确二项分布下，给定 \((x_1, y_1)\) 和第二阶段样本量 \(n_2\)，最终检验统计量 \((X_1+X_2, Y_1+Y_2)\) 的分布完全已知（两个独立二项分布的和）。因此，\(CP(x_1, y_1, n_2)\) 可以精确计算。当我们把 \(n_2\) 从 \(n_{2,fix}\) 提升到 \(n_{2,max}\) 时，只要重新计算临界值使得 \(CP(x_1, y_1, n_{2,max}) = f(x_1, y_1)\)，条件误差不变，整体 I 类错误不变。 - Promising Zone 的引入：并非所有 \((x_1, y_1)\) 都值得加样。如果 \(CP(x_1, y_1, n_{2,fix})\) 已经极高，加样无助于提升功效（只会增加期望样本量）；如果极低，即使加到 \(n_{2,max}\) 也难以达到有意义的 \(CP\)。因此，定义一个区间 \([CP_{lower}, CP_{upper}]\)（即 Promising Zone），仅当 \(CP(x_1, y_1, n_{2,fix})\) 落入此区间时，才将 \(n_2\) 调整为 \(n_{2,max}\)，并重新配置第二阶段临界值以保持 \(f(x_1, y_1)\)。这个区间划分在数学上不破坏 I 类错误（因为条件误差原则对 \(f\) 的函数形式几乎无限制），但在工程上实现了期望样本量与功效的平衡。

三、这篇论文做了什么¶

三句话： ①研究了二值结局两阶段平行随机对照试验中，基于第一阶段结果进行第二阶段样本量再估计的设计问题。 ②核心工具是基于精确二项分布的条件误差控制原则与 Promising Zone 区间划分。 ③主要结论是：所提的适应性设计能大幅提升无条件功效但代价是期望样本量显著增加，而 Promising Zone 设计在保证条件概率约束与 I 类错误的前提下，实现了功效与期望样本量的平衡。

关键设定与假设： - 设计框架：两阶段平行组设计，每组在第一阶段固定分配 \(n_1\) 个受试者，第二阶段分配 \(n_2\) 个受试者（\(n_2\) 可调整）。 - 检验统计量：使用各组总反应数 \((X_1+X_2, Y_1+Y_2)\) 进行精确二项检验（无需渐近正态近似）。 - 条件概率约束：假设要求 \(\Pr(\text{最终拒绝} \mid X_1=x_1, Y_1=y_1, \text{进入第二阶段}) \ge CP_{min}\)。这一假设的统计含义是：一旦试验进入第二阶段，无论第一阶段数据如何，最终发现显著效应的概率不低于 \(CP_{min}\)，这保护了继续参与试验的受试者的伦理利益（他们有一定概率见证有效治疗）。相比已有文献（如仅控制无条件 I 类错误的适应性设计），本文同时强化了条件概率约束。 - Promising Zone 设定：定义条件功效区间 \([CP_{lower}, CP_{upper}]\)，仅当第一阶段条件功效落入此区间时触发样本量增加。这一设定相比 Mehta & Pocock (2011) 的渐近框架，本文在精确二项分布下计算区间边界，避免了渐近近似在小样本下的偏差。

主要结果： - 定理/核心陈述 1（I 类错误与条件概率约束的联合控制）：在精确二项分布下，通过配置第一阶段临界值与第二阶段条件误差函数 \(f(x_1, y_1)\)，所提的 Parallel Two-Stage Adaptive Design 与 Promising Zone Design 均能严格控制整体 I 类错误率在 \(\alpha\)，且同时满足条件概率约束 \(\ge CP_{min}\)。直觉：条件误差原则将整体误差分解为第一阶段拒绝概率与第二阶段条件拒绝概率的加权求和，只要权重（第一阶段未拒绝的概率分布）与条件函数联合满足线性约束，整体误差即可控制；条件概率约束则通过要求 \(f(x_1, y_1) \ge CP_{min}\) 直接实现。必要条件：第一阶段临界值必须足够严格，以留出足够的误差预算给第二阶段。 - 定理/核心陈述 2（无条件功效与期望样本量的量化权衡）：通过数值搜索与精确概率计算，作者发现：(1) Adaptive Design（对所有进入第二阶段的情形均加样至 \(n_{max}\)）的无条件功效显著高于 Group Sequential Design，但期望样本量 \(E[N]\) 大幅增加；(2) Promising Zone Design 的无条件功效略低于全适应性设计，但期望样本量显著下降，接近 Group Sequential Design 的水平。直觉：全适应性设计在条件功效极低时仍加样，这些加样对最终拒绝几乎无贡献，徒增样本量；Promising Zone 排除了这些低效加样，集中资源于"有希望"的区间。技术难点：在精确二项分布下，\(E[N]\) 与无条件功效的计算需要对 \((X_1, Y_1)\) 在 \(H_1\) 下的所有可能取值进行穷举求和，计算复杂度随 \(n_1\) 指数级增长。

证明路线与技术技巧： - 整体路线： 1. 设定条件误差函数 \(f(x_1, y_1)\)：对于 Adaptive Design，令 \(f(x_1, y_1) = \max(CP_{min}, CP(x_1, y_1, n_{2,fix}))\)；对于 Promising Zone Design，令 \(f(x_1, y_1)\) 在 Zone 内等于 \(CP(x_1, y_1, n_{2,max})\)，在 Zone 外等于 \(CP(x_1, y_1, n_{2,fix})\)。 2. 配置第一阶段临界值：搜索第一阶段拒绝边界 \((u_1, v_1)\)（即 \(X_1 \ge u_1\) 且 \(Y_1 \ge v_1\) 时提前拒绝），使得 \(\Pr_{H_0}(X_1 \ge u_1, Y_1 \ge v_1) + \sum_{x_1 < u_1, y_1 < v_1} \Pr_{H_0}(X_1=x_1, Y_1=y_1) \cdot f(x_1, y_1) = \alpha\)。 3. 配置第二阶段临界值：对于每个 \((x_1, y_1)\) 使得试验进入第二阶段，根据 \(f(x_1, y_1)\) 与所选的 \(n_2\)，反向求解第二阶段拒绝边界 \((u_2, v_2)\)，使得 \(\Pr(X_1+X_2 \ge u_2, Y_1+Y_2 \ge v_2 \mid X_1=x_1, Y_1=y_1, n_2) = f(x_1, y_1)\)。 4. 计算性能指标：在 \(H_1\) 下，对所有可能的 \((X_1, Y_1)\) 路径穷举，计算无条件功效与期望样本量 \(E[N] = n_1 + \sum \Pr(X_1=x_1, Y_1=y_1) \cdot n_2(x_1, y_1)\)。 - 关键跳跃点：第二步中，第一阶段临界值的搜索并非独立于 \(f\)，而是与 \(f\) 联合构成一个非线性整数优化问题。难点在于：精确二项分布的概率是离散的，临界值 \((u_1, v_1)\) 的微小变动会导致第一阶段误差概率的跳跃，从而无法精确消耗 \(\alpha\) 预算。作者采用的办法是：允许第一阶段误差略低于 \(\alpha\)，将剩余预算全部留给第二阶段，通过穷举搜索找到最接近 \(\alpha\) 的整数边界。 - 技术技巧点名： - 条件误差原则：源自 Müller & Schäfer (2001)，用于将整体 I 类错误分解为条件误差的期望，从而合法化任何不改变条件误差函数的适应性调整。本文用它在精确二项框架下证明 I 类错误控制。 - 精确二项分布穷举计算：用于替代渐近正态近似，计算所有路径的概率、条件功效与期望样本量。计算复杂度极高，需对 \((X_1, Y_1)\) 的 \(O(n_1^2)\) 种组合逐一计算二项概率与条件临界值。 - Promising Zone 区间划分：源自 Mehta & Pocock (2011)，用于在条件功效空间上定义加样触发区域。本文将其从渐近框架移植到精确二项框架，区间边界通过精确条件功效计算确定。

真实例子与应用： - 用的什么数据 / 场景：一个已完成的癌症临床试验（Shan et al., 2018 中引用的肺癌二线治疗试验），比较新治疗组与标准对照组的客观缓解率（ORR，二值结局：缓解 vs 未缓解）。预设对照组 \(p_1=0.30\)，期望试验组 \(p_2=0.50\)，目标 \(\Delta=0.20\)。 - 怎么把本文方法用上去：将原试验重构为两阶段设计，第一阶段每组 \(n_1=20\)，第二阶段预设每组 \(n_{2,fix}=20\)（总样本 40），最大允许每组 \(n_{max}=65\)。设定 \(\alpha=0.05\)（单侧），\(CP_{min}=0.30\)。计算不同设计（Group Sequential, Adaptive, Promising Zone）在该参数下的临界值、功效与期望样本量。 - 得到什么结果：在 \(H_1: p_2=0.50\) 下，Group Sequential Design 的无条件功效为 0.64，期望样本量 35.2；Adaptive Design 的无条件功效提升至 0.89，但期望样本量增至 57.5；Promising Zone Design 的无条件功效为 0.80，期望样本量为 42.8。 - 这个例子想说明什么：验证理论预测的权衡关系——Adaptive Design 功效最高但样本量代价极大，Promising Zone Design 在两者间取得平衡，且所有设计均严格控制 I 类错误与条件概率约束。

🔎 结论是否比证明窄：本文的所有核心结论（I 类错误控制、条件概率约束、功效与样本量的权衡数值）均在精确二项分布的穷举计算下严格验证，未依赖渐近近似。然而，作者在讨论部分泛泛 claim "Promising Zone Design achieves a good balance between statistical power and the expected sample size"，这里的"good balance"是一个主观工程判断，而非有数学定义的最优性定理（如 minimax 或 Bayes risk 最优）。文中未证明 Promising Zone 在某个正式的决策理论框架下是最优的区间划分策略，仅通过数值示例展示其优于全适应性设计。

四、开放问题（点到为止，扎根具体语句）¶

Promising Zone 区间的最优性：本文的 Promising Zone 边界 \([CP_{lower}, CP_{upper}]\) 是通过预设与数值搜索确定的，未给出在某个决策理论准则（如最小化 \(E[N]\) subject to 功效 \(\ge \beta\) 与条件概率约束）下的最优解。要证什么：存在某个区间 \([a, b]\)，使得在所有满足 I 类错误与条件概率约束的 Zone 设计中，该区间最小化 \(E[N]\)。扎根点：文中 Section "The promising zone design" 仅陈述区间设定，未讨论最优性。
多维或连续结局的推广：本文方法完全依赖精确二项分布的离散性质（穷举路径、整数临界值），对于连续结局或高维协变量调整的试验，穷举不可行。要估什么：在连续结局下，如何构造同时满足条件概率约束与 I 类错误控制的 Promising Zone 设计。扎根点：文中 Section "Discussion" 明确指出 "future research can be extended to continuous outcomes"。
多阶段（>2）推广：本文仅处理两阶段设计，条件误差原则在多阶段下的递归应用会导致计算复杂度爆炸。要算什么：三阶段或更多阶段下，精确分布的条件误差函数配置与临界值搜索算法。扎根点：文中 Section "Discussion" 提到 "extension to more than two stages is an area for future research"。

（要确认某条是不是真 gap，建议去读近期 5 篇临床试验适应性设计的 intro——若都指向多阶段或最优 Zone 为未解问题，则为共识真 gap；若已有基于似然比或贝叶斯的连续/多阶段方案，则本文的精确二项路线可能只是特定小样本场景的补充，而非主流 frontier。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Adaptive sample size re-estimation designs for a two-stage randomized trial with binary outcome¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论