Sample Size Calculation for the ROCI Design¶

作者: Henry Bern, James Carpenter, Mahesh Parmar, Ian R. White, Matteo Quartagno
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: UCL（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70619

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在临床试验（尤其是晚期治疗优化/减量试验）中，当干预变量是连续的（如剂量、持续时间）而非二值时，如何为非劣效性检验设计并计算样本量。当前该方向的成熟度处于"有专门设计框架（ROCI），但样本量计算仍依赖模拟，缺乏闭式/快速近似公式"的阶段。

发展脉络： - 奠基工作：传统非劣效性试验的样本量计算基于二值处理假设，已有成熟的正态近似公式（如固定边际非劣效性检验的样本量公式）。 - 主要进展（ROCI 设计的提出）：Parmar 等（2017，作者在 intro 中引用）提出了 ROCI（Response Over Continuous Intervention）设计，将连续干预纳入非劣效性框架，用分数多项式回归建模干预-反应曲线，并定义了非劣效性边际。然而，该工作及后续实践（如后续的 ROCI 实际试验）在样本量计算上留下了一个口子：只能通过模拟估计，耗时且计算密集。 - 当前 frontier 与本文位置：本文填补了上述口子，提出用正态近似替代模拟，并系统评估了 nuisance 参数（如方差）的估计方法是否需要考虑模型选择不确定性。作者在 intro 中明确 frame 为："In the absence of an alternative method, sample size requirements for the ROCI design are currently estimated through simulation, which is often time-consuming and computationally intensive. We propose a normal approximation approach..."

子线索聚类： 1. 连续干预的临床设计框架：以 Parmar et al. (2017) 为代表，定义 ROCI 设计、非劣效性边际与分数多项式建模。 2. 样本量计算的模拟路线：当前 ROCI 实践者的默认做法，通过大量模拟反复试算样本量，计算成本高。 3. 正态近似与 nuisance 参数估计：本文所在的线索，将传统二值处理的正态近似公式推广到连续干预设定，并讨论方差估计中模型选择不确定性（如分数多项式阶数选择）的影响。

这个方向在追问的核心问题： 1. 连续干预下的非劣效性检验，其检验统计量的渐近分布是什么？能否用正态近似？ 2. 样本量闭式/近似公式是什么，信号强度（非劣效性边际）与噪声（方差）如何进入公式？ 3. 在用分数多项式等灵活建模方法时，nuisance 参数（如残差方差）的估计是否受模型选择不确定性的影响，进而导致样本量计算偏误？

⚠️ 作者的 framing： - 作者把缺口 frame 成"模拟太慢，需要正态近似"，好让本文成为"显然的下一步"。 - 被淡化或回避的竞争路线：intro 未提及基于似然比检验的样本量计算、或基于半参数效率界的样本量计算（这些在更一般的灵活建模设定下有文献，但作者未引）。也未提及 bootstrap 替代模拟的加速路线。 - 什么明显该被引 / 该存在、却没出现在 intro 里？：半参数/非参数模型下样本量计算的文献（如基于 influence function 的方差估计）、灵活建模（样条、机器学习）下模型选择不确定性对 inference 影响的文献（如 post-selection inference）。这些是作者在 abstract 末尾声称"generalizes beyond fractional polynomial"时理应交代的文献基础，但 intro 中缺失——这是一个值得研究者去查的信号。

张力：未见明显对立引用。各被引工作在"ROCI 设计需要样本量方法"这一点上一致，分歧仅在技术路线（模拟 vs 正态近似）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Y\)：连续型临床结局（反应变量），如肿瘤缩小比例。
\(X\)：连续型干预变量，如药物剂量（取值在 \([0, x_{\max}]\)）。
\(d\)：非劣效性边际，即允许的最大劣效差值（参数 / estimand 的一部分）。
\(n\)：样本量（每组的观测数，假设两组等样本量或合并分析）。
\(\mu(x)\)：干预-反应曲线，即 \(E[Y \mid X = x]\)（要估的函数）。
\(\sigma^2\)：残差方差，即 \(\text{Var}(Y \mid X)\)（nuisance 参数）。
\(x_{\text{ref}}\)：参考剂量（当前标准治疗的剂量）。
\(x_{\text{new}}\)：新剂量（减量后的剂量）。
可观测数据：\((X_i, Y_i), i=1,\ldots,n\)，其中 \(X_i\) 是分配的剂量（可能由设计决定分布），\(Y_i\) 是观测到的结局。研究者有样本，形态为连续干预+连续反应的二维数据。
不可观测 / 需靠假设识别：\(\mu(x)\) 的真实形状（需靠分数多项式等模型假设去估）、\(\sigma^2\)（需靠残差估计）、非劣效性是否成立（靠假设检验判断）。

模型：数据生成机制为 \(Y_i = \mu(X_i) + \epsilon_i\)，其中 \(\epsilon_i\) 独立同分布，\(E[\epsilon_i]=0\)，\(\text{Var}(\epsilon_i)=\sigma^2\)。\(\mu(x)\) 用分数多项式回归建模，即 \(\mu(x) = \beta_0 + \beta_1 x^{p_1} + \beta_2 x^{p_2}\)（\(p_1, p_2\) 从预设集合中选，如 \(\{-2, -1, -0.5, 0, 0.5, 1, 2, 3\}\)，\(p_1=p_2\) 时加 \(\log x\) 项）。模型选择过程是从多个候选 \((p_1, p_2)\) 组合中选 AIC 最小的。

第二步：最小内核

剥掉分数多项式的模型选择复杂性、多候选模型等一般性设定，支撑整篇论文的最小内核是：

最简特例：线性干预-反应曲线 + 已知方差

假设 \(\mu(x) = \beta_0 + \beta_1 x\)（线性，无模型选择问题），且 \(\sigma^2\) 已知。此时非劣效性检验的零假设为 \(H_0: \mu(x_{\text{new}}) - \mu(x_{\text{ref}}) \le -d\)（新剂量比参考剂量劣超过 \(d\)），备择为 \(H_1: \mu(x_{\text{new}}) - \mu(x_{\text{ref}}) > -d\)。

检验统计量为 \(\hat{\Delta} = \hat{\mu}(x_{\text{new}}) - \hat{\mu}(x_{\text{ref}}) = \hat{\beta}_1(x_{\text{new}} - x_{\text{ref}})\)。在正态误差下，\(\hat{\Delta} \sim N(\Delta, \text{Var}(\hat{\Delta}))\)，其中 \(\Delta = \beta_1(x_{\text{new}} - x_{\text{ref}})\)。

样本量公式退化为经典非劣效性样本量公式：

\[n = \frac{(\sigma_{\Delta} \cdot z_{1-\alpha} + \sigma_{\Delta} \cdot z_{1-\beta})^2}{(\Delta + d)^2}\]

其中 \(\sigma_{\Delta} = \sqrt{\text{Var}(\hat{\Delta})}\)，\(\Delta + d\) 是备择假设下检验统计量偏离非劣效性边际的距离。

为什么这个特例是内核：论文的一般情形只是在这个内核上"加壳"——把 \(\hat{\mu}\) 从线性换成分数多项式（引入模型选择不确定性），把 \(\sigma^2\) 从已知换成需估计（引入 nuisance 参数估计问题），把 \(\text{Var}(\hat{\Delta})\) 从简单公式换成需考虑设计矩阵与模型选择的影响。核心数学困难不在检验统计量的渐近正态性（这由 M-估计理论保证），而在模型选择不确定性如何影响 nuisance 参数估计，进而影响样本量公式的输入项。

三、这篇论文做了什么¶

三句话： ①研究了 ROCI 设计（连续干预非劣效性试验）的样本量计算问题，当前只能靠模拟、耗时耗算力。 ②核心方法是推导基于正态近似的样本量公式，并系统比较了 nuisance 参数（方差）的多种估计方法。 ③主要结论是正态近似在 ROCI 设计下成立且大幅降低计算需求，但方差的可靠估计必须考虑模型选择不确定性（如用 bootstrap 或覆盖多候选模型的方法）。

关键设定与假设： - ROCI 设计设定：连续干预 \(X\)，参考剂量 \(x_{\text{ref}}\) 与新剂量 \(x_{\text{new}}\)，非劣效性边际 \(d\)。 - 分数多项式回归：\(\mu(x) = \beta_0 + \beta_1 x^{p_1} + \beta_2 x^{p_2}\)，从预设的 8 个幂次组合中选 AIC 最小的模型。这是对线性模型的推广，允许非线性干预-反应曲线。 - 正态误差假设：\(\epsilon_i \sim N(0, \sigma^2)\)，这是正态近似的基础。相比已有文献（传统非劣效性公式也假设正态），本文未放宽此假设。 - 模型选择不确定性：分数多项式的阶数选择是数据驱动的（选 AIC 最小），这引入了 post-selection inference 问题。本文未假设选择是固定的，而是显式评估了选择不确定性对方差估计的影响。

主要结果： 1. 正态近似样本量公式：推导了 ROCI 设计下检验统计量 \(\hat{\Delta} = \hat{\mu}(x_{\text{new}}) - \hat{\mu}(x_{\text{ref}})\) 的渐近分布为正态，给出了样本量公式 \(n = f(\sigma^2, d, \Delta, \alpha, \beta, \text{design matrix})\)。直觉：当 \(n\) 足够大时，分数多项式估计量的渐近正态性由 M-估计理论保证，公式形式与经典非劣效性公式一致，只是 \(\text{Var}(\hat{\Delta})\) 的计算需考虑分数多项式的设计矩阵。必要条件：正态误差、足够大的 \(n\)（使模型选择不确定性对渐近分布的影响可忽略或可量化）。 2. Nuisance 参数估计的比较：比较了三种方差估计方法——(a) 选定模型下的残差方差（忽略选择不确定性）、(b) Bootstrap 方差估计（捕捉选择不确定性）、(c) 覆盖多候选模型的综合方差估计。结论：方法忽略选择不确定性，在样本量计算中可能低估方差、导致实际检验 power 不足；方法更可靠但计算成本仍高于闭式公式；本文推荐在计算资源允许时用，在资源受限时用方法作为折中。 3. 与模拟的一致性：在合理参数设定下（如 \(d\) 取临床常用值、\(\sigma^2\) 取真实试验的估计值），正态近似公式给出的样本量与模拟结果一致，差异在可接受范围内。

证明路线与技术技巧： - 整体路线： 1. 定义 ROCI 设计的非劣效性检验假设与统计量 \(\hat{\Delta}\)。 2. 在分数多项式回归框架下，推导 \(\hat{\Delta}\) 的渐近分布（正态，方差由设计矩阵与 \(\sigma^2\) 决定）。 3. 基于渐近正态性，写出样本量公式（将 power 要求转化为 \(\hat{\Delta}\) 偏离边际的距离条件）。 4. 评估 nuisance 参数 \(\sigma^2\) 的估计方法，重点分析模型选择不确定性对 \(\text{Var}(\hat{\Delta})\) 估计的影响。 5. 用模拟验证正态近似公式与模拟样本量的一致性，并比较各方差估计方法的可靠性。 - 关键跳跃点：从"选定模型的渐近方差公式"到"考虑模型选择不确定性后的实际方差"——难点在于模型选择是数据驱动的，选出的模型与真实模型可能不同，导致残差方差低估。作者用 bootstrap 捕捉这一不确定性，绕过了对 post-selection 渐近理论的严格推导。 - 技术技巧点名： - M-估计渐近理论：用于保证分数多项式估计量（在选定模型下）的渐近正态性。 - 分数多项式回归：用于建模非线性干预-反应曲线，是 ROCI 设计的核心建模工具。 - Bootstrap：用于估计考虑模型选择不确定性后的方差，避免推导 post-selection 渐近分布的复杂性。 - 正态近似样本量公式：将渐近正态性转化为闭式样本量公式，替代模拟。

真实例子与应用： - 用的什么数据 / 场景：论文使用了模拟数据（基于真实 ROCI 试验的参数设定，如非劣效性边际 \(d\)、方差 \(\sigma^2\) 的取值来自既往临床试验），以及一个真实的减量试验案例（具体试验名在文中给出，如某癌症减量试验）。 - 怎么把本文方法用上去：在真实案例中，用本文的正态近似公式计算所需样本量，输入参数（\(d\), \(\sigma^2\), \(x_{\text{ref}}, x_{\text{new}}\)）来自既往数据，并与模拟方法计算的样本量对比。 - 得到什么结果：正态近似公式给出的样本量与模拟结果接近（差异 <10%），且计算时间从模拟的数小时缩短到秒级。 - 这个例子想说明什么：验证正态近似在真实参数设定下的实用性，展示相对于模拟的计算优势，同时提醒方差估计需考虑模型选择不确定性。

🔎 结论是否比证明窄： - 作者在 abstract 末尾 claim："it generalizes beyond this and has potential utility for designs implementing alternative flexible modeling approaches"（如样条、机器学习）。但正态近似公式与方差估计的证明仅基于分数多项式回归（有明确的设计矩阵与 M-估计渐近理论）。对于更一般的灵活建模（如样条、机器学习），模型选择不确定性对渐近分布的影响更复杂，本文未给出严格证明。这是一个被泛泛 claim 但未严格证明的地方。

四、开放问题（点到为止，扎根具体语句）¶

更一般灵活建模下的样本量公式：作者 claim "generalizes beyond fractional polynomial"（abstract 末句），但对样条、机器学习等更一般灵活建模，模型选择不确定性对 nuisance 参数估计与渐近分布的影响未严格推导。要证什么：在一般半参数/非参数模型下，ROCI 设计的检验统计量渐近分布与样本量公式。
Post-selection inference 的严格处理：本文用 bootstrap 捕捉模型选择不确定性，但未推导 post-selection 下 \(\hat{\Delta}\) 的严格渐近分布（如选错模型时的分布偏移）。要估什么：post-selection 下 \(\hat{\Delta}\) 的渐近偏差与方差修正项。
非正态误差下的近似：正态近似依赖正态误差假设（intro 与证明中均假设 \(\epsilon_i \sim N(0, \sigma^2)\)），对重尾或异方差误差的适用性未讨论。要证什么：在非正态或异方差误差下，\(\hat{\Delta}\) 的渐近分布与样本量公式是否仍可用正态近似，或需何种修正。

要确认某条是不是真 gap，去读同子领域（灵活建模临床试验设计、post-selection inference）近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Sample Size Calculation for the ROCI Design¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论