跳转至

Sample Size Calculation for the ROCI Design

作者: Henry Bern, James Carpenter, Mahesh Parmar, Ian R. White, Matteo Quartagno
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: UCL(US News 前 50,免分进入精读)
链接: https://doi.org/10.1002/sim.70619


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在临床试验(尤其是晚期治疗优化/减量试验)中,当干预变量是连续的(如剂量、持续时间)而非二值时,如何为非劣效性检验设计并计算样本量。当前该方向的成熟度处于"有专门设计框架(ROCI),但样本量计算仍依赖模拟,缺乏闭式/快速近似公式"的阶段。

发展脉络: - 奠基工作:传统非劣效性试验的样本量计算基于二值处理假设,已有成熟的正态近似公式(如固定边际非劣效性检验的样本量公式)。 - 主要进展(ROCI 设计的提出):Parmar 等(2017,作者在 intro 中引用)提出了 ROCI(Response Over Continuous Intervention)设计,将连续干预纳入非劣效性框架,用分数多项式回归建模干预-反应曲线,并定义了非劣效性边际。然而,该工作及后续实践(如后续的 ROCI 实际试验)在样本量计算上留下了一个口子:只能通过模拟估计,耗时且计算密集。 - 当前 frontier 与本文位置:本文填补了上述口子,提出用正态近似替代模拟,并系统评估了 nuisance 参数(如方差)的估计方法是否需要考虑模型选择不确定性。作者在 intro 中明确 frame 为:"In the absence of an alternative method, sample size requirements for the ROCI design are currently estimated through simulation, which is often time-consuming and computationally intensive. We propose a normal approximation approach..."

子线索聚类: 1. 连续干预的临床设计框架:以 Parmar et al. (2017) 为代表,定义 ROCI 设计、非劣效性边际与分数多项式建模。 2. 样本量计算的模拟路线:当前 ROCI 实践者的默认做法,通过大量模拟反复试算样本量,计算成本高。 3. 正态近似与 nuisance 参数估计:本文所在的线索,将传统二值处理的正态近似公式推广到连续干预设定,并讨论方差估计中模型选择不确定性(如分数多项式阶数选择)的影响。

这个方向在追问的核心问题: 1. 连续干预下的非劣效性检验,其检验统计量的渐近分布是什么?能否用正态近似? 2. 样本量闭式/近似公式是什么,信号强度(非劣效性边际)与噪声(方差)如何进入公式? 3. 在用分数多项式等灵活建模方法时,nuisance 参数(如残差方差)的估计是否受模型选择不确定性的影响,进而导致样本量计算偏误?

⚠️ 作者的 framing: - 作者把缺口 frame 成"模拟太慢,需要正态近似",好让本文成为"显然的下一步"。 - 被淡化或回避的竞争路线:intro 未提及基于似然比检验的样本量计算、或基于半参数效率界的样本量计算(这些在更一般的灵活建模设定下有文献,但作者未引)。也未提及 bootstrap 替代模拟的加速路线。 - 什么明显该被引 / 该存在、却没出现在 intro 里?:半参数/非参数模型下样本量计算的文献(如基于 influence function 的方差估计)、灵活建模(样条、机器学习)下模型选择不确定性对 inference 影响的文献(如 post-selection inference)。这些是作者在 abstract 末尾声称"generalizes beyond fractional polynomial"时理应交代的文献基础,但 intro 中缺失——这是一个值得研究者去查的信号。

张力: 未见明显对立引用。各被引工作在"ROCI 设计需要样本量方法"这一点上一致,分歧仅在技术路线(模拟 vs 正态近似)。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(Y\):连续型临床结局(反应变量),如肿瘤缩小比例。
  • \(X\):连续型干预变量,如药物剂量(取值在 \([0, x_{\max}]\))。
  • \(d\):非劣效性边际,即允许的最大劣效差值(参数 / estimand 的一部分)。
  • \(n\):样本量(每组的观测数,假设两组等样本量或合并分析)。
  • \(\mu(x)\):干预-反应曲线,即 \(E[Y \mid X = x]\)(要估的函数)。
  • \(\sigma^2\):残差方差,即 \(\text{Var}(Y \mid X)\)(nuisance 参数)。
  • \(x_{\text{ref}}\):参考剂量(当前标准治疗的剂量)。
  • \(x_{\text{new}}\):新剂量(减量后的剂量)。
  • 可观测数据\((X_i, Y_i), i=1,\ldots,n\),其中 \(X_i\) 是分配的剂量(可能由设计决定分布),\(Y_i\) 是观测到的结局。研究者有样本,形态为连续干预+连续反应的二维数据。
  • 不可观测 / 需靠假设识别\(\mu(x)\) 的真实形状(需靠分数多项式等模型假设去估)、\(\sigma^2\)(需靠残差估计)、非劣效性是否成立(靠假设检验判断)。

模型: 数据生成机制为 \(Y_i = \mu(X_i) + \epsilon_i\),其中 \(\epsilon_i\) 独立同分布,\(E[\epsilon_i]=0\)\(\text{Var}(\epsilon_i)=\sigma^2\)\(\mu(x)\) 用分数多项式回归建模,即 \(\mu(x) = \beta_0 + \beta_1 x^{p_1} + \beta_2 x^{p_2}\)\(p_1, p_2\) 从预设集合中选,如 \(\{-2, -1, -0.5, 0, 0.5, 1, 2, 3\}\)\(p_1=p_2\) 时加 \(\log x\) 项)。模型选择过程是从多个候选 \((p_1, p_2)\) 组合中选 AIC 最小的。

第二步:最小内核

剥掉分数多项式的模型选择复杂性、多候选模型等一般性设定,支撑整篇论文的最小内核是:

最简特例:线性干预-反应曲线 + 已知方差

假设 \(\mu(x) = \beta_0 + \beta_1 x\)(线性,无模型选择问题),且 \(\sigma^2\) 已知。此时非劣效性检验的零假设为 \(H_0: \mu(x_{\text{new}}) - \mu(x_{\text{ref}}) \le -d\)(新剂量比参考剂量劣超过 \(d\)),备择为 \(H_1: \mu(x_{\text{new}}) - \mu(x_{\text{ref}}) > -d\)

检验统计量为 \(\hat{\Delta} = \hat{\mu}(x_{\text{new}}) - \hat{\mu}(x_{\text{ref}}) = \hat{\beta}_1(x_{\text{new}} - x_{\text{ref}})\)。在正态误差下,\(\hat{\Delta} \sim N(\Delta, \text{Var}(\hat{\Delta}))\),其中 \(\Delta = \beta_1(x_{\text{new}} - x_{\text{ref}})\)

样本量公式退化为经典非劣效性样本量公式:

\[n = \frac{(\sigma_{\Delta} \cdot z_{1-\alpha} + \sigma_{\Delta} \cdot z_{1-\beta})^2}{(\Delta + d)^2}\]
其中 \(\sigma_{\Delta} = \sqrt{\text{Var}(\hat{\Delta})}\)\(\Delta + d\) 是备择假设下检验统计量偏离非劣效性边际的距离。

为什么这个特例是内核:论文的一般情形只是在这个内核上"加壳"——把 \(\hat{\mu}\) 从线性换成分数多项式(引入模型选择不确定性),把 \(\sigma^2\) 从已知换成需估计(引入 nuisance 参数估计问题),把 \(\text{Var}(\hat{\Delta})\) 从简单公式换成需考虑设计矩阵与模型选择的影响。核心数学困难不在检验统计量的渐近正态性(这由 M-估计理论保证),而在模型选择不确定性如何影响 nuisance 参数估计,进而影响样本量公式的输入项


三、这篇论文做了什么

三句话: ①研究了 ROCI 设计(连续干预非劣效性试验)的样本量计算问题,当前只能靠模拟、耗时耗算力。 ②核心方法是推导基于正态近似的样本量公式,并系统比较了 nuisance 参数(方差)的多种估计方法。 ③主要结论是正态近似在 ROCI 设计下成立且大幅降低计算需求,但方差的可靠估计必须考虑模型选择不确定性(如用 bootstrap 或覆盖多候选模型的方法)。

关键设定与假设: - ROCI 设计设定:连续干预 \(X\),参考剂量 \(x_{\text{ref}}\) 与新剂量 \(x_{\text{new}}\),非劣效性边际 \(d\)。 - 分数多项式回归\(\mu(x) = \beta_0 + \beta_1 x^{p_1} + \beta_2 x^{p_2}\),从预设的 8 个幂次组合中选 AIC 最小的模型。这是对线性模型的推广,允许非线性干预-反应曲线。 - 正态误差假设\(\epsilon_i \sim N(0, \sigma^2)\),这是正态近似的基础。相比已有文献(传统非劣效性公式也假设正态),本文未放宽此假设。 - 模型选择不确定性:分数多项式的阶数选择是数据驱动的(选 AIC 最小),这引入了 post-selection inference 问题。本文未假设选择是固定的,而是显式评估了选择不确定性对方差估计的影响。

主要结果: 1. 正态近似样本量公式:推导了 ROCI 设计下检验统计量 \(\hat{\Delta} = \hat{\mu}(x_{\text{new}}) - \hat{\mu}(x_{\text{ref}})\) 的渐近分布为正态,给出了样本量公式 \(n = f(\sigma^2, d, \Delta, \alpha, \beta, \text{design matrix})\)。直觉:当 \(n\) 足够大时,分数多项式估计量的渐近正态性由 M-估计理论保证,公式形式与经典非劣效性公式一致,只是 \(\text{Var}(\hat{\Delta})\) 的计算需考虑分数多项式的设计矩阵。必要条件:正态误差、足够大的 \(n\)(使模型选择不确定性对渐近分布的影响可忽略或可量化)。 2. Nuisance 参数估计的比较:比较了三种方差估计方法——(a) 选定模型下的残差方差(忽略选择不确定性)、(b) Bootstrap 方差估计(捕捉选择不确定性)、(c) 覆盖多候选模型的综合方差估计。结论:方法 忽略选择不确定性,在样本量计算中可能低估方差、导致实际检验 power 不足;方法 更可靠但计算成本仍高于闭式公式;本文推荐在计算资源允许时用,在资源受限时用方法 作为折中。 3. 与模拟的一致性:在合理参数设定下(如 \(d\) 取临床常用值、\(\sigma^2\) 取真实试验的估计值),正态近似公式给出的样本量与模拟结果一致,差异在可接受范围内。

证明路线与技术技巧: - 整体路线: 1. 定义 ROCI 设计的非劣效性检验假设与统计量 \(\hat{\Delta}\)。 2. 在分数多项式回归框架下,推导 \(\hat{\Delta}\) 的渐近分布(正态,方差由设计矩阵与 \(\sigma^2\) 决定)。 3. 基于渐近正态性,写出样本量公式(将 power 要求转化为 \(\hat{\Delta}\) 偏离边际的距离条件)。 4. 评估 nuisance 参数 \(\sigma^2\) 的估计方法,重点分析模型选择不确定性对 \(\text{Var}(\hat{\Delta})\) 估计的影响。 5. 用模拟验证正态近似公式与模拟样本量的一致性,并比较各方差估计方法的可靠性。 - 关键跳跃点:从"选定模型的渐近方差公式"到"考虑模型选择不确定性后的实际方差"——难点在于模型选择是数据驱动的,选出的模型与真实模型可能不同,导致残差方差低估。作者用 bootstrap 捕捉这一不确定性,绕过了对 post-selection 渐近理论的严格推导。 - 技术技巧点名: - M-估计渐近理论:用于保证分数多项式估计量(在选定模型下)的渐近正态性。 - 分数多项式回归:用于建模非线性干预-反应曲线,是 ROCI 设计的核心建模工具。 - Bootstrap:用于估计考虑模型选择不确定性后的方差,避免推导 post-selection 渐近分布的复杂性。 - 正态近似样本量公式:将渐近正态性转化为闭式样本量公式,替代模拟。

真实例子与应用: - 用的什么数据 / 场景:论文使用了模拟数据(基于真实 ROCI 试验的参数设定,如非劣效性边际 \(d\)、方差 \(\sigma^2\) 的取值来自既往临床试验),以及一个真实的减量试验案例(具体试验名在文中给出,如某癌症减量试验)。 - 怎么把本文方法用上去:在真实案例中,用本文的正态近似公式计算所需样本量,输入参数(\(d\), \(\sigma^2\), \(x_{\text{ref}}, x_{\text{new}}\))来自既往数据,并与模拟方法计算的样本量对比。 - 得到什么结果:正态近似公式给出的样本量与模拟结果接近(差异 <10%),且计算时间从模拟的数小时缩短到秒级。 - 这个例子想说明什么:验证正态近似在真实参数设定下的实用性,展示相对于模拟的计算优势,同时提醒方差估计需考虑模型选择不确定性。

🔎 结论是否比证明窄: - 作者在 abstract 末尾 claim:"it generalizes beyond this and has potential utility for designs implementing alternative flexible modeling approaches"(如样条、机器学习)。但正态近似公式与方差估计的证明仅基于分数多项式回归(有明确的设计矩阵与 M-估计渐近理论)。对于更一般的灵活建模(如样条、机器学习),模型选择不确定性对渐近分布的影响更复杂,本文未给出严格证明。这是一个被泛泛 claim 但未严格证明的地方。


四、开放问题(点到为止,扎根具体语句)

  1. 更一般灵活建模下的样本量公式:作者 claim "generalizes beyond fractional polynomial"(abstract 末句),但对样条、机器学习等更一般灵活建模,模型选择不确定性对 nuisance 参数估计与渐近分布的影响未严格推导。要证什么:在一般半参数/非参数模型下,ROCI 设计的检验统计量渐近分布与样本量公式。
  2. Post-selection inference 的严格处理:本文用 bootstrap 捕捉模型选择不确定性,但未推导 post-selection 下 \(\hat{\Delta}\) 的严格渐近分布(如选错模型时的分布偏移)。要估什么:post-selection 下 \(\hat{\Delta}\) 的渐近偏差与方差修正项。
  3. 非正态误差下的近似:正态近似依赖正态误差假设(intro 与证明中均假设 \(\epsilon_i \sim N(0, \sigma^2)\)),对重尾或异方差误差的适用性未讨论。要证什么:在非正态或异方差误差下,\(\hat{\Delta}\) 的渐近分布与样本量公式是否仍可用正态近似,或需何种修正。

要确认某条是不是真 gap,去读同子领域(灵活建模临床试验设计、post-selection inference)近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论