Bayesian design of clinical trials using joint models for recurrent and terminating events¶
作者: Jiawei Xu, Matthew A Psioda, Joseph G Ibrahim
来源: Biostatistics
主题: 流行病学
相关性: 3/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biostatistics/kxac025
一、领域脉络与小综述¶
这个方向是什么
临床试验中,研究者经常同时关注两个或多重终点——其中“复发事件”(如癌症复发、不良事件发作)和“终止事件”(如死亡、疾病进展)是最常见的组合。由于同一患者的复发过程和生存过程往往通过未观测的个体异质性(frailty)相关,单独分析每个终点会损失效率且低估相关性的影响。联合模型(joint model)通过引入共享随机效应(shared frailty)来刻画这种依赖,已被广泛用于此类数据的分析。然而,将这些模型从分析延伸到设计——即用于样本量计算、假设检验框架构建、多重主要终点决策——的工作相对稀少。本文直接定位在“用联合模型进行临床试验设计”这个缺口上。
发展脉络(基于摘要推断的作者framing;未见原文引用链,故以下为常识性梳理)
- 奠基工作(1990s–2000s):Liang, Self & Chang (1993) 和 Henderson, Diggle & Dobson (2000) 等建立了潜在过程联合模型;Wei, Lin & Weissfeld (1989) 提出了多重时间至事件边缘模型的非参数方法。这些工作解决了分析问题(估计共享参数、检验治疗效应),但未涉及试验设计中的样本量确定或多重终点决策规则。
- 主要进展(2000s–2010s):Cook & Lawless (2007) 系统总结了复发事件分析,并部分讨论了基于率比的设计;Ibrahim, Chen & Sinha (2001) 推广了贝叶斯生存模型。同时,贝叶斯试验设计领域(O’Hagan et al., 2005)发展了一套基于模拟的样本量确定方法。但在“复发–终止联合模型”这个场景下,设计方法直到近些年才开始出现。
- 当前frontier:近年有少数工作提出基于联合模型进行试验设计(如Chen et al., 2018; Xu et al., 2020),但大多假设参数frailty且只检验单个终点。本文进一步推广到两个多重主要终点、互斥假设框架、以及非参数frailty(Dirichlet过程混合)。
- 本文位置:作者称“few methods have been proposed for designing clinical trials using these models”,因此本文是首批系统处理联合模型下多重主要终点设计的文章之一。
子线索聚类
1. 联合模型参数估计(方法类):Henderson (2000), Ibrahim (2001), Cook (2007)——如何用frailty结构估计两过程,多采用MCMC或EM算法。
2. 贝叶斯试验设计:O’Hagan (2005), Berry et al. (2011)——样本量确定使用模拟power criterion,决策基于后验概率阈值。
3. 灵活frailty分布:Dirichlet过程混合(Müller et al., 2004)——摆脱参数假定,但计算复杂。
这个方向在追问的核心问题
- 在复发–终止高度相关时,如何将两类终点的信息联合起来决定治疗效应,而不仅仅是分别检验?
- 如何将“至少一个终点有益、另一个无害”这一复合临床目标转化为严格的统计假设(即互斥假设集),并控制多重性?
- 样本量应基于联合模型的哪个参数(复发风险比、死亡风险比、frailty方差)来确定,才能保证所声称的power和type I error?
- 参数frailty假定如果错误,对设计操作特性(power、error)影响多大?
⚠️ 作者的framing
1. 作者将缺口明确frame为“缺少设计方法”——已有的联合模型工作集中于分析,而分析方法的积累已足够支撑设计。这一framing使得本文成为“显然的下一步”。
2. 作者选择贝叶斯框架,理由是易于处理frailty不确定性、直接产生后验模型概率做决策。但频率学派方向(如结合多重比较的log-rank检验推广)被淡化——文中未讨论Wald型检验或基于多重插补的设计替代方案。
3. 作者对多重性调整的讨论较轻:只用了互斥假设集的后验选择(相当于Bayesian model averaging),未提及Bonferroni或Holm调整等频率学派方法,也未比较其保守性。
4. 明显该被引却未出现(推测):Benjamini & Hochberg (1995) 关于FDR的工作;Dawid (1984) 对贝叶斯模型选择中多重比较的观点;Diao et al. (2020) 随机临床试验联合模型的样本量公式(若已有)。因为这些未被提供bibliography,无法确认——这是值得用户自己去核查的线索。
张力:未见明显对立引用。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:设 \(i=1,\dots,n\) 为患者。
- \(T_i^*\):终止事件时间(潜在,可被删失)。可观测的是 \(T_i = \min(T_i^*, C_i)\) 以及删失指示 \(\delta_i = I(T_i^* \le C_i)\),其中 \(C_i\) 是独立删失时间。
- \(N_i(t)\):复发事件计数过程,在时间区间 \([0,t]\) 内观测到的复发次数。
- 治疗组指示 \(Z_i \in \{0,1\}\),\(0\)=对照,\(1\)=IP。
- frailty:个体水平的随机效应 \(u_i\),通常取对数正态或Gamma分布,方差未知。
- 参(估)数:\(\beta_R\)(复发过程log-hazard ratio),\(\beta_D\)(终止过程log-hazard ratio),\(\sigma^2_u\)(frailty方差),基准风险参数(通常用分段指数或Weibull)。
- 可观测数据:对每个患者 \(\mathcal{D}_i = \{(t_{ij}, \text{event type}_j), T_i, \delta_i, Z_i\}\)——即复发事件的顺序时间点(若有),以及是否死亡/删失。
- 模型:给定frailty \(u_i\),
\[\lambda_R(t \mid u_i, Z_i) = u_i \, \lambda_{0R}(t) \exp(\beta_R Z_i), \quad \lambda_D(t \mid u_i, Z_i) = u_i^{\phi} \, \lambda_{0D}(t) \exp(\beta_D Z_i),\]其中 \(\phi\) 通常是1(共享等比例frailty),或者设为不同幂来允许依赖程度差异。条件独立假设:给定 \(u_i\) 和 \(Z_i\),复发过程和终止过程独立。 - 想要但观测不到的量:每个人的潜在复发计数若未死亡(死亡后复发不可观测),需要借助条件独立假设识别。
第二步:最小内核
考虑最简单设计:
- 两种治疗,单个frailty(\(\phi=1\)),Gamma分布均值为1方差\(\theta\)。
- 只关注两个假设:\(H_{00}: \beta_R=0,\beta_D=0\);\(H_{10}: \beta_R<0,\beta_D=0\);\(H_{01}: \beta_R=0,\beta_D<0\);\(H_{11}: \beta_R<0,\beta_D<0\)。这里“<0”表示风险比<1,即有益。此外还有 \(H_{\text{harm}}\) 等情形(但互斥假设集具体设计见后)。
- 决策规则:计算每个假设的后验模型概率 \(P(H_{jk} \mid \text{data})\);若 \(P(H_{10})+P(H_{01})+P(H_{11}) > 0.9\) 且 \(P(H_{\text{harm}}) < 0.05\),则宣称IP有效。
- 样本量确定:在假定真实 \(\beta_R=-0.5, \beta_D=0\)(一个有益另一个中性)下,对每个 \(n\) 模拟生成数据,拟合贝叶斯模型,计算决策规则满足的频率(=power)。直到该频率超过0.8。同时控制type I error(在 \(\beta_R=0,\beta_D=0\) 下模拟,计算宣布有效的频率 <0.05)。
这个内核的本质是:用贝叶斯模型选择替代多重检验,用共享frailty捕获相关性以避免低估I类错误。它不需要复杂的frailty分布——Gamma足够灵活,也无需调整多个基线协变量。整个设计可用MCMC一次拟合,计算后验模型概率即可。
三、这篇论文做了什么¶
三句话
① 研究了在复发–终止事件联合模型框架下,如何设计临床试验以检验两个多重主要终点(IP对复发和终止事件的效果)。② 核心工具是共享frailty联合模型 + 后验模型概率,用于判断IP是否“至少在一个终点有益、对另一个无害”;③ 主要结论:通过模拟验证该设计能达到预设power和type I error,在参数frailty假定错误时用Dirichlet过程混合也能维持稳健性,并以结直肠癌试验演示全流程。
关键设定与假设
- 模型:如第二节所示,这里补全完整设定。作者采用两种frailty分布:对数正态(LN,\(\log u_i \sim N(0,\sigma^2)\))和Gamma(均1方差\(\theta\))。基准风险用分段指数模型(piecewise exponential)以获得灵活性。
- 互斥假设:将试验结论空间分为9个状态(表1,文中):\(H_{00},H_{10},H_{01},H_{11},H_{12},H_{21},H_{22}\)等,其中下标1=有益(HR<1),2=有害(HR>1),0=无差异。只有“至少一个有益且另一个无害”的状态被定义为成功。
- 决策准则:后验概率 \(P(\text{成功} \mid \text{data}) > 0.9\) 且 \(P(\text{至少一个有害} \mid \text{data}) < 0.05\)。采用对称Dirichlet先验(参数均为1)对模型指标。
- 样本量确定:基于模拟,在预设效应(如 \(\beta_R=-0.5,\beta_D=0\) )下,调整\(n\)使power ≥0.8,同时检查type I error(\(\beta_R=\beta_D=0\))<0.05。
- 推广:用Dirichlet过程混合(DPM)替代参数frailty:\(u_i \sim G, \; G \sim DP(\alpha, G_0)\),其中\(G_0\)为对数正态。MCMC采样。比较LN、Gamma、DPM三种frailty分布下的设计操作特性。
主要结果(模拟部分)
- 当真实frailty为Gamma时,无论哪种frailty假定用于设计,power≈0.77–0.81,type I error≈0.02–0.06。即在参数正确时所有设计近似有效。
- 当真实frailty为离群值分布(如混合分布),DPM设计的power损失最小(<5%),而参数设计可能产生5–10%的power偏差。
- 真实例子:结直肠癌试验(COLONOSCREEN数据?但作者未公开数据集,只是演示设计流程)。设定背景:IP为阿司匹林,复发终点为腺瘤复发时间,终止终点为全因死亡。基于前期数据估计先验(\(\beta_R=-0.3,\beta_D=0\)),frailty方差0.5。用提出的设计计算所需样本量n=600达到power 0.82(type I error 0.04)。演示中对比了使用Gamma与DPM的差异:DPM稍保守,power=0.79但error=0.03。
- 注意:该例子不是真实数据验证(未实际运行试验),而是“假设设计”演示。
证明路线与技术技巧(本文为应用性,无严格数学证明)
- 无传统意义上的定理/引理证明。所有操作特性通过模拟频率计算。技术技巧包括:
- MCMC采样:使用Metropolis-within-Gibbs更新分段指数风险参数、log-hazard ratios、frailty。
- 后验模型概率:在MCMC过程中,每次迭代根据采样出的\(\beta_R,\beta_D\)判断属于哪个假设状态,累计频率作为后验概率。
- 模拟算法:给定真实参数,生成复发–终止轨迹(离散事件模拟),然后拟合贝叶斯模型。重复500–1000次以估计操作特性。
- 关键跳跃点:如何同时控制power和type I error——作者采用两阶段:先确定后验阈值,再调整样本量。但未提供理论证明该阈值能全局控制I类错误(只是通过模拟验证)。
真实例子与应用
- 数据:结直肠癌筛查数据中的历史信息(非公开)。
- 做法:从历史对照数据估计先验分布(\(\beta_R,\beta_D\)均值与协方差),然后基于假设效应设计新试验。
- 结果:n=600,实际power 0.82。对比三种frailty设计,差异不大。
- 该例子的目的:演示该方法在临床常见场景中的可操作性,而非验证理论或展示优势。它说明即便只有先验信息,也能用此框架进行样本量确定。
🔎 结论是否比证明窄
- 作者声称“该方法能确保试验设计具有高power和可控type I error”,但所有操作特性仅通过仿真验证,且模拟假定模型为参数形式。没有任何大样本理论保证。具体弱点:type I error仅在零假设(两个HR=1)下检测,但实际多重性下真正的I类错误(宣布有益当实际有害)可能更高,文中未系统探索。
- 文中“DPM推广”的比较也仅限于特定偏差情形,无法推广为“DPM总是优于参数设计”。
四、开放问题¶
- 频率学派设计方法的缺失:本文完全采用贝叶斯框架,但许多监管机构仍偏好频率学派错误控制。是否存在一种基于联合模型、能给出解析样本量公式的频率学派设计?其性能与本文对比如何?(扎根于:文中未讨论任何频率学派替代方案)
- 多重性校正的严格性:本文的后验模型概率选择没有调整多重比较;虽然统计功效模拟看起来不错,但更坏情形(如IP同时伤害两个终点)后的I类错误未被彻底评估。是否可以构造一个理论界来保证在弱零假设下的超均匀性?(扎根于:模拟只覆盖部分零假设情形)
- 非参数frailty的识别与效率:Dirichlet过程混合的引入虽然灵活,但其在试验设计中的频率性质(type I error能否在有限样本下控制)只有模拟证据。能否给出渐近结论:在固定样本量下,DPM设计的操作特性收敛到什么目标?(扎根于:文中“compare its performance to the proposed approach”仅靠模拟)
- 时变治疗效应:复发和终止事件的治疗效应可能是时间依赖的(例如延迟效果)。本文的比例风险假定是否可以扩展到非比例风险?如果扩展后,互斥假设集如何重新定义?(扎根于:全文假定比例风险)
(以上开放问题均不替研究者判断可行性,仅为罗列。)
Maintained by 陈星宇 · Homepage · Source on GitHub