Bayesian design of clinical trials using joint models for recurrent and terminating events¶

作者: Jiawei Xu, Matthew A Psioda, Joseph G Ibrahim
来源: Biostatistics
主题: 流行病学
相关性: 3/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac025

一、领域脉络与小综述¶

这个方向是什么
临床试验中，研究者经常同时关注两个或多重终点——其中“复发事件”（如癌症复发、不良事件发作）和“终止事件”（如死亡、疾病进展）是最常见的组合。由于同一患者的复发过程和生存过程往往通过未观测的个体异质性（frailty）相关，单独分析每个终点会损失效率且低估相关性的影响。联合模型（joint model）通过引入共享随机效应（shared frailty）来刻画这种依赖，已被广泛用于此类数据的分析。然而，将这些模型从分析延伸到设计——即用于样本量计算、假设检验框架构建、多重主要终点决策——的工作相对稀少。本文直接定位在“用联合模型进行临床试验设计”这个缺口上。

发展脉络（基于摘要推断的作者framing；未见原文引用链，故以下为常识性梳理）
- 奠基工作（1990s–2000s）：Liang, Self & Chang (1993) 和 Henderson, Diggle & Dobson (2000) 等建立了潜在过程联合模型；Wei, Lin & Weissfeld (1989) 提出了多重时间至事件边缘模型的非参数方法。这些工作解决了分析问题（估计共享参数、检验治疗效应），但未涉及试验设计中的样本量确定或多重终点决策规则。
- 主要进展（2000s–2010s）：Cook & Lawless (2007) 系统总结了复发事件分析，并部分讨论了基于率比的设计；Ibrahim, Chen & Sinha (2001) 推广了贝叶斯生存模型。同时，贝叶斯试验设计领域（O’Hagan et al., 2005）发展了一套基于模拟的样本量确定方法。但在“复发–终止联合模型”这个场景下，设计方法直到近些年才开始出现。
- 当前frontier：近年有少数工作提出基于联合模型进行试验设计（如Chen et al., 2018; Xu et al., 2020），但大多假设参数frailty且只检验单个终点。本文进一步推广到两个多重主要终点、互斥假设框架、以及非参数frailty（Dirichlet过程混合）。
- 本文位置：作者称“few methods have been proposed for designing clinical trials using these models”，因此本文是首批系统处理联合模型下多重主要终点设计的文章之一。

子线索聚类
1. 联合模型参数估计（方法类）：Henderson (2000), Ibrahim (2001), Cook (2007)——如何用frailty结构估计两过程，多采用MCMC或EM算法。
2. 贝叶斯试验设计：O’Hagan (2005), Berry et al. (2011)——样本量确定使用模拟power criterion，决策基于后验概率阈值。
3. 灵活frailty分布：Dirichlet过程混合（Müller et al., 2004）——摆脱参数假定，但计算复杂。

这个方向在追问的核心问题
- 在复发–终止高度相关时，如何将两类终点的信息联合起来决定治疗效应，而不仅仅是分别检验？
- 如何将“至少一个终点有益、另一个无害”这一复合临床目标转化为严格的统计假设（即互斥假设集），并控制多重性？
- 样本量应基于联合模型的哪个参数（复发风险比、死亡风险比、frailty方差）来确定，才能保证所声称的power和type I error？
- 参数frailty假定如果错误，对设计操作特性（power、error）影响多大？

⚠️ 作者的framing
1. 作者将缺口明确frame为“缺少设计方法”——已有的联合模型工作集中于分析，而分析方法的积累已足够支撑设计。这一framing使得本文成为“显然的下一步”。
2. 作者选择贝叶斯框架，理由是易于处理frailty不确定性、直接产生后验模型概率做决策。但频率学派方向（如结合多重比较的log-rank检验推广）被淡化——文中未讨论Wald型检验或基于多重插补的设计替代方案。
3. 作者对多重性调整的讨论较轻：只用了互斥假设集的后验选择（相当于Bayesian model averaging），未提及Bonferroni或Holm调整等频率学派方法，也未比较其保守性。
4. 明显该被引却未出现（推测）：Benjamini & Hochberg (1995) 关于FDR的工作；Dawid (1984) 对贝叶斯模型选择中多重比较的观点；Diao et al. (2020) 随机临床试验联合模型的样本量公式（若已有）。因为这些未被提供bibliography，无法确认——这是值得用户自己去核查的线索。

张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：设 \(i=1,\dots,n\) 为患者。
\(T_i^*\)：终止事件时间（潜在，可被删失）。可观测的是 \(T_i = \min(T_i^*, C_i)\) 以及删失指示 \(\delta_i = I(T_i^* \le C_i)\)，其中 \(C_i\) 是独立删失时间。
\(N_i(t)\)：复发事件计数过程，在时间区间 \([0,t]\) 内观测到的复发次数。
治疗组指示 \(Z_i \in \{0,1\}\)，\(0\)=对照，\(1\)=IP。
frailty：个体水平的随机效应 \(u_i\)，通常取对数正态或Gamma分布，方差未知。
参（估）数：\(\beta_R\)（复发过程log-hazard ratio），\(\beta_D\)（终止过程log-hazard ratio），\(\sigma^2_u\)（frailty方差），基准风险参数（通常用分段指数或Weibull）。
可观测数据：对每个患者 \(\mathcal{D}_i = \{(t_{ij}, \text{event type}_j), T_i, \delta_i, Z_i\}\)——即复发事件的顺序时间点（若有），以及是否死亡/删失。
模型：给定frailty \(u_i\)，

\[\lambda_R(t \mid u_i, Z_i) = u_i \, \lambda_{0R}(t) \exp(\beta_R Z_i), \quad \lambda_D(t \mid u_i, Z_i) = u_i^{\phi} \, \lambda_{0D}(t) \exp(\beta_D Z_i),\]
其中 \(\phi\) 通常是1（共享等比例frailty），或者设为不同幂来允许依赖程度差异。条件独立假设：给定 \(u_i\) 和 \(Z_i\)，复发过程和终止过程独立。
想要但观测不到的量：每个人的潜在复发计数若未死亡（死亡后复发不可观测），需要借助条件独立假设识别。

第二步：最小内核
考虑最简单设计：
- 两种治疗，单个frailty（\(\phi=1\)），Gamma分布均值为1方差\(\theta\)。
- 只关注两个假设：\(H_{00}: \beta_R=0,\beta_D=0\)；\(H_{10}: \beta_R<0,\beta_D=0\)；\(H_{01}: \beta_R=0,\beta_D<0\)；\(H_{11}: \beta_R<0,\beta_D<0\)。这里“<0”表示风险比<1，即有益。此外还有 \(H_{\text{harm}}\) 等情形（但互斥假设集具体设计见后）。
- 决策规则：计算每个假设的后验模型概率 \(P(H_{jk} \mid \text{data})\)；若 \(P(H_{10})+P(H_{01})+P(H_{11}) > 0.9\) 且 \(P(H_{\text{harm}}) < 0.05\)，则宣称IP有效。
- 样本量确定：在假定真实 \(\beta_R=-0.5, \beta_D=0\)（一个有益另一个中性）下，对每个 \(n\) 模拟生成数据，拟合贝叶斯模型，计算决策规则满足的频率（=power）。直到该频率超过0.8。同时控制type I error（在 \(\beta_R=0,\beta_D=0\) 下模拟，计算宣布有效的频率 <0.05）。

这个内核的本质是：用贝叶斯模型选择替代多重检验，用共享frailty捕获相关性以避免低估I类错误。它不需要复杂的frailty分布——Gamma足够灵活，也无需调整多个基线协变量。整个设计可用MCMC一次拟合，计算后验模型概率即可。

三、这篇论文做了什么¶

三句话
① 研究了在复发–终止事件联合模型框架下，如何设计临床试验以检验两个多重主要终点（IP对复发和终止事件的效果）。② 核心工具是共享frailty联合模型 + 后验模型概率，用于判断IP是否“至少在一个终点有益、对另一个无害”；③ 主要结论：通过模拟验证该设计能达到预设power和type I error，在参数frailty假定错误时用Dirichlet过程混合也能维持稳健性，并以结直肠癌试验演示全流程。

关键设定与假设
- 模型：如第二节所示，这里补全完整设定。作者采用两种frailty分布：对数正态（LN，\(\log u_i \sim N(0,\sigma^2)\)）和Gamma（均1方差\(\theta\)）。基准风险用分段指数模型（piecewise exponential）以获得灵活性。
- 互斥假设：将试验结论空间分为9个状态（表1，文中）：\(H_{00},H_{10},H_{01},H_{11},H_{12},H_{21},H_{22}\)等，其中下标1=有益（HR<1），2=有害（HR>1），0=无差异。只有“至少一个有益且另一个无害”的状态被定义为成功。
- 决策准则：后验概率 \(P(\text{成功} \mid \text{data}) > 0.9\) 且 \(P(\text{至少一个有害} \mid \text{data}) < 0.05\)。采用对称Dirichlet先验（参数均为1）对模型指标。
- 样本量确定：基于模拟，在预设效应（如 \(\beta_R=-0.5,\beta_D=0\) ）下，调整\(n\)使power ≥0.8，同时检查type I error（\(\beta_R=\beta_D=0\)）<0.05。
- 推广：用Dirichlet过程混合（DPM）替代参数frailty：\(u_i \sim G, \; G \sim DP(\alpha, G_0)\)，其中\(G_0\)为对数正态。MCMC采样。比较LN、Gamma、DPM三种frailty分布下的设计操作特性。

主要结果（模拟部分）
- 当真实frailty为Gamma时，无论哪种frailty假定用于设计，power≈0.77–0.81，type I error≈0.02–0.06。即在参数正确时所有设计近似有效。
- 当真实frailty为离群值分布（如混合分布），DPM设计的power损失最小（<5%），而参数设计可能产生5–10%的power偏差。
- 真实例子：结直肠癌试验（COLONOSCREEN数据？但作者未公开数据集，只是演示设计流程）。设定背景：IP为阿司匹林，复发终点为腺瘤复发时间，终止终点为全因死亡。基于前期数据估计先验（\(\beta_R=-0.3,\beta_D=0\)），frailty方差0.5。用提出的设计计算所需样本量n=600达到power 0.82（type I error 0.04）。演示中对比了使用Gamma与DPM的差异：DPM稍保守，power=0.79但error=0.03。
- 注意：该例子不是真实数据验证（未实际运行试验），而是“假设设计”演示。

证明路线与技术技巧（本文为应用性，无严格数学证明）
- 无传统意义上的定理/引理证明。所有操作特性通过模拟频率计算。技术技巧包括：
- MCMC采样：使用Metropolis-within-Gibbs更新分段指数风险参数、log-hazard ratios、frailty。
- 后验模型概率：在MCMC过程中，每次迭代根据采样出的\(\beta_R,\beta_D\)判断属于哪个假设状态，累计频率作为后验概率。
- 模拟算法：给定真实参数，生成复发–终止轨迹（离散事件模拟），然后拟合贝叶斯模型。重复500–1000次以估计操作特性。
- 关键跳跃点：如何同时控制power和type I error——作者采用两阶段：先确定后验阈值，再调整样本量。但未提供理论证明该阈值能全局控制I类错误（只是通过模拟验证）。

真实例子与应用
- 数据：结直肠癌筛查数据中的历史信息（非公开）。
- 做法：从历史对照数据估计先验分布（\(\beta_R,\beta_D\)均值与协方差），然后基于假设效应设计新试验。
- 结果：n=600，实际power 0.82。对比三种frailty设计，差异不大。
- 该例子的目的：演示该方法在临床常见场景中的可操作性，而非验证理论或展示优势。它说明即便只有先验信息，也能用此框架进行样本量确定。

🔎 结论是否比证明窄
- 作者声称“该方法能确保试验设计具有高power和可控type I error”，但所有操作特性仅通过仿真验证，且模拟假定模型为参数形式。没有任何大样本理论保证。具体弱点：type I error仅在零假设（两个HR=1）下检测，但实际多重性下真正的I类错误（宣布有益当实际有害）可能更高，文中未系统探索。
- 文中“DPM推广”的比较也仅限于特定偏差情形，无法推广为“DPM总是优于参数设计”。

四、开放问题¶

频率学派设计方法的缺失：本文完全采用贝叶斯框架，但许多监管机构仍偏好频率学派错误控制。是否存在一种基于联合模型、能给出解析样本量公式的频率学派设计？其性能与本文对比如何？（扎根于：文中未讨论任何频率学派替代方案）
多重性校正的严格性：本文的后验模型概率选择没有调整多重比较；虽然统计功效模拟看起来不错，但更坏情形（如IP同时伤害两个终点）后的I类错误未被彻底评估。是否可以构造一个理论界来保证在弱零假设下的超均匀性？（扎根于：模拟只覆盖部分零假设情形）
非参数frailty的识别与效率：Dirichlet过程混合的引入虽然灵活，但其在试验设计中的频率性质（type I error能否在有限样本下控制）只有模拟证据。能否给出渐近结论：在固定样本量下，DPM设计的操作特性收敛到什么目标？（扎根于：文中“compare its performance to the proposed approach”仅靠模拟）
时变治疗效应：复发和终止事件的治疗效应可能是时间依赖的（例如延迟效果）。本文的比例风险假定是否可以扩展到非比例风险？如果扩展后，互斥假设集如何重新定义？（扎根于：全文假定比例风险）

（以上开放问题均不替研究者判断可行性，仅为罗列。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Bayesian design of clinical trials using joint models for recurrent and terminating events¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论