Joint time-to-event partial order continual reassessment method and Joint time-to-event Bayesian logistic regression model: Statistical designs for dual agent phase I/II dose finding studies with late-onset toxicity and activity outcomes¶

作者: Helen Barnett, Oliver Boix, Dimitris Kontos, Thomas Jaki
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 2/10
机构绿灯: University of Cambridge（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251403384

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的是多药联合（Dual-agent）早期临床试验（Phase I/II）中的序贯剂量探索设计问题。其根本统计挑战在于：在二维或更高维的剂量组合网格上，既要控制毒性（安全性）又要追求活性（有效性），同时由于肿瘤治疗通常跨越多个周期，毒性与活性结局往往是延迟发生的——在需要做下一剂量决策时，前一个病人的结局尚未完全观测。这导致经典的基于即时观测的序贯分配算法失效，必须引入时间-事件（Time-to-event, TITE）建模与贝叶斯后验更新来处理“未完成观测”的似然。

发展脉络： - 奠基工作（单药毒性导向）：早期剂量探索围绕单药寻找最大耐受剂量（MTD）。O'Quigley et al. (1990) 提出连续再评估方法（CRM），用参数贝叶斯模型在单药剂量序列上序贯估计毒性概率；Cheung & Chappell (2000) 引入 TITE-CRM，通过事件时间模型（如加权似然）将延迟毒性纳入 CRM 框架，解决了单药场景下“病人还在随访中就要做决策”的问题。 - 主要进展（双药毒性导向）：当进入双药联合时，剂量组合构成二维网格，不同组合间的毒性单调性不再成立（即存在部分有序 Partial order）。Conaway et al. (2004) 与 Yuan & Chappell (2004) 开始探索联合剂量下的毒性模型；Yin & Yuan (2009a) 提出 Partial order CRM (POCRM)，用矩阵刻画部分有序结构，将 CRM 推广至双药毒性探索；Thall et al. (2003) 与 Yin & Yuan (2009b) 则引入贝叶斯逻辑回归模型（BLRM）处理双药毒性联合效应。 - 当前 Frontier（双药双结局 + 延迟）：Phase I/II 设计要求同时盯住毒性与活性，寻找最优生物剂量（OBD）。Yuan et al. (2017) 与 Mandea et al. (2021) 在单药场景下将毒性与活性联合建模并处理延迟结局；双药场景下，Riviere et al. (2018) 提出了基于效用（Utility）的联合模型，但未处理延迟结局；Lin & Yin (2016) 及 Jimeno et al. (2023) 探索了双药双结局设计，但或未显式建模时间-事件，或仅处理毒性延迟而假设活性即时可观测。 - 本文的位置：本文填补了“双药联合 + 毒性与活性均延迟发生 + 部分有序网格”这一交叉缺口，将单药场景的 TITE 思路分别嵌入 POCRMs 与 BLRM，提出 Joint TITE-POCRM 与 Joint TITE-BLRM。

子线索聚类： 1. 基于 CRM 的部分有序路线（POCRM 系）：侧重通过部分有序矩阵与工作模型参数化剂量组合的毒性排序，计算简便但对单调性假设依赖强。代表：Yin & Yuan (2009a), Riviere et al. (2018)。 2. 基于 BLRM 的交互效应路线（BLRM 系）：侧重用逻辑回归模型显式刻画两药的主效应与交互效应，模型更灵活但参数维数高、先验设定敏感。代表：Thall et al. (2003), Yin & Yuan (2009b)。 3. 模型辅助路线：不依赖复杂参数模型，基于查表或简单规则（如 BOIN 组合版），稳健性高但难以自然融合延迟时间信息。代表：Lin & Yin (2016), Jimeno et al. (2023)。

这个方向在追问的核心问题： 1. 在二维剂量网格上，如何既利用部分有序先验又允许交互效应偏离，以准确估计联合毒性/活性概率？ 2. 当毒性与活性均可能延迟发生时，如何构造似然函数使得“仍在随访的病人”贡献合理的统计信息，而不导致剂量跃迁过于保守或激进？ 3. 在序贯决策下，如何定义一个综合毒性与活性的效用函数或选择准则，以稳定收敛到 OBD 而非仅 MTD？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：现有双药 Phase I/II 设计要么只处理毒性延迟（假设活性即时），要么根本不处理延迟，而现实临床中活性同样延迟，因此 Joint TITE 是“显然的下一步”。 - 被淡化或回避的竞争路线：作者在 intro 中未深入讨论非参数或半参数生存模型处理延迟的路线（如 IPCW 逆概率加权在序贯设计中的潜在应用），也未提及基于机器学习/强化学习的自适应设计路线。此外，对模型辅助方法（如 BOIN-ET）的讨论仅停留在模拟比较层面，未在理论层面分析其与模型化方法的渐近差异。 - 明显该被引却未出现的：在因果推断与动态治疗 regimes（DTRs）领域，处理时变混杂与延迟结局的序贯决策有成熟理论（如 Robins 1986 的 g-估计、Murphy 2003 的 Q-learning）。本文的序贯剂量分配本质上是一个 DTR 问题，但 intro 完全未引用 DTR/SMART 文献——这值得研究者去查：DTR 的理论能否为剂量探索的序贯决策提供更严苛的因果/渐近保证？

张力：未见明显对立引用。POCRM 与 BLRM 路线在双药毒性建模上各有优劣，但文献中未见在相同设定下得出相反结论的明确对立；本文模拟结果也显示两者“平均可比但场景不一致”，这恰恰是当前文献缺乏理论比较（如 minimax 风险界）的信号。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

剂量组合：\(d = (d_A, d_B)\)，其中 \(d_A \in \{1, \ldots, s_A\}\) 为药 A 的剂量水平，\(d_B \in \{1, \ldots, s_B\}\) 为药 B 的剂量水平。共有 \(s_A \times s_B\) 个组合。
潜在结局：
潜在毒性时间 \(T^{\text{tox}}(d)\)：若病人在组合 \(d\) 下发生毒性，\(T^{\text{tox}}\) 为发生时间；若不发生，\(T^{\text{tox}} = \infty\)。
潜在活性时间 \(T^{\text{act}}(d)\)：若病人达到活性（如肿瘤缓解），\(T^{\text{act}}\) 为达到时间；若不达到，\(T^{\text{act}} = \infty\)。
可观测数据：对第 \(i\) 个病人，分配剂量 \(d_i\)，观测随访时间 \(Y_i = \min(T^{\text{tox}}_i, T^{\text{act}}_i, C_i, \tau)\)，其中 \(C_i\) 为右删失时间，\(\tau\) 为评估窗口（如 3 个周期）。实际观测到：
指示变量 \(U_i^{\text{tox}} = I(T^{\text{tox}}_i \le Y_i)\)（是否在随访内发生毒性），
指示变量 \(U_i^{\text{act}} = I(T^{\text{act}}_i \le Y_i)\)（是否在随访内发生活性），
随访时间 \(Y_i\)。
参数 / Estimand：
毒性概率 \(\pi^{\text{tox}}(d) = P(T^{\text{tox}} \le \tau \mid d)\)（在窗口 \(\tau\) 内发生毒性的边际概率）。
活性概率 \(\pi^{\text{act}}(d) = P(T^{\text{act}} \le \tau \mid d)\)（在窗口 \(\tau\) 内发生活性的边际概率）。
目标剂量组合：满足 \(\pi^{\text{tox}}(d) \le \theta^{\text{tox}}\)（安全性阈值，如 0.3）且最大化某种效用 \(U(\pi^{\text{tox}}, \pi^{\text{act}})\) 的 OBD。
模型结构：对 \(T^{\text{tox}}\) 与 \(T^{\text{act}}\) 分别指定参数生存模型（如 Weibull 或分段指数），其参数与剂量 \(d\) 通过链接函数关联；毒性与活性之间允许相关性（通过 Copula 或共享脆弱性）。

第二步：最小内核——单药单结局 TITE-CRM 的似然构造

整篇论文的核心数学机制，本质上是单药 TITE-CRM 似然在双药双结局上的“加壳”推广。剥掉双药网格与双结局耦合，最小内核是：

最简特例（单药、仅毒性延迟）：设只有一药，剂量水平 \(d \in \{1, \ldots, s\}\)，目标找 MTD 使得 \(\pi(d) = P(T \le \tau \mid d) = \theta\)。CRM 工作模型设 \(\pi(d) = \alpha \exp(\beta d)\)（或类似单调函数）。当所有病人都随访满 \(\tau\) 时，似然是标准的 Bernoulli：\(L(\alpha, \beta) = \prod_i \pi(d_i)^{U_i} (1-\pi(d_i))^{1-U_i}\)。

延迟发生时的关键跳跃：若病人 \(i\) 随访了 \(Y_i < \tau\) 且尚未发生毒性（\(U_i=0\)），他“未来可能仍会发生”。TITE-CRM 的核心想法是：引入事件时间分布 \(S(t \mid d) = P(T > t \mid d)\)，将“随访到 \(Y_i\) 仍未发生”的信息写成 \(P(T > Y_i \mid d) = S(Y_i \mid d)\)。似然变为：

\[L(\alpha, \beta) = \prod_{i: U_i=1} P(T \le Y_i \mid d_i) \times \prod_{i: U_i=0} S(Y_i \mid d_i)\]

其中 \(P(T \le Y_i \mid d_i) = \pi(d_i) \cdot w(Y_i \mid d_i)\)（\(w\) 为在 \(Y_i\) 前发生的条件概率权重），\(S(Y_i \mid d_i) = 1 - \pi(d_i) \cdot w(Y_i \mid d_i)\)。若假设 \(T\) 服从均匀分布（Cheung & Chappell 2000 的简化），则 \(w(Y_i) = Y_i / \tau\)，似然退化为：

\[L(\alpha, \beta) = \prod_{i: U_i=1} \pi(d_i) \frac{Y_i}{\tau} \times \prod_{i: U_i=0} \left(1 - \pi(d_i) \frac{Y_i}{\tau}\right)\]

这就是最小内核：用随访时间比例 \(Y_i/\tau\) 作为“尚未发生但可能发生”的权重，将不完全观测纳入似然，使得贝叶斯后验在延迟数据下仍能更新。本文的所有推广（双药 POCRMs 的矩阵参数化、BLRM 的交互项、双结局的联合似然与 Copula 耦合），全是在这个“时间加权似然”骨架上添砖加瓦。

三、这篇论文做了什么¶

三句话： ① 研究了双药联合 Phase I/II 剂量探索中，毒性与活性结局均延迟发生时的序贯设计问题； ② 核心方法是将单药 TITE-CRM 与 TITE-BLRM 的时间加权似然机制，分别推广至双药部分有序网格与双结局联合建模框架； ③ 主要结论是：在广泛模拟中，两种模型化方法（Joint TITE-POCRM 与 Joint TITE-BLRM）平均表现优于模型辅助设计，但两者之间优劣随场景波动，且对剂量网格大小敏感。

关键设定与假设： - 部分有序假设：在 POCRMs 模型中，假设剂量组合的毒性概率服从部分有序矩阵 \(M\)（即若 \(d_A\) 与 \(d_B\) 同时增加，毒性概率不降；但若一增一减，排序不确定）。这是对单药 CRM 单调性假设的放宽，但仍是强先验约束。 - 交互效应假设：在 BLRM 模型中，假设 \(\logit \pi^{\text{tox}}(d_A, d_B) = \beta_0 + \beta_A d_A + \beta_B d_B + \beta_{AB} d_A d_B\)，显式建模交互项 \(\beta_{AB}\)。这比 POCRMs 的矩阵隐式建模更灵活，但参数维数从 2 升至 4，先验敏感性增加。 - 毒性与活性相关性假设：通过 Copula（如 Gaussian Copula）或共享脆弱性刻画 \(T^{\text{tox}}\) 与 \(T^{\text{act}}\) 的联合分布，允许两结局相关。若假设独立，联合似然退化为两边缘似然的乘积。 - 事件时间分布假设：对 \(T^{\text{tox}}\) 与 \(T^{\text{act}}\) 分别假设 Weibull 或分段指数分布，用于计算 \(w(Y_i \mid d)\) 与 \(S(Y_i \mid d)\)。这是 TITE 机制的前提——若事件时间分布假设严重偏离真实，权重 \(Y_i/\tau\)（均匀近似）或 Weibull 权重将产生偏差。 - 效用函数与 OBD 定义：定义效用 \(U(d) = U(\pi^{\text{tox}}(d), \pi^{\text{act}}(d))\)，通常取 \(U = (1-\pi^{\text{tox}}) \times \pi^{\text{act}}\) 或类似加权形式。OBD 为最大化 \(U(d)\) 且满足 \(\pi^{\text{tox}}(d) \le \theta^{\text{tox}}\) 的组合。

主要结果： - 理论结果：本文为纯方法与模拟比较型论文，无渐近定理、无 minimax 界、无效率界证明。所有“结果”均以模拟指标（OBD 选择正确百分比、病人分配到 OBD 附近百分比、毒性超标率）呈现。 - 模拟核心量化结论： 1. 在 12 个场景（基于真实试验参数设定）下，Joint TITE-POCRM 与 Joint TITE-BLRM 的 OBD 正确选择率平均约 50-60%，显著高于模型辅助方法（约 30-40%）。 2. 两者之间无一致优胜：POCRM 在毒性单调性强的场景下更稳，BLRM 在交互效应显著场景下更准。 3. 网格大小从 \(4 \times 4\) 扩至 \(5 \times 5\) 时，所有方法正确率下降约 10-15%，BLRM 因参数维数增加下降更剧。 4. 延迟比例（随访未满比例）从 20% 升至 50% 时，两种 TITE 方法仍保持合理收敛，但模型辅助方法因无法利用时间信息，保守性剧增（分配过低剂量）。

证明路线与技术技巧：本文无数学证明节。其“技术技巧”体现在模型构造与计算实现： - 联合似然构造：对每个病人，联合似然为 \(L_i = P(U_i^{\text{tox}}, U_i^{\text{act}}, Y_i \mid d_i)\)，通过 Copula 将边缘生存函数 \(S^{\text{tox}}(Y_i)\) 与 \(S^{\text{act}}(Y_i)\) 耦合，再对已发生事件（\(U=1\)）用密度 \(f\) 替换生存函数。这是 TITE 似然在双结局的推广。 - 贝叶斯后验更新：每入组一批病人（如 3 人），基于当前所有数据（含未完成随访的加权贡献）计算后验 \(\pi(\alpha, \beta \mid \text{data})\)，用 MCMC（如 JAGS 或 Stan）抽样，得到 \(\pi^{\text{tox}}(d)\) 与 \(\pi^{\text{act}}(d)\) 的后验均值，进而计算效用 \(U(d)\) 的后验均值，分配下一病人到最大化后验效用的组合。 - 剂量跃迁约束：为防激进跃迁，加入安全性约束（如后验毒性概率超过 \(\theta^{\text{tox}}\) 的概率 > 0.95 则剔除该组合）与邻域约束（下一剂量只能在当前组合的相邻格点）。

真实例子与应用： - 用的什么数据 / 场景：模拟参数基于一个真实双药 Oncology Phase I/II 试验（作者前作引用），该试验涉及药 A（4 剂量）与药 B（4 剂量），毒性窗口 3 周期，活性窗口 2 周期。 - 怎么把本文方法用上去：从该真实试验的历史数据估计毒性/活性基线概率与交互效应参数，作为模拟场景的“真实参数”；然后在此真实参数周围扰动（如交互效应从 0 变至显著负/正），生成 12 个场景；在每个场景下运行 1000 模拟试验（每模拟 30-60 个病人序贯入组），记录 OBD 选择率与分配分布。 - 得到什么结果：在真实试验参数对应的“基准场景”下，Joint TITE-POCRM 与 Joint TITE-BLRM 的 OBD 正确率均约 55%，模型辅助方法约 35%；在交互效应偏离基准的场景下，BLRM 优势显现（正确率升至 65%，POCRM 降至 45%）。 - 这个例子想说明什么：验证 TITE 机制在延迟双结局下的可行性，并展示模型化方法相对模型辅助的增益；同时警示：不存在“万能最优模型”，选择需依场景（单调性强弱、网格大小）而定。

🔎 结论是否比证明窄：本文所有结论均基于有限模拟，无理论保证。作者在讨论节明确承认：“The comparability of the two model-based designs is not consistent across scenarios, and theoretical characterization of their asymptotic convergence remains open.”这意味着，模拟中观察到的“模型化优于辅助”与“POCRM vs BLRM 场景依赖”均未被渐近理论覆盖——这是典型的“结论宽于证明”的信号。

四、开放问题（点到为止，扎根具体语句）¶

渐近收敛保证：在延迟双结局下，Joint TITE-POCRM 与 Joint TITE-BLRM 的剂量分配序列是否几乎必然收敛到 OBD？当前仅有模拟支撑，缺乏类似单药 CRM 的 O'Quigley (1990) 型收敛定理。扎根：作者讨论节“Theoretical characterization of their asymptotic convergence remains open”。
事件时间分布假设的稳健性：若真实 \(T^{\text{tox}}\) 或 \(T^{\text{act}}\) 偏离 Weibull/分段指数（如存在长期存活或延迟发作峰），TITE 权重 \(w(Y_i)\) 的偏差如何传播至 OBD 估计？扎根：作者方法节假设 Weibull 但模拟仅测试了均匀与指数生成，未覆盖重尾或多峰分布。
与 DTR/SMART 理论的桥接：序贯剂量分配本质是动态治疗 regimes，当前模型化方法未处理时变混杂（如中途换药或删失依赖中间结局），是否可引入 Robins 的 g-估计或 Q-learning 提供因果一致性保证？扎根：intro 完全未引 DTR 文献，但随访时间 \(Y_i\) 依赖中间结局的删失机制正是时变混杂的典型场景。
高维网格的参数维数灾难：当网格从 \(4 \times 4\) 扩至 \(6 \times 6\) 或三药联合时，BLRM 的交互参数维数爆炸，先验如何收缩？扎根：模拟节“Performance degrades substantially as the dosing grid size increases, particularly for BLRM”。

Maintained by 陈星宇 · Homepage · Source on GitHub

Joint time-to-event partial order continual reassessment method and Joint time-to-event Bayesian logistic regression model: Statistical designs for dual agent phase I/II dose finding studies with late-onset toxicity and activity outcomes¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论