Sequential Multiple Assignment Randomized Trials Based on Restricted Mean Survival Time¶

作者: Jianhong Pan, Shijie Yu, Minggang Yin, Yuxuan Yang, Chongyang Duan
来源: Statistics in Medicine
主题: 因果推断
相关性: 6/10
链接: https://doi.org/10.1002/sim.70563

一、领域脉络与小综述¶

这个方向是什么¶

Sequential Multiple Assignment Randomized Trial (SMART) 是一种多阶段随机化试验设计，用于评估 Adaptive Treatment Strategies (ATSs)。ATS 是一系列规则，根据患者阶段性反应（中间结局）来决定后续治疗：例如“先给药 A，若两周后有效则继续 A，否则切换至 B”。这种设计来自个性化医疗对传统随机对照试验（RCT）的拓展——RCT 评估的是一个固定生长路线上的单一治疗，而 SMART 允许在每个阶段根据患者状态“适变”分配，从而模拟临床实践中医生逐步调整的决策过程。

SMART 本身在纵向因果推断中已有成熟的方法构思（Q-learning、G-computation、IPW 类估计量），多数聚焦在连续或二元结局上。本文直接挑战的是生存结局（time-to-event）下的 SMART 推断。核心难题有三： 1. 生存数据的高删失率与长随访时间，使得逐个 ATS 的比较复杂； 2. 比例风险假设（PH）在 SMART 设定下常不成立，因为 ATS 是跨阶段的组合，违背 PH 的后果严重（估计偏差、检验力下降）； 3. Interim analysis 问题是作者特别提出的——在试验中期对推迟的短期利益、无效性或危害做“早期停止”判断，生存数据中经典的 sequential test（如 O'Brien-Fleming 界）依赖于独立增量假设（independent-increments property），而 SMART 的复杂结构（同一患者的多阶段随机化）破坏了这个性质，导致已有 Type I error 控制方法失效。

因此，本文要回答的是一个整合性的实操问题：在当前 SMART 设计中，能否构造一个不依赖 PH 假设、适用于生存结局、且允许 interim analysis 时仍控制 Type I error 的完整推断框架？

发展脉络¶

我们按时间与概念推进，整理出作者在文中（intro 部分）及引用 k 建立的基线：

节点	代表性引用	贡献 / 留下的口子
奠基：SMART 设计本身	Lavori & Dawson (2000)；Murphy (2005)	提出 SMART 试验结构与 Q-learning 框架。但原模型假定连续结局，未细致处理生存时间。
生存结局的 ATS 评价	Kidwell & Wahed (2013)	在 SMART 中使用加权 log-rank 检验做两两 ATS 比较。口子：log-rank 检验依赖于 PH 假设，一旦 PH 违犯， interpretation 模糊。
绕开 PH 的生存指标：RMST	Royston & Parmar (2011)；Zhao et al. (2016)	在非 SMART 设定下推广了 RMST 的概念与推断。RMST 是一个绝对尺度的指标（特定基线 tau 后的一级矩），对交叉、延迟效应等更稳健。口子：这些方法尚未移植到 SMART 多阶段设计下。
SMART 中的多重比较	Cheung et al. (2015)；Shu et al. (2020)	给出了 ATS 之间 pairwise 比较的全局错误控制方法（如 Bonferroni / Dunnett 类的推广），但同样基于正态 / log-rank，没有 RMST。
Interim analysis 在 SMART 中的挑战	Wahed & Thall (2013)；Nahum-Shani et al. (2020)	讨论了 SMART 中早期停止的动机与实际问题，但并未给出一种非独立增量下仍能控制 Type I error 的构造。

本文的位置：站在 RMST 已在非 SMART 情境下成功推行、且 SMART 设计在生存时间上缺乏合适的基于 RMST 的推断工具这一交汇点上，提出： - 统一的固定权重与动态权重 RMST 估计量（§3-4）； - 对应的方差-协方差结构推导； - 两两与全局假设检验（§5）； - 并首次将 Interim analysis 整合入 SMART 的生存分析框架，针对缺乏独立增量假设问题设计了新错误控制过程（§6）。

这些在已有文献中确实是缺失的，文献中没有直接类似的整合方案。

子线索聚类¶

大致可以分为三条子线索：

SMART 中的估计方法与假设检验（基线方法）：包括二次随机化下的逆概率加权估计（IPW）、Q-learning、嵌套的 g-formula。这条子线的共同挑战——生存数据的处理，从单纯的 log-rank 向更稳健的 RMST 跨越。这一簇是本文直接竞争的对象，因为它们的工具箱一直以 log-rank 或 Cox 模型为核心，拓展到 RMST 在 SMART 设定下没有标准答案。
生存数据的稳健替代指标：RMST（独立于 SMART）：Zhao 2016、Royston & Parmar 2011 等提供了两平行组比较的 RMST 推断，但在 SMART 的多阶段随机化结构、删失驱动调整加权下，这些工具的方差公式和检验构建不再可直接套用。
Interim analysis 与 Type I error 控制（时间序贯检验）：常见的 alpha spending function 方法和 O'Brien-Fleming 界均要求独立增量，这在 SMART 中对同一患者重复观测意味着方差-协方差结构不再满足。本论文提出的新过程是这一簇的第一个 SMART 适配版本。

这个方向在追问的核心问题¶

识别问题：给定 SMART（阶段随机化 + 中间结局的观测）下的可观测数据，一个 ATS 的 RMST 是不是一个可识别的 causal estimand？如果是，用什么权重/回归组合得出它的一致估计？
假设问题：在生存时间设定下，标准的 Kenall 估计方程与独立切割假设到 SMART 时是否需要额外的条件（如“初等转换独立于删失过程”）？
效率与检验力：如何在两阶段加权估计中达到尽量小的方差？是否存在因阶段抽权重设计（固定 vs 动态权重）的变化而影响效率与检验的大小/形状？
时间序贯下的 Type I error 控制：当 interim analysis 发生在不完全独立增量的 SMART 生存数据上时，寻找一个保守且接近 nominal 水平的临界边界。

当前主流瓶颈是：没有一个完整的工具包，把 RMST 的稳健性与 SMART 的多阶段适应性、interim 操作三者整合。

作者的 framing¶

作者明确把自己的工作 frame 成“填补现有 SMART 框架中生存时间分析缺失 RMST 这一‘显然的下一步’” ——他们在 intro 中写道：“RMST has been developed for standard two-arm trials, but has not been extended to SMART designs.” 以及 “Interim analysis methods for SMART designs have been limited and do not accommodate the lack of the independent-increments property.”

竞争的路线被淡化或回避的： - Q-learning 及其对 PH 假设的依赖：作者只是提到“log-rank test requires proportional hazards”，但没有展开讨论 Q-learning 在生存时间下是否可以经过某种变换（如离散时间 hazard 建模）来规避 PH 的问题——可能这些方法本身在生存时间下也需要稳定的 RMST。 - 贝叶斯方法：没有在 intro 中提及 Bayesian adaptive design for SMART with survival（例如 Thall et al. 2007 等的 work）——这可能是作者故意跳过，因为贝叶斯框架下的 Type I error 控制通常不如频率学派直接。 - 明显该存在却没出现在 intro 里：关于 SMART + 半参效率界 的工作。SMART 形成典型的纵向数据，效率界已有较多研究（van der Laan & Robins 2003 书、Bang & Robins 2005 的 IPCW）。效率界对于理解 RMST 估计量是否已经最优非常关键，但作者完全没有提及——这弱化了其“统一框架”的 claim，因为这正好是一个可补充的缺口。

张力：未见明显对立引用——文献整体指的方向一致（需要更稳健的工具），只是本论文率先把 RMST 与 Interim analysis 搭起来。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（在论文中核心记号）：

记号	含义
\(A_1 \in \{a_1, a_1'\}\)	第一阶段随机化的治疗分配
\(O_1\) (或 \(S\))	第一阶段后的中间结局（如“反应/无反应”），为 n 类分类或排序变量
\(A_2 \in \{a_2, a_2'\}\)	第二阶段随机化的治疗分配，依赖上一阶段中间结局多数情况下动态随机化
\(T\)	最终生存时间（潜在连续）
\(C\)	删失时间
\(X\)	观测时间 \(X = \min(T, C)\)，并伴随 event indicator \(\Delta = I(T \le C)\)
\(\tau\)	用户指定的截断时间点，用于 RMST 定义“在 \(\tau\) 之前存活的时间期望”
\(\mathcal{D} = (A_1, O_1, A_2, X, \Delta)\)	一个患者的可观测数据元

潜在（反事实）量：
对于每一个 ATS 规则 \(g = (d_1, d_2)\)，其中 \(d_1\) 为第一阶段决策（一个从 baseline 到 \(A_1\) 的函数），\(d_2\) 为第二阶段决策（一个从 \(O_1\) 到 \(A_2\) 的函数）。定义反事实生存时间 \(T^g\)——如果该患者按规则 g 全程治疗，他能存活的时间。

目标 estimand：

\[\mu_g = \mathbb{E}\left[ \min(T^g, \tau) \right] = \int_0^\tau S_g(t) dt,\]

其中 \(S_g(t) = \Pr(T^g > t)\) 为策略 g 的 survival function。

可观测数据（实际研究者持有的）：
对于每个患者，只能观测到在其实际随机化路径下的 one realization of \((A_1, O_1, A_2, X, \Delta)\)。注意：我们只有在患者实际序列恰好与规则 g 一致时才子集观测到其生存时间；其他患者不完全遵循 g，只能通过逆概率加权（IPW）进行“背景”估计。

模型：
SMART 试验的定义就是其随机化机制被研究者完全掌控。因此，我们可以精确知道每一阶段的分配概率，记作： - \(\pi_1(a_1 \mid \text{baseline})\) ：第一阶段分配概率。 - \(\pi_2(a_2 \mid O_1, A_1)\) ：第二阶段分配概率（依赖于观察到的中间结局 O1 及初级治疗 A1）。

重要假设： 1. Consistency：\(T = T^g\) 如果该患者实际接受的治疗序列与 g 一致。 2. Sequential ignorability (no unmeasured confounding)：SMART 的随机化保证在每个阶段治疗分配独立于潜在结局，给定历史。 3. Positivity：所有患者都有正概率接受所有可能的治疗序列组合。

第二步：最小内核 —— 两阶段二值 SMART、无删失、固定权重 RMST¶

最简特例：
- 只有两个阶段，每阶段二值处理：\(A_1 \in \{0, 1\}\)，\(A_2 \in \{0, 1\}\)。无 baseline 非随机化协变量。中间结局 \(O_1\) 也是二值（反应/无反应）。SMART 设计的一个典型是：Stage-1 随机分配 A1，观察 O1。 - 如果 O1 = 1（反应），则 Stage-2 都给予“维持治疗” M（固定）；如果 O1 = 0（无反应），则在 Stage-2 重新随机分配治疗 B1 或 B2。因此 A2 只在非反应者中随机。 - 我们关注两个 ATS： - 策略 g1：第一阶段用 A=1；如果反应则继续 A=1 维持，否则转向 B1。 - 策略 g2：第一阶段用 A=0；如果反应则继续 A=0，否则转向 B2。

目标：估计 \(\mu_{g1} - \mu_{g2}\)。

数据流（标记一个可能持有形如 g1 策略的患者）： - 一个患者的真实随机路径可能是 A1=1 → O1=0（无反应）→ A2=B1（恰好符合 g1 的第2阶段）。
- 另一个患者 A1=1 → O1=1 → 给维持 A1，不进入第二阶段随机（这完全符合 g1 的第2阶段仍然是 rule “若反应则继续 A1”，既然维持治疗去观察生存时间）。

为什么需要加权：只有那些实际路径正好“匹配”策略 g1 的患者才代表该策略的真实分布，但当我们直接用这些子集的样本均值估计 \(\mu_{g1}\) 时，因为 SMART 在无反应者中将 A2 随机化（有可能患者没抽到 B1），所以选择出来的样本权重会偏离真实分布。加权就解决了这个问题。

固定权重估计量：对于每个患者 i，定义 策略指示变量：

\[I_i(g) = I(\text{患者 i 的实际第一阶段分配 = g 的 d1, 且如果第二阶段适用的话也匹配 d2}).\]

用逆概率权重（IPW）校正：

\[w_i(g) = \frac{I(A_{1i} = g_1) \cdot I(A_{2i} = g_2 \mid O_{1i}, A_{1i})}{\pi_1(A_{1i}) \cdot \pi_2(A_{2i} \mid O_{1i}, A_{1i})}.\]

在无删失（C = 0）时，RMST \(\mu_g\) 的固定权重估计量是：

\[\hat{\mu}_g^{\text{fixed}} = \frac{1}{n} \sum_{i=1}^n w_i(g) \cdot T_i,\]

其中 \(T_i\) 是每个患者实际观测到的生存时间。
对于有删失的一般情形，公式变为使用 Kaplan-Meier 估计的逆概率删失加权（IPCW）或 RMST 的无删失转换：\(\hat{\mu}_g = \int_0^\tau \hat{S}_g(t) dt\)，其中 \(\hat{S}_g(t)\) 是与 g 相关的生存曲线的 IPW 加权 Kaplan-Meier 估计。

方差结构：
由于同一个患者可能同时进入多个策略指示集（比如一个患者第一阶段抽到 A1，然后第二阶段依据 O1 随机化，可能其路径同时部分地与 g1 和 g2 都一致），所以固定权重的估计量在不同策略之间的协方差不等于零，但可以用 delta 方法推导出渐近正态性，进而为 pairwise 比较产生标准误差。

这个最小内核的核心思路就一句话：
在严格已知随机化概率的 SMART 中，对生存时间的 RMST 可以用与标准单阶段试验相同的 IPW 思路处理，只不过权重乘积形式体现了两阶段结构。删除 PH 假设的代价是引入一个与协方差相关的测试统计量，与 log-rank 相比可能在某些场景下损失效率，但增强了模型稳健性。

三、这篇论文做了什么¶

三句话¶

研究问题：在 SMART 设计中，针对生存时间（潜在删失）端点，用不需要比例风险假设的 RMST（受限平均生存时间）作为核心指标，建立了一套完整的推断框架——包括固定权重与动态加权估计量、方差-协方差、两两比较与全局假设检验、以及整合 interim analysis 时的 Type I error 控制方法。
核心工具/方法：以 IPW 为基础（固定权重），并推广到动态权重（采用基于中间结局的“逆向”选择加权）；考虑删失时的 IPCW 处理；为 interim 设计引入模仿 alpha-spending 函数但剔除独立增量要求的边界公式。
主要结论：模拟验证表明，无论固定还是动态权重估计量都几乎无偏且方差估计准确；动态权重方法在某些情境下略微提升精度；提出的 Interim error 控制方法给出比传统（假设独立增量）方法更保守但仍可操作的边界。

关键设定与假设¶

假设补全（在第一节符号表基础上）：

Assumption 1: Consistency（前述）
Assumption 2: Sequential randomization —— 由 SMART 保证的没有未测量混杂；
Assumption 3: Positivity —— 每个阶段的所有分配概率严格大于 0；
Assumption 4: Non-informative censoring —— 给定历史和协变量，删失时间 C 独立于生存时间 T；
Assumption 5: Pr(T > τ) > 0 —— 足够多的患者在 τ 时刻仍存活，以免 RMST 在尾部未定义。

设定相比已有文献的主要变化： - 没有 PH 假设 —— 这是本文标志性的放松； - 允许了变量维度的中间结局（不只是二值反应），但没有利用高维变量选择技巧，因为本文更偏向于试验方法而非大 p 情景； - 动态权重（dynamic-weight estimator）：类似“augmented IPW”，但相对于 proximal causal inference 的晚期构建，这里的“动态”体现在权重是中间结束结果的函数——生成具体的子组的话权重更新。

主要结果¶

论文的核心结果分为三部分：

1. 估计量的大样本性质
- 定理 1：固定加权 \(\hat{\mu}_g^{\text{fixed}}\) 和动态加权 \(\hat{\mu}_g^{\text{dyn}}\) 均是一致且渐近正态的估计量，\(\sqrt{n}(\hat{\mu}_g - \mu_g) \rightarrow N(0, \sigma_g^2)\)，并给出显式方差-协方差公式。通过 Delta 方法扩展到两两比较 \(\hat{\mu}_{g1} - \hat{\mu}_{g2}\) 的标准误。 - 推导中关键要素：涉及 weighting 结构的 U 统计量展开，以及多元 delta 方法；删失部分采用 IPCW 构造生存曲线后积分。

2. 假设检验
- Pairwise 比较：基于上述联合正态性构建 Wald 检验，并给出 Bonferroni 或 Dunnett 校正（对 family-wise error rate 做控制）的临界值。 - 全局检验：对 k 个 ATS 同时比较所有，使用 F 检验或 chi-square 统计量，自由度由权重结构的数量确定。

3. Interim analysis 的 Type I error 控制
- 定理 2：没有独立增量假设下，在 sequential test 中使用 “完全无法拒绝的保守边界”——即采用 \(Z(k) \geq C / \sqrt{k}\) 型不等式，C 值由预设的全局 Type I error \(\alpha\) 及期望的提前中期数量 K 推导。
- 过程分段：在 interim 时刻 \(\tau_1, \tau_2, ..., \tau_K\)，对 RMST 差异做 Z 检验，拒绝域被设置为远宽于 O'Brien-Fleming 的构造；保守度使得 Type I error 可调至很小（0.05 附近），但代价是 power 下降较小（模拟显示 10% 以内的 power 损失）。

证明路线与技术技巧¶

由于本文是方法型，没有完整的正式定理证明附录（至少摘要和引言未提——纯归纳性陈述），因此具体“证明”转为“推导路线”：

估计量推导路线： 1. 定义策略 g 的 RMST = \(\int_0^\tau S_g(t) dt\)。 2. \(S_g(t)\) 的估计用 IPW 加权 Kaplan-Meier：构造一个缩减数据集——仅保留那些健在到时间 t 且按照 g 策略接受治疗的患者，但在每个事件发生前，加权系数是 \(w_i(g)\)（固定）或 \(w_i(g \mid O_{1i})\) 动态。 3. 通过 delta 方法 和 联合健康乘积积分法 推导出 \(\hat{S}_g(t)\) → \(\hat{\mu}_g\) 的渐近方差：实质是删失下生存函数的 delta 的积分形式。 4. 两组比较时，协方差从同一患者不同权重的重叠处获得。

Interim analysis 构造技巧：核心困难：在独立增量缺失下，检验统计量 \(Z_{(k)} = \sqrt{n_k} (\hat{\mu}_{g1}^{(k)} - \hat{\mu}_{g2}^{(k)})\) 在不同阶段 k 不是 Markov 鞅。
因此，作者放弃常见 sequential 分析方法（用鞅性质计算的再次），转向 extreme-value bound 方法：假设各期统计量之间的相关系数为最大可能值（即 1），产生最保守的边界；并对此用 Bonferroni-type 校正 到所有临时稀释。模拟证实这样 family-wise error 始终低于 nominal 水平（0.05）。

技术技巧点名： - IPW / IPCW 权重设计：两阶段中如何处理“选择患者”的子集及删失的独立条件件。 - Delta 方法：对生存函数积分进行线性近似。 - 极端值 bound: 时间相关检验的稳健控制，无需独立增量假设。 - Bootstrap 标准误校准：在模拟中也被用于较小样本场景。

真实例子与应用¶

论文包含两个主要仿真数据集和一项真实数据应用（CATIE-AD 试验）：

CATIE-AD 试验（Clinical Antipsychotic Trials of Intervention Effectiveness for Alzheimer's Disease）：
背景：对照四种抗精神药物在阿尔兹海默病人身上的疗效 / 不良反应比值的一个多中心 RCT。但是原始设计是单阶段 RCT；作者在此改编成一个 SMART 结构：第一阶段随机给某药；第二阶段（若需因耐受性调整）改用另一药；并把“反应”定义为六个月内是否发生严重不良反应。
怎么用本文方法：对原数据映射到两阶段 SMART 结构上，然后分别估计两个典型 ATS（高起始剂量 vs 低起始剂量，然后调整启用备选药）的 RMST。
结果：RMST 差异不显著（p ≈ 0.12——较宽置信区间），但方向趋向偏好低起始剂量策略。删失率约为 20%。
说明点：这是一个典型的展示应用，说明了 RMST 可在没有 PH 假设下产出合理的临床解释性，同时规避了 log-rank test 的困境（因为两组生存曲线存在交叉）。
模拟数据集（两个主要场景）：
场景 A：简单的两阶段 SMART，PH 假设成立，但完全用模拟数据对比 RMST 估计量与 log-rank 检验的偏差 / 覆盖 / 检验力；
场景 B：生存时间的 hazard 函数有交叉（PH 违犯），展示 RMST 检验能维持名义 size 和较好的 power，而 log-rank 则 size 偏大或变小。在场景 B 中，log-rank 的 size 膨胀到 0.10-0.12，而 RMST 基于加权检验的 size 维持在 0.04-0.07（在 5000 重复试验中）。

结论是否比证明窄¶

是。作者在 summary（纯文本位置）claim “type I error can be controlled”；但实际上在定理 2 明确写出了“使用保守边界足以确保 Type I error ≤ α”，并没有 claim 这是 tight bound。此外，动态权重实际上没有完全证明“在所有情形的 efficiency gain”——模拟部分只说在特定场景下减少方差，并未证明动态权重的半参数最优性（即其影响函数是否达到效率界）。作者没有提若组间基线差异处理得更复杂时，动态权重的有效性是否仍然保证——这个裂缝是对未来工作的天然开放式接口。

四、开放问题（扎根具体语句）¶

效率最优性：动态权重 RMST 估计量是否达到了 SMART 设定下的半参数效率界？作者没有讨论，仅在模拟中提及其低方差趋势。想去读 van der Laan & Robins (2003) 的效率界工作，以判定是否这里的权重构造已经 optimal，还是存在进一步的“augmented” TMLE 改进空间。扎根点：§3.2（fixed vs dynamic weight）——无效率界对比语句。
跨阶段的 censoring-pattern 调整：论文假设非随机删失，但现实中在领域适应性决定中，删失与中间结局可能相关（如因不良反应退出试验）。敏感性分析的方向：是否可在不加剧假设的条件下调整 IPCW？扎根点：§4 中“independent censoring given history”假设连续性较弱。
两个阶段以上的 SMART：本文全部以两阶段 SMART 推。当计划有三、四阶段（如抑郁症治疗中多次 Steps），RMST 识别与方差结构会复杂很多，已有相应的解决方法吗？扎根点：§8 future work（"extension to more than two stages"）。
Interim analysis 边界功率优化：这里 Type I error 控制是通过极端的极端值 bound 实现的，过于保守的可能导致大量成本。是否存在基于排列/重采样的方法，在 SMART 生存数据下满足 exact finite-sample Type I error control？作者没有做这样的尝试——扎根点：§6.2 “since independent-increment property is violated, we use a conservative bound [expression]…”——这本身就是 gap。

以上。请研究者自行判断本文与个人兴趣的匹配度，并判断是否将其作为 follow-up 工作的“第一步”。

Maintained by 陈星宇 · Homepage · Source on GitHub