跳转至

Adaptive randomization methods for sequential multiple assignment randomized trials (smarts) via thompson sampling

作者: Peter Norwood, Marie Davidian, Eric Laber
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: Duke University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae152


一、领域脉络与小综述

这个方向是什么

这个子方向是序贯多分配随机试验(SMART)中的响应自适应随机化(RAR)。SMART 是评估多阶段治疗策略(动态治疗方案,DTR)的黄金标准试验设计,其核心科学问题是:如何在试验过程中动态调整随机化概率(基于已累积的数据),以在不损害试验后推断(post-trial inference)有效性的前提下,改善试验内受试者的结局(例如,让更多受试者接受当前看来更优的治疗)。这是一个典型的“伦理-统计”权衡问题:RAR 可能提升受试者福利,但会引入非标准渐近行为,使标准推断方法失效。该方向当前成熟度较低——在单阶段试验中已有大量研究,但在多阶段 SMART 中几乎空白。

发展脉络(history)

根据本文 introduction 及其引用,该方向的发展脉络如下:

  1. 奠基工作:单阶段 RAR 的理论基础

    • Thompson (1933):提出 Thompson Sampling(TS)的原始思想——以“治疗为最优的后验概率”作为随机化概率。这是所有后续 RAR 方法的源头。
    • Robbins (1952):将“多臂老虎机”问题形式化,奠定了“探索-利用”权衡的统计基础。
    • Wei & Durham (1978):提出“随机化胜者优先”(Randomized Play-the-Winner)规则,是早期 RAR 的典型代表。这些工作确立了 RAR 在单阶段试验中的基本框架。
  2. 主要进展:单阶段 RAR 的推断挑战与应对

    • Hu & Rosenberger (2006):系统总结了 RAR 的统计性质,指出标准 ATE 估计量在 RAR 下可能具有非正态极限分布,从而无法使用常规的 Wald 型置信区间。这是本文反复引用的关键障碍。
    • Zhang et al. (2020)Robertson et al. (2023):针对单阶段 RAR 下的推断问题,提出了基于重抽样(如 bootstrap)或贝叶斯方法的有效后验推断程序。这些工作为本文在多阶段场景下的推断设计提供了直接的技术参考。
    • Villar et al. (2015)Williamson & Villar (2020):将 TS 应用于单阶段试验,并展示了其在改善受试者结局方面的优势。这些工作确立了 TS 作为单阶段 RAR 主流方法的地位。
  3. 当前 Frontier:将 RAR 引入多阶段 SMART

    • 本文(Norwood, Davidian, Laber, 2024):首次在 SMART 框架下提出基于 TS 的 RAR 算法。这是该子方向从单阶段向多阶段跨越的关键一步。作者明确指出,现有 SMART 设计几乎全部采用固定随机化概率(如 1:1),而 RAR 在 SMART 中的研究“understudied”。

子线索聚类

这些被引文献大致落在两条子线索上:

  • 线索一:RAR 算法设计(“探索-利用”策略)。这一簇关注如何设计随机化概率的更新规则,以在试验过程中平衡探索(收集信息以准确估计)和利用(让更多受试者接受当前最优治疗)。代表工作:Thompson (1933), Robbins (1952), Wei & Durham (1978), Villar et al. (2015)。本文的 TS 算法属于此线索。
  • 线索二:RAR 下的后验推断(“统计有效性”)。这一簇关注在 RAR 导致的非标准渐近行为下,如何构造有效的置信区间和假设检验。代表工作:Hu & Rosenberger (2006), Zhang et al. (2020), Robertson et al. (2023)。本文的推断程序属于此线索。

这个方向在追问的核心问题

  1. 如何设计 RAR 算法,使其在改善受试者结局的同时,不损害对嵌入治疗策略(embedded regimes)的统计推断效率?
  2. 如何构造有效的后验推断程序,以应对 RAR 导致的非标准渐近行为(如估计量的极限分布不是正态,或收敛速度非参数化)?
  3. 在多阶段 SMART 中,RAR 的“伦理-统计”权衡是否与单阶段有本质不同? 例如,阶段间的依赖关系是否会放大或缩小 RAR 的负面影响?
  4. RAR 对“估计最优嵌入策略”这一目标的影响,是否与“比较嵌入策略”这一目标不同?

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

  • 作者把缺口 frame 成什么:作者将缺口 frame 为“RAR 在 SMART 中 understudied”,并声称这是“首次”提出多阶段 RAR 算法。他们强调,现有 SMART 设计几乎全部采用固定随机化,而 RAR 的潜在伦理和统计优势尚未被探索。他们将自己的工作定位为“显然的下一步”——将单阶段 TS 的成功经验推广到多阶段 SMART。
  • 哪些竞争路线被他淡化或回避了
    • 作者淡化了非 TS 的 RAR 方法(如基于 UCB 或 EXP3 的算法)在 SMART 中的可能性。他们只聚焦于 TS,并声称 TS 是“widely used”,但并未论证 TS 在 SMART 中一定优于其他 RAR 方法。
    • 作者回避了“完全贝叶斯”方法的讨论。他们的推断程序是“后验推断”,但并未将整个 SMART 设计置于一个完整的贝叶斯框架下(例如,对参数先验的敏感性分析)。他们似乎默认了频率学派的后验推断视角。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
    • 值得研究者去查的问题:作者没有引用任何关于“多阶段试验中的自适应设计”的通用文献(如 FDA 的适应性设计指南,或 Jennison & Turnbull 的经典著作)。这可能意味着他们有意将讨论限制在“RAR”这一特定自适应类型,而非更广泛的适应性设计(如样本量重估、臂剔除等)。研究者应核实:是否有其他多阶段自适应设计文献(如“play-the-winner”在序贯试验中的变体)被遗漏,以及这些遗漏是否暗示了本文方法的局限性。

张力

未见明显对立引用。所有被引工作基本一致地认为:RAR 能改善受试者结局,但会带来推断挑战。本文的工作是在此共识基础上,将挑战从单阶段扩展到多阶段。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \( K \):阶段总数(例如,\( K=2 \) 表示一个两阶段 SMART)。
    • \( t \):阶段索引,\( t = 1, \dots, K \)
    • \( A_t \):第 \( t \) 阶段的治疗分配(随机变量)。例如,\( A_t \in \{0, 1\} \) 表示两种治疗选项。
    • \( O_t \):第 \( t \) 阶段结束时观测到的中间结局(随机变量)。例如,\( O_t \) 可以是“是否缓解”(二值)或“症状评分”(连续)。
    • \( Y \):最终结局(随机变量,在 \( K \) 阶段结束后观测)。例如,\( Y \) 可以是“最终症状评分”或“生存时间”。
    • \( \bar{A}_t = (A_1, \dots, A_t) \):到第 \( t \) 阶段为止的治疗历史。
    • \( \bar{O}_t = (O_1, \dots, O_t) \):到第 \( t \) 阶段为止的结局历史。
    • \( H_t = (\bar{A}_{t-1}, \bar{O}_{t-1}) \):第 \( t \) 阶段开始时的历史信息(协变量)。注意,\( H_1 \) 可能为空或包含基线协变量。
    • \( \pi_t(a_t | h_t) \):第 \( t \) 阶段的随机化概率,即在给定历史 \( H_t = h_t \) 下,分配治疗 \( A_t = a_t \) 的概率。这是 RAR 算法要动态更新的对象。在固定随机化下,\( \pi_t \) 是常数(如 0.5)。
    • \( d_t(h_t) \):一个治疗策略(regime),它是一个从历史 \( h_t \) 到治疗 \( a_t \) 的决策规则。一个完整的动态治疗方案是 \( \mathbf{d} = (d_1, \dots, d_K) \)
    • \( \mathcal{D} \):SMART 中嵌入的治疗策略集合。例如,在一个两阶段 SMART 中,如果第一阶段有两种治疗,第二阶段根据响应状态有两种治疗选项,则 \( \mathcal{D} \) 包含 \( 2 \times 2 = 4 \) 个策略。
    • \( \mu_{\mathbf{d}} = \mathbb{E}[Y | \text{遵循策略 } \mathbf{d}] \):策略 \( \mathbf{d} \) 的期望结局(潜在结局)。这是主要 estimand 之一。
    • \( \mathbf{d}^{\text{opt}} = \arg\max_{\mathbf{d} \in \mathcal{D}} \mu_{\mathbf{d}} \):最优嵌入策略。这是另一个主要 estimand。
    • \( n \):总样本量(受试者数量)。
    • \( i \):受试者索引,\( i = 1, \dots, n \)
  • 模型

    • 数据生成机制由 SMART 设计 + RAR 算法共同决定。没有显式的参数模型。核心是:随机化概率 \( \pi_t \) 是历史数据 \( H_t \) 的函数,且这个函数由 TS 算法定义。因此,数据不是独立同分布的(i.i.d.),而是序贯依赖的——第 \( i \) 个受试者的分配概率依赖于前 \( i-1 \) 个受试者的数据。
    • 对于每个受试者 \( i \),其数据生成过程是:
      1. 根据当前历史 \( H_{i,t} \) 和 TS 算法,计算随机化概率 \( \pi_t(a_t | H_{i,t}) \)
      2. 从该概率分布中抽取 \( A_{i,t} \)
      3. 观测中间结局 \( O_{i,t} \)(其分布可能依赖于 \( H_{i,t} \)\( A_{i,t} \))。
      4. 更新历史 \( H_{i,t+1} \)
      5. 重复直到 \( t = K \),最终观测 \( Y_i \)
    • 要估的对象\( \mu_{\mathbf{d}} \)(每个嵌入策略的期望结局)和 \( \mathbf{d}^{\text{opt}} \)(最优嵌入策略)。
  • 可观测数据

    • 研究者实际能观测到的是:对于每个受试者 \( i \),其完整轨迹 \( (H_{i,1}, A_{i,1}, O_{i,1}, A_{i,2}, O_{i,2}, \dots, A_{i,K}, Y_i) \)。注意,\( H_{i,t} \) 本身是由前 \( t-1 \) 阶段的观测数据构成的。
    • 想要但观测不到的是:反事实结局——如果受试者 \( i \) 遵循了另一个策略 \( \mathbf{d}' \neq \mathbf{d} \) 会得到的结局 \( Y_i(\mathbf{d}') \)。这是因果推断的核心挑战。SMART 设计通过随机化保证了某些策略的识别性,但 RAR 使这种识别更复杂。

第二步:讲最小内核

最简特例:一个两阶段、二值治疗、二值中间结局的 SMART,且只关注“比较两个嵌入策略”。

  • 设定

    • \( K = 2 \)
    • \( A_1 \in \{0, 1\} \)\( A_2 \in \{0, 1\} \)
    • \( O_1 \in \{0, 1\} \)(例如,“响应”=1,“不响应”=0)。
    • 第二阶段治疗 \( A_2 \) 的分配依赖于 \( O_1 \):如果 \( O_1 = 1 \)(响应),则 \( A_2 \)\( \{0, 1\} \) 中随机分配;如果 \( O_1 = 0 \)(不响应),则 \( A_2 \) 从另一个集合(可能也是 \( \{0, 1\} \))中随机分配。这是 SMART 的典型结构。
    • 嵌入策略集合 \( \mathcal{D} \) 包含 4 个策略:\( \mathbf{d} = (d_1, d_2) \),其中 \( d_1 \in \{0, 1\} \) 是第一阶段决策,\( d_2 \) 是一个从 \( O_1 \)\( A_2 \) 的映射(例如,“如果响应则用治疗 0,如果不响应则用治疗 1”)。
    • 目标:比较两个特定策略 \( \mathbf{d}^a \)\( \mathbf{d}^b \) 的期望结局 \( \mu_{\mathbf{d}^a} \)\( \mu_{\mathbf{d}^b} \)。例如,\( \mathbf{d}^a \) 是“第一阶段用 0,响应后用 0,不响应后用 1”;\( \mathbf{d}^b \) 是“第一阶段用 1,响应后用 1,不响应后用 0”。
  • 固定随机化下的标准方法

    • 在固定随机化(如 \( \pi_t = 0.5 \))下,每个嵌入策略的期望结局 \( \mu_{\mathbf{d}} \) 可以通过逆概率加权(IPW)G-computation 来无偏估计。例如,IPW 估计量为:
      \[\hat{\mu}_{\mathbf{d}} = \frac{1}{n} \sum_{i=1}^n \frac{\mathbb{I}\{\text{受试者 } i \text{ 遵循策略 } \mathbf{d}\}}{\prod_{t=1}^2 \pi_t(A_{i,t} | H_{i,t})} Y_i\]
      其中,分子是指示函数,分母是受试者 \( i \) 恰好遵循策略 \( \mathbf{d} \) 的概率(在固定随机化下是已知常数)。这个估计量是 \( \sqrt{n} \)-一致且渐近正态的。
  • RAR 下的核心困难(最小内核)

    • 现在,假设我们使用 TS 来更新 \( \pi_t \)。例如,在每招募一定数量的受试者后,我们根据当前数据更新对每个策略 \( \mu_{\mathbf{d}} \) 的后验分布,然后让 \( \pi_t \) 正比于“该治疗在当前历史下是最优的”后验概率。
    • 问题:此时,IPW 估计量中的分母 \( \prod_{t=1}^2 \pi_t(A_{i,t} | H_{i,t}) \) 不再是已知常数,而是依赖于所有先前受试者数据的随机变量。这导致:
      1. IPW 估计量不再是无偏的(因为分母与结局 \( Y_i \) 相关)。
      2. 即使经过修正,该估计量的极限分布也可能不是正态的。例如,在某些 RAR 方案下,估计量的方差可能发散,或收敛到某个非正态分布(如混合分布)。
    • 本文的关键想法:作者没有试图去“纠正”IPW 估计量的渐近分布(这极其困难),而是直接构造基于后验的推断程序。他们利用 TS 算法本身产生的后验分布,通过重抽样(bootstrap)贝叶斯方法来构造置信区间,从而绕开了对估计量渐近分布的显式刻画。这个想法在单阶段 RAR 中已有先例(Zhang et al., 2020),本文将其推广到多阶段 SMART。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在序贯多分配随机试验(SMART)中,首次提出基于 Thompson Sampling(TS)的响应自适应随机化(RAR)算法,并开发了有效的后验推断程序,以应对 RAR 导致的非标准渐近行为。
  2. 核心工具 / 方法:Thompson Sampling(用于动态更新随机化概率)、重抽样(bootstrap)和贝叶斯后验推断(用于构造置信区间)、逆概率加权(IPW)估计量(作为比较基准)。
  3. 主要结论:模拟和基于真实 SMART 数据的实证表明,所提出的 TS 算法能在不牺牲试验后比较效率的前提下,改善试验内受试者的结局(即,让更多受试者接受当前看来更优的治疗)。

关键设定与假设

  • 设定:论文考虑一个通用的 \( K \) 阶段 SMART,每个阶段有有限个治疗选项,中间结局可以是任意类型(二值、连续等)。嵌入策略集合 \( \mathcal{D} \) 由 SMART 设计本身定义(即,每个可能的决策路径对应一个策略)。
  • 假设
    1. 一致性(Consistency):受试者的观测结局等于其被分配的治疗路径所对应的潜在结局。这是因果推断的标准假设。
    2. 无干扰(No interference):一个受试者的治疗分配不影响其他受试者的结局。这也是标准假设。
    3. 序贯可忽略性(Sequential Ignorability):在给定历史 \( H_t \) 的条件下,治疗分配 \( A_t \) 独立于所有未来的潜在结局。由于 SMART 是随机试验,这个假设由设计保证(即使在 RAR 下,随机化也是条件于历史的)。
    4. 正性(Positivity):对于所有可能的历史 \( h_t \),随机化概率 \( \pi_t(a_t | h_t) > 0 \)。在 RAR 下,TS 算法通常保证这一点(例如,通过添加一个小的探索概率)。
  • 相比已有文献的放宽或强化
    • 放宽:相比固定随机化 SMART,本文允许随机化概率是数据依赖的,从而放宽了“随机化概率已知且恒定”的假设。
    • 强化:相比单阶段 RAR 文献,本文需要处理多阶段带来的序贯依赖性和策略比较的复杂性。作者没有对结局分布或中间结局模型做任何参数假设,因此方法是非参数或半参数的。

主要结果

  • 结果 1:TS 算法设计。作者提出了三种基于 TS 的 RAR 算法,分别针对两个目标:
    • TS-Compare:用于“比较嵌入策略”。在每个更新点,算法计算每个策略 \( \mathbf{d} \) 的后验概率 \( P(\mu_{\mathbf{d}} > \mu_{\mathbf{d}'} \text{ for all } \mathbf{d}' \neq \mathbf{d} | \text{data}) \),然后让下一批受试者的随机化概率正比于这些后验概率。
    • TS-Estimate:用于“估计最优嵌入策略”。算法直接计算每个治疗选项(而非每个策略)的后验最优概率,然后据此分配。
    • TS-Combined:结合上述两者。
  • 结果 2:后验推断程序。作者提出了两种构造置信区间的方法:
    • 重抽样(Bootstrap):对观测数据(整个 SMART 轨迹)进行重抽样,对每个重抽样样本重新运行 TS 算法并计算目标估计量(如 \( \hat{\mu}_{\mathbf{d}} \)),然后取这些估计量的分位数作为置信区间。这被称为“TS Bootstrap”。
    • 贝叶斯方法:直接使用 TS 算法中产生的后验分布来构造可信区间(credible interval)。作者证明了在某些条件下,这些可信区间具有频率学派意义上的覆盖概率。
  • 结果 3:模拟与实证
    • 模拟:作者在多种设定下(不同效应大小、不同样本量)比较了 TS 算法与固定随机化。结果显示,TS 算法能显著降低受试者接受次优治疗的比例(例如,从 50% 降至 30%),同时,TS Bootstrap 置信区间的覆盖概率接近名义水平(如 95%),且区间宽度与固定随机化下的标准方法相当。这表明“不牺牲效率”。
    • 真实数据例子:作者使用一个来自酒精依赖治疗的真实 SMART 数据(名为“Extending Treatment Effectiveness of Naltrexone”,ETEN)。该 SMART 有两阶段,第一阶段比较纳曲酮(naltrexone)与安慰剂,第二阶段根据响应状态调整治疗。作者将 TS 算法“回测”到这个数据集上(即,用真实数据模拟 TS 算法的运行过程),并展示了 TS 算法在改善受试者结局方面的潜力。这个例子想说明:TS 算法在真实世界场景下也是可行的,并且能带来实质性的伦理收益。

证明路线与技术技巧(理论型必写,要具体)

本文不是一篇纯理论论文,其核心贡献在于算法设计与实证验证,而非严格的渐近理论证明。因此,没有传统意义上的“定理-证明”结构。但作者在“后验推断”部分提供了一些理论论证。

  • 整体路线

    1. 算法定义:明确定义 TS 算法在 SMART 中的具体操作流程(如何更新后验、如何分配概率)。
    2. 推断策略:提出 TS Bootstrap 和贝叶斯可信区间两种推断方法。
    3. 理论论证(非严格证明):作者论证了,在 TS 算法下,后验分布会“正确”地集中在真实参数附近(后验一致性),并且 TS Bootstrap 能够捕捉到估计量的抽样变异性。他们引用了单阶段 RAR 中的相关理论结果(如 Zhang et al., 2020),并声称这些结果可以“启发式地”推广到多阶段 SMART。
    4. 实证验证:通过大量模拟和真实数据回测,验证了算法的有限样本表现。
  • 关键跳跃点

    • 从单阶段到多阶段的跳跃:这是最大的跳跃。单阶段 RAR 的推断理论(如估计量的渐近分布)依赖于“所有受试者的数据是条件独立的”这一事实。在多阶段 SMART 中,同一受试者不同阶段的数据是相关的,且不同受试者之间的数据也通过共享的随机化概率而相关。作者没有给出处理这种复杂依赖关系的严格理论,而是依靠模拟来证明其方法的有效性。这是一个未完全解决的理论问题
    • TS Bootstrap 的有效性:作者声称 TS Bootstrap 能提供有效的置信区间,但并未证明其渐近有效性(即,Bootstrap 分布是否一致地估计了真实抽样分布)。这是一个开放的理论问题
  • 技术技巧点名

    • Thompson Sampling:核心算法,用于平衡探索与利用。
    • Bootstrap(重抽样):用于构造置信区间,绕开对估计量渐近分布的显式推导。
    • 逆概率加权(IPW):作为估计策略期望结局的基准方法,但其在 RAR 下的性质被用于说明困难。
    • 后验一致性(Posterior consistency):用于论证贝叶斯可信区间的频率学派性质。

真实例子与应用

  • 数据:ETEN 研究,一个关于纳曲酮治疗酒精依赖的两阶段 SMART。
  • 方法应用:作者将 ETEN 研究的真实数据作为“历史数据”,然后模拟 TS 算法的运行过程。具体来说,他们假设一个“虚拟”的 SMART 正在运行,其受试者的数据来自 ETEN 研究,但随机化概率由 TS 算法动态更新。他们比较了 TS 算法下的受试者结局与 ETEN 研究中固定随机化下的结局。
  • 结果:TS 算法使得更多受试者在第一阶段接受了更有效的治疗(纳曲酮),并且在第二阶段,对于响应者,也更倾向于继续使用有效治疗。这改善了整体受试者结局。
  • 例子想说明:TS 算法在真实数据场景下是可行的,并且能带来实质性的伦理收益(改善受试者结局),同时不损害统计推断的效率(置信区间覆盖良好)。

🔎 结论是否比证明窄

  • 。论文的结论(“TS 能改善受试者结局而不牺牲效率”)主要基于模拟和回测,而非严格的渐近理论。作者在文中明确承认了这一点(例如,在讨论部分提到“严格的理论证明留待未来工作”)。因此,结论的适用范围被限制在模拟所覆盖的设定下。对于更复杂或更极端的设定(如非常小的样本量、高度非平稳的结局),结论是否成立是未知的。
  • 具体语句:作者在“讨论”部分写道:“A rigorous theoretical analysis of the asymptotic properties of the proposed estimators and confidence intervals under TS-RAR in SMARTs is an important direction for future research.” 这直接承认了理论证明的缺失。

四、开放问题(点到为止,扎根具体语句)

  1. 严格渐近理论:本文的 TS Bootstrap 和贝叶斯可信区间的渐近有效性(覆盖概率是否收敛到名义水平?收敛速度是多少?)尚未被证明。扎根于:论文“讨论”部分提到的“rigorous theoretical analysis ... is an important direction for future research”。
  2. 最优性:本文的 TS 算法是否在某种意义下(如最小化遗憾,或最大化受试者福利)是最优的?与其他 RAR 方法(如 UCB)相比如何?扎根于:论文未与其他 RAR 方法进行系统性比较,仅与固定随机化比较。
  3. 对“估计最优策略”的影响:本文主要关注“比较嵌入策略”,但对“估计最优嵌入策略”这一目标,RAR 的影响是否不同?例如,RAR 是否会导致对最优策略的估计有偏?扎根于:论文虽然提出了 TS-Estimate 算法,但对其理论性质(如估计量的收敛速度)没有分析。
  4. 高维或复杂中间结局:当中间结局 \( O_t \) 是高维或结构复杂(如图像、文本)时,如何有效地进行 TS 更新?扎根于:论文的模拟和例子都使用了简单的二值或连续中间结局,未涉及高维情况。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论