Adaptive randomization methods for sequential multiple assignment randomized trials (smarts) via thompson sampling¶

作者: Peter Norwood, Marie Davidian, Eric Laber
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: Duke University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae152

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是序贯多分配随机试验（SMART）中的响应自适应随机化（RAR）。SMART 是评估多阶段治疗策略（动态治疗方案，DTR）的黄金标准试验设计，其核心科学问题是：如何在试验过程中动态调整随机化概率（基于已累积的数据），以在不损害试验后推断（post-trial inference）有效性的前提下，改善试验内受试者的结局（例如，让更多受试者接受当前看来更优的治疗）。这是一个典型的“伦理-统计”权衡问题：RAR 可能提升受试者福利，但会引入非标准渐近行为，使标准推断方法失效。该方向当前成熟度较低——在单阶段试验中已有大量研究，但在多阶段 SMART 中几乎空白。

发展脉络（history）¶

根据本文 introduction 及其引用，该方向的发展脉络如下：

奠基工作：单阶段 RAR 的理论基础
- Thompson (1933)：提出 Thompson Sampling（TS）的原始思想——以“治疗为最优的后验概率”作为随机化概率。这是所有后续 RAR 方法的源头。
- Robbins (1952)：将“多臂老虎机”问题形式化，奠定了“探索-利用”权衡的统计基础。
- Wei & Durham (1978)：提出“随机化胜者优先”（Randomized Play-the-Winner）规则，是早期 RAR 的典型代表。这些工作确立了 RAR 在单阶段试验中的基本框架。
主要进展：单阶段 RAR 的推断挑战与应对
- Hu & Rosenberger (2006)：系统总结了 RAR 的统计性质，指出标准 ATE 估计量在 RAR 下可能具有非正态极限分布，从而无法使用常规的 Wald 型置信区间。这是本文反复引用的关键障碍。
- Zhang et al. (2020) 和 Robertson et al. (2023)：针对单阶段 RAR 下的推断问题，提出了基于重抽样（如 bootstrap）或贝叶斯方法的有效后验推断程序。这些工作为本文在多阶段场景下的推断设计提供了直接的技术参考。
- Villar et al. (2015) 和 Williamson & Villar (2020)：将 TS 应用于单阶段试验，并展示了其在改善受试者结局方面的优势。这些工作确立了 TS 作为单阶段 RAR 主流方法的地位。
当前 Frontier：将 RAR 引入多阶段 SMART
- 本文（Norwood, Davidian, Laber, 2024）：首次在 SMART 框架下提出基于 TS 的 RAR 算法。这是该子方向从单阶段向多阶段跨越的关键一步。作者明确指出，现有 SMART 设计几乎全部采用固定随机化概率（如 1:1），而 RAR 在 SMART 中的研究“understudied”。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：RAR 算法设计（“探索-利用”策略）。这一簇关注如何设计随机化概率的更新规则，以在试验过程中平衡探索（收集信息以准确估计）和利用（让更多受试者接受当前最优治疗）。代表工作：Thompson (1933), Robbins (1952), Wei & Durham (1978), Villar et al. (2015)。本文的 TS 算法属于此线索。
线索二：RAR 下的后验推断（“统计有效性”）。这一簇关注在 RAR 导致的非标准渐近行为下，如何构造有效的置信区间和假设检验。代表工作：Hu & Rosenberger (2006), Zhang et al. (2020), Robertson et al. (2023)。本文的推断程序属于此线索。

这个方向在追问的核心问题¶

如何设计 RAR 算法，使其在改善受试者结局的同时，不损害对嵌入治疗策略（embedded regimes）的统计推断效率？
如何构造有效的后验推断程序，以应对 RAR 导致的非标准渐近行为（如估计量的极限分布不是正态，或收敛速度非参数化）？
在多阶段 SMART 中，RAR 的“伦理-统计”权衡是否与单阶段有本质不同？ 例如，阶段间的依赖关系是否会放大或缩小 RAR 的负面影响？
RAR 对“估计最优嵌入策略”这一目标的影响，是否与“比较嵌入策略”这一目标不同？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么：作者将缺口 frame 为“RAR 在 SMART 中 understudied”，并声称这是“首次”提出多阶段 RAR 算法。他们强调，现有 SMART 设计几乎全部采用固定随机化，而 RAR 的潜在伦理和统计优势尚未被探索。他们将自己的工作定位为“显然的下一步”——将单阶段 TS 的成功经验推广到多阶段 SMART。
哪些竞争路线被他淡化或回避了：
- 作者淡化了非 TS 的 RAR 方法（如基于 UCB 或 EXP3 的算法）在 SMART 中的可能性。他们只聚焦于 TS，并声称 TS 是“widely used”，但并未论证 TS 在 SMART 中一定优于其他 RAR 方法。
- 作者回避了“完全贝叶斯”方法的讨论。他们的推断程序是“后验推断”，但并未将整个 SMART 设计置于一个完整的贝叶斯框架下（例如，对参数先验的敏感性分析）。他们似乎默认了频率学派的后验推断视角。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 值得研究者去查的问题：作者没有引用任何关于“多阶段试验中的自适应设计”的通用文献（如 FDA 的适应性设计指南，或 Jennison & Turnbull 的经典著作）。这可能意味着他们有意将讨论限制在“RAR”这一特定自适应类型，而非更广泛的适应性设计（如样本量重估、臂剔除等）。研究者应核实：是否有其他多阶段自适应设计文献（如“play-the-winner”在序贯试验中的变体）被遗漏，以及这些遗漏是否暗示了本文方法的局限性。

张力¶

未见明显对立引用。所有被引工作基本一致地认为：RAR 能改善受试者结局，但会带来推断挑战。本文的工作是在此共识基础上，将挑战从单阶段扩展到多阶段。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( K \)：阶段总数（例如，\( K=2 \) 表示一个两阶段 SMART）。
- \( t \)：阶段索引，\( t = 1, \dots, K \)。
- \( A_t \)：第 \( t \) 阶段的治疗分配（随机变量）。例如，\( A_t \in \{0, 1\} \) 表示两种治疗选项。
- \( O_t \)：第 \( t \) 阶段结束时观测到的中间结局（随机变量）。例如，\( O_t \) 可以是“是否缓解”（二值）或“症状评分”（连续）。
- \( Y \)：最终结局（随机变量，在 \( K \) 阶段结束后观测）。例如，\( Y \) 可以是“最终症状评分”或“生存时间”。
- \( \bar{A}_t = (A_1, \dots, A_t) \)：到第 \( t \) 阶段为止的治疗历史。
- \( \bar{O}_t = (O_1, \dots, O_t) \)：到第 \( t \) 阶段为止的结局历史。
- \( H_t = (\bar{A}_{t-1}, \bar{O}_{t-1}) \)：第 \( t \) 阶段开始时的历史信息（协变量）。注意，\( H_1 \) 可能为空或包含基线协变量。
- \( \pi_t(a_t | h_t) \)：第 \( t \) 阶段的随机化概率，即在给定历史 \( H_t = h_t \) 下，分配治疗 \( A_t = a_t \) 的概率。这是 RAR 算法要动态更新的对象。在固定随机化下，\( \pi_t \) 是常数（如 0.5）。
- \( d_t(h_t) \)：一个治疗策略（regime），它是一个从历史 \( h_t \) 到治疗 \( a_t \) 的决策规则。一个完整的动态治疗方案是 \( \mathbf{d} = (d_1, \dots, d_K) \)。
- \( \mathcal{D} \)：SMART 中嵌入的治疗策略集合。例如，在一个两阶段 SMART 中，如果第一阶段有两种治疗，第二阶段根据响应状态有两种治疗选项，则 \( \mathcal{D} \) 包含 \( 2 \times 2 = 4 \) 个策略。
- \( \mu_{\mathbf{d}} = \mathbb{E}[Y | \text{遵循策略 } \mathbf{d}] \)：策略 \( \mathbf{d} \) 的期望结局（潜在结局）。这是主要 estimand 之一。
- \( \mathbf{d}^{\text{opt}} = \arg\max_{\mathbf{d} \in \mathcal{D}} \mu_{\mathbf{d}} \)：最优嵌入策略。这是另一个主要 estimand。
- \( n \)：总样本量（受试者数量）。
- \( i \)：受试者索引，\( i = 1, \dots, n \)。
模型：
- 数据生成机制由 SMART 设计 + RAR 算法共同决定。没有显式的参数模型。核心是：随机化概率 \( \pi_t \) 是历史数据 \( H_t \) 的函数，且这个函数由 TS 算法定义。因此，数据不是独立同分布的（i.i.d.），而是序贯依赖的——第 \( i \) 个受试者的分配概率依赖于前 \( i-1 \) 个受试者的数据。
- 对于每个受试者 \( i \)，其数据生成过程是：
  1. 根据当前历史 \( H_{i,t} \) 和 TS 算法，计算随机化概率 \( \pi_t(a_t | H_{i,t}) \)。
  2. 从该概率分布中抽取 \( A_{i,t} \)。
  3. 观测中间结局 \( O_{i,t} \)（其分布可能依赖于 \( H_{i,t} \) 和 \( A_{i,t} \)）。
  4. 更新历史 \( H_{i,t+1} \)。
  5. 重复直到 \( t = K \)，最终观测 \( Y_i \)。
- 要估的对象：\( \mu_{\mathbf{d}} \)（每个嵌入策略的期望结局）和 \( \mathbf{d}^{\text{opt}} \)（最优嵌入策略）。
可观测数据：
- 研究者实际能观测到的是：对于每个受试者 \( i \)，其完整轨迹 \( (H_{i,1}, A_{i,1}, O_{i,1}, A_{i,2}, O_{i,2}, \dots, A_{i,K}, Y_i) \)。注意，\( H_{i,t} \) 本身是由前 \( t-1 \) 阶段的观测数据构成的。
- 想要但观测不到的是：反事实结局——如果受试者 \( i \) 遵循了另一个策略 \( \mathbf{d}' \neq \mathbf{d} \) 会得到的结局 \( Y_i(\mathbf{d}') \)。这是因果推断的核心挑战。SMART 设计通过随机化保证了某些策略的识别性，但 RAR 使这种识别更复杂。

第二步：讲最小内核¶

最简特例：一个两阶段、二值治疗、二值中间结局的 SMART，且只关注“比较两个嵌入策略”。

设定：
- \( K = 2 \)。
- \( A_1 \in \{0, 1\} \)，\( A_2 \in \{0, 1\} \)。
- \( O_1 \in \{0, 1\} \)（例如，“响应”=1，“不响应”=0）。
- 第二阶段治疗 \( A_2 \) 的分配依赖于 \( O_1 \)：如果 \( O_1 = 1 \)（响应），则 \( A_2 \) 从 \( \{0, 1\} \) 中随机分配；如果 \( O_1 = 0 \)（不响应），则 \( A_2 \) 从另一个集合（可能也是 \( \{0, 1\} \)）中随机分配。这是 SMART 的典型结构。
- 嵌入策略集合 \( \mathcal{D} \) 包含 4 个策略：\( \mathbf{d} = (d_1, d_2) \)，其中 \( d_1 \in \{0, 1\} \) 是第一阶段决策，\( d_2 \) 是一个从 \( O_1 \) 到 \( A_2 \) 的映射（例如，“如果响应则用治疗 0，如果不响应则用治疗 1”）。
- 目标：比较两个特定策略 \( \mathbf{d}^a \) 和 \( \mathbf{d}^b \) 的期望结局 \( \mu_{\mathbf{d}^a} \) 和 \( \mu_{\mathbf{d}^b} \)。例如，\( \mathbf{d}^a \) 是“第一阶段用 0，响应后用 0，不响应后用 1”；\( \mathbf{d}^b \) 是“第一阶段用 1，响应后用 1，不响应后用 0”。
固定随机化下的标准方法：
- 在固定随机化（如 \( \pi_t = 0.5 \)）下，每个嵌入策略的期望结局 \( \mu_{\mathbf{d}} \) 可以通过逆概率加权（IPW） 或G-computation 来无偏估计。例如，IPW 估计量为：
  \[\hat{\mu}_{\mathbf{d}} = \frac{1}{n} \sum_{i=1}^n \frac{\mathbb{I}\{\text{受试者 } i \text{ 遵循策略 } \mathbf{d}\}}{\prod_{t=1}^2 \pi_t(A_{i,t} | H_{i,t})} Y_i\]
  其中，分子是指示函数，分母是受试者 \( i \) 恰好遵循策略 \( \mathbf{d} \) 的概率（在固定随机化下是已知常数）。这个估计量是 \( \sqrt{n} \)-一致且渐近正态的。
RAR 下的核心困难（最小内核）：
- 现在，假设我们使用 TS 来更新 \( \pi_t \)。例如，在每招募一定数量的受试者后，我们根据当前数据更新对每个策略 \( \mu_{\mathbf{d}} \) 的后验分布，然后让 \( \pi_t \) 正比于“该治疗在当前历史下是最优的”后验概率。
- 问题：此时，IPW 估计量中的分母 \( \prod_{t=1}^2 \pi_t(A_{i,t} | H_{i,t}) \) 不再是已知常数，而是依赖于所有先前受试者数据的随机变量。这导致：
  1. IPW 估计量不再是无偏的（因为分母与结局 \( Y_i \) 相关）。
  2. 即使经过修正，该估计量的极限分布也可能不是正态的。例如，在某些 RAR 方案下，估计量的方差可能发散，或收敛到某个非正态分布（如混合分布）。
- 本文的关键想法：作者没有试图去“纠正”IPW 估计量的渐近分布（这极其困难），而是直接构造基于后验的推断程序。他们利用 TS 算法本身产生的后验分布，通过重抽样（bootstrap） 或贝叶斯方法来构造置信区间，从而绕开了对估计量渐近分布的显式刻画。这个想法在单阶段 RAR 中已有先例（Zhang et al., 2020），本文将其推广到多阶段 SMART。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在序贯多分配随机试验（SMART）中，首次提出基于 Thompson Sampling（TS）的响应自适应随机化（RAR）算法，并开发了有效的后验推断程序，以应对 RAR 导致的非标准渐近行为。
核心工具 / 方法：Thompson Sampling（用于动态更新随机化概率）、重抽样（bootstrap）和贝叶斯后验推断（用于构造置信区间）、逆概率加权（IPW）估计量（作为比较基准）。
主要结论：模拟和基于真实 SMART 数据的实证表明，所提出的 TS 算法能在不牺牲试验后比较效率的前提下，改善试验内受试者的结局（即，让更多受试者接受当前看来更优的治疗）。

关键设定与假设¶

设定：论文考虑一个通用的 \( K \) 阶段 SMART，每个阶段有有限个治疗选项，中间结局可以是任意类型（二值、连续等）。嵌入策略集合 \( \mathcal{D} \) 由 SMART 设计本身定义（即，每个可能的决策路径对应一个策略）。
假设：
1. 一致性（Consistency）：受试者的观测结局等于其被分配的治疗路径所对应的潜在结局。这是因果推断的标准假设。
2. 无干扰（No interference）：一个受试者的治疗分配不影响其他受试者的结局。这也是标准假设。
3. 序贯可忽略性（Sequential Ignorability）：在给定历史 \( H_t \) 的条件下，治疗分配 \( A_t \) 独立于所有未来的潜在结局。由于 SMART 是随机试验，这个假设由设计保证（即使在 RAR 下，随机化也是条件于历史的）。
4. 正性（Positivity）：对于所有可能的历史 \( h_t \)，随机化概率 \( \pi_t(a_t | h_t) > 0 \)。在 RAR 下，TS 算法通常保证这一点（例如，通过添加一个小的探索概率）。
相比已有文献的放宽或强化：
- 放宽：相比固定随机化 SMART，本文允许随机化概率是数据依赖的，从而放宽了“随机化概率已知且恒定”的假设。
- 强化：相比单阶段 RAR 文献，本文需要处理多阶段带来的序贯依赖性和策略比较的复杂性。作者没有对结局分布或中间结局模型做任何参数假设，因此方法是非参数或半参数的。

主要结果¶

结果 1：TS 算法设计。作者提出了三种基于 TS 的 RAR 算法，分别针对两个目标：
- TS-Compare：用于“比较嵌入策略”。在每个更新点，算法计算每个策略 \( \mathbf{d} \) 的后验概率 \( P(\mu_{\mathbf{d}} > \mu_{\mathbf{d}'} \text{ for all } \mathbf{d}' \neq \mathbf{d} | \text{data}) \)，然后让下一批受试者的随机化概率正比于这些后验概率。
- TS-Estimate：用于“估计最优嵌入策略”。算法直接计算每个治疗选项（而非每个策略）的后验最优概率，然后据此分配。
- TS-Combined：结合上述两者。
结果 2：后验推断程序。作者提出了两种构造置信区间的方法：
- 重抽样（Bootstrap）：对观测数据（整个 SMART 轨迹）进行重抽样，对每个重抽样样本重新运行 TS 算法并计算目标估计量（如 \( \hat{\mu}_{\mathbf{d}} \)），然后取这些估计量的分位数作为置信区间。这被称为“TS Bootstrap”。
- 贝叶斯方法：直接使用 TS 算法中产生的后验分布来构造可信区间（credible interval）。作者证明了在某些条件下，这些可信区间具有频率学派意义上的覆盖概率。
结果 3：模拟与实证：
- 模拟：作者在多种设定下（不同效应大小、不同样本量）比较了 TS 算法与固定随机化。结果显示，TS 算法能显著降低受试者接受次优治疗的比例（例如，从 50% 降至 30%），同时，TS Bootstrap 置信区间的覆盖概率接近名义水平（如 95%），且区间宽度与固定随机化下的标准方法相当。这表明“不牺牲效率”。
- 真实数据例子：作者使用一个来自酒精依赖治疗的真实 SMART 数据（名为“Extending Treatment Effectiveness of Naltrexone”，ETEN）。该 SMART 有两阶段，第一阶段比较纳曲酮（naltrexone）与安慰剂，第二阶段根据响应状态调整治疗。作者将 TS 算法“回测”到这个数据集上（即，用真实数据模拟 TS 算法的运行过程），并展示了 TS 算法在改善受试者结局方面的潜力。这个例子想说明：TS 算法在真实世界场景下也是可行的，并且能带来实质性的伦理收益。

证明路线与技术技巧（理论型必写，要具体）¶

本文不是一篇纯理论论文，其核心贡献在于算法设计与实证验证，而非严格的渐近理论证明。因此，没有传统意义上的“定理-证明”结构。但作者在“后验推断”部分提供了一些理论论证。

整体路线：
1. 算法定义：明确定义 TS 算法在 SMART 中的具体操作流程（如何更新后验、如何分配概率）。
2. 推断策略：提出 TS Bootstrap 和贝叶斯可信区间两种推断方法。
3. 理论论证（非严格证明）：作者论证了，在 TS 算法下，后验分布会“正确”地集中在真实参数附近（后验一致性），并且 TS Bootstrap 能够捕捉到估计量的抽样变异性。他们引用了单阶段 RAR 中的相关理论结果（如 Zhang et al., 2020），并声称这些结果可以“启发式地”推广到多阶段 SMART。
4. 实证验证：通过大量模拟和真实数据回测，验证了算法的有限样本表现。
关键跳跃点：
- 从单阶段到多阶段的跳跃：这是最大的跳跃。单阶段 RAR 的推断理论（如估计量的渐近分布）依赖于“所有受试者的数据是条件独立的”这一事实。在多阶段 SMART 中，同一受试者不同阶段的数据是相关的，且不同受试者之间的数据也通过共享的随机化概率而相关。作者没有给出处理这种复杂依赖关系的严格理论，而是依靠模拟来证明其方法的有效性。这是一个未完全解决的理论问题。
- TS Bootstrap 的有效性：作者声称 TS Bootstrap 能提供有效的置信区间，但并未证明其渐近有效性（即，Bootstrap 分布是否一致地估计了真实抽样分布）。这是一个开放的理论问题。
技术技巧点名：
- Thompson Sampling：核心算法，用于平衡探索与利用。
- Bootstrap（重抽样）：用于构造置信区间，绕开对估计量渐近分布的显式推导。
- 逆概率加权（IPW）：作为估计策略期望结局的基准方法，但其在 RAR 下的性质被用于说明困难。
- 后验一致性（Posterior consistency）：用于论证贝叶斯可信区间的频率学派性质。

真实例子与应用¶

数据：ETEN 研究，一个关于纳曲酮治疗酒精依赖的两阶段 SMART。
方法应用：作者将 ETEN 研究的真实数据作为“历史数据”，然后模拟 TS 算法的运行过程。具体来说，他们假设一个“虚拟”的 SMART 正在运行，其受试者的数据来自 ETEN 研究，但随机化概率由 TS 算法动态更新。他们比较了 TS 算法下的受试者结局与 ETEN 研究中固定随机化下的结局。
结果：TS 算法使得更多受试者在第一阶段接受了更有效的治疗（纳曲酮），并且在第二阶段，对于响应者，也更倾向于继续使用有效治疗。这改善了整体受试者结局。
例子想说明：TS 算法在真实数据场景下是可行的，并且能带来实质性的伦理收益（改善受试者结局），同时不损害统计推断的效率（置信区间覆盖良好）。

🔎 结论是否比证明窄¶

是。论文的结论（“TS 能改善受试者结局而不牺牲效率”）主要基于模拟和回测，而非严格的渐近理论。作者在文中明确承认了这一点（例如，在讨论部分提到“严格的理论证明留待未来工作”）。因此，结论的适用范围被限制在模拟所覆盖的设定下。对于更复杂或更极端的设定（如非常小的样本量、高度非平稳的结局），结论是否成立是未知的。
具体语句：作者在“讨论”部分写道：“A rigorous theoretical analysis of the asymptotic properties of the proposed estimators and confidence intervals under TS-RAR in SMARTs is an important direction for future research.” 这直接承认了理论证明的缺失。

四、开放问题（点到为止，扎根具体语句）¶

严格渐近理论：本文的 TS Bootstrap 和贝叶斯可信区间的渐近有效性（覆盖概率是否收敛到名义水平？收敛速度是多少？）尚未被证明。扎根于：论文“讨论”部分提到的“rigorous theoretical analysis ... is an important direction for future research”。
最优性：本文的 TS 算法是否在某种意义下（如最小化遗憾，或最大化受试者福利）是最优的？与其他 RAR 方法（如 UCB）相比如何？扎根于：论文未与其他 RAR 方法进行系统性比较，仅与固定随机化比较。
对“估计最优策略”的影响：本文主要关注“比较嵌入策略”，但对“估计最优嵌入策略”这一目标，RAR 的影响是否不同？例如，RAR 是否会导致对最优策略的估计有偏？扎根于：论文虽然提出了 TS-Estimate 算法，但对其理论性质（如估计量的收敛速度）没有分析。
高维或复杂中间结局：当中间结局 \( O_t \) 是高维或结构复杂（如图像、文本）时，如何有效地进行 TS 更新？扎根于：论文的模拟和例子都使用了简单的二值或连续中间结局，未涉及高维情况。

Maintained by 陈星宇 · Homepage · Source on GitHub