Incorporating participants’ welfare into sequential multiple assignment randomized trials¶

作者: Xinru Wang, Nina Deliu, Yusuke Narita, Bibhas Chakraborty
来源: Biometrics
主题: 因果推断
相关性: 5/10
机构绿灯: NUS（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是序贯多分配随机试验（SMART）的设计伦理。SMART 是构建动态治疗策略（DTR）的金标准设计，其核心是在多个阶段对患者进行随机化，以提供构建最优个体化治疗序列的高质量证据。然而，传统 SMART 采用固定等概率随机化，这可能导致大量参与者被分配到经验上较差的或他们不喜欢的治疗组，从而引发伦理问题（损害参与者福利）、降低招募率、增加脱落率，最终损害试验的内外部效度。因此，该方向的核心问题是：如何在保持 SMART 构建最优 DTR 能力的前提下，通过修改随机化机制来提升试验参与者的福利？

发展脉络（history）¶

奠基工作：SMART 设计的提出与 DTR 的构建方法
- Murphy (2005) 提出了 SMART 的基本框架，为构建和比较 DTR 提供了实验设计的金标准。这是整个领域的基石。
- Nahum-Shani et al. (2012) 系统介绍了 Q-learning 方法，这是一种基于回归的、用于从 SMART 数据中估计最优 DTR 的通用数据分析方法。本文在 Section 2 中用它来比较嵌入的 DTR。
- Pelham et al. (2016) 提供了一个具体的、用于儿童 ADHD 的两阶段 SMART 实例（SMART ADHD study），本文将其作为贯穿全文的说明性例子。
主要进展：在 SMART 中引入适应性随机化以提升参与者福利
- Cheung et al. (2015) 提出了 SMART-AR（Adaptive Randomization），它利用 Q-learning 根据先前参与者的完整数据轨迹来调整随机化概率，使其偏向于更优的治疗序列。这是将“福利”纳入 SMART 设计的早期尝试。
- Wang et al. (2021) 提出了 RA-SMART（Response-Adaptive SMART），其分配概率基于累积的治疗效果信息向更有前景的治疗倾斜。本文在引言中将其定位为与 SMART-EXAM 相关的“自适应随机化”工作。
- Wu et al. (2023) 提出了带有中期监测的 SMART（IM-SMART），允许在出现压倒性疗效证据时提前终止试验，这同样是为了减少参与者暴露于次优治疗。
当前 Frontier：将参与者偏好与治疗效果同时纳入随机化
- Narita (2021) 提出了“实验即市场”（EXAM）框架，这是本文的直接灵感来源。EXAM 设计允许在单阶段 RCT 中同时纳入参与者的偏好和预测的治疗效果来调整分配概率，同时保持无偏的因果推断。本文将其从单阶段推广到多阶段 SMART 设定。
- McKay et al. (2015) 和 Gunlicks-Stoessel et al. (2016) 等实证研究已经表明，参与者在 SMART 的不同阶段确实存在治疗偏好，这为在设计中纳入偏好提供了现实依据。
- Knox et al. (2019) 对“患者偏好试验”（PPT）进行了系统分析，提出了一个包含偏好陈述和随机化的一般性设计，并推导了因果效应的非参数界。这为理解偏好信息在因果推断中的作用提供了理论基础。
本文的位置：本文（SMART-EXAM）位于上述脉络的交汇点。它试图将 Narita (2021) 的 EXAM 框架从单阶段 RCT 推广到多阶段 SMART 设定，从而同时解决两个问题：① 利用预测的治疗效果（如 SMART-AR 和 RA-SMART）来提升福利；② 利用参与者的偏好（如 McKay et al. 和 Knox et al. 所关注的）来进一步提升福利。它声称是第一个在 SMART 中同时整合这两类信息的框架。

子线索聚类¶

基于疗效的自适应随机化：这类工作主要关注如何根据累积的疗效数据动态调整分配概率，以将更多参与者分配到更有效的治疗上。
- 代表工作：Cheung et al. (2015) [SMART-AR], Wang et al. (2021) [RA-SMART], Wu et al. (2023) [IM-SMART]。
- 共同特点：使用 Q-learning 或类似方法估计治疗效果的阶段性指标，并据此调整概率。主要目标是提升试验参与者的平均疗效。
基于偏好的试验设计：这类工作关注如何将参与者的治疗偏好纳入试验设计，以提升参与者的满意度和依从性，并可能改善外部效度。
- 代表工作：McKay et al. (2015) [实证], Gunlicks-Stoessel et al. (2016) [实证], Knox et al. (2019) [理论]。
- 共同特点：在随机化前或随机化过程中收集偏好信息，并以此作为分配的依据之一。主要目标是提升参与者的主观福利和试验的可行性。
复合结局与多目标优化：这类工作从分析角度出发，构建同时考虑疗效和其他因素（如毒性、成本、生活质量）的复合结局，以评估和选择 DTR。
- 代表工作：Wang et al. (2012), Xu et al. (2022)。
- 共同特点：不直接修改随机化机制，而是在分析阶段通过加权或定义新的目标函数来平衡多个目标。这与本文的设计层面干预不同。

这个方向在追问的核心问题¶

福利与推断效率的权衡：在提升参与者福利（如分配到更优或更偏好的治疗）的同时，如何保证对最优 DTR 的识别和估计能力不受到严重损害？这是所有自适应设计面临的根本张力。
偏好信息的有效利用：如何可靠地收集和量化参与者的偏好？如何将偏好信息与预测的治疗效果信息以最优方式结合，以最大化福利？
样本量与统计推断：对于这类复杂的自适应设计，如何计算所需的样本量？传统的样本量公式不再适用（本文明确指出了这一点，引用 Robertson et al., 2023）。
识别与偏差：当随机化概率依赖于参与者的偏好和预测效果时，标准因果推断方法（如 IPTW、Q-learning）的识别假设和估计量的性质（如无偏性、一致性）是否会受到影响？需要如何调整？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么：作者声称，现有工作要么只关注“基于疗效的适应性”（如 SMART-AR, RA-SMART），要么只关注“偏好”（如 McKay et al.），但没有一个设计能同时将参与者的偏好和预测的治疗效果纳入 SMART 的随机化过程。因此，SMART-EXAM 被定位为“显然的下一步”——一个统一的、能同时提升福利和保持推断能力的框架。
哪些竞争路线被他淡化或回避了：
- SMART-AR (Cheung et al., 2015) 和 RA-SMART (Wang et al., 2021) 虽然只用了疗效信息，但已经在一定程度上提升了福利。作者淡化了这些方法的福利提升效果，强调它们“没有考虑偏好”，从而凸显 SMART-EXAM 的“双重”优势。
- 从分析角度构建复合结局的方法（如 Wang et al., 2012; Xu et al., 2022）被作者归类为“分析视角”，与本文的“设计视角”区分开。作者回避了这些方法是否能在不修改设计的情况下，通过事后分析达到类似或更好的伦理效果。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 作者没有引用任何关于贝叶斯自适应随机化的文献。贝叶斯方法在临床试验自适应设计中非常普遍，通常能自然地结合先验信息和累积数据来更新分配概率，这与 SMART-EXAM 的目标高度相关。这是一个值得研究者去查的潜在缺口。
- 作者没有深入讨论偏好信息的诱导与真实性问题。EXAM 框架声称是“几乎激励相容的”，但 Knox et al. (2019) 的工作表明，在更复杂的设定下，偏好信息的识别和利用需要非常谨慎。本文没有引用 Knox et al. 关于非参数界和敏感性分析的核心理论。

张力¶

未见明显对立引用。所有被引工作都承认“提升参与者福利”是一个有价值的目标，只是在实现路径（基于疗效 vs. 基于偏好 vs. 两者结合）和权衡（福利 vs. 推断效率）上有所不同。这些工作之间是互补关系，而非矛盾关系。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

考虑一个两阶段的 SMART，这是本文贯穿始终的例子。

符号：
- A1：第一阶段分配的治疗。A1 ∈ {1, ..., J1}，例如 A1 = 1 表示行为治疗，A1 = 2 表示药物治疗。
- R：第一阶段结束后的响应状态（responder status）。R ∈ {0, 1}，R=1 表示对初始治疗有良好响应，R=0 表示无响应。
- A2：第二阶段分配的治疗。A2 ∈ {1, ..., J2}。注意，A2 的分配通常依赖于 (A1, R)。例如，对于无响应者（R=0），A2 可以是“增加初始治疗剂量”或“换用另一种治疗”。
- Y：最终结局（outcome），一个标量。值越大表示结果越好（如 ADHD 症状改善程度）。
- X：基线协变量（baseline covariates），在试验开始前测量。
- S1：第一阶段结束时的中间协变量（intermediate covariates），可能包含 R 和其他信息。
- π1(a1 | x)：第一阶段随机化概率。在传统 SMART 中，π1(a1 | x) = 1/J1（等概率）。在 SMART-EXAM 中，它依赖于参与者的偏好和预测效果。
- π2(a2 | a1, r, s1)：第二阶段随机化概率。同样，在 SMART-EXAM 中，它依赖于偏好和预测效果。
- DTR d = (d1, d2)：一个动态治疗策略，其中 d1(x) 是第一阶段根据 x 推荐 A1 的规则，d2(a1, r, s1) 是第二阶段根据 (A1, R, S1) 推荐 A2 的规则。
- Y*(d)：在 DTR d 下的潜在结局（potential outcome）。这是反事实量，不可观测。
模型：
- 数据生成机制遵循一个两阶段的序贯随机化过程。没有显式的参数模型被假设用于结局 Y。这是一个非参数设定。
- 关键假设是序贯可忽略性（Sequential Ignorability）：在给定历史和协变量的条件下，每个阶段的治疗分配独立于未来的潜在结局。对于两阶段 SMART，这通常由随机化本身保证。
- 另一个关键假设是一致性（Consistency）：观测到的结局等于其分配到的治疗序列所对应的潜在结局。
可观测数据：
- 对于每个参与者 i，研究者可以观测到：(Xi, A1i, Ri, S1i, A2i, Yi)。
- 可观测：基线协变量 X，第一阶段分配 A1，响应状态 R，中间协变量 S1，第二阶段分配 A2，最终结局 Y。
- 想要但观测不到（潜在/反事实量）：对于任何未实际分配的治疗序列 (a1, a2)，其对应的潜在结局 Y*(a1, a2) 是不可观测的。同样，对于任何未遵循的 DTR d，其潜在结局 Y*(d) 也是不可观测的。

第二步：讲最小内核¶

本文的核心思路可以用一个最简特例来理解：单阶段、二值治疗、无协变量的 EXAM 设计。

最简特例：
- 只有一个阶段（K=1）。治疗 A ∈ {0, 1}。
- 没有基线协变量 X。
- 目标是估计平均处理效应 ATE = E[Y(1) - Y(0)]。
传统 RCT：
- 以等概率 π(1) = π(0) = 0.5 随机化。
- 所有参与者被分配到治疗 0 或 1 的概率相同，不考虑他们的偏好或预测效果。
EXAM 设计（本文的核心思想在此特例下的体现）：
- 第一步：收集偏好。在随机化前，询问每个参与者 i 的偏好 P_i ∈ {0, 1, None}（偏好治疗 0、偏好治疗 1、无偏好）。
- 第二步：预测效果。利用历史数据或先验知识，为每个参与者 i 预测其个体化处理效应 τ_i = E[Y_i(1) - Y_i(0)]。在无协变量的最简情况下，这可能是一个常数 τ。
- 第三步：计算分配概率。EXAM 的核心是定义一个福利函数，它结合了偏好和预测效果，然后求解一个优化问题来找到最大化期望福利的分配概率 π(1)。
  - 一个简单的福利函数可以是：W_i(a) = α * I(P_i = a) + β * τ_i * a。其中 α 是偏好权重，β 是疗效权重。
  - 优化问题：max_{π(1) ∈ [0,1]} Σ_i [π(1) * W_i(1) + (1-π(1)) * W_i(0)]，同时满足一个约束，例如 Var(ATE_hat) ≤ V_max，以保证估计精度。
  - 这个优化问题的解会给出一个非均匀的分配概率 π_i(1)，它对于偏好治疗 1 或预测效果好的参与者会更高。
- 第四步：随机化。根据计算出的 π_i(1) 对参与者 i 进行随机化。
为什么这个特例抓住了核心：
- 它清晰地展示了 EXAM 框架的两个核心输入：偏好和预测效果。
- 它揭示了核心机制：通过求解一个受精度约束的福利最大化问题，来动态调整分配概率。
- 它点明了核心权衡：提升福利（让更多人得到他们偏好或更有效的治疗）与保持推断能力（确保 ATE 估计的方差可控）。
- 论文的一般情形（多阶段 SMART）只是将这个单阶段优化问题序贯地应用到每个阶段，并且每个阶段的福利函数和约束条件会依赖于之前阶段的历史信息（如响应状态 R 和中间协变量 S1）。数学上的主要挑战在于如何定义多阶段的福利函数以及如何将精度约束扩展到对 DTR 的比较上。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对传统 SMART 设计中忽视参与者福利（偏好和疗效）的伦理问题，提出了一种新的设计 SMART-EXAM，旨在提升参与者福利的同时，保持构建最优 DTR 的能力。
核心工具 / 方法：将 Narita (2021) 的单阶段“实验即市场”（EXAM）框架推广到多阶段 SMART 设定。在每个阶段，通过求解一个受统计精度约束的福利最大化问题，来动态确定每个参与者的随机化概率，该概率同时依赖于参与者陈述的偏好和基于历史数据预测的个体化治疗效果。
主要结论：通过模拟研究表明，当实验参数（如偏好权重、疗效权重、精度约束）设置适当时，SMART-EXAM 能在不显著牺牲识别最优 DTR 的统计功效（power）的前提下，有效改善试验参与者的平均福利（以分配到更优或更偏好的治疗的比例来衡量）。利用 ADHD SMART 数据的实例分析展示了其实际应用潜力。

关键设定与假设¶

设定：两阶段 SMART，与 Pelham et al. (2016) 的 ADHD 研究结构一致。第一阶段随机化到两种初始治疗（行为治疗 vs. 药物治疗）。响应者继续初始治疗；无响应者在第二阶段被重新随机化到两种增强策略（增加初始治疗剂量 vs. 添加另一种治疗）。
假设：
1. 序贯可忽略性（Sequential Ignorability）：在每个阶段，给定历史和协变量，治疗分配独立于未来的潜在结局。由于是随机化试验，该假设自动满足。
2. 一致性（Consistency）：观测到的结局等于其分配到的治疗序列所对应的潜在结局。
3. 偏好可观测且真实：假设参与者能真实地陈述其治疗偏好。这是 EXAM 框架的基础，本文没有深入讨论激励相容性问题。
4. 预测模型可用：假设存在一个（可能不完美的）预测模型，可以基于历史数据（如先前参与者的数据）来预测当前参与者的个体化治疗效果。在模拟中，作者使用了 Q-learning 来生成这些预测。
相比已有文献的放宽或强化：
- 放宽：相比传统 SMART 的固定等概率随机化，SMART-EXAM 允许分配概率依赖于偏好和预测效果，这是一个显著的放宽。
- 强化：相比仅基于疗效的自适应设计（如 SMART-AR），SMART-EXAM 额外要求收集和利用参与者的偏好信息，这增加了试验实施的前期工作（偏好诱导）。相比仅基于偏好的设计，它要求一个预测模型，这增加了模型假设和计算负担。

主要结果¶

本文的主要结果是基于模拟研究的，没有提供新的渐近理论或定理。

核心量化结论：
- 福利提升：在大多数模拟场景下，SMART-EXAM 将参与者分配到“更优”或“更偏好”治疗的比例显著高于传统 SMART。例如，当偏好权重较高时，分配到偏好治疗的比例可提升 20-30 个百分点。
- 统计功效：SMART-EXAM 识别最优 DTR 的统计功效（power）通常略低于传统 SMART，但差距不大。在参数设置合理时（如偏好权重和疗效权重平衡），功效损失通常在 5-10 个百分点以内。
- 权衡关系：模拟结果清晰地展示了福利与功效之间的权衡。提高福利权重（α 或 β）会提升福利但降低功效；收紧精度约束（V_max）会降低福利但提升功效。
与 baseline 对比：主要与传统 SMART（等概率随机化）进行对比。没有与 SMART-AR (Cheung et al., 2015) 或 RA-SMART (Wang et al., 2021) 进行直接比较。
稳健性：作者测试了不同偏好强度、不同预测模型精度（Q-learning 的 misspecification）下的表现。结果表明，即使预测模型存在一定程度的误设，SMART-EXAM 在福利提升方面仍然优于传统 SMART，但其功效损失会略微增大。

证明路线与技术技巧¶

本文是方法型论文，没有严格的数学证明。其“证明路线”体现在模拟实验的设计和结果分析中。

整体路线：
1. 定义福利函数：为每个参与者在每个阶段定义一个福利函数，该函数是其偏好和预测治疗效果的加权和。
2. 定义精度约束：定义一个衡量对最优 DTR 估计精度的指标（例如，与最优 DTR 相关的 Q-function 的方差）。
3. 求解优化问题：在每个阶段，对于每个新参与者，求解一个优化问题，找到在满足全局精度约束的前提下，最大化该参与者期望福利的分配概率向量。
4. 序贯执行：在试验进行中，每招募一个新参与者，就重复步骤 3，利用所有已观测到的数据来更新预测模型和精度约束，然后进行随机化。
5. 评估：通过模拟，比较 SMART-EXAM 和传统 SMART 在最终福利（如分配到最优 DTR 的比例）和统计功效（如正确识别最优 DTR 的概率）上的表现。
关键跳跃点：
- 从单阶段到多阶段的推广：这是本文的核心贡献，但并非一个严格的数学跳跃。作者将 Narita (2021) 的单阶段优化问题直接嵌套到 SMART 的每个阶段，并假设阶段间的独立性（在给定历史信息下）。这个跳跃的合理性主要依赖于序贯可忽略性假设，而非新的数学工具。
- 精度约束的全局性：如何定义一个全局的、能反映整个 DTR 估计精度的约束？作者在模拟中使用了与最终 Q-function 估计方差相关的指标。这个选择是启发式的，其最优性没有理论保证。
技术技巧点名：
- Q-learning：用于从累积数据中预测个体化治疗效果，并作为福利函数中“疗效”部分的输入。
- 凸优化：求解每个阶段的福利最大化问题。由于目标函数和约束条件都是凸的（在适当定义下），可以使用标准优化算法求解。
- 模拟（Monte Carlo）：作为主要的评估工具，用于比较不同设计在不同参数下的表现。

真实例子与应用¶

用的什么数据 / 场景：使用了 Pelham et al. (2016) 的 ADHD SMART 研究数据。该研究有 146 名儿童，两阶段设计，如上所述。
怎么把本文方法用上去：作者将 SMART-EXAM 的设计流程“事后”应用于该数据。具体来说，他们利用原始 SMART 数据来模拟一个“如果当初使用了 SMART-EXAM 设计”的场景。他们使用原始数据来估计参与者的偏好（基于某些假设，如偏好与基线特征相关）和预测治疗效果（使用 Q-learning），然后模拟 SMART-EXAM 的随机化过程，并比较最终结果。
得到什么结果：实例分析的结果与模拟研究一致，表明 SMART-EXAM 能够将更多参与者分配到他们偏好的或预测效果更好的治疗序列上，同时识别出的最优 DTR 与原始研究结论基本一致。
这个例子想说明什么：这个例子旨在展示 SMART-EXAM 的实际可行性和潜在价值。它表明，即使是在一个已经完成的试验中，事后模拟也能看出 SMART-EXAM 在提升福利方面的优势，且不会导致对最优 DTR 的结论发生根本性改变。

🔎 结论是否比证明窄¶

是的，结论明显比证明窄。 * 具体语句：作者在结论部分声称 SMART-EXAM 能“improve the welfare of the participants enrolled in the trial, while also achieving a desirable ability to construct an optimal DTR”。 * 窄在哪里：这个结论完全基于模拟和一个事后实例分析。作者没有提供任何严格的数学证明来保证： 1. SMART-EXAM 估计的最优 DTR 是一致的（即随着样本量增大，收敛到真实最优 DTR）。 2. 在给定精度约束下，SMART-EXAM 的福利提升是最优的。 3. 该设计下的估计量（如 Q-learning 估计量）的渐近分布是什么，以及如何构建有效的置信区间。 4. 该设计对模型误设（如 Q-learning 模型错误）的稳健性是否有理论保证。因此，论文的结论（“能达到合意的能力”）是一个基于有限模拟的、经验性的、有条件的陈述，远弱于一个经过严格证明的定理。作者在 Limitation 部分也承认了这一点，指出“没有显式的样本量计算公式”和“需要进一步的理论研究”。

四、开放问题（点到为止，扎根具体语句）¶

SMART-EXAM 的渐近理论：本文完全依赖模拟。一个核心的开放问题是：SMART-EXAM 下，用于估计最优 DTR 的 Q-learning 或 A-learning 估计量是否一致且渐近正态？其渐近方差是多少？与标准 SMART 相比，效率损失有多大？扎根点：本文 Limitation 部分提到“没有显式的样本量计算公式”，这直接源于缺乏渐近理论。
最优福利-精度权衡的理论刻画：本文通过模拟展示了福利与功效的权衡，但没有给出理论上的最优权衡曲线。一个开放问题是：给定一个福利函数和一个精度度量，是否存在一个半参数效率界，刻画了在给定福利水平下所能达到的最优估计精度？或者反过来？扎根点：本文的优化问题中，精度约束 V_max 的选择是启发式的。
偏好信息的激励相容性：EXAM 框架声称是“几乎激励相容的”，但本文将其直接应用于多阶段 SMART 时，没有分析参与者在多阶段陈述偏好时的策略性行为。一个开放问题是：在多阶段设定下，参与者是否有动机谎报其偏好，以影响后续阶段的分配，从而最大化自身福利？这对识别和估计有何影响？扎根点：本文引用了 Narita (2021) 关于 EXAM 的激励相容性，但没有在 SMART 的语境下重新审视这一问题。
与现有自适应设计的严格比较：本文没有与 SMART-AR (Cheung et al., 2015) 或 RA-SMART (Wang et al., 2021) 进行模拟比较。一个开放问题是：在相同的福利提升水平下，SMART-EXAM 的统计效率是否优于或劣于这些仅基于疗效的自适应设计？引入偏好信息带来的额外福利提升，是否足以弥补其带来的实施复杂性和潜在的模型风险？扎根点：本文引言中提到了这些工作，但在模拟部分没有将其作为 baseline 进行比较。

Maintained by 陈星宇 · Homepage · Source on GitHub