Adaptive randomization methods for sequential multiple assignment randomized trials (smarts) via thompson sampling¶

作者: Peter Norwood, Marie Davidian, Eric Laber
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是在序贯多分配随机试验 (SMARTs) 中，如何设计和使用响应自适应随机化 (RAR) 方法。SMARTs 是评估多阶段治疗规则 (treatment regimes / dynamic treatment regimes, DTRs) 的金标准试验设计，其传统形式在每个阶段使用固定的随机化比例。一个自然的延伸是，能否利用在单阶段试验中已被广泛研究的 RAR（即根据累积数据动态调整下一批受试者的治疗分配概率），来优化 SMARTs 的受试者结局（伦理优势）和统计效率？这个问题的当前成熟度是方法初探期。虽然 RAR 在单阶段试验中已有大量理论和实践，但将其系统性地引入多阶段 SMART 设计并解决随之而来的统计推断挑战，尚属空白。本文是在此方向上首次提出完整方案的工作之一。

发展脉络（history）¶

奠基工作：SMART 与多阶段治疗规则 (DTR) 的提出 (≈2004-2005)。Lavori and Dawson (2004) 和 Murphy (2005) 奠定了 SMART 作为评估 DTRs 的黄金标准。这些工作定义了设计的基本框架，并确立了用随机化保证“序贯可忽略性”(sequential ignorability) 的核心思想。
主要进展：单阶段 RAR 的成熟与辩论 (≈2010-2020)。与此同时，RAR 在单阶段试验中获得了广泛应用和深入讨论。Kim et al. (2011) 的 BATTLE 试验和 Berry (2015) 的 I-SPY 2 试验展示了 Bayesian RAR 在肿瘤学中的实际应用（本文引用语境：“RAR uses accumulating information to skew randomization probabilities toward promising treatments and has long been used in single-stage randomized clinical trials … Kim et al., 2011; Berry, 2015…”）。然而，RAR 也引发了激烈辩论。Proschan and Evans (2020) 指出 RAR 可能导致多种问题，如“bias from temporal trends”、“inefficiency in treatment effect estimation”等（本文引用语境中直接引用了他们的观点）。Villar et al. (2020) 则认为这些批评并不能一概适用于所有 RAR 程序。这种张力是理解本文动机的关键。
当前 Frontier：RAR 及其事后推断在多阶段试验中的空白 (≈2020-2023)。尽管 RAR 在单阶段试验中已相对成熟，但其在多阶段 SMART 中的应用几乎没有被系统研究。更关键的是，研究者们逐渐认识到，即使是在单阶段试验中，RAR 也会导致事后推断的统计方法失效。Zhang et al. (2021b) 证明了“ordinary least squares estimator (OLS) … is not asymptotically normal on data collected using standard bandit algorithms when there is no unique optimal arm”。Bibaut et al. (2021) 提出了第一个在情境化自适应数据收集下具备渐近正态性的策略值估计器 (CADR)。这些工作（本文引用语境均为“the adaptive nature of data collected … makes this difficult … standard estimators are no longer asymptotically normally distributed”）共同铺垫了：在 RAR 下，标准推断方法失效，需要新方法。
本文的位置：本文是首个将 Thompson Sampling (TS) 系统地应用于 SMARTs，并为多阶段 RAR 设计出考虑其非标准渐近行为的事后推断方法的完整工作。它直接填补了“RAR 在 SMART 中的方法空白”和“如何为多阶段 RAR 数据提供有效推断”这两个缺口。

子线索聚类¶

被引文献大致落在三条子线索上：

线索一：SMART 设计与 DTR 的统计推断（核心背景）。这包括最基础的 Lavori and Dawson (2004)、Murphy (2005)，以及系统性的方法论综述和教材，如 Zhao (2022) 和 Laber et al. (2014)。这条线索聚焦于“给定一个设计良好的 SMART（通常用固定随机化），如何正确地估计和比较嵌入的治疗规则”。作者引用它们是为了论证 SMART 本身的重要性，并指出其中“固定随机化”的客观事实，从而引入 RAR 作为改进点。 此线索中的 Manschot et al. (2022) 关于利用部分信息进行中期分析的工作，与本文提出的 RAR 思想有技术上的关联（都涉及更新过程中的连续性）。
线索二：单阶段 RAR 的辩论、优化与扩展（方法基础）。这包括从 Bayesian 自适应方法 (Berry et al., 2010) 到具体的 Gittins index (Villar et al., 2015) 和 Thompson Sampling (Russo et al., 2017) 等方法。同时，也包括对 RAR 的批判性文章 (Proschan and Evans, 2020; Viele et al., 2020)。作者引用它们，一方面是为了提取成熟方法（TS），另一方面是为了说明 RAR 虽然充满争议但在某些场景下仍有价值（“strong theoretical and empirical support for bandits …”），并以此为背景解释为什么他们“冒险”将 RAR 引入 SMART——同时必须解决被批评的推断问题。
线索三：自适应收集数据的统计推断（核心技术挑战）。这一簇是本文“事后推断”方法设计的直接知识来源。关键是 Hadad et al. (2021)、Zhang et al. (2021b) 和 Bibaut et al. (2021)。这些工作揭示了“adaptive randomization can lead to nonnormal limits for plug-in estimators”（引自本文）。作者引用它们，是为了论证其工作的必要性：你不能简单地将单阶段的 RAR 推断方法照搬到多阶段，因为后者引入了更复杂的动态结构，但“非标准渐近性”的核心困难是相通的。

这个方向在追问的核心问题¶

伦理-效率权衡：如何设计 RAR 算法，使得试验能更好地照护入组受试者（即更大概率分配到预期更优的治疗），同时不严重损害事后对治疗规则的统计推断效率（即 Type I/II 错误、估计精度）？
统计推断的有效性：在 RAR 导致依赖、非平稳的观测数据下，如何构造出置信区间和假设检验，使其在有限样本或渐近水平上对目标参数（如边际均值、因果效应）保持正确覆盖率，避免被“假阳”风险侵蚀？
多阶段特有的复杂性：与单阶段 RAR 相比，多阶段 SMART 引入了“跨阶段依赖性”。例如，一个决定直接影响下一阶段是否及如何随机化。这种依赖性是否会加剧 RAR 的负面效应（如“stuck”在次优治疗）？对推断的挑战又有多大不同？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）：作者把缺口 frame 成一个清晰的空白：现有文献中 RAR 在 SMART 中“研究不足 (understudied)”，而 TS 在单阶段很成功。他们认为，这是“显然的下一步”。具体来说： - 他们如何看待反对派：他们绕开或淡化了反对 RAR 的论点（如 Proschan and Evans）。在引言中，他们承认这些挑战的存在（“RAR also presents challenges … spirited debates”），但强调这些辩论“are typically considered for single-stage RCTs”。他们的 framing 是一个巧妙的：即使反对意见有道理，那也是针对“不聪明的 RAR”。他们声称，他们提出的以 TS 为基础的 RAR 在 SMART 中，通过精心设计的推断程序，可以 “improve in-trial subject outcomes without sacrificing efficiency for post-trial comparisons”。 - 什么明显该被引却不在：本文没有引用更初级的、关于半参数效率理论在 RAR 中应用的文献（例如，效应该只存在于渐近意义上？）。如果你熟悉半参数理论，你可能会好奇：TS 算法下的随机化概率是依赖于数据的，它应该如何影响 EIF？这是值得去查的问题。 - 竞争路线的淡化：他们必然省略了对“固定随机化+事后调整”对比 RAR 完整模型的研究。固定随机化的推断方法非常成熟，作者并没有有力论证为什么用 RAR 而不是简单地将固定随机化推断方法应用于 TS 的随机化概率。

张力¶

有重大的张力。这构成了本文研究的直接驱动力。被引的 Proschan and Evans (2020) 明确反对 RAR，认为它“bias from temporal trends … inefficiency in treatment effect estimation … ”。而 Villar et al. (2020) 很快进行了反驳。Cheung et al. (2014) 则已经在 SMART 中探索了另一种（非 TS）自适应随机化。这构成了一个高价值信号：一个方向存在根本矛盾，哪边是对的？本文选择了站在“支持派”并优化方法的一边。对于研究者你来说，这种张力是绝佳的研究切入机会——你需要评判这个方向的创新性不足以掩盖其代价。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

我们用一个最简单、最基础的两阶段 SMART 来设记号。

阶段：t = 1, 2（假设总共 2 阶段）。
符号：
- 随机变量 / 观测：
  - \( A_1 \)：阶段 1 的治疗分配。例如，\( A_1 \in \{0, 1\} \)，为一个二值处理。
  - \( X_1 \)：基线协变量，在阶段 1 治疗前观测。
  - \( S_1 \)：阶段的“响应” (response)。例如，\( S_1 \in \{0, 1\} \) (1=反应者，0=无反应者)，是研究者定义的中期结局，在阶段 2 治疗前观测。SMART 的关键：这个 \( S_1 \) 决定了后续随机化的策略。
  - \( A_2 \)：阶段 2 的治疗分配。其随机化概率依赖于 \( (X_1, A_1, S_1) \) 和在 RAR 中累积的收益数据。
  - \( Y \)：最终的主要结局（主要目标）。在阶段 2 末观测。
- 参数 / estimand：
  - 治疗规则 (Regime) d：一个从每个时间点的患者历史到治疗决策的函数。例如，一个嵌入式的规则 \( d\) 指定：\(A_1 = d_1(X_1)\)，并且在响应后 \(A_2 = d_2(X_1, A_1, S_1)\)。最简单的例子是：规则 \( d_1 \): 所有患者都接受 \( A_1=1\)；如果 \(S_1=1\)（响应者），则 \( A_2=1\)；如果 \(S_1=0\)，则 \( A_2=0\)。
  - 边际均值 (Value / \(V(d)\))：= \( \mathbb{E}[^*Y(d)] \)，即如果整个人群都遵循规则 d，他们会得到的期望最终结局。这是我们要估计的因果量。
- 维数 / 指标：
  - n：样本量（受试者数量）。
  - K：阶段数（本文中 K>=2）。
- 潜在量 (counterfactual)：
  - \( Y(d) \)：假设该患者遵循规则 \(d\) 将观察到的潜在结局。这是不可观测的。
模型（数据生成机制）：
- 无特别分布假设。这是一个半参数设定。数据通过一个自适应的随机化过程生成。SMART 的核心假设，即 序贯可忽略性 (sequential ignorability)，是由自适应随机化保证的（因为是随机化，不是观察性研究）。
- 用潜在结果框架表述，我们的目标是用观测数据 \(X_1, A_1, S_1, A_2, Y\) 来估计 \( \mathbb{E}[Y(d)] \)。
可观测数据：
- 研究者实际能观测到的是：对于每一个受试者 i，你记录了一个序列 \( (X_{1i}, A_{1i}, S_{1i}, A_{2i}, Y_i) \)。
- 能够观测到的是“随机化”过程本身的历史——\( \pi_t(\cdot | \text{history}) \) 是已知的，由试验者设计，并且依赖于最初分配的治疗和之前观测到的响应。
- 想要但观测不到的：当然就是潜在结局 \(Y(d)\)。研究者只能试图通过逆概率加权 (IPW) 来近似它，但直接 IPW 在 RAR 下因为随机化概率的依赖而偏差严重。

第二步：讲最小内核¶

我们剥离多余假设，回到一个最小特例来展示本文的核心思想。

最简特例：假设你只有一个两阶段的 SMART。有 d=2 个嵌入式的治疗规则：(1) A1=0，如S1=0则A2=1；(2) A1=1，如S1=0则A2=0。响应者不再被再随机化。这是一个用于比较两个规则的非常基础的设置。

做法：在传统固定随机化中，A1 被以 1:1 概率分配。现在你使用 TS 进行 RAR。

怎么用 TS： 1. 第 \(t-1\) 个受试者完成了治疗，我们得到了其部分响应信息和最终结局 Y。我们用这些数据来更新我们对“哪个规则更优”的后验信念。比如我们假设最终结果的均值 \( \mathbb{E}[Y(d)]\) 服从一个参数模型，例如正态分布，我们后验地知道 \(P[\mathbb{E}[Y(d_1)] > \mathbb{E}[Y(d_2)] | \text{data}]\) 是多大。 2. 分配下一个受试者：随机地从当前后验分布中采样一个参数 \( \tilde{\theta} \)，它代表了我们“相信”哪个规则更好。然后，受试者就会被分配到被这个参数判定为最优的那个规则下（即 \(A_1\) 被相应地赋予 0 或 1）。 3. 关键点：在第 2 阶段（非响应者中），分配概率也同理更新。不过在这个最小例子中，响应者不再被再随机，因此 \(A_2\) 的分配是确定的（如果响应，就固定在某个规则）。

核心思路（为什么这篇论文有意思）：在这个最简单的例子下，论文的主要贡献不在于“如何”用 TS 去分配，而是——“如果你这样做了，之后你还能如何正确地比较 \(\hat{V}(d_1)\) 和 \( \hat{V}(d_2)\)?”

传统困难：如果你简单地用无加权的 IPW 估计量：
\[\hat{V}(d) = \frac{1}{n} \sum_{i=1}^n \frac{1\{A_{1i} = d_1(A_{1i}), A_{2i}=d_2(\cdots) \}}{ \psi_i } Y_i\]
这里的 \(\psi_i\) 是真实的随机化概率乘积（即 0.5 * 某个条件概率）。但是，因为在 RAR 下，分配概率 \(\psi_i\)依赖于前一个人的结果，样本不是 i.i.d. 的。经典大数定律失效，该估计量的极限分布是非正态、非标准的（可能有 spike、heavy tails 等等）。
本文解决办法（核心想法）：本文不是试图直接修复这个加权估计量本身。他们提出了一类新的估计量：加权增广逆概率加权 (WAIPW)。这类估计量由一个尝试拟合 \( \mathbb{E}[Y|X, A_1, S_1, A_2]\) 的结果模型 (outcome model) (用 Q 函数) 和一个重要性权重构成。
- 关键技巧在哪里？ 这个重要性权重被精心设计：它不是用“i 这个人实际被分配的概率”，而是计算一个“在忽略历史信息后，给定当前状态，该规则应该被采纳的理论概率”之类的量？其实不是。他们的主要贡献是证明了通过一个特定的“叠加”的结构（通过夹层估计量），它可以把那个由 RAR 导致的糟糕的依赖结构给“磨平”了——最后这个估计量的渐近行为是“正态的”，只要你使用交叉拟合 (cross-fitting) 或类似的思想。
- 最小内核的结论：就这样，这个特例下的核心困难 (RAR → 依赖数据 → 非正态极限) 被一种特殊的半参数估计方法（结果模型 + 特殊权重 + 交叉拟合）克服了。论文的一般情形就是把这个内核扩展到 K 个阶段、有更多治疗选择和更复杂的随机化规则的情景。

三、这篇论文做了什么¶

三句话： 1. 本文研究了如何在序贯多分配随机试验 (SMARTs) 中使用基于 Thompson Sampling (TS) 的响应自适应随机化 (RAR) 来分配有限受试者到多阶段的治疗，以优化入组受试者的结局。 2. 为此，作者提出了一套“TS-for-SMART”算法（分别为比较嵌入规则和估计最优嵌入规则而设计），并配套开发了特定的加权增广逆概率加权 (WAIPW) 估计量及其推断程序。 3. 主要结论是，通过精心设计的 WAIPW 估计量和交叉拟合（m-out-of-n bootstrap 或重抽样技术），可以克服 RAR 导致的非标准渐近行为，获得渐近正态且高效的估计，并且模拟和真实数据示例表明它能提升受试者结局，而不降低事后比较的统计效率。

关键设定与假设¶

设定：定义一个 K 阶段的 SMART。每个阶段 t，患者特征 \(X_t\)、治疗 \(A_t\)、响应 \(S_t\) 被观测。最终结局 Y 在所有阶段结束后测量。目标是比较 M 个预先指定的嵌入式治疗规则 \(d_1, \ldots, d_M\)。
假设：
1. 序贯随机化 (Sequential randomization)：在每阶段，给定历史数据 \(H_t = (X_1, A_1, S_1, \ldots, A_{t-1}, S_{t-1}, X_t)\)，治疗 \(A_t\) 的条件分布（即每阶段的随机化概率）是已知的并且取决于历史（包含了 TS 的更新机制）。这是由试验设计保证的，而非假设。
2. 一致性 (Consistency)：观测到的结局等于遵循该个体观测到的治疗分配序列的潜在结局。
3. 无未观测混杂 (No unmeasured confounding)：由 (1) 保证。
4. 非退化 (Non-degeneracy)：在任意历史下，每个治疗仍然有正的概率被分配（即 TS 的随机化概率下界 > 0，否则会完全丧失探索性，本文通过“clipping”来保证这一点）。
5. 正则条件 (Regularity)：对于结果模型（Q 函数，即 \(E[Y|H_t, A_t]\) 的模型）和倾向性得分的估计，必须用交叉拟合（cross-fitting），并且模型必须是正确指定的，以保证本篇论文的主要估计理论成立。
与已有文献的对比：相比单阶段 RAR 论文 (如 Hadad et al., 2021)，本文假设了多阶段依赖的响应结构，这要求推断程序不仅要处理每阶段的依赖，还要处理跨阶段的动态耦合。相比 Cheung et al. (2014)（最接近的先行者，在 SMART 中用非 TS 的 RAR），作者声称他们的方法“更系统”，且首次“develop valid post-study inferential procedures for treatment regimes under the proposed algorithms”。

主要结果¶

结果 1：WAIPW 估计量的渐近正态性 (定理 2)。本文的核心理论贡献。提出定义一个加权逆概率加权 (WAIPW) 估计量，它使用嵌套的 TS 历史权重来估计一个规则的边际均值 \(V(d)\)。关键结论是：在 TS 生成的序列下，即使标准 IPW 不成立，这个 WAIPW 估计量在正则条件下依然是 \(\sqrt{n}\)- 一致且渐近正态的！
- 直觉：这并非“对数据最简单的加权平均”，而是通过巧妙地构造“伪结局”(pseudo-outcomes) 来修正偏差。具体来说，他们基于已观测到的历史和策略，通过重新“回溯”建模出一个更稳定的“合成结局”。
- 必要条件：交叉拟合（数据切分）。模型估计和样本外预测必须交错进行，这是现代 DML（双机器学习）的通用要求。本文继承了这一点。
- 技术难点：如何证明这个看起来像“鸡尾酒”的加权公式的极限是高斯分布？如何证明它比普通 IPW 好？这需要在半参数效率理论的框架下推导其影响函数 (influence function) 的表达式。虽然本文没有写出来，但这几乎是渐近正态推断的标准背景：找到影响函数，证明并控制它，剩下的由 CLT 完成。
结果 2：针对 TS 定制的“最优”决策规则 (定理 3)。他们提出了一个算法来学习“最佳”嵌放的规则（即 TS 的后验是最优的），并证明该规则和 TS 分配之间存在一个类似 “一致最优” 的 ordering。但这本质上是对形如 “\(d = \arg \max V(d)\)” 问题的处理，并没有给出同常规方法的效率对比的明确收益（更多是受试者照护的伦理改进）。
结果 3：关于 Clipping 的重要性 (引理或讨论)。由于 TS 会极度偏向最优治疗，为了统计推断的可能性，他们提议对每阶段的随机化概率设置一个下界 (clipping)，例如始终保持 5-10% 的概率探索次优选择。他们没有给出最优下界的理论，但明确指出了如果 clipping 缺乏，会导致 WAIPW 中权重方差爆炸。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线：
1. 定义与建模阶段：首先，明确每个治疗规则的边际均值 \(V(d)\)。由于是两阶段 RAR，他们定义了一个吸收函数 \(Q_2(X_2, S_1, A_1, A_2)\) 为给定前一阶段信息下期望 Y 的最终值。第 1 阶段类似（\(Q_1\)）。
2. 构造 WAIPW 估计量：关键的创新——一个“要计算规则 d 的价值”的估计量。它不是简单地对有那条规则的人求均值，而是这样构造：对每个受试者 i，用其最终时点之前的历史信息去构建一个“伪结局” \(\tilde{Y}_i(d)\)。方式是对那些“结构与 d”相匹配的历史子序列，用 TS 在实时分配的“真实”概率对历史轨迹做逆概率加权。这本质上是一个分层、加权的后向推导算法。
3. 处理适应性的依赖：核心困难上，作者证明这个 \(\tilde{Y}_i(d)\) 的序列在某个特定条件下是“近似独立”的。他们用了一个很 subtle 的论证：虽然分配概率依赖于历史，但最终的估计量本身是无偏且方差可估的（通过一个 “m-out-of-n bootstrap” 或重抽样方差估计量）。关键点是，如果 TS 只是在“模拟”一个随机过程，而不是决定性地分配，那么加权作用因子足以使得联合分布矩条件成立。
4. 渐近正态性证明：
  - 关键跳跃点：最吃功夫的引理是证明 WAIPW 估计量是近似线性的，即它可以表示成独立随机变量之和加上一个可忽略的余项。
  - 技术技巧：本文重用了 Donsker 类和 随机 equicontinuity 等技术，来控制估计 Q 函数模型（模型偏差）与事后推断估计量的交乘误差。这需要交叉拟合 (cross-fitting)。这里，估计结果函数的算法从 TS 数据中学习出一个模型，而 WAIPW 使用对另一个样本进行预测。这切断了由 TS 分配引入的依赖。
技术技巧点名：
- Backward Induction / Q-learning：用来构建 WAIPW 估计量的“伪结局”。这是一个“后向回归”过程，利用第二阶段的结果推断第一阶段的价值。
- Cross-Fitting：用于估计结果模型（Q 函数）。这是高维和半参数估计的常用技巧，用于打破因适应性分配导致的复杂相关性，使得模型估计误差和事后推断误差分离。
- m-out-of-n Bootstrap / 方差估计：获准处理非标准极限分布。他们提出了一个步骤来估计 WAIPW 的方差，这个方差估计对渐近置信区间至关重要。由于样本不是 i.i.d.，标准 bootstrap 失败了，但 m-out-of-n 重抽样（其中 m < n 按某个速度增长）可恢复有效性。
- Stochastic process convergence (empirical process)：理论的最终证明需要证明序列的弱收敛到一个均值为 0 的高斯过程。这用（可能已经引入的）Donsker 类结果等对参数化进行约束来达到。

真实例子与应用¶

本文包含一个基于真实世界 SMART 的仿真研究，没有直接的应用例子，但仿真设计是真实的。

数据/场景：他们使用了一个已发表的癌症疼痛管理 SMART (Somers et al., 2023) 中估计出来的参数，构建了一个仿真环境。
应用方法：作者在这个仿真环境中运行了他们提出的 TS 算法，并与固定随机化 (FAR) 和 Cheung et al. (2014) 提出的另一种自适应方法进行比较。
关键结果：
- 受试者结局：在入组期间，接受 TS 算法的受试者，其加权平均结局（如疼痛减轻）优于固定随机化组的结局（大约提升了 10-20% 的改善率）。
- 事后推断效率：经过 WAIPW 修正，对两个规则的边际均值 \(V(d)\) 进行估计后，其均方误差 (MSE) 与固定随机化相比没有显著增加。这个发现很重要，它直接反驳了“RAR 牺牲事后统计效率”的论点。
- 覆盖率：他们宣称 WAIPW 的置信区间覆盖了近 95%，而未经修饰的 IPW 覆盖率明显偏低（低于 80%），说明他们的推断程序是有效的。
这个例子说明了什么：它旨在为读者提供一个存在性证明——在实际参数下，RAR 确实能提高受试者福利，但不造成统计负担。这验证了既得“伦理收益”又不会“损失效率”的声称。

🔎 结论是否比证明窄¶

是的，有一个地方需要重点关注。 * 证明的窄条件：定理保证渐近正态性的条件之一是对结果模型（\(Q\)函数）正确指定。世界上的真实模型（如疼痛数据生成）从来不是完全正确指定的。当模型有误时，其有限样本行为会如何？本文仅仅是在“几乎相同的设定”下做仿真，仿真中 Q 函数模型被设置成与 TS 用于建模的模型相同。他们没有提供对模型错误规范 (misspecification) 的理论韧性，甚至没有对更真实的“Q 函数被错误指定但线性模型足够近似”的情况做模拟。 * 泛泛的 claim：作者在摘要中说 “We develop valid post-study inferential procedures … under the proposed algorithms”。这是一个非常强势的 claim，但实际上它的“有效性”只在半参数理想模型（Q 函数正确，且存在一个可估的稳定影响函数）下成立。在更一般的、非正则的设定（如参数接近边界，或最优治疗只比次优好一丁点）下，这个断言需要额外调整。

四、开放问题（点到为止，扎根具体语句）¶

放松正确指定假设：本文理论依赖结果模型 \(Q(h, a)\) 的正确指定。若 Q 模型误设，如何调整 WAIPW 估计量并保证其双稳健性（double robustness，即 OR 或 PS 之一正确即一致）？扎根：本文未对模型 mispecification 的后果进行定量分析，仅在 “Regularity conditions” 条目中提到用于估计 Q 的模型必须是在非参下的、正确设定的。在此类 RAR 框架下，发展双稳健估计是明确的下一个步骤。
多元响应 / 非二值响应：本文仅在“响应 / 不响应”的二元 S 上做 TS 更新。如何扩展到连续的“响应强度”？例如，每阶段的响应本身是连续度量的（如疼痛评分）。扎根：文章仅给出“二值响应”下 TS 的算法（S 的二值化是他们 SMART 模拟的基础）。
最优嵌入规则的推断：他们提出了“估计最优嵌入规则”的算法，但没有给出其渐近置信区间。即，你如何知道所估计的规则 \( \hat{d}^{\text{opt}} \) 真的与真实最优规则 d 有相近的均值（\(V(\hat{d}^{\text{opt}})\) 的分布）？扎根*：文章提出 TS 倾向于最优规则，但其“不确定性量化”仅限于被比较的固定规则，而未触及对新学习规则的推断——这是仍在发展的前沿。
有限的假设检验能力：本文主要关注于估计的精度和覆盖率。然而，基于 RAR 数据的假设检验（例如，检验 H₀: \(V(d_1) = V(d_2)\)）的功效 (power) 会如何受 RAR 影响？有没有非退化的、优于固定随机化的功效分析？扎根：本文的比较仅关注了 MSE 和覆盖率，未见对于“检验力”的具体对比。由于 RAR 可能减少对照组的信息，你或许会怀疑其在检测微小差异方面可能较弱。这是需要直接检验的。

Maintained by 陈星宇 · Homepage · Source on GitHub