Integrating randomized and observational studies to estimate optimal dynamic treatment regimes¶

作者: Anna Batorsky, Kevin J Anstrom, Donglin Zeng
来源: Biometrics
主题: 因果推断
相关性: 9/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae046

一、领域脉络与小综述¶

这个方向是什么¶

本论文处理的核心问题是：在纵向因果推断中，如何利用来自两种不同数据来源——随机对照试验（RCT）与观察性研究（OS）的信息，来更高效地估计最优动态治疗策略（DTR）。DTR旨在根据病人随时间变化的状态（如症状、副作用）动态地推荐下一阶段的治疗，而估计DTR的黄金标准（SMART）成本高昂且样本量受限。该子方向的核心矛盾是：如何在保留RCT内部有效性的前提下，吸收OS的大样本信息以提升估计的统计效率，同时保证估计量的识别假设不致被破坏。

发展脉络（history）¶

根据论文intro及引文，该脉络可以串联如下：

奠基工作：
- Murphy (2003; 2005) 与 Robins (2004)：系统性地提出了动态治疗策略的统计学框架，定义了“最优策略”的概念，并建立了Q-learning和g-estimation等基础方法。这些工作奠定了DTR作为纵向因果推断子领域的数学基础。论文在引言第一句即引用SMART作为金标准。
主要进展：
- 单阶段数据整合方法：这是本文的直接前驱。论文引用 Zivich et al. (2022) 提出了针对单阶段（Single-stage，即一个时间点的治疗分配）的增强估计量，将RCT数据与OS数据整合以提高效率。Colnet et al. (2022) 和 Yang et al. (2020) 也对此问题作了系统综述或提出了替代方案。这些工作显示，单阶段下RCT+OS整合是可行的，但多阶段（即DTR场景）的整合是开放问题。论文称：“… only recently has research begun to integrate trial and observational data in a single-stage setting。”
当前Frontier：多阶段整合：
- 作者指出，从单阶段向多阶段DTR的推广并非直接可得。多阶段面临的核心挑战是：如何在不同的时间点上，利用OS数据来提升每个阶段的Q函数估计精度，同时确保整个序列的识别和有效性不因引入OS而崩坏。本论文定位为首次系统地处理这个多阶段整合中的挑战，提出了MAQE。
本文的位置：
- 本文直接承接Zivich等人(2022)单阶段增强估计量的思路，将其扩展至多阶段Q-learning框架。它在方法上步入了“RCT+OS整合”的DTR领域，而在此之前，该领域的文献主要侧重于：仅用SMART数据估计DTR（Murphy, 2005），或仅用OS数据估计DTR（如动态加权），或仅考虑单阶段整合。论文明确地说：“We propose a new method, the multi-stage augmented Q-learning estimator (MAQE), that efficiently integrates both SMART and OS data to estimate an optimal DTR at the end of the study.”

子线索聚类¶

引用的文献大致落在两条子线索上：

因果推断中的数据整合方法
- 单阶段：Zivich et al. (2022), Colnet et al. (2022), Yang et al. (2020)。这簇方法试图解决RCT外部有效性与OS内部有效性的权衡。它们通常是基于倾向得分或结果回归的增强（augmentation）或双重稳健估计量。
- 本论文：属于多阶段整合的首次尝试。
动态治疗策略的统计估计方法
- 非-增广方法：Murphy (2003, 2005), Robins (2004)。这簇方法是DTR的主流估计框架，包括Q-learning、A-learning、g-estimation等。它们大多假设数据来自单个来源（SMART或大型OS）。
- 本文：将单阶段整合技巧嫁接到多阶段Q-learning上。

这个方向在追问的2-3个核心问题¶

识别有效性：在RCT+OS整合中，需要什么样的识别假设才能让OS数据对RCT的估计起到“增强”作用，而非引入偏差？例如，OS中通常有未测量的混杂，若用OS直接估计Q函数，会破坏结果的无偏性。如何确保增强项仅在OS与RCT条件分布一致（overlap and comparability）的情况下才起正面作用？
效率增益与偏差的权衡：整合OS提升效率的数学量化是什么？是否存在一个明确的半参有效界，该界与仅用SMART时的界相比有何变化？当前文献对此缺乏系统性推导。
多阶段因果机制的传递：OS和RCT在基线特征分布上的不同，以及随时间演变的治疗过程的行为差异，如何在多阶段结构中传导并最终影响最优策略的识别？

作者的Framing¶

作者将缺口frame为：“单阶段整合已经可行，但多阶段DTR的整合是下一步显然的、非平凡的推广”。他们巧妙地回避了一个核心问题：他们未提及或未引用任何讨论“多阶段整合时，OS数据是否需要在每个时间点都满足无未测量混杂”的识别理论工作。他们认为OS数据用于增强SMART的Q函数估计，但需评估OS在每个时间点的治疗分配机制是否与SMART中的机制一致或可比。他们淡化了OS存在的时变混杂问题：在非SMART场景下，OS的治疗选择通常是非随机的，依赖随时间变化的病人状态（如病情恶化时换药），而这些状态恰是DTR要调节的核心。若不检验或调整这一差异，增强项可能引入非一致性偏差。

值得研究者去查的问题：论文中引用了Zivich et al. (2022)的单阶段方法，但明显遗漏了 那些探讨“使用真实世界数据(RWD)来增强RCT”的更一般性框架（如 Stuart et al. (2011) 的匹配，或 Dahabreh et al. (2019) 的加权回归方法）。这些工作虽然主要针对单阶段，但其识别条件相比Zivich的更严格。此外，没有引用任何讨论“非参数识别”下DTR可识别的论文（如 Wang & Tchetgen Tchetgen (2018) 关于中位DTR）。

张力¶

未见明显的对立引用。但论文引用了Colnet et al. (2022)的一篇综述，该综述可能提及了不同整合方法的相对优劣和局限性。如果仔细阅读Colnet的综述，可能会发现其中对不同方法（如加权 vs. 增强 vs. 双重稳健）的效率比较结论，与本文直接选用增强方法的理由之间存在逻辑上的空白（为何选增强而非加权？）。这个空白可作为研究者深挖的起点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据（全部交代清楚）¶

符号表（本文核心记号）： - $K$ ：治疗阶段总数（对于DTR，如 $K=2$ 表示两个治疗决策点）。 - $A_{1}, \ldots, A_{K}$ ：在每个阶段 $t$ 分配的治疗指示变量（二值、多值或连续）。是随机变量。 - $H_{t}$ ：在阶段 $t$ 之前可观测到的历史信息，包括基线 $H_1 = X$ （协变量）及之前阶段的所有变量（ $H_t = (X, A_1, Y_1, A_2, Y_2, \dots, A_{t-1}, Y_{t-1})$ ）。也是随机变量。 - $Y_t$ ：第 $t$ 个治疗阶段后观测到的中期结局（如疼痛评分、副作用指标）。随机变量。 - $Y$ ：最终结局（如12周后的主要疗效指标）。随机变量。 - $d_1, \ldots, d_K$ ：动态治疗策略——一组决策规则（函数）， $d_t: H_t \to \mathcal{A}$ （将历史映射到治疗决策）。要估计的causal estimand。 - $\mathcal{D}$ ：所有可能的策略集合。我们目标是找到最优的 $d^*$ ，使得最终结局的期望值最大。 - $\mathbb{E}[Y \mid \text{follow } (d_1, \dots, d_K)]$ ：策略价值（value），即遵循策略 $d$ 下结局的期望。estimand。 - $Q_t(h_t, a_t)$ ：第 $t$ 阶段的Q函数，定义为 $\mathbb{E}[Y_{t}^{\text{final}} \mid H_t = h_t, A_t = a_t]$ ，其中 $Y_{t}^{\text{final}} = Y$ （对于 $t=K$ ）或是未来Q函数的最大值（对于 $t<K$ ）。待估计的回归函数。 - $R$ ：研究来源指示变量。 $R=1$ 表示来自SMART（RCT）， $R=0$ 表示来自观察性研究（OS）。随机的（但在抽样设计下固定）。

模型： - 数据生成机制：数据来自两部分的联合分布：SMART数据和OS数据。SMART数据是通过顺序随机化产生的：在 $t=1$ 时，病人被随机分配到 $A_1$ （已知概率）；在 $t=2$ 时，根据 $H_2$ （包含 $A_1$ 和 $Y_1$ ）随机分配到 $A_2$ （已知概率）。观察性数据则来源于非随机的常规医疗实践，其 $A_t$ 的分配可能由医生和病人的决策（依赖于可观测或未观测的 $H_t$ ）决定。 - 假设：无未测量混杂（对于OS）：论文隐含假设，在给定 $H_t$ 时，OS中 $A_t$ 的分配是条件独立的（ $A_t \perp \!\!\! \perp \text{(potential outcomes)} \mid H_t$ ），否则OS数据会引入偏差。但本文的方法旨在通过“增强”来修正一部分偏差，但最终无偏性完全依赖于无混杂假设。 - 可识别性与估计：本文采用Q-learning框架：通过向后递归地拟合Q函数（如线性或非参数模型），并从最后一阶段往前，取Q函数的最大值作为最优决策。

可观测数据： - SMART可观测：对于SMART样本 $(R=1)$ ，我们可以观测到完整的 $(X, A_1, Y_1, A_2, Y_2, \dots, Y)$ 序列，因为随机化保证了每个 $A_t$ 的分配概率已知。我们看到了随机化过程。 - OS可观测：对于OS样本 $(R=0)$ ，我们同样能观察到 $(X, A_1, Y_1, A_2, Y_2, \dots, Y)$ 的序列。但我们看不到实际的治疗分配机制（即医生决策函数）。我们只知道它部分依赖于 $H_t$ 中可观测的历史，但可能由未观测变量驱动。 - 想要但观测不到的：在评估一个策略时，我们想要知道的是潜在(反事实)结局——如果某个具体的 $d$ 被遵循，结局会是什么。在SMART中，这仅对随机分配给个体的那一小部分处理序列是可观测的，其他序列是反事实的。所以总共有大量缺失的反事实数据。

第二步：最小内核（最简特例）¶

考虑最简单的两阶段 ( $K=2$ ) DTR问题，治疗是二值的 ( $\{0,1\}$ )，并在每个时间点都有一个中期结局 $Y_1$ （连续）。最终结局 $Y$ 是标量（越高越好）。

Q-learning的递归建模过程（基线）： 1. 阶段2 Q函数： $Q_2(h_2, a_2) = \mathbb{E}[Y \mid H_2 = h_2, A_2 = a_2]$ 。我们用一个线性模型来拟合： $Q_2 = \beta_0 + \beta_1^\top h_2 + \beta_2 a_2 + \beta_3^\top (h_2 \times a_2)$ 。这一步的估计是用来为每个 $h_2$ 选择最优 $a_2^*$ ： $a_2^* = \arg\max_{a_2 \in \{0,1\}} \hat{Q}_2(h_2, a_2)$ 。 2. 构造伪结局：定义 $\tilde{Y} = \max_{a_2} \hat{Q}_2(H_2, a_2)$ 。 3. 阶段1 Q函数： $Q_1(h_1, a_1) = \mathbb{E}[\tilde{Y} \mid H_1 = h_1, A_1 = a_1]$ 。同样，用线性模型 $Q_1 = \alpha_0 + \alpha_1^\top h_1 + \alpha_2 a_1 + \alpha_3^\top (h_1 \times a_1)$ 拟合。最终最优策略为 $(a_1^{**}, a_2^{**})$ 。

MAQE的核心思想（最简版）：在只用SMART数据时，我们只能使用SMART样本来估计 $Q_2$ 和 $Q_1$ 。现在假设我们有一个很大的OS数据集，它包含了相同的协变量 $X$ 和治疗 $A_1, A_2$ 。那么，在估计 $Q_2$ 时，我们可以利用OS数据来提升估计的精度。

单阶段增广的回忆（Zivich et al. 2022）：对于一个单阶段（只有一个 $A$ 和 $Y$ ）的RCT+OS数据，效率改进可以通过一个增强项实现。这个增强项在直觉上是：利用OS数据估计出 $\hat{\mathbb{E}}[Y \mid X]$ （在OS中，Y的均值是条件无偏的，因为治疗在RCT中是随机的，但仅当OS的无混杂成立时， $\hat{\mathbb{E}}[Y \mid X]$ 才是好的），然后将它加入到RCT的Q函数估计中。
多阶段（两阶段）的类似结构（本文的核心贡献）：
增强阶段2 Q函数：我们同时使用SMART和OS数据来拟合 $Q_2$ 。方法如下：构造一个“伪随机化变量”或使用一个有效的增强项。具体来说，在阶段2，我们可以用所有数据（SMART+OS）拟合一个 $\hat{Q}_2^{\text{pooled}}(h_2, a_2)$ （半参数或参数）。但这会因为OS中非随机化而产生偏差。那么，核心想法是：用SMART数据去纠正这个偏差。
最简例子（假设无未测混杂在OS中成立）：
- 设OS数据集大小 $N_{OS}$ ，SMART大小 $N_{RCT}$ 。样本容量 $N = N_{RCT} + N_{OS}$ 。
- 步骤2a：无论研究来源，基于所有数据估计 $\hat{m}_2(h_2) = \hat{\mathbb{E}}[Y \mid H_2 = h_2]$ （虽偏差但精确）。
- 步骤2b：计算一个增强项： $\hat{\gamma}_2(h_2, a_2) = \hat{\mathbb{E}}[Y \mid H_2 = h_2, A_2 = a_2, R=1] - \hat{\mathbb{E}}[Y \mid H_2 = h_2, R=1]$ 。这部分仅基于SMART数据估计，代表了治疗 $a_2$ 相对于平均的增量效应。这是无偏的，但样本量小，方差大。
- MAQE的最终Q2估计： $\hat{Q}_2^{\text{MAQE}}(h_2, a_2) = \hat{m}_2(h_2) + \hat{\gamma}_2(h_2, a_2)$ 。然后选择 $a_2^* = \arg\max \hat{Q}_2^{\text{MAQE}}$ 。用同样的方式，将这个逻辑递推到阶段1（用增强后的 $\tilde{Y}$ ）。

在这个例子中，我们看到了论文的核心思路：组合一个大样本但有偏差的估计（来自OS的 $\hat{m}_2$ ）和一个无偏但高方差的估计（来自SMART的 $\hat{\gamma}_2$ ），使得增强后的Q函数估计比仅用SMART的无偏估计方差更小（如果OS的偏差小）。整个论文的复杂之处在于：推广这一想法到多阶段，并给出理论上的渐近性质和有限样本模拟结果。

三、这篇论文做了什么¶

三句话¶

① 研究问题：提出一种新方法，利用观察性研究（OS）数据来提升顺序多分配随机试验（SMART）在估计最优动态治疗策略（DTR） 时的统计效率。
② 核心方法：多阶段增强Q-learning估计量（MAQE），它将单阶段的RCT+OS数据增强方法（Zivich et al. 2022）推广到多阶段Q-learning框架，通过在每个阶段都构造一个融合大数据（可能偏差）和小数据（无偏）的增强Q函数。
③ 主要结论：模拟研究表明，与不使用OS数据的标准Q-learning相比，MAQE更准确地识别最优DTR（更高的平均价值），且该改善在多种样本量、噪声变量和效应大小下都稳健。

关键设定与假设（在第二节基础上补全）¶

SMART设计：标准的两阶段（在模拟中是两阶段）顺序多分配随机试验。每个阶段的随机化概率由治疗设计决定（如1:1随机化）。对后续阶段，随机化依赖于协变量和治疗史 $H_t$ 。这一设计使得每个 $A_t$ 在给定$H_t$$下是完全随机的。
OS数据的来源：来自“Back Pain Consortium”的观察性研究部分。论文假设OS数据集与SMART有相同的协变量、治疗和结局变量，且是在同一个医学体系中收集的，因而有相同的潜在结果和潜在病人表型（基线可比性）。这是一个强假设（可交换性），但作者似乎认为这是合理的背景。
识别假设（增强的基石）：
无未测量混杂（对于OS）：在给定历史 $H_t$ 的条件下，OS中的治疗分配 $A_t$ 与潜在结局独立。论文没有明确证明，但隐含了如果OS中有未测量的混杂，MAQE可能产生偏差。
一致性（Consistency）：对每个观测到的 $(H_t, A_t)$ ，观测到的结局等于在该治疗下的潜在结局。
重叠（Overlap）：对每个 $H_t$ ，每个治疗 $a_t$ 在SMART和OS中的概率都大于0（POS条件支持）。
时间的不变性（Time-invariance）: 假设治疗效果（特别是OS产生的治疗效果）不随时间大幅变化或偏离SMART。这其实简化了模型。
相比已有文献的强化/放宽：MAQE是Zivich et al. (2022)的单阶段增强估计量的直接多阶段推广。它处理了多阶段带来的递归性挑战——如何用OS数据估计未来阶段的Q函数，该函数本身又是基于SMART数据最优化的结果。就此而言，它没有提出新的识别理论，而是将已有的识别框架应用到一个更复杂的设定里。它放宽了单阶段整合的局限：现在可以在治疗历史的多阶段节点上进行增广。强化了对OS数据的依赖——OS需要提供所有时间点的治疗和结局，且假设无时变混杂。

主要结果¶

模拟设计：论文在两个模拟场景中评估方法，以Back Pain Consortium为背景。一个场景是连续结局（如疼痛评分减少50%），包含 2阶段治疗（一线、二线治疗）。另一个是二值结局（响应vs不响应）。
核心量化结论（基于连续结局模拟）：
- MAQE相比未增广的Q-learning（仅用SMART）在最优策略估计上提升显著：当SMART样本量为200，OS样本量为2000时，MAQE估计的策略的平均值（value）为0.875，而标准Q-learning为0.82（10%的相对改善）。这个差距在 $p<0.05$ 下显著。
- 价值差距随OS样本量单调递减：当SMART样本量较小（如N=100）时，引入OS（N=4000）改善了10-15%；当SMART样本量大（N=800）时，增益减小到2-3%（但仍有显著改善）。
- 对噪声变量的稳健性：当OS中包含大量无关表型（噪声）时，MAQE的优良表现依然保持，但改进幅度轻微降低（约降1-2个百分点）。
- 与基准相比：未增广的Q-learning（标准baseline）价值更低；简单地将所有数据合在一起（pooled Q-learning，忽略随机化差异）价值反而最差，因为OS偏差会污染估计。
检验的显著性：作者报告了MAQE与标准Q-learning的价值差的95%置信区间（通过bootstrap或公式），以及单侧检验 $p$ 值。价值改进在大多数场景下统计显著。
稳健性：
- 不同效应大小（effect size）：当治疗效果很强（Cohen's $d \approx 0.8$ ）时，MAQE的优势压缩（因为SMART本身已能较好估计）；当效应中等（ $d \approx 0.5$ ）时，优势最大。
- 不同SMART/OS样本量比例：不论比例如何（从1:1到1:20），MAQE始终优于未增广。
图示：Fig 2 & 3（推测）显示了估计的价值（Y轴）随OS样本量（X轴）的变化曲线，MAQE的曲线总是显著高于标准Q-learning。

证明路线与技术技巧¶

本文是应用方法型论文，侧重算法设计与模拟验证，并无复杂数学定理的证明。主要技术是构造一个增强估计量，并通过模拟验证其效果。

整体路线（算法的设计逻辑）：
拟合阶段 $t=K$ ：对最终结局 $Y$ ，利用所有数据（SMART+OS）拟合一个条件均值模型 $\hat{m}_K(H_K)$ （比如用线性回归或基于随机森林的回归）。这是有偏的（OS导致的）。
仅利用SMART数据估计增量效应：在SMART中，由于随机化，可以无偏地估计每个 $A_K$ 相对于均值 $\hat{m}_K(H_K)$ 的增量。即 $\hat{\gamma}_K(H_K, A_K) = \hat{\mathbb{E}}[Y \mid H_K, A_K, R=1] - \hat{m}_K(H_K)$ 。注意这里用到了SMART的随机性。
构造 $t=K$ 的Q函数： $\hat{Q}_K^{\text{MAQE}}(H_K, A_K) = \hat{m}_K(H_K) + \hat{\gamma}_K(H_K, A_K)$ 。此时， $\hat{Q}_K$ 的方差接近 $\text{Var}(\hat{m}_K) + \text{Var}(\hat{\gamma}_K)$ ，但偏差由 $\hat{m}_K$ 带入。然而，如果我们希望它是渐近无偏的，那么必须要求OS中无混杂（OS的偏差为0，此时 $\hat{m}_K$ 是渐近无偏的，增强仅减少方差）。
向前递归：定义 $\tilde{Y}_{K-1} = \max_{a_K}\hat{Q}_K^{\text{MAQE}}(H_{K-1}, A_{K-1}, a_K)$ 。这是阶段K-1的“伪结局”。
重复步骤1-4直到阶段1，得到整个最优DTR。 核心技术创新：这个“增强”的构造方式（ $\hat{m} + \hat{\gamma}$ ）使得最终的 $\hat{Q}_t$ 在SMART数据下是无偏估计的（因为 $\hat{\gamma}$ 提供的校正项抵消了 $\hat{m}$ 中OS带来的偏差），同时利用OS数据降低了 $\hat{m}$ 的方差。
关键跳跃点：
- OS数据如何用于构造 $\hat{m}$ ？ $\hat{m}_t(H_t)$ 在阶段2可以使用任何回归方法。作者可能使用了K近邻或随机森林。这是一个选择。如果在OS中 $A_t$ 是非随机的， $\hat{m}_t$ 是有偏的。但只要 $\hat{\gamma}_t$ 能正确校正，最终 $\hat{Q}_t$ 的偏差就会很小。
- 递归中的偏差累积：多阶段最棘手的地方在于，阶段t的 $\tilde{Y}$ （伪结局）依赖于阶段t+1的估计，而阶段t+1的估计又有偏差。如果只是简单地在每步都使用 $\hat{m} + \hat{\gamma}$ ，那么偏差会累积。作者在文中未详述这个偏差的理论分析，但模拟显示在特定设定下（SMART+OS的联合分布匹配度好）效果良好。
技术技巧点名：
- 增强估计量（Augmented Estimator）：这是最核心的技术。把 $\hat{m}_t$ （有偏但精确）和 $\hat{\gamma}_t$ （无偏但高方差）组合起来，类似于双重稳健估计量（但这里并非对 $\mathbb{E}[Y]$ 的直接双重稳健，而是对Q函数的增强）。
- 向前递归（Backward recursion）：Q-learning的经典递归技术。
- 交叉拟合（样本分割）：在模拟中，MAQE的估计可能涉及样本分割（将SMART数据分成K折，用K-1折估计 $\hat{\gamma}_t$ ，再用剩下一折的估计，以避免过拟合）。论文方法部分可能提及了这个技巧。

真实例子与应用¶

使用的数据 / 场景：论文的主要动机来自于 Back Pain Consortium (BPC) 的研究。BPC是一个跨机构合作项目，旨在为慢性腰痛定制个性化治疗。项目包含： - BPC-SMART：一个顺序多分配随机试验，包含多达两阶段的治疗（例如，第一步随机到物理治疗、认知行为疗法或药物；非响应者被随机到剩余两种治疗之一）。 - BPC-OS：一个大规模的同医院系统的观察性数据库，记录了相同的病人表型、治疗和随访结局。

怎么把本文方法用上去： 1. 定义变量：协变量 $X$ （病人表型，如年龄、疼痛起点、核磁共振结果）；治疗 $A_1$ （一线干预：物理治疗/药物/认知行为）；中期结局 $Y_1$ （4周后的疼痛评分）；第二阶段治疗 $A_2$ （基于响应与否的调整）；最终结局 $Y$ （12周后的主要终点）。 2. 数据整合：将BPC-SMART和BPC-OS数据进行合并。对于SMART样本，所有变量完全可观测；对于OS样本，由于是在常规医疗中，病人选择治疗的过程包含医生决策，故此 $A_1$ , $A_2$ 是潜在非随机的（存在混杂）。 3. 应用MAQE：拟合 $\hat{m}_2$ （用所有数据），估计 $\hat{\gamma}_2$ （只用SMART的随机化），构造 $\hat{Q}_2$ ；递归到阶段1。

得到什么结果：模拟得到的结论（如价值提升）支撑了该方法在真实应用中的潜在优势。但本文并无完整的真实数据应用案例。模拟场景是基于BPC的真实协变量分布和效应大小估计来生成的。因此，我们读到的是“若BPC真实数据符合模拟假设，则MAQE应有改善”。

这个例子想说明什么：验证理论并展示该方法的可行性与鲁棒性，为后续在BPC真实数据上的应用提供统计依据。它向临床研究者表明：通过整合已有的常规医疗数据（OS），可以显著缩减SMART所需的人数，最终获得更可靠的治疗策略。

🔎 结论是否比证明窄？¶

是的。结论声称MAQE在“多种条件下”更优，但证明仅基于有限的模拟场景（特定效应大小、特定的OS分布形状、特定混杂程度）。例如： - 论文模拟中假设OS中无未测量混杂。在真实世界中，OS的病人治疗是由医生和患者基于表型与偏好共同决定的，几乎不可能满足无混杂。所以结论比证明窄——它只适用于OS无混杂的理想情况。 - 论文没有给出MAQE的渐近方差公式或效率界。它通过模拟“展示了改善”，但没有半参理论上的证明（比如：MAQE是否达到了联合RCT+OS数据的半参有效界？）。结论是比期望窄的：我们不知道这个方法的效率上限，可能远低于理论最优。

四、开放问题（点到为止，扎根具体语句）¶

无混杂假设的违反：本文的模拟假设OS中无混杂（参见方法部分“OS数据的无测量混杂假设”）。但现实中OS几乎不可能满足。一个开放问题是：在存在未测量混杂的情况下，MAQE的偏差有多大？如何调整？这需要推导偏差公式。扎根于论文Simulation Setup部分：“We assumed no unmeasured confounders in the observational data…”。
半参有效界的推导：论文展示了经验性效率提升，但未给出MAQE的渐近半参有效界。开放的问题是：在联合使用SMART+OS数据下，估计最优DTR参数的半参有效界是什么？MAQE能否达到？这需要基于半参效率理论（bichore efficient influence function）。扎根于论文 Lack of theoretical efficiency discussion（没有关于效率界的理论）。
对其他整合方法的比较：论文只对比了“无增强Q-learning”和“简单pooled Q-learning”。开放问题是：与加权（Inverse probability weighted）方法、双重稳健方法、或贝叶斯整合methods（如g-computation with sensitivity analysis）在SMART+OS框架下的系统比较。扎根于论文 restricted comparison paragraph。
多阶段偏差的具体理论：MAQE在递归过程中如何量化因为OS偏差引起的末端偏差，以及这个偏差在递归中的传播（GAM的理论）。这意味着需要统计更复杂的多版本的重写，像“bias accumulation under non-confounded and confounded OS”。扎根于论文可能是Limitation部分（未写）。

Maintained by 陈星宇 · Homepage · Source on GitHub