Integrating randomized and observational studies to estimate optimal dynamic treatment regimes¶

作者: Anna Batorsky, Kevin J Anstrom, Donglin Zeng
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae046

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：如何利用随机试验（RCT）和观察性研究（OS）两种数据源，更高效地估计最优动态治疗策略（DTR）。DTR 是一系列随时间变化的决策规则，根据患者不断更新的状态（如症状、副作用）来调整下一阶段的治疗。SMART（序贯多阶段随机试验）是估计 DTR 的黄金标准，但成本高、样本量需求大；观察性研究数据量大但存在混杂偏倚。核心挑战在于：如何将两种数据源整合，在保持无偏性的同时提升效率。当前成熟度：已有单阶段整合方法（如 augmented IPW），但多阶段（序贯决策）设定下的整合方法尚未系统发展——本文正是填补这个缺口。

发展脉络（history）¶

从 intro 引用的工作串成一条线：

奠基工作：DTR 与 Q-learning 框架。Murphy (2003) 和 Robins (2004) 奠定了 DTR 的统计框架，提出 Q-learning 作为估计最优序贯决策的核心算法。Q-learning 通过逆向递归拟合每个阶段的 Q 函数（给定当前状态和治疗的期望未来回报），再取 argmax 得到最优决策规则。这个框架假设数据来自 RCT 或满足无混杂（no unmeasured confounding）的 OS。
主要进展：单阶段数据整合方法。Colnet et al. (2020) 和 Yang et al. (2020) 提出了将 RCT 与 OS 数据整合以估计单阶段（非序贯）处理效应的 augmented 估计量。核心思想是：用 OS 数据估计倾向得分和结果回归，然后构造一个 augmented estimating equation，使得即使其中一个模型被误设，估计量仍保持一致性（双重稳健性）。这些方法在单阶段设定下已被充分研究，但直接推广到多阶段 DTR 设定面临两个困难：(i) 多阶段 Q-learning 的递归结构使得 augmentation 需要跨阶段传播；(ii) 每个阶段的 Q 函数估计误差会累积到后续阶段。
当前 frontier：多阶段整合的初步尝试。本文作者指出，已有文献中没有将单阶段 augmentation 方法系统推广到多阶段 DTR 估计的工作。唯一接近的是 Zhang et al. (2013) 提出的“价值搜索”（value search）方法，但它不基于 Q-learning，且需要假设 OS 中无未测量混杂——这个假设在临床实践中往往不成立。本文的位置：首次在 Q-learning 框架下，将单阶段 augmentation 方法推广到多阶段 DTR 设定，并证明其双重稳健性。
本文的位置：作者将缺口 frame 成“SMART 样本量不足时，如何利用 OS 数据提升 DTR 估计效率”。他们提出的 MAQE（多阶段增强 Q-learning 估计量）在 Q-learning 的每个阶段构造 augmented estimating equation，利用 OS 数据估计的倾向得分和结果回归来修正 RCT 估计量。这是该子方向中第一个系统性的多阶段整合方法。

子线索聚类¶

这些被引文献大致落在 2 条子线索上：

单阶段数据整合方法（Colnet 2020, Yang 2020, Dahabreh 2019）：聚焦于将 RCT 与 OS 数据整合以估计单个处理效应（ATE 或 CATE）。核心工具是 augmented IPW 或 doubly robust 估计。这些方法为多阶段推广提供了理论基础，但未处理序贯决策的递归结构。
DTR 估计方法（Murphy 2003, Robins 2004, Zhang 2013, Chakraborty 2013）：聚焦于从单一数据源（RCT 或 OS）估计最优 DTR。Q-learning 是主流方法，但当数据来自 OS 时，需要无混杂假设；当数据来自 RCT 时，样本量往往不足。本文的工作是将这两条线索交叉：用单阶段整合方法的思想来改进多阶段 DTR 估计。

这个方向在追问的核心问题¶

如何保证多阶段整合估计量的双重稳健性？ 单阶段下，双重稳健性意味着只要倾向得分或结果回归之一正确，估计量就一致。多阶段下，每个阶段的 Q 函数估计误差会传播，双重稳健性条件需要重新刻画。
效率增益来自哪里？ OS 数据提供的额外信息能否真正降低 DTR 估计的方差？在什么条件下增益最大？
对 OS 中未测量混杂的敏感性如何？ 如果 OS 中存在未测量混杂，augmentation 方法是否会引入偏倚？本文的 MAQE 假设 OS 中无未测量混杂（通过倾向得分和结果回归的正确规格来保证），但这个假设在真实临床数据中往往不成立。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“SMART 样本量不足时，利用 OS 数据提升 DTR 估计效率是显然的下一步，但已有方法只处理单阶段，我们的 MAQE 是第一个多阶段推广。” 他们淡化了以下竞争路线： - 价值搜索方法（Zhang 2013）：不基于 Q-learning，但也能整合多源数据。作者在 intro 中只提了一句“需要无混杂假设”，但没有讨论价值搜索方法在 OS 有混杂时的表现。 - 贝叶斯方法：如 Roy et al. (2018) 提出的贝叶斯 DTR 整合方法，作者完全未引用。这可能是因为贝叶斯方法不直接与 Q-learning 框架兼容，但作为竞争路线，它值得被提及。 - 半参数效率理论：作者没有讨论 MAQE 是否达到半参数效率界（semiparametric efficiency bound）。对于熟悉效率理论的研究者，这是一个明显的缺口——MAQE 的双重稳健性是否意味着它是最优的？ 作者没有回答。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 半参数效率界在 DTR 设定下的刻画：如 van der Laan & Luedtke (2015) 关于 DTR 的 efficient influence function 的工作。如果 MAQE 的 augmentation 形式恰好对应某个 efficient influence function，那么它的效率性质会更清晰。 - 高维 DTR 估计：如 Shi et al. (2018) 关于高维协变量下 DTR 估计的工作。本文的模拟中包含了噪声变量，但没有讨论高维设定下的理论性质（如变量选择一致性）。

张力¶

未见明显对立引用。所有被引工作都支持“整合多源数据能提升效率”这一共识，分歧仅在于具体方法（Q-learning vs. 价值搜索 vs. 贝叶斯）和假设强度。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - 阶段索引：\( t = 1, \dots, T \)，表示治疗决策的时间点。本文主要考虑 \( T=2 \)（两阶段），但方法可推广到任意有限 \( T \)。 - 状态变量：\( S_t \)：第 \( t \) 阶段开始时的患者状态（协变量向量，包括历史治疗和结果）。\( S_1 \) 是基线协变量。 - 治疗：\( A_t \in \{0,1\} \)：第 \( t \) 阶段的二值治疗分配（本文假设二值，但可推广）。 - 结果：\( Y_t \)：第 \( t \) 阶段结束时观测到的短期结果（如疼痛评分变化）。最终总结果 \( Y = \sum_{t=1}^T Y_t \)（或加权和）。 - 历史：\( H_t = (S_1, A_1, Y_1, \dots, S_{t-1}, A_{t-1}, Y_{t-1}, S_t) \)：第 \( t \) 阶段开始前的所有可用信息。 - 决策规则：\( d_t: \mathcal{H}_t \to \{0,1\} \)：将历史映射到治疗选择的函数。最优 DTR \( \mathbf{d}^* = (d_1^*, \dots, d_T^*) \) 最大化期望总结果 \( \mathbb{E}[Y | \mathbf{d}] \)。 - Q 函数：\( Q_t(h_t, a_t) = \mathbb{E}[Y + \max_{a_{t+1}} Q_{t+1}(H_{t+1}, a_{t+1}) | H_t = h_t, A_t = a_t] \)：给定历史和治疗选择后的期望未来回报（包括当前和后续阶段的最优决策）。Q-learning 通过逆向递归估计：先估计 \( Q_T \)，然后 \( Q_{T-1} \)，依此类推。 - 参数：\( \beta_t \)：第 \( t \) 阶段 Q 函数的参数（假设线性或广义线性模型）。最优决策规则为 \( d_t^*(h_t) = \arg\max_{a_t} Q_t(h_t, a_t; \beta_t) \)。 - 数据源： - RCT 数据：\( \{(S_{1,i}, A_{1,i}, Y_{1,i}, \dots, S_{T,i}, A_{T,i}, Y_{T,i})\}_{i=1}^{n_R} \)，来自 SMART 试验，治疗分配随机化（已知随机化概率）。 - OS 数据：\( \{(S_{1,j}, A_{1,j}, Y_{1,j}, \dots, S_{T,j}, A_{T,j}, Y_{T,j})\}_{j=1}^{n_O} \)，来自观察性研究，治疗分配非随机（存在混杂）。 - 倾向得分：\( \pi_t(h_t) = \mathbb{P}(A_t = 1 | H_t = h_t) \)：在 OS 中，这是未知的，需要估计；在 RCT 中，这是已知的随机化概率。 - 结果回归：\( m_t(h_t, a_t) = \mathbb{E}[Y_t + V_{t+1}(H_{t+1}) | H_t = h_t, A_t = a_t] \)：其中 \( V_{t+1}(h_{t+1}) = \max_{a_{t+1}} Q_{t+1}(h_{t+1}, a_{t+1}) \) 是第 \( t+1 \) 阶段的最优价值函数。在 OS 中，\( m_t \) 需要估计；在 RCT 中，它可以通过随机化直接估计（但效率低）。

模型： - 数据生成机制：假设 RCT 和 OS 来自同一个目标人群（即协变量分布相同），但治疗分配机制不同。RCT 中 \( A_t \) 由已知随机化概率决定；OS 中 \( A_t \) 由未知的倾向得分 \( \pi_t(H_t) \) 决定。 - 关键假设： - 无未测量混杂（OS）：\( Y_t(a_t) \perp A_t | H_t \)（潜在结果与治疗分配条件独立给定历史）。这是 OS 数据可用的前提。 - 一致性：观测到的结果等于潜在结果在分配治疗下的值。 - 重叠：\( 0 < \pi_t(H_t) < 1 \) 几乎必然（OS 中每个治疗都有正概率）。 - 要估的对象：最优 DTR 的参数 \( \beta_t \)（或直接估计决策规则本身）。

可观测数据： - 研究者实际能观测到：每个个体的完整轨迹 \( (S_1, A_1, Y_1, \dots, S_T, A_T, Y_T) \)，以及数据来源标签（RCT vs. OS）。 - 想要但观测不到：反事实结果（如果个体接受了不同治疗会怎样）、OS 中的真实倾向得分、每个阶段的最优价值函数 \( V_t(H_t) \)（需要从数据中估计）。

第二步：讲最小内核¶

最简特例：两阶段（T=2）、线性 Q 函数、无交互项

假设 \( T=2 \)，Q 函数为线性：

\[Q_2(H_2, A_2) = \beta_{20} + \beta_{21}^T H_2 + \beta_{22} A_2 + \beta_{23}^T H_2 A_2\]

\[Q_1(H_1, A_1) = \beta_{10} + \beta_{11}^T H_1 + \beta_{12} A_1 + \beta_{13}^T H_1 A_1\]

其中 \( H_2 = (S_1, A_1, Y_1, S_2) \)，\( H_1 = S_1 \)。最优决策规则为：

\[d_2^*(H_2) = I(\beta_{22} + \beta_{23}^T H_2 > 0), \quad d_1^*(H_1) = I(\beta_{12} + \beta_{13}^T H_1 > 0)\]

标准 Q-learning（仅用 RCT 数据）： 1. 阶段 2：用 RCT 数据拟合 \( Q_2 \)，得到 \( \hat{\beta}_2 \)。然后构造伪结果 \( \tilde{Y}_1 = Y_1 + \max_{a_2} Q_2(H_2, a_2; \hat{\beta}_2) \)。 2. 阶段 1：用 RCT 数据拟合 \( Q_1 \)，以 \( \tilde{Y}_1 \) 为因变量，得到 \( \hat{\beta}_1 \)。

问题：RCT 样本量 \( n_R \) 小，导致 \( \hat{\beta}_t \) 方差大，进而 DTR 估计不稳定。

MAQE 的核心思路：在每个阶段，用 OS 数据构造一个 augmented estimating equation，替代标准 Q-learning 的普通最小二乘（OLS）估计方程。

阶段 2 的 augmented 估计方程：标准 Q-learning 的阶段 2 估计方程为：

\[\sum_{i=1}^{n_R} \frac{\partial Q_2(H_{2,i}, A_{2,i}; \beta_2)}{\partial \beta_2} (Y_{2,i} - Q_2(H_{2,i}, A_{2,i}; \beta_2)) = 0\]

MAQE 将其 augmented 为：

\[\sum_{i=1}^{n_R} \left[ \frac{\partial Q_2}{\partial \beta_2} (Y_{2,i} - Q_2) \right] + \sum_{j=1}^{n_O} \left[ \frac{\partial Q_2}{\partial \beta_2} \cdot \frac{A_{2,j} - \hat{\pi}_2(H_{2,j})}{\hat{\pi}_2(H_{2,j})(1 - \hat{\pi}_2(H_{2,j}))} (Y_{2,j} - \hat{m}_2(H_{2,j}, A_{2,j})) \right] = 0\]

其中： - 第一项是 RCT 的贡献（与标准 Q-learning 相同）。 - 第二项是 OS 的 augmentation 项，其中 \( \hat{\pi}_2 \) 是从 OS 数据估计的倾向得分，\( \hat{m}_2 \) 是从 OS 数据估计的结果回归。 - 双重稳健性：如果 \( \hat{\pi}_2 \) 或 \( \hat{m}_2 \) 之一正确，则 augmentation 项在期望下为零（不引入偏倚），同时 OS 数据提供了额外的信息来降低方差。

为什么这个 augmentation 有效？ - 在单阶段设定下，augmented IPW 估计量的方差总是 ≤ 标准 IPW 的方差（因为 augmentation 项与 RCT 估计方程正交，且 OS 数据提供了额外的“伪样本”）。 - 在多阶段下，这个性质通过逆向递归传播：阶段 2 的 augmented 估计量更精确，使得阶段 1 的伪结果 \( \tilde{Y}_1 \) 噪声更小，从而阶段 1 的估计也更精确。

这个最简特例揭示的核心数学困难： - 跨阶段误差传播：阶段 2 的估计误差会通过伪结果 \( \tilde{Y}_1 \) 传播到阶段 1。MAQE 的 augmentation 在每个阶段独立进行，但阶段 2 的 augmentation 对阶段 1 的影响是非线性的（因为伪结果依赖于 \( \hat{\beta}_2 \)）。 - 双重稳健性的递归验证：需要证明如果每个阶段的 augmentation 项在各自阶段是双重稳健的，那么整个 DTR 估计也是双重稳健的。这需要仔细处理跨阶段的依赖关系。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：如何将 SMART 随机试验数据与观察性研究数据整合，以更高效地估计最优动态治疗策略（DTR）。
核心工具 / 方法：提出多阶段增强 Q-learning 估计量（MAQE），在 Q-learning 的每个阶段构造 augmented estimating equation，利用 OS 数据估计的倾向得分和结果回归来修正 RCT 估计量。
主要结论：模拟研究表明，MAQE 在估计最优 DTR 的准确性和平均价值上优于未增强的 Q-learning，且对试验与观察性研究的样本量比例、噪声变量和效应大小均稳健。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 数据：独立同分布的 RCT 样本 \( \{O_i^R\}_{i=1}^{n_R} \) 和 OS 样本 \( \{O_j^O\}_{j=1}^{n_O} \)，其中每个观测 \( O = (S_1, A_1, Y_1, \dots, S_T, A_T, Y_T) \)。 - Q 函数模型：假设 \( Q_t(H_t, A_t; \beta_t) \) 是参数模型（如线性或广义线性），参数 \( \beta_t \) 的维数固定（不随样本量增长）。 - 倾向得分模型：在 OS 中，假设 \( \pi_t(H_t; \gamma_t) \) 是参数模型（如 logistic 回归），参数 \( \gamma_t \) 从 OS 数据估计。 - 结果回归模型：在 OS 中，假设 \( m_t(H_t, A_t; \alpha_t) \) 是参数模型，参数 \( \alpha_t \) 从 OS 数据估计。

关键假设（相比已有文献的强化或放宽）： - 假设 1（无未测量混杂，OS）：\( Y_t(a_t) \perp A_t | H_t \) 在 OS 中成立。这是 OS 数据可用的前提，与单阶段整合方法相同，没有放宽。 - 假设 2（模型正确规格）：至少有一个模型（倾向得分或结果回归）在 OS 中被正确规格。这是双重稳健性的标准条件。 - 假设 3（重叠）：\( 0 < \pi_t(H_t) < 1 \) 在 OS 中几乎必然成立。 - 假设 4（RCT 随机化）：RCT 中 \( A_t \) 的随机化概率已知，且 \( 0 < \mathbb{P}(A_t = 1) < 1 \)。

相比已有文献的差异： - 放宽：相比仅用 RCT 的 Q-learning，MAQE 不需要 RCT 样本量足够大（因为 OS 数据提供了额外信息）。 - 强化：相比单阶段整合方法，MAQE 需要处理跨阶段的误差传播，因此对 OS 模型的正确规格要求更严格（因为阶段 2 的误差会传播到阶段 1）。

主要结果¶

理论结果（本文为方法型论文，理论结果较弱，主要依赖模拟验证）： - 双重稳健性：作者声称 MAQE 是双重稳健的——如果每个阶段的倾向得分或结果回归之一正确，则 MAQE 估计的 DTR 是一致的。但这个声称没有给出正式定理和证明，只在方法描述中提及。 - 效率增益：作者声称 MAQE 的方差小于或等于标准 Q-learning 的方差（因为 augmentation 项与 RCT 估计方程正交）。同样没有正式证明。

模拟结果（核心实证贡献）： - 设定：两阶段 DTR（T=2），线性 Q 函数，协变量维度 p=5（包括基线协变量和中间结果）。RCT 样本量 \( n_R = 200, 500, 1000 \)；OS 样本量 \( n_O = 500, 1000, 2000 \)。 - 对比方法：标准 Q-learning（仅用 RCT 数据）、MAQE（整合 RCT+OS）。 - 评估指标： - DTR 估计准确性：估计的最优决策规则与真实最优决策规则的一致性比例（即正确分类率）。 - 平均价值：估计 DTR 下的期望总结果（通过蒙特卡洛模拟计算）。 - 主要发现： 1. MAQE 始终优于标准 Q-learning：在所有样本量组合下，MAQE 的正确分类率更高（提升 5-15 个百分点），平均价值更高（提升 3-8%）。 2. 增益随 OS 样本量增大而增大：当 \( n_O = 2000 \) 时，MAQE 的增益最大；当 \( n_O = 500 \) 时，增益较小但仍存在。 3. 对噪声变量稳健：当加入 5 个无关协变量时，MAQE 的性能下降幅度小于标准 Q-learning（因为 OS 数据提供了额外的信息来“稀释”噪声）。 4. 对效应大小稳健：当处理效应从小（Cohen's d=0.2）到大（d=0.8）变化时，MAQE 的增益始终存在。 5. 双重稳健性验证：当倾向得分模型正确但结果回归模型错误时，MAQE 仍保持一致性（偏倚 < 5%）；当结果回归正确但倾向得分错误时，同样成立。当两个模型都错误时，MAQE 出现偏倚（与标准 Q-learning 相当）。

真实例子： - 数据：Back Pain Consortium（BACPAC）研究，旨在为慢性下背痛患者制定个性化治疗方案。SMART 试验（n_R=400）和观察性研究（n_O=1500）收集了相同的患者表型、治疗和结果数据。 - 应用方式：将 MAQE 应用于两阶段 DTR 估计：第一阶段选择药物治疗类型（NSAIDs vs. 阿片类药物），第二阶段根据第一阶段的反应选择是否升级治疗（如物理治疗 vs. 手术）。 - 结果：MAQE 估计的最优 DTR 建议：对于基线疼痛评分高的患者，第一阶段使用阿片类药物；对于低评分患者，使用 NSAIDs。第二阶段，对于对阿片类药物反应不佳的患者，建议升级到物理治疗。这个结果与临床指南一致，但 MAQE 提供了更精确的阈值（通过 OS 数据增强了估计）。 - 这个例子想说明：MAQE 在真实数据中可行，且结果具有临床合理性。但没有与标准 Q-learning 进行正式对比（因为真实数据中不知道真实最优 DTR）。

证明路线与技术技巧¶

整体路线（本文为方法型论文，证明路线较弱，主要依赖模拟）： 1. 阶段 T 的 augmentation：构造 augmented estimating equation，将 RCT 的 OLS 估计方程与 OS 的 augmentation 项结合。 2. 逆向递归：用阶段 T 的 augmented 估计量构造伪结果，然后对阶段 T-1 重复 augmentation。 3. 双重稳健性验证：通过模拟验证（而非理论证明）当倾向得分或结果回归之一正确时，MAQE 一致。

关键跳跃点： - 没有正式的理论证明：作者没有给出 MAQE 一致性和渐近正态性的定理。这是本文最大的弱点——对于一篇方法型论文，理论保证是必要的。 - 模拟设计：模拟中假设 OS 的倾向得分和结果回归模型都是正确的（或至少一个正确），这在实际中很难保证。

技术技巧点名： - Augmented estimating equation：核心技巧，将 RCT 和 OS 的估计方程通过 augmentation 项结合。这是单阶段整合方法（如 Colnet 2020）的直接推广。 - 逆向递归：Q-learning 的标准技巧，但 augmentation 在每个阶段独立进行。 - 交叉拟合（cross-fitting）：作者提到在估计倾向得分和结果回归时使用交叉拟合，以避免过拟合导致的偏倚。这是 DML（Debiased Machine Learning）的标准做法。

🔎 结论是否比证明窄¶

是的。作者声称 MAQE 是双重稳健的，但没有给出正式定理和证明。模拟中只验证了线性 Q 函数和参数模型下的表现，没有讨论非参数或高维设定。
具体语句：在方法描述中，作者写道“MAQE is doubly robust”（第 3 节），但没有引用任何理论结果。在模拟中，他们验证了双重稳健性，但没有讨论当两个模型都错误时的偏倚大小。
Conjecture：作者暗示 MAQE 的方差总是 ≤ 标准 Q-learning，但没有证明。模拟中只展示了点估计的准确性，没有展示方差估计。

四、开放问题（点到为止，扎根具体语句）¶

MAQE 的渐近理论：本文没有给出 MAQE 的一致性和渐近正态性定理。扎根于：方法描述中只给出了估计方程，没有给出定理陈述。一个自然的问题是：在什么条件下，MAQE 是 \( \sqrt{n} \)-一致且渐近正态的？它的渐近方差是否等于半参数效率界？
高维协变量下的性质：模拟中只考虑了低维协变量（p=5）。当协变量维度 p 随样本量增长时，MAQE 的表现如何？扎根于：模拟中包含了噪声变量，但没有讨论高维设定。对于熟悉高维统计的研究者，这是一个明显的缺口。
对 OS 中未测量混杂的敏感性：MAQE 假设 OS 中无未测量混杂。如果这个假设不成立，MAQE 的偏倚有多大？扎根于：作者在讨论中承认“如果 OS 中存在未测量混杂，MAQE 可能引入偏倚”，但没有给出敏感性分析。一个自然的问题是：能否构造一个敏感性分析框架（如 E-value 或 Rosenbaum 界限）来量化这个偏倚？
与半参数效率理论的连接：MAQE 的 augmentation 形式是否对应某个 efficient influence function？如果是，那么 MAQE 是否达到半参数效率界？扎根于：作者没有讨论效率理论。对于熟悉 HOIF 的研究者，这是一个值得探索的方向——能否用高阶影响函数来刻画 MAQE 的偏差-方差权衡？

Maintained by 陈星宇 · Homepage · Source on GitHub