Multiobjective tree-based reinforcement learning for estimating tolerant dynamic treatment regimes¶

作者: Yao Song, Lu Wang
来源: Biometrics
主题: 因果推断
相关性: 5/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujad017

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是动态治疗方案（Dynamic Treatment Regime, DTR）的估计。DTR 是一系列个体化的治疗决策规则，根据患者随时间演变的协变量和治疗历史，在每个决策阶段给出最优的治疗方案。其根本的统计问题是：在存在多个、且可能相互冲突的临床目标（如同时最小化疾病负担和最大化生存期）时，如何估计出一组“可容忍”的决策规则集合，而不是单一的最优规则。当前该子方向的主流方法（如 Q-learning、A-learning、树强化学习）大多聚焦于单一目标优化，对多目标权衡的处理尚不成熟。

发展脉络（history）¶

作者在引言中梳理了 DTR 估计的发展脉络，主要分为以下阶段：

奠基工作：基于回归的 DTR 估计
- Q-learning (Watkins & Dayan, 1992; Murphy, 2005)：通过拟合“Q-函数”（即给定状态和动作后的期望累积回报）来递归地确定最优决策。这是 DTR 领域最经典的方法之一，但通常假设一个单一的目标函数。
- A-learning (Murphy, 2003; Robins, 2004)：通过建模“优势函数”（即不同治疗方案的对比效果）来直接估计最优决策规则，对模型误设的鲁棒性优于 Q-learning。同样，主要处理单一目标。
主要进展：基于树的 DTR 估计
- Tree-based reinforcement learning (T-RL) (Laber & Zhao, 2015; Zhang et al., 2018)：将决策树引入 DTR 估计，通过递归划分协变量空间来生成可解释的决策规则。作者指出，T-RL 方法“在可解释性和灵活性之间取得了良好的平衡”，但“主要针对单一结果变量设计”。
当前 frontier：多目标 DTR 与容忍机制
- Multiobjective DTR (Lizotte et al., 2012; Laber et al., 2014)：这些工作开始处理多目标优化，但作者认为它们“要么将多个目标线性组合成一个单一标量目标（这需要预先指定权重，且可能丢失帕累托前沿的复杂结构），要么只关注帕累托最优解集，而没有提供决策者一个可操作的、基于容忍度的选择机制”。
- Tolerant DTR (本文)：作者提出的“容忍动态治疗方案”（tDTR）概念，旨在填补上述空白。它不追求单一最优解，而是在预设的“容忍率”下，输出一组“足够好”的决策规则集合，让决策者根据偏好从中选择。

子线索聚类¶

这些被引文献大致落在 2 条子线索上：

线索一：基于回归的 DTR 估计（Q-learning, A-learning）。这一簇的核心是使用参数或半参数模型（如线性模型、广义线性模型）来拟合价值函数或优势函数，然后通过最大化（或最小化）该函数来得到最优决策。优点是统计效率高，缺点是模型假设强，且生成的规则通常不直观（如线性决策边界）。
线索二：基于树的 DTR 估计（T-RL）。这一簇的核心是使用决策树来直接划分协变量空间，每个叶子节点对应一个治疗决策。优点是生成的规则可解释（如“如果年龄>50且PSA>10，则使用化疗A”），且对模型假设要求较低。缺点是可能不稳定（对数据扰动敏感），且处理多目标时通常需要先降维。

这个方向在追问的核心问题¶

如何同时优化多个、且可能相互冲突的临床目标？ 现有方法大多需要预先指定一个权重来组合多个目标，但这个权重往往难以确定，且可能掩盖目标间的真实权衡。
如何生成一组“可行”的决策规则，而不是一个“最优”的？ 在临床实践中，可能存在多个决策规则都能达到“足够好”的效果。如何定义和估计这个“足够好”的集合（即“容忍集”），是一个开放问题。
如何保持决策规则的可解释性？ 复杂的黑箱模型（如深度强化学习）虽然可能性能更好，但临床医生难以理解和信任。基于树的模型提供了天然的可解释性，但如何在多目标、多阶段设定下高效地构建决策树，是一个挑战。

⚠️ 作者的 framing¶

作者将缺口 frame 为：“现有 DTR 方法要么是单目标的，要么需要预先指定目标权重，无法处理多目标权衡下的‘可行解集’问题”。因此，本文提出的“容忍机制”和“多目标树强化学习”被包装成“显然的下一步”。

被淡化或回避的竞争路线：作者没有深入讨论基于帕累托前沿的 DTR 方法（如 Laber et al., 2014）。这些方法虽然也处理多目标，但输出的是整个帕累托前沿，而不是一个基于容忍率的可行集。作者可能认为帕累托前沿在决策阶段过多时难以计算和解释，而容忍集更实用。这一点值得研究者去查：帕累托 DTR 方法在计算上是否真的不可行？其与 tDTR 的优劣对比如何？
什么明显该被引 / 该存在、却没出现在 intro 里？ 引言中没有引用任何关于多目标优化中的“标量化”方法（scalarization methods）的经典文献（如 Miettinen, 1999）。作者在方法中使用了“标量化增广逆概率加权估计量”（SAIPWE），但未将其与更广泛的标量化理论（如加权和法、ε-约束法、切比雪夫法）联系起来。这可能是作者有意简化，但也可能是一个被忽略的、可以深化理论基础的连接点。

张力¶

未见明显对立引用。所有被引工作都沿着“从单目标到多目标”、“从单一最优解到可行解集”的渐进式发展脉络，没有根本性的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( K \)：决策阶段总数（如 \( K=2 \) 表示两阶段治疗）。
- \( t = 1, \dots, K \)：决策阶段索引。
- \( \mathbf{H}_t \)：在阶段 \( t \) 开始前观测到的历史协变量（包括基线变量和之前阶段的治疗与结果）。这是一个随机向量。
- \( A_t \in \{0, 1, \dots, J_t\} \)：在阶段 \( t \) 采取的治疗动作。本文考虑多值治疗（\( J_t \ge 1 \)）。
- \( Y_t \)：在阶段 \( t \) 之后观测到的结果变量（如疾病负担、生存期）。本文有多个目标，记第 \( j \) 个目标在阶段 \( t \) 的结果为 \( Y_{t,j} \)。
- \( \mathbf{Y} = (Y_{1,1}, \dots, Y_{K,J}) \)：所有阶段所有目标的最终结果向量。
- \( d_t: \mathbf{H}_t \to \mathcal{A}_t \)：一个决策规则，将历史协变量映射到治疗动作。
- \( \mathcal{D} = (d_1, \dots, d_K) \)：一个动态治疗方案（DTR），即一系列决策规则的序列。
- \( V_j(\mathcal{D}) = \mathbb{E}^{\mathcal{D}}[ \sum_{t=1}^K Y_{t,j} ] \)：在 DTR \( \mathcal{D} \) 下，第 \( j \) 个目标的期望累积结果。这是我们要估计的“价值函数”。
- \( \tau \)：预设的容忍率（tolerance rate），例如 \( \tau = 0.1 \) 表示我们允许目标值相对于最优值有 10% 的损失。
- \( \mathcal{D}^* \)：最优 DTR，即最大化某个单一目标（或加权组合）的 DTR。
- \( \mathcal{D}_\tau \)：容忍 DTR（tDTR），即在容忍率 \( \tau \) 下，所有“足够好”的 DTR 的集合。
模型：
- 这是一个多阶段、多治疗、多目标的决策问题。数据生成机制遵循一个马尔可夫决策过程（MDP） 的变体：在阶段 \( t \)，给定历史 \( \mathbf{H}_t \) 和动作 \( A_t \)，结果 \( Y_t \) 和下一阶段的历史 \( \mathbf{H}_{t+1} \) 以某种未知的联合分布生成。
- 关键假设是无未观测混杂（Sequential Ignorability）：\( A_t \perp \!\!\! \perp \mathbf{Y} \mid \mathbf{H}_t \)，即给定历史，治疗分配与潜在结果是独立的。这是因果推断的标准假设。
- 另一个关键假设是积极性（Positivity）：\( P(A_t = a \mid \mathbf{H}_t = h) > 0 \) 对所有可能的 \( a \) 和 \( h \) 成立。
可观测数据：
- 研究者观测到 \( n \) 个独立同分布的样本。对于每个样本 \( i \)，观测到：
  - 基线协变量 \( \mathbf{H}_{1,i} \)。
  - 对于每个阶段 \( t = 1, \dots, K \)：
    - 治疗动作 \( A_{t,i} \)（由医生根据临床实践决定，不是随机分配的）。
    - 结果 \( Y_{t,i} \)（一个向量，包含多个目标）。
    - 下一阶段的历史 \( \mathbf{H}_{t+1,i} \)（如果 \( t < K \)）。
- 想要但观测不到的量：对于每个样本，我们只能观测到它实际接受的治疗序列下的结果。我们观测不到如果它接受了其他治疗序列会得到的结果（即反事实结果）。因此，价值函数 \( V_j(\mathcal{D}) \) 是一个反事实量，需要通过假设（如无未观测混杂）来识别。

第二步：讲最小内核¶

为了理解本文的核心思路，我们考虑一个最简特例：单阶段（\( K=1 \)）、二值治疗（\( A \in \{0, 1\} \)）、两个目标（\( Y_1, Y_2 \)）。

问题：我们想找到一个决策规则 \( d(\mathbf{H}) \)，使得两个目标 \( \mathbb{E}[Y_1 \mid d] \) 和 \( \mathbb{E}[Y_2 \mid d] \) 都“足够大”。但这两个目标可能冲突（例如，提高生存期可能增加疾病负担）。
核心思路：
1. 定义“最优”：首先，我们定义一个“基准”最优 DTR。例如，我们可以选择最大化目标 1 的 DTR，记为 \( d^*_1 \)，其价值为 \( V_1^* = \max_d \mathbb{E}[Y_1 \mid d] \)。同样，我们有 \( d^*_2 \) 和 \( V_2^* \)。
2. 定义“容忍”：给定容忍率 \( \tau \)（例如 0.1），我们说一个 DTR \( d \) 是“可容忍的”，如果它在每个目标上的表现都不低于最优值的 \( (1-\tau) \) 倍。即：
  \[\mathbb{E}[Y_1 \mid d] \ge (1-\tau) V_1^* \quad \text{且} \quad \mathbb{E}[Y_2 \mid d] \ge (1-\tau) V_2^*.\]
  所有满足这个条件的 DTR 的集合就是 \( \mathcal{D}_\tau \)。
3. 如何估计 \( \mathcal{D}_\tau \)：我们无法直接计算 \( \mathbb{E}[Y_j \mid d] \)，因为它是反事实的。但我们可以用增广逆概率加权估计量（AIPW） 来估计它。对于给定的决策规则 \( d \)，AIPW 估计量为：
  \[\hat{V}_j(d) = \frac{1}{n} \sum_{i=1}^n \left[ \frac{\mathbb{I}\{A_i = d(\mathbf{H}_i)\}}{\hat{\pi}(\mathbf{H}_i, A_i)} (Y_{j,i} - \hat{\mu}_j(\mathbf{H}_i, A_i)) + \hat{\mu}_j(\mathbf{H}_i, d(\mathbf{H}_i)) \right],\]
  其中 \( \hat{\pi}(\mathbf{H}, A) \) 是倾向性得分（治疗分配概率）的估计，\( \hat{\mu}_j(\mathbf{H}, A) \) 是条件均值函数 \( \mathbb{E}[Y_j \mid \mathbf{H}, A] \) 的估计。AIPW 估计量的优点是双稳健：只要倾向性得分模型或条件均值模型之一正确指定，估计就是一致的。
4. 构建决策树：本文的核心创新在于，它不直接搜索所有可能的 \( d \)，而是用决策树来近似 \( \mathcal{D}_\tau \)。决策树的每个叶子节点对应一个治疗决策。树的构建过程是无监督的：它不直接预测一个标签，而是通过最大化一个“纯度度量”来划分协变量空间。这个纯度度量就是基于 AIPW 估计量构造的。具体来说，在划分时，它寻找一个分裂点，使得分裂后两个子节点中，所有可能的治疗决策（在容忍集内）的 AIPW 估计值之间的差异最大化。这样，树的分裂就自然地识别出了那些对“哪个治疗是可容忍的”影响最大的协变量。
这个最小内核揭示了什么：
- 本文的核心数学困难在于同时估计多个反事实价值函数，并基于它们定义一个“可行集”。
- 本文的关键想法是用 AIPW 估计量来构造一个可计算的纯度度量，从而将多目标优化问题转化为一个树结构学习问题。
- 在单阶段特例下，整个问题退化为：用 AIPW 估计每个治疗动作的价值，然后找出所有价值都高于 \( (1-\tau) V_j^* \) 的治疗动作，最后用决策树来总结这些动作的适用条件。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文提出了“容忍动态治疗方案”（tDTR）的概念，旨在解决多阶段、多治疗、多目标 DTR 估计中，如何生成一组“足够好”的可行决策规则集合，而不是单一最优规则的问题。
核心工具 / 方法：开发了多目标树强化学习（MOT-RL） 方法。该方法在每个阶段，通过半参数回归（如广义可加模型）建模每个目标的反事实均值，并利用标量化增广逆概率加权估计量（SAIPWE） 构造纯度度量，来构建一个无监督决策树，从而直接估计 tDTR。
主要结论：MOT-RL 方法能够鲁棒、高效地估计出 tDTR，生成的决策树规则易于解释，且对不同的容忍率和决策者偏好具有灵活性。通过模拟研究和 MD Anderson 癌症中心的前列腺癌数据应用，展示了该方法相对于传统单目标 DTR 方法的优势。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

多阶段、多治疗、多目标：设定与最小内核一致，但扩展到 \( K \ge 2 \) 个阶段，每个阶段有 \( J_t \ge 2 \) 个治疗选项，以及 \( M \ge 2 \) 个目标。
无未观测混杂（Sequential Ignorability）：\( A_t \perp \!\!\! \perp \mathbf{Y} \mid \mathbf{H}_t \)。这是因果识别的基础。
积极性（Positivity）：\( P(A_t = a \mid \mathbf{H}_t = h) > 0 \)。
半参数回归模型：对于每个目标 \( j \) 和阶段 \( t \)，作者假设条件均值函数 \( \mu_{t,j}(\mathbf{H}_t, A_t) = \mathbb{E}[Y_{t,j} \mid \mathbf{H}_t, A_t] \) 可以用一个半参数模型（如部分线性模型或广义可加模型）来近似。这比完全参数模型更灵活，但比完全非参数模型更易处理。
容忍率的定义：容忍率 \( \tau \) 是预先指定的，用于定义“可容忍”的阈值。作者讨论了如何通过交叉验证或专家知识来选择 \( \tau \)。
与已有文献的对比：相比 Q-learning（需要完全参数模型），MOT-RL 的半参数回归假设更弱；相比 T-RL（单目标），MOT-RL 处理了多目标；相比帕累托 DTR 方法，MOT-RL 提供了更直接的、基于容忍率的可行集。

主要结果¶

本文是方法型论文，主要结果通过模拟研究和真实数据应用来展示。

模拟研究：
- 设定：模拟了多种场景，包括两阶段、二值治疗、两个目标。数据生成机制包含线性、非线性和交互效应。比较了 MOT-RL 与单目标 T-RL、Q-learning 以及一个“oracle”方法（知道真实数据生成机制）。
- 核心量化结论：
  - tDTR 的覆盖率和精确度：MOT-RL 估计的 tDTR 集合能够以高概率（如 > 90%）覆盖真实的“可容忍”决策规则，同时保持合理的集合大小（即不会包含太多不可行的规则）。
  - 与单目标方法的对比：当两个目标存在冲突时，单目标 T-RL 或 Q-learning 只能优化其中一个目标，而 MOT-RL 能找到同时满足两个目标容忍阈值的规则。例如，在某个场景下，单目标方法找到的规则在目标 1 上表现很好（达到最优值的 95%），但在目标 2 上表现很差（只有最优值的 60%），而 MOT-RL 找到的规则在两个目标上都达到了 85% 以上。
  - 鲁棒性：MOT-RL 对倾向性得分模型和条件均值模型的误设具有一定的鲁棒性，这得益于 AIPW 估计量的双稳健性。
- 与 baseline 对比：与单目标 T-RL 相比，MOT-RL 在“多目标权衡”场景下显著更优。与 Q-learning 相比，MOT-RL 生成的规则更可解释。
真实例子：
- 数据：MD Anderson 癌症中心的前列腺癌患者数据。这是一个两阶段化疗方案评估问题。
- 目标：同时优化两个目标：① 降低疾病负担（用 PSA 水平衡量）；② 延长生存期。
- 方法应用：MOT-RL 被应用于该数据，估计出在不同容忍率下的 tDTR 集合。例如，当容忍率为 10% 时，MOT-RL 发现，对于基线 PSA 水平较高且 Gleason 评分较高的患者，第一阶段使用化疗方案 A，第二阶段根据 PSA 反应再决定是否切换方案，是一个可容忍的决策。而对于基线风险较低的患者，则存在多个可容忍的决策路径。
- 结果：MOT-RL 生成的决策树规则直观易懂，为临床医生提供了多个可行的治疗路径，而不是一个单一的“最优”方案。这允许医生根据患者的个体偏好（例如，更看重生活质量还是生存期）进行选择。
- 这个例子想说明什么：验证了 MOT-RL 在真实临床数据上的实用性，展示了其生成可解释、可操作的 tDTR 的能力，并突出了其在处理多目标权衡方面的优势。

证明路线与技术技巧¶

本文是方法型论文，没有严格的渐近理论证明。其“证明”主要体现在算法设计和模拟验证上。

整体路线（算法设计）：
1. 向后归纳（Backward Induction）：从最后一个阶段 \( K \) 开始，向前递推。在阶段 \( t \)，我们假设已经知道了未来阶段的最优价值函数。
2. 半参数回归：对于每个目标 \( j \)，使用半参数模型（如 GAM）拟合条件均值函数 \( \hat{\mu}_{t,j}(\mathbf{H}_t, A_t) \)。
3. 构建 SAIPWE：对于每个可能的治疗动作 \( a \)，计算其标量化增广逆概率加权估计量（SAIPWE）。标量化是指将多个目标的 AIPW 估计量通过一个权重向量 \( \mathbf{w} \) 组合成一个标量值：\( \text{SAIPWE}(a) = \sum_{j=1}^M w_j \hat{V}_{t,j}(a) \)。权重 \( \mathbf{w} \) 可以反映决策者的偏好。
4. 构建无监督决策树：使用 SAIPWE 作为“纯度度量”来递归划分协变量空间。在每个节点，算法寻找一个分裂点，使得分裂后两个子节点中，所有治疗动作的 SAIPWE 值的方差（或类似度量）最大化。这样，树的分裂就识别出了那些对“哪个治疗更优”影响最大的协变量。
5. 输出 tDTR：决策树的每个叶子节点对应一个治疗决策。通过改变标量化权重 \( \mathbf{w} \) 或容忍率 \( \tau \)，可以生成不同的决策树，从而得到 tDTR 集合。
关键跳跃点：
- 从单目标到多目标的跳跃：关键在于如何定义“纯度度量”。单目标 T-RL 直接使用价值函数的估计值作为纯度度量。MOT-RL 则使用 SAIPWE，将多目标问题转化为一个标量优化问题，从而可以沿用单目标树构建的框架。
- 从“最优”到“容忍”的跳跃：关键在于如何定义“可容忍”的决策。MOT-RL 通过改变标量化权重 \( \mathbf{w} \) 来探索不同的帕累托最优解，然后根据预设的容忍率 \( \tau \) 来筛选出那些在所有目标上都“足够好”的规则。这相当于在帕累托前沿上施加了一个“容忍带”。
技术技巧点名：
- 增广逆概率加权估计量（AIPW）：用于估计反事实价值函数，具有双稳健性。
- 半参数回归（GAM）：用于灵活地建模条件均值函数，避免参数模型误设。
- 标量化（Scalarization）：将多目标优化问题转化为单目标优化问题，是处理多目标问题的标准技巧。
- 无监督决策树：不直接预测标签，而是通过最大化一个基于估计量的纯度度量来划分空间，这是一种“间接”学习决策规则的方法。

🔎 结论是否比证明窄¶

本文为纯方法型论文，没有严格的渐近理论证明。其结论（MOT-RL 有效）主要基于模拟研究和真实数据应用。因此，结论的“宽度”取决于模拟设定的覆盖范围。作者在模拟中只考虑了有限几种场景（如线性、非线性、交互效应），其结论在更复杂、更高维、更多阶段设定下的泛化能力并未被严格证明。作者在文中也提到“理论性质（如一致性、收敛速度）是未来工作”，这明确承认了结论比证明窄。

四、开放问题¶

渐近理论：MOT-RL 的 SAIPWE 估计量的一致性、收敛速度以及决策树分裂的相合性（consistency）尚未被严格证明。这是扎根于本文“模拟研究”部分，且作者在结论中明确提及的“未来工作”。
容忍率 \( \tau \) 的选择：本文通过交叉验证或专家知识来选择 \( \tau \)，但缺乏一个数据驱动的、有理论依据的选择准则。如何基于统计推断（如假设检验）来选择一个合适的 \( \tau \)，是一个开放问题。这扎根于本文对 \( \tau \) 的讨论部分。
高维协变量：本文的模拟和真实数据中协变量维度较低。当协变量维度很高时，半参数回归和决策树构建都可能面临“维数灾难”。如何将 MOT-RL 扩展到高维设定（例如，结合变量选择或正则化技术），是一个值得探索的方向。这扎根于本文对“灵活性”的声称，但未在高维下验证。
与帕累托 DTR 方法的理论联系：本文的 tDTR 与帕累托最优 DTR 集合之间是否存在精确的数学关系？例如，tDTR 是否可以被视为帕累托前沿的一个“\( \tau \)-近似”？这种联系可能为 tDTR 提供更坚实的理论基础。这扎根于引言中作者对帕累托 DTR 方法的淡化处理，是一个值得研究者去查的张力点。

Maintained by 陈星宇 · Homepage · Source on GitHub