跳转至

Multiobjective tree-based reinforcement learning for estimating tolerant dynamic treatment regimes

作者: Yao Song, Lu Wang
来源: Biometrics
主题: 因果推断
相关性: 5/10
机构绿灯: University of Michigan(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujad017


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是动态治疗方案(Dynamic Treatment Regime, DTR)的估计。DTR 是一系列个体化的治疗决策规则,根据患者随时间演变的协变量和治疗历史,在每个决策阶段给出最优的治疗方案。其根本的统计问题是:在存在多个、且可能相互冲突的临床目标(如同时最小化疾病负担和最大化生存期)时,如何估计出一组“可容忍”的决策规则集合,而不是单一的最优规则。当前该子方向的主流方法(如 Q-learning、A-learning、树强化学习)大多聚焦于单一目标优化,对多目标权衡的处理尚不成熟。

发展脉络(history)

作者在引言中梳理了 DTR 估计的发展脉络,主要分为以下阶段:

  1. 奠基工作:基于回归的 DTR 估计

    • Q-learning (Watkins & Dayan, 1992; Murphy, 2005):通过拟合“Q-函数”(即给定状态和动作后的期望累积回报)来递归地确定最优决策。这是 DTR 领域最经典的方法之一,但通常假设一个单一的目标函数。
    • A-learning (Murphy, 2003; Robins, 2004):通过建模“优势函数”(即不同治疗方案的对比效果)来直接估计最优决策规则,对模型误设的鲁棒性优于 Q-learning。同样,主要处理单一目标。
  2. 主要进展:基于树的 DTR 估计

    • Tree-based reinforcement learning (T-RL) (Laber & Zhao, 2015; Zhang et al., 2018):将决策树引入 DTR 估计,通过递归划分协变量空间来生成可解释的决策规则。作者指出,T-RL 方法“在可解释性和灵活性之间取得了良好的平衡”,但“主要针对单一结果变量设计”。
  3. 当前 frontier:多目标 DTR 与容忍机制

    • Multiobjective DTR (Lizotte et al., 2012; Laber et al., 2014):这些工作开始处理多目标优化,但作者认为它们“要么将多个目标线性组合成一个单一标量目标(这需要预先指定权重,且可能丢失帕累托前沿的复杂结构),要么只关注帕累托最优解集,而没有提供决策者一个可操作的、基于容忍度的选择机制”。
    • Tolerant DTR (本文):作者提出的“容忍动态治疗方案”(tDTR)概念,旨在填补上述空白。它不追求单一最优解,而是在预设的“容忍率”下,输出一组“足够好”的决策规则集合,让决策者根据偏好从中选择。

子线索聚类

这些被引文献大致落在 2 条子线索上:

  • 线索一:基于回归的 DTR 估计(Q-learning, A-learning)。这一簇的核心是使用参数或半参数模型(如线性模型、广义线性模型)来拟合价值函数或优势函数,然后通过最大化(或最小化)该函数来得到最优决策。优点是统计效率高,缺点是模型假设强,且生成的规则通常不直观(如线性决策边界)。
  • 线索二:基于树的 DTR 估计(T-RL)。这一簇的核心是使用决策树来直接划分协变量空间,每个叶子节点对应一个治疗决策。优点是生成的规则可解释(如“如果年龄>50且PSA>10,则使用化疗A”),且对模型假设要求较低。缺点是可能不稳定(对数据扰动敏感),且处理多目标时通常需要先降维。

这个方向在追问的核心问题

  1. 如何同时优化多个、且可能相互冲突的临床目标? 现有方法大多需要预先指定一个权重来组合多个目标,但这个权重往往难以确定,且可能掩盖目标间的真实权衡。
  2. 如何生成一组“可行”的决策规则,而不是一个“最优”的? 在临床实践中,可能存在多个决策规则都能达到“足够好”的效果。如何定义和估计这个“足够好”的集合(即“容忍集”),是一个开放问题。
  3. 如何保持决策规则的可解释性? 复杂的黑箱模型(如深度强化学习)虽然可能性能更好,但临床医生难以理解和信任。基于树的模型提供了天然的可解释性,但如何在多目标、多阶段设定下高效地构建决策树,是一个挑战。

⚠️ 作者的 framing

作者将缺口 frame 为:“现有 DTR 方法要么是单目标的,要么需要预先指定目标权重,无法处理多目标权衡下的‘可行解集’问题”。因此,本文提出的“容忍机制”和“多目标树强化学习”被包装成“显然的下一步”。

  • 被淡化或回避的竞争路线:作者没有深入讨论基于帕累托前沿的 DTR 方法(如 Laber et al., 2014)。这些方法虽然也处理多目标,但输出的是整个帕累托前沿,而不是一个基于容忍率的可行集。作者可能认为帕累托前沿在决策阶段过多时难以计算和解释,而容忍集更实用。这一点值得研究者去查:帕累托 DTR 方法在计算上是否真的不可行?其与 tDTR 的优劣对比如何?
  • 什么明显该被引 / 该存在、却没出现在 intro 里? 引言中没有引用任何关于多目标优化中的“标量化”方法(scalarization methods)的经典文献(如 Miettinen, 1999)。作者在方法中使用了“标量化增广逆概率加权估计量”(SAIPWE),但未将其与更广泛的标量化理论(如加权和法、ε-约束法、切比雪夫法)联系起来。这可能是作者有意简化,但也可能是一个被忽略的、可以深化理论基础的连接点。

张力

未见明显对立引用。所有被引工作都沿着“从单目标到多目标”、“从单一最优解到可行解集”的渐进式发展脉络,没有根本性的矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \( K \):决策阶段总数(如 \( K=2 \) 表示两阶段治疗)。
    • \( t = 1, \dots, K \):决策阶段索引。
    • \( \mathbf{H}_t \):在阶段 \( t \) 开始前观测到的历史协变量(包括基线变量和之前阶段的治疗与结果)。这是一个随机向量。
    • \( A_t \in \{0, 1, \dots, J_t\} \):在阶段 \( t \) 采取的治疗动作。本文考虑多值治疗(\( J_t \ge 1 \))。
    • \( Y_t \):在阶段 \( t \) 之后观测到的结果变量(如疾病负担、生存期)。本文有多个目标,记第 \( j \) 个目标在阶段 \( t \) 的结果为 \( Y_{t,j} \)
    • \( \mathbf{Y} = (Y_{1,1}, \dots, Y_{K,J}) \):所有阶段所有目标的最终结果向量。
    • \( d_t: \mathbf{H}_t \to \mathcal{A}_t \):一个决策规则,将历史协变量映射到治疗动作。
    • \( \mathcal{D} = (d_1, \dots, d_K) \):一个动态治疗方案(DTR),即一系列决策规则的序列。
    • \( V_j(\mathcal{D}) = \mathbb{E}^{\mathcal{D}}[ \sum_{t=1}^K Y_{t,j} ] \):在 DTR \( \mathcal{D} \) 下,第 \( j \) 个目标的期望累积结果。这是我们要估计的“价值函数”。
    • \( \tau \):预设的容忍率(tolerance rate),例如 \( \tau = 0.1 \) 表示我们允许目标值相对于最优值有 10% 的损失。
    • \( \mathcal{D}^* \):最优 DTR,即最大化某个单一目标(或加权组合)的 DTR。
    • \( \mathcal{D}_\tau \):容忍 DTR(tDTR),即在容忍率 \( \tau \) 下,所有“足够好”的 DTR 的集合。
  • 模型

    • 这是一个多阶段、多治疗、多目标的决策问题。数据生成机制遵循一个马尔可夫决策过程(MDP) 的变体:在阶段 \( t \),给定历史 \( \mathbf{H}_t \) 和动作 \( A_t \),结果 \( Y_t \) 和下一阶段的历史 \( \mathbf{H}_{t+1} \) 以某种未知的联合分布生成。
    • 关键假设是无未观测混杂(Sequential Ignorability)\( A_t \perp \!\!\! \perp \mathbf{Y} \mid \mathbf{H}_t \),即给定历史,治疗分配与潜在结果是独立的。这是因果推断的标准假设。
    • 另一个关键假设是积极性(Positivity)\( P(A_t = a \mid \mathbf{H}_t = h) > 0 \) 对所有可能的 \( a \)\( h \) 成立。
  • 可观测数据

    • 研究者观测到 \( n \) 个独立同分布的样本。对于每个样本 \( i \),观测到:
      • 基线协变量 \( \mathbf{H}_{1,i} \)
      • 对于每个阶段 \( t = 1, \dots, K \)
        • 治疗动作 \( A_{t,i} \)(由医生根据临床实践决定,不是随机分配的)。
        • 结果 \( Y_{t,i} \)(一个向量,包含多个目标)。
        • 下一阶段的历史 \( \mathbf{H}_{t+1,i} \)(如果 \( t < K \))。
    • 想要但观测不到的量:对于每个样本,我们只能观测到它实际接受的治疗序列下的结果。我们观测不到如果它接受了其他治疗序列会得到的结果(即反事实结果)。因此,价值函数 \( V_j(\mathcal{D}) \) 是一个反事实量,需要通过假设(如无未观测混杂)来识别。

第二步:讲最小内核

为了理解本文的核心思路,我们考虑一个最简特例单阶段(\( K=1 \))、二值治疗(\( A \in \{0, 1\} \))、两个目标(\( Y_1, Y_2 \)

  • 问题:我们想找到一个决策规则 \( d(\mathbf{H}) \),使得两个目标 \( \mathbb{E}[Y_1 \mid d] \)\( \mathbb{E}[Y_2 \mid d] \) 都“足够大”。但这两个目标可能冲突(例如,提高生存期可能增加疾病负担)。

  • 核心思路

    1. 定义“最优”:首先,我们定义一个“基准”最优 DTR。例如,我们可以选择最大化目标 1 的 DTR,记为 \( d^*_1 \),其价值为 \( V_1^* = \max_d \mathbb{E}[Y_1 \mid d] \)。同样,我们有 \( d^*_2 \)\( V_2^* \)
    2. 定义“容忍”:给定容忍率 \( \tau \)(例如 0.1),我们说一个 DTR \( d \) 是“可容忍的”,如果它在每个目标上的表现都不低于最优值的 \( (1-\tau) \) 倍。即:
      \[\mathbb{E}[Y_1 \mid d] \ge (1-\tau) V_1^* \quad \text{且} \quad \mathbb{E}[Y_2 \mid d] \ge (1-\tau) V_2^*.\]
      所有满足这个条件的 DTR 的集合就是 \( \mathcal{D}_\tau \)
    3. 如何估计 \( \mathcal{D}_\tau \):我们无法直接计算 \( \mathbb{E}[Y_j \mid d] \),因为它是反事实的。但我们可以用增广逆概率加权估计量(AIPW) 来估计它。对于给定的决策规则 \( d \),AIPW 估计量为:

      \[\hat{V}_j(d) = \frac{1}{n} \sum_{i=1}^n \left[ \frac{\mathbb{I}\{A_i = d(\mathbf{H}_i)\}}{\hat{\pi}(\mathbf{H}_i, A_i)} (Y_{j,i} - \hat{\mu}_j(\mathbf{H}_i, A_i)) + \hat{\mu}_j(\mathbf{H}_i, d(\mathbf{H}_i)) \right],\]
      其中 \( \hat{\pi}(\mathbf{H}, A) \) 是倾向性得分(治疗分配概率)的估计,\( \hat{\mu}_j(\mathbf{H}, A) \) 是条件均值函数 \( \mathbb{E}[Y_j \mid \mathbf{H}, A] \) 的估计。AIPW 估计量的优点是双稳健:只要倾向性得分模型或条件均值模型之一正确指定,估计就是一致的。

    4. 构建决策树:本文的核心创新在于,它不直接搜索所有可能的 \( d \),而是用决策树来近似 \( \mathcal{D}_\tau \)。决策树的每个叶子节点对应一个治疗决策。树的构建过程是无监督的:它不直接预测一个标签,而是通过最大化一个“纯度度量”来划分协变量空间。这个纯度度量就是基于 AIPW 估计量构造的。具体来说,在划分时,它寻找一个分裂点,使得分裂后两个子节点中,所有可能的治疗决策(在容忍集内)的 AIPW 估计值之间的差异最大化。这样,树的分裂就自然地识别出了那些对“哪个治疗是可容忍的”影响最大的协变量。

  • 这个最小内核揭示了什么

    • 本文的核心数学困难在于同时估计多个反事实价值函数,并基于它们定义一个“可行集”。
    • 本文的关键想法是用 AIPW 估计量来构造一个可计算的纯度度量,从而将多目标优化问题转化为一个树结构学习问题。
    • 在单阶段特例下,整个问题退化为:用 AIPW 估计每个治疗动作的价值,然后找出所有价值都高于 \( (1-\tau) V_j^* \) 的治疗动作,最后用决策树来总结这些动作的适用条件。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:本文提出了“容忍动态治疗方案”(tDTR)的概念,旨在解决多阶段、多治疗、多目标 DTR 估计中,如何生成一组“足够好”的可行决策规则集合,而不是单一最优规则的问题。
  2. 核心工具 / 方法:开发了多目标树强化学习(MOT-RL) 方法。该方法在每个阶段,通过半参数回归(如广义可加模型)建模每个目标的反事实均值,并利用标量化增广逆概率加权估计量(SAIPWE) 构造纯度度量,来构建一个无监督决策树,从而直接估计 tDTR。
  3. 主要结论:MOT-RL 方法能够鲁棒、高效地估计出 tDTR,生成的决策树规则易于解释,且对不同的容忍率和决策者偏好具有灵活性。通过模拟研究和 MD Anderson 癌症中心的前列腺癌数据应用,展示了该方法相对于传统单目标 DTR 方法的优势。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • 多阶段、多治疗、多目标:设定与最小内核一致,但扩展到 \( K \ge 2 \) 个阶段,每个阶段有 \( J_t \ge 2 \) 个治疗选项,以及 \( M \ge 2 \) 个目标。
  • 无未观测混杂(Sequential Ignorability)\( A_t \perp \!\!\! \perp \mathbf{Y} \mid \mathbf{H}_t \)。这是因果识别的基础。
  • 积极性(Positivity)\( P(A_t = a \mid \mathbf{H}_t = h) > 0 \)
  • 半参数回归模型:对于每个目标 \( j \) 和阶段 \( t \),作者假设条件均值函数 \( \mu_{t,j}(\mathbf{H}_t, A_t) = \mathbb{E}[Y_{t,j} \mid \mathbf{H}_t, A_t] \) 可以用一个半参数模型(如部分线性模型或广义可加模型)来近似。这比完全参数模型更灵活,但比完全非参数模型更易处理。
  • 容忍率的定义:容忍率 \( \tau \) 是预先指定的,用于定义“可容忍”的阈值。作者讨论了如何通过交叉验证或专家知识来选择 \( \tau \)
  • 与已有文献的对比:相比 Q-learning(需要完全参数模型),MOT-RL 的半参数回归假设更弱;相比 T-RL(单目标),MOT-RL 处理了多目标;相比帕累托 DTR 方法,MOT-RL 提供了更直接的、基于容忍率的可行集。

主要结果

本文是方法型论文,主要结果通过模拟研究和真实数据应用来展示。

  • 模拟研究

    • 设定:模拟了多种场景,包括两阶段、二值治疗、两个目标。数据生成机制包含线性、非线性和交互效应。比较了 MOT-RL 与单目标 T-RL、Q-learning 以及一个“oracle”方法(知道真实数据生成机制)。
    • 核心量化结论
      • tDTR 的覆盖率和精确度:MOT-RL 估计的 tDTR 集合能够以高概率(如 > 90%)覆盖真实的“可容忍”决策规则,同时保持合理的集合大小(即不会包含太多不可行的规则)。
      • 与单目标方法的对比:当两个目标存在冲突时,单目标 T-RL 或 Q-learning 只能优化其中一个目标,而 MOT-RL 能找到同时满足两个目标容忍阈值的规则。例如,在某个场景下,单目标方法找到的规则在目标 1 上表现很好(达到最优值的 95%),但在目标 2 上表现很差(只有最优值的 60%),而 MOT-RL 找到的规则在两个目标上都达到了 85% 以上。
      • 鲁棒性:MOT-RL 对倾向性得分模型和条件均值模型的误设具有一定的鲁棒性,这得益于 AIPW 估计量的双稳健性。
    • 与 baseline 对比:与单目标 T-RL 相比,MOT-RL 在“多目标权衡”场景下显著更优。与 Q-learning 相比,MOT-RL 生成的规则更可解释。
  • 真实例子

    • 数据:MD Anderson 癌症中心的前列腺癌患者数据。这是一个两阶段化疗方案评估问题。
    • 目标:同时优化两个目标:① 降低疾病负担(用 PSA 水平衡量);② 延长生存期。
    • 方法应用:MOT-RL 被应用于该数据,估计出在不同容忍率下的 tDTR 集合。例如,当容忍率为 10% 时,MOT-RL 发现,对于基线 PSA 水平较高且 Gleason 评分较高的患者,第一阶段使用化疗方案 A,第二阶段根据 PSA 反应再决定是否切换方案,是一个可容忍的决策。而对于基线风险较低的患者,则存在多个可容忍的决策路径。
    • 结果:MOT-RL 生成的决策树规则直观易懂,为临床医生提供了多个可行的治疗路径,而不是一个单一的“最优”方案。这允许医生根据患者的个体偏好(例如,更看重生活质量还是生存期)进行选择。
    • 这个例子想说明什么:验证了 MOT-RL 在真实临床数据上的实用性,展示了其生成可解释、可操作的 tDTR 的能力,并突出了其在处理多目标权衡方面的优势。

证明路线与技术技巧

本文是方法型论文,没有严格的渐近理论证明。其“证明”主要体现在算法设计和模拟验证上。

  • 整体路线(算法设计)

    1. 向后归纳(Backward Induction):从最后一个阶段 \( K \) 开始,向前递推。在阶段 \( t \),我们假设已经知道了未来阶段的最优价值函数。
    2. 半参数回归:对于每个目标 \( j \),使用半参数模型(如 GAM)拟合条件均值函数 \( \hat{\mu}_{t,j}(\mathbf{H}_t, A_t) \)
    3. 构建 SAIPWE:对于每个可能的治疗动作 \( a \),计算其标量化增广逆概率加权估计量(SAIPWE)。标量化是指将多个目标的 AIPW 估计量通过一个权重向量 \( \mathbf{w} \) 组合成一个标量值:\( \text{SAIPWE}(a) = \sum_{j=1}^M w_j \hat{V}_{t,j}(a) \)。权重 \( \mathbf{w} \) 可以反映决策者的偏好。
    4. 构建无监督决策树:使用 SAIPWE 作为“纯度度量”来递归划分协变量空间。在每个节点,算法寻找一个分裂点,使得分裂后两个子节点中,所有治疗动作的 SAIPWE 值的方差(或类似度量)最大化。这样,树的分裂就识别出了那些对“哪个治疗更优”影响最大的协变量。
    5. 输出 tDTR:决策树的每个叶子节点对应一个治疗决策。通过改变标量化权重 \( \mathbf{w} \) 或容忍率 \( \tau \),可以生成不同的决策树,从而得到 tDTR 集合。
  • 关键跳跃点

    • 从单目标到多目标的跳跃:关键在于如何定义“纯度度量”。单目标 T-RL 直接使用价值函数的估计值作为纯度度量。MOT-RL 则使用 SAIPWE,将多目标问题转化为一个标量优化问题,从而可以沿用单目标树构建的框架。
    • 从“最优”到“容忍”的跳跃:关键在于如何定义“可容忍”的决策。MOT-RL 通过改变标量化权重 \( \mathbf{w} \) 来探索不同的帕累托最优解,然后根据预设的容忍率 \( \tau \) 来筛选出那些在所有目标上都“足够好”的规则。这相当于在帕累托前沿上施加了一个“容忍带”。
  • 技术技巧点名

    • 增广逆概率加权估计量(AIPW):用于估计反事实价值函数,具有双稳健性。
    • 半参数回归(GAM):用于灵活地建模条件均值函数,避免参数模型误设。
    • 标量化(Scalarization):将多目标优化问题转化为单目标优化问题,是处理多目标问题的标准技巧。
    • 无监督决策树:不直接预测标签,而是通过最大化一个基于估计量的纯度度量来划分空间,这是一种“间接”学习决策规则的方法。

🔎 结论是否比证明窄

本文为纯方法型论文,没有严格的渐近理论证明。其结论(MOT-RL 有效)主要基于模拟研究和真实数据应用。因此,结论的“宽度”取决于模拟设定的覆盖范围。作者在模拟中只考虑了有限几种场景(如线性、非线性、交互效应),其结论在更复杂、更高维、更多阶段设定下的泛化能力并未被严格证明。作者在文中也提到“理论性质(如一致性、收敛速度)是未来工作”,这明确承认了结论比证明窄。

四、开放问题

  1. 渐近理论:MOT-RL 的 SAIPWE 估计量的一致性、收敛速度以及决策树分裂的相合性(consistency)尚未被严格证明。这是扎根于本文“模拟研究”部分,且作者在结论中明确提及的“未来工作”。
  2. 容忍率 \( \tau \) 的选择:本文通过交叉验证或专家知识来选择 \( \tau \),但缺乏一个数据驱动的、有理论依据的选择准则。如何基于统计推断(如假设检验)来选择一个合适的 \( \tau \),是一个开放问题。这扎根于本文对 \( \tau \) 的讨论部分。
  3. 高维协变量:本文的模拟和真实数据中协变量维度较低。当协变量维度很高时,半参数回归和决策树构建都可能面临“维数灾难”。如何将 MOT-RL 扩展到高维设定(例如,结合变量选择或正则化技术),是一个值得探索的方向。这扎根于本文对“灵活性”的声称,但未在高维下验证。
  4. 与帕累托 DTR 方法的理论联系:本文的 tDTR 与帕累托最优 DTR 集合之间是否存在精确的数学关系?例如,tDTR 是否可以被视为帕累托前沿的一个“\( \tau \)-近似”?这种联系可能为 tDTR 提供更坚实的理论基础。这扎根于引言中作者对帕累托 DTR 方法的淡化处理,是一个值得研究者去查的张力点。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论