跳转至

Flexible modeling of adaptive treatment strategies for censored outcomes

讲者: Erica Moodie
讨论人: Yu Cheng , Peter Thall
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-12-05
主题: 因果推断
视频: https://youtu.be/wgJZKwCtxHs · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告站在“自适应治疗策略(ATS)/动态治疗方案(DTR)的统计估计与推断”这个子方向中。

  • 方向追问什么:在(通常是观测性的)纵向数据中,如何根据患者随时间变化的特征(协变量),学习一个最优的序贯治疗决策规则,以最大化某一远期临床结局(如生存时间、无病生存期)。核心挑战是:① 存在时依性混杂(后续治疗受前期治疗和结局影响);② 模型错误指定的风险(高维或非线性的协变量-结局关系);③ 对删失结局(censored outcomes,如生存数据)的处理。
  • 奠基与主流路线:该方向最主流的方法是 Q-learning(Watkins & Dayan, 1992; Murphy, 2005; Robins, 2004 等),即通过向后递推的序列回归来估计最优策略。其变体包括 G-estimation、动态加权最小二乘(dWOLS,Wallace & Moodie,2015)、以及基于价值函数的加权分类器(如 OWL,Zhao et al., 2012;RWL,Zhou et al., 2017)。
  • 当前Frontier与这场报告的站位:一个长期存在的方法论 gap 是,传统的 Q-learning 依赖顺序回归模型的正确参数设定,一旦模型形式(如线性、比例风险)选错,最终的治疗规则会产生很大偏误。这场报告的核心贡献是:
    • 提出一个结合 贝叶斯非参数回归(Bayesian Additive Regression Trees, BART)Accelerated Failure Time (AFT) 模型的灵活 Q-learning 框架,来处理删失结局下的多阶段策略学习。
    • 动机:放松对模型形式(如线性、非线性、特定误差分布)的强假设,利用 BART 的灵活拟合能力自动捕捉复杂的协变量-结局关系,避免因模型错误指定导致的糟糕决策。
    • 定位:它将 Tom Murray (2018) 提出的面向连续无删失结局的“贝叶斯机器学习(BML)” Q-learning 框架,扩展到了删失生存数据场景。它不同于通常基于 Cox 模型或参数 Weibull 模型的 Q-learning,用非参数的树集成后验不确定性自然地传播。

关键参考文献(基于幻灯片和转写推断): * Murray, T. A., Thall, P. F., & Yuan, Y. (2018). “Bayesian machine learning for estimating dynamic treatment regimes.” (原文讲者提到)。这是该方法的基础框架,但在无删失结局下工作。 * Chipman, H. A., George, E. I., & McCulloch, R. E. (2010). “BART: Bayesian additive regression trees.” Annals of Applied Statistics. (BART模型的基础文献)。 * Bonato, V., et al. (2011). “Bayesian survival analysis using BART.” (AFT-BART的基本文献)。


二、最小内核 / 一个最简例子

假设的设定与符号

考虑一个单阶段、二值治疗、删失生存结局的最简单问题(这能抓住Q-learning的核心思想,并展示BART的动机)。

  • 可观测数据:对于个体 \(i\),我们观测到:

    • \(X_i\):基线协变量(例如一个连续变量:年龄或某种生物标志物)。
    • \(A_i \in \{0, 1\}\):接受的治疗。
    • \(T_i\):观测到的事件时间(例如死亡或疾病进展时间)。但如果个体在随访结束前没发生事件或失访,我们观测到的是删失时间 \(C_i\),实际上我们观测的是 \(Y_i = \min(T_i, C_i)\) 和一个删失指示变量 \(\Delta_i = I(T_i \le C_i)\)
    • 核心可观测数据是 \((X_i, A_i, Y_i, \Delta_i)\)
  • 不可观测的潜在量

    • \(T_i(1), T_i(0)\):个体在接受治疗 1 或治疗 0 下的潜在事件时间。最优策略的目标是选一个能最大化真实事件时间(或期望事件时间)的 \(a\)
  • Estimand(我们要找的)

    • 我们需要学习一个决策规则 \(d(X) : \mathcal{X} \to \{0, 1\}\),使得 \(E[T(d(X))]\) 最大。在删失和混杂存在下,我们需要因果假设来识别它。

最简模型的运作

Q-learning 的核心思想是拟合一个 Q 函数:\(Q(X, A) = E[T | X, A]\),即给定协变量和治疗的期望事件时间。最优决策是:

\[d^{opt}(x) = \arg\max_{a \in \{0, 1\}} Q(x, a)\]

1. 错误的线性模型(传统Q-learning): 假设我们拟合一个线性模型(在删失下用AFT模型),例如:

\[\log T = \beta_0 + \beta_1 X + \alpha A + \gamma X A + \epsilon, \quad \epsilon \sim N(0, \sigma^2)\]
然后通过最小二乘法或AFT模型(假设删失与事件时间独立)估计参数。最优规则是:
\[d^{opt}(x) = I(\alpha + \gamma x > 0)\]
这是简单的“基于阈值的线性规则”。但如果真实关系是 \(Q(x, a) = \beta_0 + \beta_1 x + \alpha a + \gamma x a + \delta x^2 a\)(有非线性),或者误差是非正态的,那么上述线性规则会严重偏离真实最优规则,导致选择错误的治疗。幻灯片中的 Scenarios 1 和 2 清晰地展示了这一点:在非线性场景下,线性 Q-learning 的 MSE 和推荐正确治疗的比例都远逊于 BART。

2. 灵活的AFT-BART模型(报告的方法): 报告用 BART 去拟合一个非参数回归模型:

\[\log T = \mu + f(X, A) + \epsilon, \quad \epsilon \sim N(0, \sigma^2)\]
其中 \(f(X, A)\) 是一棵或多棵树的和。BART 的美妙之处在于: * 它不需要指定是 \(\gamma X A\) 还是 \(\delta X^2 A\)——树会自动在数据中寻找这些分叉(例如,第一次分裂可能根据 \(X > c_1\) 进行,第二次分裂再根据 \(X > c_2\) 或者根据治疗水平进行区分),从而生成一个完全非线性的、非单调的 \(Q(x, a)\)。 * 对于删失数据,AFT-BART 在贝叶斯框架下假设删失是给定协变量条件独立的,通过一个带左删失的 log-normal 似然拟合。这样,虽然我们观测的不是完整事件时间,但模型能通过后验采样,自然地生成对完整事件时间的预测。

这个例子的“一看就懂”之处: 想象你想预测人的身高。如果你只用“性别”和“年龄”做线性回归,你可能忘了“人长大后会变矮”(非线性)。线性Q-learning就像这个线性回归。AFT-BART就像一种极其灵活的决策树森林,能自动在这些复杂曲线中切出分界点,找到交互作用(比如“对于年龄>60且锻炼的人,A药更好;对于年龄<40且不锻炼的人,B药更好”)。


三、报告主体:讲者讲了什么

[0:00-0:05] 引言与背景 * [0:05-0:13] 讲者埃里卡·穆迪(Erica Moodie)在麦吉尔大学。合作者是肖莉(Xiao Li)、布伦特·罗根(Brent Logan)和 F·我·侯赛因(S. M. Ferdous Hossain),是一个硕士研究生的扩展工作。 * [0:14-0:24] 她介绍了报告的路线图:精准医学、Q-learning、AFT-BART、GVHD案例研究(幻灯片 #1-2)。 * [0:25-0:46] 引用布拉德福·希尔(Bradford Hill)1962年的引文:“应该给所有患者固定的剂量,还是应该根据每个患者的需要而改变?”她指出这是“因果推断”和“个性化/精准医学”的一个古老但核心的问题,但在传统的因果推断工作中,我们倾向于关注平均处理效应,而不是异质性。

[0:46-1:06] 什么是个性化治疗(ATS) * [0:46-1:00] 精准医学的含义:不是针对单个基因,而是根据患者亚群的特征(如人口学、疾病状态)进行分层,给出“不太多、不太少”的黄金治疗。 * [1:00-1:12] 为什么需要适应性治疗:① 患者对治疗的反应存在异质性;② 反应随时间变化;③ 过去的治疗反应会影响未来决策。她提出:overtreating 导致副作用、治疗疲劳和高成本;undertreating 导致不良结局。 * [1:12-1:18] 用三个示意图解释定性交互作用:当不同治疗水平下结局-协变量回归线存在交叉(即治疗效果的方向依赖于协变量)时,才有定制治疗的必要。没有交叉时,一种治疗对所有患者都是最优的。这类交互作用的变量称为“prescriptive/tailoring variables”。 * [1:18-1:28] ATS的别名:dynamic treatment regimes, adaptive interventions, policies。

[1:28-1:50] Q-learning(单阶段和多阶段) * [1:28-1:40] 单阶段:用一个简单线性模型 \(E[Y|X, A] = \beta_0 + \beta_1 Sx + A(\psi_0 + \psi_1 Sx)\) 来解释。这里的“治疗自由部分”(\(\beta\))是干扰参数,而“对比函数”\(\gamma(x, a; \psi) = a(\psi_0 + \psi_1 x_1 + \psi_2 x_2)\) 定义了最优决策:\(a^{opt}(x) = I[\psi_0 + \psi_1 x_1 + \psi_2 x_2 > 0]\)。讲者强调:Q-learning 的核心是找出这个对比函数,它直接决定了治疗推荐。 * [1:40-1:50] 多阶段(向后递推): * 讲者用三阶段示意图(幻灯片 #13-15)解释核心思想:从最后一个阶段开始(看成单阶段问题),找到最优阶段3治疗 \(a^{opt}_3\);然后,你需要创造一个“伪结局”(\(\tilde{Y}_2\)),代表“如果所有人在阶段3都按最优策略治疗,他们在阶段2的最佳预期结局”。这个伪结局是 \(Y\)(观测结局)调整后,相当于在阶段3给每个人用了最优治疗。 * 她强调:这就是 Q-learning 的魔法——用回归来“反事实地”调整后续阶段的结局,使得向前看时,当前阶段的选择不受后续阶段次优决策的混淆。

[1:50-2:08] 删失结局下的Q-learning * [1:50-1:56] 引入新记号(如病人在阶段k的时间 \(t_k\)、删失指示符 \(\Delta\)、是否进入阶段2的指示 \(\eta_2\))。数据是 \((x_1, a_1, t_1, \eta_2, x_2, a_2, t_2, \Delta)\)。解释:如果病人在阶段1结束前就事件或删失,他们不会再进入阶段2(\(\eta_2=0\))。 * [1:56-2:00] Q-learning 用于删失数据是最流行的方法,因为它简单(任何模型如 Cox、Weibull、AFT 都可以用),但需要两个关键假设:① 删失和事件时间在给定协变量下独立;② 结局模型(Q-function)必须正确指定。 * [2:00-2:08] 她提出了两个额外的挑战:① Q-learning 通常建模均值,但生存数据常关注中位数;② 一个特殊的问题——在向后递推时,如果阶段2的模型参数化,阶段的伪结局可能不遵循任何已知的分布(例如,不能假设两个阶段都是帕累托分布,因为它们的和通常不是帕累托分布)。

[2:08-2:20] 贝叶斯机器学习(BML)与AFT-BART * [2:08-2:15] BML (Murray, 2018) 框架:一个贝叶斯版本的 Q-learning,核心是:① 从最后阶段的回归模型中抽取后验样本,并确定最优行动;② 对于未按最优行动处理的个体,从后验预测分布中抽取其结局;③ 将这些“后验预测的伪结局”用于前一个阶段的回归模型。关键优势:不确定性自动传播(不需要 like Bootstrap 或 Delta 方法)。 * [2:15-2:20] AFT-BART 模型(公式见幻灯片 #24):

\[\log t_i = \mu + f(x_i) + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2)\]
\(f(x_i)\) 是若干个回归树的和(\(\sum_{r=1}^R g_r(x_i)\))。BART用一个先验(每个小树只解释一小部分方差)来正则化,并通过贝叶斯加树进行拟合。AFT 扩展使得它能够处理右删失数据。

[2:20-2:38] 算法细节与仿真 * [2:20-2:26] 算法细节(幻灯片 #25-26): * Stage 2 AFT-BART 拟合后,得到后验样本 \(\{f_2^{*(m)}, \sigma_2^{*(m)}\}\),并据此计算最优行动 \(a_{i2}^{opt,*(m)}\)。 * 伪结局生成(Slide #25):这是最细致的部分。对于阶段2的结局: * 如果观察治疗 \(= a_{i2}^{opt,*(m)}\) 并且事件(\(\delta_{i2}=1\)):\(\log t_{i2}^{opt,*(m)} = \log t_{i2}\)(不动)。 * 如果观察治疗 \(= a_{i2}^{opt,*(m)}\) 但是删失(\(\delta_{i2}=0\)):从截断正态分布 TN(\(\mu_2 + \hat{f}^{*(m)}_2(a_{i2}^{opt,*(m)}), \sigma^{2,*(m)}\),下界为 \(\log t_{i2}\) ) 中抽取。 * 如果观察治疗 \(\neq a_{i2}^{opt,*(m)}\):直接从正态分布 \(N(\mu_2 + \hat{f}_2^{*}(m)(a_{i2}^{opt,*(m)}), \sigma_2^{2,*(m)})\) 中抽取(不截断)。 * 将阶段2的伪结局加回阶段1的时间,再跑一个同样的 AFT-BART。 * [2:26-2:38] 仿真设计与结果(幻灯片 #27-30): * 设定:N=800,20-30% 删失,40% 在阶段1经历事件。比较 AFT-BART vs 线性Q-learning(对数线性模型)。用独立测试集(n=400)评估性能。 * Scenario 1(线性): BART略低于正确的线性Q-learning(Q_1T2F),但远好于错误指定的线性Q-learning。重要的是,在“比例最优治疗”(Proportion of Optimal Treatment,POT)指标上,BART与正确线性模型接近。 * Scenario 2(非线性): BART大幅优于所有线性Q-learning变体。讲者具体解释:“Quadratic terms, cosines, sines, interactions... BART captures these automatically.”(字幕可能有误,意思是非线性项如 \(x^2\), \(\sin(x)\) 等)。POT 图中,线性 Q-learning 的 POT 降到约 0.6-0.7,而 BART 接近 0.9。 * 其他仿真:假设 Gumbel 误差(对数事件时间极值分布,实际是 Weibull 事件时间),以及协变量依赖的删失。BART表现良好。

[2:38-2:50] 案例研究:GVHD(移植物抗宿主病) * [2:38-2:42] 临床背景:同种异体造血干细胞移植后,给予免疫抑制剂来预防 GVHD。存在两种免疫抑制剂:标准治疗 vs NHTL(非特异性高度T淋巴细胞耗竭)。NHTL 更有效但风险高(感染、癌症复发)。 * [2:42-2:48] 数据:11,141 名患者(1995-2007 移植),最终分析 9,563 人。严重的混杂问题:给予 NHTL 的患者病情更重、HLA 更不匹配。 * [2:48-2:55] 结果(幻灯片 #36-37): * 以一个简单树(Tree)来近似 BART 的复杂推荐规则(讲者称其为“a bit of a hack”)。 * 结果显示,在阶段1,有相当数量的患者(特别是那些有“不相关、外周血”捐赠者的人)可能从 NHTL 中获益(DFS 时间延长)。但在阶段2(一旦 GVHD 发生),没有人能获益,因此建议在阶段2对所有患者使用标准治疗。讲者特别指出,虽然这个结果不如完整的 BART 精确,但它提供了一个医生能理解的低维规则。 * 她进一步展示了用 BART 的后验分布来估算两年无病生存概率,并得到类似结果(阶段1有益于一部分人,阶段2无益)。

[2:55-3:00] 讨论与总结 * 开放性讨论:① 对复杂规则的“可解释性”问题——BART 的规则无法写出。这里用一个树来近似,但“好到足够吗?” ② 删失假设可能不成立(例如,因“第二次移植”而删失,这通常与病情恶化有关);③ 缺乏双重鲁棒性(当前的AFT-BART没有加权倾向得分);④ 如何扩展到竞争风险场景(如死亡 vs 复发),如何设定“效用函数”。


四、对应论文与开放问题

(a) 对应论文 这场报告直接对应一篇工作论文/预印本(当前尚未查到最终发表刊物,基于转写推断): * 标题(推断)Flexible Modeling of Adaptive Treatment Strategies for Censored Outcomes using AFT-BART 或类似名称。 * 作者:Moodie, E. E. M., Li, X., Logan, B. R., & Hossain, S. M. F. * 关联论文:基础方法框架为 Murray et al. (2018) Bayesian machine learning for estimating dynamic treatment regimes. 这是一个绝对的必读“前导”文献。另一个是 AFT-BART 的基本包论文:Bonato et al. (2011)。

(b) 开放问题(扎根转写)

  1. 模型错误指定与非参数/复杂数据生成(转写 [2:20-2:30])

    • 如果真实的数据生成机制(特别是协变量-结局关系)依赖于高维的、非线性的、或者结构化(如图像、序列)的协变量,AFT-BART 的灵活性是否充分?核心问题:BART 的稳健性对于极端非线性的交互作用(如成对相互作用、高阶项)有多好?边界在哪?转写中,讲者只试了包含平方和 sin 项,没有试极高维/稀疏交互的场景。
  2. 结果的泛化/可解释性(转写 [2:55-3:00])

    • 转写中表达了一个深刻的实践挑战:BART 输出了一个高度复杂的黑箱规则。这位讲者和其他(如 Thall 和 Yu Cheng)在 Q&A 环节都提到,为了便于临床实施,需要“简单规则”。用树来近似(a hack)是否有效?能否开发一种可解释性框架,从灵活的 AFT-BART 模型中提取稀疏、加法、低维的决策规则(例如,类似“单调效应”或“简单交互作用”的显式规则)?这直接对接研究者的“高维统计和半参数理论”兴趣。
  3. 删失与时间动态性(转写 [2:48-2:55])

    • 删失假设可能是非独立的(例如,因严重并发症而删失)。如何将 AFT-BART 扩展到竞争风险场景(如死亡 vs 疾病复发 vs 恢复到健康)?讲者承认这是“非常热衷于推进”但尚未解决的问题。这个问题涉及到构建一个多属性的“效用函数”(例如,基于医生-分级标准,如 Thall 的 Q&A),这是统计实践与临床应用的一个直接接口。
    • 转写中另一个重要的删失来源是“第二次移植”。如何将这种中间事件(treatment-switching/censoring due to second treatment)视为一个潜在的处理阶段?是否可能扩展框架,以允许在相同框架内处理中间事件,而不是删失它们?
  4. 计算效率 / 可扩展性(转写 [2:26-2:38])

    • 转写中讲者明确表示:“it's computationally intensive”(在仿真中,她报告N=800, 200次复现)。对于更大的观测数据(例如,患者数>10,000,或变量数>100),AFT-BART 的计算周期(拟合 M 个贝叶斯倍增树)会变得不可行。是否存在高效的后验近似(如变分推断、或基于 MCMC 的加速方法)来保持 BART 的灵活性而同时可扩展?这与研究者对“统计-计算权衡”的兴趣协调。
  5. 加权调整与双重鲁棒性(转写 [2:55] & Q&A [Ying])

    • 讨论中明确提到:目前的 AFT-BART 不处理权重。在存在强混杂的情况下,双重鲁棒的估计量(例如,结合加权和回归调整)会提升稳健性。能否将反倾向性加权(IPW)AIPW引入这个贝叶斯框架中,以构建一个贝叶斯稳健动态治疗方案估计器?这是一个对因果推断研究者非常有吸引力的开放问题。
  6. 序贯决策与多目标优化(转写 [2:38-2:55] & Q&A [Thall])

    • 该方法仅针对一个单一结局(无病生存时间)。在医学中,往往有多个结局(例如,生存质量、毒性)。讲者提到了 Thall 的工作。一个开放问题:如何将基于贝叶斯的 AFT-BART 框架扩展为多目标序贯决策,并自然地纳入效用函数?

Maintained by 陈星宇 · Homepage · Source on GitHub

评论