Flexible modeling of adaptive treatment strategies for censored outcomes¶

讲者: Erica Moodie
讨论人: Yu Cheng , Peter Thall
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-12-05
主题: 因果推断
视频: https://youtu.be/wgJZKwCtxHs · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告站在“自适应治疗策略（ATS）/动态治疗方案（DTR）的统计估计与推断”这个子方向中。

方向追问什么：在（通常是观测性的）纵向数据中，如何根据患者随时间变化的特征（协变量），学习一个最优的序贯治疗决策规则，以最大化某一远期临床结局（如生存时间、无病生存期）。核心挑战是：① 存在时依性混杂（后续治疗受前期治疗和结局影响）；② 模型错误指定的风险（高维或非线性的协变量-结局关系）；③ 对删失结局（censored outcomes，如生存数据）的处理。
奠基与主流路线：该方向最主流的方法是 Q-learning（Watkins & Dayan, 1992; Murphy, 2005; Robins, 2004 等），即通过向后递推的序列回归来估计最优策略。其变体包括 G-estimation、动态加权最小二乘（dWOLS，Wallace & Moodie，2015）、以及基于价值函数的加权分类器（如 OWL，Zhao et al., 2012；RWL，Zhou et al., 2017）。
当前Frontier与这场报告的站位：一个长期存在的方法论 gap 是，传统的 Q-learning 依赖顺序回归模型的正确参数设定，一旦模型形式（如线性、比例风险）选错，最终的治疗规则会产生很大偏误。这场报告的核心贡献是：
- 提出一个结合 贝叶斯非参数回归（Bayesian Additive Regression Trees, BART） 和 Accelerated Failure Time (AFT) 模型的灵活 Q-learning 框架，来处理删失结局下的多阶段策略学习。
- 动机：放松对模型形式（如线性、非线性、特定误差分布）的强假设，利用 BART 的灵活拟合能力自动捕捉复杂的协变量-结局关系，避免因模型错误指定导致的糟糕决策。
- 定位：它将 Tom Murray (2018) 提出的面向连续无删失结局的“贝叶斯机器学习（BML）” Q-learning 框架，扩展到了删失生存数据场景。它不同于通常基于 Cox 模型或参数 Weibull 模型的 Q-learning，用非参数的树集成后验不确定性自然地传播。

关键参考文献（基于幻灯片和转写推断）： * Murray, T. A., Thall, P. F., & Yuan, Y. (2018). “Bayesian machine learning for estimating dynamic treatment regimes.” (原文讲者提到)。这是该方法的基础框架，但在无删失结局下工作。 * Chipman, H. A., George, E. I., & McCulloch, R. E. (2010). “BART: Bayesian additive regression trees.” Annals of Applied Statistics. (BART模型的基础文献)。 * Bonato, V., et al. (2011). “Bayesian survival analysis using BART.” （AFT-BART的基本文献）。

二、最小内核 / 一个最简例子¶

假设的设定与符号¶

考虑一个单阶段、二值治疗、删失生存结局的最简单问题（这能抓住Q-learning的核心思想，并展示BART的动机）。

可观测数据：对于个体 \(i\)，我们观测到：
- \(X_i\)：基线协变量（例如一个连续变量：年龄或某种生物标志物）。
- \(A_i \in \{0, 1\}\)：接受的治疗。
- \(T_i\)：观测到的事件时间（例如死亡或疾病进展时间）。但如果个体在随访结束前没发生事件或失访，我们观测到的是删失时间 \(C_i\)，实际上我们观测的是 \(Y_i = \min(T_i, C_i)\) 和一个删失指示变量 \(\Delta_i = I(T_i \le C_i)\)。
- 核心可观测数据是 \((X_i, A_i, Y_i, \Delta_i)\)。
不可观测的潜在量：
- \(T_i(1), T_i(0)\)：个体在接受治疗 1 或治疗 0 下的潜在事件时间。最优策略的目标是选一个能最大化真实事件时间（或期望事件时间）的 \(a\)。
Estimand（我们要找的）：
- 我们需要学习一个决策规则 \(d(X) : \mathcal{X} \to \{0, 1\}\)，使得 \(E[T(d(X))]\) 最大。在删失和混杂存在下，我们需要因果假设来识别它。

最简模型的运作¶

Q-learning 的核心思想是拟合一个 Q 函数：\(Q(X, A) = E[T | X, A]\)，即给定协变量和治疗的期望事件时间。最优决策是：

\[d^{opt}(x) = \arg\max_{a \in \{0, 1\}} Q(x, a)\]

1. 错误的线性模型（传统Q-learning）：假设我们拟合一个线性模型（在删失下用AFT模型），例如：

\[\log T = \beta_0 + \beta_1 X + \alpha A + \gamma X A + \epsilon, \quad \epsilon \sim N(0, \sigma^2)\]

然后通过最小二乘法或AFT模型（假设删失与事件时间独立）估计参数。最优规则是：

\[d^{opt}(x) = I(\alpha + \gamma x > 0)\]

这是简单的“基于阈值的线性规则”。但如果真实关系是 \(Q(x, a) = \beta_0 + \beta_1 x + \alpha a + \gamma x a + \delta x^2 a\)（有非线性），或者误差是非正态的，那么上述线性规则会严重偏离真实最优规则，导致选择错误的治疗。幻灯片中的 Scenarios 1 和 2 清晰地展示了这一点：在非线性场景下，线性 Q-learning 的 MSE 和推荐正确治疗的比例都远逊于 BART。

2. 灵活的AFT-BART模型（报告的方法）：报告用 BART 去拟合一个非参数回归模型：

\[\log T = \mu + f(X, A) + \epsilon, \quad \epsilon \sim N(0, \sigma^2)\]

其中 \(f(X, A)\) 是一棵或多棵树的和。BART 的美妙之处在于： * 它不需要指定是 \(\gamma X A\) 还是 \(\delta X^2 A\)——树会自动在数据中寻找这些分叉（例如，第一次分裂可能根据 \(X > c_1\) 进行，第二次分裂再根据 \(X > c_2\) 或者根据治疗水平进行区分），从而生成一个完全非线性的、非单调的 \(Q(x, a)\)。 * 对于删失数据，AFT-BART 在贝叶斯框架下假设删失是给定协变量条件独立的，通过一个带左删失的 log-normal 似然拟合。这样，虽然我们观测的不是完整事件时间，但模型能通过后验采样，自然地生成对完整事件时间的预测。

这个例子的“一看就懂”之处：想象你想预测人的身高。如果你只用“性别”和“年龄”做线性回归，你可能忘了“人长大后会变矮”（非线性）。线性Q-learning就像这个线性回归。AFT-BART就像一种极其灵活的决策树森林，能自动在这些复杂曲线中切出分界点，找到交互作用（比如“对于年龄>60且锻炼的人，A药更好；对于年龄<40且不锻炼的人，B药更好”）。

三、报告主体：讲者讲了什么¶

[0:00-0:05] 引言与背景 * [0:05-0:13] 讲者埃里卡·穆迪（Erica Moodie）在麦吉尔大学。合作者是肖莉（Xiao Li）、布伦特·罗根（Brent Logan）和 F·我·侯赛因（S. M. Ferdous Hossain），是一个硕士研究生的扩展工作。 * [0:14-0:24] 她介绍了报告的路线图：精准医学、Q-learning、AFT-BART、GVHD案例研究（幻灯片 #1-2）。 * [0:25-0:46] 引用布拉德福·希尔（Bradford Hill）1962年的引文：“应该给所有患者固定的剂量，还是应该根据每个患者的需要而改变？”她指出这是“因果推断”和“个性化/精准医学”的一个古老但核心的问题，但在传统的因果推断工作中，我们倾向于关注平均处理效应，而不是异质性。

[0:46-1:06] 什么是个性化治疗（ATS） * [0:46-1:00] 精准医学的含义：不是针对单个基因，而是根据患者亚群的特征（如人口学、疾病状态）进行分层，给出“不太多、不太少”的黄金治疗。 * [1:00-1:12] 为什么需要适应性治疗：① 患者对治疗的反应存在异质性；② 反应随时间变化；③ 过去的治疗反应会影响未来决策。她提出：overtreating 导致副作用、治疗疲劳和高成本；undertreating 导致不良结局。 * [1:12-1:18] 用三个示意图解释定性交互作用：当不同治疗水平下结局-协变量回归线存在交叉（即治疗效果的方向依赖于协变量）时，才有定制治疗的必要。没有交叉时，一种治疗对所有患者都是最优的。这类交互作用的变量称为“prescriptive/tailoring variables”。 * [1:18-1:28] ATS的别名：dynamic treatment regimes, adaptive interventions, policies。

[1:28-1:50] Q-learning（单阶段和多阶段） * [1:28-1:40] 单阶段：用一个简单线性模型 \(E[Y|X, A] = \beta_0 + \beta_1 Sx + A(\psi_0 + \psi_1 Sx)\) 来解释。这里的“治疗自由部分”（\(\beta\)）是干扰参数，而“对比函数”\(\gamma(x, a; \psi) = a(\psi_0 + \psi_1 x_1 + \psi_2 x_2)\) 定义了最优决策：\(a^{opt}(x) = I[\psi_0 + \psi_1 x_1 + \psi_2 x_2 > 0]\)。讲者强调：Q-learning 的核心是找出这个对比函数，它直接决定了治疗推荐。 * [1:40-1:50] 多阶段（向后递推）： * 讲者用三阶段示意图（幻灯片 #13-15）解释核心思想：从最后一个阶段开始（看成单阶段问题），找到最优阶段3治疗 \(a^{opt}_3\)；然后，你需要创造一个“伪结局”（\(\tilde{Y}_2\)），代表“如果所有人在阶段3都按最优策略治疗，他们在阶段2的最佳预期结局”。这个伪结局是 \(Y\)（观测结局）调整后，相当于在阶段3给每个人用了最优治疗。 * 她强调：这就是 Q-learning 的魔法——用回归来“反事实地”调整后续阶段的结局，使得向前看时，当前阶段的选择不受后续阶段次优决策的混淆。

[1:50-2:08] 删失结局下的Q-learning * [1:50-1:56] 引入新记号（如病人在阶段k的时间 \(t_k\)、删失指示符 \(\Delta\)、是否进入阶段2的指示 \(\eta_2\)）。数据是 \((x_1, a_1, t_1, \eta_2, x_2, a_2, t_2, \Delta)\)。解释：如果病人在阶段1结束前就事件或删失，他们不会再进入阶段2（\(\eta_2=0\)）。 * [1:56-2:00] Q-learning 用于删失数据是最流行的方法，因为它简单（任何模型如 Cox、Weibull、AFT 都可以用），但需要两个关键假设：① 删失和事件时间在给定协变量下独立；② 结局模型（Q-function）必须正确指定。 * [2:00-2:08] 她提出了两个额外的挑战：① Q-learning 通常建模均值，但生存数据常关注中位数；② 一个特殊的问题——在向后递推时，如果阶段2的模型参数化，阶段的伪结局可能不遵循任何已知的分布（例如，不能假设两个阶段都是帕累托分布，因为它们的和通常不是帕累托分布）。

[2:08-2:20] 贝叶斯机器学习（BML）与AFT-BART * [2:08-2:15] BML (Murray, 2018) 框架：一个贝叶斯版本的 Q-learning，核心是：① 从最后阶段的回归模型中抽取后验样本，并确定最优行动；② 对于未按最优行动处理的个体，从后验预测分布中抽取其结局；③ 将这些“后验预测的伪结局”用于前一个阶段的回归模型。关键优势：不确定性自动传播（不需要 like Bootstrap 或 Delta 方法）。 * [2:15-2:20] AFT-BART 模型（公式见幻灯片 #24）：

\[\log t_i = \mu + f(x_i) + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2)\]

\(f(x_i)\) 是若干个回归树的和（\(\sum_{r=1}^R g_r(x_i)\)）。BART用一个先验（每个小树只解释一小部分方差）来正则化，并通过贝叶斯加树进行拟合。AFT 扩展使得它能够处理右删失数据。

[2:20-2:38] 算法细节与仿真 * [2:20-2:26] 算法细节（幻灯片 #25-26）： * Stage 2 AFT-BART 拟合后，得到后验样本 \(\{f_2^{*(m)}, \sigma_2^{*(m)}\}\)，并据此计算最优行动 \(a_{i2}^{opt,*(m)}\)。 * 伪结局生成（Slide #25）：这是最细致的部分。对于阶段2的结局： * 如果观察治疗 \(= a_{i2}^{opt,*(m)}\) 并且事件（\(\delta_{i2}=1\)）：\(\log t_{i2}^{opt,*(m)} = \log t_{i2}\)（不动）。 * 如果观察治疗 \(= a_{i2}^{opt,*(m)}\) 但是删失（\(\delta_{i2}=0\)）：从截断正态分布 TN(\(\mu_2 + \hat{f}^{*(m)}_2(a_{i2}^{opt,*(m)}), \sigma^{2,*(m)}\)，下界为 \(\log t_{i2}\) ) 中抽取。 * 如果观察治疗 \(\neq a_{i2}^{opt,*(m)}\)：直接从正态分布 \(N(\mu_2 + \hat{f}_2^{*}(m)(a_{i2}^{opt,*(m)}), \sigma_2^{2,*(m)})\) 中抽取（不截断）。 * 将阶段2的伪结局加回阶段1的时间，再跑一个同样的 AFT-BART。 * [2:26-2:38] 仿真设计与结果（幻灯片 #27-30）： * 设定：N=800，20-30% 删失，40% 在阶段1经历事件。比较 AFT-BART vs 线性Q-learning（对数线性模型）。用独立测试集（n=400）评估性能。 * Scenario 1（线性）： BART略低于正确的线性Q-learning（Q_1T2F），但远好于错误指定的线性Q-learning。重要的是，在“比例最优治疗”（Proportion of Optimal Treatment，POT）指标上，BART与正确线性模型接近。 * Scenario 2（非线性）： BART大幅优于所有线性Q-learning变体。讲者具体解释：“Quadratic terms, cosines, sines, interactions... BART captures these automatically.”（字幕可能有误，意思是非线性项如 \(x^2\), \(\sin(x)\) 等）。POT 图中，线性 Q-learning 的 POT 降到约 0.6-0.7，而 BART 接近 0.9。 * 其他仿真：假设 Gumbel 误差（对数事件时间极值分布，实际是 Weibull 事件时间），以及协变量依赖的删失。BART表现良好。

[2:38-2:50] 案例研究：GVHD（移植物抗宿主病） * [2:38-2:42] 临床背景：同种异体造血干细胞移植后，给予免疫抑制剂来预防 GVHD。存在两种免疫抑制剂：标准治疗 vs NHTL（非特异性高度T淋巴细胞耗竭）。NHTL 更有效但风险高（感染、癌症复发）。 * [2:42-2:48] 数据：11,141 名患者（1995-2007 移植），最终分析 9,563 人。严重的混杂问题：给予 NHTL 的患者病情更重、HLA 更不匹配。 * [2:48-2:55] 结果（幻灯片 #36-37）： * 以一个简单树（Tree）来近似 BART 的复杂推荐规则（讲者称其为“a bit of a hack”）。 * 结果显示，在阶段1，有相当数量的患者（特别是那些有“不相关、外周血”捐赠者的人）可能从 NHTL 中获益（DFS 时间延长）。但在阶段2（一旦 GVHD 发生），没有人能获益，因此建议在阶段2对所有患者使用标准治疗。讲者特别指出，虽然这个结果不如完整的 BART 精确，但它提供了一个医生能理解的低维规则。 * 她进一步展示了用 BART 的后验分布来估算两年无病生存概率，并得到类似结果（阶段1有益于一部分人，阶段2无益）。

[2:55-3:00] 讨论与总结 * 开放性讨论：① 对复杂规则的“可解释性”问题——BART 的规则无法写出。这里用一个树来近似，但“好到足够吗？” ② 删失假设可能不成立（例如，因“第二次移植”而删失，这通常与病情恶化有关）；③ 缺乏双重鲁棒性（当前的AFT-BART没有加权倾向得分）；④ 如何扩展到竞争风险场景（如死亡 vs 复发），如何设定“效用函数”。

四、对应论文与开放问题¶

(a) 对应论文 这场报告直接对应一篇工作论文/预印本（当前尚未查到最终发表刊物，基于转写推断）： * 标题（推断）：Flexible Modeling of Adaptive Treatment Strategies for Censored Outcomes using AFT-BART 或类似名称。 * 作者：Moodie, E. E. M., Li, X., Logan, B. R., & Hossain, S. M. F. * 关联论文：基础方法框架为 Murray et al. (2018) Bayesian machine learning for estimating dynamic treatment regimes. 这是一个绝对的必读“前导”文献。另一个是 AFT-BART 的基本包论文：Bonato et al. (2011)。

(b) 开放问题（扎根转写）

模型错误指定与非参数/复杂数据生成（转写 [2:20-2:30]）：
- 如果真实的数据生成机制（特别是协变量-结局关系）依赖于高维的、非线性的、或者结构化（如图像、序列）的协变量，AFT-BART 的灵活性是否充分？核心问题：BART 的稳健性对于极端非线性的交互作用（如成对相互作用、高阶项）有多好？边界在哪？转写中，讲者只试了包含平方和 sin 项，没有试极高维/稀疏交互的场景。
结果的泛化/可解释性（转写 [2:55-3:00]）：
- 转写中表达了一个深刻的实践挑战：BART 输出了一个高度复杂的黑箱规则。这位讲者和其他（如 Thall 和 Yu Cheng）在 Q&A 环节都提到，为了便于临床实施，需要“简单规则”。用树来近似（a hack）是否有效？能否开发一种可解释性框架，从灵活的 AFT-BART 模型中提取稀疏、加法、低维的决策规则（例如，类似“单调效应”或“简单交互作用”的显式规则）？这直接对接研究者的“高维统计和半参数理论”兴趣。
删失与时间动态性（转写 [2:48-2:55]）：
- 删失假设可能是非独立的（例如，因严重并发症而删失）。如何将 AFT-BART 扩展到竞争风险场景（如死亡 vs 疾病复发 vs 恢复到健康）？讲者承认这是“非常热衷于推进”但尚未解决的问题。这个问题涉及到构建一个多属性的“效用函数”（例如，基于医生-分级标准，如 Thall 的 Q&A），这是统计实践与临床应用的一个直接接口。
- 转写中另一个重要的删失来源是“第二次移植”。如何将这种中间事件（treatment-switching/censoring due to second treatment）视为一个潜在的处理阶段？是否可能扩展框架，以允许在相同框架内处理中间事件，而不是删失它们？
计算效率 / 可扩展性（转写 [2:26-2:38]）：
- 转写中讲者明确表示：“it's computationally intensive”（在仿真中，她报告N=800, 200次复现）。对于更大的观测数据（例如，患者数>10,000，或变量数>100），AFT-BART 的计算周期（拟合 M 个贝叶斯倍增树）会变得不可行。是否存在高效的后验近似（如变分推断、或基于 MCMC 的加速方法）来保持 BART 的灵活性而同时可扩展？这与研究者对“统计-计算权衡”的兴趣协调。
加权调整与双重鲁棒性（转写 [2:55] & Q&A [Ying]）：
- 讨论中明确提到：目前的 AFT-BART 不处理权重。在存在强混杂的情况下，双重鲁棒的估计量（例如，结合加权和回归调整）会提升稳健性。能否将反倾向性加权（IPW）或AIPW引入这个贝叶斯框架中，以构建一个贝叶斯稳健动态治疗方案估计器？这是一个对因果推断研究者非常有吸引力的开放问题。
序贯决策与多目标优化（转写 [2:38-2:55] & Q&A [Thall]）：
- 该方法仅针对一个单一结局（无病生存时间）。在医学中，往往有多个结局（例如，生存质量、毒性）。讲者提到了 Thall 的工作。一个开放问题：如何将基于贝叶斯的 AFT-BART 框架扩展为多目标序贯决策，并自然地纳入效用函数？

Maintained by 陈星宇 · Homepage · Source on GitHub