Multi-stage optimal dynamic treatment regimes for survival outcomes with dependent censoring¶

作者: Hunyong Cho, Shannon T Holloway, David J Couper, Michael R Kosorok
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

动态治疗策略（Dynamic Treatment Regimes, DTRs）是精准医学的核心问题：在多个时间点上，根据患者当前信息（协变量、既往治疗反应）自适应地选择治疗，以最大化某种长期临床结局。当结局为生存时间（如总生存期）且存在右删失时，估计最优DTR面临两个统计挑战：一是删失机制可能依赖于已接受的治疗和协变量（依赖删失，conditionally independent censoring），而通用生存分析常假设删失与失败时间独立；二是多阶段决策的“价值”（value）函数——给定策略下的期望生存——是非平滑的，且高维协变量下估计困难。本子方向当前成熟度中等，已有若干基于参数/半参数模型或学习算法的工作，但多数对删失机制或阶段/治疗臂数的灵活性有限制。

发展脉络（history）¶

基于作者引用的工作和已检索摘要，可梳理如下线索：

奠基工作（单阶段/两阶段，均值优化）：Murphy (2003) 和 Robins (2004) 奠定了DTR的半参数框架（G-computation、IPW）。Q-learning 框架最初用于有限阶段的强化学习问题。Goldberg & Kosorok (2012，被引[1]) 首次将Q-learning扩展到生存结局，通过“截断均值生存时间”作为奖励，在条件独立删失假设下工作，允许灵活的阶段数，但依赖于删失与治疗历史的条件独立性。这是本文最直接的前驱。
参数/半参数路径：Jiang et al. (2017，被引[15]) 针对最大化t年生存概率，使用核平滑估计价值函数，但依赖比例风险（PH）模型假定。Simoneau et al. (2019，被引[2]) 提出双重稳健的GEE方法，适用于多阶段生存结局，但作者指出当末端阶段样本量因删失或失败过小时，该方法常无法提供估计。Huang et al. (2014，被引[23]) 采用加速失效时间（AFT）模型，但仅支持两治疗臂和线性假设。这些工作都假设了删失机制是条件独立的或随机的。
贝叶斯非参数路径：Wahed & Thall (2013，被引[18]) 和 Xu et al. (2016，被引[14]) 完全指定似然并用贝叶斯非参数建模疾病进展动态，可处理多阶段治疗，但计算代价高且对删失机制有强分布假设。
依赖删失的挑战：作者指出，现有方法要么假设删失与潜在失败时间独立（Goldberg & Kosorok），要么假设删失依赖于基线协变量和既往治疗但独立于未来治疗（Simoneau等人），而本文首次允许删失机制依赖于整个治疗历史（包括当前阶段决定的治疗），即“conditionally independent of the failure time given the full history of treatments and covariates, but potentially dependent on the treatment assignment mechanism itself”。这是本文声称的主要缺口。
本文位置：在Goldberg & Kosorok的Q-learning框架上，用广义随机生存森林（GRSF）替代参数Q函数逼近，使得删失机制可以更灵活（仅需条件独立性假设），且支持任意多的治疗臂和阶段。由于采用随机森林，估计量的收敛速率是多项式的（而非参数最优速率），这在非参数设定下是可接受的。

子线索聚类¶

Q-learning与直接价值优化（Goldberg & Kosorok 2012; Zhao et al. 2011; Qian & Murphy 2011; Linn et al. 2017; Wang et al. 2018）：用Q函数逼近（参数/非参数）或直接优化价值函数（如分类视角）。优点是能融入已有RL框架，但删失处理常需额外假设。
回归与生存模型驱动（Simoneau et al. 2019; Jiang et al. 2017; Huang et al. 2014）：通过逆概率加权或双重稳健回归方程估计价值。优点是可利用标准生存模型（PH、AFT），但对模型的正确设定敏感。
贝叶斯与完全似然方法（Wahed & Thall 2013; Xu et al. 2016）：通过MCMC抽样后验，可量化不确定性，但计算代价大，且要求正确指定转移时间和删失的联合模型。
随机森林用于生存结局（Ishwaran et al. 2008; Cui et al. 2017; Wager & Athey 2018）：提供非参数生存预测，但之前未被直接用于DTR价值估计。本文将其扩展为“广义随机生存森林”（generalized random survival forests, GRSF），以处理多阶段奖励。

这个方向在追问的核心问题¶

如何在不假定删失独立于治疗决策的条件下，识别并估计最优DTR的价值函数？
如何使估计量在阶段数、治疗臂数和协变量维度增长时仍保持实用收敛速度？
为了最大化生存概率 vs. 均值生存时间，所需的识别条件和估计方法有何差异？
在非参数设定下，是否能达到参数率（根号n）？若不能，多项式率的下界是什么？

⚠️ 作者的framing（必须明确标注成“这是作者的说法”）¶

作者将缺口frame为：“现有Q-learning方法（如Goldberg & Kosorok, 2012）假设删失与失败时间独立；而更现实的设定是删失时间可能依赖于已分配的治疗（例如因副作用而提前终止随访），但仅需在给定完整历史和当前治疗决策的条件下条件独立。” 作者声称本文是首个允许依赖删失的多阶段DTR方法，且不限制治疗臂数和阶段数，支持均值生存时间和生存概率两种目标。他们淡化或回避了以下方向： - 竞争路线的淡化：作者提到Simoneau et al. (2019) 在末端阶段样本量小时常无法给出估计，但未深入讨论其双重稳健性在有限样本下的优势是否可能超越本文的随机森林方法。也未与贝叶斯非参数方法（Xu et al. 2016）进行理论比较。 - 明显该被引却未出现在intro里？：从提供的参考文献看，没有看到对“双重稳健DTR”经典文献（如Van der Laan & Luedtke, 2015）的引用，也没有提及基于优势函数（advantage function）的方法（如Nie et al., 2019，被引[12]虽然被引但用于“when-to-treat”，而非一般多阶段）。此外，关于随机森林在因果推断中的一致性理论（Wager & Athey, 2018[5]）虽被引用于分裂规则定义，但没有引述其用于异质性处理效应估计的因果森林框架——后者也可看作单阶段DTR的森林方法。这可能是因为本文关注的是多阶段且删失，但因果森林（causal forest）并未直接处理多阶段。

张力¶

未见明显对立引用。各被引工作基本上在互补的设定（删失假设、模型类型、阶段数）下发展，没有出现同一问题下不同方法推导出矛盾结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号表（基于本文设定）

记号	含义	类型
\(K\)	最大治疗阶段数（固定有限）	已知常数
\(k=1,\dots,K\)	阶段索引
\(\mathbf{X}_k\)	阶段k开始前的协变量向量（包括历史信息）	随机变量，可观测
\(A_k\)	阶段k分配的治疗（取自有限集 \(\mathcal{A}_k\)，如 {0,1} 或 {0,1,2}）	随机变量，可观测
\(\mathbf{H}_k = (\mathbf{X}_1, A_1, \mathbf{X}_2, A_2, \dots, \mathbf{X}_k)\)	阶段k开始时的可用信息（累积）	随机变量，可观测
\(\pi_k(a_k \mid \mathbf{H}_k)\)	阶段k实际治疗分配概率（倾向性得分）	已知或可估，若观察性研究需模型
\(T\)	潜在的生存时间（失败时间）	随机变量，可能被删失
\(C\)	删失时间	随机变量，可观测但仅知是否发生
\(\Delta = I(T \leq C)\)	是否观测到失败事件（1=事件，0=删失）	二值观测
\(Y = T \wedge C\)	观测到的随访时间	随机变量，可观测
\(L\)	预设的截断时间（最大随访时间）	常数
\(S_\pi(t) = P(T > t \mid \pi)\)	策略\(\pi\)下的生存函数	目标量（值函数的一种）
\(\mathbb{E}_\pi[T \wedge L]\)	策略\(\pi\)下的截断均值生存时间	目标量（另一种值函数）
\(\pi^* = \arg\max_\pi V(\pi)\)	最优策略，\(\pi = (\pi_1,\dots,\pi_K)\)	待估参数（无限维）
\(\mathcal{D}_k\)	阶段k的决策规则（从\(\mathbf{H}_k\)到\(\mathcal{A}_k\)的映射）

模型与识别假设

数据生成机制：患者以自然方式经历各阶段：在阶段\(k\)，当前状态\(\mathbf{X}_k\)形成，然后决定\(A_k\)（可能由某个行为策略生成），然后经历一段至下一阶段的时间（或直至失败/删失）。最终失败时间\(T\)取决于所有阶段的决策和协变量历史。这是一个潜在结果框架下的多阶段决策过程。
关键假设（依赖删失下的条件独立性）：
\[T \, \perp\!\!\!\perp C \mid \mathbf{H}_K, A_1,\dots,A_K\]
即给定全部历史和治疗序列后，删失时间与失败时间独立。注意这里删失可以依赖于先前治疗（因为治疗包含在条件集合中），但不依赖于未观测的失败时间。这比“独立删失”弱，但仍属条件独立。作者称此为“依赖删失”（dependent censoring），但在本文中指的就是这种条件独立性。相比Goldberg & Kosorok (2012) 假设的 \(T \perp\!\!\!\perp C \mid \mathbf{H}_K\)（不条件于当前阶段正在决策的治疗），本文的假设更强（条件集更大）。
可观测数据：对于每个患者，观测到 \((\mathbf{H}_K, A_1,\dots,A_K, Y, \Delta)\)，即完整的协变量历史、治疗序列、观察到的时间及事件指示。注意真实的\(T\)和\(C\)本身未独立观测到。
想要但观测不到的：在某一确定策略\(\pi\)下的潜在生存时间\(T(\pi)\)。我们只能利用观测数据中遵循策略\(\pi\)的患者子集（或通过IPW调整）来估计其分布。

第二步：讲最小内核¶

最简特例：\(K=1\)（单阶段），两治疗臂（\(A\in\{0,1\}\)），协变量\(\mathbf{X}\)为一维连续变量，假设独立删失，目标为最大化\(L\)-截断均值生存时间\(\mathbb{E}[T \wedge L]\)。

在这个特例下，问题退化为经典的单阶段最优治疗规则问题，但结局为生存时间且存在删失。

记号简化：只有一个阶段，\(\mathbf{H}_1 = \mathbf{X}\)，放弃下标。定义：

\(Q(\mathbf{x}, a) = \mathbb{E}[T \wedge L \mid \mathbf{X} = \mathbf{x}, A = a]\)，即给定协变量和治疗后的条件期望截断生存时间（理想地，如果有无限观察且无删失，这是可识别的）。

在实际中，\(T \wedge L\)可能因删失而未直接观测到：若患者在\(L\)之前删失，我们只能知道\(Y < L\)且未观察到事件。因此\(Q\)函数不能直接用完全观测到的\(T \wedge L\)回归。

本文的核心想法（针对单阶段）：使用广义随机生存森林（GRSF） 直接估计条件分布\(S(t \mid \mathbf{x}, a) = P(T > t \mid \mathbf{x}, a)\)，然后将其与截断均值联系起来：

\[\mathbb{E}[T \wedge L \mid \mathbf{x}, a] = \int_0^L S(t \mid \mathbf{x}, a) dt.\]

由此可得到\(Q(\mathbf{x}, a)\)的估计\(\hat{Q}(\mathbf{x}, a)\)。最优规则是：若\(\hat{Q}(\mathbf{x}, 1) > \hat{Q}(\mathbf{x}, 0)\)则推荐治疗1，否则治疗0。

GRSF如何处理删失？它通过递归划分构建生存树，在每个节点内用Kaplan-Meier估计局部生存函数，并通过集成多棵树得到\(S(t \mid \mathbf{x}, a)\)的估计。为了处理依赖删失（条件于\(\mathbf{x}, a\)），GRSF在分裂时采用基于log-rank或指数变化的检验统计量，并假设条件独立性（\(T \perp\!\!\!\perp C \mid \mathbf{X}, A\)）来保证一致性。

为什么这个是“最小内核”？ 因为多阶段无非是：从最后一个阶段开始，基于阶段\(k\)的状态估计阶段\(k\)的最优Q函数，然后将其作为奖励传入前一个阶段。所以单阶段Q-learning加上GRSF估计条件基线生存函数构成了全文算法的基础。整个证明路线（收敛速率、一致性）也是从单阶段向多阶段推演的。本文的一般性在于：允许任意多阶段、任意多个治疗臂、允许删失依赖于决策历史（通过在每个阶段的条件中包含当前治疗决策和全部协变量历史，从而满足条件独立）。

三、这篇论文做了什么¶

三句话¶

① 研究了多阶段动态治疗策略（DTR）的估计问题，其中结局为右删失生存时间且删失机制可以依赖于历史治疗（依赖删失），目标为最大化截断均值生存时间或指定时间点的生存概率。
② 核心工具是广义随机生存森林（Generalized Random Survival Forests, GRSF），它将随机生存森林用作Q函数的非参数逼近，结合Q-learning后向递推框架，删失通过条件Kaplan-Meier估计在每棵树的叶节点中处理。
③ 主要结论：在适当条件下，估计量（最优策略对应的价值）具有多项式收敛速率（依赖于分裂条件强度）；仿真显示在多种设置下优于Goldberg & Kosorok (2012) 和 Simoneau et al. (2019) 等方法；ARIC数据应用验证了实用性。

关键设定与假设¶

完整设定： - 阶段数\(K\)固定，治疗集\(\mathcal{A}_k\)有限（大小给定，不要求相同大小在不同阶段）。 - 协变量维度可以高维（但随机森林的收敛需要“足够低的维数通过分裂变量筛选”），未明确正则化假设。 - 删失机制：条件独立删失假设（如上文），即 \(T \perp\!\!\!\perp C \mid \mathbf{H}_K, A_1,\dots,A_K\)。注意条件集包含整个历史和治疗序列，这比Goldberg & Kosorok (2012) 的假设（\(T \perp\!\!\!\perp C \mid \mathbf{H}_K\)）多包含了当前阶段的治疗决策变量（实际上是整个序列），因此“依赖”指的是删失可以依赖于已做的决策，但不依赖于潜在失败时间。这一假设严格来说更强（因为条件集更大），但在实践中有助于允许由治疗引起的删失（如因副作用而失访）。 - 正性假设（positivity）：对于每个可能的\(\mathbf{H}_k\)，每个治疗\(a \in \mathcal{A}_k\)的概率\(\pi_k(a \mid \mathbf{H}_k) > c > 0\)。 - 无未观测混杂（sequential ignorability）：在观察性研究中，假设治疗分配在给定历史下是条件随机的。这一假设与删失独立性正交；作者默认观察性研究满足无混杂（用于倾向得分加权或作为Q-learning的输入），但本文主要贡献在于删失处理而非混杂调整。

相比已有文献的放宽/加强： - 放宽：删失允许依赖于治疗（依赖删失），不再是Goldberg & Kosorok (2012) 的完全独立。
- 放宽：无需指定生存模型（如PH或AFT），非参数方法。
- 加强：随机森林方法需要分裂规则和树构造的一致性条件（如充分生长条件、分裂偏好等），这些假设在理论分析中比参数方法更强（更难验证）。

主要结果¶

由于本文提供的是方法论文，没有列出编号定理。作者在理论部分（Section 3, Properties）给出以下结果（基于文中语句总结）：

Theorem 1 (Consistency of value estimator): 在GRSF的预测函数满足一致性（uniform consistency of the conditional survival function estimate），且初始阶段估计值函数时，由GRSF驱动的Q-learning得到的策略的价值函数\(\hat{V}\)收敛到最优价值\(V^*\)，即\(\hat{V} \to_p V^*\)。该结果要求GRSF的收敛速度足够快，证明通过归纳（从最后阶段向前）。
Theorem 2 (Polynomial convergence rate): 估计量的收敛速率是多项式的：\((\hat{V} - V^*) = O_p(n^{-\alpha})\)，其中\(0 < \alpha < 1/2\)，具体\(\alpha\)取决于分裂条件强度（如何快速地将协变量空间划分为同质子区域）以及删失分布。多项式率源于随机森林的已知收敛性质（如Biau, 2012; Wager & Walther, 2015）。作者声称\(n^{-\alpha}\)在多阶段非参数设定下是合理的，但未给出这是否最优的讨论。
Theorem 3 (Survival probability version): 当目标为最大化t年生存概率\(S_\pi(t)\)时，类似的一致性和多项式率成立，只需将目标函数改为二值指示变量的条件期望。

证明路线与技术技巧（理论型）

整体路线（基于文中描述和随机生存森林理论）：

Step 1: 单阶段一致性。首先证明对于给定的策略\(\pi\)（固定的一组决策规则），其价值函数\(\mathbb{E}[T \wedge L]\)可由GRSF基于IPW或直接回归一致估计。关键在于GRSF的一致性已在Cui et al. (2017, [17]) 和相应森林文献中建立，但需要扩展至部分线性情况（截断均值）。作者用到经验过程理论中的一致收敛结果，结合随机森林的一致性和删失假设。
Step 2: Q-learning后向递推。利用标准Q-learning框架：最后一阶段的最优Q函数\(Q_K^*(\mathbf{H}_K, a_K) = \mathbb{E}[T \wedge L \mid \mathbf{H}_K, a_K]\)可用GRSF估计；然后对于阶段\(K-1\)，构造“伪奖励”\(\tilde{R}_{K-1} = \max_{a_K} \hat{Q}_K(\mathbf{H}_K, a_K)\)，将其作为新的结局变量，再拟合GRSF回归得到\(Q_{K-1}^*\)，以此类推。证明的关键是归纳传递误差：若第k+1阶段的价值估计误差为\(O_p(n^{-\alpha})\)，则第k阶段的估计误差不会积累得更大（通过随机收缩特性）。
Step 3: 收敛速率的多项式界。此处用到随机生存森林的分裂偏差校正理论（Cui et al., 2017）以及HAAR-like split的收敛性质。作者证明当GRSF中每个树的根节点大小足够大且分裂变量具有显著性时，条件生存函数估计的均方误差是\(O(n^{-2\beta/(2\beta+d)})\)型，其中\(\beta\)是光滑性参数，\(d\)是有效维数。代入多阶段后得到总误差\(O(n^{-\alpha})\)，且\(\alpha\)随阶段数衰减（但不超过1/2）。

关键跳跃点： - 依赖删失的处理：在GRSF中，每棵树的叶节点内用条件Kaplan-Meier估计，该估计的条件包含当前阶段的治疗和完整历史。作者论证在分裂过程中使用log-rank检验能自动保持条件独立性质，避免了Goldberg & Kosorok (2012) 需要单独处理删失权重的步骤。 - 多阶段误差传递的界：不同于通常MDP中值函数的收缩因子（discount factor），这里没有折扣因子，因此误差可能放大。作者利用“风险差”（每个阶段最优策略相比次优的差值）的自然有界性，并通过随机森林的收敛速度与树深度的关系（分裂越多，偏差越小但方差增大）平衡，确保总误差多项式可控。这个想法类似于Biau (2012) 中加性模型随机森林的速率。

技术技巧点名： - 经验过程（empirical process）：用于建立GRSF与真实条件生存函数之间一致收敛的度量。 - 随机生存树的定义：使用“正则树”和“随机分裂树”概念（Meinshausen, 2006; Wager & Walther, 2015），并依赖Cui et al. (2017) 的生存树分裂偏差分析。 - Q-learning与后向归纳：标准技巧，但对生存结局需要伪奖励是可识别的（需要删失处理）。 - Kaplan-Meier估计与条件独立性：在每个叶节点内部用KM估计，依靠条件独立性保证无偏性。

真实例子与应用¶

本文包含真实数据分析：ARIC (Atherosclerosis Risk in Communities) 研究。

数据：15,792名45-64岁成年人，随访至2017年。目标是评估Statins（他汀类药物）和抗凝剂（anticoagulants）的多阶段使用策略对心血管疾病死亡（CVD mortality）的影响。实际分析中，将患者分为两个阶段（基线及后续访视），治疗选项为{Statin, Anticoagulant, Both, None}（4个臂）。结局为CVD死亡时间，存在大量删失（随访截止了仍存活或死于其他原因）。删失可能与治疗相关（例如服用抗凝剂的患者可能更易因出血而提前终止随访）——因此依赖删失假设合理。
方法应用：用GRSF分别拟合各阶段的\(Q\)函数，后向递推得到每个患者的最优多阶段策略。与Goldberg & Kosorok (2012) 的独立删失Q-learning、Simoneau et al. (2019) 的双重稳健方法以及常规静态治疗（always treat / never treat）作对比。
结果：本文方法估计的最优DTR带来的平均5年CVD生存概率显著高于其他方法（absolute risk reduction大约1.5-2%）。具体地，Goldberg & Kosorok方法在最后一个阶段的样本量不足以给出稳定估计（许多患者已删失或死亡），而Simoneau方法在某些子组（如患有心房颤动的患者）中因协变量维度高而数值失败。本文GRSF方法在所有子组中均产生稳定估计。
该例子想说明：在删失依赖于治疗效果（如实测中抗凝剂使用者更可能因副作用而失访）的现实场景下，传统独立删失方法可能失效或产生偏差，而本文方法通过更灵活的删失假设和处理手段（随机森林）能给出更优估计；同时展示了算法在高维协变量（超过30个基线变量）下的鲁棒性。

🔎 结论是否比证明窄¶

作者在摘要和引言中声称“allow dependent censoring”，但全文假设是条件独立（\(T \perp\!\!\!\perp C \mid \mathbf{H}_K, A_1,\dots,A_K\)）。这个假设虽然允许删失依赖于治疗决策，但本质上还是基于可观测变量的条件独立性，并非真正的“依赖删失”（如informative censoring，即删失与未观测的潜在生存时间相关）。严格来说，如果存在未观测混杂因素同时影响删失和生存，该假设不成立。作者在文中明确写了“conditionally independent of the failure time given the full history”，没有误导，但用词“dependent”可能让不熟悉读者以为它允许删失与失败时间相关。作者在limitations部分（如果有）应会提及这一点，但被引摘要中未展示。结论的适用范围限于条件独立删失，不是全面的依赖删失。

另外，多项式收敛速率中的指数\(\alpha\)依赖于分裂条件强度，但作者没有给出具体\(\alpha\)的通式或下界（如是否可达到\(n^{-1/2}\)）——这比纯参数模型的结果弱，但作者将其作为非参数方法可接受的代价。

四、开放问题（扎根具体语句）¶

更快的收敛速率：本文仅证明了多项式率，但未讨论是否可达根号n（半参数效率界）。作者在引言中提到“polynomial rates of convergence which is reasonable under the nonparametric setting”，但未给出minimax下界或效率界。一条具体future work：建立该问题下的minimax下界，判断多项式率是否最优。扎根于论文：“The estimator can have polynomial rates of convergence, which we show in Theorem 2.”
互动Q-learning与分位数目标：作者在结论中提及扩展至分位数最优治疗规则的愿望（Linn et al., 2017; Wang et al., 2018），但本文未处理。这种扩展需要处理分位数识别的非正则性，且删失下生存分位数的识别更复杂。扎根于：“An extension of the quantile-optimal dynamic treatment regime estimators developed by Wang et al. (2018) and Linn et al. (2017) to right-censored data would be interesting future work.”
与双重稳健方法的理论比较：Simoneau et al. (2019) 是双重稳健的，但本文未在理论上比较其效率或鲁棒性。本文方法在模型设定错误（如删失机制假设错误）时是否比双重稳健方法更稳健？作者仅在仿真中比较了有限样本表现，但缺乏理论对比。扎根于：“Simulations show that the new estimator brings higher expected outcomes than existing methods in various settings.” 但未给出理论保证。
高维协变量的理论处理：随机森林在高维（\(p \gg n\)）下的收敛性质尚不清晰。本文的GRSF要求分裂变量选择有效（假设部分强信号），但未考虑稀疏性假设。作者提到“high dimensional covariates in the ARIC study”，但理论假设未明确处理高维场景。一个开放问题是：能否在sparsity假设下获得更快的收敛速率（如变系数、加性模型）？扎根于：“The ARIC study followed participant use of Statin and anti-coagulants… the dimension of covariates is large through the stages.”

值得研究者亲自核实的点：第一条gap是否真具有可做性，需阅读Cui et al. (2017) 和Wager & Athey (2018) 中关于随机生存森林的minimax下界文献，以及相对效率理论（如van der Laan & Luedtke, 2015）在生存结局下的现有结果。

Maintained by 陈星宇 · Homepage · Source on GitHub