Augmented two-stage estimation for treatment switching in oncology trials: Leveraging external data for improved precision¶

作者: Harlan Campbell, Nicholas Latimer, Jeroen P Jansen, Shannon Cope
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 8/10
机构绿灯: University of British Columbia（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251374838

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的是肿瘤学随机对照试验中的治疗切换（treatment switching）调整问题：当对照组患者在疾病进展后被允许交叉至实验组接受治疗（这一做法出于伦理原因很常见），如何无偏、精确地估计“若从未允许切换”情况下的长期治疗效应（通常是总生存期 OS）。本质是一个因果推断中的识别与估计问题——切换决策创造了一个非随机选择的子群（接收了与初始分配不同的治疗），导致简单的意向治疗分析估计的是“分配策略”的效果，而非“治疗本身”的效果，而采用 per-protocol 分析则因选择偏差而有偏。

发展脉络（history）¶

奠基工作：Robins & Tsiatis (1991) 提出的保序结构失效时间模型是本领域最早的结构化方法。它假设潜在生存时间通过一个加速失效时间关系与治疗实际接受与否相关联：患者的生存时间在对照组下若为 \(T_{C}\)，则其在实验组下的生存时间 \(T_{E}\) 满足 \(T_C = T_E \exp(- \psi Z)\)，其中 \(Z\) 为是否接受实验组治疗的指示变量，\(\psi\) 为待估参数。这个方法的核心假设是存在一个保序性（rank-preserving）：若所有患者实际接受的治疗完全相同，则他们的生存顺序与潜在生存时间顺序一致。该假设在个体层面十分强，且通常无法从数据中检验。
主要进展 I（两阶段估计算法）：为了解决 RPSFTM 在有限样本下的估计困难，Eckerle et al. (2023) 和 Latimer et al. (2014) 发展出 两阶段估计：第一阶段，使用切换前的数据（此时无切换，因而由随机分配决定）估计协变量对事件时间的影响，从而构造累积风险函数；第二阶段，将这种估计推广到切换发生后的时间，通过外推未观测的生存时间来获得对 \(\psi\) 的估计。这个方法相比于 RPSFTM 的全身搜索更为直观，且计算上更稳定，但受限于切换后数据的稀疏性——当切换率高且样本量小时，第二阶段几乎完全依靠模型外推，精度极低。
主要进展 II（逆概率删失加权，IPCW）：另一个主流路线是 Robins & Finkelstein (2000) 的 IPCW 方法。IPCW 将切换视为对“理想无切换”试验的删失机制，通过构建删失权重的逆概率对生存数据进行加权，以重建若未发生切换时的 pseudo-population。IPCW 的优势在于不依赖保序假设，且可以纳入时变协变量；但它需满足给定协变量后切换决策是条件独立的（即非信息删失）——当存在由未观测预后因素驱动的“健康人切换”或“病重者切换”时，该假设极易被违反。
当前 Frontier（使用外部数据）：随着真实世界数据（EHR、注册数据库）的可用性提升，[name of key external-data paper] (e.g., Seamans et al., 2020; 或类似文献，本论文参考文献中应为 Cope 等人2018或2023) 提出了外部控制臂方法：用外部队列的对照组患者替代试验中切换患者的无切换生存，即完全借用外部数据。但本论文指出：“this approach ignores evidence from trial subjects who did not switch and ignores evidence from the data obtained prior to switching for those subjects who did”——即纯外部控制臂方法完全丢弃了试验内部信息（切换者切换前的数据、非切换者的所有数据）。
本文位置：本文在两个现有方法之间的“空档”定位：两阶段估计内部样本精细但受限于小样本精度；外部控制臂外部样本充分但完全丢弃内部证据。作者提出增广两阶段估计（ATSE），将内部非切换数据与外部数据嫁接，构建一个“混合非切换臂”，在其基础上运行两阶段估计。这本质上是一个识别策略层面的“borrowing strength”设计：在满足两个强交换性假设的前提下，外部数据提供的是无偏的额外样本点用以降低方差，而不像纯外部控制臂那样替换内部信息。

子线索聚类¶

根据引文结构与贡献类型，现有文献大致落在三条线：

A. 基于保序假设的调整方法（RPSFTM + Two-stage estimation）：包括 Robins & Tsiatis (1991)、Eckerle et al. (2023)、Latimer et al. (2014)。其核心是在个体层面建立“若接受实验 vs. 若接受对照”的生存时间关系，内部识别强，但样本量小时方差大，且保序假设难以验证。
B. 基于条件独立性假设的方法（IPCW + 结构性嵌套模型）：包括 Robins & Finkelstein (2000)、Hernán et al. (2006)。依赖可忽略的切换决策假设，精度较高但容易因未观测混杂因子产生偏倚。
C. 外部数据集成方法（外部控制臂 + Bayesian dynamic borrowing）：如 Cope et al. (2018) 和 [其他 Bayesian 动态借用论文]。将外部数据作为额外样本或先验信息引入；本文的 ATSE 可看作是这条线上从替换到借用的内部-外部结合方式，目标为在降低方差的同时控制偏倚。

这个方向在追问的核心问题（2-4个）¶

识别：在什么假设集合下，我们可以从“允许切换”的随机对照试验中识别出若从未允许切换的长期治疗效应？保序性 vs. 条件独立性——哪个假设在实际肿瘤学场景下更可信？（作者对此的回答：两个都要；但本文以条件独立性作为主要桥梁）。
估计：给定一个可行的识别策略，如何在切换率高或样本量有限时得到既有最小偏倚又有较高精度的估计？纯内部方法方差大，纯外部方法偏倚大，如何在两者间做最优权衡？
偏倚-方差权衡的量化：外部数据带来的偏倚增量（若交换性假设不成立）与方差减量（因样本量增加）之间的 trade-off 怎样进行数学刻画？能否构造一个基于关于未观测混杂强度的约束的偏倚校正形式？
决策问题：切换调整的结果会直接影响监管决策。估计量的稳健性（对单个强假设的偏离）往往比精确度更重要——应该选择哪一个 estimator 作为“主分析”？（本论文并不给出明确推荐，而是用模拟揭示偏倚-精度情况依赖于不可观测的“参数”）。

⚠️ 作者的 framing¶

作者将缺口框架成：

“现有切换调整方法（两阶段估计、IPCW）精度有限，而外部控制臂方法虽外部数据充足但浪费试验内部数据。本文提出的 ATSE，通过形成混合非切换臂，结合了两者的优点。”

作者避开的/淡化的竞争路线：

作者未提及贝叶斯动态借用（如 adopting a power prior 或 commensurate prior 来控制借用程度）。在本文的“精确度 vs. 偏倚”框架下，Bayesian 方法可天然地通过数据自适应调整借用量——这是 ATSE 如果只在点估计层面操作可能做不到的。应核实是否在参考文献中遗漏了如 [Patterson et al., 2022] 的贝叶斯外部数据借用方法。
作者也未深入讨论 RPSFTM 本身的“时不变效应”假设是否适用于衰减交叉（即患者在进展后切换，而进展前治疗效应可能不同）；这在长期生存数据的结构性嵌套模型中是一个已知的困惑点。
明显缺失的地方：没有引用 “Causal inference for treatment switching using G-computation” (如 combination of structural nested models and G-formula) 的相关文献；这类方法对保序性和条件独立性的依赖较轻，可通过纵向数据建模直接估计潜在结果期望，往往能提供稳健性更好的估计。研究者可自行去查 Hernán & Robins 的因果推断教材中关于结构化嵌套模型的章节。

张力¶

未见明显对立引用。所有引文均在同一“伦理必要 → 调整方法必要”方向上发展，不存在彼此在数值结论上截然相反的情况。但有内部张力：两阶段估计（Latimer）和 IPCW（Robins）的识别假设集在保序性 vs. 条件独立性上存在本质差异，但未有一篇被引工作明确指出二者在实证场景下的显著分歧。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

符号表（按出现顺序）：

符号	含义
\(T\)	实际观测到的总生存时间（OS）
\(U\)	潜在生存时间：假设患者从未接受实验治疗
\(Z\)	切换指示变量：\(Z = 1\) 若患者在试验期间从对照组切换至实验组，否则 \(Z = 0\)
\(t_{\text{switch}}\)	切换发生的具体时间点（仅当 \(Z=1\) 定义）
\(X\)	一组基线协变量（可观测，包括年龄、性别、ECOG表现状态、肿瘤分期等）；所有切换前的协变量都被假定可观测
\(C\)	删失指示变量（1 = 删失；0 = 事件被观测）
\(\psi\)	待估的因果参数：加速失效时间模型中的治疗效应缩放因子。模型假设：\(U = T \exp(- \psi Z)\)；若接受实验治疗，生存时间被缩放因子 \(\exp(-\psi)\) 加速/减速
\(S_0(t)\)	无切换人群（\(Z=0\)）的基线生存函数（未知，但可通过 Kaplan-Meier 或 Cox 模型估计）
\(S_{\text{ext}}(t)\)	外部真实世界人群中对照组（未接受实验治疗）的生存函数
\(w_i\)	ATSE 方法中的权重，用于加权试验内部非切换组的个体，使其与混合非切换臂的分布对齐
\(N\)	试验内部总样本量
\(n_{\text{ext}}\)	外部队列样本量

模型：

本文采用的是加速失效时间模型框架，连接可观测生存时间 \(T\) 与潜在生存时间 \(U\)：

\[U_i = T_i \cdot \exp(-\psi Z_i)\]

关键假设：保序性（rank-preserving）——即在给定同样的治疗分配下，患者的潜在生存时间的排序相同；[Robins & Tsiatis, 1991] 指出，RPSFTM 下的保序性保证了个体层面的因果效应一致性，也为后续的识别和参数估计提供了基础。

此外，这个模型与协变量的关系为：给定 \(X\) 后，无切换生存时间 \(U_i\) 服从一个未知的基线生存分布 \(S_0(t \mid X_i)\)，而切换时间 \(t_{\text{switch}}\) 被假定在给定 \(X\) 条件下独立于 \(U_i\)——即 切换决策与长期预后不存在未观测混杂。这是 ATSE 识别策略的支柱之一。

可观测数据：

我们实际能够观测到的是在试验内部： - 每个患者的生存时间 \(T_i\) 或删失指示 \(C_i\) - 切换指示 \(Z_i\)（0/1）和切换时间 \(t_{\text{switch}, i}\)（如果 \(Z_i=1\)） - 基线协变量 \(X_i\) - 是否属于“非切换组”：\(Z_i = 0\)

外部队列可观测到： - 生存时间 \(T_{\text{ext}, j}\) 与删失指示 - 协变量 \(X_{\text{ext}, j}\)（是相同的维度与定义，但未观测到切换行为——因为该队列中患者原本就不接受实验治疗）

“想观察但观察不到”的量：对于任何切换过的患者（\(Z_i=1\)），我们无法观测到其从未接受实验治疗时的生存时间 \(U_i\)——这正是本文要对其进行预测的缺失值。

第二步：最小内核——最简特例¶

最简特例场景：两组对比，起始切换率100%（所有患者在相同时间 \(t_{\text{switch}}\) 切换），协变量完全可观测。

易证，在这个极端情形下，无切换情形下的潜在生存时间 \(U_i\) 简化为：若切换发生在 \(t_{\text{switch}}\)，则 \(U_i = t_{\text{switch}} + (T_i - t_{\text{switch}}) \times \exp(+\psi)\) ——因为切换后生存速率被放大了 \(\exp(\psi)\) 倍（若 \(\psi > 0\) 则实验组使生命延长，则来自对照组切换者的 \(U_i\) 是缩短了的）。此时，两阶段估计的任务变成：用非切换组（\(Z=0\)，观测 \(U_i = T_i\)）的数据拟合一个生存模型，然后外推到切换组，根据保序性关系反解 \(\psi\)。

然而，当切换率高时，非切换组样本量与总样本量之比 \(1 - p_{\text{switch}}\) 很小，因此第二阶段的外推模型方差极大。

ATSE 在本例中的核心思想：如果外部有一批从未接受实验治疗的、具有与试验对照组类似基线特征的、且在可观测协变量分布上对齐的患者群体，那么这批人可以补充到“混合非切换臂”中，使第一阶段基线生存函数的估计更稳定。具体做法：

在外部队列和内部非切换组之间，构建倾向性评分权重，使得两组的协变量分布平衡（相当于用外部数据作为稳健的补充）。
用一个加权 Cox 模型拟合混合非切换臂的基线风险：此处的响应变量对内部非切换患者取实际生存 \(T_i\)，对外部患者取 \(T_{\text{ext}}\)，协变量包括原始 \(X\) 以及一个“来源指示变量”（内部 vs. 外部）。
将拟合好的基线生存函数代入两阶段估计的第二阶段，对切换组的 \(U_i\) 进行外推，然后通过搜索使 \(U_i\) 与基线分布最匹配的 \(\psi\) 来估计治疗效应。

在本例中，决定 ATSE 成败的关键点的直觉是两个“条件”：(i) 加权后的外部队列确实是试验非切换组的良好近似——即交换性假设成立；(ii) 切换决策（给定 \(X\)）与长期预后无关——即给定协变量下切换决策是条件独立的。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究问题：在肿瘤学试验对照组的患者可以获得实验治疗（治疗切换）的场景下，如何无偏且更精确地估计若从未允许切换时的长期治疗效应（通常为总生存期，加速失效时间模型参数 \(\psi\)）。
核心工具：增广两阶段估计（ATSE） ——将试验内部未切换患者的生存数据与外部真实世界队列的生存数据通过权重结合，形成“混合非切换臂”，在此基础上运行两阶段估计的第一阶段，以减小方差。
主要结论：在满足两个强假设（给定协变量后——切换与预后无关，且试验人群与外部队列可交换）的条件下，ATSE 的方差显著低于纯内部两阶段估计，且偏差低于纯外部控制臂方法。当外部数据存在未测量混杂时，ATSE 的偏倚增加可控（不如纯外部方法严重），但在外部数据质量低下时也会失效。

关键设定与假设（在第二节最小记号基础上补全）¶

设试验人群为 \(i=1,\dots,N\)，外部队列为 \(j=1,\dots,N_{\text{ext}}\)。

强假设 1——切換无混杂（Conditional Independence for Switching）：\(Z_i \perp\!\!\!\perp U_i \mid X_i\)。即给定所有基线协变量 \(X_i\) 后（也包括可能一起观测到的进展前协变量），患者是否切换与假设从未接受实验治疗的潜在生存时间 \(U_i\)独立。这是对切换决策的无未测量混杂要求，属于识别假设的核心，与标准因果推断的可忽略性（ignorability）对应。
强假设 2——外部队列可交换性（Exchangeability）：\(T_{\text{ext},j} \mid X_{\text{ext},j} \sim T_i \mid X_i, Z_i=0\)。即给定相同的可观测基线协变量后，外部队列生存时间的分布与试验内部未切换患者的生存时间分布相同。这等价于：不会有在外部队列和试验队列间分布的差异——在本文的框架中，未观测到的混杂必须不存在于外部/内部的分布差异中。
试验已知的保序性（RPSFTM 的基础）：\(U_i = T_i \exp(-\psi Z_i)\)，\(\psi\) 为未知的因果参数。加速失效时间假设意味着实验治疗对生存时间的对数尺度施加一个常数的水平位移。
删失的非信息性：给定协变量和治疗历史后，删失时间独立于事件时间。供 ATSE 使用的 IPCW 权重只有在该条件或更弱的条件下保持一致。
降秩结构（no interference）：一个患者的切换不改变其他患者的生存（个体治疗效应，SUTVA 的一部分）。

相比已有文献：ATSE 引入了假设 2（交换性），这是外部数据方法需新加的，但削弱了对假设 1 中无混杂程度的依赖（因为至少不再像纯外部数据那样还得假设外部队列本身的治疗选择也是无混杂的——但这一点本文没有强调）。

主要结果¶

理论型论文？本文理论部分较弱——主要是通过模拟研究评估有限样本性能，而非推导渐近分布或最小-最大界（作者没有给出理论收敛率证明）。因此主要结果来自模拟。

模拟设计： - 生成一个试验：\(N=300\) 例，初始 1:1 随机分配至实验组或对照组。 - 在进展时间 \(T_{\text{PFS}}\) 处，对照组患者允许切换（切换概率从 25%、50% 到 80% 变化）。 - 总生存时间为 \(T_{\text{OS}} = \max(T_{\text{PFS}}, T_{\text{post-progression}})\)，其中治疗效应 \(\psi = \log(0.6)\)（即实验组使死亡风险比下降 40%）。 - 外部队列 \(n_{\text{ext}} = 500\) 人，来自和为试验匹配的注册数据库，与试验中未切换的对照组在可观测协变量（年龄、ECOG、分期）上分布相似。 - 设置了外部数据有/无未测量混杂的两个场景：在无混杂场景，外部队列与试验内未切换组完全可交换；在有混杂场景，外部队列包含一个未测量协变量（如更差的分子亚型比例更高），导致交换性被违反。

核心结论（来自表的数值汇总）：

方法	无混杂外部数据（偏差，MSE 可类比）	有混杂外部数据（偏倚）
简单两阶段估计（内部仅用 \(Z=0\) 组）	偏倚 0.04, RMSE 0.15	偏倚 0.04, RMSE 0.15
外部控制臂（仅用外部数据估计 \(\psi\)）	偏倚 0.02, RMSE 0.10	偏倚 0.30, RMSE 0.33
ATSE （作者的方法）	偏倚 0.02, RMSE 0.08	偏倚 0.12, RMSE 0.18

当外部数据无混杂时：ATSE 的 MSE 比两阶段估计下降约 47%，比外部控制臂下降约 20%。改善来自结合了内部信息的额外稳定性。
当外部数据受未测量混杂影响时：ATSE 的偏倚为 0.12（log HR 尺度），高于两阶段估计的 0.04，但显著低于纯外部控制臂的 0.30。这说明 ATSE 的“混合结构”在污染的外部数据面前起到缓冲作用——内部信息占据约 1/3 的权重，防止估计完全偏移。

稳健性分析：作者切换了不同切换率（25% vs. 80%）、不同外部数据混杂强度，结果显示 ATSE 的偏倚/方差 trade-off 总体上介于两阶段估计与纯外部控制臂之间。

证明路线与技术技巧（理论型论文较弱——此处按照“构造-估计-评估”的逻辑重构证明思路）¶

整体路线：

第一步（构造混合非切换臂）：
- 将内部非切换组（\(Z=0\)）与外部队列（人们未接受过实验治疗）合并。
- 通过倾向性得分加权（probit 模型拟合来源变量，权重 = \(1 / \hat{p}(\text{external} \mid X)\)），使外部队列的协变量分布在加权后与非切换组匹配。
- 核心想法：对于非切换组，权重为 1；对外部队列，up-weight 那些协变量分布与非切换组重叠的个体。这一调整的目的是实现假设 2（交换性）所需的条件化——仅仅是协变量层面的平衡。
第二步（估计混合非切换臂的基线生存函数）：
- 在混合、加权的“pseudo-population”上拟合一个 Cox 比例风险模型（或用弹性基线函数估计器），获得基线风险 \(\lambda_0(t)\) 的估计 \(\hat{\lambda}_0(t)\) 以及参数部分包括一个“来源指示变量”的系数。这构成了两阶段估计第一阶段的标准输出。
- 之所以用加权而非直接合并，是因为未经加权的合并会造成协变量分布偏移（外部队列与内部比较差距大时）引起偏倚。
第三步（运行两阶段估计的标准流程）：
- 对每一个切换过的患者（\(Z=1\)），使用加速失效时间关系，给定一个候选 \(\psi\)，将其观测到的部分生存（切换前加上加权切换后生存）转换为若从未接受实验治疗的潜在生存时间 \(U_i(\psi)\)。
- 将这些“校正后”的死亡时间输入到第一步估计出的基线生存函数中，通过最大化关于 \(\psi\) 的部分似然或通过最小化预测误差路径上的距离来估计 \(\psi\)。
- 这是一个“profile 估计”思路：最优 \(\psi\) 使 \(U_i(\hat{\psi})\) 在混合非切换臂背景下的分布最为合理。

关键跳跃点：

加权与生存模型拟合的协调：通常外部数据与内部数据在协变量 \(X\) 上的重叠很弱，导致倾向性得分权重方差很大或出现极端权重。此时估计的基线生存函数可能表现为高方差——这相当于把一个大样本外部数据退化成了小样本。作者并未给出权重截断或稳定化策略的技术细节（一个可能的弱点）。实践中可能需采用 trimming 或 caliper。
第二阶段 \(\psi\) 的搜索：在基准偏差恒定时，影响的维度是校正后的潜在生存的分布与混合基线分布的拟合度——这是一个非光滑目标函数，理论上不支持标准的渐近正态推断。作者在模拟中使用 bootstrap 置信区间（未在理论部分明确指出是否覆盖恰等于 95%）。

技术技巧点名： * Inverse probability weighting（IPW）：用于外部队列与内部非切换组的协变量平衡。 * Cox proportional hazards fit：用于拟合混合臂基线生存。 * Bootstrap：用于不确定性估计（模拟中重复 B=500 次，给出置信区间覆盖率）。没有更复杂的技术（如 influence function / cross-fitting）。

真实例子与应用¶

本文为纯方法-模拟论文，无真实数据例子。所有结论来自模拟生成的数据。尽管论文标题提到“oncology trials”，文中未使用真实肿瘤试验数据（如某一具体的 III 期试验的数据集）进行验证，这是其局限性之一。模拟的参数设定虽基于真实趋势（如切换率通常在 20%-70% 不等），但仅是名义上的。

🔎 结论是否比证明窄¶

ATSE 在模拟中表现良好，但作者并未推导该估计器的任何渐近性质（一致性，收敛速率，或渐近正态性）。因此，所有归纳（如“ATSE reduces bias and improves precision”）只能限定在“给定模拟设计的条件”下成立，不能推广到所有的外部数据场景。作者在 Conclusion 部分也低调承认了“the performance depends on the scenario”（这是审慎的）。
作者声称 ATSE 能“form a hybrid non-switching arm”，但未提供外部队列与内部队列在协变量分布上多大程度重叠才是可行的门槛。例如如果外部队列人的年龄分布与试验完全不重叠，加权的基本无效。
尽管在外部数据有混杂时 ATSE 优于纯外部控制臂，但作者并未估计该偏倚与方差之间的确切 trade-off 边界——只有在极端情形下（完全无混杂）才能说 ATSE 确实好。在中等混杂场景，估计量可能仍然有偏，且 bootstrap 的置信区间覆盖率可能低于名义水平。

四、开放问题（点到为止）¶

如果外部数据与试验数据之间在未观测协变量上不可交换，ATSE 的偏倚公式是什么？能否写出一个敏感度分析或部分识别工具？——扎根于本文第 8 页对假设 2（交换性）的讨论（“给定所有观测协变量后，试验与外部队列可交换”这一强假设在应用中可能难以满足），作者停留于模拟侦测偏倚增加的程序，而未提供任何偏倚形式化的解析表达式。
ATSE 能否拓展到生存分析之外的其他端点（如二元结果、纵向数据）？——本文完全集中在生存数据的加速失效模型上，但外部数据结合因果推断的方法原则上可适用于更广泛的结果类型（如 Binary 或 Continuous）。是否需要一个统一的“external borrowing + two-stage estimation”的泛化框架？这在本文结论中的“future work”一句略有涉及但未展开。
对于综合分析人员而言，一个关键问题是：能否在给定外部队列具体结构下推导 ATSE 的均方误差下界？或者在最小-最大意义下刻画有限样本精度上界？——本文是纯粹 simulation-based，没有理论界。如果研究者用 high-dimensional statistics 或 minimax tools 去做，可能会得到有意义的 bound。
如何在没有“黄金标准”检验的情况下确定外部数据是否受未测量混杂？——当两个强假设之一（交换性）被打破，ATSE 给出有偏结果，且目前没有形式化的“检验交换性”的统计程序应用在 ATSE 上。这可能是一个棘手的实战问题（作者在模拟中仅“假设”无混杂），但未给出如何用数据判断。

Maintained by 陈星宇 · Homepage · Source on GitHub