Group sequential testing of a treatment effect using a surrogate marker¶

作者: Layla Parast, Jay Bartroff
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在未来的临床试验中，能否仅使用替代标记物（surrogate marker）的早期信息，来检验治疗效应（treatment effect），从而缩短试验周期、降低成本？ 核心挑战在于：替代标记物与最终结局（primary outcome）的关系通常未知且复杂，直接使用替代标记物进行检验可能产生误导性结论（如“替代悖论”）。当前该方向的成熟度处于“方法学正在建立但远未完善”的阶段：已有一些非参数检验方法，但大多局限于单个时间点的替代标记物测量，且缺乏序贯决策框架。

发展脉络（history）¶

奠基工作：定义与识别替代标记物。VanderWeele (2013) 系统定义了“一致替代物”（consistent surrogate）的条件，并指出替代悖论（surrogate paradox）的三种成因。Elliott (2023) 的综述则从因果推断视角梳理了替代标记物质量的正式定义与估计方法。这些工作为后续的检验方法提供了理论基础。
主要进展：从识别到检验。Parast et al. (2019) 提出了第一个非参数检验，仅使用未来研究（Study B）中单个时间点的替代标记物信息，通过借用先前研究（Study A）中替代标记物与结局的关系来检验治疗效应。这是本文的直接前身。Parast et al. (2023) 进一步考虑了替代标记物效用异质性（heterogeneous utility）的问题，提出了考虑协变量的检验方法。Price et al. (2018) 则从“最优替代物”的估计角度切入，使用超级学习器（super-learner）来预测结局。
当前 frontier：序贯设计与多时间点。现有检验方法大多假设替代标记物只在一个时间点测量。然而，实际临床试验中替代标记物（如CD4计数、病毒载量）常被重复测量。Anderer et al. (2022) 和 Li et al. (2022) 分别在贝叶斯自适应设计和条件功效（conditional power）框架下，探索了结合替代标记物与结局信息的序贯决策，但都依赖参数模型（如双变量正态）。本文的位置：将 Parast et al. (2019) 的非参数检验从单时间点扩展至多时间点，并引入群序贯（group sequential）停止边界，填补了“非参数 + 多时间点 + 序贯停止”这一空白。

子线索聚类¶

非参数检验（本文所属）：以 Parast et al. (2019, 2023) 为代表，核心思路是借用先前研究的信息，构造一个仅基于替代标记物的非参数检验统计量。优点是不依赖参数模型，缺点是通常需要“先前研究”的数据，且目前局限于单时间点。
参数/贝叶斯序贯设计：以 Anderer et al. (2022)、Li et al. (2022)、Quan et al. (2023) 为代表，在贝叶斯或双变量正态框架下，将替代标记物信息融入自适应设计或条件功效计算。优点是能处理更复杂的序贯决策，缺点是依赖模型假设，且通常需要同时使用替代标记物和结局信息。
替代悖论与稳健性：以 VanderWeele (2013)、Shafie Khorassani et al. (2023) 为代表，关注替代标记物失效的风险（如替代悖论），并试图通过协变量或元分析框架来量化风险。这一线索为检验方法提供了“安全网”，但本身不直接提供检验方法。

这个方向在追问的核心问题¶

如何在不依赖参数模型的前提下，利用多时间点的替代标记物信息进行检验？ 现有非参数方法只处理单时间点，参数方法又不够稳健。
如何设计序贯停止边界，使得基于替代标记物的早期停止既能加速决策，又能控制错误率？ 多时间点的检验统计量是相关的，其联合分布难以刻画。
“借用先前研究信息”这一范式在序贯设定下是否依然有效？ 先前研究的信息（如替代标记物与结局的关系）如何随时间点变化？是否需要动态更新？
如何量化并规避“替代悖论”在序贯检验中的风险？ 早期基于替代标记物的停止决策，可能因替代悖论而做出错误结论。

⚠️ 作者的 framing¶

作者的说法：作者将缺口 frame 为“现有非参数检验仅使用单个时间点的替代标记物信息，且缺乏序贯停止机制”。因此，本文的贡献是“自然的扩展”：将单时间点非参数检验推广到多时间点，并推导相关统计量的联合分布以构造停止边界。
被淡化/回避的竞争路线：作者明确将本文与参数/贝叶斯序贯设计（如 Anderer et al. 2022, Li et al. 2022）区分开，强调自己的非参数优势。但作者回避了一个关键问题：当“先前研究”不存在或不可靠时，本文方法是否还能适用？ 本文方法完全依赖于从 Study A 借用的信息（如替代标记物与结局的联合分布），若 Study A 不可得或与 Study B 人群不同，方法将失效。作者在讨论中仅轻描淡写地提到“需要进一步研究”。
什么明显该被引/该存在、却没出现在 intro 里？ 作者没有引用任何关于因果推断中“替代标记物验证”的现代方法，例如基于 principal stratification 或 natural direct/indirect effects 的框架。这些方法虽然不直接用于检验，但为“替代标记物是否可用”提供了更严谨的因果定义，可能对本文的假设（如 C1-C3）构成挑战或补充。此外，关于高维替代标记物（如基因表达数据）的检验方法也未提及。

张力¶

未见明显对立引用。所有被引工作基本认同“替代标记物有用但需谨慎”这一共识，分歧主要在于方法学路径（非参数 vs. 参数）和设定（单时间点 vs. 多时间点）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
T：最终结局（primary outcome），如死亡时间。是一个随机变量。
S(t)：在时间 t 测量的替代标记物（surrogate marker），如第 t 个月的 CD4 计数。t 是测量时间点，t ∈ {t_1, t_2, ..., t_K}。
G：治疗组指示变量（treatment indicator），G = 1 表示治疗组，G = 0 表示对照组。
Δ(t)：在时间 t 的治疗效应（treatment effect），定义为 Δ(t) = E[T | G=1, S(t)] - E[T | G=0, S(t)]。这是本文要检验的对象。注意：这里的 Δ(t) 是条件于替代标记物的治疗效应，而非边际效应。
Δ*：早期治疗效应（earlier treatment effect），定义为 Δ* = E[T | G=1, S(t*)] - E[T | G=0, S(t*)]，其中 t* 是某个选定的早期时间点。这是 Parast et al. (2019) 检验的对象。
δ(t)：在时间 t 的替代标记物上的治疗效应，定义为 δ(t) = E[S(t) | G=1] - E[S(t) | G=0]。
θ：从先前研究（Study A）中估计的、描述替代标记物与结局关系的参数。具体来说，θ = E[T | S(t), G] 的某种函数形式，用于将 Study B 中观测到的 S(t) 映射到对 T 的预测。
Study A：先前研究，其中 (T, S(t), G) 均可观测。
Study B：未来研究，其中只有 S(t) 和 G 可观测，T 不可观测（因为试验提前结束或未收集）。
模型：
数据生成机制：假设存在一个潜在的结果模型 T = f(S(t), G, ε)，其中 ε 是独立于 (S(t), G) 的随机误差。本文不指定 f 的具体形式（非参数）。
关键假设：
- (C1) 条件独立：在给定 S(t) 和 G 的条件下，T 与 S(t')（t' ≠ t）独立。这保证了 S(t) 是“足够”的替代物。
- (C2) 无删失：T 和 S(t) 均无删失（本文处理的是完全观测数据，但方法可扩展至删失数据）。
- (C3) 可传输性：Study A 中估计的 θ 可以传输到 Study B。即，E[T | S(t), G] 在 Study A 和 Study B 中是相同的函数形式。这是“借用信息”的核心假设。
要估的对象：Δ(t) 本身不是直接估计的，而是通过检验 H_0: Δ(t) = 0 来间接处理。
可观测数据：
Study A：{(T_i, S_i(t), G_i) : i = 1, ..., n_A}。研究者可以观测到每个个体的最终结局、所有时间点的替代标记物和治疗分配。
Study B：{(S_i(t), G_i) : i = 1, ..., n_B}。研究者只能观测到替代标记物和治疗分配，无法观测到最终结局 T。这是本文方法的应用场景：在 Study B 中，我们希望在结局发生前就做出决策。

第二步：讲最小内核¶

本文的最小内核是：将 Parast et al. (2019) 的单时间点非参数检验，推广到两个时间点（t_1 和 t_2），并构造一个序贯检验。

最简特例：假设只有两个时间点 t_1 和 t_2（t_1 < t_2），且我们希望在 t_1 和 t_2 分别进行一次检验，允许在 t_1 提前停止。

单时间点检验（Parast et al., 2019）：
- 在时间点 t，检验 H_0: Δ(t) = 0。
- 检验统计量 Z(t) 的构造思路是：
- 从 Study A 中，估计一个“预测模型” h_t(S(t), G) = E[T | S(t), G]。这通常是一个非参数回归。
- 在 Study B 中，对于每个个体 i，用其观测到的 S_i(t) 和 G_i，通过 h_t 计算一个“预测结局” Ť_i(t) = h_t(S_i(t), G_i)。
- 然后，在 Study B 中，比较治疗组和对照组的平均预测结局：Ť(t)_1 - Ť(t)_0。如果这个差异显著不为零，则拒绝 H_0。
- 统计量 Z(t) 就是 (Ť(t)_1 - Ť(t)_0) 除以其标准误。
两个时间点的序贯检验（本文的核心）：
- 在 t_1 点，计算 Z(t_1)。
- 如果 |Z(t_1)| > c_1（某个停止边界），则提前停止，拒绝 H_0（或接受 H_0，取决于边界类型）。
- 如果 |Z(t_1)| ≤ c_1，则继续试验，在 t_2 点计算 Z(t_2)。
- 在 t_2 点，如果 |Z(t_2)| > c_2，则拒绝 H_0；否则，不拒绝。
- 关键难点：Z(t_1) 和 Z(t_2) 是相关的，因为它们都基于 Study B 中同一批个体的替代标记物数据（只是时间点不同）。因此，不能简单地将 c_1 和 c_2 设为单次检验的临界值（如 1.96），否则会严重膨胀整体 I 类错误率。
本文的解决方案：
- 推导 (Z(t_1), Z(t_2)) 的联合渐近分布。作者证明，在正则条件下，(Z(t_1), Z(t_2)) 渐近服从一个均值为 0、方差为 1、相关系数为 ρ 的二元正态分布。这里的 ρ 可以通过 Study A 的数据估计得到。
- 计算停止边界 (c_1, c_2)。有了联合分布，就可以使用经典的群序贯方法（如 O'Brien-Fleming 或 Pocock 边界）来计算 (c_1, c_2)，使得整体 I 类错误率控制在预设水平（如 α=0.05）。例如，O'Brien-Fleming 边界会使得 c_1 很大（早期很难停止），c_2 接近 1.96；而 Pocock 边界会使得 c_1 = c_2。

一句话总结：本文的核心数学贡献是证明了多时间点替代标记物检验统计量的联合渐近正态性，并给出了相关系数的显式表达式，从而使得经典的群序贯停止边界可以直接应用。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在利用替代标记物进行治疗效应检验的框架下，提出了一种群序贯（group sequential）检验方法，允许在多个时间点基于重复测量的替代标记物信息提前停止试验（包括疗效显著性和无效性停止）。
核心工具/方法：将 Parast et al. (2019) 的单时间点非参数检验统计量扩展至多时间点，推导了这些统计量的联合渐近分布（多元正态），并据此计算了序贯停止边界。
主要结论：通过模拟和两个真实 AIDS 临床试验数据验证，所提方法能有效控制 I 类错误率，并在替代标记物能较好预测结局时，显著缩短试验所需时间（与等到最终结局相比）。

关键设定与假设¶

设定：假设有两个独立的研究：Study A（完整数据，用于估计替代标记物与结局的关系）和 Study B（仅有替代标记物数据，用于检验）。替代标记物在 Study B 的 K 个预设时间点 {t_1, ..., t_K} 被重复测量。最终结局 T 是时间-事件结局（但本文主要处理完全观测情况，删失情况作为扩展讨论）。
假设：
(C1)-(C3)：与第二节所述相同，是借用信息的基础。
(A1) 无信息删失：对于时间-事件结局，假设删失机制独立于事件时间和替代标记物。本文在主要推导中假设无删失，但在模拟和例子中考虑了删失。
(A2) 正则性条件：确保非参数估计量（如 h_t）的渐近正态性和相合性。这些条件包括核函数的光滑性、带宽的适当选择等，是标准非参数回归的条件。
相比已有文献的强化/放宽：相比 Parast et al. (2019)，本文放宽了“替代标记物只在单个时间点测量”的设定；相比 Anderer et al. (2022) 等参数方法，本文放宽了“替代标记物与结局关系服从参数模型”的假设。但本文强化了“Study A 必须存在且可传输”这一依赖。

主要结果¶

定理 1（联合渐近分布）：在假设 (C1)-(C3) 和 (A1)-(A2) 下，对于任意两个时间点 t_j 和 t_k，检验统计量 (Z(t_j), Z(t_k)) 渐近服从均值为 0、方差为 1、相关系数为 ρ_{jk} 的二元正态分布。ρ_{jk} 的表达式由 Study A 中 (S(t_j), S(t_k), T, G) 的联合分布决定，且可以通过 Study A 的数据一致估计。
直觉：相关性来源于 Study B 中同一批个体的 S(t_j) 和 S(t_k) 是相关的。
必要条件：Study A 的样本量 n_A 和 Study B 的样本量 n_B 都需趋于无穷，且 n_A / n_B 趋于一个常数。
解决的技术难点：推导 ρ_{jk} 需要处理非参数估计 h_t 带来的不确定性，以及两个时间点估计量之间的协方差。作者通过 influence function 展开 和 U-统计量 的技巧解决了这一问题。
定理 2（停止边界）：基于定理 1，可以使用标准的群序贯方法（如 O'Brien-Fleming, Pocock, 或 Lan-DeMets alpha spending function）来计算停止边界 (c_1, ..., c_K)，使得整体 I 类错误率控制在 α 水平。作者给出了两种边界：疗效显著性停止（efficacy stopping，拒绝 H_0）和无效性停止（futility stopping，接受 H_0）。
直觉：边界计算依赖于 (Z(t_1), ..., Z(t_K)) 的联合分布，而该分布由相关系数矩阵 {ρ_{jk}} 完全决定。
模拟研究：
设定：模拟了多种场景，包括替代标记物与结局的不同相关程度、不同时间点数量、不同停止边界类型。
核心结论：
- 所提方法能很好地控制 I 类错误率（接近名义水平 0.05）。
- 当替代标记物与结局高度相关时，平均停止时间显著早于等到最终结局的固定样本检验，且功效损失很小。
- 当替代标记物与结局弱相关时，方法仍能控制 I 类错误，但提前停止的优势减弱，甚至可能因无效性停止而过早放弃。
- 与“仅使用最终结局的群序贯检验”相比，本文方法在替代标记物有效时，平均样本量更小。

证明路线与技术技巧¶

整体路线：
定义单时间点检验统计量：Z(t) = (Ť(t)_1 - Ť(t)_0) / SE(Ť(t)_1 - Ť(t)_0)，其中 Ť(t)_g 是 Study B 中治疗组 g 的平均预测结局。
推导 Z(t) 的渐近等价形式：通过 influence function 展开，将 Z(t) 表示为 Study B 中个体独立同分布项的和，加上一个来自 Study A 的估计误差项。这个误差项是渐近可忽略的（在 n_A, n_B → ∞ 且 n_A/n_B → const 的条件下）。
推导 (Z(t_j), Z(t_k)) 的联合渐近分布：利用第 2 步的等价形式，将 (Z(t_j), Z(t_k)) 表示为 Study B 中个体独立同分布向量的和。然后应用多元中心极限定理，得到其渐近正态性。协方差矩阵的元素 ρ_{jk} 可以通过计算两个 influence function 的协方差得到。
估计 ρ_{jk}：用 Study A 的数据，通过 plug-in 方法估计 ρ_{jk}。这需要估计 h_t 以及 (S(t_j), S(t_k), T, G) 的联合分布。
计算停止边界：将估计出的相关系数矩阵代入群序贯边界计算程序（如 gsDesign R 包），得到 (c_1, ..., c_K)。
关键跳跃点：
处理非参数估计 h_t 的不确定性：h_t 是从 Study A 中估计的，其估计误差会影响 Z(t) 的分布。作者证明，在适当的条件下，这个误差是 o_p(1) 的，因此不影响渐近分布。这依赖于 cross-fitting 或 sample-splitting 的思想（虽然本文未明确使用，但渐近论证隐含了类似效果）。
推导 ρ_{jk} 的显式表达式：这是最吃功夫的部分。作者需要计算 Cov(ψ_i(t_j), ψ_i(t_k))，其中 ψ_i(t) 是 Z(t) 的 influence function。这涉及到对 h_t 的 Gateaux 导数以及 (S(t_j), S(t_k), T) 的联合分布的复杂计算。
技术技巧点名：
Influence function / 影响函数展开：用于将复杂的非参数估计量线性化，从而分析其渐近分布。这是本文的核心技术工具。
U-统计量理论：在推导 ρ_{jk} 时，涉及到对 h_t 的估计，而 h_t 本身可能是一个 U-统计量（如核回归）。作者使用了 U-统计量的 Hoeffding 分解来处理。
群序贯边界（Group Sequential Boundaries）：经典的统计方法，用于控制多重检验的 I 类错误率。本文将其应用于新的、非标准的检验统计量。

真实例子与应用¶

数据：两个 AIDS 临床试验数据。
ACTG 175：比较单药治疗与联合治疗对 AIDS 患者的影响。结局是 CD4 计数下降或死亡的时间。替代标记物是 CD4 计数（在多个时间点测量）。
CPCRA 007：比较两种抗逆转录病毒治疗方案。结局是 AIDS 进展或死亡的时间。替代标记物同样是 CD4 计数。
如何应用：
将其中一个试验视为 Study A（完整数据），另一个视为 Study B（仅有替代标记物数据）。
在 Study A 中，估计 h_t(S(t), G)（用非参数方法，如核回归）。
在 Study B 中，计算每个时间点的 Z(t)，并使用从 Study A 估计的相关系数矩阵，应用 O'Brien-Fleming 边界进行序贯检验。
结果：
在 ACTG 175 数据上，本文方法在第一个中期分析点（约 6 个月）就达到了疗效显著性停止，而等到最终结局的固定样本检验则需要更长时间。
在 CPCRA 007 数据上，本文方法未能提前停止（替代标记物与结局的相关性较弱），但最终结论与固定样本检验一致。
这个例子想说明什么：验证了方法在实际数据中的可行性，并展示了其优势（当替代标记物有效时能提前停止）和局限性（当替代标记物无效时不会误判）。

🔎 结论是否比证明窄¶

是。作者在引言和讨论中声称方法适用于“时间-事件结局”和“删失数据”，但主要定理的证明是在“完全观测、无删失”的设定下完成的。对于删失数据的处理，作者仅在模拟和例子中通过“将删失视为事件”或“使用逆概率加权”等启发式方法进行了处理，没有给出严格的渐近理论证明。因此，结论中关于“删失数据”的适用性，其理论支撑比证明窄。
具体语句：作者在定理陈述前写道“For simplicity, we assume no censoring...”，但在摘要和引言中却声称方法适用于“time-to-event outcome setting”。这是一个值得注意的 gap。

四、开放问题¶

删失数据下的严格理论：本文的主要定理假设无删失。能否在随机删失（random censoring）或信息删失（informative censoring）下，严格证明多时间点检验统计量的联合渐近正态性，并给出相关系数的显式表达式？这需要处理删失带来的逆概率加权或 augmented IPW 估计量。扎根点：定理 1 的陈述前“For simplicity, we assume no censoring...”。
动态借用信息：本文假设从 Study A 借用的信息（h_t）是固定的，不随 Study B 的序贯过程更新。能否设计一个自适应的序贯检验，在 Study B 的每个中期分析点，利用已观测到的替代标记物数据来更新 h_t 的估计？这可能会提高检验功效，但会引入更复杂的依赖结构。扎根点：讨论部分“...future work could consider updating the prediction model...”。
替代悖论下的序贯检验：本文方法假设替代标记物是“一致”的（即不存在替代悖论）。如果存在替代悖论（治疗对替代标记物有正向效应，但对结局有负向效应），序贯检验可能会做出错误决策。如何将替代悖论的风险量化并纳入序贯停止规则？扎根点：引言中引用了 VanderWeele (2013) 关于替代悖论的工作，但本文未处理此风险。
高维替代标记物：本文处理的是单个替代标记物在多个时间点的测量。如果替代标记物是高维的（如基因表达谱），如何构造有效的非参数检验统计量并推导其联合分布？这可能涉及到高维协方差矩阵估计和多重检验校正。扎根点：本文的设定是“a surrogate marker measured repeatedly over time”，未涉及高维场景。

Maintained by 陈星宇 · Homepage · Source on GitHub