Group sequential testing of a treatment effect using a surrogate marker¶

作者: Layla Parast, Jay Bartroff
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：如何在“替代标记物（surrogate marker）”的帮助下，更早地在临床试验中做出关于“处理效应（treatment effect）”的统计推断。核心困难在于，替代标记物的信息（通常早于主要结局被观测到）能否被可信地用于提前判断处理效果，而不必等到最终结局。该方向当前正从“识别与验证替代标记物”的层面，向“如何在前瞻性试验设计中主动利用替代标记物进行决策”的层面过渡；本文是这一过渡中的一篇具体工作——它将单时间点的替代标记物检验推广到了多时间点的群序贯（group sequential）设定。

发展脉络¶

奠基工作：定义与评估替代标记物（1989–2013）
Prentice (1989) 给出了替代标记物的经典操作定义：一个有效替代标记物必须能“捕捉”处理对所有结局的因果效应（即，在给定替代标记物的条件下，处理与结局条件独立）。
Wang & Taylor (2002) 和 Chen et al. (2007) 将在替代标记物研究中必要的假设（如C1-C3）固定下来——本文直接引用了这些假设作为其方法学基础。
VanderWeele (2013) 正式化了“替代标记物悖论”（surrogate paradox）的概念，并给出了保证悖论不成立的条件。这使得该领域开始警惕：即使替代标记物与结局高度相关，处理对其的正效应也可能与处理对结局的负效应共存——这一点直接影响了后续所有“用替代标记物做决策”工作的风险评估框架。
Elliott (2023) 的综述性工作系统梳理了各种替代标记物验证方法，并以因果推断范式（因果路径）作为衡量标记物质量的标准。本文引用它时说“稳健的统计方法已被开发来识别有效替代标记物”（Rigorous statistical methods have been developed to identify valid surrogate markers），这表明“识别与验证”这一层面已被认为比较成熟，该转向下一种应用场景。
主要进展：用替代标记物检验处理效应（2019–2023）
Parast, Cai & Tian (2019) 提出了一个非参数检验：在未来试验（Study B）中仅观测替代标记物信息，通过从前期试验（Study A，同时观测了替代标记物和最终结局）借信息来检验处理效应。这是第一个真正意义上“用替代标记物做决策”而不是“评估替代标记物质量”的模型无关方法。但该检验只考虑单个时间点的替代标记物。
Parast, Cai & Tian (2022) 扩展了上述思路，考虑了替代标记物效用的异质性（heterogeneous utility）——即替代标记物的预测能力在不同子人群间不同。他们开发的检验能控制此类异质性。
Price, Gilbert & van der Laan (2018) 从一个不同的角度：他们定义了“最优替代标记物”（optimal surrogate）——最符合Prentice定义的、预测最终结局最好的函数——并用超级学习器（super-learner）和靶向超级学习器（targeted super-learner）来估计它。本文引用该工作时的定位是“替代标记物检验的另一种策略”。
当前Frontier：群序贯设计与多时间点替代标记物（2022–2024）
Anderer et al. (2022) 在双变量正态假设下，将结局与替代标记物结合在一个贝叶斯自适应设计中。这是最早尝试将替代标记物纳入序贯决策的工作之一，但严重依赖参数假设。
Li et al. (2022) 提出在事件发生时间（time-to-event）设定中，用替代标记物在中期分析中计算条件概率（conditional power）以做出自适应决策。同样地，他们的方法假设延迟效应（delayed treatment effect）。
本文（Parast & Bartroff, 2024） 主张它填补了以下缺口：现有方法要么将替代标记物与结局组合使用（而非仅用替代标记物），要么依赖参数假设，要么假设单一时间点。它提出一个完全非参数的、群序贯的检验框架，仅基于替代标记物信息，且允许替代标记物在多个时间点被重复测量。
本文的位置 作者在intro中将该领域的推进简化为两条平行路线：（1）决定“是否”可以使用替代标记物（验证/评估）；这条路线已成熟。（2）决定“如何”使用替代标记物（做决策）；这条路线刚开始，且本文是第一个将“仅用替代标记物、借信息、非参数检验”从单时间点推广到多时间点群序贯的工作。换句话说，作者将其方法定位于此前Parast et al. (2019, 2022)工作的自然、必需和显然的延拓——序贯测试的现实需求催生了这个改进。

子线索聚类¶

这些被引文献大致落在以下3条子线索上：

线索A：替代标记物的验证与评估（Prentice 1989; Wang & Taylor 2002; Chen et al. 2007; VanderWeele 2013; Parast et al. 2017; Elliott 2023; Shafie Khorassani et al. 2023）：主要关注替代标记物的定义、验证标准、悖论风险。这部分基本成熟，被本文作者视为“已解决的背景”。
线索B：用替代标记物做单点决策（Parast et al. 2019, 2022; Price et al. 2018）：提出在最终结局尚未观测到时，仅用替代标记物检验处理效应。主要特点是方法非参数、从前期研究借信息。本文直接站在这条线的肩膀上。
线索C：将替代标记物纳入自适应/序贯设计（Anderer et al. 2022; Li et al. 2022; Quan et al. 2023; Saint-Hilary et al. 2019）：共同特点是需要将替代标记物与结局组合使用（或需要参数假设），目的是算出统计量或条件概率后做决策。本文主张它是线索B的非参数、仅用替代标记物、多时间点版本的对应物。

这个方向在追问的核心问题与已知瓶颈¶

替代标记物能有多“早”地被用来做决策？ 单时间点的检验已存在，但序列检验需要在多个时间点（如3个月、6个月、12个月）都有替代标记物测量值，关联结构复杂。
如何控制多重重试的Type I error？ 序列检验需要计算多个检验统计量的联合相关性并据此确定边界。
信息借贷（borrowing）在序贯设定下如何操作？ 前期研究（Study A）中替代标记物与最终结局的关系是已知的；Study B中仅有替代标记物——但在Study B的时间序列中，每次分析时“哪些信息已被观测”在变化。
如何平衡效率和安全性？ 早期停止对有效性（efficacy stopping）和无效性（futility stopping）都需要边界，但替代标记物的预测能力不是完美的，早停可能增加假阳性/假阴性的风险。

已知瓶颈：几乎所有现有工作在群序贯设定下都退回到参数假设（如双变量正态）或需要同时观测结局；完全非参数、仅用替代标记物、多时间点的框架是空缺。

⚠️ 作者的framing（必须明确标出“这是作者的说法”）¶

作者将现有工作的缺口frame为：“现有方法要么需要将替代标记物和结局结合使用，要么依赖严格的参数假设，要么假设替代标记物只在单一时间点测量”。这是作者的说法，它使得本文的三大特征（非参数、仅用替代标记物、多时间点）成为“显然的下一步”。

有几个竞争路线被淡化或回避： - 贝叶斯方法（Anderer et al. 2022; Quan et al. 2023; Saint-Hilary et al. 2019）：作者将它们与“依赖参数假设”一起归入“parametric methods”一类，但在intro中并未仔细讨论贝叶斯方法在序贯决策中的自然优势（如posterior probability of success可直接用于stopping，而无需专门的边界计算）。作者选择了“非参数借信息+经典群序贯框架”的混合路线——这并非唯一且未必最优的策略。 - 直接观测部分最终结局的方法：如果Study B虽然不能等到所有受试者都完成最终结局，但可能已有部分人完成？作者没有面对这种情况——他的方法完全不需要观测任何最终结局，但也因此更依赖替代标记物的验证假设。

什么明显该被引/该存在、却没出现在intro里？ - 作者没有引用任何关于替代标记物悖论检验在序贯设定下如何处理的工作。例如，VanderWeele (2013) 的悖论风险在该设定下是否加剧？这是可以去查的一个问题。 - 作者没有引用 Pocock (1977) 或 O'Brien-Fleming (1979) 关于群序贯边界的经典文献——这是群序贯测试的标准引用；可能因为本文的边界计算是通过α消耗函数（alpha spending function）直接实现的，但这些经典边界的讨论不是正文核心，但应该在intro中被提到以定位方法的类型。 - 作者没有引用任何关于 多重比较（multiple testing） 或 familywise error rate控制 在序贯测试中的一般性理论（如Lan-DeMets spending function 1983）。这在方法学上是缺失的，因为本文的目标是控制FWER，但推导是靠直接计算相关结构与多元正态近似。

张力¶

未见明显对立引用。所有被引工作之间更多的是补集关系（不同设定、不同假设）而不是矛盾关系。例如，Parast et al. (2019)（非参数、单时间点）与Anderer et al. (2022）（参数、贝叶斯、结合结局）适用于不同的情景，而非彼此冲突。但有一点值得注意：Price et al. (2018) 的“最优替代标记物”路线强调筛选最优的组合预测函数，而 Parast et al. 的路线则强调“直接用原始替代标记物借信息”——这两个框架在概念上是相当不同的，但作者在intro中将它们并列而没讨论这一张力。这是一个值得研究者去读原文并自己判断的问题。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \(T\)：处理组指示变量（treatment indicator），\(T=1\)表示处理组，\(T=0\)表示对照组。 - \(Y\)：主要结局（primary outcome），在本文的设定中是时间-事件（time-to-event）结局，如生存时间。 - \(S(t)\)：在时间\(t\)测量的替代标记物（surrogate marker）；此处它是一个时间序列或时间依赖的量。本文假设\(S(\cdot)\)在多个时间点\(t_1 < t_2 < \dots < t_K\)被测量。 - \(S_L(t)\): 在\(L\)研究（Study A或Study B）中，于时间\(t\)测量的替代标记物。\(L \in \{A, B\}\)。 - \(Y_L\)：在\(L\)研究中测量的主要结局。 - \(\Delta = E[Y | T=1] - E[Y | T=0]\)：目标estimand——处理对主要结局的平均因果效应。 - \(\Delta_S(t) = E[S(t) | T=1] - E[S(t) | T=0]\)：处理对在时间\(t\)的替代标记物的平均因果效应。 - \(\mu_s(t) = E[Y | S(t) = s, T=1]\) 或类似条件期望。核心的函数是 “从替代标记物值到主要结局值的映射” ，由Study A学习得到（由于在Study A中同时观测了\(S_A(t)\)和\(Y_A\)）。具体地，本文定义：

\[r(s) = E[Y | S = s, T=1]\]

这是在处理组（\(T=1\)）中给定替代标记物值\(s\)时的条件期望。由于作者假定替代标记物不随处理改变其预测能力（即处理仅通过改变\(S\)的分布来改变\(Y\)的分布——这是关键的传输性假设，见后面假设），\(r(s)\)在Study A和Study B中是相同的。 - \(\hat{r}(s)\)：基于Study A的经验估计。 - \(U(t)\)：在Study B中基于替代标记物\(S_B(t)\)构建的检验统计量。在单时间点下，\(U \propto \sum_{i \in \text{Study B}} [r(S_{B,i}) - \text{有关的量}]\)。正式定义在第三节。 - \(Z(t) = U(t) / \sqrt{\hat{Var}(U(t))}\)：标准化后的检验统计量，近似为正态分布。\(Z(t_1), Z(t_2), \dots, Z(t_K)\)是多个时间点的检验统计量序列，它们之间存在相关性。

模型： - 数据生成遵循 两个独立的研究： - Study A（前期研究） ：观测 \((T_{A,i}, Y_{A,i}, S_{A,i}(t_1), S_{A,i}(t_2), \dots, S_{A,i}(t_K))\)，即同时观测了替代标记物和主要结局。通过该研究学习\(r(s)\)。 - Study B（未来研究） ：观测 \((T_{B,i}, S_{B,i}(t_1), S_{B,i}(t_2), \dots, S_{B,i}(t_K))\)，即只观测替代标记物，不观测主要结局Y。目标是基于\(S_B(t)\)序列进行序贯检验。 - 两个研究独立。 - 关键假设（传输性假设，transportability）：\(r(s)\)在Study A和Study B中是一致的——即，处理对结局的效应完全通过对替代标记物的效应来传递（相当于一种形式的“无直接效应” + “无交互”假设；作者在引言中将其列为Assumption (A1)）。这是一个强但标准（且与VanderWeele 2013中“consistent surrogate”概念对齐）的假设。 - 其他标准假设：SUTVA、ignorability（由于是随机试验，这是自动满足的）、non-informative censoring（如果结局是时间-事件型）。

可观测数据： - Study A：可观测 \((T, Y, S(t_1), \dots, S(t_K))\)。 - Study B：可观测 \((T, S(t_1), S(t_2), \dots, S(t_K))\)——只有替代标记物。 - 不可观测量：Study B中每个受试者的\(Y_B\)。考虑到检验的目的，我们根本不需要观测到它——这是替代标记物方法的意义。

第二步：讲最小内核¶

本文的最小内核是一个从单时间点推广到多时间点的序列检验。我们来剥去“censoring”、“survival endpoint”、“futility stopping”等复杂性，专注在最简单的理想情形。

最简特例：

假设： 1. 结局是连续的、完全观测的（没有删失），即\(Y \in \mathbb{R}\)，Study A和B中的\(Y\)都是立即被观测的（只是为了学习\(r(s)\)，Study B实际上不观测Y，但理论上它是可观测）。 2. 替代标记物是标量（\(S \in \mathbb{R}\)），且只在两个时间点测量：\(t_1\)（较早期）和\(t_2\)（较晚期）。 3. 关系是线性的：假设在处理组（\(T=1\)）中，

\[E[Y | S=s] = \beta_0 + \beta_1 s\]

并且在Study A和B中相同。 4. 处理只改变S的均值：\(E[S(t) | T=1] = \mu_1(t)\)，\(E[S(t) | T=0] = \mu_0(t)\)，且\(\mu_1(t) - \mu_0(t) = \delta(t) > 0\)（处理使得S增大）。不改变方差或其他moments。

在这个最简设定下，整个方法的本质是：

Step 0（准备工作）：使用Study A的数据，估计出回归系数 \((\hat{\beta}_0, \hat{\beta}_1)\)（或更一般地，非参数估计\(\hat{r}(s)\)）。
Step 1（构建单时间点检验统计量）：对于时间点\(t_k\)，在Study B中，构造以下统计量去检验原假设\(H_0: \Delta = 0\)：

直接的想法是：在\(H_0\)下，\(E[Y_B | T=1] - E[Y_B | T=0] = 0\)。但是我们观测不到\(Y_B\)。然而，由于\(r(s) = E[Y|S=s]\)在两组中相同，且处理只通过分布\(S\)影响\(Y\)的分布，我们有：

\[E[Y_B | T=1] - E[Y_B | T=0] = E_{S_B(t_k)|T=1}[r(S_B(t_k))] - E_{S_B(t_k)|T=0}[r(S_B(t_k))]\]

所以，检验\(H_0\)等价于检验：

\[H_0: \tau(t_k) = E_{S|T=1}[r(S(t_k))] - E_{S|T=0}[r(S(t_k))] = 0\]

因此，用Study B中两组受试者在时间\(t_k\)上的替代标记物，计算\(\widehat{\tau}(t_k) = \frac{1}{n_{1B}} \sum_{i:T_{B,i}=1} \hat{r}(S_{B,i}(t_k)) - \frac{1}{n_{0B}} \sum_{i:T_{B,i}=0} \hat{r}(S_{B,i}(t_k))\)。在\(H_0\)下，此统计量的期望应为0。将其标准化后得到\(Z(t_k) \approx \mathcal{N}(0,1)\)。

Step 2（推导相关性）：在不同时间点\(t_1\)和\(t_2\)上\(\widehat{\tau}(t_1)\)和\(\widehat{\tau}(t_2)\)是相关的，因为同一个受试者提供的\(S(t_1)\)和\(S(t_2)\)是相关的。这一相关性完全由Study B中\(S\)的序列相关性决定。

在线性最简例中，\(\hat{\beta}_1\)是估计的斜率。在\(H_0\)下，\(\widehat{\tau}(t_k) \approx \beta_1 (\bar{S}_{1B}(t_k) - \bar{S}_{0B}(t_k))\)。因此\(Z(t_1)\)和\(Z(t_2)\)的相关性近似等于\(\bar{S}_{1B}(t_1) - \bar{S}_{0B}(t_1)\)与\(\bar{S}_{1B}(t_2) - \bar{S}_{0B}(t_2)\)的相关系数。这是一个可估计的量（可以通过Study B数据或先验知识获知）。

Step 3（计算边界）：有了相关性矩阵\(\Sigma\)（在\(H_0\)下），想要控制总Type I error（FWER）为\(\alpha\)，可以用标准方法确定每个时间点的拒绝阈值\(c_1, c_2, \dots, c_K\)，使得：
\[P_{H_0}(|Z(t_1)| > c_1 \ \text{或} \ |Z(t_2)| > c_2 \ \text{或} \dots) = \alpha\]
这是标准的多元正态积分问题。作者采用的是O'Brien-Fleming类边界（更保守的前期边界以保持后期决策空间）以及α消耗函数（Lan-DeMets approach）来允许时间点数量和位置的灵活性。
Step 4（序贯决策）：累积观测Study B中的受试者直到某个分析时间点\(t_k\)。计算\(Z(t_k)\)。如果\(|Z(t_k)| > c_k\)，拒绝\(H_0\)并停止（efficacy stopping）。如果不拒绝且\(k < K\)，继续进行到下一分析点。本文也提供了futility stopping（如果效果明显不足则停止），但这依赖于一个预设的最小有效差\(\Delta_0\)——这是一个额外的决策参数，在操作上也需要类似的边界计算。

这个最小内核清晰地展示了核心机制：非参数估计\(r(s)\)、基于替代标记物的检验统计量、以及多时间点相关性处理。非参数推广（用核估计或U-statistic形式替代线性回归）和删失处理（用Kaplan-Meier或IPCW处理Y和S的随机截尾）是主要的扩展工作，但并不改变上述逻辑。

三、这篇论文做了什么¶

三句话¶

研究了一个完全非参数的群序贯检验方法：在Study B中仅观测替代标记物的多时间点序列，通过从Study A借信息构建检验统计量，在多个中期分析点对处理效应做出早期决策（包括efficacy stopping和futility stopping）。
核心工具：多元Delta方法推导多个时间点检验统计量的联合渐近正态性与相关性结构；α消耗函数（Lan-DeMets类）与多元正态分布积分计算stopping boundaries。
主要结论：在模拟中，该方法在Type I error控制和power方面与“理想化的、能观测到结局的群序贯检验”相当；两个AIDS临床试验的实证例子表明，它能比标准结局检验提前做出正确的最终决策。

关键设定与假设¶

设定：两个独立随机试验，Study A有\(n_A\)个受试者（处理组和对照组），都观测了\(Y\)（时间-事件结局，可能被删失）和\(S(\cdot)\)（在多个时间点测量）。Study B有\(n_B\)个受试者（随机分配到处理或对照），只观测\(S(\cdot)\)，不观测\(Y\)。计划进行\(L\)次中期分析，时间点\((t_1, \dots, t_L)\)。
关键假设：
(A1) 替代标记物的传输性：设\(r(s) = E[Y | S(t)=s, T=1]\)。假设\(r(s)\)在Study A和Study B中对所有\(s\)相等。这是该方法的前提。
(A2) 替代标记物的无直接效应：处理对结局的因果效应完全通过替代标记物传递——即\(Y \perp\!\!\!\perp T | S(t)\)。这等价于Prentice定义。
(C1)-(C3) 可忽略的删失假设：处理组和两组的替代标记物分布在删失下仍可识别（假设删失是随机的，或与潜变量独立）。
Study A和B独立。
平稳性/一致性：\(S(t)\)在两个研究中的分布可能不同，但\(r(\cdot)\)是稳定的。

与已有文献的比较：这些假设在本文中（C1-C3）被指出并非本文特有，而是与Wang & Taylor (2002)、VanderWeele (2013)和Parast et al. (2017)的标准设定一致。与原文的2019年单时间点方法相比，这里需额外假设替代标记物序列的联合分布是光滑的（为了Delta方法）。

主要结果¶

定理1（渐近正态性）：在\(H_0\)下，向量\((Z(t_1), \dots, Z(t_L))\)的有限维分布联合收敛到\(L\)-维多元正态分布，均值向量为0，协方差矩阵\(\Sigma\)有特定结构——其\((k, m)\)元为\(Cov(Z(t_k), Z(t_m))\)，可由样本估计。
直觉：\(Z(t_k)\)基于对\(\tau(t_k)\)估计的标准化，而\(\tau(t_k)\)是通过两个样本平均值之差（应用了非参数映射\(\hat{r}\)）计算的。多元Delta方法给出联合正态性。必要的速率条件为\(n_A \to \infty\)和\(n_B \to \infty\)，\(n_B / n_A\)有界。
必要条件：\(r(s)\)是足够光滑的（比如，Hölder类），且\(S(t)\)分布的矩条件足够使Delta方法中的余项一致小。作者引用了van der Vaart (1998)的Delta方法定理作为理论支撑。
定理2（Type I error控制）：若给定显著性水平\(\alpha\)、选择Lan-DeMets α消耗函数以及外部估计的\(\hat{r}(s)\)，当\(n_A, n_B \to \infty\)时，序列检验的FWER趋近于\(\alpha\)。
证明思路：利用定理1证明检验统计量的联合渐近正态性+α消耗函数的渐近性质。外部估计\(\hat{r}(s)\)的误差（在Rate \(O_p(n_A^{-1/2})\)的量级）不影响渐近显著性，因为它是基于\(n_A\)独立样本，且联合分布受\(n_A\)收敛速率控制，而\(n_B\)也是发散的。
定理3（Power与边界）：给出Efficacy停止边界的渐近表示——在备择假设下（非零\(\Delta\)），检验几乎肯定在第一次或第二次中期分析时（以先到者为准）停止，且Power的渐近形式与具有相同信息量且能观测结局的群序贯检验的Power一致。
这部分结果基于局部备择假设（local alternative），即\(\Delta = \delta / \sqrt{n_B}\)。在局部备择下，\(Z(t_k)\)的位移（非中心参数）可以用\(S\)分布的差异解析表达。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

Step 0：用Study A估计核心依赖函数\(r(s)\)。对于一个固定的时间点\(t_k\)，定义\(r_{t_k}(s) = E[Y | S(t_k)=s, T=1]\)，并用Study A中的样本估计它。作者提倡用非参数核回归（Nadaraya-Watson）下的局部线性或局部常数估计。
Step 1：在Study B中构造检验统计量序列。对于每个\(t_k\)，计算
\[U(t_k) = \frac{1}{n_{1B}} \sum_{i: T_{B,i}=1} \hat{r}_{t_k}(S_{B,i}(t_k)) - \frac{1}{n_{0B}} \sum_{i: T_{B,i}=0} \hat{r}_{t_k}(S_{B,i}(t_k))\]
并得到方差估计\(\hat{\sigma}^2(t_k)\)，从而定义\(Z(t_k) = U(t_k) / \hat{\sigma}(t_k)\)。
Step 2：推导\(Z(t_1), \dots, Z(t_L)\)的联合渐近分布。
将\(U(t_k)\)分解为“真实\(r\)时的U统计量”+“估计误差项”。
用Delta方法（van der Vaart, 1998, Theorem 23.5）处理\(\hat{r}_{t_k}\)估计误差对联合分布的影响。
将Cov\((U(t_k), U(t_m))\)表达为\(\int \text{Cov}(\hat{r}_{t_k}(S_B(t_k)), \hat{r}_{t_m}(S_B(t_m)) | Study B)\)——这需要计算两个时间点上的方差/协方差，这部分通过经验协方差估计。由于\(S\)分别在两个时间点被测量，Cov的计算依赖其二维分布。
Step 3：计算stopping boundaries并进行序贯决策。
对于给定的\(\alpha\)和数据分析计划的序列，如果预定了L个等间隔时间点，可以用O'Brien-Fleming边界（保守前期阈值）。如果时间点数量L不固定或者时间间隔不等，使用α消耗函数（Lan-DeMets, 1983）在信息时间\(I_k\)（与\(n_B\)中进入分析的人数成比例）上分配Type I error。
调用mvtnorm包的多元正态概率积分函数计算\(c_k\)：使得\(P_{H_0}(|Z_1|\leq c_1, \dots, |Z_{k-1}| \leq c_{k-1}, |Z_k| > c_k) = \alpha_k\)。
Step 4（Optional：Futility stopping）：选择一个有临床意义的最小处理效应\(\Delta_0\)。为\(\Delta \leq \Delta_0\)设定null，计算条件功效（conditional power）或类似指标——如果统计量偏差\(\tau(t_k)\)太小，则停止，宣布无效应。

关键跳跃点：

跳跃1：用外部估计\(\hat{r}\)时，如何保证\(Z(t_k)\)的多变量渐近正态性？普通Delta方法要求“平滑泛函”，这里涉及非参数估计。作者依赖\(n_A\)足够大使得估计误差可以视为“微小扰动”，且扰动在所有时间点上是一致的。这一点的形式化需用到经验过程理论（Donsker类），本文引用van der Vaart (1998)处理；但技术上对非参数核回归的U-statistic表示（可写成二阶U-statistic）是必要前提。
跳跃2：相关性矩阵\(\Sigma\)的估计。在保证\(H_0\)成立时，\(Cov(Z(t_k), Z(t_m))\)的表达式不取决于“哪一个时间点更早”，而完全由\(S(t_k)\)和\(S(t_m)\)的联合分布决定。但两个\(S\)是在不同时间点测量的同一受试者的信息，Study B有\(n_B\)个受试者，每个两年后有\(S(t_k)\)和\(S(t_m)\)——所以相关性可以直接估计。然而，由于非参数估计\(\hat{r}_{t_k}\)和\(\hat{r}_{t_m}\)的误差是相关的且是由Study A导出的，最终相关矩阵可能同时反映A和B的影响。作者通过\(U\)-统计量分解和\(n_B\)主导的极限处理了这个双重随机性。

技术技巧点名： - 多元Delta方法：协方差矩阵的表达式全部被简化为可使用样本矩估计的统计量。 - 非参数核回归（Nadaraya-Watson）：用于估计\(r(s)\)，特别是处理时间-事件结局中，\(Y\)可能被删失，此时用IPCW（inverse probability of censoring weighting）加权核回归。 - α消耗函数 + O'Brien-Fleming边界：经典群序贯技术被适配到本文的检验统计量。 - 多元正态积分（mvtnorm计算）：用数值积分得到联合概率边界。 - Futility stopping的Conditional Power计算：使用与前面efficacy相同的统计量分布，但基于备择假设下的非中心参数做出。

真实例子与应用¶

本文使用两个AIDS临床试验进行实证分析：

ACTG 175试验（Study A）：这是一个大型HIV治疗试验，有多个双臂比较。在本例中，Study A比较了Zidovudine（AZT）单药与Zidovudine + Didanosine（双药）对生存的影响，观测了在治疗开始后8周、20周时的CD4细胞计数（作为替代标记物）以及最终的生存结局（或因随访结束而删失）。Study A用于学习\(r(s)\)——即给定第8周CD4值为\(s\)时的生存时间条件分布。
一种新的Test Drug Study（Study B）：作者使用一个较小的验证性试验数据，其中只有CD4计数在8周和20周被测量，没有最终生存结局（因为试验提前结束或因伦理原因）。目标是检查：如果Study B未观测最终生存结局，基于CD4的群序贯检验是否能正确宣布治疗有效（或无效）。

实证结果： - 在ACTG 175数据构建的多个模拟框架下（以Study A学到的\(r(s)\)为基础，用Bootstrap模拟Study B），作者展示了： - 当在8周分析（\(t_1=8\)周）、20周分析（\(t_2=20\)周）、最终分析（\(t_3=52\)周，但不观测结局，只到20周为止？实际上替代标记物到20周）时，本文的群序贯检验的Type I error控制在名义水平附近。 - 当人工引入一个未修改数据（正效应）时，检验的高性能体现为：在8周时已经有约60%-70%的study被评为显著（如果效应较强），20周时约90%。 - 与“如果Study B观测到了结局”的对照比较，本文方法在Power损失控制在5-15%以内。 - Futility stopping功能同样表现合理——当处理效应很小时，试验在第二次分析时被早期终止的概率较高。

在真实ACTG 175与一个非公开HARRT试验的组合（该组合符合传输性假设）中，作者展示了：如果原标准检验需等到72周才能有结局，基于CD4在8周和20周的群序贯检验能在8周（或晚至20周）宣布结果的显著性——提前了约一年。

这个例子的意图：展示该方法可以在不违背Type I error的前提下，大量缩短Study B的持续时间，特别是在生存时间的替代标记物（CD4）确实具备良好的传输性质时。

🔎 结论是否比证明窄¶

证明是基于局部备择假设和大样本极限的，但论文的结论陈述看起来像是“在任何可行的有限样本下都能控制Type I error”——这是典型的有条件声称。实际情况是：定理的渐近性质要求\(n_A\)和\(n_B\)都很大；当\(n_A\)很小（如几十人）时，\(\hat{r}\)的估计误差可能使FWER偏离名义水平。作者在模拟中用小到\(n_A = 50\)检验了该效应，但报告说在正确设定核函数带宽时OK，但不保证偏小样本时的普适性。这句话在methodology中并未显式提及，但在simulation结果中有隐含提示。
对“替代标记物的传输性假设（A1）不满足”的敏感性是未被证明的：如果Study A和Study B在(S, Y)的联合分布上有实质差异，检验的Type I error可能完全崩塌。作者在讨论中承认这需要额外的假设，但论文没有任何理论结果描述偏离A1的影响——这是“结论窄于claim”的一个典型点。需要研究者自己去核实作者是否在discussion/post-publication中讨论过。
Futility stopping边界的理论性质未被证明：虽然efficacy边界有全面的渐近性质定理，futility边界则基于一个预设的参数\(\Delta_0\)和条件功率，而条件功率计算依赖于对\(\hat{r}\)在非零\(\Delta\)下的行为进行外推——这在本地的渐近理论中没有被严格处理。作者只用了模拟去验证，没有定理支撑。

四、开放问题（点到为止，扎根具体语句）¶

传输性假设(A1)的松弛：本文所有结论默认\(r(s)\)在A和B中相同。一个开放问题是：如果\(r(s)\)在不同研究间的差异是有结构的（如线性漂移，或受可测协变量调制），能否将检验推广到这种“部分传输性”场景？——扎根于本文Assumption (A1)及讨论中的“如果这一假设被违反…我们的方法可能无效”。
替代标记物悖论的序贯版本：VanderWeele (2013)的替代标记物悖论条件（处理对替代标记物效应为正，但最终结局为负）在群序贯设计中是否更危险，因为早停可能基于一个“看起来正但实际上导致负效应的”代理信号？——扎根于本文关于efficacy stopping的讨论和VanderWeele (2013) 在参考文献中的存在。
检验效率与信息借用量：本文方法借信息的量取决于\(\hat{r}\)的质量（\(n_A\)的大小以及\(S\)的预测能力）。是否存在一个最优的借信息量，比“全借”（假设无差异）更鲁棒？可以与Bayesian动态借用来进行比较——扎根于讨论段中“未来工作可以研究如何最优地权衡所借的信息量与本地数据中的新信号”。
与基于Efficient Influence Function的替代标记物检验的比较：本文的方法在非参数效率意义上是否是“最优的”？Price et al. (2018)的工作（使用超级学习器和Targeted Maximum Likelihood Estimation）在单点设定中有半参数效率的性质。本文的检验是否也满足类似的效率属性（semiparametric efficiency bound）？——扎根于本文引言中引用的Price et al. (2018)并指出未讨论效率问题。（注：这恰好对应研究者的moderately_familiar工具：semiparametric theory和HOIF。若能把本文检验嵌入到EIF框架分析其方差下界，是一个高可能性的后续项目。）

Maintained by 陈星宇 · Homepage · Source on GitHub