On the Inclusion of Non‐Concurrent Controls in Platform Trials With an Interim Analysis¶

作者: Pavla Krotka, Martin Posch, Marta Bofill Roig
来源: Statistics in Medicine
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：平台试验是一类允许多个实验臂在不同时间进入或退出、共用一个对照组的长期临床试验框架。其根本统计问题是：当新臂晚入组时，如何利用在它入组前就已存在的非同期对照（NCC）数据来提升功效，同时避免因患者人群、标准护理等随时间漂移而引入的混杂偏差。当前该方向处于方法爆发期：各类贝叶斯与频率学派模型被提出，但它们大多在固定样本量（无中期分析）的设定下讨论偏差校正，尚未系统触及中期分析对 NCC 借用带来的二次偏差。

发展脉络： - 奠基与警示：Viele et al. (2013) 系统梳理了借用历史对照数据的贝叶斯框架（MAP prior），指出若历史与当前数据不够相似，借用会导致 MSE 上升与 I 类错误膨胀。Dodd et al. (2021) 以临床视角发出警告，指出平台试验中直接合并 NCC 与 CC 在存在时间趋势时"statistically invalid"，会引入严重偏差。 - 主要进展（时间趋势建模）：Lee & Wason (2020) 在两阶段设定下模拟了线性与阶跃时间趋势对 NCC 借用的影响，发现正趋势下合并 NCC 会膨胀 I 类错误，而用模型调整阶段效应等价于只用 CC。Bofill Roig et al. (2021) 正式提出频率学派回归模型，用阶跃函数（按臂进出划分 period）调整时间趋势，并比较了线性趋势假设的稳健性。Saville et al. (2022) 提出"Bayesian Time Machine"，在贝叶斯框架下对全人群建模时间漂移，声称调整后估计精度优于仅用 CC。Marschner & Schou (2022) 将分层与调整嵌入网络 meta-analysis 框架。Guo et al. (2023) 引入因果推断视角，用倾向得分加权处理时间混杂，并提出双重稳健估计量。Krotka et al. (2024) 扩展了 Bofill Roig 的阶跃模型，提出样条回归与混合模型等更灵活的时间调整方式。 - 当前 frontier（多重检验与中期分析）：随着平台试验规模扩大，在线多重检验（FWER/FDR 控制）成为新焦点：Zehetmayer et al. (2021)、Robertson et al. (2023)、Fischer et al. (2023) 分别提出 LOND、ADDIS-Graph 等在线误差控制程序。Greenstreet et al. (2021, 2023) 设计了允许预规划加臂且控制 FWER 的多阶段试验，但明确"do not incorporate non-concurrent controls"。与此同时，组序贯试验中的点估计偏差问题已有成熟文献（Grayling & Wason 2022 综述了 9 种偏差校正估计量），但这些工作均未触及平台试验 NCC 设定。 - 本文的位置：本文填补了"中期分析"与"NCC 借用"两条线索的交叉空白——指出对 Arm 1 做中期分析会通过改变 period 划分与样本量分配，对 Arm 2 的 NCC 回归估计量引入新的条件偏差与边际偏差，并提出校正估计量。

子线索聚类： 1. 贝叶斯借用与动态先验：MAP prior (Viele 2013, Weber 2019)、Bayesian Time Machine (Saville 2022)。核心是通过对异质性建模来控制借用程度，但依赖先验与模型正确性。 2. 频率学派时间趋势建模：阶跃/线性回归 (Bofill Roig 2021, Lee & Wason 2020)、样条/混合模型 (Krotka 2024)、网络 meta-analysis (Marschner & Schou 2022)。核心是用 period 或连续时间函数调整均值漂移，假设趋势模型正确即可无偏。 3. 因果推断视角：倾向得分加权与双重稳健 (Guo 2023)。将时间视为处理分配的混杂，用 IPW 或 DR 估计量消除偏差，对未测量混杂有一定稳健性。 4. 在线多重检验与组序贯设计：LOND/ADDIS-Graph (Zehetmayer 2021, Robertson 2023, Fischer 2023)、MAMS with FWER (Greenstreet 2021, 2023)。处理多臂序贯检验的误差控制，但不处理 NCC 借用的估计偏差。

这个方向在追问的核心问题： 1. 如何无偏借用 NCC？ 已知直接合并有偏，各类调整方法在趋势模型正确时声称无偏，但对模型误设（如假设线性实际为阶跃，或假设周期划分与实际漂移不匹配）的稳健性如何？ 2. 中期分析是否破坏 NCC 调整的无偏性？ 本文首次指出：即使趋势模型正确，对先入臂的中期分析仍会通过改变 period 结构引入偏差。 3. 在线多重检验与 NCC 借用如何联合控制误差？ 当前两条线索各自有方案，但联合下 FWER/FDR 与估计偏差的交互尚无系统框架。 4. 因果框架能否统一时间混杂与选择偏差？ Guo et al. (2023) 开了头，但未触及中期分析带来的"条件选择"（conditional on continuing）。

⚠️ 作者的 framing： - 作者将缺口 frame 为："现有 NCC 调整方法未考虑中期分析，而中期分析在平台试验中很常见，因此本文是显然的下一步"。这一 framing 合理，但作者淡化了因果推断路线（Guo et al. 2023 仅在引用中提及，未在 intro 讨论其是否能自然处理中期分析带来的选择偏差），也回避了贝叶斯路线（Time Machine 与 MAP prior 在中期分析下的行为未被对比）。此外，intro 中缺失了对"条件偏差 vs 边际偏差"在组序贯文献中的系统定位——Grayling & Wason (2022) 综述了 9 种偏差校正估计量，但本文仅引用了其中 2 篇，未讨论那些方法是否可移植到 NCC 设定。值得研究者去查：因果推断的 DR 估计量在中期分析下是否天然避免条件偏差？贝叶斯 Time Machine 加上中期停止规则后后验是否仍有偏？

张力：未见明显对立引用。各路线在"直接合并 NCC 有偏"上一致，分歧在于调整策略与假设强度（频率模型假设趋势形式已知，贝叶斯假设异质性先验正确，因果假设倾向得分或结果模型至少一个正确）。本文揭示的新张力是：即使趋势模型完全正确，中期分析仍会引入偏差——这挑战了"模型正确即无偏"的频率学派共识。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(Y_{ij}\)：第 \(i\) 个 period（时间段）、第 \(j\) 个臂（\(j=0\) 对照，\(j=1\) 实验臂 1，\(j=2\) 实验臂 2）中患者的连续型结局变量（随机变量）。
\(\theta_j\)：臂 \(j\) 相对于对照的真实处理效应（estimand，\(j=1,2\)）。本文核心目标是估计 \(\theta_2\)。
\(\eta_i\)：第 \(i\) 个 period 的时间趋势效应（参数），代表该 period 入组患者的基线均值漂移。
\(n_{ij}\)：第 \(i\) 个 period、臂 \(j\) 的计划样本量（设计参数，非随机）。
\(N_{ij}\)：第 \(i\) 个 period、臂 \(j\) 的实际样本量（随机变量，因中期分析可能提前停止）。
\(I_1\)：Arm 1 进入的 period 编号（\(I_1=1\)），Arm 2 进入的 period 编号（\(I_2=2\)，即晚入组）。
\(K\)：Arm 1 的中期分析所在 period（假设 \(K \ge 2\)，即 Arm 2 已入组后才有中期分析）。
\(S\)：中期分析的停止决策（随机变量），\(S=1\) 表示 Arm 1 在中期后继续，\(S=0\) 表示停止。
可观测数据：对于每个患者，观测到 \((Y_{ij}, i, j)\)——即结局、所属 period、所属臂。对照臂在 period 1（Arm 2 未入组时）的数据即为 NCC，period 2 及之后的数据为 CC。Arm 2 的数据仅在 period 2 及之后存在。中期分析后 Arm 1 是否继续（\(S\)）是可观测的设计决策。
不可观测 / 需假设识别：时间趋势 \(\eta_i\) 不可直接观测，需通过 period 间对照均值的差异加上模型假设来识别；若对照在某个 period 无数据（如 period 1 无 Arm 2 的对照对照），\(\eta_i\) 的识别依赖跨 period 的参数约束（如 \(\eta_1=0\)）。

模型（数据生成机制）：

\[Y_{ij} = \eta_i + \theta_j + \epsilon_{ij}, \quad \epsilon_{ij} \sim \mathcal{N}(0, \sigma^2)\]

其中 \(\theta_0 = 0\)（对照效应基准），\(\eta_1 = 0\)（第一个 period 基线为 0）。关键结构：时间趋势 \(\eta_i\) 对所有臂同质（additive time trend assumption），即同一 period 内所有臂受相同漂移影响。这是频率学派阶跃调整模型的核心假设。

第二步：最小内核——中期分析如何破坏 NCC 估计的无偏性

考虑最简特例：2 个 period，1 次中期分析。 - Period 1：只有 Arm 0（对照）与 Arm 1。计划样本量 \(n_{10}=n_{11}=n\)。 - Period 2：Arm 2 进入，三臂共存。计划样本量 \(n_{20}=n_{21}=n_{22}=n\)。 - 中期分析发生在 Period 1 结束时，基于 Arm 1 vs Arm 0 的检验决定 Arm 1 是否继续进入 Period 2。

无中期分析时（固定设计）：用阶跃回归模型 \(\mathbb{E}[Y_{ij}] = \eta_i + \theta_j\) 拟合所有数据（包括 NCC，即 Period 1 的对照），\(\theta_2\) 的 OLS 估计量 \(\hat{\theta}_2\) 是 \(\theta_2\) 的无偏估计。直觉：Period 1 的对照数据帮助估计 \(\eta_1\)（设为 0），Period 2 的对照数据帮助估计 \(\eta_2\)，扣除时间漂移后 Arm 2 与 CC 的对比无偏。

有中期分析时：若 Arm 1 在中期分析后停止（\(S=0\)），则 Period 2 中 Arm 1 无数据（\(N_{21}=0\)）。此时回归模型仍拟合 Period 2 的对照与 Arm 2，但 Period 1 的对照（NCC）被用于估计 \(\eta_1\)。关键问题：Arm 1 是否继续取决于 Period 1 的数据——若 \(\hat{\theta}_1\)（基于 Period 1 数据）显著偏大，Arm 1 停止；若不显著，继续。这意味着 \(S\) 与 Period 1 的随机误差 \(\epsilon_{1j}\) 相关，进而与 Period 1 的对照均值 \(\bar{Y}_{10}\) 相关。因此，条件于 \(S\)（Arm 1 继续或停止），NCC 的均值不再是无偏的 \(\eta_1\) 的代表——因为选择 \(S\) 的过程过滤了 Period 1 的误差分布，使得 NCC 均值的条件期望偏离 \(\eta_1\)。

最小内核的数学表述：条件偏差 \(\text{Bias}(\hat{\theta}_2 \mid S=s) \neq 0\)，即使模型正确（\(\eta_i\) 阶跃形式正确）。原因：中期分析引入了样本量 \(N_{ij}\) 的随机性与选择 \(S\) 对早期数据的依赖，使得 OLS 估计量的条件期望不再是参数的线性无偏函数。边际偏差 \(\text{Bias}(\hat{\theta}_2) = \mathbb{E}[\hat{\theta}_2] - \theta_2\) 也可能非零，因为 \(\mathbb{E}[N_{ij}]\) 依赖 \(\theta_1\) 的真值，导致加权结构偏斜。

本文的关键想法怎么破：构造一个校正估计量，同时扣除：(1) 时间趋势偏差（通过阶跃回归已部分处理）；(2) 中期分析引入的条件选择偏差（通过调整样本量权重或添加偏差修正项）。具体技术见第三节。

三、这篇论文做了什么¶

三句话： ①研究了平台试验中利用 NCC 数据时，对先入臂（Arm 1）进行中期分析对后入臂（Arm 2）处理效应估计引入的偏差问题； ②核心工具是频率学派阶跃回归模型加上偏差校正估计量的构造； ③主要结论是：未调整时中期分析会引入 Arm 2 估计的条件与边际偏差，新提出的校正估计量能大幅消除偏差与 I 类错误膨胀，同时比仅用 CC 的分析获得功效提升。

关键设定与假设： - 平台试验结构：2 个实验臂 + 1 共享对照，Arm 2 在 Period 2 入组。允许任意多 Period，但中期分析仅针对 Arm 1，发生在某个 Period \(K\) 之后。 - 阶跃时间趋势模型：\(\mathbb{E}[Y_{ij}] = \eta_i + \theta_j\)，\(\eta_i\) 为 period-specific 固定效应，\(\theta_0=0\)，\(\eta_1=0\)。假设时间趋势为阶跃函数（period 间突变，period 内恒定），且对所有臂同质（additive on all arms）。相比 Bofill Roig (2021) 的设定，本文增加了中期分析导致的样本量随机性。 - 中期分析规则：基于 Arm 1 vs Arm 0 的累积 Z 检验，使用 O'Brien-Fleming 或 Pocock alpha spending 函数。决策 \(S\) 决定 Arm 1 是否继续。 - SUTVA 类假设：无干扰（不同臂患者互不影响），中期分析仅影响 Arm 1 的样本量，不影响 Arm 0 或 Arm 2 的入组（假设 Arm 2 的样本量 \(n_{i2}\) 在设计时固定，不受 Arm 1 停止影响——这是一个强假设，实际中 Arm 1 停止可能释放资源给 Arm 2）。 - 正态性与方差齐性：\(\epsilon_{ij} \sim \mathcal{N}(0, \sigma^2)\)，\(\sigma^2\) 已知或可估。相比组序贯文献（Grayling & Wason 2022），本文在正态已知方差下推导，未讨论未知方差或非正态的稳健性。

主要结果：

定理/命题：中期分析引入偏差的解析表达（Section 3）
陈述：在阶跃回归模型下，若不对中期分析调整，Arm 2 的 OLS 估计量 \(\hat{\theta}_2\) 存在条件偏差 \(\text{Bias}(\hat{\theta}_2 \mid S=s)\) 与边际偏差 \(\text{Bias}(\hat{\theta}_2)\)，偏差大小依赖 \(\theta_1\) 的真值、中期分析的停止边界、样本量比例等设计参数。
直觉：中期分析的选择 \(S\) 使得 Period 1 的数据分布被截断（truncated），NCC 均值的条件期望偏离 \(\eta_1\)，导致回归系数 \(\hat{\theta}_2\) 的条件期望偏斜。边际偏差来源于样本量 \(N_{i1}\) 的随机性改变了 OLS 权重结构。
必要条件：正态误差、已知方差、阶跃趋势模型正确、中期分析仅基于 Arm 1 数据。
解决的技术难点：推导条件偏差需要计算截断正态下样本均值的条件期望——这涉及组序贯文献中的条件概率计算，但本文需将其嵌入多 period 回归的加权结构中。
定理/命题：校正估计量的无偏性（Section 4）
陈述：提出新估计量 \(\hat{\theta}_2^{adj}\)，通过调整回归权重或添加偏差修正项，使得 \(\mathbb{E}[\hat{\theta}_2^{adj} \mid S=s] = \theta_2\)（条件无偏）或 \(\mathbb{E}[\hat{\theta}_2^{adj}] = \theta_2\)（边际无偏，取决于校正目标）。
直觉：将组序贯文献中的偏差校正思路（如 UMVUE 或 mean adjusted estimator）移植到 NCC 回归框架中——具体是调整 Period 1 对照数据在回归中的贡献，使其条件期望不再依赖 \(S\)。
必要条件：同上，且需知道中期分析的精确停止边界（alpha spending 函数的具体阈值）。
模拟结果（Section 5）
核心量化结论：未调整估计量在 \(\theta_1\) 较大时（Arm 1 易停止）偏差可达 0.1-0.2 个标准差单位，I 类错误膨胀至 0.06-0.08（名义 0.05）。校正估计量将偏差降至 <0.01，I 类错误控制在 0.05 附近。相比仅用 CC 的分析，校正估计量在 \(\theta_2=0.3\) 时功效提升约 5-10%（因仍借用 NCC 但校正了偏差）。
与 baseline 对比：Baseline 1 = 仅用 CC（无偏但功效低），Baseline 2 = 合并 NCC 不调整（有偏且 I 类错误膨胀），Baseline 3 = 合并 NCC 且调整时间趋势但不调整中期分析偏差（仍有偏）。新估计量在偏差与功效间取得最优平衡。
稳健性：模拟了线性时间趋势（模型误设）下的表现，发现阶跃调整在趋势平滑时仍有残差偏差，但校正中期分析偏差的部分仍有效。

证明路线与技术技巧：

整体路线：
建立阶跃回归模型，写出 \(\hat{\theta}_2\) 的 OLS 表达式（含 NCC 与 CC 的加权组合）。
引入中期分析决策 \(S\)，将样本量 \(N_{i1}\) 表为 \(S\) 的函数（停止则后续 period \(N_{i1}=0\)）。
计算 \(\mathbb{E}[\bar{Y}_{10} \mid S=s]\)（NCC 均值的条件期望），利用截断正态分布的性质（条件于 Z 检验超过/低于阈值）。
将条件期望代入 \(\hat{\theta}_2\) 的表达式，分离出偏差项（依赖 \(\theta_1\) 与停止边界）。
构造校正项：从组序贯偏差校正文献中取 UMVUE 或 mean adjusted 形式，调整 NCC 均值在回归中的权重，使条件期望中的偏差项被抵消。
关键跳跃点：
从单臂组序贯偏差到多臂 NCC 回归偏差的跨越：组序贯文献只关心单臂估计的条件偏差，本文需将"Arm 1 的选择影响 Arm 2 的 NCC 估计"这一跨臂依赖量化。难点在于 \(S\) 与 NCC 数据的相关性结构——\(S\) 依赖 \((\bar{Y}_{11} - \bar{Y}_{10})\)，而 NCC 均值 \(\bar{Y}_{10}\) 同时出现在 \(S\) 的决策变量与 \(\hat{\theta}_2\) 的回归中，形成非标准的截断相依结构。
截断正态下条件期望的计算：需用到正态分布条件于线性组合超过阈值的期望公式（类似组序贯中的 Emerson-Fleming 公式），但本文需将其推广到多 period 累积 Z 检验的情形。
技术技巧点名：
截断正态的条件期望计算（用于推导 \(\mathbb{E}[\bar{Y}_{10} \mid S]\)）：具体用到了正态变量条件于其与另一正态变量的线性组合超过阈值的期望公式，这是组序贯理论的标准工具（引用了 Emerson & Fleming 1990 的充分性结果）。
UMVUE / Mean Adjusted Estimator 的移植（用于构造 \(\hat{\theta}_2^{adj}\)）：从 Grayling & Wason (2022) 综述的 9 种偏差校正估计量中选取适合多臂回归的形式，调整 NCC 的权重使其条件无偏。
加权最小二乘的偏差分解（用于分离时间趋势偏差与中期分析偏差）：将 \(\hat{\theta}_2\) 表为 CC 均值与 NCC 均值的线性组合，权重依赖样本量比例，然后分别计算两部分的条件期望。

真实例子与应用：本文为纯方法论文，无真实数据例子。模拟实验设定为：2 个实验臂 + 1 对照，Arm 2 在 Period 2 入组，总样本量 300-600，中期分析在 50% 信息量时进行，检验了 \(\theta_1 \in \{0, 0.3, 0.5\}\)、\(\theta_2 \in \{0, 0.3\}\)、时间趋势 \(\eta_2 \in \{0, 0.1, 0.2\}\) 的组合。模拟想说明：偏差与 I 类错误膨胀在真实设计参数范围内不可忽视，校正估计量有效且实用。

🔎 结论是否比证明窄： - 作者在 Section 3 的偏差推导中假设了正态已知方差，但在模拟中测试了未知方差（用 t 检验替代 Z 检验），发现偏差仍存在但大小略有变化——这部分未严格证明，仅以模拟支撑。 - 作者声称校正估计量"eliminate the bias"，但严格证明仅覆盖条件偏差在已知方差正态模型下的消除；对边际偏差的消除，证明依赖特定的 alpha spending 函数形式（O'Brien-Fleming），对一般 spending 函数仅以模拟验证。 - 作者在讨论中提到校正估计量可推广到"多臂多 period"情形，但证明与模拟均限于 2 臂 + 1 对照 + 2 period 的最简设定——这是明显的 claim 比证明窄的地方。

四、开放问题（点到为止）¶

多臂多 period 下的偏差校正：本文证明限于 2 臂 1 次中期分析，多臂（>2 个实验臂）多次中期分析下，截断正态的条件期望计算与校正估计量构造是否仍可行？扎根在 Section 6 "Further research could extend the proposed estimator to settings with more than two experimental arms and multiple interim analyses"。
因果推断框架下的中期分析偏差：Guo et al. (2023) 的双重稳健估计量在中期分析引入选择偏差时是否仍稳健？若中期分析依赖的是 Arm 1 的数据，这相当于引入了未测量混杂（选择机制），DR 估计量的双重稳健性是否覆盖这种"设计驱动的选择"？扎根在 Intro 对 Guo et al. 的引用——仅提及倾向得分加权，未讨论其与中期分析的交互。
时间趋势模型误设下的稳健性：本文假设阶跃趋势正确，模拟了线性趋势的误设，但未给出误设下偏差的解析界。若真实趋势为连续漂移（如 \(\eta_t = \delta t\)），阶跃调整的残差偏差是否有 minimax 界？扎根在 Section 5 模拟中"linear trend"的结果——仅以模拟展示，无理论界。
贝叶斯路线在中期分析下的行为：Time Machine 与 MAP prior 在中期分析后，后验分布是否因选择而偏斜？贝叶斯框架天然条件于数据，但中期分析的停止规则是否需要在后验中显式建模？扎根在 Intro 对 Bayesian 方法的引用——作者仅提及它们处理时间趋势，未讨论中期分析。

Maintained by 陈星宇 · Homepage · Source on GitHub

On the Inclusion of Non‐Concurrent Controls in Platform Trials With an Interim Analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论