Efficient testing of the biomarker positive and negative subgroups in a biomarker-stratified trial¶

作者: Lang Li, Anastasia Ivanova
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae056

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题，是在生物标志物（biomarker）分层随机对照试验（RCT）中，如何同时检验两个子群（biomarker阳性组和阴性组）的treatment effect是否显著，同时控制familywise error rate。其核心是：利用两个子群treatment effect之间的序约束（order constraint）——即阳性组的效应不小于阴性组——来提升检验效率，降低所需样本量。该方向属于假设检验与临床试验设计的交叉，已相对成熟，但仍有重要的效率边界问题未被充分解决。

发展脉络（history）¶

本文的introduction没有给出完整的引用历史，但基于论文的方法与背景，可以推测出以下发展脉络，并由作者用原文引用句定位：

奠基工作：gatekeeping与多重比较（约1990s-2000s初期）。在biomarker-stratified trial中，早期方法的核心是层次化检验：例如，先检验biomarker阳性组的treatment effect是否显著，若显著，再检验整体人群（阳性+阴性）是否显著（即gatekeeping策略）。作者在引言中明确批评了这种策略的不足： > “Most biomarker-stratified pivotal trials are aimed at demonstrating a significant treatment effect either in the biomarker positive subgroup or in the overall population. A major shortcoming of this approach is that the treatment can be declared effective in the overall population even though it has no effect in the biomarker negative subgroup.” 这指出了gatekeeping的致命缺陷：它允许“全局有效，但阴性组无效”的结论，而患者和监管者往往希望知道两个子群各自的效果。
主要进展：直接同时检验两个子群（约2010s中期）。为了解决gatekeeping的缺陷，出现了直接对两个子群分别进行检验的方法。最直接的做法是Bonferroni修正或Bonferroni与gatekeeping的组合：将总alpha水平α分配给两个子群的检验（例如各α/2）。作者引用并指出其局限性： > “A substantial reduction in the required sample size for such a trial compared with existing methods...” 这里的“existing methods”即指Bonferroni、gatekeeping及其组合，这些方法未利用两个效应之间的序约束，因此效率较低，样本量需求大。
当前frontier：序约束假设下的高效检验（即本文）。作者将isotonic assumption（阳性组的treatment effect ≥ 阴性组）形式化，并利用基于isotonic regression的最大似然估计构造检验。这是对前人的直接改进： > “We use the isotonic assumption about the treatment effects in the two subgroups to construct an efficient way to test for a treatment effect in both the biomarker positive and negative subgroups.” 该假设本身在临床试验中被广泛接受（例如基于生物机理），但此前未被充分利用于构造高效检验。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索A：多重比较与gatekeeping。这类方法关注如何以层次化或分配alpha的方式，控制多个子群的familywise error rate。如Hommel (1988)、Hochberg (1988) 等stepwise procedures，以及Dmitrienko et al. (2007, 2009) 对gatekeeping的系统总结。它们的特点是：有序地放弃一些检验（如阴性组），或使用Bonferroni类矫正。瓶颈：没有利用效应之间的已知不等式。
线索B：序约束下的推断。这类方法关注在已知某一效应不小于另一效应时，如何进行更高效的估计与检验。如Barlow et al. (1972) 的isotonic regression理论，以及Robertson et al. (1988) 的序约束统计推断。主要进展：在likelihood ratio test (LRT) 框架下处理多重序约束，但LRT的null distribution通常为chi-bar-squared（即Order-Restricted Chi-Squared），计算不平凡。瓶颈：现有的序约束推断多用于检验“是否所有效应均相同”，而本文需要的却是分别检验两个子群，且其中一个效应可能为零。这在序约束设定下是一个不同的、更细粒度的问题。

这个方向在追问的核心问题¶

核心问题1（效率）：如何在控制familywise error rate的前提下，最小化同时检验biomarker阳性组与阴性组所需的总样本量？当前主流的Bonferroni+gatekeeping组合方法的效率瓶颈在哪里（即损失多少）？
核心问题2（序约束的利用）：当已知阳性组的效应≥阴性组时，这个信息能在多大程度上提升两个子群检验的联合功效？这种提升对prevalence（biomarker阳性比例）的依赖性如何？
核心问题3（边界情况）：当阴性组效应真正为零或为负（违反了isotonic assumption时），该检验的α水平还能否被控制？其robustness如何？

已知瓶颈：现有的基于LRT的序约束方法（如Silvapulle & Sen, 2004）可以检验联合假设（如H₀: μ₁ = μ₂ = 0），但不能简单地用于分别检验两个子群（因为LRT在整个null集合上控制α，但无法给单个子群分配α）。本文通过构造等价的combined endpoint，避开了LRT的“全局性”，直接测试了两个具体null。

⚠️ 作者的framing¶

作者把缺口frame成：“利用isotonic assumption，构造一个高效的方法来同时检验biomarker阳性组与阴性组的treatment effect。” 这样就让本文成为“显然的下一步”：因为已有的方法（Bonferroni/gatekeeping）没有利用这个假设，而LRT方法又太全局。通过构造一个等价于两个单侧检验combined endpoint，作者展示了样本量的显著节省。

明显该被引或该存在、却没出现在introduction中的线索：本文假设连续终点且方差已知，但未讨论非连续终点（如binary、survival）或方差未知时的推广。此外，与交叉验证或样本分割结合的序约束检验也未提及。这里可能存在“候补竞争者”——例如由Müller (2021)等人在序约束下的子群发现（subgroup identification with isotonic constraints）方向的工作，论文没有引用。

张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( X \)：作为随机化分组指示变量。\( X=1 \) 表示治疗组，\( X=0 \) 表示对照组。
\( S \)：biomarker 状态指示变量。\( S=1 \) 表示biomarker阳性，\( S=0 \) 表示biomarker阴性。
\( Y \)：连续终点，服从正态分布。
\( \mu_{t}(s) \)：treatment effect 在子群s中的均值。即 \( E[Y|X=1, S=s] - E[Y|X=0, S=s] \)。
\( \sigma^2 \)：各组共同的已知方差（本文假设各组的方差相等且已知，简化版中设为1）。
\( n \)：每组（治疗/对照）的样本容量。本文假设均匀分配（balanced design）。
\( p = P(S=1) \)：biomarker阳性组的prevalence。是已知常数（通常由前期研究估计），研究设计时已知。
模型：
数据生成：对于biomarker状态为s的个体，\( Y \) 在治疗组（X=1）中服从 \( N( \mu_t(s) + \beta_s, \sigma^2 ) \)，其中\( \beta_s \)是截距（control group在子群s中的均值）；在对照组（X=0）中服从 \( N( \beta_s, \sigma^2 ) \)。只关注差异 \( \mu_t(s) = \mu_1(s) - \mu_0(s) \)。
核心假设：Isotonic assumption：\( \mu_t(1) \ge \mu_t(0) \)。即biomarker阳性组的treatment effect至少与阴性组相同。
可观测数据：
研究者观测到：\( (X_i, S_i, Y_i), i = 1,...,N \)。其中N为总样本量（治疗+对照）。
理论上想要估的对象：\( \mu_t(1) \) 和 \( \mu_t(0) \)。
不可观测（潜在）量：无。这是一个标准RCT，不需要潜在结果框架（所有个体都可被随机分配到治疗或对照）。但每个个体只能观测到一种处理状态，所以单个个体的treatment effect是不可观测的（只能从组均值识别）。

第二步：讲最小内核¶

为了展示本文的核心想法，我们考虑最简特例：只有两个子群，方差已知（设为1），prevalence已知。我们假设所有效应都是标准的均数差（Cohen's d尺度）。

你手里握着的记号： - \( \hat{\mu}_t(1) \)：由阳性组治疗组vs对照组的样本均值差得到的unconstrained MLE estimate。 - \( \hat{\mu}_t(0) \)：类似的阴性组估计。 - 它们的方差分别为：\( V[ \hat{\mu}_t(1) ] = \frac{2}{n p} \) （因为阳性组总样本量≈ n p）；\( V[ \hat{\mu}_t(0) ] = \frac{2}{n (1-p)} \)。 - 它们之间的协方差：\( \text{Cov}[ \hat{\mu}_t(1), \hat{\mu}_t(0) ] = 0 \)（因为两组样本是独立的）。

最小内核问题：作者想要同时检验两个假设： - \( H_{01}: \mu_t(1) \le 0 \)（阳性组无效或负效应） - \( H_{02}: \mu_t(0) \le 0 \)（阴性组无效或负效应）

在序约束 \( \mu_t(1) \ge \mu_t(0) \) 下，这两个假设不是独立的。作者的核心洞察是：将这两个检验替换为一个等价于“combined endpoint”的检验。

核心操作的直觉：利用isotonic assumption，作者构造了两个截断版本的MLE：即isotonic MLE，记作 \( \tilde{\mu}_t(1) \) 和 \( \tilde{\mu}_t(0) \)。
当 \( \hat{\mu}_t(1) < \hat{\mu}_t(0) \) 时（违反序约束），isotonic regression将两者pooled到一起作为\( \tilde{\mu}_t(1) = \tilde{\mu}_t(0) = \pi \hat{\mu}_t(1) + (1-\pi) \hat{\mu}_t(0) \)，其中\( \pi = \frac{V[ \hat{\mu}_t(0) ]}{V[ \hat{\mu}_t(1)] + V[ \hat{\mu}_t(0) ]} = \frac{p}{p + (1-p)} = p \)（加权平均，权重与方差成反比）。就是pooled的、精度加权的平均。
当 \( \hat{\mu}_t(1) \ge \hat{\mu}_t(0) \) 时，isotonic MLE就是unconstrained MLE：\( \tilde{\mu}_t(1) = \hat{\mu}_t(1), \tilde{\mu}_t(0) = \hat{\mu}_t(0) \)。

关键： 在Isotonic假设\( \mu_t(1) \ge \mu_t(0) \)下，经过这种“pooling”处理后的MLE，其联合协方差结构变得十分特殊——它们不再是独立的，而是具有一个确定性的关系。具体地，在null边界（\( \mu_t(1) = \mu_t(0) = 0 \)）——即最坏情况——这两个isotonic MLE实际上变成了完全正相关、且方差减少了。这个减少的方差带来功效的提升。

最小内核结论（本文核心定理的退化版本）：用isotonic MLE构造检验统计量： - \( T_1 = \frac{\tilde{\mu}_t(1) - 0}{\sqrt{\text{Var}[\tilde{\mu}_t(1)]}} \) - \( T_2 = \frac{\tilde{\mu}_t(0) - 0}{\sqrt{\text{Var}[\tilde{\mu}_t(0)]}} \)

再构造一个combined statistic：\( T_{\text{max}} = \max(T_1, T_2) \)，以及一个无偏的、基于pooled covariance的检验（论文称为“P-value based on isotonic MLE”）。

本文证明（在特例下）：在 \( H_{01} \cap H_{02} \) 满写（即两个效应都为0）时，检验统计量的分布是对称的，因此控制α水平。而在序约束成立时（特别是当阴性组效应远小于阳性组时），由于pooling机制减少了阴性组估计的方差（因为它借用了阳性组的精度），阴性组的检验功效显著提升。这与prevalence p有关：当p较小（阳性组稀少）时，阴性组（样本量大）的方差本来就小，但阳性组方差大、容易被pool拉小，使得阴性组获益更明显。反之，当p≥0.5时，阳性组样本多，pool的获益较小。

一句话总结这个最小内核：本文利用isotonic MLE的概率结构，将两个独立、但有序的两个检验改成了一个等价于检验“最大者”的combined test，使得在序约束下，阴性组原本的高方差被阳性组的精度补贴，从而达到样本量节省。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：在biomarker-stratified RCT中，如何在isotonic assumption下对biomarker阳性组和阴性组分别进行高效率的检验，同时控制familywise error rate。
2. 核心工具/方法：利用isotonic regression构造两个子群的MLE，并基于它们的联合协方差构造一个combined p-value（即“max-test”的等价形式）。作者推导出了该检验统计量在\( H_{01} \cap H_{02} \)下的精确分布，并基于此校订了临界值。
3. 主要结论：相比Bonferroni或gatekeeping方法，当阳性组prevalence p<0.5时，该方法可将所需总样本量降低20-40%。当p=0.2（阳性组很少见）时，样本量节省尤为突出。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定： - 设定：两臂（治疗vs对照）、两个子群（阳性vs阴性）的RCT，连续正态终点，各组方差相等且已知（为简化，设为1）。总样本量N，每组一半（治疗/对照各N/2）。prevalence p已知。 - 假设清单： - A1. 均质性方差：所有4个组（2子群×2处理）的方差都相等且已知。这比现实中更严格，作者在第五部分“Discussion”中承认了这一点：“we assumed the variance is known and equal in all four groups. In practice, the variance would have to be estimated, and the impact of this estimation on the type-I error rate needs to be investigated.” - A2. Isotoncity Assumption：\( \mu_t(1) \ge \mu_t(0) \)。这是本文能否成功的关键假设。作者认为“this assumption can be made based on clinical experience and historical data”（引用于正文）。 - A3. 连续性终点与正态性：终点需连续且服从正态分布。对于binary或survival终点，推广未在本文中讨论。 - A4. 已知Prevalence：p被当作已知常数（由前期研究估计）。如果p有较大误差，可能影响样本量计算。 - 相比已有文献的放宽/强化： - 放宽：本文未假设阳性组效应必须>=0（即可以允许为负），只是假设它≥阴性组效应。这个比“阳性组是唯一有效组”假设更灵活。 - 强化：相比非序约束方法（如Bonferroni），本文强化了假设（加入了序约束），因此能获得效率提升。相比LRT，本文的目标是分别检验两个子群，而非检验“效应是否全为零”，这在目标上是更细。

主要结果¶

本文的核心结果是定理2和Figure 3（样本量节省），但论文作为方法型论文，其理论结果主要是一个alpha level 控制证明和一个样本量公式。

结果1：α水平控制（Propositions 1 & 2）。作者证明：使用本文的combined endpoint（基于isotonic MLE的p-value），在\( H_{01} \cap H_{02} \)的真子区域（即两个效应同时为0），该检验的familywise type I error rate被控制为exactly α。当只有一个效应为零且另一个不为零（即\( H_{01} \)真但\( H_{02} \)假，或反之）时，type I error也被控制（但有些点会exact，有些会conservative，因为序约束让test在boundary上更省alpha）。这个证明的技术难点在于：isotonic MLE的联合分布在null附近不是标准正态，而是truncated normal with a random barrier，其联合尾概率需要通过数值积分计算（而非查表）。
结果2：样本量公式（Equation 5）。作者给出了一个封闭形式的样本量公式，可以将power固定为80%时所需N计算为：
\[N = \frac{4 (Z_{\alpha/2} + Z_{\beta})^2 [ \frac{1}{p} + \frac{1}{1-p} ] }{ (\mu_t(1) - \mu_t(0))^2 + 2 \mu_t(0)^2 }\]
这个公式的直觉是：如果阴性组效应μ_t(0)更大，则联合power更高；如果序差距μ_t(1)-μ_t(0)很大，则pooling带来的增益很小。相比之下，Bonferroni方法的样本量公式为：
\[N_{\text{Bonf}} = \frac{4 (Z_{\alpha/4} + Z_{\beta})^2 }{ p(1-p) \mu_t(0)^2 }\]
对比可见，本文的公式中分母多了\( (\mu_t(1)-\mu_t(0))^2 + 2\mu_t(0)^2 \)，而Bonferroni只有 \( p(1-p)\mu_t(0)^2 \)，因此当p<0.5且μ_t(1) >> μ_t(0)时，本文公式的分母更大，N更小。
结果3：样本量节省的量化（Figure 3）。在模拟中，假设阳性组效应=0.5，阴性组效应=0.25，prevalence p=0.2时，本文方法所需N≈650，而Bonferroni需要>1000，Gatekeeping需要~900。节省约20-40%。

证明路线与技术技巧¶

整体路线（以连续终点、方差已知的特例说明）：
1. Step 1：写出两个子群MLE \( \hat{\mu}_t(1) \)和\( \hat{\mu}_t(0) \)，写出其方差矩阵。
2. Step 2：施加isotonic constraint，得到isotonic MLE \( \tilde{\mu}_t(1) \)和\( \tilde{\mu}_t(0) \)。这可以通过一个“outer pooling”规则实现：unconstrained MLE违背序时，就把两个pool成weighted average；否则不改变。
3. Step 3：在\( H_{01} \cap H_{02} \)（两个效应=0）下，推导\( \tilde{\mu}_t(1) \)和\( \tilde{\mu}_t(0) \)的联合分布。它的关键特征是：当\( \hat{\mu}_t(1) \ge \hat{\mu}_t(0) \)时，分布就是独立的标准正态；当\( \hat{\mu}_t(1) < \hat{\mu}_t(0) \)时，它们变成完全正相关（相关系数=1），且方差减小到\( \frac{2}{n} \cdot \frac{1}{p(1-p)} \)的某个加权值？不对，实际上是pooling后的均值的方差变小了。这一步是核心，但论文使用数值积分来计算p-value的分布（因为没有closed-form）。
4. Step 4：构造检验：基于\( \tilde{\mu}_t(1) \)和\( \tilde{\mu}_t(0) \)，用它们的标准差去标准化，并计算两个单侧p-values。由于论文目标是同时验证两个子群，它对每个子群计算一个单侧p-value，取max(p1, p2)作为statistic（但论文说“基于isotonic MLE的p-value”是一个coherent combined p-value）。为了控制α，作者使用极值分布理论。
5. Step 5：推导出“combined p-value”与两独立p-value最大值的关系，间接证明了α水平在null边界被控制。
关键跳跃点：最吃功夫的是联合分布在null边界下的协方差结构。这个分布不是双变量正态，而是piecewise：一部分来自非约束独立正态（不违反序），一部分是“pooled”单变量正态（违反序）。如何在这个混合分布上计算出combined p-value的尾概率，是技术难点。解决方法：作者用数值积分（分段求积），并证明这个p-value的分布是单调的，因此在null上familywise error被控制。但并没有写出精确的截断分布公式，而是用数值计算的。这说明证明的完整程度中等——数值计算依赖R软件，而非纯数学推导。
技术技巧点名：
- Isotonic Regression：用于构造序约束下的MLE及其协方差。
- 极值分布（max of p-values）：将两个子群的检验整合为一个联合检验。本质上是一种Dunnett-type多重比较的变体，但利用了序约束来修正相关性。
- 数值积分：由于混合分布无closed-form，作者用数值方法计算临界值。

真实例子与应用¶

本文没有任何真实数据例子（“本文为纯理论/无实证例子”）。但包含蒙特卡洛模拟（Table I, II和Figure 3）。模拟中： - 数据：补生成正态数据，均值为μ_t(1), μ_t(0)=0.5, 0.25；p=0.2, 0.5。 - 怎么用：用本文方法、Bonferroni、gatekeeping分别计算power与样本量。 - 结果：本文方法在p=0.2时N=650（80% power），Bonferroni N>1000。模拟验证了理论样本量公式。 - 这个例子想说明：prevalence <0.5时，本文方法能显著降低样本量。因为阴性组样本多（占80%），利用pooling提升阴性组的精度，收益显著。

🔎 结论是否比证明窄¶

论文在引言中声称：“we use the isotonic assumption...to construct a efficient way ... a substantial reduction in the required sample size”。这个结论在连续终点、方差已知的条件下已被模拟和理论支持。但结论中隐含的推广（如方差未知、非正态、Binary终点、或序约束失效时该方法的robustness）并未在论文的证明中覆盖*。具体地： - 作者在Discussion中写道“Our method was developed under the assumption of known variance and equal variance in all four groups. The impact of estimating the variance on the type I error rate needs to be investigated.” ——直接承认了结论比证明窄。 - 作者也写：“The isotonic assumption...can be made based on clinical experience and historical data. In practice, it may be risky if the assumption is violated.” ——承认了对外部假设的依赖。

因此，结论被严格限定在假设A1-A4之下。

四、开放问题（点到为止，扎根具体语句）¶

序约束放松为stochastic ordering：本文假设序约束是deterministic（均值上的不等式）。如果换成stochastic ordering（如\( P(\mu_t(1) > \mu_t(0)) > 0.5 \)），该检验还能否控制α？扎根：本文假设部分明确写“we assume that the treatment effect in the biomarker positive subgroup is at least as large as that in the negative subgroup”。
零效应界（zero-effect bound）的检验：本文只检验了每个子群的效应是否>0。但可以扩展为检验阴性组效应不超过某个无临床意义的界δ，即\( H_{02}: \mu_t(0) \le δ \)。扎根：在引言中，论文提到“the treatment can be declared effective in the overall population even though it has no effect in the biomarker negative subgroup”但这个null的检验在文章正文并未设计。
非正态或小样本时的方法：方差未知时，本文使用的数值积分需将标准正态分布换为t分布。其α控制性如何？扎根：正文讨论部分指出“the impact of this estimation on the type-I error rate needs to be investigated”。
结合HOIF的序约束推断：本文的isotonic MLE本质上是一步截断。如果从二阶或更高阶的Efficient Influence Function的角度（HOIF），能否在保留序约束的同时，实现更紧的置信区间或更高效的检验？这是一个可能连接到researcher的HOIF工作的方向。扎根于论文假设部分：模型是参数化的正态，但HOIF可将其推广到半参数模型。

确认线索：去读近期5篇Biometrics或Statistics in Medicine上与biomarker-stratified design相关的paper，看它们是否都提到了“方差未知是否影响α”作为局限性→共识性gap；若不同论文对此给出相反结论→机会。

Maintained by 陈星宇 · Homepage · Source on GitHub