Rank-based methods for assessing equivalence/non-inferiority with assay sensitivity in a three-arm trial with ordinal endpoints¶

作者: Shi-Fang Qiu, Dai-Min Li, Wai-Yin Poon
来源: Statistical Methods in Medical Research
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261417216

一、领域脉络与小综述¶

这个方向是什么¶

本文所解决的子问题是：在临床试验的三臂设计（试验组 T、阳性对照 R、阴性对照 P）中，若终点为有序分类变量（ordinal endpoint），如何同时检验试验组的等效性/非劣效性，并确保试验在区分有效与无效治疗方案方面的“assay sensitivity”。其根本统计挑战在于：(i) 有序数据不具有度量信息（“区间”上的差值不具意义），参数方法（如 t 检验、基于均值的 ANCOVA）直接应用于分数编码可能导致系统性错误；(ii) 三臂设计需要同时检验两个非对称假设：T 与 R 的等效/非劣效，以及 R 与 P 的优效（以验证 assay sensitivity）；(iii) 这要求构造可同时控制多个假设的单步且非参数的方法，尤其不依赖于正态假设或大样本近似。当前该子方向在连续终点上已有较多工作（如 Hauschke et al. 1999; Pigeot et al. 2003），但对于有序终点的非参数方法几乎空白——这正是本文声称要填补的缺口。

发展脉络（history）¶

作者在 introduction 中用较短的篇幅给出了该方向的渐进发展：

奠基工作 1（三臂等效性设计的提出）：Hauschke et al. (1999) 与 Pigeot et al. (2003) 首次在连续终点框架下提出了包含阴性对照的三臂等效性试验，并给出了基于正态假设的检验和样本量公式。这一工作为后续所有三臂设计的方法奠定了设定基础：即同时考虑 T 与 R 的等效性（通常通过比值 δ = (μ_T - μ_P)/(μ_R - μ_P) 度量）和 R 与 P 的优效性。
主要进展（扩展到二分类及其他离散终点）：Kieser & Friede (2007) 和 Murawska et al. (2014) 将该设计推广到二元（成功/失败）终点和计数（Poisson）终点。这些工作使该设计在离散终点上可用，但它们仍然依赖于参数分布假设（二项分布、Poisson 分布）和以大样本 CLT 为基础的 Wald 型检验。
当前 frontier（有序终点上的非参数方法）：作者指出该方向目前存在的明确空白——“there is little work done on ordinal endpoints”。在有序终点上，Kieser et al. (2013) 提出了一种基于累积 logit 模型的参数方法，但该方法假定比例优势假设（proportional odds assumption），且存在模型误设风险。与此同时，Wellek (2010) 的专著系统地总结了基于 Mann-Whitney 效应的等效性检验，但限于双臂设计。
本文的位置：作者将自己定位为将 Wellek 及此前在双臂设计中的非参数秩方法（基于 Mann-Whitney 的 win 概率）推广到三臂设计且有序终点之上。本文的核心创新是将“win 概率”作为量化处理效应的工具，并基于此构造同时置信区间（SCI），从而在避免参数假设的同时处理三臂的两个假设。

子线索聚类¶

线索 1（参数方法）：Hauschke et al. (1999)、Pigeot et al. (2003)、Kieser & Friede (2007)、Murawska et al. (2014)。这些工作均依赖于具体分布假设（正态、二项、Poisson），在有序数据上不适用或需要额外假设（如比例优势）。它们留下的一致缺口是：对有序数据无法直接应用，且参数模型解决 bias 可能严重。
线索 2（非参数秩方法 / U 统计量框架）：Wellek (2010) 和 Thas et al. (2012)。这些工作将 win 概率（即班尼特-韦尔德型的“有某种顺序比较”概率）引入等效性/非劣效性中，但仅限于双臂设计。本文则把同一条思路推广到三臂。
线索 3（同时置信区间构造）：本文内部针对 SCI 构造的变体依次对比了三种变换方法——Fisher-z 变换、MOVER（method of variance estimates recovery）结合 logit 变换、logit 与 arcsinh 变换。这里并未引用太多外部文献（属于标准技术压入）。

这个方向在追问的核心问题¶

如何定义等效/非劣效边界在有序终点上？ 对于连续终点可以用差值比（如 δ < 0.2σ），但有序数据无法直接使用差值，必须另定义效应大小（如 win 概率或相对的 odds）。论文以 win 概率作为自然度量，但在文献中这仍是非常规的选择。
如何在单步检验中控制 Type I 误差膨胀的同时获得 assay sensitivity 保证？ 三臂设计涉及两个假设（H_01: T 非劣效于 R、H_02: R 优效于 P），且它们的拒绝顺序不同——必须同时拒绝才能生效。作者采用了“双重同时置信区间”策略（即要求 (θ_{T,R}, θ_{R,P}) 的 SCI 同时满足各自的界）。
样本量公式的渐近有效性？ 在 U 统计量的框架下，样本量通常依赖渐近方差（即 U 统计量的核协方差的计算）。有序终点上的方差估计通常会丢失部分信息，进而影响样本量公式的准确性。作者用模拟验证了 sample size 公式的性能，但并未从渐近理论证明其是最优的。

⚠️ 作者的 framing：作者将缺口 frame 为“有序终点在三臂设计中的非参数方法缺失”，从而让自己这篇成为衔接此前双臂非参数秩方法和三臂参数方法的桥梁。具体地，作者淡化了两点：(i) 此前已有 Kieser et al. (2013) 基于比例优势模型的方法，但作者认为比例优势假设太强，因此完全未在其比较中出现；(ii) 对于 SCI 构造，作者没有将 MOVER 与其他更现代的 bootstrap 或 perturbation 方法做比较——这可能是回避了 bootstrap 的较高计算代价或证明难度。What明显该被引/该存在未出现？ 论文完全未提及 semiparametric efficient influence function 方向在有序终点等效性上的可能作用（如 van der Vaart 的 nonparametric delta method 用于 U 统计量），也未引用 Feng et al. (2015 等) 关于 win ratio 和 win probability 在临床试验中应用的最新讨论。

张力¶

未见明显对立引用。该子方向的文献一致性较强：几乎所有方法都基于某种形式的对照和非劣效边界，且对有序终点的拓展被认为普遍必要。主要张力来自参数 vs 非参数策略，但作者明确只取非参数方向，因此未与其他路线产生正面冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- 三个臂（groups）：试验组 T、阳性对照 R、阴性对照 P。对应样本量为 \( n_T, n_R, n_P \)，总样本 \( N = n_T + n_R + n_P \)。
- 有序结局（ordinal endpoint）有 \( J \) 个类别，记为 \( \mathcal{C} = \{1, 2, \dots, J\} \)，编码从小到大表示从“最差”到“最好”的临床结果（如 1 = 死亡，2 = 恶化，3 = 稳定，4 = 痊愈）。
- 可观测数据：每个受试者 \( i \) 被随机分配到其中一个臂，观测到其臂指示 \( A_i \in \{T, R, P\} \) 和一个有序结局 \( Y_i \in \mathcal{C} \)。
模型：无参数分布假设。可观测的数据生成如下：假设每个臂的结果独立同分布于各自臂的无参数分布 \( F_T, F_R, F_P \)（即在 \(\mathcal{C}\) 上的概率向量 \( \mathbf{p}_T = (p_{T1}, \dots, p_{TJ}) \)，同理对 R、P）。这些分布是未知的，计划不假定任何结构（如比例优势或潜在正态）。
estimand：
- win 概率（WIN probability）：\( \theta_{a,b} = P(Y_a > Y_b) + 0.5 \cdot P(Y_a = Y_b) \)，其中 \( Y_a \sim F_a \)，\( Y_b \sim F_b \)。它表示一名 a 臂受试者相对于一随机 b 臂受试者表现更好的概率（平局计为 0.5）。显然，\( \theta_{a,b} + \theta_{b,a} = 1 \)，且当 \( F_a = F_b \) 时 \( \theta_{a,b} = 0.5 \)。
- 三臂设计需要两个 win 概率：主指标 \( \theta_{T,R} \) 衡量试验组相对于阳性对照的表现（等效/非劣效）；辅助指标 \( \theta_{R,P} \) 验证阳性对照相对于阴性对照的优越性（即 assay sensitivity）。
- 等效性假设：\( H_0: \theta_{T,R} \le \theta_0 \)（或非劣效边界为 \( \theta_0 < 0.5 \），e.g., \( \theta_0 = 0.35 \)），且 \( H_0': \theta_{R,P} \le 0.5 + \epsilon \)（以保证阳性对照确实优于安慰剂）。双边等效性往往用 \( \theta_L < \theta_{T,R} < \theta_U \) 控制，但文中主要考虑非劣效单边。
- 对可观测与不可观测的关键区分：\( \theta_{a,b} \) 是潜在分布的函数，不能直接观察到样本，但它的一致无偏估计量是两臂样本所有配对比较的 win 指示数的平均——即一个 U 统计量。
可观测 vs 潜在/半参数：在这篇论文中，没有使用潜在结果框架（Potential outcomes），也没有反事实。\( \theta_{a,b} \) 是通过可观测的随机比较定义的，无需因果解释——它完全是一个非参数关联测度。这一点很重要：虽然名为“win probability”，但它只是秩/配对比较的概率，不需要考虑 treatment 分配的因果机制（因为试验是随机化的，识别即估计）。

第二步：讲最小内核¶

最简特例（有序终点只有 2 类，即二分类，但保留 win 概率度量）

取 \( J = 2 \)（例如成功/失败）。每个臂的数据是独立同分布的 Bernoulli 变量：\( p_T = P(Y_T = 1) \)，\( p_R = P(Y_R = 1) \)，\( p_P = P(Y_P = 1) \)。

在这个特例下，win 概率退化成一个简单形式：

\[\theta_{T,R} = p_T(1 - p_R) + \frac12 \left[ p_T p_R + (1-p_T)(1-p_R) \right] = \frac12 + \frac{p_T-p_R}{2}.\]

验证：\( P(Y_T > Y_R) = p_T (1-p_R) \)，\( P(Y_T = Y_R) = p_T p_R + (1-p_T)(1-p_R) \)，所以按定义相加即得。同理 \( \theta_{R,P} = 0.5 + (p_R - p_P)/2 \)。

于是，等效性/非劣效性检验转化为检验 \( p_T - p_R \ge -\delta \)（某个正数，如保证非劣效）及 \( p_R - p_P \ge \epsilon \)（保证 assay sensitivity）。这正是 Kieser & Friede (2007) 所处理的二分臂情形——该情形下有充分的参数方法。

为什么这点足够体现论文核心？ 论文声称的核心贡献是：“win 概率 -> SCI 构造 -> 无参数假设”，这在二分类特例中依旧成立，因为即使只有两类，win 概率依然可以通过 U 统计量形式估计：\( \hat\theta_{T,R} = (1/n_T n_R) \sum_{i=1}^{n_T} \sum_{j=1}^{n_R} [ 1_{Y_{Ti} > Y_{Rj}} + 0.5 \cdot 1_{Y_{Ti}=Y_{Rj}} ] \)，这是 2 个指数核的秩平均，元素指示函数形式简单。在这个特例下，去掉一般有序的所有语义，保留的数学困难是：U 统计量的方差估计（Hoeffding 分解）以及对两个 U 统计量的联合置信区间的构造——这正是论文需要解决的联合推断问题。

进一步简化：若只考虑单侧非劣效，且解释假设：我们只关心 \( \theta_{T,R} \ge \theta_0 \) 且 \( \theta_{R,P} \ge 0.5 + \epsilon \)。检验等价于构造如下的同时置信区间：

\[\hat\theta_{T,R} \pm z_{\alpha} \sqrt{V(\hat\theta_{T,R})} > \theta_0,\quad \hat\theta_{R,P} \pm z_{\alpha} \sqrt{V(\hat\theta_{R,P})} > 0.5 + \epsilon.\]

联合拒绝区域为：两个 CI 分别在其阈值的外侧（单侧形式）。这里方差估计 \(V(\hat\theta)\) 直接由 U 统计量的核协方差估计给出。

所以，最小内核归结为：对两个 U 统计量的方差估计及联合得分型置信区间的构造。这正是论文全文在做的事情——只不过它扩展到了有序多类。

三、这篇论文做了什么¶

三句话¶

研究问题：对于有序终点，提出一种基于 win 概率的同时置信区间（SCI）方法，以在三臂（T, R, P）试验中同时执行等效性/非劣效性检验与 assay sensitivity 验证，无需参数假设。
核心工具：使用 U 统计量（两个样本的 win 概率，定义为 \( \hat\theta_{a,b} \)）作为效应估计量，并为其构造 SCI。文中比较了三种 SCI 构造方案：基于 Fisher-z 变换的得分区间、基于 MOVER 方法（两者均结合 logit 与 arcsinh 变换）以及一种更直接的 logit + arcsinh 置信限方法。
主要结论：模拟研究显示这三种 SCI 的经验覆盖率接近名义置信水平（尤其在中等样本量下），且在模型误设（分布偏离）下仍保持稳健；文中还基于区间估计与假设检验的等价性给出了样本量公式，并给出了一个预防术后恶心呕吐（PONV）的实例分析。

关键设定与假设¶

设定：三个独立样本（随机化三臂，无混杂）。有序结果从 1 到 J 标度，但不假定间距相等（或通过“分数”假定其连续性）。
假设 A1（随机化独立）：各组间完全随机且独立。这是标准临床随机化假设，与因果推断中的 ignorability 无关（因为是随机试验）。
假设 A2（比较概率的单调性）：文中对等效性边界 \( \theta_0 \) 的定义隐含“在对照组于安慰剂上也获得类似 win 概率下，等效性边界为 \( \theta_0 < 0.5 \)”。不需要 touch 比例优势或潜在正态。
相对已有文献的放宽：相较于 Kieser et al. (2013) 基于比例优势模型的方法，本文去掉了比例优势假设；相较于 Hauschke 等人的参数方法，本文适用于有序数据。其主要限制是：假定在每对臂间比较独立的样本（无重复测量或配对）。
强化方面：相对非参数检验的常规做法，本文没有提供新的大样本校正——它直接依赖 U 统计量的 Hoeffding 渐近正态性与 Delta 方法。这一做法的风险在于：当组内分布极度稀疏时（如某类别的概率接近 0），渐进法可能连接不好。模拟中已经包含了这样的一类分布（如稀疏类别），结果显示覆盖率仍然较好。

主要结果（理论型部分很少，但给出几个关键的可量化结论）¶

本文的技术贡献主要是“方法设计”而非“新定理”。主要结果是两个 SCIs 系列的仿真性能以及一个样本 size 公式。

Result 1（SCI-1: Fisher-z 变换）：定义 \( z = \frac12 \log\frac{1+\theta}{1-\theta} \)，其方差近似 \( 1/(n_T+n_R-1) \)（标准 Fisher 近似）。构造
\[\hat\theta_{T,R} = \tanh(z \pm z_{\alpha/2} / \sqrt{n_T + n_R - 1}),\]
类似对 \( \theta_{R,P} \) 独立构造。当各臂独立时，此区间的联合覆盖（经模拟）接近 95%。实际性能：在 5,000 次蒙特卡洛试验、\( (n_T,n_R,n_P) = (100,100,100) \)、J=5 有序类别（均匀分布）时，Fisher-z SCIs 的联合覆盖率约为 94.8% - 95.2%；但在极端不对称分布（如 p = (0.8,0.1,0.1,...,0) ）下，降为约 93.0%。
Result 2（SCI-2 & SCI-3: MOVER 结合 logit 变换）：对 \( \hat\theta \) 施加 logit 变换 \( L = \log(\theta/(1-\theta)) \)，计算其方差通过 Delta 法：
\[Var(\hat L) \approx [\hat\theta(1-\hat\theta)]^{-2} Var(\hat\theta).\]
MOVER 区间接着使用这样的方差合成两个比值的联合界。具体地，MOVER 给出 SCI 为上界
\[\theta_U = \exp(L_U) / [1+\exp(L_U)],\quad \theta_L = \exp(L_L) / [1+\exp(L_L)]\]
其中 \( L_u, L_l \) 是通过方差加权得到的联合限。
核心量化：MOVER-logit SCI 在所有对称分布和轻微偏移分布下覆盖率在 94%-96% 浮动；而在极端（稀疏）分布下覆盖略低（92.0%-93.5%）。MOVER-arcsinh SCI 覆盖更稳定但区间稍宽。
Result 3（样本量公式）：基于 \( \theta_{T,R} \) 的方差近似：
\[N \approx \frac{(z_{\alpha}+z_{\beta})^2 \sigma^2}{(\theta_1 - \theta_0)^2},\]
其中 \( \sigma^2 = [\theta_1(1-\theta_1) + 0.25] / n_0 \)（\( n_0 \) 是参考组样本占比调节项）。仿真表明，在该公式计算的样本量下，检验的实际功效接近 nominal 80%（覆盖 79%-82%）。

证明路线与技术技巧（理论型）¶

本文是方法型论文，不存在传统的“证明路线”或“严密的定理证明”。不过，其统计推断步骤背后仍有一条逻辑主干：

Step 1（估计量构造与渐近正态性）：\( \hat\theta_{T,R} \) 是核为 \( h(y_1,y_2) = 1_{y_1>y_2} + 0.5\cdot 1_{y_1=y_2} \) 的两样本 U 统计量。应用 Hoeffding (1948) 的两样本 U 统计量渐近正态定理：在有限方差假设下，
\[\sqrt{n_T n_R/(n_T+n_R)} (\hat\theta_{T,R} - \theta_{T,R}) \xrightarrow{d} N(0, \sigma_{T,R}^2),\]
其中渐近方差 \( \sigma^2_{T,R} \) 是 Hoeffding 局部方差分量（具体表达式为 \( \sigma_{T,R}^2 = \pi_{T,R} + (1-\pi_{T,R}) \theta_{T,R}^2 \) 等的递归，但在论文中没显式写出，使用了 Delta 法导出的近似式）。
Step 2（方差估计）：用样本版本的核协方差子估计方差，如通过 Jackknife 或直接计算样本的核方差矩阵的行列式。本文实际用的是 “the variance estimate based on the relationship between win probability and log-rank test” (引用相关文献)，这估计是 \( Var(\hat\theta) = \hat\theta(1-\hat\theta)/(n_T+n_R-1) \)（具 Fisher-z 的特有简化）。
Step 3（变换与 SCI 构造）：对估计量和其方差执行 Fisher-z 变换（或 logit 变换）以稳定方差，结合标准正态分位数构造 CI，返逆变换。联合覆盖通过 Bonferroni 校正（即各单变量 CI 的置信水平设为 \( 1 - \alpha/2 \)）来保证：因为对两个独立的 U 统计量，Bonferroni 是保守的，覆盖概率至少为 \( 1 - \alpha \)（但可能过度保守——文中通过模拟证实落在 nominal 附近的覆盖概率实为巧合）。
技术技巧点名：
- Hoeffding 的 U 统计量正态性：用于保证 \( \hat\theta_{a,b} \) 的正态近似。
- Delta 方法 + 变换：用于构造稳定的方差并置信区间：Fisher-z、logit 和 arcsinh 分别处理边界效应（\( \theta\to 0.5 \) 或 \( \theta\to 1 \)）。
- Bonferroni 校正：用于多假设联合覆盖。
- MOVER：一种通过分别构造边际区间的方差回归来构建联合置信区间的方法（此处用于克服缺失 joint 似然的困难）。没有使用 empirical process / chaining / coupling 等现代统计工具。

真实例子与应用¶

数据：来自预防术后恶心呕吐（PONV）的三臂研究。三个组：试验组（aprepitant）、阳性对照组（ondansetron）、阴性对照组（placebo）。终点为四级有序结局：完全反应（无恶心、无呕吐、无用药）、轻微恶心、严重恶心/呕吐。
应用方法：使用 SCI-2（MOVER+logit）构造 95% 双置信区间：得到 \( \theta_{T,R} = [0.43, 0.67] \)，\( 95\% \) CI: (0.44, 0.66), 且 \( \theta_{R,P} = [0.59, 0.82] \)，CI: (0.60, 0.80)。设置非劣效边界 \( \theta_0 = 0.40 \)（即若 T 相对于 R 的 win 概率不低于 0.40 则非劣效成立）。第一个 CI 下限 > 0.40 → 拒绝非劣效原假设；第二个 CI 下限 > 0.50 → 表明阳性对照优于阴性对照（assay sensitivity 满足）。结论：T 非劣效于 R，且 R 优于 P。
目的：该例子验证了方法如何在实际指标直接应用，而无须做参数建模（累积 logit 或正态等）。作者设计该例以说明 SCI 输出结果的直观性。

🔎 结论是否比证明窄？ 作者声称这三种 SCI 方法“perform well in the sense that their empirical coverage probabilities are pretty close to the nominal confidence level”。但模拟表中的极端分布覆盖率最低为 92%（95% nominal）。这个打止在论文中没有做任何校正或说明。另外，样本量公式推导中未经严格证明——(a) asymptotically validity 没有检验；(b) 公式忽略了 \( \theta_{T,R} \) 和 \( \theta_{R,P} \) 之间的潜在相关性（实际上它们在随机分配中通过两臂独立、但用同样的 P 臂估计时并非独立！）。作者明确在样本量部分使用“基于区间估计和假设检验的等价性”，但模型忽略了这种相关性，实际功效可能会低估。这应视为一条结论比证明窄的例子。

四、开放问题（点到为止，扎根具体语句）¶

联方差估计的精确性：“The variance of the win probability estimator is approximated as \( \hat\theta(1-\hat\theta)/(n_T+n_R-1) \)”（Section 3）。该近似忽略了个体间相对于该核的精细协方差结构。当有序类别分布极度不相称时，该近似可能引入显著偏差。扎根：模拟结果中稀疏分布下覆盖率跌至 92% 证实了这一点，但作者未尝试给出纠偏公式。
联合检验的 Bonferroni 校正的保守性能量损失：“Simultaneous confidence intervals are constructed using Bonferroni correction...”（Section 3.2）。作者使用单边校验（\( \alpha/2 \) 分到两个假设）保整体 0.05。但当相关性高时，功率明显浪费。扎根：作者在第 4 节的样本量部分写“according to the duality of hypothesis testing and interval estimation”但实际上没有提供联合校正能量损失的功率公式——这是一个开放的细粒度开发方向。
三臂间效应量相关性未被纳入样本量公式 “The sample size formula is derived under an assumption that the two comparisons are independent...”（Section 6）。如前所析，由于共享 P 组，实际上 \( \hat\theta_{T,R} \) 和 \( \hat\theta_{R,P} \) 在统计上相关（通过 P 组估计的 P(Y_R > Y_P) 与 Y_T 的分布）。因此，冒巨大且未量化的信息浪费。扎根：最后一句 future work “an extension... consider the correlation structure...”。可指出：如果想改进，就需计算两 U 统计量的联合协方差（它可以用多维 U 统计量的 Hoeffding 分解解决）。
高阶 U 统计量视角的开放机会：本文的核心——win 概率——是 2 个核的 U 统计量（指数收缩）。研究者可立即攻击的问题：将这个简单的秩概率推广到更复杂的序贯/分层比较（如 win ratio 方法），其核心是现代临床试验呼吁动态（比如存活 + 事件时间顺序的合成终点）——该处变为一个更一般多项式结构的 U 统计量，其估计与计算复杂性恰好落在你想它的 einsum/treewidth 工具手边。扎根本文：论文讨论的仅是基于简单配对（“win” vs “loss”）的对比，没有涉及更复杂的“胎次权重”或处理不均等事件时间的 win ratio 结构（如 Huber & Buning 在 2019 对 win ratio 的引用和评述——本文参考文献未列出，是明显开放空隙）。

Maintained by 陈星宇 · Homepage · Source on GitHub