Win Ratio as an Effect Size Measure Under Non‐Proportional Hazards: A Comparison With Difference in Restricted Mean Survival¶

作者: Yuan Wu, Xiaofei Wang, Zhiguo Li
来源: Statistics in Medicine
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: Duke University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70554

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是当比例风险假设失效时，如何度量与推断生存分析中的处理效应。在经典生存分析中，Cox 比例风险模型下的 hazard ratio（HR）是统治性的效应量，但当生存曲线出现交叉、延迟效应或非平行趋势时，HR 不再是时间不变的常数，甚至可能给出误导性的临床解释。本方向的核心统计问题是：寻找对非比例风险鲁棒、临床可解释、且统计推断可行的替代效应量。当前该方向已从"发现问题"阶段进入"方法比较与规范化"阶段，多种替代指标（RMST、win ratio 等）已被提出，但各自的适用边界、推断性质与混杂控制仍在被系统梳理中。

发展脉络： 1. 奠基与问题意识（HR 的局限）：比例风险假设的破坏并非新问题。早期工作如 Andersen & Gill (1982) 虽建立了 Cox 模型的计数过程理论，但随后大量文献记录了 HR 在非比例情形下的失效。Schemper (1992) 等人开始系统讨论非比例风险下的效应度量问题，但当时缺乏公认的替代方案。 2. 替代指标的出现（RMST 的崛起）：Uno et al. (2014) 与 Royston & Parmar (2011, 2013) 是这一线索的关键节点。Uno 提出基于 Restricted Mean Survival Time（RMST）差的推断，其核心优势在于模型无关性与临床可解释性（生存曲线下面积之差）。RMST 迅速成为挑战 HR 的主流候选，FDA 甚至在部分审批中接受 RMST 作为主要终点。 3. Win Ratio 的引入与扩展：Pocock et al. (2012) 首次提出 win ratio，初衷是处理优先多重结局（prioritized multiple endpoints），例如心血管试验中"先看死亡，再看心衰住院"。其核心思想是将每位处理组受试者与对照组成员配对比较，计算"赢"的比例。随后 Wang et al. (2016) 等人开始探索 win ratio 的统计性质，但将其作为单一生存结局效应量的系统研究相对缺乏。 4. 当前 Frontier 与本文位置：当前研究前沿集中在两个方向：一是对各种替代指标进行系统性比较（在何种偏离 PH 假设下选哪个指标）；二是解决复杂删失与混杂下的推断问题（如区间删失、时依混杂）。本文位于这两个前沿的交汇点：它将 win ratio 从多重结局"降维"应用到单一生存结局，系统比较其与 RMST 在不同非比例模式下的表现，并首次给出了区间删失与分层混杂控制下的完整推断流程。

子线索聚类：根据 Introduction 与参考文献，被引文献可归纳为以下三条子线索： - 线索一：RMST 方法论。以 Uno (2014)、Royston & Parmar (2011, 2013)、Tian et al. (2014) 为代表，专注于 RMST 的估计、推断与临床推广。这一簇工作强调 RMST 的"模型无关"属性，是本文的直接比较对象。 - 线索二：Win Ratio 理论化。以 Pocock et al. (2012) 为源头，Wang et al. (2016)、Oakes (2016) 等人开始建立 win ratio 的渐近理论与推断框架。本文承接这一线索，将其推广至单一结局与复杂删失。 - 线索三：复杂删失下的非参数推断。涉及区间删失下的 NPMLE 与 sieve estimation，如 Turnbull (1976) 的经典算法、Zhang et al. (2010) 的 sieve 方法。本文的技术路线（plug-in + bootstrap）直接依赖于这一簇的估计量。

这个方向在追问的核心问题： 1. 度量选择问题：在非比例风险下，RMST、win ratio、median survival time 等指标各在什么替代假设下有更高的功效？各自的临床解释边界在哪里？ 2. 推断可行性问题：在右删失、区间删失、甚至左截断下，如何对这些非参数效应量进行有效的区间估计与假设检验？ 3. 混杂控制问题：当存在基线混杂因子时，如何调整 win ratio 或 RMST 以避免偏倚？（本文引入分层 win ratio 即是对此问题的回应）。

⚠️ 作者的 framing：作者将本文定位为"填补 win ratio 作为单一生存结局效应量的空白"，并强调其相对于 RMST 的互补性。具体 framing 策略如下： - 强调互补而非替代：作者反复声明"win ratio 对早期效应敏感，RMST 对晚期效应敏感"，暗示两者应同时报告，而非择一。这一定位让本文结论显得稳健、不具攻击性。 - 淡化竞争路线：Introduction 中未深入讨论其他替代指标（如基于加速失效时间 AFT 模型的参数/半参数方法、或基于 pseudo-value 的方法），而是将焦点锁定在 win ratio vs RMST 的二元比较上。这简化了叙事，但也可能忽略了其他有竞争力的方法。 - 回避的理论问题：作者未讨论 win ratio 的半参数有效界问题。对于熟悉效率理论的研究者，这是一个明显的缺口——win ratio 的有效影响函数是什么？在什么条件下达到半参数有效界？本文的 plug-in 估计器是否有效？这些问题在文中未提及，可能是因为作者将目标定位为"应用导向的方法比较"而非"理论最优性推导"。 - 缺失的引用：在讨论混杂控制时，作者引入分层 win ratio，但未引用因果推断文献中关于分层与加权方法的经典工作（如 Rosenbaum 的倾向得分分层、或 Robins 的 IPW）。这可能是作者刻意将讨论限制在"传统生存分析框架"内，但也意味着因果推断视角的缺失。

张力：未见明显对立引用。RMST 与 win ratio 的支持者并未形成对立学派，更多是"不同场景下各有优劣"的共识。本文的模拟结果也支持这一共识：早期效应 win ratio 优，晚期效应 RMST 优。真正的张力在于临床解释习惯——HR 仍是临床报告的"默认选项"，替代指标的推广障碍不在统计性能，而在临床接受度。

二、最核心、最简单的例子 / 数学问题¶

在展开论文的技术细节前，我们先建立一个最小内核，把核心问题与思路讲清楚。

第一步：符号、模型、可观测数据¶

符号定义： - \(T\)：潜在生存时间，取值于 \([0, \infty)\)。 - \(C\)：潜在删失时间，取值于 \([0, \infty)\)。 - \(X = \min(T, C)\)：可观测的生存/删失时间。 - \(\Delta = I(T \leq C)\)：可观测的事件指示符（\(\Delta=1\) 表示观察到事件，\(\Delta=0\) 表示删失）。 - \(Z \in \{0, 1\}\)：处理指示符（二值处理，1=处理组，0=对照组）。 - \(S_1(t) = P(T > t | Z=1)\)：处理组的潜在生存函数（待估参数）。 - \(S_0(t) = P(T > t | Z=0)\)：对照组的潜在生存函数（待估参数）。 - \(\tau\)：预先指定的时间限制，RMST 与 win ratio 的计算窗口。 - \(n_1, n_0\)：处理组与对照组的样本量。

模型与数据生成机制： - 模型：非参数模型。对 \((T, C)\) 的联合分布不做参数假设，仅假设 \(T \perp C | Z\)（随机删失假设）。 - 可观测数据：独立同分布样本 \(\{(X_i, \Delta_i, Z_i)\}_{i=1}^n\)。我们观测不到潜在的 \(T_i\) 和 \(C_i\)，只能看到较早发生的那个（\(X_i\)）以及它是事件还是删失（\(\Delta_i\)）。 - 目标参数： 1. RMST 差：\(\theta_{RMST} = \int_0^\tau \{S_1(t) - S_0(t)\} dt\)。 2. Win Ratio：定义稍复杂，见下文最小内核。

第二步：最小内核——Win Ratio 的直观定义与推断逻辑¶

最简特例：无删失、平衡设计、\(n_1 = n_0 = n\)。

在此特例下，win ratio 的定义极其直观： 1. 配对比较：将处理组的 \(n\) 个受试者与对照组的 \(n\) 个受试者进行全配对（共 \(n^2\) 对）。 2. 判定输赢：对每一对 \((i, j)\)（处理组个体 \(i\)，对照组个体 \(j\)）： - 若 \(T_{1i} > T_{0j}\)，处理组"赢"（\(W_{ij} = 1\)）。 - 若 \(T_{1i} < T_{0j}\)，处理组"输"（\(L_{ij} = 1\)）。 - 若 \(T_{1i} = T_{0j}\)，平局（\(T_{ij} = 1\)）。 3. 计算 Win Ratio：

\[WR = \frac{\text{总赢数}}{\text{总输数}} = \frac{\sum_{i,j} W_{ij}}{\sum_{i,j} L_{ij}}.\]

统计含义：Win Ratio 本质上是两样本 U-统计量的比值形式。若 \(WR > 1\)，意味着处理组个体"存活更久"的概率高于对照组。与 HR 不同，WR 不依赖比例风险假设，直接度量"谁活得更久"。

引入删失后的困难：当存在右删失时，我们无法观测所有 \(T\)，只能观测 \(X = \min(T, C)\)。此时直接比较 \(X\) 会导致偏倚（因为删失时间短的个体容易被误判为"输"）。这是本文要解决的核心技术问题。

本文的核心思路（最小内核）： 1. 第一步：估计生存函数。利用非参数最大似然估计（NPMLE，即 Kaplan-Meier 估计器）或 sieve MLE，从右删失/区间删失数据中估计 \(S_1(t)\) 和 \(S_0(t)\)。 2. 第二步：Plug-in 计算 Win Ratio。将估计出的 \(\hat{S}_1, \hat{S}_0\) 代入 win ratio 的等价积分形式（见第三节定理），计算 \(\widehat{WR}\)。 3. 第三步：Bootstrap 推断。由于 \(\widehat{WR}\) 的渐近分布难以解析推导（涉及生存函数估计的泛函），采用 Bootstrap 方法构造置信区间与假设检验。

为什么这个内核重要： - 它展示了 win ratio 推断的通用范式：先估计生存函数，再通过泛函形式计算效应量，最后用重抽样方法推断。这一范式不仅适用于 win ratio，也适用于 RMST 等其他效应量。 - 它揭示了区间删失带来的额外挑战：区间删失下，NPMLE 没有显式解（不像 Kaplan-Meier），需要 Turnbull 算法或 sieve 方法迭代求解，计算复杂度上升。

三、这篇论文做了什么¶

三句话总结¶

研究了什么问题：在非比例风险假设下，系统比较 win ratio 与 RMST 差作为单一生存结局效应量的统计性能，并解决右删失与区间删失下的推断问题。
核心工具/方法：基于 NPMLE 与 sieve MLE 的 plug-in 估计器，结合 Bootstrap 推断；引入分层 win ratio 控制混杂。
主要结论：Win ratio 对早期治疗效益更敏感，RMST 对晚期效益更敏感；分层 win ratio 能有效控制混杂；两种效应量应互补报告。

关键设定与假设¶

在第二节最小记号的基础上，本文的完整设定如下：

定义 1（Win Ratio 的积分形式）：对于右删失数据，win ratio 可表示为：

\[WR = \frac{\int_0^\tau S_1(t) dF_0(t)}{\int_0^\tau S_0(t) dF_1(t)},\]

其中 \(F_1(t) = 1 - S_1(t)\)，\(F_0(t) = 1 - S_0(t)\)。这一形式是 plug-in 估计的基础——只需估计 \(S_1, S_0\)，即可计算 WR。

假设 1（随机删失）：\(T \perp C | Z\)。这是生存分析的标准假设，保证 Kaplan-Meier 或 NPMLE 的一致性。

假设 2（区间删失机制）：对于区间删失数据，假设观测到的是 \((L, R]\)，其中 \(T \in (L, R]\)。本文考虑"当前状态数据"（current status）与"一般区间删失"两种情形。

假设 3（分层混杂控制）：当存在基线混杂因子 \(V\) 时，假设 \(Z \perp T | V\)（条件可忽略性）。在此假设下，作者定义分层 win ratio：

\[WR_{strat} = \frac{\sum_{k=1}^K n_{1k} n_{0k} WR_k}{\sum_{k=1}^K n_{1k} n_{0k}},\]

其中 \(WR_k\) 是第 \(k\) 层内的 win ratio，\(n_{1k}, n_{0k}\) 是第 \(k\) 层的样本量。这一形式类似于 Mantel-Haenszel 型估计器。

相比已有文献的放宽/强化： - 相比 Pocock et al. (2012) 的原始定义，本文将 win ratio 推广至单一生存结局与区间删失情形。 - 相比 Wang et al. (2016) 的渐近理论，本文未给出 \(\sqrt{n}\)-收敛性与渐近正态性的严格证明，而是依赖 Bootstrap 的数值有效性。这是一个理论上的弱化，但换来了更广泛的适用性（区间删失）。

主要结果¶

定理 1（Win Ratio 的积分表示）：陈述：在右删失机制下，win ratio 可表示为生存函数的泛函（如上文定义 1）。直觉：这一表示将 win ratio 从"配对计数"的离散定义转化为"积分泛函"的连续形式，使得 plug-in 估计成为可能。技术难点：证明的关键在于建立配对计数与积分之间的等价关系，本质上是U-统计量的投影思想。

模拟结果（核心量化结论）：作者设计了四种非比例风险场景： 1. 早期效益：处理组生存曲线早期分离，后期趋同。 2. 晚期效益：处理组生存曲线早期重叠，后期分离。 3. 交叉效应：处理组早期劣势，后期优势。 4. 比例风险：作为基准。

主要发现： - 早期效益场景：Win ratio 检验的功效显著高于 RMST 检验（例如，在 \(n=200\) 时，WR 检验功效约 80%，RMST 检验约 60%）。 - 晚期效益场景：RMST 检验功效更高。 - 交叉效应场景：两者功效相近，均低于早期/晚期效益场景。 - 区间删失：Sieve MLE 方法在区间删失下表现稳健，功效损失小于直接套用 Kaplan-Meier 的错误方法。 - 混杂控制：未分层的 win ratio 在混杂存在时 I 类错误率严重膨胀（可达 15%），而分层 win ratio 维持在名义水平（5%）。

真实数据例子： - 数据集：多发性骨髓瘤患者的无进展生存期（PFS）数据，比较两种治疗方案。 - 数据特点：同时存在右删失与区间删失（部分患者仅知道在两次访视间进展）。 - 结果：Win ratio 估计为 1.35（95% CI: 1.02-1.78），RMST 差为 2.3 个月（95% CI: -0.5 to 5.1）。Win ratio 显示出统计显著性，而 RMST 差未达显著水平。这与模拟中"win ratio 对早期效益更敏感"的结论一致——该数据集的生存曲线在早期分离。

证明路线与技术技巧¶

本文为方法/应用导向论文，理论证明相对轻量，主要集中在定理 1 的积分表示与 Bootstrap 有效性。

整体路线： 1. 积分表示的证明：利用 U-统计量的投影技术，将配对计数形式转化为期望形式，再利用生存函数的定义导出积分表示。 2. Bootstrap 有效性：引用经典文献（如 Efron (1981)、Gill (1989)）关于 Bootstrap 在非参数泛函下的有效性结果。本文未给出独立证明，而是依赖"生存函数估计的一致性 + 泛函 Delta 方法 + Bootstrap 一致性"的通用逻辑。

技术技巧点名： - NPMLE（非参数最大似然估计）：用于右删失数据，即 Kaplan-Meier 估计器。技术要点在于处理生存函数的跳跃点。 - Sieve MLE（筛最大似然估计）：用于区间删失数据。技术要点在于选择合适的基函数（如 B-样条）逼近生存函数，并施加单调性约束（通过重参数化或约束优化）。 - Bootstrap：用于构造置信区间。技术要点在于处理区间删失数据的重抽样——需同时重抽样区间端点 \((L, R)\) 与事件指示符。 - 分层估计：用于混杂控制。技术要点在于层内计算 win ratio，层间加权平均，类似 Mantel-Haenszel 方法。

关键跳跃点：本文最吃功夫的部分是区间删失下的 sieve MLE 实现。作者需解决： 1. 如何参数化生存函数（选择 B-样条基函数）。 2. 如何施加单调性约束（\(S(t)\) 必须单调递减）。 3. 如何处理边界效应（\(\tau\) 附近的估计不稳定）。作者采用重参数化方法：将 \(S(t)\) 表示为 \(S(t) = \exp(-\Lambda(t))\)，其中 \(\Lambda(t)\) 是累积风险函数，用样条逼近 \(\log \Lambda(t)\)，从而自动保证单调性。

🔎 结论是否比证明窄¶

定理 1 的局限性：积分表示仅对右删失数据严格成立。对于区间删失数据，作者未给出类似的积分表示，而是直接采用 plug-in 思想——先估计 \(S(t)\)，再代入公式。这一推广缺乏严格的理论支撑，作者在文中也未声称其严格成立，而是通过模拟验证其数值有效性。

Bootstrap 的理论缺口：作者未证明 Bootstrap 在区间删失 + sieve MLE + win ratio 泛函下的严格一致性。这是一个非平凡的理论问题，涉及 sieve 估计的渐近理论。作者选择"模拟验证"而非"理论证明"，这是一个务实的策略，但也意味着理论严谨性有所妥协。

四、开放问题¶

Win Ratio 的半参数有效界：本文的 plug-in 估计器是否达到半参数有效界？若否，如何构造有效影响函数以提升效率？这一问题扎根于第三节"技术技巧"部分——作者未涉及效率理论，而研究者熟悉的高阶影响函数（HOIF）可能在此有所作为。
区间删失下 Win Ratio 的渐近分布：能否给出 \(\sqrt{n}\)-收敛性与渐近正态性的严格证明？这需要发展 sieve MLE 泛函的渐近理论。扎根于第三节"结论是否比证明窄"部分。
高维混杂下的 Win Ratio 调整：分层方法在高维混杂因子下失效（层内样本量不足）。能否结合倾向得分或双鲁棒方法，构造高维混杂下的 win ratio 估计器？扎根于第一节"缺失的引用"部分——因果推断视角的缺失。
Win Ratio 与因果推断的联系：Win Ratio 本质上比较的是 \(P(T_1 > T_0)\)（处理组潜在生存时间大于对照组的概率），这与因果推断中的概率效应（probabilistic effect）密切相关。能否在潜在结果框架下重新定义 win ratio，并引入可识别性假设与敏感性分析？扎根于研究者的因果推断背景。

Maintained by 陈星宇 · Homepage · Source on GitHub