Win Ratio as an Effect Size Measure Under Non‐Proportional Hazards: A Comparison With Difference in Restricted Mean Survival¶
作者: Yuan Wu, Xiaofei Wang, Zhiguo Li
来源: Statistics in Medicine
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: Duke University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1002/sim.70554
一、领域脉络与小综述¶
这个方向是什么: 这个子方向关注的是当比例风险假设失效时,如何度量与推断生存分析中的处理效应。在经典生存分析中,Cox 比例风险模型下的 hazard ratio(HR)是统治性的效应量,但当生存曲线出现交叉、延迟效应或非平行趋势时,HR 不再是时间不变的常数,甚至可能给出误导性的临床解释。本方向的核心统计问题是:寻找对非比例风险鲁棒、临床可解释、且统计推断可行的替代效应量。当前该方向已从"发现问题"阶段进入"方法比较与规范化"阶段,多种替代指标(RMST、win ratio 等)已被提出,但各自的适用边界、推断性质与混杂控制仍在被系统梳理中。
发展脉络: 1. 奠基与问题意识(HR 的局限):比例风险假设的破坏并非新问题。早期工作如 Andersen & Gill (1982) 虽建立了 Cox 模型的计数过程理论,但随后大量文献记录了 HR 在非比例情形下的失效。Schemper (1992) 等人开始系统讨论非比例风险下的效应度量问题,但当时缺乏公认的替代方案。 2. 替代指标的出现(RMST 的崛起):Uno et al. (2014) 与 Royston & Parmar (2011, 2013) 是这一线索的关键节点。Uno 提出基于 Restricted Mean Survival Time(RMST)差的推断,其核心优势在于模型无关性与临床可解释性(生存曲线下面积之差)。RMST 迅速成为挑战 HR 的主流候选,FDA 甚至在部分审批中接受 RMST 作为主要终点。 3. Win Ratio 的引入与扩展:Pocock et al. (2012) 首次提出 win ratio,初衷是处理优先多重结局(prioritized multiple endpoints),例如心血管试验中"先看死亡,再看心衰住院"。其核心思想是将每位处理组受试者与对照组成员配对比较,计算"赢"的比例。随后 Wang et al. (2016) 等人开始探索 win ratio 的统计性质,但将其作为单一生存结局效应量的系统研究相对缺乏。 4. 当前 Frontier 与本文位置:当前研究前沿集中在两个方向:一是对各种替代指标进行系统性比较(在何种偏离 PH 假设下选哪个指标);二是解决复杂删失与混杂下的推断问题(如区间删失、时依混杂)。本文位于这两个前沿的交汇点:它将 win ratio 从多重结局"降维"应用到单一生存结局,系统比较其与 RMST 在不同非比例模式下的表现,并首次给出了区间删失与分层混杂控制下的完整推断流程。
子线索聚类: 根据 Introduction 与参考文献,被引文献可归纳为以下三条子线索: - 线索一:RMST 方法论。以 Uno (2014)、Royston & Parmar (2011, 2013)、Tian et al. (2014) 为代表,专注于 RMST 的估计、推断与临床推广。这一簇工作强调 RMST 的"模型无关"属性,是本文的直接比较对象。 - 线索二:Win Ratio 理论化。以 Pocock et al. (2012) 为源头,Wang et al. (2016)、Oakes (2016) 等人开始建立 win ratio 的渐近理论与推断框架。本文承接这一线索,将其推广至单一结局与复杂删失。 - 线索三:复杂删失下的非参数推断。涉及区间删失下的 NPMLE 与 sieve estimation,如 Turnbull (1976) 的经典算法、Zhang et al. (2010) 的 sieve 方法。本文的技术路线(plug-in + bootstrap)直接依赖于这一簇的估计量。
这个方向在追问的核心问题: 1. 度量选择问题:在非比例风险下,RMST、win ratio、median survival time 等指标各在什么替代假设下有更高的功效?各自的临床解释边界在哪里? 2. 推断可行性问题:在右删失、区间删失、甚至左截断下,如何对这些非参数效应量进行有效的区间估计与假设检验? 3. 混杂控制问题:当存在基线混杂因子时,如何调整 win ratio 或 RMST 以避免偏倚?(本文引入分层 win ratio 即是对此问题的回应)。
⚠️ 作者的 framing: 作者将本文定位为"填补 win ratio 作为单一生存结局效应量的空白",并强调其相对于 RMST 的互补性。具体 framing 策略如下: - 强调互补而非替代:作者反复声明"win ratio 对早期效应敏感,RMST 对晚期效应敏感",暗示两者应同时报告,而非择一。这一定位让本文结论显得稳健、不具攻击性。 - 淡化竞争路线:Introduction 中未深入讨论其他替代指标(如基于加速失效时间 AFT 模型的参数/半参数方法、或基于 pseudo-value 的方法),而是将焦点锁定在 win ratio vs RMST 的二元比较上。这简化了叙事,但也可能忽略了其他有竞争力的方法。 - 回避的理论问题:作者未讨论 win ratio 的半参数有效界问题。对于熟悉效率理论的研究者,这是一个明显的缺口——win ratio 的有效影响函数是什么?在什么条件下达到半参数有效界?本文的 plug-in 估计器是否有效?这些问题在文中未提及,可能是因为作者将目标定位为"应用导向的方法比较"而非"理论最优性推导"。 - 缺失的引用:在讨论混杂控制时,作者引入分层 win ratio,但未引用因果推断文献中关于分层与加权方法的经典工作(如 Rosenbaum 的倾向得分分层、或 Robins 的 IPW)。这可能是作者刻意将讨论限制在"传统生存分析框架"内,但也意味着因果推断视角的缺失。
张力: 未见明显对立引用。RMST 与 win ratio 的支持者并未形成对立学派,更多是"不同场景下各有优劣"的共识。本文的模拟结果也支持这一共识:早期效应 win ratio 优,晚期效应 RMST 优。真正的张力在于临床解释习惯——HR 仍是临床报告的"默认选项",替代指标的推广障碍不在统计性能,而在临床接受度。
二、最核心、最简单的例子 / 数学问题¶
在展开论文的技术细节前,我们先建立一个最小内核,把核心问题与思路讲清楚。
第一步:符号、模型、可观测数据¶
符号定义: - \(T\):潜在生存时间,取值于 \([0, \infty)\)。 - \(C\):潜在删失时间,取值于 \([0, \infty)\)。 - \(X = \min(T, C)\):可观测的生存/删失时间。 - \(\Delta = I(T \leq C)\):可观测的事件指示符(\(\Delta=1\) 表示观察到事件,\(\Delta=0\) 表示删失)。 - \(Z \in \{0, 1\}\):处理指示符(二值处理,1=处理组,0=对照组)。 - \(S_1(t) = P(T > t | Z=1)\):处理组的潜在生存函数(待估参数)。 - \(S_0(t) = P(T > t | Z=0)\):对照组的潜在生存函数(待估参数)。 - \(\tau\):预先指定的时间限制,RMST 与 win ratio 的计算窗口。 - \(n_1, n_0\):处理组与对照组的样本量。
模型与数据生成机制: - 模型:非参数模型。对 \((T, C)\) 的联合分布不做参数假设,仅假设 \(T \perp C | Z\)(随机删失假设)。 - 可观测数据:独立同分布样本 \(\{(X_i, \Delta_i, Z_i)\}_{i=1}^n\)。我们观测不到潜在的 \(T_i\) 和 \(C_i\),只能看到较早发生的那个(\(X_i\))以及它是事件还是删失(\(\Delta_i\))。 - 目标参数: 1. RMST 差:\(\theta_{RMST} = \int_0^\tau \{S_1(t) - S_0(t)\} dt\)。 2. Win Ratio:定义稍复杂,见下文最小内核。
第二步:最小内核——Win Ratio 的直观定义与推断逻辑¶
最简特例:无删失、平衡设计、\(n_1 = n_0 = n\)。
在此特例下,win ratio 的定义极其直观: 1. 配对比较:将处理组的 \(n\) 个受试者与对照组的 \(n\) 个受试者进行全配对(共 \(n^2\) 对)。 2. 判定输赢:对每一对 \((i, j)\)(处理组个体 \(i\),对照组个体 \(j\)): - 若 \(T_{1i} > T_{0j}\),处理组"赢"(\(W_{ij} = 1\))。 - 若 \(T_{1i} < T_{0j}\),处理组"输"(\(L_{ij} = 1\))。 - 若 \(T_{1i} = T_{0j}\),平局(\(T_{ij} = 1\))。 3. 计算 Win Ratio:
统计含义:Win Ratio 本质上是两样本 U-统计量的比值形式。若 \(WR > 1\),意味着处理组个体"存活更久"的概率高于对照组。与 HR 不同,WR 不依赖比例风险假设,直接度量"谁活得更久"。
引入删失后的困难: 当存在右删失时,我们无法观测所有 \(T\),只能观测 \(X = \min(T, C)\)。此时直接比较 \(X\) 会导致偏倚(因为删失时间短的个体容易被误判为"输")。这是本文要解决的核心技术问题。
本文的核心思路(最小内核): 1. 第一步:估计生存函数。利用非参数最大似然估计(NPMLE,即 Kaplan-Meier 估计器)或 sieve MLE,从右删失/区间删失数据中估计 \(S_1(t)\) 和 \(S_0(t)\)。 2. 第二步:Plug-in 计算 Win Ratio。将估计出的 \(\hat{S}_1, \hat{S}_0\) 代入 win ratio 的等价积分形式(见第三节定理),计算 \(\widehat{WR}\)。 3. 第三步:Bootstrap 推断。由于 \(\widehat{WR}\) 的渐近分布难以解析推导(涉及生存函数估计的泛函),采用 Bootstrap 方法构造置信区间与假设检验。
为什么这个内核重要: - 它展示了 win ratio 推断的通用范式:先估计生存函数,再通过泛函形式计算效应量,最后用重抽样方法推断。这一范式不仅适用于 win ratio,也适用于 RMST 等其他效应量。 - 它揭示了区间删失带来的额外挑战:区间删失下,NPMLE 没有显式解(不像 Kaplan-Meier),需要 Turnbull 算法或 sieve 方法迭代求解,计算复杂度上升。
三、这篇论文做了什么¶
三句话总结¶
- 研究了什么问题:在非比例风险假设下,系统比较 win ratio 与 RMST 差作为单一生存结局效应量的统计性能,并解决右删失与区间删失下的推断问题。
- 核心工具/方法:基于 NPMLE 与 sieve MLE 的 plug-in 估计器,结合 Bootstrap 推断;引入分层 win ratio 控制混杂。
- 主要结论:Win ratio 对早期治疗效益更敏感,RMST 对晚期效益更敏感;分层 win ratio 能有效控制混杂;两种效应量应互补报告。
关键设定与假设¶
在第二节最小记号的基础上,本文的完整设定如下:
定义 1(Win Ratio 的积分形式): 对于右删失数据,win ratio 可表示为:
假设 1(随机删失):\(T \perp C | Z\)。这是生存分析的标准假设,保证 Kaplan-Meier 或 NPMLE 的一致性。
假设 2(区间删失机制):对于区间删失数据,假设观测到的是 \((L, R]\),其中 \(T \in (L, R]\)。本文考虑"当前状态数据"(current status)与"一般区间删失"两种情形。
假设 3(分层混杂控制):当存在基线混杂因子 \(V\) 时,假设 \(Z \perp T | V\)(条件可忽略性)。在此假设下,作者定义分层 win ratio:
相比已有文献的放宽/强化: - 相比 Pocock et al. (2012) 的原始定义,本文将 win ratio 推广至单一生存结局与区间删失情形。 - 相比 Wang et al. (2016) 的渐近理论,本文未给出 \(\sqrt{n}\)-收敛性与渐近正态性的严格证明,而是依赖 Bootstrap 的数值有效性。这是一个理论上的弱化,但换来了更广泛的适用性(区间删失)。
主要结果¶
定理 1(Win Ratio 的积分表示): 陈述:在右删失机制下,win ratio 可表示为生存函数的泛函(如上文定义 1)。 直觉:这一表示将 win ratio 从"配对计数"的离散定义转化为"积分泛函"的连续形式,使得 plug-in 估计成为可能。 技术难点:证明的关键在于建立配对计数与积分之间的等价关系,本质上是U-统计量的投影思想。
模拟结果(核心量化结论): 作者设计了四种非比例风险场景: 1. 早期效益:处理组生存曲线早期分离,后期趋同。 2. 晚期效益:处理组生存曲线早期重叠,后期分离。 3. 交叉效应:处理组早期劣势,后期优势。 4. 比例风险:作为基准。
主要发现: - 早期效益场景:Win ratio 检验的功效显著高于 RMST 检验(例如,在 \(n=200\) 时,WR 检验功效约 80%,RMST 检验约 60%)。 - 晚期效益场景:RMST 检验功效更高。 - 交叉效应场景:两者功效相近,均低于早期/晚期效益场景。 - 区间删失:Sieve MLE 方法在区间删失下表现稳健,功效损失小于直接套用 Kaplan-Meier 的错误方法。 - 混杂控制:未分层的 win ratio 在混杂存在时 I 类错误率严重膨胀(可达 15%),而分层 win ratio 维持在名义水平(5%)。
真实数据例子: - 数据集:多发性骨髓瘤患者的无进展生存期(PFS)数据,比较两种治疗方案。 - 数据特点:同时存在右删失与区间删失(部分患者仅知道在两次访视间进展)。 - 结果:Win ratio 估计为 1.35(95% CI: 1.02-1.78),RMST 差为 2.3 个月(95% CI: -0.5 to 5.1)。Win ratio 显示出统计显著性,而 RMST 差未达显著水平。这与模拟中"win ratio 对早期效益更敏感"的结论一致——该数据集的生存曲线在早期分离。
证明路线与技术技巧¶
本文为方法/应用导向论文,理论证明相对轻量,主要集中在定理 1 的积分表示与 Bootstrap 有效性。
整体路线: 1. 积分表示的证明:利用 U-统计量的投影技术,将配对计数形式转化为期望形式,再利用生存函数的定义导出积分表示。 2. Bootstrap 有效性:引用经典文献(如 Efron (1981)、Gill (1989))关于 Bootstrap 在非参数泛函下的有效性结果。本文未给出独立证明,而是依赖"生存函数估计的一致性 + 泛函 Delta 方法 + Bootstrap 一致性"的通用逻辑。
技术技巧点名: - NPMLE(非参数最大似然估计):用于右删失数据,即 Kaplan-Meier 估计器。技术要点在于处理生存函数的跳跃点。 - Sieve MLE(筛最大似然估计):用于区间删失数据。技术要点在于选择合适的基函数(如 B-样条)逼近生存函数,并施加单调性约束(通过重参数化或约束优化)。 - Bootstrap:用于构造置信区间。技术要点在于处理区间删失数据的重抽样——需同时重抽样区间端点 \((L, R)\) 与事件指示符。 - 分层估计:用于混杂控制。技术要点在于层内计算 win ratio,层间加权平均,类似 Mantel-Haenszel 方法。
关键跳跃点: 本文最吃功夫的部分是区间删失下的 sieve MLE 实现。作者需解决: 1. 如何参数化生存函数(选择 B-样条基函数)。 2. 如何施加单调性约束(\(S(t)\) 必须单调递减)。 3. 如何处理边界效应(\(\tau\) 附近的估计不稳定)。 作者采用重参数化方法:将 \(S(t)\) 表示为 \(S(t) = \exp(-\Lambda(t))\),其中 \(\Lambda(t)\) 是累积风险函数,用样条逼近 \(\log \Lambda(t)\),从而自动保证单调性。
🔎 结论是否比证明窄¶
定理 1 的局限性:积分表示仅对右删失数据严格成立。对于区间删失数据,作者未给出类似的积分表示,而是直接采用 plug-in 思想——先估计 \(S(t)\),再代入公式。这一推广缺乏严格的理论支撑,作者在文中也未声称其严格成立,而是通过模拟验证其数值有效性。
Bootstrap 的理论缺口:作者未证明 Bootstrap 在区间删失 + sieve MLE + win ratio 泛函下的严格一致性。这是一个非平凡的理论问题,涉及 sieve 估计的渐近理论。作者选择"模拟验证"而非"理论证明",这是一个务实的策略,但也意味着理论严谨性有所妥协。
四、开放问题¶
- Win Ratio 的半参数有效界:本文的 plug-in 估计器是否达到半参数有效界?若否,如何构造有效影响函数以提升效率?这一问题扎根于第三节"技术技巧"部分——作者未涉及效率理论,而研究者熟悉的高阶影响函数(HOIF)可能在此有所作为。
- 区间删失下 Win Ratio 的渐近分布:能否给出 \(\sqrt{n}\)-收敛性与渐近正态性的严格证明?这需要发展 sieve MLE 泛函的渐近理论。扎根于第三节"结论是否比证明窄"部分。
- 高维混杂下的 Win Ratio 调整:分层方法在高维混杂因子下失效(层内样本量不足)。能否结合倾向得分或双鲁棒方法,构造高维混杂下的 win ratio 估计器?扎根于第一节"缺失的引用"部分——因果推断视角的缺失。
- Win Ratio 与因果推断的联系:Win Ratio 本质上比较的是 \(P(T_1 > T_0)\)(处理组潜在生存时间大于对照组的概率),这与因果推断中的概率效应(probabilistic effect)密切相关。能否在潜在结果框架下重新定义 win ratio,并引入可识别性假设与敏感性分析?扎根于研究者的因果推断背景。
Maintained by 陈星宇 · Homepage · Source on GitHub