A Better Comparison under right-censoring: ABC Statistic for Equivalence Testing and Quantification¶
作者: Simon Mack, Kathrin M\"ollenhoff, Dennis Dobler
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.03415
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在生存分析(右删失数据)中,如何检验两条生存曲线是否“等价”(差异在实践上可忽略),而非传统的“是否有差异”。传统检验(如 log-rank)依赖比例风险(PH)假设,且只能发现差异;等价检验需要定义一个衡量曲线整体差异的标量参数,并构造在非标准极限分布(因参数涉及绝对值运算导致方向可微而非全可微)下的有效推断方法。当前该方向的成熟度处于方法刚成型、理论有突破但有限样本表现仍粗糙的阶段:极限分布已被刻画,重抽样方案已被提出,但有限样本下 Type-I error 控制仍严重依赖调参与变换,且对 PH 偏离场景表现不佳。
发展脉络: - 奠基工作:Wellek (1993) 提出了基于修改版 log-rank 检验的等价检验,但完全依赖 PH 假设(作者原话:"approaches are typically based on these classical methods by using modifications of the log-rank test and thus also depend on the assumption of proportional hazards")。 - 主要进展(摆脱 PH): - Com-Nougue et al. (1993) 基于 KM 曲线差;Martinez et al. (2017) 基于 odds ratio;Shen (2021) 基于 log transformation model。这些是非参数/半参数尝试,但未形成统一标量参数框架。 - RMST (Restricted Mean Survival Time) 路线:Royston & Parmar (2013), Trinquart et al. (2016), Zhao et al. (2016) 用 RMST 差做等价检验。作者指出了 RMST 的致命缺陷:"two RMSTs can be equal although the underlying survival curves are not necessarily the same"(即 RMST 等价不蕴含曲线等价)。 - \(L^1\) 路线的萌芽:Lin & Xu (2010) 用 \(L^1\) 距离检验生存函数相等,但未建立正确的渐近分布("without establishing the correct asymptotic distribution");Liu et al. (2020) 补上了渐近分布,但只做差异性检验。 - 当前 frontier(函数等价的 \(L^p\) 距离): - Dette et al. (2018) 研究了回归曲线等价的 \(L^2\) 与最大距离。 - Hagemann & Möllenhoff (2025) 研究了最大距离与模型平均。 - Bastian et al. (2024) 在参数回归曲线设定下引入了 \(L^1\) 距离做等价检验,并使用了 Fang & Santos (2019) 的方向 Delta 方法。本文直接继承并拓展了 Bastian et al. 的技术路线到非参数生存设定。 - 本文的位置:将 Bastian et al. (2024) 的参数 \(L^1\) 等价框架,移植到右删失生存数据,用 KM 估计量替代参数拟合,并系统比较了 Subsampling 与 Modified Bootstrap 在此非标准极限分布下的表现。
子线索聚类: 1. 标量参数选择线:PH (Hazard ratio) → RMST → \(L^1\) distance。核心张力是“可解释性 vs 等价蕴含力”。RMST 可解释但不蕴含曲线等价;\(L^1\) 既可解释(归一化面积)又蕴含等价(\(\Delta_\tau=0 \iff S_1=S_2\) a.e.)。 2. 非标准推断技术线:方向可微泛函的推断。普通 Delta method 失效 → Fang & Santos (2019) 的 Modified Bootstrap → Hong & Li (2018) 的 Numerical Delta Method → Subsampling (Politis & Romano)。本文是这些技术在 \(L^1\)-KM 泛函上的首次系统实战。 3. 应用设定线:参数回归 (Bastian et al. 2024) → 右删失生存 (本文) → 竞争风险 (本文 Appendix B)。
核心追问与瓶颈: 1. 如何定义生存曲线的“实践等价”? 当前共识倾向于不用 HR(因 PH 常不成立),RMST 与 \(L^1\) 是主要竞争者。\(L^1\) 在数学性质上胜出(蕴含等价),但计算与推断更难。 2. 方向可微泛函的渐近分布如何逼近? 极限分布是正态与非正态的混合,权重依赖未知函数。Modified Bootstrap 与 Subsampling 理论上一致,但有限样本下均有严重偏差(正偏差或负偏差),且收敛速度未知。 3. 有限样本下 Type-I error 控制极差:模拟显示,在无删失或低删失下,多数方法在 \(n=500\) 时仍过度保守或过度 liberal;在 PH 设定下甚至 \(n=500\) 仍 Size \(>10\%\)。这是当前最大瓶颈。
⚠️ 作者的 framing: - 作者把缺口 frame 成:1) 生存等价检验缺非参数方法;2) RMST 不蕴含曲线等价;3) \(L^1\) 距离有优势但缺等价检验与渐近理论。这让本文成为“填补 \(L^1\) 生存等价推断空白”的显然下一步。 - 被淡化的竞争路线:RMST 路线。作者只说 RMST 不蕴含曲线等价,但未讨论在临床实践中,“曲线完全等价”是否真的是核心需求?如果临床只在乎平均生存时间等价,RMST 仍是强竞争者。 - 被回避的困难:有限样本表现。作者在 Section 4.3 和 5.4 承认了 Type-I error 控制困难,但将其 frame 成“需要更大样本量或调参”,而非“ \(L^1\) 泛函本身在有限样本下可能不适用”。 - 缺失的引用:Intro 未引用任何高阶渐近或半参数效率的工作。对于非标准极限分布,Edgeworth expansion 或 Bootstrap 加速方法是标准补救,但作者只用了最粗糙的 cloglog 变换与 \(\alpha_n = \alpha - C/n\) 修正。也未引用 Robins 等人关于非正则参数推断的工作。
张力: 未见明显对立引用。但存在设定与结论的隐性张力:作者声称 \(L^1\) 距离优于 RMST 因为它蕴含曲线等价,但在模拟中,最能体现曲线等价(部分相等)的 Piecewise exponential 设定下,所有方法的 Size 都极度保守(远低于 \(\alpha\)),Power 也低。这意味着“理论上更严密的等价度量”在实践中反而更难检验。
二、这篇论文做了什么¶
类型:理论 + 方法型(有定理证明,也有大量模拟与数据应用)。
三句话: ① 研究了右删失数据下基于归一化 \(L^1\) 距离 \(\Delta_\tau(S_1, S_2)\) 的两条生存曲线等价检验问题。 ② 核心工具是 Kaplan-Meier 估计量的 plug-in,结合方向 Hadamard 可微的泛函 Delta method 与 Fang & Santos (2019) 的 Modified Bootstrap。 ③ 主要结论是推导了该统计量的非标准混合渐近分布,证明了 Subsampling 与 Modified Bootstrap 的一致性,但模拟揭示有限样本下 Type-I error 控制极具挑战性,需依赖 cloglog 变换与偏保守的调参。
关键设定与假设: - 目标参数:\(\Delta_\tau(S_1, S_2) = \frac{1}{\tau} \int_0^\tau |S_1(t) - S_2(t)| dt \in [0,1]\)。归一化保证不依赖时间尺度。 - 假设 (4):\(n_j/n \to \kappa_j \in (0,1)\)。两组样本量成比例增长,防止某组消失。 - 假设 (9):\(c_n \to \infty, c_n/\sqrt{n} \to 0\)。Modified Bootstrap 中逼近方向导数的带宽条件。 - 随机右删失:\(T\) 与 \(C\) 独立,无其他模型假设(非参数设定)。 - 与已有文献对比:相比 Lin & Xu (2010) 补上了渐近分布;相比 Bastian et al. (2024) 将参数回归推广到了非参数生存(KM 估计量非连续,是阶梯函数,且需处理删失)。
主要结果: - Theorem 2(核心渐近分布):\(\sqrt{n}(\hat{\Delta}_\tau - \Delta_\tau) \stackrel{d}{\to} D_{\Delta_\tau}\)。极限分布是混合型:在 \(S_1=S_2\) 的集合上,导数是 \(|G(t)|\)(非正态);在 \(S_1 \neq S_2\) 的集合上,导数是 \(\text{sign}(S_1-S_2)G(t)\)(正态)。\(G(t)\) 是基于 KM 估计量弱收敛极限的 Gaussian process。直觉:绝对值函数在零点不可微,导致“穿零”部分贡献了非正态成分;技术难点是证明 \(\Psi(f) = \frac{1}{\tau}\int |f|\) 是方向 Hadamard 可微(Lemma A.2),且导数非线性。 - Theorem 6(Modified Bootstrap 一致性):用 \(\hat{\Psi}'_n\) 逼近方向导数,条件分布一致收敛到 \(D_{\Delta_\tau}\)。证明骨架(Lemma A.4):核心是证 \(\lambda(M_1 \oplus M_2) \to 0\)(估计的穿零集与真实穿零集的对称差测度趋于 0),利用了 KM 的一致收敛与 Fubini 定理。 - 模拟结论:未变换的 Bootstrap 在多数场景过度 liberal;Subsampling 在无交叉场景极度保守;cloglog 变换 + 2-point numerical derivative (\(\phi^{N(2)}_{cl}\)) 是最稳定的选择,但仍在大样本下偏保守。PH 设定下所有方法表现最差。
方法 / 证明骨架: 1. 证明 \(\Psi(f) = \frac{1}{\tau}\int |f|\) 连续(Lemma A.1)→ 得一致性(Theorem 1)。 2. 证明 \(\Psi\) 方向 Hadamard 可微,导数为分段线性+绝对值(Lemma A.2)。 3. KM 过程弱收敛到 Gaussian process \(G\)(引用 Liu et al. 2020)。 4. 应用 Shapiro (1991) 的方向 Delta method → 得 Theorem 2。 5. 证明 \(\hat{\Psi}'_n\) 一致收敛到真导数(Lemma A.4,核心测度论论证)→ 应用 Fang & Santos (2019) Theorem 3.2 → 得 Bootstrap 一致性(Theorem 6)。
🔎 结论是否比证明窄: - 窄结论 1:Theorem 6 证明了 Modified Bootstrap 的分布一致性,但 Section 4.3 讨论有限样本偏差时,作者仅给出“heuristic arguments”和“we expect”的猜测(如 \(O_p(n^{-1/2})\) 或 \(O_p(n^{-1/3})\)),没有严格证明任何收敛速度。作者承认:“a rigorous analysis would require formal expansions... we treat (i) only somewhat heuristically”。 - 窄结论 2:作者在 Section 4.3 声称 “the bias in the Type-I error is positive... if the true survival functions do not coincide on an interval”,这基于极限分布随机占优的直觉,但未给出有限样本偏差的严格界。 - 窄结论 3:Appendix B 扩展到竞争风险时,所有定理均标明 “stated without formal proof”,只说 “can be established analogously”。这留下了严格验证的口子(特别是 Aalen-Johansen 估计量的方向可微性是否真与 KM 完全类比)。
三、值不值得做 / 研究者能做什么¶
领域层面的判断材料: - 反复出现 / 社区真在乎的问题:非标准极限分布(方向可微泛函)下的有限样本推断补救。这不是本文一家之言,Fang & Santos (2019), Hong & Li (2018), Bastian et al. (2024) 都在撞这堵墙:理论一致性有了,但有限样本 Size/Power 糟糕。去读同子领域近期 5 篇 intro(如 Dette et al. 2018; Hagemann & Möllenhoff 2025),它们都指向“需要更高阶的逼近或更精妙的重抽样”。 - 本文一家之言的 gap:将 \(L^1\) 推广到竞争风险。这确实自然,但作者自己承认“需要更大样本”,且未给证明,说明技术细节可能非 trivial。
问题种子清单:
(A) 立即可做(用 very_familiar 即可动手)
- 问题表述:推导 \(\sqrt{n}(\hat{\Delta}_\tau - \Delta_\tau)\) 的高阶渐近展开(Edgeworth expansion),量化 Type-I error 偏差的精确阶数(是 \(O(n^{-1/2})\) 还是 \(O(n^{-1/3})\)?依赖哪些未知泛函?)。
- 扎根在本文哪里:Section 4.3 第 1 段,作者明确承认 “a rigorous analysis would require formal expansions of the distribution... we treat (i) only somewhat heuristically”,并猜测误差阶数。
- 攻它需要什么:高维渐近理论 + 非参数统计。需推导 KM 过程的 Edgeworth 展开(引用已有结果如 Akritas 1994),再结合方向 Delta method 的高阶版本。算力要求低,纯理论推导。
- 谁已经在附近做:需自查。Edgeworth for survival 有经典工作,但结合方向可微的尚缺。
-
武器库匹配:very_familiar 的 高维渐近 与 非参数统计。研究者比本文作者强在:本文作者只用了 heuristic,研究者可以严格算出展开式,给出偏差的显式表达(可能涉及 \(S_1, S_2\) 在交叉点附近的局部行为)。
-
问题表述:计算 \(\Delta_\tau(S_1, S_2)\) 的半参数效率界,并考察 plug-in 估计量 \(\hat{\Delta}_\tau\) 是否达到该界。
- 扎根在本文哪里:全文未提及效率。Theorem 2 给了渐近分布,但未问“这是最优的吗?”如果效率界低于 Theorem 2 的方差,则存在更优估计量(如一步估计)。
- 攻它需要什么:半参数理论。需计算 tangent space 与 influence function。因参数是非正则的(方向可微),效率界可能非标准(需用 Robins et al. 的非正则效率理论)。
- 谁已经在附近做:需自查。半参数效率在生存分析有大量工作,但针对 \(L^1\) 距离的未见。
- 武器库匹配:moderately_familiar 的 半参数理论 与 estimation theory in causal inference。研究者强在:本文作者完全是频率派非参数视角,未引入半参数效率框架;研究者可以问“如果用 HOIF 或一步更新,能否在边界点附近改善方差?”
(B) 中期可做(需补 moderately_familiar 的某一块)
- 问题表述:构造 \(\Delta_\tau\) 的高阶 U-统计量 / HOIF 估计量,以降低在 \(S_1 \approx S_2\) 区域的偏差,改善有限样本下 cloglog 变换仍偏保守的问题。
- 扎根在本文哪里:Section 4.3 第 2 段,作者指出当 \(S_1\) 与 \(S_2\) 在大区间上相等时,Bootstrap 估计会低估极限分布,导致保守。这正是高阶偏差主导的区域。
- 攻它需要什么:需补 HOIF (Higher-Order Influence Functions) 的理论(特别是非正则参数的高阶偏差-方差权衡)。补 1-2 篇:Robins et al. (2008) "Higher-order influence functions and minimax estimation of nonlinear functionals"; 或 Rotnitzky et al. (2021) 近期关于非正则参数的工作。补完后,可计算 \(\hat{\Delta}_\tau\) 的二阶 influence function,设计 debiased 版本。
- 谁已经在附近做:需自查拥挤度。HOIF 在生存分析的应用极少。
- 武器库匹配:moderately_familiar 的 HOIF 与 高阶 U-统计量理论。研究者独特角度:本文的 \(\hat{\Delta}_\tau\) 本质是一阶 U-统计量(积分 KM),其偏差在穿零点附近是 \(O(n^{-1/2})\) 不可忽略;研究者可以用 HOIF 框架系统分析这种非正则偏差,并给出 \(k\)-阶估计量的 minimax rate。
(C) 暂不建议
- 问题表述:严格证明 Appendix B 竞争风险设定下 Aalen-Johansen 估计量的方向 Hadamard 可微性及 Modified Bootstrap 的一致性。
- 扎根在本文哪里:Appendix B 所有定理均 “stated without formal proof”。
- 攻它需要什么:核心机器缺多状态 Markov 过程的泛函弱收敛理论与复杂计数过程的测度论论证。需处理 cause-specific hazard 与 subdistribution 的非线性关系,远比 KM 复杂。
- 为何不易绕过:研究者武器库无 Markov 过程弱收敛的专门工具,且需极长的测度论验证(类似 Lemma A.4 但在更复杂的空间),投入产出比低。
迁移视角(多样性的来源): - 方法 T:Fang & Santos (2019) 的 Modified Bootstrap for 方向可微泛函 + \(L^1\) 距离参数化。 - 目标领域:因果推断中的 Mediation 分析。 - 为什么可行:在因果中介分析中,自然直接效应 (NDE) 与自然间接效应 (NIE) 的识别公式常涉及非线性泛函(如乘积 \(g(x)h(z)\)),且在边界条件(如 \(g=0\) 或 \(h=0\))下也是方向可微而非全可微。当前中介分析的等价检验/置信区间多假设正态性,或回避边界场景。研究者熟悉 causal inference identification & estimation theory,可将本文的 \(L^1\) 等价框架移植到“检验 NDE 与 NIE 是否实践等价(差异小于 \(\epsilon\))”的问题上,用 Modified Bootstrap 处理中介效应泛函的非标准极限分布。这既命中研究者的 causal 强项,又利用了本文的非标准推断技术,可行性高且新颖。
四、延伸与下一步¶
沿引用链的阅读路线: 1. 地基(先读,理解非标准推断的根源): - Fang & Santos (2019), Rev. Econ. Stud.:方向 Delta method 与 Modified Bootstrap 的奠基文,必读以理解 Theorem 6。 - van der Vaart & Wellner (2023), Weak Convergence:Chapter 3.10, Delta method for bootstrap;理解普通 Bootstrap为何失效。 2. Frontier(再读,理解 \(L^p\) 等价检验的现状): - Bastian et al. (2024), AISM:本文的直接前作,参数回归 \(L^1\) 等价,看它如何用 \(\hat{\Psi}'_n\)。 - Dette et al. (2018), JASA:回归曲线等价的 \(L^2\) 与 sup-norm 方法,对比 \(L^1\) 的差异。 - Hong & Li (2018), JoE:Numerical Delta method,理解本文的 2-point derivative 修正。 - Liu et al. (2020), Pharm. Stat.:\(L^1\) 距离用于生存差异性检验,看它的渐近分布推导。 - Robins et al. (2008) / Rotnitzky et al. (2021):非正则参数的高阶推断理论,为 HOIF 种子补课。
假设扰动: - 改动假设:将“随机右删失”(\(T\) 与 \(C\) 独立)扰动为条件独立删失(\(T \perp C | X\),有协变量)。 - 结论变化:KM 估计量不再一致,需用 IPW 或 Kaplan-Meier with covariates。极限分布 \(G(t)\) 将变成更复杂的 Gaussian process(依赖协变量分布)。方向可微性仍成立,但 \(\hat{\Psi}'_n\) 的构造需在协变量调整后的残差曲线上操作。 - 需要的新工具:半参数协变量调整生存估计的弱收敛理论。 - 落入哪档:B档。需补 moderately_familiar 的 semiparametric theory(特别是协变量调整下的生存函数估计),补完后可做“有协变量调整的 \(L^1\) 等价检验”,直接命中研究者的 causal + semipara 强项。
理解检测题: 设 \(X_1, \ldots, X_n \sim F\) 为无删失的连续 i.i.d. 数据,考虑泛函 \(\Psi(F) = \int_0^1 |F(t) - t| dt\)(衡量分布与均匀分布的 \(L^1\) 距离)。请应用本文 Lemma A.2 的方向 Delta method,写出 \(\sqrt{n}(\Psi(\hat{F}_n) - \Psi(F))\) 的极限分布表达式。特别指出:当 \(F(t)=t\)(即真实分布是均匀分布)时,极限分布是什么?它与 \(F(t) \neq t\) 时的极限分布有何本质区别?这如何解释本文模拟中“Piecewise exponential(部分相等)设定下 Size 极度保守”的现象?
Maintained by 陈星宇 · Homepage · Source on GitHub