A Better Comparison under right-censoring: ABC Statistic for Equivalence Testing and Quantification¶

作者: Simon Mack, Kathrin M\"ollenhoff, Dennis Dobler
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.03415

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在生存分析（右删失数据）中，如何检验两条生存曲线是否“等价”（差异在实践上可忽略），而非传统的“是否有差异”。传统检验（如 log-rank）依赖比例风险（PH）假设，且只能发现差异；等价检验需要定义一个衡量曲线整体差异的标量参数，并构造在非标准极限分布（因参数涉及绝对值运算导致方向可微而非全可微）下的有效推断方法。当前该方向的成熟度处于方法刚成型、理论有突破但有限样本表现仍粗糙的阶段：极限分布已被刻画，重抽样方案已被提出，但有限样本下 Type-I error 控制仍严重依赖调参与变换，且对 PH 偏离场景表现不佳。

发展脉络： - 奠基工作：Wellek (1993) 提出了基于修改版 log-rank 检验的等价检验，但完全依赖 PH 假设（作者原话："approaches are typically based on these classical methods by using modifications of the log-rank test and thus also depend on the assumption of proportional hazards"）。 - 主要进展（摆脱 PH）： - Com-Nougue et al. (1993) 基于 KM 曲线差；Martinez et al. (2017) 基于 odds ratio；Shen (2021) 基于 log transformation model。这些是非参数/半参数尝试，但未形成统一标量参数框架。 - RMST (Restricted Mean Survival Time) 路线：Royston & Parmar (2013), Trinquart et al. (2016), Zhao et al. (2016) 用 RMST 差做等价检验。作者指出了 RMST 的致命缺陷："two RMSTs can be equal although the underlying survival curves are not necessarily the same"（即 RMST 等价不蕴含曲线等价）。 - \(L^1\) 路线的萌芽：Lin & Xu (2010) 用 \(L^1\) 距离检验生存函数相等，但未建立正确的渐近分布（"without establishing the correct asymptotic distribution"）；Liu et al. (2020) 补上了渐近分布，但只做差异性检验。 - 当前 frontier（函数等价的 \(L^p\) 距离）： - Dette et al. (2018) 研究了回归曲线等价的 \(L^2\) 与最大距离。 - Hagemann & Möllenhoff (2025) 研究了最大距离与模型平均。 - Bastian et al. (2024) 在参数回归曲线设定下引入了 \(L^1\) 距离做等价检验，并使用了 Fang & Santos (2019) 的方向 Delta 方法。本文直接继承并拓展了 Bastian et al. 的技术路线到非参数生存设定。 - 本文的位置：将 Bastian et al. (2024) 的参数 \(L^1\) 等价框架，移植到右删失生存数据，用 KM 估计量替代参数拟合，并系统比较了 Subsampling 与 Modified Bootstrap 在此非标准极限分布下的表现。

子线索聚类： 1. 标量参数选择线：PH (Hazard ratio) → RMST → \(L^1\) distance。核心张力是“可解释性 vs 等价蕴含力”。RMST 可解释但不蕴含曲线等价；\(L^1\) 既可解释（归一化面积）又蕴含等价（\(\Delta_\tau=0 \iff S_1=S_2\) a.e.）。 2. 非标准推断技术线：方向可微泛函的推断。普通 Delta method 失效 → Fang & Santos (2019) 的 Modified Bootstrap → Hong & Li (2018) 的 Numerical Delta Method → Subsampling (Politis & Romano)。本文是这些技术在 \(L^1\)-KM 泛函上的首次系统实战。 3. 应用设定线：参数回归 (Bastian et al. 2024) → 右删失生存 (本文) → 竞争风险 (本文 Appendix B)。

核心追问与瓶颈： 1. 如何定义生存曲线的“实践等价”？ 当前共识倾向于不用 HR（因 PH 常不成立），RMST 与 \(L^1\) 是主要竞争者。\(L^1\) 在数学性质上胜出（蕴含等价），但计算与推断更难。 2. 方向可微泛函的渐近分布如何逼近？ 极限分布是正态与非正态的混合，权重依赖未知函数。Modified Bootstrap 与 Subsampling 理论上一致，但有限样本下均有严重偏差（正偏差或负偏差），且收敛速度未知。 3. 有限样本下 Type-I error 控制极差：模拟显示，在无删失或低删失下，多数方法在 \(n=500\) 时仍过度保守或过度 liberal；在 PH 设定下甚至 \(n=500\) 仍 Size \(>10\%\)。这是当前最大瓶颈。

⚠️ 作者的 framing： - 作者把缺口 frame 成：1) 生存等价检验缺非参数方法；2) RMST 不蕴含曲线等价；3) \(L^1\) 距离有优势但缺等价检验与渐近理论。这让本文成为“填补 \(L^1\) 生存等价推断空白”的显然下一步。 - 被淡化的竞争路线：RMST 路线。作者只说 RMST 不蕴含曲线等价，但未讨论在临床实践中，“曲线完全等价”是否真的是核心需求？如果临床只在乎平均生存时间等价，RMST 仍是强竞争者。 - 被回避的困难：有限样本表现。作者在 Section 4.3 和 5.4 承认了 Type-I error 控制困难，但将其 frame 成“需要更大样本量或调参”，而非“ \(L^1\) 泛函本身在有限样本下可能不适用”。 - 缺失的引用：Intro 未引用任何高阶渐近或半参数效率的工作。对于非标准极限分布，Edgeworth expansion 或 Bootstrap 加速方法是标准补救，但作者只用了最粗糙的 cloglog 变换与 \(\alpha_n = \alpha - C/n\) 修正。也未引用 Robins 等人关于非正则参数推断的工作。

张力：未见明显对立引用。但存在设定与结论的隐性张力：作者声称 \(L^1\) 距离优于 RMST 因为它蕴含曲线等价，但在模拟中，最能体现曲线等价（部分相等）的 Piecewise exponential 设定下，所有方法的 Size 都极度保守（远低于 \(\alpha\)），Power 也低。这意味着“理论上更严密的等价度量”在实践中反而更难检验。

二、这篇论文做了什么¶

类型：理论 + 方法型（有定理证明，也有大量模拟与数据应用）。

三句话： ① 研究了右删失数据下基于归一化 \(L^1\) 距离 \(\Delta_\tau(S_1, S_2)\) 的两条生存曲线等价检验问题。 ② 核心工具是 Kaplan-Meier 估计量的 plug-in，结合方向 Hadamard 可微的泛函 Delta method 与 Fang & Santos (2019) 的 Modified Bootstrap。 ③ 主要结论是推导了该统计量的非标准混合渐近分布，证明了 Subsampling 与 Modified Bootstrap 的一致性，但模拟揭示有限样本下 Type-I error 控制极具挑战性，需依赖 cloglog 变换与偏保守的调参。

关键设定与假设： - 目标参数：\(\Delta_\tau(S_1, S_2) = \frac{1}{\tau} \int_0^\tau |S_1(t) - S_2(t)| dt \in [0,1]\)。归一化保证不依赖时间尺度。 - 假设 (4)：\(n_j/n \to \kappa_j \in (0,1)\)。两组样本量成比例增长，防止某组消失。 - 假设 (9)：\(c_n \to \infty, c_n/\sqrt{n} \to 0\)。Modified Bootstrap 中逼近方向导数的带宽条件。 - 随机右删失：\(T\) 与 \(C\) 独立，无其他模型假设（非参数设定）。 - 与已有文献对比：相比 Lin & Xu (2010) 补上了渐近分布；相比 Bastian et al. (2024) 将参数回归推广到了非参数生存（KM 估计量非连续，是阶梯函数，且需处理删失）。

主要结果： - Theorem 2（核心渐近分布）：\(\sqrt{n}(\hat{\Delta}_\tau - \Delta_\tau) \stackrel{d}{\to} D_{\Delta_\tau}\)。极限分布是混合型：在 \(S_1=S_2\) 的集合上，导数是 \(|G(t)|\)（非正态）；在 \(S_1 \neq S_2\) 的集合上，导数是 \(\text{sign}(S_1-S_2)G(t)\)（正态）。\(G(t)\) 是基于 KM 估计量弱收敛极限的 Gaussian process。直觉：绝对值函数在零点不可微，导致“穿零”部分贡献了非正态成分；技术难点是证明 \(\Psi(f) = \frac{1}{\tau}\int |f|\) 是方向 Hadamard 可微（Lemma A.2），且导数非线性。 - Theorem 6（Modified Bootstrap 一致性）：用 \(\hat{\Psi}'_n\) 逼近方向导数，条件分布一致收敛到 \(D_{\Delta_\tau}\)。证明骨架（Lemma A.4）：核心是证 \(\lambda(M_1 \oplus M_2) \to 0\)（估计的穿零集与真实穿零集的对称差测度趋于 0），利用了 KM 的一致收敛与 Fubini 定理。 - 模拟结论：未变换的 Bootstrap 在多数场景过度 liberal；Subsampling 在无交叉场景极度保守；cloglog 变换 + 2-point numerical derivative (\(\phi^{N(2)}_{cl}\)) 是最稳定的选择，但仍在大样本下偏保守。PH 设定下所有方法表现最差。

方法 / 证明骨架： 1. 证明 \(\Psi(f) = \frac{1}{\tau}\int |f|\) 连续（Lemma A.1）→ 得一致性（Theorem 1）。 2. 证明 \(\Psi\) 方向 Hadamard 可微，导数为分段线性+绝对值（Lemma A.2）。 3. KM 过程弱收敛到 Gaussian process \(G\)（引用 Liu et al. 2020）。 4. 应用 Shapiro (1991) 的方向 Delta method → 得 Theorem 2。 5. 证明 \(\hat{\Psi}'_n\) 一致收敛到真导数（Lemma A.4，核心测度论论证）→ 应用 Fang & Santos (2019) Theorem 3.2 → 得 Bootstrap 一致性（Theorem 6）。

🔎 结论是否比证明窄： - 窄结论 1：Theorem 6 证明了 Modified Bootstrap 的分布一致性，但 Section 4.3 讨论有限样本偏差时，作者仅给出“heuristic arguments”和“we expect”的猜测（如 \(O_p(n^{-1/2})\) 或 \(O_p(n^{-1/3})\)），没有严格证明任何收敛速度。作者承认：“a rigorous analysis would require formal expansions... we treat (i) only somewhat heuristically”。 - 窄结论 2：作者在 Section 4.3 声称 “the bias in the Type-I error is positive... if the true survival functions do not coincide on an interval”，这基于极限分布随机占优的直觉，但未给出有限样本偏差的严格界。 - 窄结论 3：Appendix B 扩展到竞争风险时，所有定理均标明 “stated without formal proof”，只说 “can be established analogously”。这留下了严格验证的口子（特别是 Aalen-Johansen 估计量的方向可微性是否真与 KM 完全类比）。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料： - 反复出现 / 社区真在乎的问题：非标准极限分布（方向可微泛函）下的有限样本推断补救。这不是本文一家之言，Fang & Santos (2019), Hong & Li (2018), Bastian et al. (2024) 都在撞这堵墙：理论一致性有了，但有限样本 Size/Power 糟糕。去读同子领域近期 5 篇 intro（如 Dette et al. 2018; Hagemann & Möllenhoff 2025），它们都指向“需要更高阶的逼近或更精妙的重抽样”。 - 本文一家之言的 gap：将 \(L^1\) 推广到竞争风险。这确实自然，但作者自己承认“需要更大样本”，且未给证明，说明技术细节可能非 trivial。

问题种子清单：

(A) 立即可做（用 very_familiar 即可动手）

问题表述：推导 \(\sqrt{n}(\hat{\Delta}_\tau - \Delta_\tau)\) 的高阶渐近展开（Edgeworth expansion），量化 Type-I error 偏差的精确阶数（是 \(O(n^{-1/2})\) 还是 \(O(n^{-1/3})\)？依赖哪些未知泛函？）。
扎根在本文哪里：Section 4.3 第 1 段，作者明确承认 “a rigorous analysis would require formal expansions of the distribution... we treat (i) only somewhat heuristically”，并猜测误差阶数。
攻它需要什么：高维渐近理论 + 非参数统计。需推导 KM 过程的 Edgeworth 展开（引用已有结果如 Akritas 1994），再结合方向 Delta method 的高阶版本。算力要求低，纯理论推导。
谁已经在附近做：需自查。Edgeworth for survival 有经典工作，但结合方向可微的尚缺。
武器库匹配：very_familiar 的 高维渐近 与 非参数统计。研究者比本文作者强在：本文作者只用了 heuristic，研究者可以严格算出展开式，给出偏差的显式表达（可能涉及 \(S_1, S_2\) 在交叉点附近的局部行为）。
问题表述：计算 \(\Delta_\tau(S_1, S_2)\) 的半参数效率界，并考察 plug-in 估计量 \(\hat{\Delta}_\tau\) 是否达到该界。
扎根在本文哪里：全文未提及效率。Theorem 2 给了渐近分布，但未问“这是最优的吗？”如果效率界低于 Theorem 2 的方差，则存在更优估计量（如一步估计）。
攻它需要什么：半参数理论。需计算 tangent space 与 influence function。因参数是非正则的（方向可微），效率界可能非标准（需用 Robins et al. 的非正则效率理论）。
谁已经在附近做：需自查。半参数效率在生存分析有大量工作，但针对 \(L^1\) 距离的未见。
武器库匹配：moderately_familiar 的 半参数理论 与 estimation theory in causal inference。研究者强在：本文作者完全是频率派非参数视角，未引入半参数效率框架；研究者可以问“如果用 HOIF 或一步更新，能否在边界点附近改善方差？”

(B) 中期可做（需补 moderately_familiar 的某一块）

问题表述：构造 \(\Delta_\tau\) 的高阶 U-统计量 / HOIF 估计量，以降低在 \(S_1 \approx S_2\) 区域的偏差，改善有限样本下 cloglog 变换仍偏保守的问题。
扎根在本文哪里：Section 4.3 第 2 段，作者指出当 \(S_1\) 与 \(S_2\) 在大区间上相等时，Bootstrap 估计会低估极限分布，导致保守。这正是高阶偏差主导的区域。
攻它需要什么：需补 HOIF (Higher-Order Influence Functions) 的理论（特别是非正则参数的高阶偏差-方差权衡）。补 1-2 篇：Robins et al. (2008) "Higher-order influence functions and minimax estimation of nonlinear functionals"; 或 Rotnitzky et al. (2021) 近期关于非正则参数的工作。补完后，可计算 \(\hat{\Delta}_\tau\) 的二阶 influence function，设计 debiased 版本。
谁已经在附近做：需自查拥挤度。HOIF 在生存分析的应用极少。
武器库匹配：moderately_familiar 的 HOIF 与 高阶 U-统计量理论。研究者独特角度：本文的 \(\hat{\Delta}_\tau\) 本质是一阶 U-统计量（积分 KM），其偏差在穿零点附近是 \(O(n^{-1/2})\) 不可忽略；研究者可以用 HOIF 框架系统分析这种非正则偏差，并给出 \(k\)-阶估计量的 minimax rate。

(C) 暂不建议

问题表述：严格证明 Appendix B 竞争风险设定下 Aalen-Johansen 估计量的方向 Hadamard 可微性及 Modified Bootstrap 的一致性。
扎根在本文哪里：Appendix B 所有定理均 “stated without formal proof”。
攻它需要什么：核心机器缺多状态 Markov 过程的泛函弱收敛理论与复杂计数过程的测度论论证。需处理 cause-specific hazard 与 subdistribution 的非线性关系，远比 KM 复杂。
为何不易绕过：研究者武器库无 Markov 过程弱收敛的专门工具，且需极长的测度论验证（类似 Lemma A.4 但在更复杂的空间），投入产出比低。

迁移视角（多样性的来源）： - 方法 T：Fang & Santos (2019) 的 Modified Bootstrap for 方向可微泛函 + \(L^1\) 距离参数化。 - 目标领域：因果推断中的 Mediation 分析。 - 为什么可行：在因果中介分析中，自然直接效应 (NDE) 与自然间接效应 (NIE) 的识别公式常涉及非线性泛函（如乘积 \(g(x)h(z)\)），且在边界条件（如 \(g=0\) 或 \(h=0\)）下也是方向可微而非全可微。当前中介分析的等价检验/置信区间多假设正态性，或回避边界场景。研究者熟悉 causal inference identification & estimation theory，可将本文的 \(L^1\) 等价框架移植到“检验 NDE 与 NIE 是否实践等价（差异小于 \(\epsilon\)）”的问题上，用 Modified Bootstrap 处理中介效应泛函的非标准极限分布。这既命中研究者的 causal 强项，又利用了本文的非标准推断技术，可行性高且新颖。

四、延伸与下一步¶

沿引用链的阅读路线： 1. 地基（先读，理解非标准推断的根源）： - Fang & Santos (2019), Rev. Econ. Stud.：方向 Delta method 与 Modified Bootstrap 的奠基文，必读以理解 Theorem 6。 - van der Vaart & Wellner (2023), Weak Convergence：Chapter 3.10, Delta method for bootstrap；理解普通 Bootstrap为何失效。 2. Frontier（再读，理解 \(L^p\) 等价检验的现状）： - Bastian et al. (2024), AISM：本文的直接前作，参数回归 \(L^1\) 等价，看它如何用 \(\hat{\Psi}'_n\)。 - Dette et al. (2018), JASA：回归曲线等价的 \(L^2\) 与 sup-norm 方法，对比 \(L^1\) 的差异。 - Hong & Li (2018), JoE：Numerical Delta method，理解本文的 2-point derivative 修正。 - Liu et al. (2020), Pharm. Stat.：\(L^1\) 距离用于生存差异性检验，看它的渐近分布推导。 - Robins et al. (2008) / Rotnitzky et al. (2021)：非正则参数的高阶推断理论，为 HOIF 种子补课。

假设扰动： - 改动假设：将“随机右删失”（\(T\) 与 \(C\) 独立）扰动为条件独立删失（\(T \perp C | X\)，有协变量）。 - 结论变化：KM 估计量不再一致，需用 IPW 或 Kaplan-Meier with covariates。极限分布 \(G(t)\) 将变成更复杂的 Gaussian process（依赖协变量分布）。方向可微性仍成立，但 \(\hat{\Psi}'_n\) 的构造需在协变量调整后的残差曲线上操作。 - 需要的新工具：半参数协变量调整生存估计的弱收敛理论。 - 落入哪档：B档。需补 moderately_familiar 的 semiparametric theory（特别是协变量调整下的生存函数估计），补完后可做“有协变量调整的 \(L^1\) 等价检验”，直接命中研究者的 causal + semipara 强项。

理解检测题：设 \(X_1, \ldots, X_n \sim F\) 为无删失的连续 i.i.d. 数据，考虑泛函 \(\Psi(F) = \int_0^1 |F(t) - t| dt\)（衡量分布与均匀分布的 \(L^1\) 距离）。请应用本文 Lemma A.2 的方向 Delta method，写出 \(\sqrt{n}(\Psi(\hat{F}_n) - \Psi(F))\) 的极限分布表达式。特别指出：当 \(F(t)=t\)（即真实分布是均匀分布）时，极限分布是什么？它与 \(F(t) \neq t\) 时的极限分布有何本质区别？这如何解释本文模拟中“Piecewise exponential（部分相等）设定下 Size 极度保守”的现象？

Maintained by 陈星宇 · Homepage · Source on GitHub

A Better Comparison under right-censoring: ABC Statistic for Equivalence Testing and Quantification¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论