跳转至

Conformalized survival analysis with adaptive cut-offs

作者: Yu Gui, Rohan Hore, Zhimei Ren, Rina Foygel Barber
来源: Biometrika
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: University of Chicago(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomet/asad076


一、领域脉络与小综述

这个方向是什么

本文聚焦于删失数据下生存时间的共形预测问题:给定 Type-I 右删失数据(观测到 \(Y = \min(T, C)\), \(\Delta = I(T \le C)\) 及协变量 \(X\)),目标是构建一个生存时间 \(T\)有效且高效的 lower predictive bound (LPB) \(L(X)\),使得 \(P(T \ge L(X)) \ge 1 - \alpha\)。该方向扎根于共形预测(conformal prediction)的模型无关、有限样本有效性传统,并试图处理删失带来的信息缺失与分布偏移。目前该子领域正从“假设删失完全随机或仅依赖观测值”向“允许更复杂的删失依赖结构”演进。

发展脉络

  • 奠基工作:共形预测的标准方法(Split 共形 / Jackknife+)假设数据 i.i.d.,可直接在无删失的完全数据上生成预测集(如 Vovk et al., 2005)。Tibshirani et al. (2019) 提出权重视图共形推理 (weighted conformal inference),通过重加权修正由协变量分布偏移引入的偏差,为处理非 i.i.d. 设定打下基础。
  • 删失数据的第一个共形处理Candès et al. (2023) 将 weighted conformal 推广到 Type-I 右删失。其做法是:首先 固定一个删失时间阈值\(\tau\),丢弃所有 \(C_i < \tau\) 的个体,然后在阈值 \(C_i \ge \tau\) 的子集上构建 LPB,通过 weighted conformal 修正因丢弃导致的分布偏移。作者称其方法是“支点性的”的关键,因为它展示了删失数据下共形预测的可能性。但作者指出其局限:固定阈值 \(\tau\) 忽略了删失机制的异质性,对某些协变量取值子群可能过于保守或无效。
  • 本文的 novel 位置:将固定阈值子集化替换为 协变量依赖的、数据自适应的子集化。作者声称这能更精准地捕捉删失机制的异质性,从而产生更不保守(即更紧的、信息更多的)LPB。他们证明,在 Type-I 右删失下,这两条路之一(删失机制被良好估计,或者条件生存时间分位数被良好估计)可保证近似精确的边际 coverage,且在第二种情况下还获得近似条件 coverage。

子线索聚类

  • 子线索一:分布偏移修正下的共形预测。 核心工具:weighted conformal(Tibshirani et al., 2019)。此类方法关注通过重加权修正样本选择或协变量分布变化,保持模型的不知情共形有效性。Candès et al. (2023) 与本文皆属此线索,其共同点是处理由子集化引发的分布偏移。
  • 子线索二:删失数据下的预测区间 / LPB 构建。 常见方法包括:基于 Cox 比例风险模型的预测区间、基于加速失效时间模型、基于深度学习的生存预测(如 DeepSurv、贝叶斯生存树)等,但许多方法依赖强模型假设,且其预测 interval 的有效性通常只有模型正确时才保证。共形预测路径提供了一种“模型不可知”的替代路径。本文的方法可视为此线索内的非参数竞争。
  • 子线索三:条件 coverage 与协变量自适应预测。 这涉及如何使预测集在协变量空间上“局部”有效,而不仅是边际有效。标准共形预测只能保证边际覆盖率;若希望条件 coverage,通常需要更严格的假设(如 exchangeability 或 known density)或更复杂的算法。本文声称在条件分位数估计准确时可达到近似条件 coverage,这直接关涉这一子线索。

核心追问与当前瓶颈

  • 核心问题
  • 如何构建样本外的 LPB,使其边际 coverage 不依赖模型假设,又能在删失机制异质性下保持信息量?
  • 能否在条件分位数估计准确时获得近似条件 coverage?其近似率如何?
  • 重加权机制中的权重估计误差(由于删失机制或条件分位数模型的估计)如何影响最终 coverage 的紧致性?
  • 删失机制的类型(Type-I、随机、独立)对共形方法有效性有何不同影响?
  • 已知瓶颈
  • 固定阈值法对删失时间分布敏感:若删失时间普遍较早,丢弃大量样本使样本量过小,LPB 极保守(几乎为零)。
  • 自适应子集化在理论上需要更严格的协变量与删失机制关系假设(比如需可交换性假设在自适应子集后仍成立),否则重加权可能无法完全修正分布偏移。
  • 条件 coverage 的渐近理论(尤其是收敛率对估计误差的依赖)仍不清晰。

⚠️ 作者的 framing

  • 这是作者的说法:作者将主要缺口frame为“固定阈值子集化不能适应删失异质性”,因此本文的自适应子集化是显然的下一步。作者淡化了两点:① 自适应子集化可能引入更复杂的分布偏移(其权重函数需针对每个 \(x\) 重估计),其在有限样本下的误差累积效应未被讨论;② 作者没有讨论 Type-I 右删失之外的删失形式(如随机删失、间隔删失)能否类似处理。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
  • 缺失引用:在预测区间覆盖率的渐近理论方面,没有提及任何关于经验过程U-统计量收敛率的工作(如力倡高维参数均匀 coverage 的文献)。这是因为本文用的是有限样本共形方法,但作者自己又声称达到“近似 marginal coverage”,这个“近似”应该有渐近含义(如 coverage 偏差的收敛率为 \(O(\text{估计误差})\))。然而,intro 及参考文献中未见与经验过程理论相关的引用(如 van der Vaart & Wellner, 1996; Gine & Nickl, 2016)。这暗示作者可能回避了理论(如对估计量收敛率的条件)的严格处理。
  • 另外,条件 coverage 领域内的经典贝叶斯方法下的 coverage 理论(如 Jeffreys prior 在删失模型下的后验覆盖率)也未提及,但这可能不是本文的竞争方向。

张力

未见明显对立引用。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代

  • 符号
  • \(T \in [0, \infty)\):生存时间(潜在,不可完全观测)
  • \(C \in [0, \infty)\):删失时间(Type-I 设置下为固定的、已知或可估计的函数或分布)
  • \(Y = \min(T, C)\):可观测的随访时间
  • \(\Delta = I(T \le C)\):事件指示(1=观测到事件,0=删失)
  • \(X\):协变量向量(假设无缺失,可能包含连续和离散变量)
  • 数据 \(\mathcal{D} = \{(X_i, Y_i, \Delta_i)\}_{i=1}^n\):i.i.d. 的 n 个样本
  • \(L(X)\):要构建的 LPB,目标是 \(P(T \ge L(X)) \ge 1-\alpha\)\(\alpha \in (0,1)\) 是名义错误率)
  • \(\tau(X)\)自适应删失时间截止(由某种规则从数据中学习,以 \(X\) 为函数的阈值)
  • \(w_i\):weighted conformal 中的权重,用于修正子集化后的分布偏移

  • 模型: 本文假设 Type-I 右删失\(C\) 由实验设计决定,可依赖于 \(X\) 但独立于 \(T\) 给定 \(X\)?实际上更弱:假设条件删失函数 \(G(t \mid x) = P(C \ge t \mid X=x)\) 是可识别的或可建模的(依赖已知的删失机制)。更准确:作者假设可由已知的删失机制计算出 \(P(C_i \ge \tau(X) \mid X_i)\),或者从数据中估计出协变量依赖的删失时间条件分布。这是核心假设——没有它,重加权系数无法计算。

  • 可观测数据: 可观测的是 \((X_i, Y_i, \Delta_i)_{i=1}^n\)。无法直接观测到的:未删失个体的完整 \(T_i\),以及被删失个体的真实 \(T_i\)(只知道 \(T_i > Y_i\))。想要但观测不到的:对于每个被丢弃(因为 \(C_i < \tau(X_i)\))的个体,其 \(T_i\) 的信息完全丢失,只能用重加权来补偿其“缺失”对推理的影响。

第二步:讲最小内核

最简特例(二值协变量、单个固定阈值 → 自适应阈值)

假设协变量只有两个取值:\(X \in \{0, 1\}\)。Type-I 删失时间也仅依赖于 \(X\)\(C \mid X=0 \sim \text{Unif}[a_0, b_0]\)\(C \mid X=1 \sim \text{Unif}[a_1, b_1]\),已知这些分布。目标是构建 \(T\) 的 LPB \(L(X)\)

  • 固定阈值方法(Candès et al.):选择一个全局\(\tau\)(比如 3),丢弃所有 \(C < 3\) 的数据,然后在剩余数据上用 weighted conformal。若 \(X=0\) 的删失普遍很早(例如 \(a_0=0, b_0=2\)),则丢弃全部 \(X=0\) 样本,对其他组的信息也被破坏,导致 LPB 对所有 \(X\) 都很保守。
  • 自适应阈值方法(本文核心):选择 \(\tau(X)\),例如 \(\tau(0) = 1\)(保留 \(C \ge 1\)\(X=0\) 样本),\(\tau(1) = 3\)(保留 \(C \ge 3\)\(X=1\) 样本)。现在,对每个组,保留的样本量更大,且保留了更多与目标个体协变量相似的个体。Weighted conformal 中,每个保留样本的权重 \(w_i = 1 / P(C_i \ge \tau(X_i) \mid X_i)\)——这修正了子集化造成的非均匀抽样。最终 LPB 的 coverage 由 weighted conformal 的命题(交换性+正确权重)保证。

这个特例有什么揭示了核心困难: - 核心数学困难是:如何定义 \(\tau(X)\) 使得子集化后的保留样本对目标个体 \((X_{\text{new}}, Y_{\text{new}}, \Delta_{\text{new}})\) 构成一个“有效”的共形集合?具体来说,加权后的保留样本需要与目标个体在潜在生存时间上满足某种条件可交换性,否则权重再精准也补偿不了结构性的分布差异。关键想法:通过设置协变量依赖的 \(\tau(X)\) 来保留更多与目标有相似 \(X\) 的个体,从而在保留组内“缩小”与目标的分布差距。

一般情形的扩展: - 通常,\(X\) 是高维或连续的。\(\tau(X)\) 通过学习(如条件分位数回归或删失机制估计)获得,不再“已知”。证明的新增困难:估计误差对最终 coverage 的影响分析。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在 Type-I 右删失下,构建生存时间的协变量自适应 lower predictive bound,使得其覆盖概率几乎精确达到名义水平 \(1-\alpha\)
  2. 核心工具 / 方法:① 自适应子集化:根据每个个体的协变量依赖删失时间分布,动态选择阈值 \(\tau(X)\) 来保留更多样本;② 加权共形推理:使用重加权系数修正由子集化造成的分布偏移;③ 两种估计途径:若删失机制已知或被良好估计,则权重由删失机制计算;若删失机制未知但条件生存时间分位数被良好估计,则可通过两种估计的任一组合达到 coverage 目标。
  3. 主要结论:在 Type-I 右删失下,如果删失机制或条件生存时间分位数被良好估计(满足某些收敛率),可以得到近似精确的边际 coverage;在条件分位数估计情形下还可获得 近似条件 coverage。模拟和真实数据(移动应用活跃时间)表明,相比固定阈值方法,自适应子集化能产生更不保守(更紧)的 LPB。

关键设定与假设

  • 核心设定:Type-I 右删失(删失时间由实验设计固定,但可依赖 \(X\))。这是已知的、常见的删失形式。
  • 关键假设
  • 可交换性假设:在加权共形框架下,要求删除与保留样本之间保留样本的联合分布与目标个体的分布(在权重修正后)等价。这等价于要求权重 \(w_i = 1 / P(C_i \ge \tau(X_i) \mid X_i)\) 正确且 \(C_i\)\(T_i\) 条件独立(给定 \(X_i\))。这使得权重计算的偏差完全来源于对删失机制的估计误差。
  • 删失机制的可识别性:需要 \(P(C_i \ge \tau(X_i) \mid X_i)\) 可以从数据中估计或已知。如果删失时间不仅依赖于实验设计,还有未观测因素干扰,该方法不再保证。
  • 条件分位数估计的收敛率:对于近似条件 coverage 的结果,需要条件生存时间分位数估计量在某种范数下一致收敛于真值(如 \(L_2\) 或 sup-norm 以 \(n^{-1/2}\) 或更快速度)。这是一个很强的假设。
  • 相比已有文献放宽:放宽了 Candès et al. (2023) 的固定阈值 \(\tau\) 的限制,引入协变量依赖的 \(\tau(X)\)
  • 相对强化:需要估计 \(\tau(X)\) 或条件分位数,而这在 Candès 的工作中是不必要的。

主要结果

Theorem 1 (Marginal coverage, 删失机制已知或良好估计时): 假设删失机制的估计误差 \(\varepsilon_{\text{cens}}(x) = |\hat{P}(C \ge \tau(X) \mid X=x) - P(C \ge \tau(X) \mid X=x)|\) 满足 \(\max_x \varepsilon_{\text{cens}}(x) \le \delta\),且合适的可交换性假设成立,则 LPB 的边际 coverage 满足

\[|P(T \ge L(X)) - (1-\alpha)| \le 2\delta + o(1).\]
因此,如果删失机制被充分精确估计(\(\delta \to 0\)),coverage 是近似精确的。

Theorem 2 (Conditional coverage, 条件分位数估计良好时): 如果条件分位数估计量 \(q_{1-\alpha}(X)\)(即生存时间的 \(1-\alpha\) 分位数)满足 \(\sup_{x} |\hat{q}_{1-\alpha}(x) - q_{1-\alpha}(x)| \le \varepsilon_{\text{quant}}\),且 \(C\) 条件独立于 \(T\) 给定 \(X\),则 LPB 的条件 coverage满足:对于任意 \(x\)

\[|P(T \ge L(X) \mid X=x) - (1-\alpha)| \le 2\varepsilon_{\text{quant}} + o(1).\]

必要条件:这两种估计方法中,至少有一条是可行的。作者没有证明不能同时失败的情况(即删失机制和条件分位数都估计很差),此时 coverage 可能崩溃。这暗示方法的鲁棒性依赖于其中一个被良好估计的“oracle”。

技术难点:① 自适应子集化与重加权的组合引入了双重不确定性——\(\tau(X)\) 的选择影响保留样本集的组成,而保留样本集的组成影响权重估计与 coverage。作者需要证明这两种不确定性以可加的方式影响最终的 coverage 偏差。② 条件 coverage 的证明需要更强的局部交换性假设,且需要处理估计的分位数函数必须满足随 \(X\) 变化而单调的性质。

证明路线与技术技巧

整体路线: 1. 自适应子集化定义:给定训练数据,为每个 target 个体 \(X_{\text{new}}\),定义一个数据依赖的截止 \(\tau(X_{\text{new}})\)。这可以通过拟合删失机制的协变量依赖分位数(例如,保留 \(P(C \ge \tau) = \beta\) 的那些样本)或 条件生存时间的某个分位数来实现。 2. 条件处理分布偏移:保留数据集 \((\tilde{X}_i, \tilde{Y}_i, \tilde{\Delta}_i)\) 满足:权重 \(w_i = 1 / P(C_i \ge \tau(X_i) \mid X_i)\)。作者利用反概率加权(inverse probability weighting)来“移除”子集化的影响。 3. 加权共形推论应用:将保留样本与目标个体视为来自一个加权分布,应用 white 共形预测的通用引理(Tibshirani et al., 2019):若保留样本的权重正确且下标可交换,则覆盖概率由权重之和的分布控制。这里需要证明加权后的保留样本与目标个体条件可交换(\(\tau(X)\) 的选择不破坏条件独立)。 4. Coverage 的达成:最终 LPB \(L(X)\) 是使得 \(Y_{\text{new}}\) 落在训练样本的 \(q_{\text{adj}}\) 分位数下的值。这个分位数需要根据权重调整。边际 coverage 的证明依靠重加权的经典引理。条件 coverage 的证明则依赖估计的分位数函数的点态一致收敛性,以及分位数估计误差等于 coverage 偏差的转换。 5. 误差分析:将 coverage 偏差分解为:① 权重估计误差(如果删失机制被估计而非已知);② 自适应子集化的“不完美”引入的偏差;③ 条件分位数估计误差(如果选择方案二)。论文展示了这两类误差可加,并在一定的收敛条件下控制。

关键跳跃点: - 最难引理:似乎在于权重估计误差与控制 coverage 偏差之间关系的上界推导。这里需要严格定义权重 \(\hat{w}_i\) 与真实 \(w_i\) 之差如何传播为 coverage 误差。作者假设 \(\hat{w}_i\) 满足某种有界性(例如,依赖 Cutoff 至少使 \(P(C \ge \tau) \ge \eta > 0\)),并利用 Lipschitz 性质或经验过程捆绑来推导。 - 条件 coverage 的实现:作者需要证明,如果条件分位数被一致估计,那么对于每个固定的 \(x\),经过共形修正后的分位数会逼近真实条件分位数。这意味着在 \(x\) 的邻域内,覆盖概率不依赖于其他点的权重分布,而是只依赖于条件分位数的局部性质。这个证明需要局部的一类渐近交换性,且对估计误差的传播非常敏感。

技术技巧点名: - Weighted conformal inference (Tibshirani et al., 2019):框架核心,用于处理非均匀保留组。 - Inverse probability weighting (IPW) + 重加权:用于修正由子集化引入的选择偏差。 - 分位数回归估计量的收敛率:论文隐含使用了来自分位数回归理论的一致收敛结果(可能来自 van der Vaart, 1998,或特定的非参数分位数回归工具)。 - 经验过程 / 去一法 (leave-one-out):论文可能需要用到类似于 Jackknife+ 的技巧来避免过拟合调整,但作者选择采用样本划分(交叉拟合)来获得有效加权。

真实例子与应用

  • 数据:一家移动应用(APP)用户活跃时间数据(\(n \approx 5000\))。用户被追踪一段时间,观测其活跃时间;部分用户在观察期间退出(删失)。目标是预测用户未来的活跃时间(生存时间)的下界。
  • 如何应用::协变量包括用户注册时长、历史活跃度、设备类型等。删失机制:一些用户在随机时间被“停止跟踪”(Type-I 删失?但移动应用数据通常不是 Type-I,更像独立删失或不完全归因。作者假设为 Type-I,这是需要验证的建模选择)。采用本文方法,为每个新用户计算自适应的 \(\tau(X)\),然后构建 LPB。
  • 结果:与固定阈值 Candès 方法相比,本文方法产生更紧(即更大的 \(L(X)\))的下界,同时保持相似的边际覆盖率。在低分位数(例如,预测最活跃用户的活跃时间下界)时,自适应方法优势明显。
  • 例子说明:展示了真实异构删失数据下,自适应子集化能“拯救”更多样本(尤其是那些早期被固定阈值丢弃的、但协变量信息重要的样本),从而减少保守性。

🔎 结论是否比证明窄

  • 潜在狭窄点:定理中的“近似条件 coverage”是对每个固定的 \(x\) 陈述,但在证明中,作者可能使用了“对几乎所有 \(x\)”的测度论意义上的几乎处处收敛,而非对每个原子点。那实际应用中,对 outlier \(x\)(低密度区域),条件 coverage 可能很差,但理论未明确排除。
  • 窄结论:定理明确要求在“条件分位数估计良好”的场景,定义良好的“\(\sup_{x}\) 收敛率”。在实际高维或非参数估计中,这几乎不可能实现(需要光滑性、bounded support 等)。因此,条件 coverage 的结果可能更像一个概念证明(proof of concept),而非实际可靠的统计性质。作者没有量化这个“近似”的代价(例如,是否在 \(n\) 很小时条件 coverage 偏差就可观),也未讨论 hyper-parameter tuning 的影响。

四、开放问题

  1. 非 Type-I 删失下的有效性:是否可以将方法扩展到随机删失或独立删失?自适应子集化在此时是否会引入更复杂的选择偏差?扎根:论文的 Type-I 假设是其证明的核心(因为条件独立性假设 \(C \perp T \mid X\) 被假定,而不是被检验)。这是第一个具体开放问题。
  2. 条件 coverage 准确率的渐近控制:当条件分位数估计量只有 \(O_p(n^{-1/4})\) 而非 \(O_p(n^{-1/2})\) 的收敛速度时,条件 coverage 的偏差是多少?它是否总能被控制在 \(O(\varepsilon_{\text{quant}})\) 的量级?扎根:Theorem 2 的条件依赖 \(\sup_x\) 收敛率;高维下此率显著慢,且未知非参数下几乎不可得。因此,是否存在“对任意分布有效的、不依赖条件分位数估计速度”的条件 coverage 方法?
  3. 自适应 Cutoff 选择的最优性:对给定的数据,如何选择最优的 \(\tau(X)\)?应使保留样本量的期望最大,还是使重加权后的覆盖偏差最小?目前方法依靠启发式(分位数回归或删失机制的某分位数),没有最优性理论。扎根:论文的 simulations 部分包含关于不同 cutoff 选择规则的比较,但没有理论指导哪个是 optimal;这本身就是一个统计决策问题。
  4. 理论结果的实践条件:定理 assume 的“权重由已知删失机制计算”在现实数据中很少成立。若权重必须被非线性模型估计,其收敛率与有限样本偏差如何影响 coverage?尤其是对 \(\tau(X)\) 的选择敏感时。扎根:论文的“删失机制估计”途径的可行性依赖于可交换性与强模型假设——这是一个连带问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论