A proper concordance index for models with crossing hazards¶

作者: A. Gandy, T. J. Matcham
来源: Scandinavian Journal of Statistics
主题: 其他
相关性: 3/10
机构绿灯: Imperial College London（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.70000

一、领域脉络与小综述¶

这个方向是什么：生存分析中的模型评估与选择问题。根本的统计问题是：当数据生成过程（真实模型）的风险函数随时间发生交叉（即某组早期风险高、晚期风险低）时，如何构造一个proper的评估指标，使得该指标在期望意义下能将真实模型排在任何错误模型之上，而不被错误模型的预测所欺骗。当前该子方向的成熟度处于"经典设定已有共识（比例风险下 Harrell's C 是 proper），但非比例/交叉风险设定下指标性质刚被严格审视，新指标刚提出且尚未被广泛检验"的阶段。

发展脉络： - 奠基工作：Harrell et al. (1982) 提出基于配对比较的一致指数，在比例风险（PH）模型下具有直观解释性，成为生存分析模型评估的默认标准。但该指标在非比例风险下的性质未被审视。 - 主要进展：Uno et al. (2011) 提出基于逆概率加权（IPCW）的一致指数，修正了 Harrell's C 在删失数据下的偏倚问题，使其在 PH 模型下渐近 proper；Gerds et al. (2013) 进一步系统化 IPCW 一致指数的渐近理论。 - 当前 frontier 与缺口：当风险函数可交叉时（如分层 PH 模型、机器学习生存模型），现有一致指数不再保证 proper。作者在 intro 中明确指出："current concordance indices are not guaranteed to be proper for models with crossing hazards"。这一缺口在近年机器学习生存模型大量涌现的背景下变得尖锐，因为这些模型常产生非单调或交叉的风险预测，而评估者仍在沿用 PH 下的 proper 指标。 - 本文的位置：填补上述缺口，给出以"配对个体第一个事件时间的预测风险率排序"为准则时，一致指数保持 proper 的精确条件刻画，并据此提出一个新的 proper concordance index。

子线索聚类： 1. Proper scoring rules 与生存评估：关注评估指标的 properness（期望下真模型最优）。经典工作为 Gneiting & Raftery (2007) 建立了严格框架，但主要针对点预测与概率预测；生存分析中删失与时间维度使得 properness 定义需特殊处理。 2. 删失下的一致指数修正：Uno et al. (2011)、Gerds et al. (2013) 等聚焦于删失偏倚的修正，保证 PH 下渐近无偏与 proper，但未触及交叉风险下的根本失效。 3. 深度学习中的生存模型评估与损失：近年深度学习生存模型（如 Kvamme et al., 2019）开始将一致指数或其近似作为辅助损失函数，但所用指标在交叉风险下不 proper，可能导致优化走向错误模型。

这个方向在追问的核心问题： 1. 在风险函数可交叉的生存模型中，一致指数何时是 proper 的？精确条件是什么？ 2. 能否构造一个既保持直观解释性（配对比较、0-1 判别），又在交叉风险下 proper 的一致指数？ 3. 将一致指数作为损失函数目标时，properness 是否能保证优化方向正确？

当前主流方法（IPCW 一致指数）的已知瓶颈：在风险交叉时，它可能给错误模型比真模型更高的期望得分。

⚠️ 作者的 framing： - 作者将缺口 frame 为"现有指标在交叉风险下不 proper，可能偏好错误模型"，从而让"给出精确 properness 条件 + 提出 proper 新指标"成为显然的下一步。 - 被淡化的竞争路线：基于时间依赖 AUC（Heagerty et al., 2000）的评估指标。这类指标不依赖全局风险排序，而是按时间窗评估判别力，天然适应交叉风险，但作者未在 intro 中讨论其与一致指数的优劣对比。这值得研究者去查：时间依赖 AUC 在交叉风险下是否 proper？与本文新指标的理论关系是什么？ - 明显该被引却未出现的文献：关于 proper scoring rules 在删失数据下的理论（如 properness 定义如何严格推广到右删失设定）、以及关于交叉风险下判别力评估的已有工作（如果存在）。intro 中引用集中在一致指数本身，未触及更广的判别力评估文献。

张力：未见明显对立引用。现有文献的共识是"PH 下一致指数 proper"，作者指出"交叉风险下不 proper"，二者不矛盾，只是条件不同。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(T\)：个体的事件时间（随机变量，不可完全观测，因删失）。
\(C\)：删失时间（随机变量）。
\(X\)：可观测时间，\(X = \min(T, C)\)。
\(\Delta\)：事件指示，\(\Delta = I(T \leq C)\)（1 表示观测到事件，0 表示删失）。
\(Z\)：协变量向量（随机变量，可观测）。
\(h(t \mid Z)\)：真实条件风险函数，\(h(t \mid Z) = \lim_{dt \to 0} P(t \leq T < t+dt \mid T \geq t, Z) / dt\)。
\(\hat{h}(t \mid Z)\)：模型预测的条件风险函数（要评估的对象）。
\(S(t \mid Z)\)：真实生存函数，\(S(t \mid Z) = P(T > t \mid Z)\)。
\(\hat{S}(t \mid Z)\)：模型预测的生存函数。
\(G(t \mid Z)\)：删失生存函数，\(G(t \mid Z) = P(C > t \mid Z)\)。
\((T_1, Z_1), (T_2, Z_2)\)：两个独立个体的真实事件时间与协变量。
\(T_{\min} = \min(T_1, T_2)\)：配对中第一个事件时间。
\(\hat{h}(T_{\min} \mid Z_i)\)：模型在第一个事件时间处对个体 \(i\) 的预测风险率。

模型：数据生成过程为 \((T, C, Z)\) 服从某联合分布，\(T\) 与 \(C\) 在给定 \(Z\) 下独立（独立删失假设）。真实风险函数 \(h(t \mid Z)\) 允许随时间与协变量变化，特别允许不同协变量组的风险函数随时间交叉（即存在 \(t_0\) 使得 \(h(t_0 \mid Z_1) > h(t_0 \mid Z_2)\) 但 \(h(t_0' \mid Z_1) < h(t_0' \mid Z_2)\)）。要评估的对象是预测模型 \(\hat{h}(t \mid Z)\)（或对应的 \(\hat{S}(t \mid Z)\)）。

可观测数据：对每个个体，观测到 \((X_i, \Delta_i, Z_i)\)，\(i=1,\ldots,n\)。真实 \(T_i\) 仅在 \(\Delta_i=1\) 时可见，否则只知 \(T_i > C_i\)。评估指标需基于可观测数据构造。

第二步：最小内核——支撑整篇论文的最简特例

最简特例：两组协变量、风险函数在某时间点交叉。

设 \(Z \in \{0, 1\}\)（二值协变量），真实风险函数为： - \(h(t \mid Z=0) = h_0(t)\) - \(h(t \mid Z=1) = h_1(t)\)

且存在时间 \(t^*\) 使得 \(h_0(t) > h_1(t)\) 对 \(t < t^*\)，\(h_0(t) < h_1(t)\) 对 \(t > t^*\)（交叉）。

考虑两个预测模型： - 真模型：预测 \(\hat{h}(t \mid Z) = h(t \mid Z)\)（即真实风险函数）。 - 错误模型 A：预测 \(\hat{h}(t \mid Z) = \bar{h}(t)\)（忽略协变量，用总体平均风险函数）。由于风险交叉，\(\bar{h}(t)\) 在早期偏向 \(Z=0\) 组、晚期偏向 \(Z=1\) 组。

一致指数的核心计算：取两个独立个体 \((T_1, Z_1), (T_2, Z_2)\)，计算 \(T_{\min} = \min(T_1, T_2)\)。一致指数定义为：

\[C = P\left(\hat{h}(T_{\min} \mid Z_{\text{早发}}) > \hat{h}(T_{\min} \mid Z_{\text{晚发}})\right)\]

其中"早发"指 \(T_i = T_{\min}\) 的个体，"晚发"指 \(T_j > T_{\min}\) 的个体。

在交叉风险下，为什么现有指标不 proper？：若用真模型预测 \(\hat{h} = h\)，由于风险交叉，在 \(T_{\min}\) 处真模型给出的风险率排序可能反转——早期事件时 \(Z=0\) 风险高，晚期事件时 \(Z=1\) 风险高。而错误模型 A 给出常数 \(\bar{h}\)，不区分协变量，在某些配对下反而"碰巧"与事件顺序一致。期望下，错误模型 A 的一致指数可能高于真模型，即指标不 proper。

本文的关键想法：properness 的精确条件是——预测风险率 \(\hat{h}(t \mid Z)\) 必须与真实风险率 \(h(t \mid Z)\) 在每个时间点 \(t\) 的协变量排序一致（即 \(\hat{h}(t \mid Z_1) > \hat{h}(t \mid Z_2) \Leftrightarrow h(t \mid Z_1) > h(t \mid Z_2)\) 对所有 \(t\)）。在交叉风险下，这意味着预测模型必须捕捉到风险交叉的时间结构，而非给出全局排序。本文提出的新指标通过在 \(T_{\min}\) 处取预测风险率来排序，恰好满足这一条件（当预测模型正确时），从而保证 proper。

最小内核的数学命题：若 \(\hat{h}(t \mid Z)\) 与 \(h(t \mid Z)\) 在每个 \(t\) 的排序一致，则基于 \(\hat{h}(T_{\min} \mid Z)\) 排序的一致指数是 proper 的（期望下真模型得分最高）。反之，若排序不一致（如全局排序模型在交叉风险下），指标不 proper。

三、这篇论文做了什么¶

三句话： ①研究了生存分析中一致指数在风险函数可交叉模型下的 properness 问题。 ②核心工具是精确刻画"以配对第一个事件时间的预测风险率排序"时 properness 的条件，并据此构造新指标。 ③主要结论：现有一致指数在交叉风险下可能偏好错误模型，新指标在满足条件时 proper 且保持解释性。

关键设定与假设：

独立删失：\(T\) 与 \(C\) 在给定 \(Z\) 下独立。这是生存分析标准假设，与 Uno et al. (2011) 一致。
风险函数可交叉：允许 \(h(t \mid Z_1) > h(t \mid Z_2)\) 在某些 \(t\)、\(h(t \mid Z_1) < h(t \mid Z_2)\) 在另一些 \(t\)。这是本文的核心设定，相比 PH 模型（风险比例恒定、不交叉）大幅放宽。
排序准则：以 \(\hat{h}(T_{\min} \mid Z)\) 排序配对个体。\(T_{\min} = \min(T_1, T_2)\) 是配对中第一个事件时间。
Properness 定义：指标在期望下对真模型取最大值。即 \(E[C(\hat{h}_{\text{true}})] \geq E[C(\hat{h})]\) 对所有预测模型 \(\hat{h}\)，等号仅当 \(\hat{h}\) 与真模型排序一致时成立。

相比已有文献（Uno et al. 2011, Gerds et al. 2013），本文放宽了 PH 假设，但强化了排序准则的特定形式（必须在 \(T_{\min}\) 处取预测风险率）。

主要结果：

定理（Properness 的精确刻画）：当一致指数以 \(\hat{h}(T_{\min} \mid Z)\) 排序时，其 properness 的充分必要条件是：预测模型 \(\hat{h}(t \mid Z)\) 在每个时间点 \(t\) 的协变量排序与真实 \(h(t \mid Z)\) 一致。即：

\[\hat{h}(t \mid z_1) > \hat{h}(t \mid z_2) \Leftrightarrow h(t \mid z_1) > h(t \mid z_2), \quad \forall t, \forall z_1, z_2.\]

直觉：在交叉风险下，"谁风险更高"取决于时间点。只有预测模型在每个时间点都正确排序，才能在 \(T_{\min}\)（随机时间点）处给出正确判别。全局排序模型（如 PH 模型假设风险比例恒定）在交叉处排序错误，导致 properness 失效。
必要条件：若预测模型在某时间点 \(t_0\) 排序与真实不一致，则存在分布使得期望一致指数不取真模型为最大值（可构造反例）。
技术难点：证明充分性需处理 \(T_{\min}\) 的随机性——配对中哪个个体先发生事件、在什么时间发生，都与协变量和风险函数耦合。作者通过分解条件期望，将排序一致性转化为期望得分的最大化。

新指标的构造：基于上述刻画，作者提出新的 concordance index：

\[C_{\text{new}} = P\left(\hat{h}(T_{\min} \mid Z_{\text{早发}}) > \hat{h}(T_{\min} \mid Z_{\text{晚发}}) \mid \text{可观测数据条件}\right)\]

实际计算中，用 IPCW 修正删失：

\[C_{\text{new}} = \frac{\sum_{i \neq j} I(X_i < X_j) \Delta_i I(\hat{h}(X_i \mid Z_i) > \hat{h}(X_i \mid Z_j)) / G(X_i \mid Z_i)}{\sum_{i \neq j} I(X_i < X_j) \Delta_i / G(X_i \mid Z_i)}\]

其中 \(G\) 用 Kaplan-Meier 或模型估计。当预测模型在每个 \(t\) 排序正确时，\(C_{\text{new}}\) 是 proper 的。

证明路线与技术技巧：

整体路线：
Step 1：定义理想一致指数（无删失下）为 \(P(\hat{h}(T_{\min} \mid Z_{\text{早发}}) > \hat{h}(T_{\min} \mid Z_{\text{晚发}}))\)，分解为条件期望。
Step 2：证明若 \(\hat{h}\) 与 \(h\) 在每个 \(t\) 排序一致，则条件期望下真模型得分最高（充分性）。
Step 3：构造反例证明排序不一致时 properness 失效（必要性）。
Step 4：引入 IPCW 修正删失，证明渐近性质（IPCW 估计的一致性）。
Step 5：数值实验验证理论——现有指标在交叉风险下偏好错误模型，新指标不。
关键跳跃点：
充分性证明中，如何处理 \(T_{\min}\) 的随机性与协变量的耦合。作者将期望分解为：
\[E[I(\hat{h}(T_{\min} \mid Z_1) > \hat{h}(T_{\min} \mid Z_2)) \mid T_1 = T_{\min}, Z_1, Z_2]\]
并利用排序一致性将条件期望转化为真实风险率的比较，进而证明真模型最大化该期望。
必要性证明中，构造具体反例（两组协变量、风险交叉），计算错误模型的期望得分高于真模型。
技术技巧点名：
IPCW（逆概率加权删失修正）：用于从可观测数据估计理想一致指数，与 Uno et al. (2011) 相同，但应用于新排序准则。
条件期望分解：将配对比较的期望分解为"谁先发生事件"的条件期望，利用 \(T_{\min}\) 的分布性质。
反例构造：构造两组交叉风险函数，计算全局排序模型与真模型的期望一致指数，数值展示前者更高。

真实例子与应用：

模拟实验（核心验证）：
场景：两组协变量（\(Z=0,1\)），风险函数交叉（早期 \(Z=0\) 风险高、晚期 \(Z=1\) 风险高）。删失分布设为均匀或指数。
方法：比较三种模型——真模型（正确捕捉交叉）、全局 PH 模型（假设风险比例恒定，忽略交叉）、分层 PH 模型（各组基线风险不同但比例恒定）。
结果：现有一致指数（Harrell's C, Uno's C）在交叉风险下给全局 PH 模型比真模型更高的得分；新指标给真模型最高得分。
说明什么：验证理论——现有指标不 proper，新指标 proper。
深度学习辅助损失函数：
场景：将一致指数作为深度学习生存模型的辅助损失项（如 Kvamme et al., 2019 的做法）。
方法：用新指标的近似作为损失，与现有指标近似对比。
结果：新指标作为损失时，优化方向倾向于捕捉风险交叉；现有指标作为损失时，优化方向可能忽略交叉。
说明什么：properness 不仅影响评估，还影响优化方向；新指标作为损失更可靠。

🔎 结论是否比证明窄： - 作者在定理中严格证明了"排序一致性 ⇒ properness"（充分性）与"排序不一致 ⇒ 存在分布使 properness 失效"（必要性）。结论与证明范围一致。 - 在深度学习辅助损失的应用中，作者仅做了初步实验，未严格证明"proper 指标作为损失 ⇒ 优化收敛到真模型"。这是一个泛泛 claim，未严格证明——优化动态与评估指标的 properness 之间有复杂关系（非凸优化、梯度近似等）。

四、开放问题（点到为止，扎根具体语句）¶

时间依赖 AUC 与新指标的理论关系：本文未讨论时间依赖 AUC（Heagerty et al., 2000）在交叉风险下的 properness。问题：时间依赖 AUC 在交叉风险下是否 proper？与本文新指标在判别力与 properness 上的理论关系是什么？扎根于 intro 中对时间依赖 AUC 的回避。
Proper 指标作为损失函数的优化保证：作者在深度学习实验中 claim 新指标作为辅助损失更可靠（Section 4），但未给出优化收敛的理论保证。问题：在什么条件下（损失函数凸性、梯度近似精度等），proper concordance index 作为损失能保证优化方向收敛到真模型？扎根于 Section 4 的实验与泛泛 claim。
高维协变量下的 properness 条件：本文刻画了 \(\hat{h}(t \mid Z)\) 与 \(h(t \mid Z)\) 排序一致的条件，但在高维 \(Z\) 下，排序一致性几乎不可能精确满足（模型总有误差）。问题：在渐近或近似意义下（如排序一致性在多数时间点成立），properness 是否有松弛版本？扎根于定理的严格排序一致性条件。
删失依赖协变量时的 IPCW 修正：本文假设独立删失（\(T\) 与 \(C\) 给定 \(Z\) 下独立），用 IPCW 修正。问题：当删失依赖协变量（\(C\) 与 \(Z\) 相关）时，新指标的 IPCW 修正是否仍保证 properness？扎根于独立删失假设（Section 2）。

Maintained by 陈星宇 · Homepage · Source on GitHub

A proper concordance index for models with crossing hazards¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论