Time-dependent prognostic accuracy measures for recurrent event data¶

作者: R Dey, D E Schaubel, J A Hanley, P Saha-Chaudhuri
来源: Biometrics
主题: 其他
相关性: 5/10
机构绿灯: McGill University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae150

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：如何评估一个基线生物标志物（或从模型得到的复合评分）对“复发事件”这一临床结局的预后准确性？ 这里的“复发事件”指同一患者可能经历多次同一类型的事件（如肺部感染发作、住院、肿瘤复发），数据具有内生的相关性（同一患者的事件间不独立）和潜在的异质性（不同患者的基线风险不同）。当前，针对“单次事件”（如死亡、首次复发）的预后准确性度量（如时间依赖的ROC曲线、AUC、Brier score）已有成熟理论，但将其推广到复发事件数据时，面临两个核心困难：① 如何定义“病例”与“对照”（因为同一患者在随访期内可能多次成为“病例”）；② 如何处理患者间未观测到的异质性（frailty）以及标志物与事件率之间的相关性（标志物的“信息性”）。该方向的成熟度较低，文献稀疏，本文是少数直接处理该问题的系统性工作之一。

发展脉络（history）¶

奠基工作：单次事件预后准确性度量
Heagerty & Zheng (2005)：提出了时间依赖的ROC曲线和AUC，用于评估基线标志物对“至事件发生时间”（time-to-event）的预测能力。这是单次事件设定下的标准框架。
Cai et al. (2006)：进一步将时间依赖的ROC扩展到更一般的生存模型，并给出了渐近理论。这些工作为复发事件设定提供了概念基础，但直接套用会忽略事件间的相关性。
主要进展：复发事件模型的建立
Lin et al. (2000)：提出了比例率模型（proportional rate model），通过边际建模（marginal modeling）处理复发事件，但未考虑未观测到的异质性。
Zeng & Lin (2007)：发展了基于脆弱模型（frailty model）的极大似然估计，能够显式建模患者间的异质性。这是本文方法的核心基础——本文的估计量正是基于一个半参数脆弱模型构建的。
当前frontier：复发事件预后准确性
Saha-Chaudhuri & Heagerty (2013)：首次尝试将时间依赖的ROC扩展到复发事件数据，但他们的方法基于一个“事件特定”的框架（即对第k次事件分别建模），且未处理标志物的信息性。
本文 (Dey et al., 2022)：在Saha-Chaudhuri & Heagerty (2013)的基础上，引入半参数脆弱模型来同时处理未观测异质性和标志物的信息性，并给出了估计量的渐近性质。这是该子方向目前最完整的处理。

子线索聚类¶

线索1：基于边际模型的方法（如Lin et al., 2000）—— 通过“工作独立”假设或稳健方差估计来处理复发事件，但无法建模异质性，且预后准确性度量可能因忽略相关性而有偏。
线索2：基于脆弱模型的方法（如Zeng & Lin, 2007；本文）—— 显式引入一个患者层面的随机效应（frailty）来捕捉未观测异质性，并允许标志物与脆弱项相关（即标志物的信息性）。这是本文所属的线索。
线索3：事件特定方法（如Saha-Chaudhuri & Heagerty, 2013）—— 对第1次、第2次……事件分别建模，但样本量随事件序数急剧下降，且无法利用所有事件的信息。

这个方向在追问的核心问题¶

如何定义复发事件设定下的“病例”与“对照”？ 在时间t，一个患者如果经历了至少一次事件，算“病例”吗？还是按事件次数加权？不同的定义会导致不同的ROC曲线和AUC。
如何处理未观测到的患者异质性？ 如果忽略frailty，预后准确性度量可能被高估或低估，因为事件间的相关性被错误地归因于标志物的预测能力。
标志物的“信息性”如何建模？ 即标志物与frailty之间的相关性——如果标志物不仅预测事件率，还与未观测的异质性相关，那么标准方法会混淆这两种效应。
估计量的渐近性质如何推导？ 复发事件数据中，同一患者的多次事件不是独立的，且随访时间可能因死亡或失访而删失，这使得标准M估计理论需要调整。

⚠️ 作者的framing¶

作者把缺口frame成：“现有文献缺乏针对复发事件数据的预后准确性评估工具，尤其是能处理标志物信息性和患者异质性的方法。” 他们将自己定位为“首次在半参数脆弱模型框架下系统提出并证明复发事件预后准确性度量”的工作。

被淡化/回避的竞争路线：作者在intro中承认Saha-Chaudhuri & Heagerty (2013)的工作，但指出其未处理标志物的信息性。然而，他们并未讨论另一种可能的路线：使用边际模型（如Lin et al., 2000）加上稳健方差估计来构建预后准确性度量——这种路线可能更简单，但作者认为它无法处理异质性。
什么明显该被引/该存在、却没出现在intro里？ 作者未引用任何关于“时间依赖的Brier score”或“预测误差曲线”在复发事件设定下的推广工作。这可能是一个值得研究者去查的缺口：是否存在基于Brier score的复发事件预后评估方法？如果有，它们与本文的ROC方法有何异同？
张力：未见明显对立引用。所有被引工作基本沿着“单次事件→复发事件”的线性发展，没有出现彼此矛盾或在不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( i = 1, \dots, n \)：患者索引。 - \( t \)：时间（连续，通常从基线开始）。 - \( N_i(t) \)：患者i在时间区间\( [0, t] \)内经历的事件次数（计数过程）。 - \( C_i \)：患者i的删失时间（如死亡、失访）。我们只能观察到\( \min(C_i, \tau) \)，其中\( \tau \)是研究结束时间。 - \( Z_i \)：基线生物标志物（标量或向量，在时间0测量，不随时间变化）。 - \( \nu_i \)：患者i的脆弱项（frailty），一个未观测到的随机效应，代表患者间未解释的异质性。假设\( \nu_i \)独立同分布，均值为1，方差为\( \theta \)（待估）。 - \( \lambda_0(t) \)：基线风险函数（非参数，未知）。 - \( \beta \)：标志物\( Z_i \)的对数风险比（参数，待估）。 - \( \gamma \)：脆弱项\( \nu_i \)与标志物\( Z_i \)之间的关联参数（描述标志物的信息性）。

模型：半参数脆弱模型（比例率模型的一种推广）：

\[\lambda_i(t | Z_i, \nu_i) = \nu_i \lambda_0(t) \exp(\beta^\top Z_i)\]

其中\( \lambda_i(t | \cdot) \)是患者i在时间t的条件事件率（给定\( Z_i \)和\( \nu_i \)）。关键假设： - 给定\( Z_i \)和\( \nu_i \)，事件发生是独立同分布的（即计数过程\( N_i(t) \)是一个非齐次泊松过程，其强度为\( \lambda_i(t | Z_i, \nu_i) \)）。 - 删失时间\( C_i \)与事件过程独立，给定\( Z_i \)和\( \nu_i \)（条件独立删失）。 - 脆弱项\( \nu_i \)与\( Z_i \)可能相关：\( \nu_i \)的分布依赖于\( Z_i \)，具体通过一个参数\( \gamma \)建模（例如，假设\( \nu_i | Z_i \sim \text{Gamma}(1/\theta, \theta \exp(\gamma^\top Z_i)) \) 使得均值为\( \exp(\gamma^\top Z_i) \)而非1——但作者在文中假设均值为1，所以\( \gamma \)实际上控制的是\( \nu_i \)与\( Z_i \)的相关性，而非均值偏移。更常见的设定是：\( \nu_i \)独立于\( Z_i \)，但作者允许它们相关，这就是“标志物的信息性”）。

可观测数据：对于每个患者i，我们观测到： - \( Z_i \)（基线标志物）。 - 随访期间的事件时间序列：\( \{T_{i1}, T_{i2}, \dots, T_{iK_i}\} \)，其中\( K_i \)是患者i在\( [0, C_i] \)内经历的事件次数。 - 删失时间\( C_i \)。 - 注意：脆弱项\( \nu_i \)是不可观测的潜在变量。所有推断必须通过边缘化\( \nu_i \)来进行。

想要但观测不到的量： - 脆弱项\( \nu_i \)。 - 如果没有删失，患者i在任意时间t的事件状态（是否已发生事件、发生了多少次）。 - 反事实：如果标志物\( Z_i \)取不同值，事件过程会如何变化（因果推断问题，但本文不涉及因果，只做预测）。

第二步：讲最小内核¶

最简特例：假设只有两个患者（\( n=2 \)），每个患者最多经历一次事件（即复发事件退化为单次事件），且没有删失（\( C_i = \tau \)足够大）。标志物\( Z_i \)是二值的（0/1）。脆弱项\( \nu_i \)被忽略（即\( \nu_i \equiv 1 \)）。那么模型退化为标准的Cox比例风险模型：

\[\lambda_i(t | Z_i) = \lambda_0(t) \exp(\beta Z_i)\]

在这个特例下，本文要解决的问题退化为：如何评估基线标志物\( Z_i \)对“至事件发生时间”的预后准确性？ 这正是Heagerty & Zheng (2005)已经解决的问题。

核心思路：在时间t，定义： - 病例：在时间t之前已发生事件的患者（\( T_i \leq t \)）。 - 对照：在时间t仍未发生事件的患者（\( T_i > t \)）。那么，时间依赖的ROC曲线就是：对于每个阈值c，计算

\[\text{Sensitivity}(c, t) = P(Z_i > c | T_i \leq t), \quad \text{Specificity}(c, t) = P(Z_i \leq c | T_i > t)\]

AUC就是ROC曲线下的面积，衡量标志物在时间t区分病例与对照的能力。

本文的推广：当事件可以多次发生时，上述定义不再适用，因为一个患者在时间t可能既是“病例”（已发生至少一次事件）又是“未来病例”（还会发生更多次）。本文的核心想法是：将“病例”定义为在时间t之前事件发生率高于某个阈值的患者。具体地，他们定义了一个“累积风险”函数：

\[R_i(t) = E[N_i(t) | Z_i, \nu_i] = \nu_i \Lambda_0(t) \exp(\beta^\top Z_i)\]

其中\( \Lambda_0(t) = \int_0^t \lambda_0(s) ds \)是累积基线风险。然后，他们将“病例”定义为\( R_i(t) \)高于某个分位数的患者（即高风险患者），“对照”定义为\( R_i(t) \)低于该分位数的患者。这样，预后准确性度量就变成了：标志物\( Z_i \)在多大程度上能区分高风险患者（高\( R_i(t) \)）和低风险患者（低\( R_i(t) \)）？

为什么这个定义是合理的？ 因为\( R_i(t) \)是患者i在时间t的期望事件次数，它综合了标志物\( Z_i \)和未观测异质性\( \nu_i \)的信息。如果标志物\( Z_i \)能很好地预测\( R_i(t) \)，那么它就能区分高风险和低风险患者。注意，这里“病例”的定义依赖于未观测的\( \nu_i \)，所以实际估计时必须通过模型边缘化\( \nu_i \)。

最小内核的数学问题：给定半参数脆弱模型，如何估计

\[\text{AUC}(t) = P(R_i(t) > R_j(t) | Z_i > Z_j)\]

即随机抽取的一对患者中，标志物值较高的那个患者，其累积风险也较高的概率？这就是本文要估计的核心量。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对复发事件数据，提出了基于半参数脆弱模型的时间依赖预后准确性度量（ROC曲线和AUC），用于评估基线标志物的预测能力。
核心工具/方法：利用半参数脆弱模型（Zeng & Lin, 2007）估计模型参数（\( \beta, \gamma, \theta, \Lambda_0(t) \)），然后基于这些估计构造累积风险\( R_i(t) \)的预测值，再计算经验ROC和AUC。
主要结论：所提出的估计量具有相合性和渐近正态性；模拟研究表明在有限样本下偏倚小、覆盖率高；应用于囊性纤维化数据，发现基线肺功能指标（FEV1）对反复肺部感染发作有中等预测能力（AUC约0.65-0.70）。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

模型：半参数脆弱模型（公式1）：
\[\lambda_i(t | Z_i, \nu_i) = \nu_i \lambda_0(t) \exp(\beta^\top Z_i)\]
其中\( \nu_i \)是均值为1、方差为\( \theta \)的Gamma分布随机变量，且允许与\( Z_i \)相关。具体地，作者假设\( \nu_i | Z_i \sim \text{Gamma}(1/\theta, \theta) \)（即均值为1，与\( Z_i \)无关），但通过一个额外的参数\( \gamma \)来建模\( \nu_i \)与\( Z_i \)的相关性：实际上，他们假设\( \nu_i \)的分布依赖于\( Z_i \)通过一个“共享脆弱”结构，但文中并未明确写出\( \gamma \)的模型形式。更常见的做法是假设\( \nu_i \)独立于\( Z_i \)，但作者声称他们的方法可以处理“信息性标志物”，即\( \nu_i \)与\( Z_i \)相关。这一点在intro中被强调为本文的主要贡献之一，但在技术细节中并未给出显式的相关性模型（如\( \nu_i = \exp(\gamma^\top Z_i) \times \text{Gamma} \)），而是依赖于脆弱模型的似然函数来“吸收”这种相关性。
假设：
条件独立删失：\( C_i \)与\( N_i(\cdot) \)独立，给定\( Z_i \)和\( \nu_i \)。
非信息性删失：删失时间\( C_i \)的分布不依赖于模型参数。
正则条件：\( \Lambda_0(t) \)在\( [0, \tau] \)上连续且严格递增；\( Z_i \)有界；Fisher信息矩阵非奇异。
脆弱项分布：\( \nu_i \)服从Gamma分布（均值为1，方差\( \theta \)），且与\( Z_i \)独立（这是标准脆弱模型假设；作者声称可以放松，但未给出具体放松后的识别条件）。
相比已有文献的放宽/强化：
相比Saha-Chaudhuri & Heagerty (2013)：本文引入了脆弱模型来处理异质性，这是放宽（更一般）。
相比Lin et al. (2000)：本文显式建模了异质性，但代价是增加了对脆弱项分布（Gamma）的假设，这是强化（更具体）。

主要结果¶

定理1（估计量的相合性）：在正则条件下，基于半参数脆弱模型得到的参数估计（\( \hat{\beta}, \hat{\theta}, \hat{\Lambda}_0(t) \)）是相合的。由此构造的累积风险估计\( \hat{R}_i(t) = \hat{\nu}_i \hat{\Lambda}_0(t) \exp(\hat{\beta}^\top Z_i) \)（其中\( \hat{\nu}_i \)是经验贝叶斯估计）也是相合的。

定理2（AUC估计量的渐近正态性）：时间依赖的AUC估计量\( \widehat{\text{AUC}}(t) \)是渐近正态的，其方差可以通过bootstrap或解析公式估计。证明依赖于M估计理论（Zeng & Lin, 2007的渐近结果）和U统计量的渐近理论（因为AUC本质上是一个U统计量：\( \text{AUC}(t) = E[I(R_i(t) > R_j(t)) | Z_i > Z_j] \)）。

定理3（ROC曲线的点态置信区间）：给出了ROC曲线上每个点的置信区间构造方法，基于delta方法和bootstrap。

技术难点： - 脆弱项\( \nu_i \)不可观测，需要经验贝叶斯估计（即给定观测数据，估计\( \nu_i \)的后验均值）。这个估计的误差会传播到AUC估计中。 - AUC估计量涉及对\( R_i(t) \)的排序，而\( R_i(t) \)本身是估计量，这导致标准U统计量理论不能直接应用（因为U统计量的核依赖于未知参数）。作者通过“参数估计代入法”（plug-in）和泰勒展开来处理这一额外变异性。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

第一步：估计模型参数。使用Zeng & Lin (2007)的极大似然估计方法，得到\( \hat{\beta}, \hat{\theta}, \hat{\Lambda}_0(t) \)。这一步的渐近性质已被Zeng & Lin证明（相合性、渐近正态性、半参数效率）。
第二步：估计脆弱项。对于每个患者i，计算经验贝叶斯估计：
\[\hat{\nu}_i = E[\nu_i | \text{观测数据}, \hat{\beta}, \hat{\theta}, \hat{\Lambda}_0]\]
对于Gamma脆弱模型，这个后验均值有闭式解：\( \hat{\nu}_i = (1 + \theta K_i) / (1 + \theta \hat{\Lambda}_0(C_i) \exp(\hat{\beta}^\top Z_i)) \)，其中\( K_i \)是患者i的事件次数。
第三步：构造累积风险估计。\( \hat{R}_i(t) = \hat{\nu}_i \hat{\Lambda}_0(t) \exp(\hat{\beta}^\top Z_i) \)。注意，对于\( t > C_i \)，\( \hat{R}_i(t) \)是基于模型外推的，因为患者i在\( C_i \)之后不再被观测。
第四步：计算经验AUC。对于给定的时间t，定义：
\[\widehat{\text{AUC}}(t) = \frac{\sum_{i \neq j} I(Z_i > Z_j) I(\hat{R}_i(t) > \hat{R}_j(t))}{\sum_{i \neq j} I(Z_i > Z_j)}\]
这是一个“条件U统计量”（conditional U-statistic），因为分母是随机且依赖于\( Z \)的。
第五步：渐近方差推导。将\( \widehat{\text{AUC}}(t) \)视为一个“两步估计量”（two-step estimator）：第一步估计模型参数（\( \hat{\beta}, \hat{\theta}, \hat{\Lambda}_0 \)），第二步基于这些估计计算AUC。使用泰勒展开将估计误差分解为“参数估计误差”和“U统计量误差”，然后证明两者联合渐近正态。

关键跳跃点： - 跳跃点1：如何证明\( \hat{R}_i(t) \)的相合性？因为\( \hat{\nu}_i \)依赖于\( \hat{\beta}, \hat{\theta}, \hat{\Lambda}_0 \)，而这些估计的误差会传播。作者依赖于Zeng & Lin (2007)的“经验过程”理论来证明\( \hat{\nu}_i \)是\( \nu_i \)的相合估计（在适当的范数下）。 - 跳跃点2：AUC估计量的渐近方差中，如何分离“参数不确定性”和“U统计量不确定性”？作者使用“影响函数”（influence function）方法：将\( \widehat{\text{AUC}}(t) \)线性化，得到其影响函数，然后证明该影响函数是Donsker类，从而保证渐近正态性。

技术技巧点名： - 经验过程理论：用于证明\( \hat{\nu}_i \)和\( \hat{R}_i(t) \)的相合性，以及AUC估计量的随机等度连续性（stochastic equicontinuity）。 - U统计量渐近理论：用于处理AUC作为条件U统计量的渐近分布。 - Delta方法：用于推导AUC估计量的方差。 - Bootstrap：作为方差估计的替代方法（作者在模拟中比较了解析方差和bootstrap方差）。

真实例子与应用¶

数据：囊性纤维化（Cystic Fibrosis, CF）患者数据，来自加拿大CF登记处。共约500名患者，随访时间中位数约5年。

场景：评估基线肺功能指标——用力呼气量（FEV1，以预测百分比形式给出）——对反复肺部感染发作（pulmonary exacerbations）的预测能力。肺部感染是CF患者最常见的并发症，反复发作会导致肺功能不可逆下降。

方法应用： 1. 拟合半参数脆弱模型，以FEV1为标志物\( Z_i \)，肺部感染发作为复发事件。 2. 估计模型参数（\( \beta, \theta, \Lambda_0(t) \)）。 3. 计算时间依赖的AUC（在1年、2年、3年、4年、5年）。 4. 绘制ROC曲线。

结果： - AUC在1年时约为0.70，在5年时降至约0.65。这表明FEV1对短期（1年）感染风险有中等预测能力，但对长期预测能力较弱。 - 脆弱项的方差\( \theta \)显著不为0，表明患者间存在显著的未观测异质性。 - 标志物与脆弱项的相关性（信息性）不显著（即\( \gamma \)不显著），说明FEV1的预测能力主要来自其直接效应，而非通过未观测异质性的间接关联。

这个例子想说明什么： - 验证理论：展示所提出的方法可以在真实数据上运行，并得到合理的AUC估计。 - 展示相对baseline的优势：作者将结果与忽略脆弱模型的“朴素”方法（即假设所有事件独立）进行比较，发现朴素方法会高估AUC（约0.05-0.10），因为它错误地将患者间异质性归因于标志物的预测能力。这验证了本文方法在处理异质性方面的必要性。

🔎 结论是否比证明窄¶

窄结论1：作者在intro中声称方法可以处理“信息性标志物”（即标志物与脆弱项相关），但在技术细节中，他们假设脆弱项与标志物独立（标准Gamma脆弱模型）。他们通过一个额外的参数\( \gamma \)来建模相关性，但并未给出\( \gamma \)的显式模型或识别条件。在真实例子中，\( \gamma \)也不显著。因此，“处理信息性标志物”这一声称可能比实际证明的要宽——严格来说，他们只证明了在脆弱项与标志物独立的假设下，方法有效；对于相关的情况，他们只是“声称”可以处理，但未给出理论证明或模拟验证。
窄结论2：渐近性质（定理1-3）的证明依赖于Zeng & Lin (2007)的渐近理论，而该理论要求脆弱项分布正确指定（即Gamma分布）。如果脆弱项的真实分布不是Gamma，估计量可能不一致。作者在模拟中只考虑了Gamma脆弱项，未做分布误设的稳健性检验。因此，结论的适用范围被限制在“脆弱项分布正确指定”这一假设下。
泛泛claim：作者在讨论中说“该方法可以扩展到多个标志物或时变标志物”，但并未给出任何理论或模拟支持。这是一个conjecture，而非已证明的结论。

四、开放问题¶

脆弱项分布误设的稳健性：本文假设脆弱项服从Gamma分布。如果真实分布是其他分布（如对数正态、逆高斯），估计量是否仍然相合？AUC的偏差有多大？——扎根于本文“假设2”（脆弱项分布）和模拟部分（只考虑了Gamma分布）。
时变标志物的预后准确性：本文只考虑基线标志物。如果标志物随时间变化（如重复测量的FEV1），如何定义和估计时间依赖的AUC？——扎根于讨论部分“可以扩展到时变标志物”这一conjecture。
竞争风险下的复发事件预后：在临床实践中，患者可能因死亡而无法再经历复发事件（即死亡是竞争风险）。本文假设删失是非信息性的，但如果死亡与复发事件相关（如更易感染的患者也更容易死亡），则删失是有信息性的。如何处理这种情况？——扎根于假设1（条件独立删失）和讨论部分未提及竞争风险。
因果解释的可能性：本文的预后准确性度量是纯预测性的（描述性）。如果研究者想回答“如果改变标志物（如通过干预提高FEV1），复发事件风险会降低多少？”则需要因果推断框架。本文的模型能否赋予因果解释？需要什么额外的假设？——扎根于intro中“预后”与“因果”的区分（本文明确只做预后，但读者可能想知道因果扩展）。

提醒：要确认第1条（脆弱项分布误设）是否是真gap，可以去读Zeng & Lin (2007)及其后续引用——如果已有文献证明半参数脆弱模型对分布误设是稳健的，那么本文的结论可能比看起来更宽；反之，如果分布误设会导致严重偏差，那么这就是一个值得攻击的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub