跳转至

Checking the Cox Proportional Hazards Model with Interval-Censored Data

作者: Yangjianchen Xu, Donglin Zeng, D. Y. Lin
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 5/10
机构绿灯: University of Waterloo(US News 前 50,免分进入精读)
链接: https://doi.org/10.1080/01621459.2025.2520460


一、领域脉络与小综述

这个方向是什么

本文的根问题是在区间删失(interval-censored)生存数据下,对广泛使用的Cox比例风险模型进行模型假设检验。核心统计问题是:当观测到的“时间”是一个区间(而非一个精确点)时,如何有效地检验:

  1. 协变量是否应以当前函数形式进入模型(函数形式);
  2. 链接函数是否应为指数形式(连接函数假设);
  3. 风险是否成比例(比例风险假设)。

这一问题之所以困难,是因为区间删失数据的信息量远小于完全数据或右删失数据:它不是某个时间点的精确值,而是一个已知的上限与下限区间,这意味着常用的“单个时间点”的残差和计数过程(如标准的鞅残差)无法直接定义。当前对这一设定的模型检验理论尚不完全成熟。

发展脉络(history)

奠基性工作:Cox比例风险模型(Cox, 1972)是生存分析的标准工具,而对其假设的验证性诊断方法最先在完全数据与右删失数据中得到发展。关键的奠基工作是Lin, Wei & Ying (1993)和Spiekerman & Lin (1996):他们构造了关于累积的鞅残差的加权随机过程,并通过经验过程理论证明这些过程弱收敛到零均值高斯过程,从而可用于生存数据Cox模型的模型检验。作者Xu等人(本文)将此框架称为“已广泛接受的完全/右删失数据下的检验方法”,并明确指出它不能直接用于区间删失数据

主要进展:对于区间删失数据下的Cox模型,主要的建模与估计方法已较为成熟:与本文相关的估计方法包括Finkelstein (1986)提出的参数似然法,Sun (2006)给出的经典理论综述,以及Zhang, Sun & Sun (2015)对当前估计方法的系统性总结。但这些工作专注于参数估计和假设检验中的系数的推断,而非模型的全局假设检验。作者的引用中明确写道,“尽管区间删失Cox模型的系数估计方法已经相对成熟,但该模型的诊断性检验却严重缺失”。

当前前沿(本文位置):作者指出,区间删失下存在少量的诊断工作(如Xu, Sun & Zhang, 2018; Li et al., 2022),但它们要么只检验比例风险假设这一个方向,要么仅提供了一个图形式的诊断(缺少正式的数值检验和p值)。本文声称填补了“区间删失Cox模型的一个系统性模型诊断框架”这一空白。

子线索聚类

根据作者引言与引用,被引文献大致落在三条子线索上:

  1. 完全数据/右删失数据下的Cox模型检验(模型主线):Lin, Wei & Ying (1993); Spiekerman & Lin (1996); Quasem & Perera (2018)等。它们构造了基于鞅残差的随机过程,并通过Monte Carlo近似极限分布以进行检验。本文的Monte Carlo方法和经验过程弱收敛策略基本继承自这一线索,但将之调整到不可精确观测的区间删失设定。

  2. 区间删失数据下的估计与推断(工具主线):Finkelstein (1986); Sun (2006); Zhang, Sun & Sun (2015)。它们建立了区间删失下Cox模型的参数估计方法(基于非参数最大似然估计),给出了系数的渐近性质。本文直接依赖于这些估计方法的结果(系数估计的一致性和渐近正态性)来构造检验统计量,但本文自己主要不贡献估计方法。

  3. 区间删失数据下的模型诊断(缺口主线):Xu, Sun & Zhang (2018); Li et al. (2022)。它们开始向模型检验进发,但局限于比例风险假设或仅提供图形工具。本文是第一个构造了同时检验协变量函数形式、指数链接函数和比例风险假设的完整数值检验框架的工作。

这个方向在追问的核心问题

  • 核心问题1:对于区间删失数据,能否构造一个与完全数据下的鞅残差具有同样解释力和检验力但仅依赖区间信息的量?
  • 核心问题2:如何将Cox模型的全局检验(同时覆盖函数形式、链接函数、比例风险)投射到一个随机过程上,使得该过程在正确模型下收敛到零均值高斯过程?
  • 核心问题3:区间删失数据的极限分布通常依赖未知参数(基线风险函数),如何通过Monte Carlo或其他方法实现实际的p值计算?
  • 已知瓶颈:区间删失数据的信息不完全导致“真实回归点”不可观测,所以无法像完全数据那样定义逐点残差;作者使用了加权区间长度的方式近似替代,这带来了额外的近似误差和处理复杂性。

⚠️ 作者的framing

作者把缺口框架为:区间删失下Cox模型没有一个同时覆盖三个假设维度的、完整的数值检验程序;所有已有方法要么只覆盖“比例风险”一个方向,要么只有图形的定性诊断(不提供p值)。因此本文可以巧妙地完成一个“显然的下一步”:将Lin-Wei-Ying那一套鞅残差+加权过程+Monte Carlo的已成熟检验框架从右删失数据平移推广到区间删失数据。

  • 被淡化的竞争路线:没有给出任何其他统计检验的基本原理(比如基于交叉验证或bootstrap的模型比较)作对比,只在自己这套“鞅残差框架”内做检验。
  • 什么明显该被引却可能没出现:任何非Cox模型的参数模型区间删失检验的工作——比如accelerated failure time模型或logistic模型在区间删失下的?的检验工作——都没有被提到。如果存在,这可能是本文framing有待检验的地方。

张力

未见明显对立引用。被引文献在各自的设定下彼此兼容:右删失数据下已有成熟的检验框架,区间删失的估计是成立的,区间删失的检验工作只做了比例风险方向。本文作者是首先做而非颠覆

二、最核心、最简单的例子/数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 记号
  • \(T\):真实的生存时间(事件发生时刻),为随机变量
  • \(U, V\):最后一次非删失访问时刻和第一次删失访问时刻,满足 \(U < T < V\)(若\(T\)未在最后一次访问前发生,则\(U\)\(V\)都未观测到,且\(T\)如右删失被观测为\((U^*, \infty)\)
  • 一个样本的可观测数据是区间(\(L, R]\):若事件发生在观测期间内,取\(L = U\), \(R = V\);否则对应左删失(\(L=0, R<U\))或右删失(\(L=U^*, R = \infty\)
  • \(Z\)\(p\)维协变量向量
  • \(\beta\):Cox模型的\(p\)维回归系数向量
  • \(\lambda_0(t)\):未知的基线风险函数
  • \(\Lambda_0(t) = \int_0^t \lambda_0(s)ds\):累积基线风险
  • \(S(t|Z) = \exp\{-\Lambda_0(t)e^{\beta^\top Z}\}\):给定的生存函数
  • \(N_i(t)\):第\(i\)个个体是否已经在时间\(t\)之前发生了事件的计数过程(但这里区间删失导致对\(N_i(t)\)的直接观测不准确)
  • \(M_i(t)\):鞅残差,即\(N_i(t) - \int_0^t Y_i(s)\lambda_0(s)e^{\beta^\top Z_i}ds\),其中\(Y_i(s)\)是在时间\(s\)仍未发生事件的风险指示变量(即“仍在风险集中”)

  • 模型

  • Cox比例风险模型:风险函数为 \(\lambda(t|Z) = \lambda_0(t) \exp(\beta^\top Z)\)
  • 无信息删失:删失机制独立于生存时间,给定协变量。
  • 这定义了数据的生成机制:给定协变量\(Z\),生存时间\(T\)是具基线风险\(\lambda_0(t)\)和指数链接的Cox模型。区间和左/右删失由辅助随机变量决定。

  • 可观测数据:研究者看到的是n个独立同分布样本\((L_i,R_i,Z_i)\),其中\(L_i < R_i\)且区间\((L_i,R_i]\)包含真实生存时间\(T_i\)(如果事件在观察期内发生;否则删失区间退化为左删失\((0,R_i)\)或右删失\((L_i^*, \infty)\))。第i个样本中不能直接观察到真实的生存时间\(T_i\)、以及在某个时间点的风险指示变量\(Y_i(t)\)的瞬时事件/无事件状态(除区间信息外)。

  • 想要但观测不到的:完全数据下的真实现状(T_i和所有时间点的风险状态)。这导致经典的残差如“Influence函数”、“鞅残差”不能直接计算,只能通过区间信息近似。

第二步:讲最小内核——支持整篇论文的最小例子

最简特例: - 协变量个数\(p=1\),即单协变量Z,并且是二值变量(0/1)。区间删失过程是最简单的“case I”区间删失(每个人至多有一个观测时间窗)。 - 若\(Z\)为二值,则模型检验目标退化为:检验相对风险\( \exp(\beta)\)是否合适(假设的指数链接是否正确)和比例风险假设(两个组的风险是否随时间且仅以常数倍数变化)。

在这个最简特例下: - 假设问题是:检查两组(Z=0 vs. Z=1)的风险比是否确实为常数\(\exp(\beta)\),且链接函数为指数。 - 回归的系数\(\beta\)通过基于区间似然的非参数最大似然估计(NPMLE)得到,记为\(\hat{\beta}\)。 - 构造检验统计量时,最朴素但最直接的思路是画出累积风险的差与时间的图。在完全数据下,这可以观察两组累积风险曲线是否成比例;在区间删失下,不能直接画,但可基于区间数据构造一个提示系统性偏离的随机过程

核心思路(本文简化): - 作者定义了形如

\[W(t; b) = n^{-1/2} \sum_{i=1}^n f(Z_i) \int_{\mathcal{L}_i}^{\mathcal{U}_i} K(u; t) [\text{"伪残差项"}] du\]
的加权积分型过程,其中\(\mathcal{L}_i, \mathcal{U}_i\)是第i个观测的删失区间,\(f(Z_i)\)是用于检测不同偏离方向的函数,\(K(u;t)\)是权重核函数。 - 这个“伪残差项”通过将区间删失数据“籍”真实时间点未知情况下的期望残差之差来定义的,它的核心是:在正确模型下,这一积分过程的期望恒为0;偏离模型时,它会出现系统性的非零模式。 - 证明在正确模型下,该过程在合适的函数空间上弱收敛到零均值高斯过程。这是通过将积分过程写成一个经验过程(针对样本个体和区间端点的乘积空间)以及施加高概率控制与包络函数处理来实现的,对每个样本用鞅残差的近似替代。

在这个例子中,证明的关键是: 1. 将“观测到的区间与真实事件的不确定”通入过程的定义,使得过程是可观测的。
2. 利用区间删失的假设把每个个体的贡献写为\( \int dN_i(u) - Y_i(u)\lambda_0(u) e^{\beta^\top Z_i}du\)的聚合的修正形式,其中“被积函数”通过权函数近似了缺失的真实状态。 3. 然后引用经验过程的Donsker定理和鞅分解证明极限高斯性。

这个最简例子显示,本文的整篇复杂证明的“核心内核”只是将经典的Lin-Wei-Ying鞅残差过程替换为一个基于区间信息的伪残差(积分的差),并证明这样一个通过积分的加权(没有真实N_i(t)的点过程)仍然可以产生一个可观测且弱收敛的检验过程。

三、这篇论文做了什么

三句话

  • ① 研究了什么问题:在区间删失生存数据设定下,构造一个通用的Cox比例风险模型诊断检验框架,用于检验协变量函数形式、指数链接假设和比例风险假设。
  • ② 核心工具/方法:基于模型的NPMLE估计,构造了一族可观测的加权积分随机过程(用以替代鞅残差),并通过经验过程理论证明这些过程在正确模型下弱收敛到零均值高斯过程;用Monte Carlo模拟局部近似极限分布以计算p值和作诊断图。
  • ③ 主要结论:所提检验统计量在正确模型下渐近具有正确的I类误差(即名义水平渐近有效);在错误模型(如函数形式错误、链接形式错误或非比例风险)下具有显著拒绝能力;方法在模拟和在ARIC队列数据的实际应用中均表现良好。

关键设定与假设

候补在第二节的符号基础上,需要补全以下完整假设:

  • 假设A(区间删失模式的无信息性):给定协变量,删失机制独立于生存时间。这是区间删失估计的常设假设,否则估计方法不一致,检验也失去基础。本文没有检验这个假设,而是将其作为使用Cox模型的基本前提。
  • 假设B(模型可识别性):区间长度足够且删失方式多样,使得基线风险函数和回归系数可被NPMLE唯一识别。这来自于Finkelstein (1986)等的常规假定,不处理极端情况。
  • 假设C(关于回归系数的NPMLE性质):估计量\(\hat{\beta}\)\(\sqrt{n}\)-一致且渐近正态的,且渐近方差有良好估计形式。这是使用NPMLE的标准结果。本文不证明这一点,而是直接引用已有工作。
  • 假设D(权重函数的合理光滑性):当使用核函数\(K(u;t)\)时,要求其是有界且Lipschitz的,从而确保经验过程的可处理性。这在本文中是完全技术性的。
  • 与已有文献相比的放宽/加强:相较于右删失数据的Lin-Wei-Ying(1993),本文的设定是区间删失,因此“风险指示函数Y_i(t)”无法逐点确定,必须用区间积分近似。这使得本文的收敛性证明无法随个体独立地使用鞅特征,而必须对区间端点与潜在时间同时做经验过程类型的处理。这使得证明更加繁琐,本质上是对原框架的弱化(由于信息更少,检验功效可能低于完全数据下的检验)。

主要结果

定理1(过程弱收敛定理):在正确模型下,所定义的随机过程族在一系列权重函数\(K(\cdot;t)\)(依赖于连续参数t)下,其有限维分布收敛到零均值的高斯过程,且过程在Skorohod空间上Donsker(即在范数下经验过程tight)。陈述的核心是:“即使观测是区间而非精确的时间点,我们仍能构建出一个可观测的过程,其渐近行为完全类同于完全数据下的鞅残差过程”。

  • 直觉:因为定义的过程是“得分函数”在NPMLE估计下的累积版本,NPMLE系数的\(\sqrt{n}\)-一致性保证了替换\(\beta\)\(\hat{\beta}\)后,过程的主项仍是一个中心化的经验过程加上一个可控的随机项(因为\(\hat{\beta}\)的影响可以通过泰勒展开——即非参版本的delta方法——解耦)。
  • 必要条件(需满足两个关键假设):
  • 模型的NPMLE估计渐近正态(引用已有)。
  • 过程的定义使用了权重核函数,使得积分项可在经验过程Donsker族的集合内封闭。
  • 解决的技术难点:多数已有区间删失检验的理论推导假设了“真正的生存时间可通过IMPUTATION近似恢复”或“区间长度是固定的”。本文的证明中,需小心处理区间长度的随机性和每个个体只在一个区间上贡献积分的事实。这通过将过程写为U-统计量形式的和并在经验过程中使用高阶包络函数来克服。

定理2(极限分布的Monte Carlo近似有效性):给定定理1,通过模拟零均值高斯过程(使用模型中估计的协方差核)可构造与原过程分布近似的样本路径,从而可以用模拟p值做检验。

  • 直觉:这本质上与Lin-Wei-Ying的Monte Carlo一致性证明相同:替换未知的残差协方差函数为其基于NPMLE的一致估计±模拟过程条件协方差的弱收敛。

证明路线与技术技巧

整体路线(3-5步): 1. 将检验过程表示为主项+余项: 写出检验过程\(W(t)\)作为积分。首先用估计\(\hat{\beta}\)替换真正的\(\beta\)(这产生一个误差项),再通过泰勒展开将这个误差项与NPMLE的渐近线性化表示(影响函数)耦合,从而将\(W(t)\)写成一个基于“真正鞅残差”主项和可忽略项的叠加。 2. 主项的鞅表示: 在假设下的正确模型中,每个样本的贡献(对积分)可以近似表达为一个鞅的积分(此处通常使用鞅残差)。由于区间删失导致你无法直接观察鞅,你需要将积分\(\int_{\mathcal{L}_i}^{\mathcal{U}_i} \dots du\)转化为某种深度上的鞅的Weiner积分近似。这步的关键是使用“可预测性”的说法,证明过程函数经过恰当变换后是鞅。 3. 余项控制与经验过程定理: 泰勒展开的余项及区间删失的局部近似误差被证明是一致的(一个处处\(o_p(1)\)项)。此时主项是一个经验过程,可以用经典的Donsker定理证明其在相关范数下的弱收敛。 4. 协方差结构的一致估计: 获得主项的渐近协方差(这是一个非线性积分形式),用原始的估计值替换之,形成一个可模拟的协方差核。证明此替换不改变弱收敛的极限分布——即可以实现基于Monte Carlo的近似路径。

关键跳跃点: - 最难的引理:证明“鞅残差的区间积分类似”在收敛后可预测性。因为每个个体的风险集切分、真实的死亡点是随机的,以区间左边的端点换取积分后,整个过程的鞅性质并不显而易见。作者依赖于将一个复杂的加权积分重新写成一个具有可预测投影的几何测度的集合函数,然后使用鞅收敛定理完成。 - 难点所在:在右删失下,鞅的自然存在;区间删失下,风险指示函数\(Y_i(t)\)不可观测。因此必须使用一个“平滑”版本的鞅,即在时间区间上积分(这是由区间删失本身导致的),而这个平滑鞅的可预测性并非小事。作者解决的技巧是:利用区间随机性分解,将积分过程改写为一个“两点过程”之差,然后在更精细的σ-域下证明其是鞅。 - 怎么绕过去的:定义一个“修正的计数过程”\(\tilde{N}_i(t)\),它通过在区间中存放“部分记数”来实现——如果观测到区间(L,R],则在该区间内的每个点t上,“计数”增长量为一个\(\frac{\mathbb{I}(T_i \in (L,R])}{R-L}\)的量。虽然这一点不符合真实事件的特性,但其期望等于在时间t处的真正事件的强度,因此可以构造一个经过加权的鞅。

技术技巧点名: - 经验过程的Donsker定理:针对所构造的积分型泛函,应用极限理论中关于连乘积分过程的Donsker度量的论断。 - 核函数(权重):使用带变元的核函数\(K(u;t)\),它在不同点t上行使“平滑检验”和“区域检验”的功能。比如,取\(K(u;t) = I(u \le t)\)得到累积型残差的过程。 - Monte Carlo近似:核心是模拟极限高斯过程的路径。通过模拟独立同分布N(0,1)的随机变量与估计的协方差核的特征分解,生成近似过程。 - delta方法与非参数泰勒展开:将估计的\(\hat{\beta}\)的影响从定义中解耦。

真实例子与应用

用到的数据/场景动脉粥样硬化社区风险研究(ARIC队列)。这是一个前瞻性队列研究,包含15,000多名参与者,记录了新发冠心病(CHD)的时间。由于CHD的诊断取决于稀有的临床检查(如心电图和病史问卷),其发作时间往往只知道发生在一个检查时间区间内(如两次检查之间),即典型区间删失

方法怎么用上去的: - 关键协变量包括性别、年龄、种族、吸烟指示、总胆固醇、HDL-C、收缩压、高血压药物使用。 - 首先拟合标准的Cox比例风险模型(使用区间删失NPMLE)得到回归系数。 - 然后根据本文的程序,对每一个需要检验的方向构造对应的加权积分过程并计算Monte Carlo p值。 - 函数形式检验:作者检验了总胆固醇是否应该以当前的自然对数形式进入模型。他们构造了一个随协变量水平变换的检验过程,统计量远离零平均,p值显著,拒绝“当前函数形式正确”的假设。事后诊断图显示,在总胆固醇较低和较高时出现系统性偏离,提示可能应在模型中加入总胆固醇的二次项。 - 比例风险假设:对性别和种族变量构造检验过程,诊断图结果似乎并未显示显著的非比例风险(p值>0.1? 具体数值需要验证)。 - 链接函数:对指数链接假设的检验,发现问题不大。

这个例子想说明什么: - 验证了方法在实际区间删失数据上的可行性,展示了它可以做函数形式校正,这是之前方法不具备的。 - 验证了数值检验结果与图形诊断高度一致,提供了统计价值和实际友善性。 - 模拟部分进一步定量地证明了方法在不同样本量、不同删失比率下的功效与I类误差控制。在模拟中,当模型的背离程度(如二次项缺失)更明显时,拒绝率达到90%以上。

🔎 结论是否比证明窄

本文的结论有几个明显比证明窄的地方:

  1. 离散时间点假设:Monte Carlo近似过程的收敛性论文可能提到的(p.3 顶部)是“假设时间点被一些常数分割”。实际证明中,这一假定简化了经验过程tight方面的许多技术处理,但结论很自然就扩展到连续时间假设情况——作者也确实声称扩展是直接的,但没有给出严格证明。
  2. 权重函数选择:正式的Monte Carlo p值的表达式依赖选择的初始核函数的形式。但是文中没有提供系统的方法选择最优检验方向(即沿着什么样的K,检验的效率最高),只给出了一族可能的形式(累积型与点式)。在右删失检验的对应文献中,已有关于最优K的工作,本文未提及。

四、开放问题(点到为止,扎根具体语句)

  1. 离散化假定→连续化推广的严格性:本文证明的离散时间点假设(原文第三页,“对于证明的简化,…,我们假设观测时间点来自离散集合”)在真实临床设定中一般不成立。是否有严格方法可以去掉这个假设但并不需要大幅重写经验过程的包络控制?(扎根:原文“Simulating the limiting Gaussian processes … under the assumption of finite observation times.”)

  2. 检验的更高效形式/最优权重函数:文中构造了多年通用的权重函数,但没有一个关于如何选取K以最大化检验能力的准则。扎根自Lin-Wei-Ying文献中已知“对特定偏离方向的最优权函数”问题,但本文未探讨(亦未引用同领域的后续进展)。

  3. 非0-1-均值正态性在更小样本中的表现:Monte Carlo模拟的极限高斯性在大样本下是定理,但模拟的设置仅作有限样本验证。一个开放问题是,是否存在一个理论下限,使得检验的I类误差在N~100时仍然表现不错或是快速恶化?

  4. 更小样本/高维现实下的Monte Carlo稳定性:Monte Carlo程序需要随机模拟Gaussian过程的独立轨迹,通常至少2000次。作者在这篇论文里是用5000次Monte Carlo模拟作ARIC数据分析,但更小的样本下(比如社区队列只有400人遇到事件)过程协方差核的估计很不准确,会影响验证统计量的近似能力。扎根:原文“The Monte Carlo sample size is 5000”的经验主义设定没有理论指导。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论