Joint modeling of longitudinal and competing-risk data using cumulative incidence functions for the failure submodels accounting for potential failure cause misclassification through double sampling¶

作者: Christos Thomadakis, Loukia Meligkotsidou, Constantin T Yiannoutsos, Giota Touloumi
来源: Biostatistics
主题: 流行病学
相关性: 5/10
机构绿灯: Purdue University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac043

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的方向是 纵向标记物（Longitudinal biomarker）与竞争风险结局（Competing-risk outcome）的联合建模（Joint modeling）。在当前流行病学与临床研究中，常见的情况是收集患者随时间重复测量的生物标记物（如CD4细胞计数、病毒载量），同时记录一个或多个可能相互排斥的失败事件（如艾滋病相关死亡、非艾滋病相关死亡）。该子方向的核心统计问题是如何同时利用纵向数据和生存数据，在考虑测量误差、事件依赖性与事件间竞争、以及潜在的结果错误分类的前提下，进行预后评估和风险预测。这是统计建模与临床实践交叉的一个相对成熟但仍有诸多待解难题的子领域，其方法谱系复杂，从单纯的原因别风险（cause-specific hazard）模型到共享参数模型到多状态模型，均有广泛文献。

发展脉络（history）¶

奠基工作：联合建模的雏形（~2000s 初）
Troxel (2004) 等早期工作：建立了纵向标记物与单一生存结局的共享参数联合模型，核心想法是通过一个潜在的随机效应连接标记物的线性混合模型（LMM）和生存模型（如比例风险模型），并假设标记物轨迹“无测量误差”地进入生存模型。这解决了将观测到的带噪声的标记值直接作为协变量的回归偏差问题（即“测量误差”问题）。这个框架后来被广泛扩展，成为本节方法论的基本参照系。
主要进展：引入竞争风险（~2010s 中期）
Elashoff, Li & Li (2008) 及 Williamson et al. (2008) 首次将联合模型扩展到两个或多个竞争风险结局。其标准做法是利用原因别风险函数（cause-specific hazard function, CSH）来建模每个失败事件的风险，并在随机效应层面上共享相关性。这不仅允许标记物轨迹影响每一个竞争事件，更重要的是能描述事件间因共享不可观测异质性导致的“竞争”效应。
论文明确指出："Most of the literature on joint modeling of longitudinal and competing-risk data is based on cause-specific hazards..." 即当时主流做法是使用原因别风险框架。
当前Frontier：从原因别风险到直接建模累积发病函数（~2020s）
尽管CSH建模可以追溯至事件发生的瞬时风险，但临床预后评估更常使用累积发病函数（Cumulative Incidence Function, CIF）——即给定时间点前发生某个特定类型事件的累积概率。直接对CIF建模，而非从CSH积分推导，对临床医生更为直观。但数学上，将随机效应与CIF直接挂钩会引发一个技术约束：所有竞争事件的CIF之和必须 ≤ 1。解决这个约束的常见策略是引入Fine & Gray (1999) 的比例子分布风险模型（proportional subdistribution hazards model），它直接建模CIF的转换（如cloglog或logit），并采用类似Cox回归的部分似然而不必显式处理乘积约束。
本文正是在这一脉络下提出自己的位置：将比例子分布风险模型推广为更广义的odds率变换，同时处理CIF ≤1 的约束，并进一步扩展到存在失败原因错误分类的情形。
本文的具体位置
作者明确将自己的贡献定性为填补一个明确的缺口："although modeling of the cumulative incidence function (CIF) is an easier and more direct approach to evaluate the prognosis of an event"，但大部分竞争风险联合建模仍基于原因别风险。作者的framing是：已有的基于CIF的方法（如直接对CIF建模）在联合模型框架下要么只限于比例子分布风险，要么忽略了测量误差和/或错误分类。他们提供一个广义化的、灵活的类别，并引入双重抽样（double sampling）来校正错误分类——即在一小部分随机抽取的样本中，用“金标准”确认真实失败原因。
⚠️ 作者的Framing（务必标注）：作者将缺口勾勒为“没有灵活的、同时处理CIF直建、测量误差和错误分类的联合模型”。竞争路线被淡化的部分：他们几乎完全回避了反事实因果推断（counterfactual causal inference）的方法论角度的比较，例如将竞争风险看作一种“截尾”的因果模式（如“competing risks as censoring”）以及敏感性分析框架。这是因果推断研究者必须特别留意的——本文没有讨论因果解释，仅做预测/预后。可能缺失的引用：半参数效率理论（efficient influence function）在联合模型中的应用（如Murphy & van der Laan 或 Tsiatis 的semiparametric joint model work），以及用无偏机器学习（DML）估计因果参数的处理方式——这些方法能提供更稳健的估计与推断，且已有纵向+竞争结局的扩展。这个缺失值得去查证。

子线索聚类¶

这些被引工作大致落在以下 3 条子线索：

联合模型（Joint Models）：这类工作的核心是怎样通过共享随机效应将纵向子模型和生存子模型绑定，以消除测量误差导致的估计偏倚。其始祖模型是单结局的（如Tsiatis & Davidian 2004的review），后扩展到多结局（如Elashoff 2008, Williamson 2008）。本文属于此线索的扩展，用CIF替换了CSH。用户熟悉的非参数/半参数理论、M-估计在这里是常规工具；但更高阶的U-统计量（用户的武器库）几乎没出现。
累积发病函数建模（CIF Modeling）：以Fine & Gray (1999)的比例子分布风险模型为基准。最近的扩展包括积分分位变换（Cox & Oakes 2014）或广义odds率变换（如本文引用的Mao, Lin & Lange (2017) 在单一结局中对广义odds率联合模型的工作）。本文将其扩展为广义odds率变换形式，并应用于CIF建模。
错误分类校正（Misclassification Correction）：主要是两类方法——(a)基于验证样本的校正（如Neuhaus (1999) (双样本外推) , Edwards et al. (2013) （用于联合模型））和(b)在无验证样本时的隐变量模型。本文采用的是“双重抽样”（double sampling）——在随机子样本中有“金标准”真实原因，在主样本中只有易错原因。这与因果推断中instrumental variable处理测量误差的做法不同。

核心问题与瓶颈¶

本子方向追问的核心问题（2-4个）： 1. 如何在不迫使所有事件共享一个随机效应的前提下，灵活地对CIF直接建模，并同时满足 <1 的界？ 2. 如何区分不可观测的异质性（导致因共享随机效应的竞争）与因果意义上的“选择效应”（selection）？ ——这也是因果推断中的经典难题，但本文没有触及。 3. 当失败原因可能存在错误分类时，能否设计出既能纠正偏倚又不过分依赖于模型假设的校正方法？ 双重抽样的做法提供了一个出路，但对“金标准”子样本的代表性假设很强（ignorable missing at random for true cause given covariates and possibly marker? 没有明确说明）。 4. 如何将联合建模的复杂结果（高维参数、随机效应后验）转换成临床决策可用的工具？ 例如本文提出的多状态表示与状态占据概率正是一种尝试。

张力¶

未见明显对立引用。所有被引文献在方法论上彼此兼容，差异主要在于模型的具体选择（CSH vs. CIF, 比例风险 vs. 广义odds率变换）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( Y_{ij} \): 个体 \(i\) 在时间 \(t_{ij}\) 的纵向标记物可观测值（连续，假定正态分布）。
\( X_i(t) \)：个体 \(i\) 在时间 \(t\) 的“真实”（潜在、无测量误差）标记物值。这是本文的参数化目标。
\( T_i \): 个体 \(i\) 的失败时间（可观测）。
\( C_i \): 个体 \(i\) 的失败原因（类型，可观测，记为 \(C_i = 1, 2, ..., K\)——但可能带有误差）。
\( \tilde{C}_i \)：个体 \(i\) 的 可观测（易错）失败原因——大部分个体只能提供这个。小部分个体会额外提供一个“金标准”的真实原因（记为 \(C_i^*\)）。
\( Z_i \)：个体 \(i\) 的基线协变量向量（不含标记物）。
\( b_i \)：个体 \(i\) 的共享随机效应向量（潜在变量），连接纵向和生存子模型。通常为低维（如随机截距+随机斜率）。
\( \epsilon_{ij} \)：测量误差项（假设为独立同分布 \(N(0, \sigma^2)\)，与 \(b_i\) 独立）。
\( S_i(t; x, z) \)：在给定真实标记物轨迹 \(x(t)\) 和协变量 \(z\) 时的总生存函数，但为了直接使用CIF，本文直接建模CIF。
\( F_k(t; x, z) \)：在给定真实标记物轨迹和协变量下，到时间 \(t\) 发生第 \(k\) 种原因事件的累积发病函数。本文的直接的建模对象。
模型：
纵向子模型（LMM）: \(Y_{ij} = X_i(t_{ij}) + \epsilon_{ij}\), 其中 \(X_i(t) = b_i^T W_i(t) + \beta^T Z_i\), 即真实轨迹是随机效应线性混合模型的线性预测。\(W_i(t)\) 是时间基函数向量（如 \(1, t, t^2\) 或样条）。这是经典LMM，测量误差被显式建模。
生存子模型: 直接对CIF建模：
\[F_k(t; X_i(t), Z_i) = 1 - \left[1 + \rho \exp\{\gamma_k^T Z_i + \alpha_k X_i(t_0) + \delta_k X_i'(t_0)\}\cdot H_k(t) \right]^{-1/\rho}\]
其中 \(H_k(t)\) 是基线累积子分布函数（待估），\(\rho > 0\) 是变换参数（\(\rho=0\) 对应比例子分布风险，\(\rho=1\) 对应比例odds）。关键：F_k 直接依赖于某基准时间 \(t_0\) 的真实标记物值与变化率，而非未来的随机路径。这便是共享参数模型的精髓——将标记物轨迹压缩为几个汇总统计量（如截距与斜率）进入生存模型。对所有k和t，要求 \(\sum_{k=1}^K F_k(\infty; X_i, Z_i) \le 1\)（所有可能类型的总发生概率不超过1）。这通过变换的链接函数（cloglog或logit）的界以及确保 \(\sum \gamma_k\) 的结构来保证。
错误分类子模型: 给定真实原因 \(C_i^* = k\)，可观测原因 \(\tilde{C}_i = l\) 的概率为 \(p_{kl}(Z_i; \eta)\)，即一个多项logit模型。双重抽样意味着在大小为 \(n_v\) 的验证子样本中，\((\tilde{C}_i, C_i^*)\) 均可观测；在主样本中只有 \(\tilde{C}_i\)。关键在于“可忽略验证机制”（missing at random）：给定协变量及标记物轨迹，缺失验证标记的机制与真实原因无关（联合分布假设，基于验证样本）。
可观测数据：研究者对每个个体 i 能观测到：
纵向标记序列 \( (Y_{i1}, t_{i1}), (Y_{i2}, t_{i2}), ... \) (长度可变)。
失败时间 \(T_i\), 和（易错）原因 \(\tilde{C}_i\)。
基线协变量 \(Z_i\)。
额外信息（对子样本）：真实原因 \(C_i^*\)
不可观测（潜在）量：
- 真实标记物轨迹 \(X_i(t)\) (无穷维，但由有限维 \(b_i\) 和参数 \(\beta\) 参数化)。
- 真实失败原因 \(C_i^*\)（对大部分样本不可观测）。
- 共享随机效应 \(b_i\)。

第二步：讲最小内核¶

最小内核：在最简情形中，我们考虑 K=2个竞争风险（事件1：艾滋病相关死亡；事件2：非艾滋病相关死亡），且不考虑协变量 \(Z_i\) 和基线CIF参数。假设纵向标记物是简单的随机截距模型（即真实值 \(X_i(t) = b_i\) 在时间上恒定，\(b_i \sim N(0, \tau^2)\)，测量误差方差为 \(\sigma^2\)）。生存子模型采用比例子分布风险模型（即 \(\rho = 0\)）：

\[F_1(t; b_i) = 1 - \exp\{ - \Lambda_{01}(t) \cdot e^{\alpha_1 b_i} \}, \quad F_2(t; b_i) = 1 - \exp\{ - \Lambda_{02}(t) \cdot e^{\alpha_2 b_i} \}\]

其中 \(\Lambda_{01}(t), \Lambda_{02}(t)\) 是基线累积子分布函数（如Weibull形式）。没有引入错误分类（即 \(\tilde{C}_i = C_i^*\)）。

可观测数据：\((Y_i\)（一个或两个纵向观测）, \(T_i, C_i)\)。

核心问题：在这个最简模型下，本文要干的事是估计 \((\alpha_1, \alpha_2, \Lambda_{01}(\cdot), \Lambda_{02}(\cdot), \tau, \sigma)\)。但直接写出 \(F_1(t; b_i) + F_2(t; b_i) \le 1\) 的约束是困难的——因为For任意 \(b_i, t\), \(\exp\{ -\Lambda_{01} e^{\alpha_1 b_i} \} + \exp\{ -\Lambda_{02} e^{\alpha_2 b_i} \} \) 必须同时被约束。但文中并没有给出显式的参数条件，而是通过链接函数（cloglog）的形式自动满足：当 \(\rho\) 为正时（广义odds率），变换本身是单调且S型，自动确保总累积发病函数在[0,1]之间。当 \(\rho=0\) 时，粗看似乎不能自动约束，但论文通过同时建模 总的风险 或通过在子分布基线上的约束来解决。这正是其技术要点。

本文的关键想法是：不再通过将标记物轨迹全路径长积分入CSH，而是在一个基准时刻（如基线或随机时间）的标记值横截面入模型（实质是条件于该时刻的标记值，做CIF建模）。这避免了复杂的SDE或时变协方差，大大降低了计算的维度，使得在MCMC框架下的后验采样变得可行。

读完这一节，读者已掌握所有记号，并明白本文的核心思路是在一个横截面版本的CIF模型（借用单一时刻的真实标记值）下，利用广义odds率变换将多事件CIF之和约束在1以内，并用共享随机效应连接回重复测量的纵向部分。

三、这篇论文做了什么¶

三句话：①研究了纵向标记物和竞争风险数据的联合建模问题，直接使用累积发病函数（CIF）作为生存子模型的输出，而非传统的原因别风险函数；②提出一类共享参数模型，将CIF链接到基线时刻的真实标记物值（经测量误差校正）上，并采用广义odds率变换（cloglog/logit基函数）使所有CIF满足 \(\le 1\) 约束；③进一步扩展模型至失败原因可能被错误分类的情形，通过在一个随机小子样本中用“金标准”验证原因（双重抽样）来进行校正，并在贝叶斯框架下基于假设的联合模型推出状态占据概率和转移概率的后验样本。
关键设定与假设（在第二节基础上补全完整设定）：
纵向子模型：正常线性混合模型，\(Y_{ij} | b_i, X_i\) ，假定独立测量误差和随机效应。测量误差不能是“经典误差结构”以外的模式。
生存子模型：直接建模CIF为：
\[F_k(t; X_i(t_0), Z_i) = 1 - \left[1 + \rho \exp\{\eta_k(Z_i, X_i(t_0), X'_i(t_0))\} \cdot H_k(t) \right]^{-1/\rho}, \quad \eta_k = \gamma_k^T Z_i + \alpha_k X_i(t_0) + \delta_k X_i'(t_0)\]
这实质上是——在固定的（通常是基线）时间点\(t_0\)，将个体的真实标记物水平及变化速度视为时间-不变协变量。这是关键假设：未来事件的发生仅取决于当时的标记物快照，而非标记物全路径。这类似于“Cox回归中的基线协变量”，但强于“时变协变量”的假设（通常更合理）。
- 约束 \(\sum_k F_k(\infty; \cdot) \le 1\)：论文通过广义odds率变换中参数的选择来实现。特别是，当 \(\rho>0\) 时，每个 \(F_k\) 和一个“失败类型”反事实对应，且总和自动限制为生存函数的互补（如“存活”概率）。当 \(\rho=0\) 时，需另行处理——本文明确通过假设所有竞争事件的子分布基线在无穷远处具有相同支撑并满足 \(\sum \Lambda_{0k}(\infty) = 1\)（或与某种“总风险”相关）。
错误分类子模型：\(P(\tilde{C}=l|C^*=k, Z_i) = p_{kl}(Z_i; \eta)\)，与纵向数据潜在独立（给定 \(Z_i\)）。关键识别假设：随机验证子样本的无偏性——即缺失真实原因 \(C_i^*\) 的机制是随机缺失（MAR），给定观测到的 \((\tilde{C}, Z_i, Y)\)。实践中，“双重抽样”通过设计保证这一点（随机抽取），故该假设合理，但理论上不可推翻。
这些假设相比已有文献的强化/放宽：相比基于CSH的联合模型，本文强化了对事件发生时标记物效应的跨时间不变的假设（同一\(\alpha_k\)用于所有未来时刻），但放松了模型对全路径的依赖性（只依赖基线时刻）。相比已有的单原因CIF共享参数模型（如Mao, Lin & Lange, 2017），本文将其扩展到多竞争风险，并加入了错误分类校正。错误分类模型中，假设验证样本是随机子样本，这放宽了无验证样本时必须依赖不可检验的结构方程假设。
主要结果：本文为方法型论文，无正式定理。全文围绕一个贝叶斯联合模型的构建、采样和评价。主要结果是模拟研究与实例结果：
模拟：生成的数据满足假设，考察模型是否恢复参数。结果显示，当存在测量误差时，本模型（忽略错误分类）的偏倚远小于将带噪标记值直接作为协变量的“朴素模型”，而所提错误分类校正模型在存在10-15%错分率时，进一步将真实失败原因的风险比（如 \(\alpha_1\) 和 \(\alpha_2\)）的偏倚从约15%降低到<5%。
与baseline对比：baseline有两个——“朴素模型”（直接用观测的带噪标记值作为协变量进行CIF回归）和“单重抽样直接校正模型”（不使用双重抽样，仅用主样本的易错原因建模）。结果显示朴素模型偏倚最大；单重抽样模型仅部分纠正（当错分机制与标记值强相关时效果不佳）；而双重抽样模型在几乎所有设定中均表现最佳。
稳健性：对随机效应分布假设的稳健性结论是——即使真实数据偏离正态假设（如\(t\)分布），后验估计仍稳健。
真实数据（HIV）例子：使用ICDEA数据（HIV感染者的合并队列），所研究的两个竞争结局为“艾滋病相关死亡”与“非艾滋病相关死亡”。双重抽样是事后从队列中随机抽取的亚组，使用病历审查确认死因。纵向标记物是CD4细胞计数。显示了模型估计出的两个竞争事件的CIF曲线、及基于标记物水平的“高风险/低风险”状态划分对应的状态转移概率。该例子验证了理论，并展示了模型在处理关键识别问题（如严重错误分类时的死亡原因差异）的实用性。
证明路线与技术技巧：本文无理论证明，因此下面分析结论的可靠性。
整体路线：Bayesian posterior sampling via MCMC。参数在多级分层先验下被采样。子模型嵌套在共享随机效应的似然函数中。关键识别假设通过构造完整数据的似然函数及利用包含验证样本填补缺失真实原因体现。
关键跳转点：似然函数是已观测（主样本）+ 已观测（验证子样本）+ 潜在（错误分类）的联合条件似然。最大难点是来自未验证个体的原因的后验所导致的高维离散积分。本文使用数据增强（data augmentation）：将真实失败原因 \(C_i^*\) 视为缺失潜变量并随每次MCMC迭代采样。这个技巧简单但有效。另一个跳跃是用“事后（post-hoc）”方式验证无模型怿异值，（未提供正式统计检验）。
技术技巧：
- 数据增强（Data Augmentation, DA）：用于将所有个体的“真实原因”作为潜变量填充，便于写完整数据似然。
- 切片采样（Slice sampling） / HMC：处理高维后验（约15-20个参数，+ 约N个随机效应）。
- 广义odds率变换的参数化：巧妙地将多事件CIF约束嵌入链接函数。
真实例子与应用：（已在“真实数据（HIV）例子”中讲述）——数据来自ICDEA协作队列，纵向标记物为CD4细胞计数，两个竞争事件。文中显示了模型估计出的两个累积发病函数曲线以及状态概率图（基于CD4的四分位数划分的高/低风险状态转移）。例子的目的是验证双抽样模型在处理把“非艾滋病死亡”错分为“艾滋病死亡”的常见临床记录错误时的优越性——双重抽样可恢复真实的死亡结构比例差异。
🔎 结论是否比证明窄：
模型估计依赖于对标记物基线快照效应的时间不变假设：同一 \(\alpha_k\) 系数适用于标记物对所有未来日期的影响。这在实际中很强行——一个CD4变化很快的患者，其风险在30天与1年后可能完全不同。文中的Bayes方法可以通过引入交互项或时间-相关\(\alpha_k(t)\)来克服，但本文没有提供。
错误分类模型假设验证样本无偏且错分概率 \(p_{kl}\) 只依赖于 \(Z_i\)（基线协变量），不依赖于标记物。如果错误分类的发生与标记物值有关（如病情更重的患者的死因更容易被错误记录），则双重抽样也会偏。原文没有测试这个敏感度。
作者没有提供任何渐近理论（一致性、正态性、多重检验等），因此其结论完全依赖于MCMC采样的收敛和先验的合理性。这是纯理论论文与这类方法论文之间最大的鸿沟。

四、开放问题（简短）¶

基线横截面假设的放松：能否将本文的共享参数模型推广到允许系数的“时间-动态”变化（如 \(\alpha_k(t)\) 建模）？本文的限制语句是 “CIFs depending on the ‘true’ marker value over time…[但最终仅使用基线时刻的横截面值]”。若推广，马尔可夫链的复杂性、和 \(\sum_k F_k \le 1\) 的约束将更难处理。扎根在本文 Section 3.2 关于模型参数化的描述中，他们其实指出“当前回顾中，仅用了基线值，尚未考察其随时间变化的合理性”。
半参数效率界与无偏机器学习：本文的Bayes估计并不一定达到半参效率界。一个自然的后续问题是：对于该类的“CIF直接建模+双重抽样错分校正”模型，Efficient Influence Function（EIF）是什么？能否构造出DML估计量并达到最优渐近方差？扎根：此问题在本文完全没有涉及（典型的半参理论缺位）。
错误分类模型的敏感性分析：验证样本的无偏GAP MAR假设在现实中并不总能成立（如只有那些活得更久的患者才可能被进一步审查死因）。可以开展一个敏感性分析框架，量化非随机验证对主要参数估计的影响。扎根：Discussion Section末尾明确提及“the missing at random assumption for the verification sample can be considered an untestable assumption”。
扩展到高阶的纵向数据依赖或更复杂的标记物轨迹（如包含二次项、未来信息的整合）：用户自身“高度熟悉”的高阶U-统计量与张量收缩，可以评估当标记物模型扩展到更灵活形式（如高维基函数）时，似然的计算成本与后验采样的复杂度。尚未有文献将树宽/张量收缩的复杂度概念用于此类贝叶斯层级模型的选择。

Maintained by 陈星宇 · Homepage · Source on GitHub