跳转至

Prediction of transition probabilities in multi-state models with nested case-control data

作者: Yen Chang, Anastasia Ivanova, Demetrius Albanes, Jason P Fine, Yei Eun Shin
来源: Biometrics
主题: 流行病学
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf164


一、领域脉络与小综述

这个方向是什么

本文瞄准的核心问题:在大型流行病学队列(如几十万人的PLCO)中,由于对每个协变量做全测序/化验成本太高,研究者只能从整个队列中抽取一个嵌套病例对照(NCC)子样本做详细测量,然后用这个子样本估计多状态模型中的转移概率(如“从确诊到死亡”的累计风险)。核心统计挑战在于:NCC设计的常规分析方法(条件似然)只适用于单一事件终点,无法复用同一子样本去研究其他终点或多状态路径;而简单地对子样本应用标准IPW又效率低下,因为控制组内大量未抽中者信息未被利用。

发展脉络(由论文intro结构串联)

(下文括号内标注出处系引用论文原文语句)

  1. 奠基:NCC设计及其单终点分析
  2. Thomas (1977) & Oakes (1981) 提出NCC抽样,配合条件逻辑回归(conditional logistic regression)进行分析。核心思想:对每个失败时刻的风险集,抽一组对照,构造一个条件似然(分母是该风险集内所有抽中者的暴露水平之和),自动消去基线风险。
  3. 优势:仅需测量已失败+被抽中对照的协变量,能承受高维、昂贵的测量;局限:条件似然假设“单终点、比例风险”,不能直接用于竞争风险或多状态。

  4. 扩展一:IPW伪似然与多终点复用

  5. Samuelsen (1997) & Saarela et al. (2008) 提出:对NCC子样本,不依赖条件似然,而用逆概率加权(IPW)构造伪似然。每位子样本成员的权重 = 1/(它在队列中被抽入子样本的概率)。好处是:同一子样本可以同时分析多个不同终点——只需为每个终点重定义“被抽中概率”。
  6. 关键缺口(作者原话定位):这些IPW方法“focus primarily on estimating regression coefficients for multiple events or secondary endpoints (Saarela et al., 2008; Saarela & Karvanen, 2024)”,未处理转移概率的预测——预测需要估计基线风险(累积转移强度),而IPW在这里如何估计基线是missing的。

  7. 扩展二:竞争风险模型下的预测

  8. Beyersmann et al. (2008) 和Chen et al. (2020) 在处理竞争风险(如死于癌症 vs 其他病)下的累积发生率(cumulative incidence function, CIF)时,用IPW对NCC数据估计CIF。
  9. 再一次缺口(作者原话):“The NCC design can be employed to study not only competing risks but also general multi-state models...”——竞争风险是只有两个吸收态的特例;一般多状态模型有任意多个中间状态-吸收态的转移路径,甚至可逆转移。竞争风险的方法不能直接套用。

  10. 本文位置

  11. 作者将NCC+IPW的预测方法从两个点(回归系数 / CIF)推广到一般多状态模型(任意转移类型、任意状态数)。
  12. 进一步解决IPW的效率问题:提出权重校准(用队列层面已知的总协变量均值重新缩放到IPW权重)和联合建模(把源于同一状态的多个转移一起估,用线性模型共享部分结构)。

子线索聚类

  • 方法线索A:条件似然框架(单终点)。Thomas/Oakes/Langholz & Borgan 等。特征是“条件化”消去基线风险,不能复用子样本。
  • 方法线索B:IPW / 伪似然框架(多终点,但聚焦回归系数)。Samuelsen / Saarela。特征是构造权重重用一个子样本,但只估计回归参数,不直接预测风险或转移概率。
  • 方法线索C:IPW在竞争风险上的预测。Beyersmann / Chen。特征是预测累积发生率(CIF),但竞争风险是多状态的一种特例(仅吸收态之间)。一般多状态结构(如Illness-Death模型)缺少处理。
  • 本文:从C4扩展到一般多状态 + 权重校准 + 联合建模,并给出显式方差。

这个方向在追问的核心问题(2-3个)

  1. 如何对NCC子样本进行不比全队列效率差太多的转移概率预测? NCC只有全队列的一个子集被完整测量,信息损失多大?IPW估计量的方差远大于全队列MLE,如何压缩这个损失?
  2. 如何利用低成本、已经可得的队列层面信息(如总胆固醇均值、总死亡数等)来校准NCC的权重? 校准本质上是一种“非参数调查加权”思想(Deville & Särndal, 1992),但应用于生存模型中的转移概率时,权重的线性标度是否破坏因果结构?
  3. 如何同时建模多个相关的转移(如“确诊→死于该病”与“确诊→死于其他”)以提高精度? 这本质上是Borgan et al. (2000)中“联合估计”的推广,但用于预测而非参数。

⚠️ 作者的framing

作者把缺口frame成:“现有的IPW方法(Saarela、Beyersmann)只解决了竞争风险下的CIF或回归系数,而一般多状态(任意中间状态、任意转移数)的转移概率预测尚未被处理。”其含意是:常规扩展(如对每个转移分别做Beyersmann的方法)虽然直接但效率差,所以作者的责任不仅是提出扩展,更是改进效率。

被淡化/回避的竞争路线: - 作者完全未提及全队列外推的可能性:既然NCC子样本只做一次昂贵测量,其余人只测量廉价的协变量(如年龄、性别),是否可以用半参数插值(calibration)把全队列所有预测都补上?校准权重其实只动IPW的分子分母,并没有真的对未抽中个体做预测模型。 - 作者也未讨论条件似然的多状态扩展:其实可以在每个转移对应的风险集内做条件逻辑回归,但每个转移的风险集可能利用不同的子集(因为NCC是按某特定终点抽的),重合度如何?这可能导致效率更低且方差公式复杂;作者选择了完全丢弃这个思路。

什么明显该被引却未出现: - Deville & Särndal (1992) 的调查加权校准(calibration weighting)。论文“calibrate the design weights”方法本质上就是这个,但没有引用原文。研究者可以参考Rao & JNK (2005)的校准估计总论来理解其收敛性。 - Borgan & Langholz (1993) 的局部最优权重,这是“联合建模”的更一般版本。论文的联合建模其实是在同一状态的所有转移之间共享观测计数,而不是通过最优权重控制各转移之间的估计相关性。

张力

未见明显对立引用。所有被引工作都承认NCC的IPW估计量存在效率损失,且都认为校准可改善。唯一潜在张力:Saarela et al. (2008)的伪似然方法假设基线累积风险在NCC子样本内可以直接用Breslow估计器(类似全队列);本文则直接在转移概率层用加权累积计数估计,不用伪似然中的Breslow步骤——这种差异到底影响什么未被讨论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型与可观测数据交代清楚

记号(逐个点名):

  • \(i\):个体索引,\(i=1,\dots,n\)\(n\)为全队列总人数。
  • \(T_i\):事件时间(连续)。
  • \(C_i\):删失时间(右删失)。观测时间 \(X_i = \min(T_i, C_i)\),事件指示 \(\delta_i = 1_{\{T_i \le C_i\}}\)
  • \(Z_i(t)\):带时间协变量(可随时间改变),该论文考虑基线协变量(fixed covariates)如性别、年龄、基线biomarker。
  • \(S(t)\):状态空间,元素为状态索引(如{健康→确诊→死于该病})。
  • \(h_{jk}(t)\):从状态\(j\)到状态\(k\)转移强度(transition intensity),即瞬时风险。\(H_{jk}(t) = \int_0^t h_{jk}(u)\,du\) 为累积转移强度。
  • \(P_{jk}(s,t) = P(\text{在 }t\text{ 时刻处于状态}k \mid \text{在 }s\text{ 时刻处于状态}j)\):转移概率。论文最终要估计的结果变量是给定基线协变量\(Z=z\)的生存函数 / 累计发生率函数(CIF),即\(P_{jA}(0,t)\)(A为吸收态)。

NCC设计: - 全队列有\(n\)人,但只有其中部分人的昂贵协变量被测量。 - NCC抽样:先选定一个“主要终点”(如“所有癌症死亡”)。当第\(i\)个人在\(t_i\)因该终点“失败”时,从该时刻的风险集\(R(t_i) = \{l: X_l \ge t_i\}\)不放回地随机抽取\(m\)个对照。 - 定义子样本 \(\mathcal{S}\) = 所有失败者 + 被抽中对照。对\(\mathcal{S}\)内的每一个体,才测量昂贵协变量(如基因分型、详细化验结果)。 - \(r_i\):个体\(i\)是否被抽入子样本(1=是,0=否)。抽选概率\(p_i = P(r_i=1 \mid \text{全队列数据})\)已知由设计控制,但对全队列观测可计算。

可观测数据: - 对全队列每个人:观测到\((X_i, \delta_i, \text{状态类别的失败类型})\), 以及低成本协变量(如年龄、性别、种族)。 - 对子样本\(\mathcal{S}\):额外观测到昂贵协变量\(Z_i\)(如biomarker、基因型)。 - 什么观测不到:未抽中的队列成员(\(i \notin \mathcal{S}\))的昂贵协变量。这是NCC设计的本质——“测量成本限制导致的信息缺失”。

目标(estimand): 给定特定昂贵协变量向量\(z_0\),预测\(\widehat{P}_{jk}(s,t \mid z_0)\)——即给定基线z0,从状态j在时间s到状态k在时间t的转移概率。

第二步:最小内核(最简特殊例子)

特例:两个状态——健康→死亡(即单终点生存数据)+ NCC子样本。

这是最简单的多状态模型:状态0=健康(起始状态),状态1=死亡(吸收态)。只有一个转移\(0 \to 1\),强度函数记作\(h(t)\)。目标:估计给定昂贵协变量z的生存函数\(\widehat{S}(t \mid z) = \exp\left(-\int_0^t h(u)du\right)\)

如何用IPW做预测?(这是论文方法的最小内核原型):

  1. 构造NCC权重:对子样本\(\mathcal{S}\)中的每个个体,权重\(w_i = 1/p_i\)。这里\(p_i\)已知是NCC设计的包含概率(若i是失败者则\(p_i=1\);若i是被抽中的对照则\(p_i = m/|R(t_i)|\))。
  2. 加权Breslow估计(全队列中Breslow估计器估计累积基线风险):
    \[\widehat{H}(t) = \sum_{t_i \le t, \, i \in \mathcal{S}, \delta_i=1} \frac{w_i}{\sum_{j \in R(t_i), j \in \mathcal{S}} w_j}\]
    注:这是把全队列的Breslow估计(分母为所有在风险集内的人)替换成仅对子样本加权的分母。因为只有子样本的风险集成员有观测到的协变量。
  3. 预测转移概率
    \[\widehat{P}_{01}(0,t \mid z) = 1 - \exp\left(-\int_0^t \widehat{h}(u \mid z) du\right) \approx 1 - \exp\left(-\sum_{t_i \le t, \, \delta_i=1} \frac{w_i \cdot \exp(\beta^\top z)}{\sum_{j \in R(t_i), j \in \mathcal{S}} w_j \exp(\beta^\top z)}\right)\]
    (这里用了比例风险假设:\(h(t \mid z) = h_0(t) \cdot \exp(\beta^\top z)\))

这个最小内核要交代的关键数学事实

  • IPW估计量是根号n-一致的(若\(n\)是队列大小,子样本约为\(O(\sqrt{n})\)的control + 所有失败者),但方差远大于全队列Breslow,来自两个来源:(a) 权重\(w_i\)在失败者中为1、在对照中为\(O(\sqrt{n})\);(b) NCC只用了风险集的一个小子集,分母的样本量很小。
  • 为什么论文的方法更优:它不是直接对每个转移独立做上述IPW估计,而是在(a)将权重校准——引入全队列低成本协变量总和的已知信息,重新调整权重;(b)联合建模——把多个转移(如健康→死于A病、健康→死于B病)合并为一个线性模型共享“从健康到任何死亡”的基线风险,减少独立性假定下的方差。

论文的一般情形只是这个内核的“加壳”:多个状态、多转移路径、每个转移都有自己的加权估计,但核心估计公式结构相同。


三、这篇论文做了什么

三句话

  1. 研究问题:在NCC采样设计下,如何估计一般多状态模型中的转移概率(不仅仅是竞争风险下的CIF或回归系数)。
  2. 核心方法:提出两个实用效率改进——(i) 权重校准:用全队列低成本协变量的总和调整各NCC个体的权重;(ii) 联合建模:对源于同一个状态的所有转移,构造一个共享基线风险的伪似然,从而借用信息。
  3. 主要结论:模拟显示,两种方法各自大幅降低方差(IPW估计的MSE约减20-40%),联合使用时接近全队列估计的效率;同时给出显式的方差估计(基于delta-method);PLCO真实数据验证方法可用于“前列腺癌诊断→死于该病”与“前列腺癌诊断→死于其他”等实际多状态路径。

关键设定与假设

在最小记号基础上的完备设定

  • 多状态模型类型:Markov(转移概率仅依赖当前状态,不依赖时间或历史)。这个假设很重要:如果非Markov,转移概率的估计还需要建模停留时间分布,本文方法失效。
  • 转移强度模型:对每个唯一的转移类型\(j\to k\),使用Cox比例风险模型
    \[h_{jk}(t \mid Z) = h_{0jk}(t) \cdot \exp(\beta_{jk}^\top Z)\]
    基线风险\(h_{0jk}(t)\)完全非参数。
  • NCC设计假设
  • 抽样按单一索引事件(如“first failure of type A”),子样本定义对应这个索引事件。其他终点(如“second failure of type B”)只能复用这个子样本,但抽样概率已知——因为NCC设计是按索引事件定义的,所以对其他终点的“包含概率”可以重新计算。
  • SUTVA型假设(未明确但隐含):各个体潜在失败时间相互独立,删失独立于事件时间。
  • 相对已有文献的放松:解放了终点必须为竞争风险(仅两个吸收态)的限制;加强(实际上是当然的):要求所有转移类型的基线风险都可分离地建模,即本文不是非参数Markov(因为用了Cox),而是半参数Markov

主要结果

结果1(加权校准,Theorem-like结果在Section 3.2): - 构造校准后的IPW权重\(\tilde{w}_i = w_i \cdot \gamma(v_i)\),其中\(v_i\)是一个低维向量(通常为低成本协变量如年龄、性别族的中心化值),\(\gamma(\cdot)\)使权重在子样本上满足:

\[\sum_{i \in \mathcal{S}} \tilde{w}_i \cdot v_i = \sum_{i \in \mathcal{Cohort}} v_i\]
即校准到全队列的协变量均值。作者理论指出(没有严格的收敛定理,而是基于调查加权文献的经验事实):校准权重减小了IPW估计量的方差,因为它在子样本上近似了“完全分层抽样”的条件——权重不再仅仅由设计决定,而是根据实际的队列协变量分布做了后分层(post-stratification)。 - 作用:然后在转移概率的IPW估计中,将加权分母换成\(\tilde{w}_j\)代替\(w_j\)

结果2(联合建模,Section 3.3): - 考虑源于同一状态\(j\)的多个转移(如\(j \to k_1, j \to k_2, \dots, j \to k_K\))。作者把这些转移放在同一个线性模型中:

\[h_{jk}(t \mid Z) = h_{0j}(t) \cdot \exp(\alpha_k + \beta_k^\top Z)\]
即共享状态层面的基线风险\(h_{0j}(t)\)(不是每个转移各自一个基线)。这引入了状态层面的参数,并通过伪似然同时估计所有\(\alpha_k, \beta_k\)。 - 这个做法的数学关联:若各转移独立建模,你实际上在每个转移下都得到一个独立基线风险;共享基线差参量利用了“同一状态出发的个体在初始时刻面临的风险相似”这一事实——这通过减少参数数量压缩了方差。 - 要求:各转移之间的竞争关系(即个体的最后终点相互排斥)不影响估计结构;伪似然可以在同一状态的风险集上定义联合的加权计数方程。

结果3(方差估计,Section 4): - 对于IPW、校准IPW、联合IPW三种估计器,给出了显式的方差估计公式(基于delta-method + 稳健sandwich)。公式太长不抄,核心是:权重的不确定性(即NCC抽样造成的信息缺失)被反映在influence function形式的二阶段项中。 - 模拟表明方差估计的覆盖概率在90-95%之间(名义95%),略偏低但可接受。

证明路线与技术技巧(理论型)

这篇论文更偏方法+验证(而非纯理论证明),没有长定理。但数学路线如下:

  1. IPW转移概率估计的构造:对每个转移\(j\to k\),将转移概率的Aalen-Johansen估计器(Aalen-Johansen是用累积转移强度序列积分的矩阵乘)改用IPW权重构建。具体用加权计数:

    \[\widehat{dH}_{jk}(t) = \sum_{i \in \mathcal{S},\, t_i = t, \delta_i = k} \frac{\tilde{w}_i}{\sum_{l \in R(t), \, l \in \mathcal{S}} \tilde{w}_l}\]
    这里的\(\tilde{w}_i\)是校准或未校准的。然后用矩阵指数(product-integral)将\(\widehat{dH}_{jk}\)转成\(\widehat{P}\)

  2. 校准权重的构造

  3. \(\gamma\)使\(\sum_{i \in \mathcal{S}} w_i \gamma(v_i) v_i = \sum_{i \in \mathcal{Cohort}} v_i\)
  4. 这是一个加权最小二乘解:\(\gamma(v_i) = 1 + \lambda^\top v_i\)(线性校准),其中\(\lambda\)由线性方程\(\sum_i w_i (1+\lambda^\top v_i) v_i = \sum_i v_i\)确定。
  5. 技术技巧:用的是调查加权中的raking/post-stratification(Rao, 2005),但在生存分析中首次应用于转移概率的IPW。

  6. 联合建模的伪似然

  7. 对每个状态j,定义一个“分裂数据”的伪似然:把所有从j开始的转移事件当作“失败事件”,其余当作“删失”。在此伪似然的Cox偏似然中,协变量\(Z\)同一个线性预测器\(b_k + \beta_k^\top Z\)用于区分转移终点。
  8. 通过多项Logit的参数化\(\alpha_k\))共享状态层面的基线。参数估计通过R的coxph包中的“strata”选项即可实现(作者使用survival包的嵌套技巧)。
  9. 证明这一伪似然不是全队列MLE,但近似是“一步伪最大似然”(profile likelihood for the shared baseline)。

  10. 方差估计

  11. 考虑不确定性源自IPW权重本身(NCC抽样)以及模型拟合。使用robust sandwich结构:\(\widehat{Var}(\hat{\theta}) = \sum_i \widehat{\xi}_i^2\),其中\(\widehat{\xi}_i\)是每个NCC子样本个体对估计量的influence function,通过线性化delta方法导出。
  12. 技巧:作者使用了“leave-one-weight-out”型的sensitivity check(但不严格),实际用clustered bootstrap联合子样本内相关性。

技术技巧总结: - 加权乘积积分(product-integral weighted by IPW) - 校准权重(raking/calibration) - 联合建模(multinomial-like shared baseline) - Sandwich方差(含权重的influence function)

真实例子与应用

数据:来自PLCO(Prostate, Lung, Colorectal, and Ovarian Cancer Screening Trial),一个大片段式筛检队列。本文关注前列腺癌诊断后的多状态路径: - 状态1: 前列腺癌诊断后存活 - 状态2: 死于前列腺癌(吸收态) - 状态3: 死于其他原因(吸收态) NCC子样本按“前列腺癌死亡”为索引事件抽:从所有死于前列腺癌的人中抽取病例(n=151)、从每个病例的风险集中抽3个对照(n=453对照)。 昂贵协变量:基线血清25-羟基维生素D水平(vitamin D),已测全队列部分人的vitamin D的化学值;但未测的用NCC子样本估算。

如何应用: 1. 定义两个转移:诊断→死于前列腺癌,诊断→死于其他。 2. 作者用未校准IPW、校准后IPW、联合建模IPW分别预测给定vitamin D水平的CIF(从诊断后10年内的累积死亡概率)。 3. 校准变量:年龄(连续)、种族(白/非白)、筛检组(干预/对照)。 4. 比较三种方法的估计曲线和标准误区间。

结果: - 未校准IPW的方差很大:95%置信区间宽度约为全队列的2~3倍。 - 校准后IPW:区间宽度压缩约30-40%——主要因为校准年龄均值对齐了全队列年龄分布,减少由于NCC抽样不均匀引入的噪声。 - 联合建模后(未校准):区间宽度又压20%,尤其对于“死于其他原因”的转移(该转移事件数少,不确定性大,通过共享基线从“死于癌”的估计中借用信息)。 - 联合+校准:最佳,区间接近全队列的90%效率(但仍宽10-15%)。

这个例子想说明什么:方法在真实队列中可行,且两种改进方向叠加效果显著;对于转移事件数少的情况(如“死于其他”只有87个案例),联合建模的增益尤其关键。

🔎 结论是否比证明窄

有。具体: - 作者在摘要和结论中声称“calibration weight improves efficiency substantially”——但模拟和真实案例都只在“年龄”这个校准变量起作用的情况下有效。若校准变量与昂贵协变量和转移强度都无关(例如校准“基线就诊季节”但昂贵协变量是biomarker),则校准的增益可能为零。论文没有理论条件(如“calibration variable strongly correlates with design weights”)刻画什么时候增益大。 - 联合建模的“共享基线”假设(同一状态所有转移共享基线风险\(h_{0j}\))在真实例中是强假定:若两种转移的风险函数形态完全不同(例如死于癌的基线风险随时间增长、死于其他疾病的基线风险恒定),共享基线将导致偏差。论文模拟中使用了满足共享基线的数据(模拟中两种转移的基线强度都是Weibull(形状相同,尺度不同)),真实例子未检验该假设。结论未声明“当共享基线假设成立时增益显著”。 - 方差估计的sandwich公式依赖于“NCC抽样是独立的、无相关性”——但NCC按不放回抽取(风险集内m个对照无重叠),近似独立但非独立层级;作者做了模拟验证但在真实例子中未报告检验。结论中“variance estimation performs well”实指模拟中覆盖率可,但未给出在灾难性违反(如高度相关性)下的bound。


四、开放问题

以下开放问题扎根于论文具体语句,不含作者自己的判断、纯粹列举供研究者核查:

  1. 校准权重的理论效率界
    论文没有给出“校准权重后的IPW估计量是不是最优线性估计(最优加权)”的效率理论。结论Section 5.4 (Limitations)中提到:“the optimality of calibrated weights...is not studied here”。——扎根句:论文末段“Future work could explore optimal calibration under multi-state models.” 这是一个开放问题:估计给定多状态模型下,校准权重的渐近方差是否达到半参效率界(与全队列比)?理论工具:半参效率理论 + 调查加权中的校准估计(Deville, 1992)。

  2. 非Markov情况下的扩展
    论文声称“Our method requires the Markov assumption”,但许多实际队列中转移概率与历史时间相关(如“确诊后存活年数”影响死亡率)。若撤去Markov假设,转移概率估计需要再引入一个连续时间协变量(停留时间)。当前NCC子样本的IPW结构可以自然扩展到带时变协变量吗?——扎根句:模型设定开头“We assume a time-homogeneous Markov multi-state model...”是强约束,作者未讨论如何放松。

  3. 多种NCC抽样策略(如分阶段抽样、R包实现)
    本文只考虑单一索引事件的NCC。若队列使用多重q抽样(multiple index events,如同时抽“死于癌”和“死于其他”的NCC),如何合并两个子样本并校准?——文中未提。扎根句:模拟描述(Section 5)“sampling based on first failure type”,未处理更一般multi-cohort NCC。

  4. 伴随整体校准的全局密接方法
    论文的联合建模仅在同一状态内部共享基线。是否可以考虑全局联合——即把整个多状态转移图当成一个多元失效时间模型(如GEE-like校正相关性)?这类似于Li & Lagakos (2006)在条件似然框架下对多状态总体建模。本文未引该族工作,开放问题是:IPW下类似全局估计的效率增益与均值-协方差偏差的权衡未知。——扎根句:本文“proposed joint modeling”中的“joint”只指同一状态内,作者在结论中未暗示全局扩展,是一个潜在缺口(需确认是否真的是缺口,建议读Li & Lagakos 2006)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论