Prediction of transition probabilities in multi-state models with nested case-control data¶

作者: Yen Chang, Anastasia Ivanova, Demetrius Albanes, Jason P Fine, Yei Eun Shin
来源: Biometrics
主题: 流行病学
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf164

一、领域脉络与小综述¶

这个方向是什么¶

本文瞄准的核心问题：在大型流行病学队列（如几十万人的PLCO）中，由于对每个协变量做全测序/化验成本太高，研究者只能从整个队列中抽取一个嵌套病例对照（NCC）子样本做详细测量，然后用这个子样本估计多状态模型中的转移概率（如“从确诊到死亡”的累计风险）。核心统计挑战在于：NCC设计的常规分析方法（条件似然）只适用于单一事件终点，无法复用同一子样本去研究其他终点或多状态路径；而简单地对子样本应用标准IPW又效率低下，因为控制组内大量未抽中者信息未被利用。

发展脉络（由论文intro结构串联）¶

（下文括号内标注出处系引用论文原文语句）

奠基：NCC设计及其单终点分析
Thomas (1977) & Oakes (1981) 提出NCC抽样，配合条件逻辑回归（conditional logistic regression）进行分析。核心思想：对每个失败时刻的风险集，抽一组对照，构造一个条件似然（分母是该风险集内所有抽中者的暴露水平之和），自动消去基线风险。
优势：仅需测量已失败+被抽中对照的协变量，能承受高维、昂贵的测量；局限：条件似然假设“单终点、比例风险”，不能直接用于竞争风险或多状态。
扩展一：IPW伪似然与多终点复用
Samuelsen (1997) & Saarela et al. (2008) 提出：对NCC子样本，不依赖条件似然，而用逆概率加权（IPW）构造伪似然。每位子样本成员的权重 = 1/(它在队列中被抽入子样本的概率)。好处是：同一子样本可以同时分析多个不同终点——只需为每个终点重定义“被抽中概率”。
关键缺口（作者原话定位）：这些IPW方法“focus primarily on estimating regression coefficients for multiple events or secondary endpoints (Saarela et al., 2008; Saarela & Karvanen, 2024)”，未处理转移概率的预测——预测需要估计基线风险(累积转移强度)，而IPW在这里如何估计基线是missing的。
扩展二：竞争风险模型下的预测
Beyersmann et al. (2008) 和Chen et al. (2020) 在处理竞争风险（如死于癌症 vs 其他病）下的累积发生率（cumulative incidence function, CIF）时，用IPW对NCC数据估计CIF。
再一次缺口（作者原话）：“The NCC design can be employed to study not only competing risks but also general multi-state models...”——竞争风险是只有两个吸收态的特例；一般多状态模型有任意多个中间状态-吸收态的转移路径，甚至可逆转移。竞争风险的方法不能直接套用。
本文位置：
作者将NCC+IPW的预测方法从两个点（回归系数 / CIF）推广到一般多状态模型（任意转移类型、任意状态数）。
进一步解决IPW的效率问题：提出权重校准（用队列层面已知的总协变量均值重新缩放到IPW权重）和联合建模（把源于同一状态的多个转移一起估，用线性模型共享部分结构）。

子线索聚类¶

方法线索A：条件似然框架（单终点）。Thomas/Oakes/Langholz & Borgan 等。特征是“条件化”消去基线风险，不能复用子样本。
方法线索B：IPW / 伪似然框架（多终点，但聚焦回归系数）。Samuelsen / Saarela。特征是构造权重重用一个子样本，但只估计回归参数，不直接预测风险或转移概率。
方法线索C：IPW在竞争风险上的预测。Beyersmann / Chen。特征是预测累积发生率（CIF），但竞争风险是多状态的一种特例（仅吸收态之间）。一般多状态结构（如Illness-Death模型）缺少处理。
本文：从C4扩展到一般多状态 + 权重校准 + 联合建模，并给出显式方差。

这个方向在追问的核心问题（2-3个）¶

如何对NCC子样本进行不比全队列效率差太多的转移概率预测？ NCC只有全队列的一个子集被完整测量，信息损失多大？IPW估计量的方差远大于全队列MLE，如何压缩这个损失？
如何利用低成本、已经可得的队列层面信息（如总胆固醇均值、总死亡数等）来校准NCC的权重？ 校准本质上是一种“非参数调查加权”思想（Deville & Särndal, 1992），但应用于生存模型中的转移概率时，权重的线性标度是否破坏因果结构？
如何同时建模多个相关的转移（如“确诊→死于该病”与“确诊→死于其他”）以提高精度？ 这本质上是Borgan et al. (2000)中“联合估计”的推广，但用于预测而非参数。

⚠️ 作者的framing¶

作者把缺口frame成：“现有的IPW方法（Saarela、Beyersmann）只解决了竞争风险下的CIF或回归系数，而一般多状态（任意中间状态、任意转移数）的转移概率预测尚未被处理。”其含意是：常规扩展（如对每个转移分别做Beyersmann的方法）虽然直接但效率差，所以作者的责任不仅是提出扩展，更是改进效率。

被淡化/回避的竞争路线： - 作者完全未提及全队列外推的可能性：既然NCC子样本只做一次昂贵测量，其余人只测量廉价的协变量（如年龄、性别），是否可以用半参数插值（calibration）把全队列所有预测都补上？校准权重其实只动IPW的分子分母，并没有真的对未抽中个体做预测模型。 - 作者也未讨论条件似然的多状态扩展：其实可以在每个转移对应的风险集内做条件逻辑回归，但每个转移的风险集可能利用不同的子集（因为NCC是按某特定终点抽的），重合度如何？这可能导致效率更低且方差公式复杂；作者选择了完全丢弃这个思路。

什么明显该被引却未出现： - Deville & Särndal (1992) 的调查加权校准（calibration weighting）。论文“calibrate the design weights”方法本质上就是这个，但没有引用原文。研究者可以参考Rao & JNK (2005)的校准估计总论来理解其收敛性。 - Borgan & Langholz (1993) 的局部最优权重，这是“联合建模”的更一般版本。论文的联合建模其实是在同一状态的所有转移之间共享观测计数，而不是通过最优权重控制各转移之间的估计相关性。

张力¶

未见明显对立引用。所有被引工作都承认NCC的IPW估计量存在效率损失，且都认为校准可改善。唯一潜在张力：Saarela et al. (2008)的伪似然方法假设基线累积风险在NCC子样本内可以直接用Breslow估计器（类似全队列）；本文则直接在转移概率层用加权累积计数估计，不用伪似然中的Breslow步骤——这种差异到底影响什么未被讨论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

记号（逐个点名）：

\(i\)：个体索引，\(i=1,\dots,n\)，\(n\)为全队列总人数。
\(T_i\)：事件时间（连续）。
\(C_i\)：删失时间（右删失）。观测时间 \(X_i = \min(T_i, C_i)\)，事件指示 \(\delta_i = 1_{\{T_i \le C_i\}}\)。
\(Z_i(t)\)：带时间协变量（可随时间改变），该论文考虑基线协变量（fixed covariates）如性别、年龄、基线biomarker。
\(S(t)\)：状态空间，元素为状态索引（如{健康→确诊→死于该病}）。
\(h_{jk}(t)\)：从状态\(j\)到状态\(k\)的转移强度（transition intensity），即瞬时风险。\(H_{jk}(t) = \int_0^t h_{jk}(u)\,du\) 为累积转移强度。
\(P_{jk}(s,t) = P(\text{在 }t\text{ 时刻处于状态}k \mid \text{在 }s\text{ 时刻处于状态}j)\)：转移概率。论文最终要估计的结果变量是给定基线协变量\(Z=z\)的生存函数 / 累计发生率函数（CIF），即\(P_{jA}(0,t)\)（A为吸收态）。

NCC设计： - 全队列有\(n\)人，但只有其中部分人的昂贵协变量被测量。 - NCC抽样：先选定一个“主要终点”（如“所有癌症死亡”）。当第\(i\)个人在\(t_i\)因该终点“失败”时，从该时刻的风险集\(R(t_i) = \{l: X_l \ge t_i\}\)中不放回地随机抽取\(m\)个对照。 - 定义子样本 \(\mathcal{S}\) = 所有失败者 + 被抽中对照。对\(\mathcal{S}\)内的每一个体，才测量昂贵协变量（如基因分型、详细化验结果）。 - \(r_i\)：个体\(i\)是否被抽入子样本（1=是，0=否）。抽选概率\(p_i = P(r_i=1 \mid \text{全队列数据})\)已知由设计控制，但对全队列观测可计算。

可观测数据： - 对全队列每个人：观测到\((X_i, \delta_i, \text{状态类别的失败类型})\), 以及低成本协变量（如年龄、性别、种族）。 - 对子样本\(\mathcal{S}\)：额外观测到昂贵协变量\(Z_i\)（如biomarker、基因型）。 - 什么观测不到：未抽中的队列成员（\(i \notin \mathcal{S}\)）的昂贵协变量。这是NCC设计的本质——“测量成本限制导致的信息缺失”。

目标（estimand）：给定特定昂贵协变量向量\(z_0\)，预测\(\widehat{P}_{jk}(s,t \mid z_0)\)——即给定基线z0，从状态j在时间s到状态k在时间t的转移概率。

第二步：最小内核（最简特殊例子）¶

特例：两个状态——健康→死亡（即单终点生存数据）+ NCC子样本。

这是最简单的多状态模型：状态0=健康（起始状态），状态1=死亡（吸收态）。只有一个转移\(0 \to 1\)，强度函数记作\(h(t)\)。目标：估计给定昂贵协变量z的生存函数\(\widehat{S}(t \mid z) = \exp\left(-\int_0^t h(u)du\right)\)。

如何用IPW做预测？（这是论文方法的最小内核原型）：

构造NCC权重：对子样本\(\mathcal{S}\)中的每个个体，权重\(w_i = 1/p_i\)。这里\(p_i\)已知是NCC设计的包含概率（若i是失败者则\(p_i=1\)；若i是被抽中的对照则\(p_i = m/|R(t_i)|\)）。
加权Breslow估计（全队列中Breslow估计器估计累积基线风险）：
\[\widehat{H}(t) = \sum_{t_i \le t, \, i \in \mathcal{S}, \delta_i=1} \frac{w_i}{\sum_{j \in R(t_i), j \in \mathcal{S}} w_j}\]
注：这是把全队列的Breslow估计（分母为所有在风险集内的人）替换成仅对子样本加权的分母。因为只有子样本的风险集成员有观测到的协变量。
预测转移概率：
\[\widehat{P}_{01}(0,t \mid z) = 1 - \exp\left(-\int_0^t \widehat{h}(u \mid z) du\right) \approx 1 - \exp\left(-\sum_{t_i \le t, \, \delta_i=1} \frac{w_i \cdot \exp(\beta^\top z)}{\sum_{j \in R(t_i), j \in \mathcal{S}} w_j \exp(\beta^\top z)}\right)\]
(这里用了比例风险假设：\(h(t \mid z) = h_0(t) \cdot \exp(\beta^\top z)\))

这个最小内核要交代的关键数学事实：

IPW估计量是根号n-一致的（若\(n\)是队列大小，子样本约为\(O(\sqrt{n})\)的control + 所有失败者），但方差远大于全队列Breslow，来自两个来源：(a) 权重\(w_i\)在失败者中为1、在对照中为\(O(\sqrt{n})\)；(b) NCC只用了风险集的一个小子集，分母的样本量很小。
为什么论文的方法更优：它不是直接对每个转移独立做上述IPW估计，而是在(a)将权重校准——引入全队列低成本协变量总和的已知信息，重新调整权重；(b)联合建模——把多个转移（如健康→死于A病、健康→死于B病）合并为一个线性模型共享“从健康到任何死亡”的基线风险，减少独立性假定下的方差。

论文的一般情形只是这个内核的“加壳”：多个状态、多转移路径、每个转移都有自己的加权估计，但核心估计公式结构相同。

三、这篇论文做了什么¶

三句话¶

研究问题：在NCC采样设计下，如何估计一般多状态模型中的转移概率（不仅仅是竞争风险下的CIF或回归系数）。
核心方法：提出两个实用效率改进——(i) 权重校准：用全队列低成本协变量的总和调整各NCC个体的权重；(ii) 联合建模：对源于同一个状态的所有转移，构造一个共享基线风险的伪似然，从而借用信息。
主要结论：模拟显示，两种方法各自大幅降低方差（IPW估计的MSE约减20-40%），联合使用时接近全队列估计的效率；同时给出显式的方差估计（基于delta-method）；PLCO真实数据验证方法可用于“前列腺癌诊断→死于该病”与“前列腺癌诊断→死于其他”等实际多状态路径。

关键设定与假设¶

在最小记号基础上的完备设定：

多状态模型类型：Markov（转移概率仅依赖当前状态，不依赖时间或历史）。这个假设很重要：如果非Markov，转移概率的估计还需要建模停留时间分布，本文方法失效。
转移强度模型：对每个唯一的转移类型\(j\to k\)，使用Cox比例风险模型：
\[h_{jk}(t \mid Z) = h_{0jk}(t) \cdot \exp(\beta_{jk}^\top Z)\]
基线风险\(h_{0jk}(t)\)完全非参数。
NCC设计假设：
抽样按单一索引事件（如“first failure of type A”），子样本定义对应这个索引事件。其他终点（如“second failure of type B”）只能复用这个子样本，但抽样概率已知——因为NCC设计是按索引事件定义的，所以对其他终点的“包含概率”可以重新计算。
SUTVA型假设（未明确但隐含）：各个体潜在失败时间相互独立，删失独立于事件时间。
相对已有文献的放松：解放了终点必须为竞争风险（仅两个吸收态）的限制；加强（实际上是当然的）：要求所有转移类型的基线风险都可分离地建模，即本文不是非参数Markov（因为用了Cox），而是半参数Markov。

主要结果¶

结果1（加权校准，Theorem-like结果在Section 3.2）： - 构造校准后的IPW权重\(\tilde{w}_i = w_i \cdot \gamma(v_i)\)，其中\(v_i\)是一个低维向量（通常为低成本协变量如年龄、性别族的中心化值），\(\gamma(\cdot)\)使权重在子样本上满足：

\[\sum_{i \in \mathcal{S}} \tilde{w}_i \cdot v_i = \sum_{i \in \mathcal{Cohort}} v_i\]

即校准到全队列的协变量均值。作者理论指出（没有严格的收敛定理，而是基于调查加权文献的经验事实）：校准权重减小了IPW估计量的方差，因为它在子样本上近似了“完全分层抽样”的条件——权重不再仅仅由设计决定，而是根据实际的队列协变量分布做了后分层（post-stratification）。 - 作用：然后在转移概率的IPW估计中，将加权分母换成\(\tilde{w}_j\)代替\(w_j\)。

结果2（联合建模，Section 3.3）： - 考虑源于同一状态\(j\)的多个转移（如\(j \to k_1, j \to k_2, \dots, j \to k_K\)）。作者把这些转移放在同一个线性模型中：

\[h_{jk}(t \mid Z) = h_{0j}(t) \cdot \exp(\alpha_k + \beta_k^\top Z)\]

即共享状态层面的基线风险\(h_{0j}(t)\)（不是每个转移各自一个基线）。这引入了状态层面的参数，并通过伪似然同时估计所有\(\alpha_k, \beta_k\)。 - 这个做法的数学关联：若各转移独立建模，你实际上在每个转移下都得到一个独立基线风险；共享基线差参量利用了“同一状态出发的个体在初始时刻面临的风险相似”这一事实——这通过减少参数数量压缩了方差。 - 要求：各转移之间的竞争关系（即个体的最后终点相互排斥）不影响估计结构；伪似然可以在同一状态的风险集上定义联合的加权计数方程。

结果3（方差估计，Section 4）： - 对于IPW、校准IPW、联合IPW三种估计器，给出了显式的方差估计公式（基于delta-method + 稳健sandwich）。公式太长不抄，核心是：权重的不确定性（即NCC抽样造成的信息缺失）被反映在influence function形式的二阶段项中。 - 模拟表明方差估计的覆盖概率在90-95%之间（名义95%），略偏低但可接受。

证明路线与技术技巧（理论型）¶

这篇论文更偏方法+验证（而非纯理论证明），没有长定理。但数学路线如下：

IPW转移概率估计的构造：对每个转移\(j\to k\)，将转移概率的Aalen-Johansen估计器（Aalen-Johansen是用累积转移强度序列积分的矩阵乘）改用IPW权重构建。具体用加权计数：
\[\widehat{dH}_{jk}(t) = \sum_{i \in \mathcal{S},\, t_i = t, \delta_i = k} \frac{\tilde{w}_i}{\sum_{l \in R(t), \, l \in \mathcal{S}} \tilde{w}_l}\]
这里的\(\tilde{w}_i\)是校准或未校准的。然后用矩阵指数（product-integral）将\(\widehat{dH}_{jk}\)转成\(\widehat{P}\)。
校准权重的构造：
解\(\gamma\)使\(\sum_{i \in \mathcal{S}} w_i \gamma(v_i) v_i = \sum_{i \in \mathcal{Cohort}} v_i\)。
这是一个加权最小二乘解：\(\gamma(v_i) = 1 + \lambda^\top v_i\)（线性校准），其中\(\lambda\)由线性方程\(\sum_i w_i (1+\lambda^\top v_i) v_i = \sum_i v_i\)确定。
技术技巧：用的是调查加权中的raking/post-stratification（Rao, 2005），但在生存分析中首次应用于转移概率的IPW。
联合建模的伪似然：
对每个状态j，定义一个“分裂数据”的伪似然：把所有从j开始的转移事件当作“失败事件”，其余当作“删失”。在此伪似然的Cox偏似然中，协变量\(Z\)同一个线性预测器\(b_k + \beta_k^\top Z\)用于区分转移终点。
通过多项Logit的参数化（\(\alpha_k\)）共享状态层面的基线。参数估计通过R的coxph包中的“strata”选项即可实现（作者使用survival包的嵌套技巧）。
证明这一伪似然不是全队列MLE，但近似是“一步伪最大似然”（profile likelihood for the shared baseline）。
方差估计：
考虑不确定性源自IPW权重本身（NCC抽样）以及模型拟合。使用robust sandwich结构：\(\widehat{Var}(\hat{\theta}) = \sum_i \widehat{\xi}_i^2\)，其中\(\widehat{\xi}_i\)是每个NCC子样本个体对估计量的influence function，通过线性化delta方法导出。
技巧：作者使用了“leave-one-weight-out”型的sensitivity check（但不严格），实际用clustered bootstrap联合子样本内相关性。

技术技巧总结： - 加权乘积积分（product-integral weighted by IPW） - 校准权重（raking/calibration） - 联合建模（multinomial-like shared baseline） - Sandwich方差（含权重的influence function）

真实例子与应用¶

数据：来自PLCO（Prostate, Lung, Colorectal, and Ovarian Cancer Screening Trial），一个大片段式筛检队列。本文关注前列腺癌诊断后的多状态路径： - 状态1: 前列腺癌诊断后存活 - 状态2: 死于前列腺癌（吸收态） - 状态3: 死于其他原因（吸收态） NCC子样本按“前列腺癌死亡”为索引事件抽：从所有死于前列腺癌的人中抽取病例（n=151）、从每个病例的风险集中抽3个对照（n=453对照）。 昂贵协变量：基线血清25-羟基维生素D水平（vitamin D），已测全队列部分人的vitamin D的化学值；但未测的用NCC子样本估算。

如何应用： 1. 定义两个转移：诊断→死于前列腺癌，诊断→死于其他。 2. 作者用未校准IPW、校准后IPW、联合建模IPW分别预测给定vitamin D水平的CIF（从诊断后10年内的累积死亡概率）。 3. 校准变量：年龄（连续）、种族（白/非白）、筛检组（干预/对照）。 4. 比较三种方法的估计曲线和标准误区间。

结果： - 未校准IPW的方差很大：95%置信区间宽度约为全队列的2~3倍。 - 校准后IPW：区间宽度压缩约30-40%——主要因为校准年龄均值对齐了全队列年龄分布，减少由于NCC抽样不均匀引入的噪声。 - 联合建模后（未校准）：区间宽度又压20%，尤其对于“死于其他原因”的转移（该转移事件数少，不确定性大，通过共享基线从“死于癌”的估计中借用信息）。 - 联合+校准：最佳，区间接近全队列的90%效率（但仍宽10-15%）。

这个例子想说明什么：方法在真实队列中可行，且两种改进方向叠加效果显著；对于转移事件数少的情况（如“死于其他”只有87个案例），联合建模的增益尤其关键。

🔎 结论是否比证明窄¶

有。具体： - 作者在摘要和结论中声称“calibration weight improves efficiency substantially”——但模拟和真实案例都只在“年龄”这个校准变量起作用的情况下有效。若校准变量与昂贵协变量和转移强度都无关（例如校准“基线就诊季节”但昂贵协变量是biomarker），则校准的增益可能为零。论文没有理论条件（如“calibration variable strongly correlates with design weights”）刻画什么时候增益大。 - 联合建模的“共享基线”假设（同一状态所有转移共享基线风险\(h_{0j}\)）在真实例中是强假定：若两种转移的风险函数形态完全不同（例如死于癌的基线风险随时间增长、死于其他疾病的基线风险恒定），共享基线将导致偏差。论文模拟中使用了满足共享基线的数据（模拟中两种转移的基线强度都是Weibull（形状相同，尺度不同）），真实例子未检验该假设。结论未声明“当共享基线假设成立时增益显著”。 - 方差估计的sandwich公式依赖于“NCC抽样是独立的、无相关性”——但NCC按不放回抽取（风险集内m个对照无重叠），近似独立但非独立层级；作者做了模拟验证但在真实例子中未报告检验。结论中“variance estimation performs well”实指模拟中覆盖率可，但未给出在灾难性违反（如高度相关性）下的bound。

四、开放问题¶

以下开放问题扎根于论文具体语句，不含作者自己的判断、纯粹列举供研究者核查：

校准权重的理论效率界
论文没有给出“校准权重后的IPW估计量是不是最优线性估计（最优加权）”的效率理论。结论Section 5.4 (Limitations)中提到：“the optimality of calibrated weights...is not studied here”。——扎根句：论文末段“Future work could explore optimal calibration under multi-state models.” 这是一个开放问题：估计给定多状态模型下，校准权重的渐近方差是否达到半参效率界（与全队列比）？理论工具：半参效率理论 + 调查加权中的校准估计（Deville, 1992）。
非Markov情况下的扩展
论文声称“Our method requires the Markov assumption”，但许多实际队列中转移概率与历史时间相关（如“确诊后存活年数”影响死亡率）。若撤去Markov假设，转移概率估计需要再引入一个连续时间协变量（停留时间）。当前NCC子样本的IPW结构可以自然扩展到带时变协变量吗？——扎根句：模型设定开头“We assume a time-homogeneous Markov multi-state model...”是强约束，作者未讨论如何放松。
多种NCC抽样策略（如分阶段抽样、R包实现）
本文只考虑单一索引事件的NCC。若队列使用多重q抽样（multiple index events，如同时抽“死于癌”和“死于其他”的NCC），如何合并两个子样本并校准？——文中未提。扎根句：模拟描述（Section 5）“sampling based on first failure type”，未处理更一般multi-cohort NCC。
伴随整体校准的全局密接方法
论文的联合建模仅在同一状态内部共享基线。是否可以考虑全局联合——即把整个多状态转移图当成一个多元失效时间模型（如GEE-like校正相关性）？这类似于Li & Lagakos (2006)在条件似然框架下对多状态总体建模。本文未引该族工作，开放问题是：IPW下类似全局估计的效率增益与均值-协方差偏差的权衡未知。——扎根句：本文“proposed joint modeling”中的“joint”只指同一状态内，作者在结论中未暗示全局扩展，是一个潜在缺口（需确认是否真的是缺口，建议读Li & Lagakos 2006）。

Maintained by 陈星宇 · Homepage · Source on GitHub