An Overview and Recent Developments in the Analysis of Multistate Processes¶
作者: Malka Gorfine, Richard J. Cook, Per Kragh Andersen, Terry M. Therneau, Pierre Joly et al.
来源: Statistics in Medicine
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
多状态模型(multistate model)是生存分析的直接推广,将一个体的疾病过程建模为有限个离散状态之间的随机转移。每个转移由transition intensity(即条件 hazard)驱动,目标 estimands 包括转移强度(intensity)、状态占用概率(state occupancy probability)、以及协变量对边际量(如期望停留时间)的效应。当前成熟度:方法论框架(计数过程、Aalen–Johansen 估计、Cox 类强度模型)在 1990–2010 年间已基本建立;近年来工作集中于三个口子——(i) 从强度模型转向边际直接回归(pseudo-value 方法),(ii) 纳入个体间异质性与过程历史依赖(frailty / random effects),(iii) 复杂观察方案(间歇观察、信息性删失、与纵向标记的联合模型)。本质上是从纯生存分析向“有结构的事件序列”推断的扩展。
发展脉络(history)¶
奠基工作:
– Aalen (1978):计数过程框架与 multiplicative intensity model,为多状态强度估计提供理论基础。
– Andersen et al. (1993) 专著:系统整理竞争风险与多状态模型的 Aalen–Johansen 估计、非参数与半参数方法,至今是标准参考。
– Prentice et al. (1978):提出竞争风险下的 cause-specific hazard 模型,直接奠定多状态强度建模的公式。
主要进展(2000–2015):
– pseudo-value 方法(Andersen et al. 2003, Klein & Andersen 2005):将状态占用概率等复杂函数转化为一阶 influence function 的 one-step 估计,然后对 pseudo-observations 直接拟合回归模型(GEE / 线性)。这一方法的关键优势是边际效应直接可解释,不需要指定转移强度模型。
– Frailty / random effects(Gorfine & Hsu 2010, Liquet et al. 2012):对 cluster 或个体引入共享脆弱性,同时处理同一过程内部的多次转移相关 与 个体间异质性。主要挑战是计算与假设验证。
– Semi-competing risks(Fine et al. 2001, Lee et al. 2015):关注非终止事件(如 Alzheimer 诊断)与终止事件(死亡)之间的非独立关系,提出 illness–death 模型与 Bayesian 方法。
– 联合模型(Lange et al. 2014):将多状态过程与观察时间过程(例如临床就诊间隔)联合建模,处理信息性观察。
当前 frontier:
– 因果推断嵌入多状态框架(Nevo & Gorfine 2020, Gran et al. 2015):定义基于 strata 的因果效应(如“在假设不会死亡的情况下患病”)或使用 G-computation / IPW。
– 机器学习集成(DeepHit, survival trees, 2018–2021):例如 Lee et al. 2018 用深度网络直接学习多种风险下的生存时间分布,允许时间依赖性;Titman & Putter 2020 提供马尔可夫检验。
– pseudo-value 的拓展与校准(Overgaard et al. 2019):在协变量依赖删失下,用 IPCW 替换 Aalen–Johansen 估计,使 pseudo-observation 估计仍一致。
– 复杂删失/观察模式(Touraine et al. 2017 的 SmoothHazard 包:Spline 建模受区间删失的 illness–death 数据)。
本文位置:一篇整合性综述,由 STRATOS 倡议相关主题组撰写。作者不做新理论贡献,而是将上述线索按建模决策流(强度模型 → 边际伪值 → 随机效应 → 联合模型 → 机器学习)组织,同时提供软件对照表(R / SAS 包与适用范围)。其自称缺口是“缺乏为应用研究者准备的统一指南”,且“缺乏对伪值方法理论基础的深层讨论”(但注明引用 Overgaard 2019)。
子线索聚类¶
| 线索 | 代表性工作(本文引用) | 做什么 |
|---|---|---|
| 强度模型(intensity-based) | Andersen et al. 2020(STRATOS 指南), mstate 包(de Wreede et al. 2011),SmoothHazard 包(Touraine et al. 2017) | 用计数过程 / 转移强度直接建模,半参数 Cox 或 Weibull / M-spline,Aalen–Johansen 估计状态占用概率。 |
| 边际直接回归(pseudo-value) | Overgaard et al. 2019(协变量依赖删失校正),Gorfine 系列 | 对 Kaplan–Meier / Aalen–Johansen 做 jackknife/leave-one-out 伪值,作为响应变量拟合 GLM,效应解释为边际平均。 |
| 随机效应 / frailty | Gorfine & Hsu 2010(cause-specific frailty 模型),Liquet et al. 2012(ICU 多状态 frailty) | 引入共享/向量脆弱性,建模个体内转移间依赖与跨个体异质性;EM 或 MCMC 估计。 |
| 联合模型(多状态 + 标记/观察) | Lange et al. 2014(电子病历中的信息性观察时间) | 多状态过程与纵向标记或观察时间的联合似然(潜在变量条件独立假设),似然计算更复杂。 |
| 因果推断 | Nevo & Gorfine 2020(半竞争风险因果效应),Gran et al. 2015(sick leave 数据) | 定义多状态下的边际/条件 causal estimands(如 direct/indirect effect),用 IPW / G-computation / 单调性假设识别。 |
| 机器学习 | Lee et al. 2018 (DeepHit),Bou-Hamad et al. 2011 (survival trees) | 不假设特定强度形式,用深度网络/树预测多状态风险或生存分布。 |
这个方向在追问的核心问题¶
- 如何在不依赖 Markov 假设下进行有效推断? Markov 假设虽简化估计(Aalen–Johansen 一致),但常被违背;半 Markov 模型与 landmark 方法仍是活跃领域(Titman & Putter 2020 提供检验)。
- 如何定义和识别多状态过程中的因果效应? 涉及非终止事件(被死亡删失)和时间依赖性混杂,现有 monotonicity 或 “no death before exposure” 假设很强。
- 如何在复杂观察方案(区间删失、信息性删失、个体不同随访频率)下保持一致性? 联合模型(如 Lange et al.)试图建模观察过程,但计算和鲁棒性仍是瓶颈。
- pseudo-value 方法在半参数效率下的理论性质(效率界、minimax rate)尚未充分研究。 目前主要渐近性质靠 influence function 展开,但效率可达性问题未解(尤其当协变量高维时)。
⚠️ 作者的 framing¶
作者把缺口定位为:“缺乏一份面向应用研究者的、关于多状态模型的方法选择与软件工具的综合指南”,因此本文主要贡献是整合+软件对照。
- 淡化/回避的竞争路线:
- 对深度学习方法只给两段提及,未讨论其可解释性损失与推断困难(DeepHit 不做假设检验,也无法直接给出边际效应)。
- 对 pseudo-value 方法的效率界与半参数理论联系完全没有讨论,只提到“是基于影响函数”,但未深入半参数效率框架(如 Bickel et al. 1993, van der Vaart 2002)。这恰恰是与本研究者的 semiparametric theory 和 higher-order influence function (HOIF) 可能的直接接口。
- 没有讨论高维协变量(如大量生物标记)下的多状态建模(Lasso、非参数筛等),仅有一处提及“现代机器学习方法可用于变量重要性”([129]),但非常简略。
- 明显没有被引但应存在的工作:半参数效率理论中关于多状态模型 influence function 的明确文献(如 Saarela 2015, Commenges & Andersen 1995 等)。此外,pseudo-value 的 higher-order 扩展(如二阶影响函数用于 bias reduction)未被引用——这可能是用户可直接攻击的一个 gap。
- 未见明显对立引用:各方法间无公开矛盾,但不同方法侧重点不同(强度/边际/因果),综述本身也强调了互补性。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
我们以 illness–death model(三状态不可逆模型) 作为固定参照,所有记号对后续读者透明。
符号:
- 状态空间:{0 = 健康, 1 = 患病, 2 = 死亡}。
- \( T_0 \):从状态 0 到状态 1 的时间(若发生死亡前患病则观测到,否则被死亡删失)。
- \( T_1 \):从状态 0 到状态 2 的死亡时间(可能经过患病,也可能直接死亡)。
- \( T_2^{(1)} \):进入状态 1 后到状态 2 的持续时间。
- 协变量向量 \( Z \in \mathbb{R}^d \)。
- 转移强度(hazard):
- 累积转移强度:\( A_{0k}(t) = \int_0^t \alpha_{0k}(s) \, ds \)。
- 状态占用概率:
- 样本:\( i = 1,\dots,n \) 独立同分布。
模型(最小设定):假设 Markov 性(转移强度只依赖于当前状态时间和进入该状态的时间差,即 semi-Markov 或 clock-forward)。实际观测通过右删失进行:对每个个体有一删失时间 \( C \),观测到的转移经过为删失数据。为简化,暂不考虑时依协变量。
可观测数据:
- 每个个体 \( i \) 在 \( t=0 \) 从状态 0 进入。
- 观测到一系列转移时间(若发生且未删失):
- \( u_i \):进入状态 1 的时间(若发生且 \( u_i \le C_i \))。
- \( v_i \):进入状态 2 的时间(若发生且 \( v_i \le C_i \))。
- 删失指示符:\( \delta_i^{(01)}, \delta_i^{(02)}, \delta_i^{(12)} \)。
- 未观测到:若死亡在患病前发生,则 \( T_0 \) 永不会被观测(所以 \( T_0 \) 是潜在量);同理,若从未患病,则 \( T_2^{(1)} \) 不存在。
- 因此数据是“半竞争风险”形式:\( T_0 \) 可能被死亡删失,\( T_1 \) 是终未事件。
关键识别假设:右删失时间 \( C \) 与所有潜在转移时间独立(或条件独立于 \( Z \))。对于 pseudo-value 方法,还需要删失不依赖于协变量(否则用 IPCW 校正,Overgaard 2019)。
第二步:最小内核¶
最简特例:竞争风险模型(仅有两个转移:0→1, 0→2,没有再转移)。此时没有状态 1→2。这是一个标准的 two-cause competing risks,当前文献的 Aalen–Johansen 估计与 Gray 检验已经成熟。
但本文的“最小内核”要体现 pseudo-value 方法的核心思想,因此我们保持三状态,但假设 半竞争风险中最简单的设定:协变量 \( Z \) 是二元的(如处理 vs. 对照),且我们只关心在固定时间 \( \tau \) 的 状态 1 占用概率 \( P_1(\tau \mid Z) \)。
伪观察值方法的核心步骤:
- 无模型估计状态占用概率(删失独立于 \( Z \)):对全样本用 Aalen–Johansen 估计 \( \hat{P}_1(\tau) \)。
- 对每个个体 \( i \),计算伪观察值:
\[\theta_i = n \, \hat{P}_1(\tau) - (n-1) \, \hat{P}_1^{(-i)}(\tau),\]其中 \( \hat{P}_1^{(-i)} \) 是去掉个体 \( i \) 后的 Aalen–Johansen 估计。
这个公式其实是 one-step influence function 的 jackknife 实现:
\[\hat{\theta}_i \approx P_1(\tau) + \text{IF}(P_1(\tau); \text{data}_i),\]因此 \( \theta_i \) 是“真实值 + 一阶影响函数”的近似。 - 将 \( \theta_i \) 作为响应变量,拟合一个边际回归模型,例如最简单的线性回归:
\[\text{E}[\theta_i \mid Z_i] = \beta_0 + \beta_1 Z_i,\]用 GEE 或 OLS 估计 \( \beta_1 \),它的标度就是 “处理 vs 对照在状态 1 占用概率上的平均差”。 - 渐近性质:若删失独立于协变量且删失时间独立,则 \( \hat{\beta}_1 \) 一致且渐近正态。
为什么要这样做?直接对 \( P_1(\tau \mid Z) \) 建模通常需要多变量转移强度模型(会引入 Markov 假设、多个转移的联合估计)。而 pseudo-value 方法绕开了强度模型,只需一步 Aalen–Johansen 估计 + 一个回归,结果解释是边际的——这正是应用研究者(如流行病学家)想要的:协变量对某个状态平均占用概率的直接影响,而不是条件于所有协变量的 hazard 比。
这个内核说明了整篇论文的什么:
- Pseudo-value 是“从非参数估计到回归”的桥梁,依赖 influence function。
- 它可直接对接 semiparametric efficiency 理论(influence function 就是 efficient influence function 的一阶近似),但其 效率是否达到半参数下界 并无保证——这正是研究者可用工具攻入的缺口。
- 此外,这个内核中使用的“删失独立性”假设在实际中常违背,引出 Overgaard 2019 的 IPCW 校正路径。
三、这篇论文做了什么(重心)¶
三句话¶
- 研究问题:系统综述多状态模型在生命史数据中的建模与拟合方法,聚焦于 intensity-based 模型、pseudo-value 边际回归、random effects/frailty、joint models for longitudinal markers、以及软件实现。
- 核心方法:以计数过程 intensity 模型为根基,用 Aalen–Johansen 估计状态概率,pseudo-value 将复杂函数转化为可回归的响应变量,frailty 和随机效应处理过程历史依赖与异质性,联合模型处理信息性观察。
- 主要结论:给出一个方法选择决策树(intensity vs. marginal, Markov vs. semi-Markov, 独立 vs. 信息性观测),并列出 R/SAS 包(msm, mstate, SmoothHazard, survival 等);指出当前 open issues 包括马尔可夫假设检验、因果推断、高维预测及与机器学习的整合。
关键设定与假设¶
论文没有自己的新模型,而是汇总各类模型的常用假设。为读者清晰起见,此处列出综述中常见的重要假设(但注意,本文未单独证明或声明):
- Markov 假设:转移强度只依赖于当前状态和时间 \( t \)(即从进入状态 0 起的时间),而不依赖于在之前各状态的已度过时间。这是 Aalen–Johansen 估计一致的充分但非必要条件。若 Make sense,semi-Markov 假设(clock-reset)常用。
- Non-informative censoring:删失时间与潜在转移时间独立。对于 pseudo-value 方法,这是标准要求(除非使用 IPCW 校正,如 Overgaard 2019)。
- Proportional hazards:Cox 型强度模型,即转移强度 \( \alpha_{jk}(t \mid Z) = \alpha_{0jk}(t) \exp(\beta_{jk}' Z) \)。
- 削弱的可忽视性(for joint models):给定潜在脆弱性,观察时间是“条件非信息性”的。
- 结构不变性:转移结构(哪些状态间可转移)是已知且固定的。
与已有文献比较:本文强调 pseudo-value 方法放宽了对强度模型的依赖,但代价是需要独立删失假设(否则需 IPCW,引述 Overgaard 2019)。与强度模型相比,pseudo-value 在边际效应解释上有优势,但在灵活性(如处理时依协变量)上受限。
主要结果¶
本文是综述,没有自己的数值结果或定理。主要“结果”是不同方法的适用条件与软件支持对照表:
- intensity-based 模型:适合需要时间动态细节(如转移强度变化)的情景。软件:mstate, survival (coxph), 可处理 Markov/semi-Markov。
- pseudo-value 方法:适合希望直接报告协变量对状态概率的边际效应的场景。软件:survival 中的
pseudo函数或自定义。 - frailty / random effects:适合数据有聚类(多个 ICU 单位、患者多次观察)或需要刻画个体间异质性的情况。软件:frailtypack, coxme。
- 联合模型:当观察时间非随机时(如就诊频率与病情相关),需要同时建模过程与观察机制。软件:msm 提供隐马尔可夫版本,或定制 MCMC。
- 机器学习方法:适合提高预测准确率(而非推断),例如 DeepHit 用于竞争风险预测;但缺乏假设检验与边际效应直接解释。
证明路线与技术技巧(无新证明;给出综述整合逻辑)¶
由于本文是综述,我们将它的组织逻辑视为“方法论验证路线”:
整体逻辑主干(3 步):
- 从最简单的生–死模型出发(两状态),依次添加 竞争风险(多终点)、疾病进展(中间状态)、可逆转移(进出 disease)。每一步引入对应的 intensity 定义与 Aalen–Johansen 估计。
- 引入边际直接回归:先解释经典 Kaplan–Meier / Aalen–Johansen 如何给出非参数估计,然后展示 jackknife pseudo-observation 如何构造,再说明回归一致性需要的 censoring 独立性(或 IPCW 校正)。
- 处理复杂性与异质性:用 frailty 扩展允许个体或 cluster 层面的速率差异,用 joint model 处理观察过程的内生性。
关键跳跃点 / 技术难点(由综述指出,但非本文自己攻克):
- pseudo-value 与 influence function 的联系:作者指出伪观察值的渐近性质来自影响函数展开,但未展开详细证明(引用 Andersen et al. 2003)。
- frailty 模型中的 EM 算法:需要数值积分(Gauss-Hermite 或 MCEM),在高维 frailty 下计算强度大。
- 信息性观察机制:Lange et al. (2014) 的联合模型需要假设给定潜在 frailty 后观察过程与转移过程条件独立,且维数灾害严重。
具体工具(综述提及但未自己实现):
- 计数过程鞅理论(intensity 定义)、Aalen–Johansen 估计、IPCW(用于 pseudo-value 校正)、wild bootstrap(用于马尔可夫检验,Titman & Putter 2020)。
真实例子与应用¶
论文包含多个引用实例,以下选取两个有代表性的:
例子 1:COVID-19 病情轨迹模型([8, 9]; 基于以色列全国住院数据)
- 数据:22,636 名住院患者,追踪每日临床状态(轻/中、重症、危重、出院、死亡)。状态可逆(如轻→重→轻)。
- 方法:多状态模型(强度不一定是 Markov,但允许时间依赖)。使用 multistate model 估计状态占用概率和转移概率;进一步用模型预测医院资源占用(床位、ICU)。
- 结果:论文引用此例来展示:多状态模型可以量化疾病轨迹、可能被逆转,以及用于实时容量规划。本文作者用此例强调“reversible transitions”的存在(如 0→1→0 在 COPD 中也出现)。
- 说明:这是强度模型 + Aalen–Johansen 的工作,不是 pseudo-value,但 illustrates 强度模型的生命力。
例子 2:COPD 进展中的良性转换([18]; Lovelace Smokers’ Cohort)
- 数据:1553 名吸烟者 5 年随访,肺功能状态(正常、COPD I 期、未分类、COPD II+ 期)。
- 方法:Markov 模型估计状态转移概率。显示“有益转换”(从异常回到正常或有改善)的概率较高:COPD I 期和未分类状态分别有 16% 和 39% 的良性转换概率。
- 说明:此例强调多状态模型可以捕捉单方向进展假设下会遗漏的改善信息,这一发现对理解慢性病自然史很重要。
本文无自己的实证例子(纯综述),所有例子均引用自其他文献。
🔎 结论是否比证明窄¶
作为综述,本文没有自己的结论性宣言。但注意在 pseudo-value 方法 一节,本文陈述为“pseudo-observations from the Aalen-Johansen estimator can be used for regression of state occupancy probabilities on covariates, provided censoring is independent of covariates” – 而后面的 Overgaard (2019) 指出了这一点往往被违反而需要 IPCW。因此 综述的简化叙述可能使读者低估伪值方法对删失假设的敏感度。本文虽然引用了 Overgaard, 但没有详细讨论“删失依赖协变量时偏差多大、需多少样本量来校正”。这是一个隐晦的窄结论:读者可能会误以为伪值方法在默认设定下就一致。
四、开放问题(点到为止)¶
-
pseudo-value 方法的半参数效率界尚未明确: 当前伪值回归的方差是否达到半参数下界?是否可以用 efficient influence function 构造严格有效的估计?——本文仅引用影响函数,未回答效率问题。扎根语句:Section 3.2 “Pseudo-values are based on the influence function of the Aalen–Johansen estimator; regression leads to consistent and asymptotically normal estimators” (但无效率界讨论)。
-
时依协变量与伪值方法的整合: 伪值方法目前主要针对固定时间点的状态概率。但多状态过程中协变量常随时间变化(如 biomarker 在每次就诊时更新),如何将伪值扩展到动态 landmark 设定?本文在 Section 3.4 “Time-dependent covariates are naturally handled in intensity models” 中承认,但未给伪值方案。
-
信息性删失与多状态过程的联合推断: 虽然 Lange et al. (2014) 给出了 Markov 下的联合模型,但在非 Markov 设定下(更符合实际)估计的鲁棒性与计算可行性未知。本文只有一句话引用此线。
-
机器学习方法的推断质量: 深度学习方法(如 DeepHit)在预测上表现好,但缺乏置信区间与假设检验框架。能否将 pseudo-value 思想与深度网络结合(如用网络代替 Aalen–Johansen 估计观测到的分布,再构造伪值)?本文仅提及“工具变量重要性” [129],未深入探讨。
Maintained by 陈星宇 · Homepage · Source on GitHub