An Overview and Recent Developments in the Analysis of Multistate Processes¶

作者: Malka Gorfine, Richard J. Cook, Per Kragh Andersen, Terry M. Therneau, Pierre Joly et al.
来源: Statistics in Medicine
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

多状态模型（multistate model）是生存分析的直接推广，将一个体的疾病过程建模为有限个离散状态之间的随机转移。每个转移由transition intensity（即条件 hazard）驱动，目标 estimands 包括转移强度（intensity）、状态占用概率（state occupancy probability）、以及协变量对边际量（如期望停留时间）的效应。当前成熟度：方法论框架（计数过程、Aalen–Johansen 估计、Cox 类强度模型）在 1990–2010 年间已基本建立；近年来工作集中于三个口子——(i) 从强度模型转向边际直接回归（pseudo-value 方法），(ii) 纳入个体间异质性与过程历史依赖（frailty / random effects），(iii) 复杂观察方案（间歇观察、信息性删失、与纵向标记的联合模型）。本质上是从纯生存分析向“有结构的事件序列”推断的扩展。

发展脉络（history）¶

奠基工作：
– Aalen (1978)：计数过程框架与 multiplicative intensity model，为多状态强度估计提供理论基础。
– Andersen et al. (1993) 专著：系统整理竞争风险与多状态模型的 Aalen–Johansen 估计、非参数与半参数方法，至今是标准参考。
– Prentice et al. (1978)：提出竞争风险下的 cause-specific hazard 模型，直接奠定多状态强度建模的公式。

主要进展（2000–2015）：
– pseudo-value 方法（Andersen et al. 2003, Klein & Andersen 2005）：将状态占用概率等复杂函数转化为一阶 influence function 的 one-step 估计，然后对 pseudo-observations 直接拟合回归模型（GEE / 线性）。这一方法的关键优势是边际效应直接可解释，不需要指定转移强度模型。
– Frailty / random effects（Gorfine & Hsu 2010, Liquet et al. 2012）：对 cluster 或个体引入共享脆弱性，同时处理同一过程内部的多次转移相关 与 个体间异质性。主要挑战是计算与假设验证。
– Semi-competing risks（Fine et al. 2001, Lee et al. 2015）：关注非终止事件（如 Alzheimer 诊断）与终止事件（死亡）之间的非独立关系，提出 illness–death 模型与 Bayesian 方法。
– 联合模型（Lange et al. 2014）：将多状态过程与观察时间过程（例如临床就诊间隔）联合建模，处理信息性观察。

当前 frontier：
– 因果推断嵌入多状态框架（Nevo & Gorfine 2020, Gran et al. 2015）：定义基于 strata 的因果效应（如“在假设不会死亡的情况下患病”）或使用 G-computation / IPW。
– 机器学习集成（DeepHit, survival trees, 2018–2021）：例如 Lee et al. 2018 用深度网络直接学习多种风险下的生存时间分布，允许时间依赖性；Titman & Putter 2020 提供马尔可夫检验。
– pseudo-value 的拓展与校准（Overgaard et al. 2019）：在协变量依赖删失下，用 IPCW 替换 Aalen–Johansen 估计，使 pseudo-observation 估计仍一致。
– 复杂删失/观察模式（Touraine et al. 2017 的 SmoothHazard 包：Spline 建模受区间删失的 illness–death 数据）。

本文位置：一篇整合性综述，由 STRATOS 倡议相关主题组撰写。作者不做新理论贡献，而是将上述线索按建模决策流（强度模型 → 边际伪值 → 随机效应 → 联合模型 → 机器学习）组织，同时提供软件对照表（R / SAS 包与适用范围）。其自称缺口是“缺乏为应用研究者准备的统一指南”，且“缺乏对伪值方法理论基础的深层讨论”（但注明引用 Overgaard 2019）。

子线索聚类¶

线索	代表性工作（本文引用）	做什么
强度模型（intensity-based）	Andersen et al. 2020（STRATOS 指南）, mstate 包（de Wreede et al. 2011），SmoothHazard 包（Touraine et al. 2017）	用计数过程 / 转移强度直接建模，半参数 Cox 或 Weibull / M-spline，Aalen–Johansen 估计状态占用概率。
边际直接回归（pseudo-value）	Overgaard et al. 2019（协变量依赖删失校正），Gorfine 系列	对 Kaplan–Meier / Aalen–Johansen 做 jackknife/leave-one-out 伪值，作为响应变量拟合 GLM，效应解释为边际平均。
随机效应 / frailty	Gorfine & Hsu 2010（cause-specific frailty 模型），Liquet et al. 2012（ICU 多状态 frailty）	引入共享/向量脆弱性，建模个体内转移间依赖与跨个体异质性；EM 或 MCMC 估计。
联合模型（多状态 + 标记/观察）	Lange et al. 2014（电子病历中的信息性观察时间）	多状态过程与纵向标记或观察时间的联合似然（潜在变量条件独立假设），似然计算更复杂。
因果推断	Nevo & Gorfine 2020（半竞争风险因果效应），Gran et al. 2015（sick leave 数据）	定义多状态下的边际/条件 causal estimands（如 direct/indirect effect），用 IPW / G-computation / 单调性假设识别。
机器学习	Lee et al. 2018 (DeepHit)，Bou-Hamad et al. 2011 (survival trees)	不假设特定强度形式，用深度网络/树预测多状态风险或生存分布。

这个方向在追问的核心问题¶

如何在不依赖 Markov 假设下进行有效推断？ Markov 假设虽简化估计（Aalen–Johansen 一致），但常被违背；半 Markov 模型与 landmark 方法仍是活跃领域（Titman & Putter 2020 提供检验）。
如何定义和识别多状态过程中的因果效应？ 涉及非终止事件（被死亡删失）和时间依赖性混杂，现有 monotonicity 或 “no death before exposure” 假设很强。
如何在复杂观察方案（区间删失、信息性删失、个体不同随访频率）下保持一致性？ 联合模型（如 Lange et al.）试图建模观察过程，但计算和鲁棒性仍是瓶颈。
pseudo-value 方法在半参数效率下的理论性质（效率界、minimax rate）尚未充分研究。 目前主要渐近性质靠 influence function 展开，但效率可达性问题未解（尤其当协变量高维时）。

⚠️ 作者的 framing¶

作者把缺口定位为：“缺乏一份面向应用研究者的、关于多状态模型的方法选择与软件工具的综合指南”，因此本文主要贡献是整合+软件对照。
- 淡化/回避的竞争路线：
- 对深度学习方法只给两段提及，未讨论其可解释性损失与推断困难（DeepHit 不做假设检验，也无法直接给出边际效应）。
- 对 pseudo-value 方法的效率界与半参数理论联系完全没有讨论，只提到“是基于影响函数”，但未深入半参数效率框架（如 Bickel et al. 1993, van der Vaart 2002）。这恰恰是与本研究者的 semiparametric theory 和 higher-order influence function (HOIF) 可能的直接接口。
- 没有讨论高维协变量（如大量生物标记）下的多状态建模（Lasso、非参数筛等），仅有一处提及“现代机器学习方法可用于变量重要性”（[129]），但非常简略。
- 明显没有被引但应存在的工作：半参数效率理论中关于多状态模型 influence function 的明确文献（如 Saarela 2015, Commenges & Andersen 1995 等）。此外，pseudo-value 的 higher-order 扩展（如二阶影响函数用于 bias reduction）未被引用——这可能是用户可直接攻击的一个 gap。
- 未见明显对立引用：各方法间无公开矛盾，但不同方法侧重点不同（强度/边际/因果），综述本身也强调了互补性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

我们以 illness–death model（三状态不可逆模型） 作为固定参照，所有记号对后续读者透明。

符号：
- 状态空间：{0 = 健康, 1 = 患病, 2 = 死亡}。
- \( T_0 \)：从状态 0 到状态 1 的时间（若发生死亡前患病则观测到，否则被死亡删失）。
- \( T_1 \)：从状态 0 到状态 2 的死亡时间（可能经过患病，也可能直接死亡）。
- \( T_2^{(1)} \)：进入状态 1 后到状态 2 的持续时间。
- 协变量向量 \( Z \in \mathbb{R}^d \)。
- 转移强度（hazard）：

\[\alpha_{01}(t \mid Z), \quad \alpha_{02}(t \mid Z), \quad \alpha_{12}(t \mid Z),\]

分别表示从 0→1, 0→2, 1→2 的瞬时转移率（给定 \( Z \) 和当前状态进入时间）。
- 累积转移强度：\( A_{0k}(t) = \int_0^t \alpha_{0k}(s) \, ds \)。
- 状态占用概率：

\[P_{\ell}(t) = P(\text{在时间 } t \text{ 处于状态 } \ell), \quad \ell = 0,1,2.\]

- target estimand (边际效应)：给定 \( Z \)，我们想估计函数 \( \mu(t, Z) = P_1(t \mid Z) \) 或 \( \text{E}[ \text{time in state 1} \mid Z] \)。
- 样本：\( i = 1,\dots,n \) 独立同分布。

模型（最小设定）：假设 Markov 性（转移强度只依赖于当前状态时间和进入该状态的时间差，即 semi-Markov 或 clock-forward）。实际观测通过右删失进行：对每个个体有一删失时间 \( C \)，观测到的转移经过为删失数据。为简化，暂不考虑时依协变量。

可观测数据： - 每个个体 \( i \) 在 \( t=0 \) 从状态 0 进入。
- 观测到一系列转移时间（若发生且未删失）：
- \( u_i \)：进入状态 1 的时间（若发生且 \( u_i \le C_i \)）。
- \( v_i \)：进入状态 2 的时间（若发生且 \( v_i \le C_i \)）。
- 删失指示符：\( \delta_i^{(01)}, \delta_i^{(02)}, \delta_i^{(12)} \)。
- 未观测到：若死亡在患病前发生，则 \( T_0 \) 永不会被观测（所以 \( T_0 \) 是潜在量）；同理，若从未患病，则 \( T_2^{(1)} \) 不存在。
- 因此数据是“半竞争风险”形式：\( T_0 \) 可能被死亡删失，\( T_1 \) 是终未事件。

关键识别假设：右删失时间 \( C \) 与所有潜在转移时间独立（或条件独立于 \( Z \)）。对于 pseudo-value 方法，还需要删失不依赖于协变量（否则用 IPCW 校正，Overgaard 2019）。

第二步：最小内核¶

最简特例：竞争风险模型（仅有两个转移：0→1, 0→2，没有再转移）。此时没有状态 1→2。这是一个标准的 two-cause competing risks，当前文献的 Aalen–Johansen 估计与 Gray 检验已经成熟。
但本文的“最小内核”要体现 pseudo-value 方法的核心思想，因此我们保持三状态，但假设 半竞争风险中最简单的设定：协变量 \( Z \) 是二元的（如处理 vs. 对照），且我们只关心在固定时间 \( \tau \) 的 状态 1 占用概率 \( P_1(\tau \mid Z) \)。

伪观察值方法的核心步骤：

无模型估计状态占用概率（删失独立于 \( Z \)）：对全样本用 Aalen–Johansen 估计 \( \hat{P}_1(\tau) \)。
对每个个体 \( i \)，计算伪观察值：

\[\theta_i = n \, \hat{P}_1(\tau) - (n-1) \, \hat{P}_1^{(-i)}(\tau),\]
其中 \( \hat{P}_1^{(-i)} \) 是去掉个体 \( i \) 后的 Aalen–Johansen 估计。
这个公式其实是 one-step influence function 的 jackknife 实现：

\[\hat{\theta}_i \approx P_1(\tau) + \text{IF}(P_1(\tau); \text{data}_i),\]
因此 \( \theta_i \) 是“真实值 + 一阶影响函数”的近似。
将 \( \theta_i \) 作为响应变量，拟合一个边际回归模型，例如最简单的线性回归：

\[\text{E}[\theta_i \mid Z_i] = \beta_0 + \beta_1 Z_i,\]
用 GEE 或 OLS 估计 \( \beta_1 \)，它的标度就是 “处理 vs 对照在状态 1 占用概率上的平均差”。
渐近性质：若删失独立于协变量且删失时间独立，则 \( \hat{\beta}_1 \) 一致且渐近正态。

为什么要这样做？直接对 \( P_1(\tau \mid Z) \) 建模通常需要多变量转移强度模型（会引入 Markov 假设、多个转移的联合估计）。而 pseudo-value 方法绕开了强度模型，只需一步 Aalen–Johansen 估计 + 一个回归，结果解释是边际的——这正是应用研究者（如流行病学家）想要的：协变量对某个状态平均占用概率的直接影响，而不是条件于所有协变量的 hazard 比。

这个内核说明了整篇论文的什么：
- Pseudo-value 是“从非参数估计到回归”的桥梁，依赖 influence function。
- 它可直接对接 semiparametric efficiency 理论（influence function 就是 efficient influence function 的一阶近似），但其 效率是否达到半参数下界 并无保证——这正是研究者可用工具攻入的缺口。
- 此外，这个内核中使用的“删失独立性”假设在实际中常违背，引出 Overgaard 2019 的 IPCW 校正路径。

三、这篇论文做了什么（重心）¶

三句话¶

研究问题：系统综述多状态模型在生命史数据中的建模与拟合方法，聚焦于 intensity-based 模型、pseudo-value 边际回归、random effects/frailty、joint models for longitudinal markers、以及软件实现。
核心方法：以计数过程 intensity 模型为根基，用 Aalen–Johansen 估计状态概率，pseudo-value 将复杂函数转化为可回归的响应变量，frailty 和随机效应处理过程历史依赖与异质性，联合模型处理信息性观察。
主要结论：给出一个方法选择决策树（intensity vs. marginal, Markov vs. semi-Markov, 独立 vs. 信息性观测），并列出 R/SAS 包（msm, mstate, SmoothHazard, survival 等）；指出当前 open issues 包括马尔可夫假设检验、因果推断、高维预测及与机器学习的整合。

关键设定与假设¶

论文没有自己的新模型，而是汇总各类模型的常用假设。为读者清晰起见，此处列出综述中常见的重要假设（但注意，本文未单独证明或声明）：

Markov 假设：转移强度只依赖于当前状态和时间 \( t \)（即从进入状态 0 起的时间），而不依赖于在之前各状态的已度过时间。这是 Aalen–Johansen 估计一致的充分但非必要条件。若 Make sense，semi-Markov 假设（clock-reset）常用。
Non-informative censoring：删失时间与潜在转移时间独立。对于 pseudo-value 方法，这是标准要求（除非使用 IPCW 校正，如 Overgaard 2019）。
Proportional hazards：Cox 型强度模型，即转移强度 \( \alpha_{jk}(t \mid Z) = \alpha_{0jk}(t) \exp(\beta_{jk}' Z) \)。
削弱的可忽视性（for joint models）：给定潜在脆弱性，观察时间是“条件非信息性”的。
结构不变性：转移结构（哪些状态间可转移）是已知且固定的。

与已有文献比较：本文强调 pseudo-value 方法放宽了对强度模型的依赖，但代价是需要独立删失假设（否则需 IPCW，引述 Overgaard 2019）。与强度模型相比，pseudo-value 在边际效应解释上有优势，但在灵活性（如处理时依协变量）上受限。

主要结果¶

本文是综述，没有自己的数值结果或定理。主要“结果”是不同方法的适用条件与软件支持对照表：

intensity-based 模型：适合需要时间动态细节（如转移强度变化）的情景。软件：mstate, survival (coxph), 可处理 Markov/semi-Markov。
pseudo-value 方法：适合希望直接报告协变量对状态概率的边际效应的场景。软件：survival 中的 pseudo 函数或自定义。
frailty / random effects：适合数据有聚类（多个 ICU 单位、患者多次观察）或需要刻画个体间异质性的情况。软件：frailtypack, coxme。
联合模型：当观察时间非随机时（如就诊频率与病情相关），需要同时建模过程与观察机制。软件：msm 提供隐马尔可夫版本，或定制 MCMC。
机器学习方法：适合提高预测准确率（而非推断），例如 DeepHit 用于竞争风险预测；但缺乏假设检验与边际效应直接解释。

证明路线与技术技巧（无新证明；给出综述整合逻辑）¶

由于本文是综述，我们将它的组织逻辑视为“方法论验证路线”：

整体逻辑主干（3 步）：

从最简单的生–死模型出发（两状态），依次添加 竞争风险（多终点）、疾病进展（中间状态）、可逆转移（进出 disease）。每一步引入对应的 intensity 定义与 Aalen–Johansen 估计。
引入边际直接回归：先解释经典 Kaplan–Meier / Aalen–Johansen 如何给出非参数估计，然后展示 jackknife pseudo-observation 如何构造，再说明回归一致性需要的 censoring 独立性（或 IPCW 校正）。
处理复杂性与异质性：用 frailty 扩展允许个体或 cluster 层面的速率差异，用 joint model 处理观察过程的内生性。

关键跳跃点 / 技术难点（由综述指出，但非本文自己攻克）：

pseudo-value 与 influence function 的联系：作者指出伪观察值的渐近性质来自影响函数展开，但未展开详细证明（引用 Andersen et al. 2003）。
frailty 模型中的 EM 算法：需要数值积分（Gauss-Hermite 或 MCEM），在高维 frailty 下计算强度大。
信息性观察机制：Lange et al. (2014) 的联合模型需要假设给定潜在 frailty 后观察过程与转移过程条件独立，且维数灾害严重。

具体工具（综述提及但未自己实现）：
- 计数过程鞅理论（intensity 定义）、Aalen–Johansen 估计、IPCW（用于 pseudo-value 校正）、wild bootstrap（用于马尔可夫检验，Titman & Putter 2020）。

真实例子与应用¶

论文包含多个引用实例，以下选取两个有代表性的：

例子 1：COVID-19 病情轨迹模型（[8, 9]; 基于以色列全国住院数据）
- 数据：22,636 名住院患者，追踪每日临床状态（轻/中、重症、危重、出院、死亡）。状态可逆（如轻→重→轻）。
- 方法：多状态模型（强度不一定是 Markov，但允许时间依赖）。使用 multistate model 估计状态占用概率和转移概率；进一步用模型预测医院资源占用（床位、ICU）。
- 结果：论文引用此例来展示：多状态模型可以量化疾病轨迹、可能被逆转，以及用于实时容量规划。本文作者用此例强调“reversible transitions”的存在（如 0→1→0 在 COPD 中也出现）。
- 说明：这是强度模型 + Aalen–Johansen 的工作，不是 pseudo-value，但 illustrates 强度模型的生命力。

例子 2：COPD 进展中的良性转换（[18]; Lovelace Smokers’ Cohort）
- 数据：1553 名吸烟者 5 年随访，肺功能状态（正常、COPD I 期、未分类、COPD II+ 期）。
- 方法：Markov 模型估计状态转移概率。显示“有益转换”（从异常回到正常或有改善）的概率较高：COPD I 期和未分类状态分别有 16% 和 39% 的良性转换概率。
- 说明：此例强调多状态模型可以捕捉单方向进展假设下会遗漏的改善信息，这一发现对理解慢性病自然史很重要。

本文无自己的实证例子（纯综述），所有例子均引用自其他文献。

🔎 结论是否比证明窄¶

作为综述，本文没有自己的结论性宣言。但注意在 pseudo-value 方法 一节，本文陈述为“pseudo-observations from the Aalen-Johansen estimator can be used for regression of state occupancy probabilities on covariates, provided censoring is independent of covariates” – 而后面的 Overgaard (2019) 指出了这一点往往被违反而需要 IPCW。因此 综述的简化叙述可能使读者低估伪值方法对删失假设的敏感度。本文虽然引用了 Overgaard, 但没有详细讨论“删失依赖协变量时偏差多大、需多少样本量来校正”。这是一个隐晦的窄结论：读者可能会误以为伪值方法在默认设定下就一致。

四、开放问题（点到为止）¶

pseudo-value 方法的半参数效率界尚未明确: 当前伪值回归的方差是否达到半参数下界？是否可以用 efficient influence function 构造严格有效的估计？——本文仅引用影响函数，未回答效率问题。扎根语句：Section 3.2 “Pseudo-values are based on the influence function of the Aalen–Johansen estimator; regression leads to consistent and asymptotically normal estimators” （但无效率界讨论）。
时依协变量与伪值方法的整合: 伪值方法目前主要针对固定时间点的状态概率。但多状态过程中协变量常随时间变化（如 biomarker 在每次就诊时更新），如何将伪值扩展到动态 landmark 设定？本文在 Section 3.4 “Time-dependent covariates are naturally handled in intensity models” 中承认，但未给伪值方案。
信息性删失与多状态过程的联合推断: 虽然 Lange et al. (2014) 给出了 Markov 下的联合模型，但在非 Markov 设定下（更符合实际）估计的鲁棒性与计算可行性未知。本文只有一句话引用此线。
机器学习方法的推断质量: 深度学习方法（如 DeepHit）在预测上表现好，但缺乏置信区间与假设检验框架。能否将 pseudo-value 思想与深度网络结合（如用网络代替 Aalen–Johansen 估计观测到的分布，再构造伪值）？本文仅提及“工具变量重要性” [129]，未深入探讨。

Maintained by 陈星宇 · Homepage · Source on GitHub