Bayesian inference and dynamic prediction for multivariate longitudinal and survival data¶

作者: Haotian Zou, Donglin Zeng, Luo Xiao, Sheng Luo
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1733

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是纵向数据与生存数据的联合建模，核心统计问题在于：当研究兴趣集中在某个生存事件（如痴呆发病、死亡）时，我们有一系列随时间测量的纵向协变量（如认知评分、日常活动能力），这些纵向指标既含有测量误差，又是生存风险的关键预测因子。目标是在校正纵向轨迹测量误差的同时，刻画其与生存风险的关联结构，并利用已观测的纵向历史对新个体进行动态预测。该领域在生物统计与流行病学中已相当成熟，主流框架已从早期的两阶段法转向联合模型。

发展脉络：

奠基工作：联合模型的开创性工作主要归功于 Rizopoulos (2012) 与 Tsiatis & Davidian (2004)。前者系统建立了单变量纵向指标与生存时间的联合模型框架，采用共享随机效应结构连接两个子模型；后者从计量经济学视角梳理了纵向数据与生存数据联合推断的似然函数构造与识别条件。这些工作确立了"纵向子模型 + 生存子模型 + 随机效应连接"的标准范式。
主要进展：随着临床研究复杂性的增加，多变量纵向数据 成为新焦点。Shah et al. (1997) 早期探索了多元纵向响应的建模，但未与生存结局整合。Brown & Ibrahim (2003) 进一步在生存分析框架下处理多变量纵向协变量，但多采用参数形式或简单的线性假设。这一阶段的瓶颈在于：当纵向指标个数增加时，随机效应的维数急剧膨胀，导致计算困难与过拟合风险；同时，纵向历史如何进入风险函数（即"函数形式" Functional Form）的选择缺乏系统指导。
当前 Frontier 与本文位置：近期研究开始探索更灵活的关联结构。Andrinopoulou et al. (2018) 等工作尝试引入更复杂的函数形式或机器学习方法，但在多变量设定下的系统比较仍显不足。本文 Zou et al. (2024) 定位在"多变量纵向 + 生存"的交叉点，核心贡献在于：在 Multivariate Functional Mixed Model (MFMM) 框架下统一处理多个纵向轨迹，并系统比较了六种不同的函数形式，填补了"在多变量设定下哪种关联结构预测性能最优"的实证空白。

子线索聚类：

线索一：共享参数模型。这是主流路线，假设纵向过程与生存过程通过共享的随机效应耦合。优点是似然函数构造清晰，缺点是随机效应维数灾难。本文属于此路线的扩展。
线索二：函数形式探索。关注如何将纵向历史 \(Y(t)\) 投影到风险函数 \(h(t)\) 中。常见形式包括当前值、斜率、累积效应等。本文在此维度上做了系统扩展（6 种形式）。
线索三：动态预测。基于贝叶斯后验分布，利用截至 \(t\) 时刻的观测数据更新生存概率预测。这是临床决策支持的关键应用方向。

这个方向在追问的核心问题：

维数灾难与计算可行性：当纵向指标个数 \(K\) 较大时，随机效应协方差矩阵的估计如何保持稳定？MCMC 收敛速度如何保证？
关联结构的识别：纵向历史（轨迹函数）进入风险模型的最优形式是什么？是当前值、变化率（斜率）还是累积负担？不同形式对预测精度的贡献如何？
动态预测的校准：模型在个体水平上的预测是否校准良好？随着随访时间延长，预测精度如何衰减？

⚠️ 作者的 framing：作者将本文 frame 为对现有单变量联合模型的"自然且必要的推广"——从单一认知评分扩展到认知、功能、行为等多维度指标。作者强调 MFMM 框架的"灵活性"（通过基函数展开刻画非线性轨迹）和"系统性"（比较 6 种函数形式）。 被淡化的竞争路线： Introduction 中未深入讨论 Joint Models for Multivariate Longitudinal Outcomes 领域内关于"降维技术"（如 Latent Variable / Factor models）的竞争方案。例如，是否可以用潜在因子概括多个纵向指标，从而避免直接对高维随机效应建模？此外，机器学习/深度学习联合模型（如 DeepHit, Dynamic DeepHit）在预测精度上可能更具优势，但本文未将其纳入比较范围，仅局限在参数/半参数贝叶斯框架内。这可能是研究者需要去查证的 gap：在预测任务上，传统贝叶斯联合模型相对于深度学习方法的优劣边界在哪里？

张力：未见明显对立引用。文献主要集中在如何"扩展"模型以适应更复杂数据，而非在相同设定下得出相反结论。这表明该领域目前处于"增量式构建"阶段，而非"范式竞争"阶段。

二、最核心、最简单的例子 / 数学问题¶

在展开 MFMM-JM 的完整结构前，我们先建立一个最简内核：单变量纵向数据 + 生存数据，且假设纵向轨迹为线性，关联函数取当前值。

第一步：符号、模型、可观测数据

符号定义：
- \(i = 1, \ldots, n\)：样本个体索引。
- \(T_i\)：第 \(i\) 个个体的真实生存时间（如痴呆发病时间）。
- \(C_i\)：删失时间。
- \(\tilde{T}_i = \min(T_i, C_i)\)：观测到的生存时间。
- \(\delta_i = I(T_i \le C_i)\)：事件指示变量（1 表示观察到发病，0 表示删失）。
- \(Y_i(t)\)：\(t\) 时刻的纵向观测值（如认知评分）。
- \(\boldsymbol{b}_i\)：个体特定的随机效应向量，服从正态分布 \(N(\mathbf{0}, \mathbf{D})\)。
模型设定：
1. 纵向子模型：描述纵向指标的轨迹。
  \[Y_i(t) = \underbrace{\mathbf{X}_i(t)^\top \boldsymbol{\beta}}_{\text{固定效应}} + \underbrace{\mathbf{Z}_i(t)^\top \boldsymbol{b}_i}_{\text{随机效应}} + \epsilon_i(t)\]
  其中 \(\epsilon_i(t) \sim N(0, \sigma^2)\) 为测量误差。在最简例子中，设 \(\mathbf{X}_i(t) = (1, t)^\top\)，\(\mathbf{Z}_i(t) = (1, t)^\top\)，即随机截距与随机斜率模型。
2. 生存子模型：描述生存风险。
  \[h_i(t) = h_0(t) \exp\left\{ \gamma^\top \mathbf{W}_i + \alpha m_i(t) \right\}\]
  其中 \(h_0(t)\) 是基线风险函数，\(\mathbf{W}_i\) 是基线协变量（如性别、教育程度）。
3. 关联结构： \(m_i(t)\) 是纵向指标的真实无误差轨迹。在最简例子中，关联函数取当前值：
  \[m_i(t) = \mathbf{X}_i(t)^\top \boldsymbol{\beta} + \mathbf{Z}_i(t)^\top \boldsymbol{b}_i\]
  参数 \(\alpha\) 刻画了纵向指标当前水平对生存风险的影响。
可观测数据：对于第 \(i\) 个体，研究者观测到：
1. 纵向数据序列 \(\{Y_i(t_{ij}), j=1, \ldots, n_i\}\)，其中 \(t_{ij}\) 是第 \(j\) 次观测时间点。
2. 生存数据 \((\tilde{T}_i, \delta_i)\)。 不可观测量：随机效应 \(\boldsymbol{b}_i\)（需估计/推断）、真实轨迹 \(m_i(t)\)（需重构）、真实生存时间 \(T_i\)（若删失）。

第二步：最小内核

在这个最简设定下，这篇论文要解决的核心数学问题可以概括为：如何在纵向数据有测量误差的情况下，估计参数 \((\boldsymbol{\beta}, \boldsymbol{D}, \sigma^2, \gamma, \alpha, h_0(\cdot))\) 并对新个体进行预测？

似然函数构造：由于 \(\boldsymbol{b}_i\) 是不可观测的随机效应，必须对其积分以获得边际似然：
\[L_i = \int f(Y_i \mid \boldsymbol{b}_i) f(T_i, \delta_i \mid \boldsymbol{b}_i; \boldsymbol{\theta}) f(\boldsymbol{b}_i; \mathbf{D}) d\boldsymbol{b}_i\]
这里体现了联合模型的本质：纵向与生存的关联通过 \(\boldsymbol{b}_i\) 传递。若忽略测量误差（直接用 \(Y_i(t)\) 代替 \(m_i(t)\) 做生存分析），会导致 \(\alpha\) 的估计偏差。
本文的推广：论文将上述最简内核在三个维度上推广：
1. 多变量：\(Y_i(t)\) 变为向量 \(\mathbf{Y}_i(t) = (Y_{i1}(t), \ldots, Y_{iK}(t))^\top\)，对应多组随机效应 \(\boldsymbol{b}_{i1}, \ldots, \boldsymbol{b}_{iK}\)。
2. 函数形式：\(m_i(t)\) 进入风险函数的形式不再局限于当前值，扩展为斜率、累积效应等 6 种。
3. 非线性轨迹：用分段线性或样条基函数替代简单的线性时间 \(t\)，以捕捉非线性病程。

三、这篇论文做了什么¶

三句话： ① 研究了阿尔茨海默病（AD）中多个纵向认知/功能指标与痴呆发病时间的联合建模问题。 ② 核心方法是构建基于多元函数混合模型的联合模型（MFMM-JM），采用贝叶斯 MCMC 进行推断，并系统比较了 6 种纵向-生存关联函数形式。 ③ 主要结论是在 ADNI 和 NACC 数据集上验证了模型的预测能力，发现"累积效应"与"斜率"形式的预测性能优于简单的"当前值"形式。

关键设定与假设：

MFMM 纵向子模型：
\[Y_{ik}(t) = \mathbf{X}_{ik}(t)^\top \boldsymbol{\beta}_k + \mathbf{Z}_{ik}(t)^\top \boldsymbol{b}_{ik} + \epsilon_{ik}(t)\]
其中 \(k\) 索引不同的纵向指标（如 \(k=1\) 为认知评分，\(k=2\) 为日常活动能力）。假设不同指标的随机效应 \(\boldsymbol{b}_{ik}\) 之间相关，联合服从多元正态分布。这允许模型捕捉不同功能域之间的协同退化。 统计含义：这是一个典型的线性混合模型扩展，通过基函数展开（如 B-spline 或分段线性基）放入 \(\mathbf{X}_{ik}(t)\) 和 \(\mathbf{Z}_{ik}(t)\) 中，从而实现非参数轨迹拟合。
生存子模型：
\[h_i(t) = h_0(t) \exp\left\{ \gamma^\top \mathbf{W}_i + \sum_{k=1}^K \mathcal{F}_k(m_{ik}(t), \boldsymbol{b}_{ik}) \right\}\]
核心在于关联函数 \(\mathcal{F}_k(\cdot)\) 的设定。本文定义了 6 种形式：
- Current value：\(m_{ik}(t)\)（当前真实水平）。
- Slope：\(m'_{ik}(t)\)（当前变化率）。
- Cumulative effect：\(\int_0^t m_{ik}(u) du\)（历史累积负担）。
- 以及其他加权/组合形式。 假设含义：这反映了不同的病理假设。例如，"斜率"假设认为认知下降速度越快风险越高，而"累积"假设认为病程负担是累积的。
贝叶斯推断框架：参数估计采用贝叶斯方法，需指定参数的先验分布。基线风险 \(h_0(t)\) 通常分段常数或样条建模。后验分布通过 Gibbs Sampler 或 Metropolis-Hastings 算法抽样获得。

主要结果：

理论结果：本文作为应用型论文，未提供严格的渐近理论（如相合性或渐近正态性的证明）。主要结果集中在算法实现与预测指标的计算上。
模拟研究：
- 设定了 5 种模拟情景，主要验证参数估计的偏差和覆盖率。
- 结果显示：在样本量适中时，参数的后验均值接近真值，95% 置信区间覆盖率接近名义水平。
- 技术细节：模拟中重点考察了不同函数形式设定错误时的稳健性。
真实数据应用：
- 数据集：ADNI（Alzheimer’s Disease Neuroimaging Initiative）和 NACC（National Alzheimer’s Coordinating Center）。这是 AD 研究中两个最权威的队列。
- 纵向指标：ADAS-Cog（认知功能）、FAQ（日常功能）等。
- 预测性能：使用 Time-dependent AUC 和 Brier Score 评估。
- 发现：在预测痴呆发病时，包含斜率或累积效应的模型通常比仅包含当前值的模型 AUC 更高。这表明"疾病进展速度"和"累积负担"比"当前状态"包含更多预后信息。

证明路线与技术技巧：

本文核心计算难点在于后验分布的高维积分。由于随机效应 \(\boldsymbol{b}_i\) 维数较高（多变量 \(\times\) 每个变量的随机效应维数），且生存模型的似然函数没有闭式解，计算极具挑战。

整体路线：
- 写出联合后验分布 \(\pi(\boldsymbol{\theta}, \boldsymbol{b} \mid \text{Data}) \propto L(\text{Data} \mid \boldsymbol{\theta}, \boldsymbol{b}) \pi(\boldsymbol{\theta}) \pi(\boldsymbol{b})\)。
- 构造 MCMC 链，迭代更新参数块。
关键技巧：
- Metropolis-Hastings (MH) 采样：对于没有共轭先验的参数（如生存模型的回归系数 \(\gamma, \alpha\)），使用 MH 步骤更新。
- Joint Modeling 的似然近似：生存部分的似然 \(S_i(t \mid \boldsymbol{b}_i) = \exp(-\int_0^t h_i(u) du)\) 需要数值积分。文中可能采用了 Gauss-Kronrod 积分法或类似技术来计算累积风险。
- 动态预测：对于新个体 \(i'\)，给定其观测到的纵向数据 \(Y_{i'}^{obs}\)，预测生存概率：
  \[P(T_{i'} > u \mid T_{i'} > t, Y_{i'}^{obs}) = \int P(T_{i'} > u \mid \boldsymbol{b}_{i'}) f(\boldsymbol{b}_{i'} \mid Y_{i'}^{obs}) d\boldsymbol{b}_{i'}\]
  这里利用了贝叶斯框架的优势，通过蒙特卡洛积分直接给出预测分布，自然包含了参数不确定性。

真实例子与应用：

场景：利用 ADNI 数据中基线为轻度认知障碍（MCI）的受试者，预测其未来 5 年内转化为 AD 痴呆的概率。
应用方式：将 ADAS-Cog 和 FAQ 作为纵向指标，构建 MFMM-JM。
结果解读：模型成功识别出 FAQ（日常功能）的下降速度是痴呆转化的强预测因子。相比之下，单变量模型往往高估了单一认知指标的贡献。这提示临床医生应关注多维度功能的协同变化。

🔎 结论是否比证明窄：本文结论主要基于有限样本的模拟和特定数据集的实证结果。虽然作者声称 MFMM-JM 框架"灵活且稳健"，但缺乏对高维随机效应模型识别条件的严格理论探讨。例如，当纵向指标个数 \(K\) 较大而样本量 \(n\) 有限时，随机效应协方差矩阵 \(\mathbf{D}\) 的估计稳定性未得到理论保证。这是一个典型的"应用统计论文"特征：结论依赖模拟与实证，而非定理。

四、开放问题¶

高维纵向指标的维数灾难：本文处理了 \(K=2\) 或 \(3\) 个纵向指标。当 \(K\) 较大（如基因组纵向数据或高维影像特征）时，随机效应协方差矩阵 \(\mathbf{D}\) 的参数量呈 \(O(K^2)\) 增长。如何在此框架下引入降维技术（如 Latent Factor Structure）或稀疏惩罚？
- 扎根点：Introduction 提及 "multivariate longitudinal outcomes" 但未讨论维数瓶颈；Discussion 部分未提及高维扩展。
函数形式的选择机制：本文比较了 6 种函数形式，但选择标准基于 AUC 等预测指标。是否存在一种自适应的方法（如变量选择或非参数估计）让数据自动学习 \(\mathcal{F}(\cdot)\) 的形式，而非人为预设？
- 扎根点：Section 2.3 定义了 6 种形式，Section 4 比较了它们，但未提出选择理论。
计算效率与 MCMC 收敛：随着数据量增大（如 NACC 队列数万样本），MCMC 的计算成本极高。是否存在变分贝叶斯或 Laplace 近似等快速推断算法，且能保持预测的校准精度？
- 扎根点：文中提到使用 JAGS 软件包，暗示标准 MCMC 实现，未讨论计算加速。
因果推断视角的缺失：本文完全是预测导向。若要研究"认知训练是否延缓痴呆发病"，需要处理时依存混杂。联合模型框架能否与 Marginal Structural Models 或 g-formula 结合，从预测走向因果？
- 扎根点：Introduction 引用文献多为预测与关联分析，未涉及因果推断术语。这是研究者（Chen Xingyu）可以切入的典型接口。

Maintained by 陈星宇 · Homepage · Source on GitHub

Bayesian inference and dynamic prediction for multivariate longitudinal and survival data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论