A scalable approach for continuous time Markov models with covariates¶

作者: Farhad Hatami, Alex Ocampo, Gordon Graham, Thomas E Nichols, Habib Ganjgahi
来源: Biostatistics
主题: 统计计算 / 算法
相关性: 6/10
机构绿灯: University of Oxford（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxad012

一、领域脉络与小综述¶

这个方向是什么：含协变量的连续时间马尔可夫模型（CTMM）的统计计算与可扩展估计。根本问题在于：当状态转移强度（transition intensity）依赖于个体协变量时，模型似然函数中每个观测的转移概率均需通过计算矩阵指数（matrix exponential, \(e^{Q}\)）获得。矩阵指数的计算复杂度随状态空间维数呈 \(O(S^3)\) 增长，且在优化过程中需反复对参数求导，导致传统数值方法（如 ODE 求解器或全矩阵对角化）在样本量 \(n\) 与状态数 \(S\) 增大时遭遇计算瓶颈。该方向当前处于"方法可用但计算受限"的成熟期，核心挑战是如何在保持似然函数统计性质的前提下，绕过或加速 \(n \times S^3\) 级别的矩阵指数与微分运算。

发展脉络（history）： - 奠基工作：Kalbfleisch & Prentice (1980) 与 Cox & Oakes (1984) 建立了连续时间马尔可夫模型在生存分析与多状态生命表中的似然框架，将转移强度参数化，但未触及大规模计算问题。 - 主要进展：Jackson (2011) 开发了 msm 包，采用 ODE 求解器（如 Runge-Kutta）计算矩阵指数，成为 R 语言中 CTMM 的标准工具；Titman (2011) 在 msm 框架内引入了矩阵指数的解析微分，但计算代价依然高昂。这些工作留下了"每步迭代需对每个样本计算矩阵指数及其梯度"的口子。 - 当前 frontier：大型队列数据（如 NO.MS 多发性硬化症数据集）的出现，使得 \(n\) 达到数万量级，传统全梯度方法（如 BFGS）因单次迭代需遍历全样本而不可行。近期，Ganjgahi et al. (2020) 尝试将随机梯度下降（SGD）引入 CTMM，但仅处理了无协变量的简单情形，且未解决矩阵指数微分的计算瓶颈。 - 本文的位置：本文在 Ganjgahi et al. (2020) 的 SGD 框架基础上，引入 Padé 逼近同时计算矩阵指数及其微分，将含协变量 CTMM 的优化推向大规模数据可行阶段。

子线索聚类： 1. 矩阵指数计算方法簇：包含纯数值 ODE 求解（Jackson 2011）、对角化法（Moler & Van Loan 1978 的经典综述 "Nineteen dubious ways"）、Padé 逼近（Al-Mohy & Higham 2009，提供了带微分的高效 Padé 算法）。这一簇在追求单次矩阵指数计算的数值稳定性与速度。 2. 大规模优化算法簇：包含传统确定性优化（Newton, BFGS，受限于 \(O(n)\) 每步成本）与随机优化（SGD 及其变体 Robbins & Monro 1951; Polyak & Juditsky 1992）。这一簇在追求利用数据子集降低每步迭代成本。 3. 标准误差与不确定性量化簇：包含 Fisher 信息矩阵的解析计算（Titman 2011）、基于 SGD 渐近理论的在线方差估计（Chen et al. 2020; Su & Zhu 2018），以及本文提出的基于 Padé/幂级数展开的数值微分法。

这个方向在追问的核心问题： 1. 如何避免对每个样本独立计算矩阵指数？ 当前瓶颈在于 \(Q_i = Q_0 + X_i \beta\) 导致每个样本的转移矩阵不同，无法共享一次矩阵指数计算。 2. 如何在 SGD 框架下对矩阵指数求导？ SGD 需要梯度，而矩阵指数对 \(Q\) 中元素的解析微分（\(\frac{\partial e^{Q}}{\partial Q_{jk}}\)）本身计算代价极高。 3. 如何在随机优化后准确量化不确定性？ SGD 的渐近方差依赖复杂的步长衰减条件，且 Fisher 信息矩阵的计算同样受制于矩阵指数微分。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为"现有 CTMM 方法因矩阵指数计算而不可扩展，SGD 是显然的下一步，但 SGD 需要梯度，而现有矩阵指数微分方法太慢"。这使得"Padé 逼近同时算矩阵指数与梯度"成为填补该缺口的自然选择。 - 被淡化或回避的路线：作者未讨论基于变分推断（VI）或 EM 算法的近似似然方法，也未讨论通过状态空间降维（如假设部分转移强度为零）来直接缩减 \(Q\) 矩阵维度的结构化假设路线。此外，对于矩阵指数计算，作者未提及近年来基于深度学习框架（如 PyTorch/JAX）的自动微分（Auto-diff）路线，这条路线虽然数值稳定性不如 Padé，但在 GPU 加速下可能具有竞争力。 - 明显该被引却未出现的：高维统计中处理大规模 M-estimation 的随机近似方法（如在线 Newton 步），以及数值线性代数中关于随机化矩阵近似（如 randomized SVD 用于低秩 \(Q\)）的文献。这些是研究者值得去查的方向。

张力：未见明显对立引用。各子线索在不同设定下互补：ODE 求解器在小 \(S\) 下稳定但慢；Padé 在中等 \(S\) 下快但可能遇数值溢出；SGD 降低每步成本但引入渐近方差估计的复杂性。本文试图融合 Padé 与 SGD，但未显式讨论两者在数值稳定性上的潜在冲突（如 SGD 步长较大时，Padé 的尺度-平移（scaling-and-squaring）可能放大舍入误差）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(S\)：状态空间维数（状态数为 \(S\)，状态集合为 \(\mathcal{S} = \{1, 2, \dots, S\}\)）。
\(Q\)：\(S \times S\) 转移强度矩阵（transition intensity matrix），\(Q_{jk} \ge 0\) (\(j \neq k\))，\(Q_{jj} = -\sum_{k \neq j} Q_{jk}\)。这是模型的核心参数矩阵。
\(\beta\)：协变量系数矩阵，\(S \times S \times p\) 维（\(p\) 为协变量维数），约束 \(\beta_{jjk} = -\sum_{l \neq j} \beta_{ljk}\) 以保证行和为零。
\(X_i\)：第 \(i\) 个个体的 \(p\) 维协变量向量（可观测）。
\(Q_i\)：个体特化的转移强度矩阵，\(Q_i = Q_0 + X_i \beta\)，其中 \(Q_0\) 是基线强度矩阵。\(Q_i\) 不可直接观测，是待估参数的函数。
\(t_i\)：第 \(i\) 个观测的观测时间间隔（可观测）。
\(Y_i\)：第 \(i\) 个观测的状态转移对 \((j, k)\)，即起始状态 \(j\) 与终止状态 \(k\)（可观测）。
\(P_i(t_i)\)：个体 \(i\) 的转移概率矩阵，\(P_i(t_i) = \exp(Q_i t_i)\)。这是似然函数的核心，不可观测，需通过矩阵指数计算。
\(n\)：样本量（观测总数）。
\(\theta\)：所有待估参数的向量，包含 \(Q_0\) 与 \(\beta\) 的自由元素，维度为 \(d = S(S-1) + p(S-1)\)（假设每个非对角元素受 \(p\) 个协变量影响）。

模型：数据生成机制为连续时间马尔可夫过程。个体 \(i\) 在时间 \(t_i\) 内从状态 \(j\) 转移到状态 \(k\) 的概率为 \([P_i(t_i)]_{jk} = [\exp(Q_i t_i)]_{jk}\)。观测数据为独立同分布的 \((Y_i, X_i, t_i)\)，似然函数为 \(L(\theta) = \prod_{i=1}^n [P_i(t_i)]_{Y_i}\)。

可观测数据：研究者实际能观测到的是状态转移记录 \(Y_i = (j, k)\)、协变量 \(X_i\) 与时间间隔 \(t_i\)。想要但观测不到的是转移概率矩阵 \(P_i(t_i)\) 及其底层的强度矩阵 \(Q_i\)，只能通过矩阵指数假设与参数化假设去识别。

第二步：最小内核——二状态（\(S=2\)）无协变量特例

剥掉协变量与高维状态空间，考虑 \(S=2\) 且无协变量（\(X_i = 0\)）的最简特例。此时 \(Q\) 只有 2 个自由参数：

\[Q = \begin{pmatrix} -q_{12} & q_{12} \\ q_{21} & -q_{21} \end{pmatrix}\]

转移概率矩阵 \(P(t) = e^{Qt}\) 可解析写出：

\[P(t) = \begin{pmatrix} \pi_2 + \pi_1 e^{-\lambda t} & \pi_1 - \pi_1 e^{-\lambda t} \\ \pi_1 - \pi_1 e^{-\lambda t} & \pi_2 + \pi_2 e^{-\lambda t} \end{pmatrix}\]

其中 \(\lambda = q_{12} + q_{21}\)，\(\pi_1 = q_{21}/\lambda\)，\(\pi_2 = q_{12}/\lambda\)。

核心数学困难在此特例下的退化：在这个特例下，矩阵指数有解析解，其微分 \(\frac{\partial P(t)}{\partial q_{12}}\) 也有解析式，因此不存在计算瓶颈。这揭示了本文问题的本质是维数灾难：当 \(S \ge 3\) 且引入协变量使得每个 \(Q_i\) 不同时，解析解不存在，必须依赖数值近似。

最小问题：给定 \(Q_i = Q_0 + X_i \beta\)，如何在不需要对每个 \(i\) 独立执行 \(O(S^3)\) 矩阵指数运算及其 \(O(S^4)\) 微分运算的前提下，获得 \(\nabla_\theta \log L(\theta)\) 的近似值以驱动 SGD？

本文的破题想法：利用 Padé 逼近的"尺度-平移"（scaling-and-squaring）算法计算 \(e^{Q_i t_i}\) 时，其微分可以通过同一算法的中间步骤（矩阵幂级数的微分）直接获得，从而将计算矩阵指数与计算其微分合并为一次 \(O(S^3)\) 操作，而非分开算两次。再结合 SGD，每次只抽取一个样本（或一小批）计算该合并梯度，将单步成本从 \(O(n S^3)\) 降至 \(O(S^3)\)。

三、这篇论文做了什么¶

三句话： ①研究了含协变量的 CTMM 在大规模数据下的计算瓶颈问题（矩阵指数及其梯度的 \(O(n S^3)\) 成本）； ②核心方法是结合 SGD 与 Padé 逼近的矩阵指数微分算法，将单步迭代成本降至 \(O(S^3)\)； ③主要结论是该方法在模拟与真实数据（NO.MS）上可行，并提供了基于 Padé/幂级数展开的两种标准误差计算方法。

关键设定与假设： - 设定：似然函数为 \(L(\theta) = \prod_{i=1}^n P(Y_i | X_i, t_i; \theta)\)，其中 \(P(Y_i | \dots) = [\exp(Q_i t_i)]_{jk}\)，\(Q_i = Q_0 + X_i \beta\)。 - 假设 1（马尔可夫性）：状态转移服从连续时间马尔可夫过程，无记忆性。 - 假设 2（参数化）：\(Q_i\) 对协变量的依赖为线性加法（\(Q_i = Q_0 + X_i \beta\)），这保证了 \(Q_i\) 的行和为零，但限制了交互效应的引入。 - 假设 3（观测独立性）：各观测 \((Y_i, X_i, t_i)\) 独立，这是 SGD 渐近理论的基础。 - 假设 4（步长衰减）：SGD 步长 \(\epsilon_m\) 满足 \(\sum \epsilon_m = \infty\), \(\sum \epsilon_m^2 < \infty\)（如 \(\epsilon_m = C m^{-\alpha}\), \(\alpha \in (0.5, 1]\)），这是 Robbins-Monro 条件，保证收敛。 - 放宽/强化：相比 Ganjgahi et al. (2020)，本文放宽了"无协变量"的限制，允许 \(Q_i\) 随 \(X_i\) 变化；相比 Jackson (2011) 的确定性优化，本文放弃了全梯度信息，换取计算速度。

主要结果： 1. 算法可行性（定理/命题层面）：作者证明了 Padé 逼近可以同时返回矩阵指数 \(e^{A}\) 及其关于参数的微分 \(\frac{\partial e^{A}}{\partial \theta}\)，且计算复杂度与单独计算 \(e^{A}\) 同阶（\(O(S^3)\)）。这依赖于 Al-Mohy & Higham (2009) 的算法，本文将其嵌入 SGD 框架。 2. 标准误差计算（方法结果）： - Padé 展开法：利用 Padé 逼近计算 Fisher 信息矩阵的数值微分，需对每个参数方向计算一次矩阵指数微分，总成本 \(O(d S^3)\)，但只需在最终估计点计算一次。 - 幂级数展开法：利用 \(e^{Q_i t_i} = I + Q_i t_i + \frac{(Q_i t_i)^2}{2} + \dots\)，对似然函数的二阶导数进行泰勒展开近似，适用于 \(Q_i t_i\) 范数较小的情况。 3. 模拟实验：在 \(S=3, 4, 5\) 的设定下，对比本文 SGD-Padé 方法与 msm 包的 BFGS 方法。结果显示，在 \(n=10^4\) 时，SGD-Padé 达到了与 BFGS 相近的参数估计偏差，但计算时间从数分钟降至数秒；标准误差的 Padé 估计与 Bootstrap 估计吻合。

证明路线与技术技巧： - 整体路线： 1. 将 CTMM 似然函数的梯度计算拆解为矩阵指数微分的计算。 2. 引入 Al-Mohy & Higham (2009) 的 Padé 尺度-平移算法，证明该算法在计算 \(e^A\) 的过程中，可通过同一链式法则路径返回 \(\frac{\partial e^A}{\partial \theta}\)，无需额外独立计算。 3. 将此合并梯度计算嵌入 SGD 迭代：\(\theta_{m+1} = \theta_m + \epsilon_m \nabla_\theta \log P(Y_{i_m} | X_{i_m}, t_{i_m}; \theta_m)\)。 4. 对于标准误差，利用 SGD 的渐近正态性（Polyak & Juditsky 1992 的平均 SGD 思想），在最终估计点 \(\hat{\theta}\) 处通过 Padé 或幂级数数值计算 Fisher 信息矩阵 \(I(\hat{\theta})\)，得到 \(\text{Var}(\hat{\theta}) \approx I(\hat{\theta})^{-1}\)。 - 关键跳跃点：如何避免对 \(d\) 个参数分别计算矩阵指数微分以获得完整梯度向量？作者利用了 \(Q_i\) 对 \(\theta\) 的线性依赖结构（\(Q_i = Q_0 + X_i \beta\)），使得 \(\frac{\partial Q_i}{\partial \theta_l}\) 是一个稀疏的常数矩阵（仅一个元素非零），从而在 Padé 算法的矩阵乘法链中，可以将所有 \(d\) 个方向的微分合并为一次矩阵运算（类似于自动微分的前向模式累积）。 - 技术技巧点名： - Padé 尺度-平移算法：计算 \(e^A\) 的标准数值算法，通过 \(e^A = (e^{A/2^s})^{2^s}\) 将大范数矩阵的指数转化为小范数矩阵的幂级数近似再反复平方。用于本文的核心计算加速。 - 前向模式自动微分思想：在 Padé 算法的递推中同步携带微分信息，用于合并矩阵指数与梯度的计算。 - Polyak-Ruppert 平均：SGD 估计的渐近方差依赖于步长序列的选取，通过对 SGD 轨迹取平均 \(\bar{\theta}_m = \frac{1}{m} \sum_{k=1}^m \theta_k\)，可以获得更优的渐近正态性，用于标准误差的理论支撑。

真实例子与应用： - 数据：NO.MS（Network of Optimal care in Multiple Sclerosis）数据集，包含 13,447 名患者的 58,898 次观测，状态空间 \(S=4\)（4 种疾病状态），协变量 \(p=2\)（年龄、性别）。 - 如何用上去：将疾病状态转移模型设定为 \(Q_i = Q_0 + \text{Age}_i \beta_1 + \text{Sex}_i \beta_2\)，使用 SGD-Padé 方法估计 \(Q_0\) 与 \(\beta\)。 - 结果：SGD-Padé 在 30 分钟内完成估计（包含标准误差），而 msm 的 BFGS 方法在相同硬件上预计需数天（因每次迭代需计算 58,898 次 \(4 \times 4\) 矩阵指数）。估计结果与临床先验一致（如年龄增大增加进展至更严重状态的概率）。 - 想说明什么：验证 SGD-Padé 在真实大规模数据上的可行性，展示其相对于传统确定性优化的绝对计算优势，而非统计推断优势（两者渐近等价）。

🔎 结论是否比证明窄：本文的核心理论声明是"SGD-Padé 可收敛至真实参数且标准误差可用 Padé/幂级数计算"，但文中并未给出严格的非渐近收敛率定理（如有限样本下的偏差与方差界），而是依赖 SGD 的经典渐近理论与模拟验证。作者在文中泛泛 claim 了方法的大规模可行性，但严格证明仅覆盖了渐近收敛性（步长衰减条件下的 Robbins-Monro 收敛），对 Padé 逼近的数值误差如何影响 SGD 的收敛轨道未做严格分析。这是一个"条件 X（渐近步长）下证明，却被泛泛 claim 为大规模可行"的典型情况。

四、开放问题（点到为止）¶

Padé 数值误差对 SGD 收敛的扰动：Padé 逼近引入截断误差与舍入误差（尤其在 scaling-and-squaring 的平方步骤中），这些系统性偏差如何影响 SGD 的固定点分布？需证：在 Padé 误差界 \(\delta\) 下，SGD 轨迹的偏差与方差如何偏离理想梯度轨道。扎根于本文对 Al-Mohy & Higham 算法的直接调用而未分析其误差对优化的反馈。
非线性协变量依赖的扩展：当前设定 \(Q_i = Q_0 + X_i \beta\) 为线性加法，若引入交互项或非线性项（如 \(Q_i = Q_0 + f(X_i; \beta)\)），合并梯度的前向模式自动微分是否仍能保持 \(O(S^3)\) 复杂度？扎根于本文假设 2 的线性参数化限制。
SGD 步长与矩阵指数范数的交互：当 \(Q_i t_i\) 范数较大时，Padé 算法的 scaling 步数 \(s\) 增加，计算成本上升；SGD 早期大步长可能导致 \(Q_i\) 估计值偏大，从而增加单步计算成本。如何设计步长序列以同时保证统计收敛与计算成本可控？扎根于本文模拟中固定步长衰减策略而未讨论其与 \(Q_i\) 范数的依赖。
与自动微分框架的计算对比：在 GPU 加速下，基于 PyTorch/JAX 的反向模式自动微分（Reverse-mode Auto-diff）计算矩阵指数梯度，是否在 \(n\) 与 \(S\) 的某个区间内优于 Padé-SGD？扎根于本文 intro 中未提及基于深度学习框架的自动微分路线。

Maintained by 陈星宇 · Homepage · Source on GitHub

A scalable approach for continuous time Markov models with covariates¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论