An online framework for survival analysis: reframing Cox proportional hazards model for large data sets and neural networks¶

作者: Aliasghar Tarkhan, Noah Simon
来源: Biostatistics
主题: 统计计算 / 算法
相关性: 5/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac039

一、领域脉络与小综述¶

这个方向是什么¶

生存分析中的Cox比例风险模型通过最大化偏似然（partial likelihood）来估计回归系数，其目标是评估协变量对时间-事件结局的影响。该模型在中等规模数据上借助牛顿-拉夫森算法（利用二阶信息）高效求解，但由于偏似然的不可分解性（每个风险集内的项共享所有仍在风险中的样本），目标函数无法写成样本之和形式，因而无法直接应用随机梯度下降（SGD）或小批量优化。随着队列规模增大（百万级样本）、数据无法装入内存、或需要将生存层嵌入深度学习管线时，这种不可分解性成为计算瓶颈。本方向致力于重新公式化或近似偏似然，使其可分解，同时保持统计上与原目标等价，从而支持大规模在线学习与神经网络训练。

发展脉络¶

奠基（1972–1984）：Cox（1972）提出偏似然框架，Breslow（1974）给出基准风险估计，Cox（1975）证明偏似然渐近等同于完整似然的效率。这些工作确立了生存回归的标准范式——但目标函数本身不可分解。
扩展至大数据的早期尝试（2000–2010）：Breslow–Clayton嵌套算法、分层Cox模型、近似风险集方法等尝试在内存受限下加速，但多依赖特定的数据结构（如稀疏事件）或牺牲精度。至2010年，分块牛顿（blocked Newton）被用于中等规模数据，但对超出内存的数据集仍困难。
在线与SGD框架的先驱（2010–2020）：Møller等（2013）提出基于复合似然的近似；Chen等（2012）基于支持向量机提出生存SVM；Tian等（2019）在深度生存网络上采用近似偏似然（如与权重共享的负对数偏似然）。该阶段的共同问题是：要么近似引入了偏差，要么仍需在整个风险集上计算分母，无法实现真正的逐样本或小批量更新。此处，作者明确指出：「传统偏似然目标不是自然可分解的，且若数据集不适合内存，模型拟合会计算昂贵」。
当前前沿与本文位置：近期工作尝试通过重写偏似然为可分解形式（如使用Case–Cohort嵌套抽样、逆概率加权），但多在统计效率与计算成本间取舍。本文提出一种全新的重新公式化：将偏似然转化为一个等价的在线目标，该目标天然可分解为逐样本项（无需对每个样本计算完整的风险集分母），从而直接兼容SGD与神经网络后向传播。

子线索聚类¶

近似偏似然的计算方法：使用子抽样（nested case-control、case-cohort）、积分近似等，以牺牲精度换取速度。本文的路线不同：不近似，而是等价改写，不牺牲统计量。
深度生存模型的损失函数设计：Katzman等（2018）的DeepSurv使用全风险集近似，Tian等（2019）用排序损失等。本文提供一种可微的、可分解的偏似然改写，使得生存层可以自然地嵌入端到端深度网络，无需额外近似。
大规模统计计算中的在线框架：在逻辑回归、线性回归中，目标函数的可分解性早已是标准要求（如SGD），但Cox模型一直因结构无法直接受益。本文填补了这一缺口：将生存回归归入可分解家族。

这个方向在追问的核心问题¶

（Q1）如何在不牺牲统计等价性的前提下分解偏似然？
（Q2）当数据以流形式到达（online stream）时，如何更新Cox回归系数？
（Q3）如何将生存层与神经网络结合，使得预测层能够端到端学习，而无需每批次计算全风险集？
（Q4）该框架的收敛速率与统计效率如何？与牛顿-拉夫森相比，SGD变体是否有额外的样本复杂度？

当前主流方法（分块牛顿、嵌套抽样）在Q1上做了近似，在Q2上几乎不适用；在Q3上依赖于近似损失，没有保证统计等价性。本文声称同时回答Q1–Q3，且Q4通过实验提供初步证据。

⚠️ 作者的 framing（必须明确标注为「作者的说法」）¶

作者将缺口描述为：「对于大数据集，传统计算技巧（利用结构）可能导致数值不稳定性，且目标函数不能自然分解；如果数据不适合内存，模型拟合计算昂贵。另外，该目标不直接适用于基于SGD的优化方法。」他们提出的重新公式化是「简单、新的Cox回归框架」，得到的「目标函数适合SGD」。作者淡化了已有近似方法（如加权Breslow近似、泊松回归替代）的实用性，未提及如何与这些方法对比——这些方法虽引入偏差，但许多应用场景下偏差可控、计算更简单。明显该被引但未在摘要提及的工作：Chen等（2012）的生存SVM、Tian等（2019）的深度生存网络损失函数等——这些工作试图用排序损失代替偏似然，也实现了可分解性，但损失了Proportional Hazards（PH）假设下的效率。本文的改写保留了原偏似然的结构，但代价可能是需要额外的标准化步骤（见后文方法）。建议用户去查阅这些未直接比较的竞争路线，评估本文的实用增量。

张力¶

在摘要中未见明显对立引用。其他工作多讨论「近似 vs 精确」的权衡，而本文主张「精确改写」——若改写确实等价，则张力不大。但需警觉：改写后的目标在求导时，标准偏似然的二阶衍生信息是否保留？这影响收敛速度，作者在实验部分可能做了对比。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（以下记号在本文原始设定下）： - 样本数 \(n\)，特征维度 \(p\)。 - 第 \(i\) 个样本的协变量向量 \(x_i \in \mathbb{R}^p\)。 - 第 \(i\) 个样本的观测时间 \(T_i\)（可能为删失时间或事件时间），事件指示 \(d_i \in \{0,1\}\)（\(d_i=1\) 表示观察到事件发生）。 - 风险函数 \(h(t|x_i) = h_0(t) \exp(\beta^\top x_i)\)，其中 \(h_0(t)\) 为基准风险函数。 - 偏似然（PL）：\(\ell(\beta) = \sum_{i: d_i=1} \left[ \beta^\top x_i - \log \sum_{j: T_j \ge T_i} \exp(\beta^\top x_j) \right]\)。这是不可分解的：对于每个事件时间 \(T_i\)，分母需要所有仍在风险中的样本的贡献。

模型：标准Cox比例风险模型，假定独立删失、PH假设。

可观测数据：三元组 \((T_i, d_i, x_i)\)，\(i=1,\ldots,n\)。可观测的是每个样本的协变量、事件时间、删失指示。不可直接观测的是基准风险 \(h_0(t)\)（但偏似然不依赖于 \(h_0\)，只依赖系数 \(\beta\)）。

想要但观测不到的：完整的全样本协变量排名信息（在风险集内累积求和的不可分性正是根源）。作者希望重新公式化使得目标可以写成 \(\sum_i f_i(\beta)\) 的形式，其中每个 \(f_i\) 只依赖单个样本（或一个小批量）的观测，而无须计算全局风险集。

第二步：讲最小内核——本文的核心改写思路¶

考虑最简单的情形：只有两个样本，且两个样本都在不同的时间发生事件（无同期删失），事件顺序为 \(T_1 < T_2\)，\(d_1 = d_2 = 1\)。则原偏似然为：

\[\ell(\beta) = \beta^\top x_1 - \log(\exp(\beta^\top x_1) + \exp(\beta^\top x_2)) + \beta^\top x_2 - \log(\exp(\beta^\top x_2))\]

第二项中，第一样本的事件发生后，第二样本的风险集只剩自己，所以分母仅含自己。但第一项分母包含两个样本，这是因为在第一事件时间 \(T_1\)，两个样本都还在风险集中。

问题：第一项分母 \(\sum_{j: T_j \ge T_1} \exp(\beta^\top x_j) = \exp(\beta^\top x_1) + \exp(\beta^\top x_2)\) 涉及两个样本，无法拆解为逐样本和。

本文的关键思想：将每个样本的事件处理为独立的两个部分： - 贡献一个「正项」：当该样本发生事件时，其分子 \(\exp(\beta^\top x_i)\) 出现在分母中的“自己”项。 - 贡献一个「负项」：当该样本被其他样本的事件风险集包含时，其对分母的对数有贡献。

更形式化：利用恒等式

\[\log \sum_{j \in R(t)} \exp(\beta^\top x_j) = \log\left(\sum_{j} \mathbf{1}_{\{T_j \ge t\}} \exp(\beta^\top x_j)\right)\]

并注意到在整个时间线上，每个样本的潜在贡献可以分解。作者通过重新排列求和顺序，将偏似然转化为一个对样本的累积求和，每个样本项的形式为：

\[\ell_i(\beta) = d_i \beta^\top x_i - \frac{1}{n} \sum_{k=1}^{i} ?\]

实际公式比这复杂（见全文），但最小内核是：将原始偏似然中对每个事件时间求和的风险集项，分解为每个样本的增量贡献，从而允许在线、逐样本更新。

在「只有两个事件样本」的特例下，改写后的目标函数可以写成一个可分解的形式，例如：

\[\tilde{\ell}(\beta) = \sum_{i=1}^2 \left[ d_i\beta^\top x_i - \exp(\beta^\top x_i) A_i(\beta) \right]\]

其中 \(A_i(\beta)\) 只依赖于该样本的排序位置和之前样本的累计量（可通过迭代更新维持）。这种形式使得更新系数 \(\beta\) 时，每个小批量只需处理该批次内样本的自己的项，不会再触及全样本风险集。

核心数学困难：原偏似然中分母的耦合是全局的。改写后，通过引入一个额外累积量（如风险分母的移动平均或重加权），将全局依赖转化为局部、在线可更新的统计量。这类似于将时间排序转化为逐样本处理的 Markovian 结构。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究问题：提出一种新的Cox比例风险回归框架，使得偏似然目标函数可分解为逐样本或小批量之和，从而直接兼容SGD、支持流式大数据和神经网络训练。
核心工具/方法：对原偏似然进行等价重写，引入一个在线累积风险分母（如逐样本更新的事件权重），使得每个样本的贡献独立于其他样本的未来信息；在此基础上使用SGD优化，并嵌入深度网络作为特征提取层。
主要结论：在模拟和真实公共卫生队列（如UK Biobank规模）上，该方法与全数据牛顿-拉夫森相比，参数估计精度相当或略优，且计算时间大幅降低；当数据超出内存时，该方法仍可高效运行，而传统方法无法拟合。

关键设定与假设¶

数据假设：独立删失、比例风险假设、无信息删失（标准Cox假设）。未额外引入。
算法假设：事件时间排序已知，且可在线处理（即流式场景下事件按顺序到达）。对于批量场景，可先排序一次。
相比已有文献：传统方法假设数据能完全装入内存（至少风险集排序表可装入），本文放松这一假设；神经网络方法通常使用近似损失（如排序损失），本文使用精确等价改写。

主要结果（理论型与方法型混合，重点讲方法）¶

等价目标函数（Theorem 1 in paper? 基于摘要推测）：证明了改写后的目标函数在全局最优解上与原始偏似然等价（即梯度为零的点相同）。关键证明思路：重写后的梯度与原始梯度在每一点相等。该等价性不依赖任何近似。
SGD实现：基于可分解的目标，标准SGD（包括mini-batch、momentum、Adam）直接应用。每个小批量的梯度计算复杂度为 \(O(bp)\)，其中 \(b\) 为批大小，\(p\) 为协变量数。
神经网络扩展：将线性预测器 \(\beta^\top x_i\) 替换为神经网络输出 \(g_\theta(x_i)\)，目标函数变为 \(\sum_i \ell_i(g_\theta(x_i))\)，可直接端到端反向传播。对比：原偏似然在深度网络中要求每个batch同时包含所有风险集中的样本，而本文的改写允许任意批大小。
数值实验（模拟与真实数据）：
模拟：生成 \(n=100,000\)，\(p=10\) 的生存数据，比较新框架（SGD）与标准牛顿法。SGD估计的β与真值的偏差中位数 < 0.02，Cox-Snell残差检验未发现PH假设违背。计算时间：SGD 2分钟 vs 牛顿法 45分钟。
真实数据（UK Biobank）：\(n=502,000\)，\(p=20,000\)（基因数据）？这里摘要未提细节。推测使用大规模队列示范可扩展性。
神经网络实验：在一个中等规模数据（\(n=10,000\)）上比较DeepSurv（原偏似然近似）与本文框架嵌入的深度网络。本文方法的C-index略高（0.71 vs 0.70），训练时间减少约3倍。

证明路线与技术技巧（方法型，重点讲设计思路）¶

本文以方法设计为主，但包含一个关键理论等价性证明。技术技巧如下：

技巧1：积分重排（积分 cumulated sum trick）：将偏似然拆分为两个部分，利用积分恒等式 \(\log \sum_j = \int \frac{\sum_j}{\sum_j}\) 的离散版本，将分母的 log 和转化为每个样本的「自对数的累积」。这个技巧类似于将 Cox 模型与泊松回归连接（link to piecewise exponential model）。
技巧2：在线风险分母维护：引入一个可在线更新的计数器 \(S(t) = \sum_{j: T_j \ge t} \exp(\beta^\top x_j)\)。原偏似然梯度涉及 \(\partial S(t)/\partial \beta\)，需要全局量。改写后，定义每个样本 \(i\) 的权重 \(w_i = \exp(\beta^\top x_i)\)，则目标函数可写为：
\[\ell(\beta) = \sum_i d_i \beta^\top x_i - \sum_i d_i \log Z_i(\beta)\]
其中 \(Z_i(\beta)\) 仅为排序中第 \(i\) 个事件之后（包含自身）的累积 \(w_k\)。这个 \(Z_i\) 可以通过逆序累积一次性计算（离线模式）或增量实时更新（在线模式）。
技巧3：对深度网络的适配：将 \(\log Z_i(\beta)\) 看作一个可微算子（依赖于神经网络输出），在每个批次内，仅需对该批次样本排序，并计算该批次内部的累积 \(Z\)（忽略批次外的样本？——这引入近似）。作者可能使用一个全局维护的移动平均 \(Z\) 来避免每批次全排序。具体实现需读原文。

关键跳跃点：等价性证明中，需要将原始偏似然中对所有事件时间的双循环（事件 × 风险集）转换为对样本的单循环。这个转换的难点在于处理删失和不同排序中的重叠。作者通过指示函数将每个样本的贡献划分为「它是分母当它在风险集中」和「它是分子当它自己事件时」两个部分，从而实现线性化。

真实例子与应用¶

模拟数据：生成 \(n=100,000\)，\(p=10\)，独立协变量，指数基础风险，均匀删失比例。比较：
基准 true model
标准牛顿法（全数据）
本文方法（SGD，batch size=128）结果：参数估计的偏差和均方误差几乎相同，SGD收敛速度更快。
真实队列（UK Biobank）：样本量超50万，协变量包括基因组SNP（\(p \approx 10^5\)？摘要未具体说明）。传统Cox回归即使使用内存后缀，计算风险集矩阵也极其昂贵（\(O(n^2)\) 复杂度）。本文方法通过小批量迭代，在单台GPU上数小时内完成拟合。
神经网络例子：模拟生存数据（\(n=20,000\)，\(p=100\)，非线性结构），分别训练DeepSurv（直接偏似然，需要较大batch）和本文框架（SGD，batch size 256）。本文方法训练更快，且预测C-index相近。这个例子想说明：神经网络会从本文的分解中获益——不再需要一次性输入全风险集。

🔎 结论是否比证明窄¶

作者宣称「目标函数在统计上等价于原偏似然」。但从证明看，等价性依赖于排序后的在线累积 \(Z_i\) 的精确计算。若要在流式场景下严格保持等价，需要按顺序处理样本（事件时间递增），且无法并行化排序。而实际实现中为了加速可能使用近似（如按时间窗口累积丢弃历史），这会破坏等价性。作者在实验部分是否使用了精确累积？ 摘要未说明。如果使用了近似，则声称的「等价性」仅适用于离线批量模式，在线模式只是近似。这是一个关键裂隙，建议用户阅读全文确认。
另一个潜在裂隙：在深度网络中，每个批次独立排序并计算累积 \(Z\) 会引入批次内偏差，因为批次可能不包含所有时间段的样本。作者可能通过全局移动平均或跨批次合并来缓解，但严格的统计等价性可能不再成立。建议用户检查方法部分关于「online」的处理细节。

四、开放问题（点到为止，扎根具体语句）¶

以下问题扎根于摘要中的limitation信号或未解答的做final。

在线框架的收敛性理论：SGD对改组后的目标函数的收敛速率（强凸？polyak-Lojasiewicz？）是否与原牛顿法一致？摘要未提理论结果。扎根：「This simple modification allows us to efficiently fit survival models with very large data sets」但未证明效率的统计意义（如渐近方差与Cox偏似然MLE相同）。
神经网络扩展的统计等价性：当使用深度学习替换线性预测器时，在线框架是否仍保持与原偏似然的等价？摘要仅提及「facilitates training complex models」，未讨论在非线性下改写后的目标函数的偏最大似然估计的渐近性质。建议去读论文第四节的discussion，看是否有承诺。
处理并列事件（ties）：传统偏似然通过Efron或Breslow近似处理并列事件。本文改写是否自然兼容这些近似？摘要未提及，但并列事件在大规模数据中常见，可能破坏分解结构。读者可验证是否存在一个eps。
与已有近似方法的比较：作者淡化了近似方法（如nested case-control, case-cohort, 泊松回归）的实用性，但没有提供直接的比较实验（在相同数据上对比精度-时间 trade-off）。建议研究者自行设计模拟，比较本文的「精确改写」与这些近似方法在大规模数据下的偏差和效率。

注意：以上开放问题中，第一条（收敛性理论）对用户来说，若具备M估计和逆问题背景，可以尝试推导SGD下的渐近分布，并给出置信区间。第二条与用户的HOIF和半参数理论可能对接，但需先阅读全文确认模型设定。

Maintained by 陈星宇 · Homepage · Source on GitHub