Large-scale survival analysis with a cure fraction¶

作者: Bo Han, Xiaoguang Wang, Liuquan Sun
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujae138

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是带治愈分数的大规模生存数据的半参数回归问题。其核心特征是，目标人群由两部分组成：一部分是“长期存活者”或“已治愈者”（susceptible = 0，永远不会经历事件），另一部分是“易感者”（susceptible = 1，最终会经历事件）。研究者关心的是：哪些协变量影响“治愈与否”（incidence），哪些协变量影响“未治愈者的事件发生时间”（latency）。由于实际数据中无法直接观测到每个个体是否属于“已治愈”组，这是一个典型的缺失数据 / 潜在类别问题，且在大规模数据场景下面临计算与内存瓶颈。

发展脉络（history）¶

奠基工作（非参数与参数设定）：

Boag (1949) & Berkson & Gage (1952)：首次提出治愈分数模型，用于癌症生存分析，标志性地认识到部分患者可能“被治愈”。这些早期工作只用了参数分布（如对数正态、指数）来建模 latency 部分。

现存模型（标准参考）：

Farewell (1982)：提出混合治愈模型（mixture cure model）的标准形式：将一个逻辑回归模型（用于 incidence）与一个参数生存模型（用于 latency）混合。这是后续所有工作的共同起点。

半参数化（主要进展）：

Peng & Dear (2000) 与 Sy & Taylor (2000)：两篇同期论文同时提出将 Cox 比例风险模型用于 latency 部分，从而将整个模型变成“参数或半参数 incidence + 半参数 latency”的混合。这是目前最主流的设定。本文的 latency 部分就引用此作为起点。

当前 frontier（本文的对比对象）：

当前的大规模生存分析文献主要集中于不含治愈分数的 Cox 模型，例如 Chen et al. (2002)、Tong et al. (2013) 的在线 / 分块更新方法。本文宣称：这些方法不能直接用于带治愈分数的情形，因为治愈与否无法观测，导致权重无法直接赋值。
在带治愈分数的情形下，Lu & Ying (2004)、Ma (2009)、Fang et al. (2015) 提出的方法面对大规模数据时在计算（O(n³) 或 O(n²)）或内存上不可行。

本文的位置：

本文声称自己是第一个针对带治愈分数的大规模生存数据，提出可扩展到在线 / 分块数据的估计与推断方法。它的核心创新是：用非参数核密度估计来估计每个个体的“易感概率”（susceptible probability，即该个体属于未治愈组的概率），以此作为权重，再对该权重做递归分块更新。

子线索聚类¶

从本文 intro 中引用的文献看，可以分出 2 条子线索：

带治愈分数的模型的估计方法（目标：解决从参数到半参数、从小规模到大规模的问题）：
Farewell (1982)、Peng & Dear (2000)、Sy & Taylor (2000)、Lu & Ying (2004)、Ma (2009)、Fang et al. (2015)：它们关注模型指定、估计方程、渐近理论，但应对大规模数据时计算成本过高。
本文属于这一条：提出分块递归方法降低计算成本。
大规模 / 在线生存数据分析（目标：无治愈分数情形下的计算效率）：
Chen et al. (2002)、Tong et al. (2013)：针对 Cox 模型的在线 / 分块更新方法。
本文的“分块递归”思路直接受此启发，但需要额外处理治愈分数导致的不可观测权重。

这个方向在追问的核心问题¶

如何为每个个体赋予“易感概率”？——这是一个缺失数据问题，需要用观测到的事件时间 / 删失信息 + 协变量来估计。本文的回答：用核密度估计从删失生存数据中非参数地估计。
在治愈分数存在下，如何处理 Cox 模型的对数偏似然函数？——本文的回答：构造加权估计方程，其中权重的非参数估计保证了稳定计算。
如何将估计扩展到大规模（分块或在线）场景？——本文的回答：递归更新权重与回归参数，每次只更新一个小块的数据，从而保持 O(n) 计算和 O(1) 内存（不把所有数据一次性加载）。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者在 intro 中把缺口 frame 成：

“现有方法（Lu & Ying 2004、Ma 2009、Fang et al. 2015）假设数据可以全部加载到内存，计算 O(n²) 或 O(n³)，不适合大规模数据；而专门针对大规模 Cox 模型的在线更新方法（Chen et al. 2002、Tong et al. 2013）没有考虑治愈分数。”

因此，本文就成了“显然的下一步”：把大规模 Cox 的在线更新思路搬到带治愈分数的混合模型上。

被作者淡化或回避的竞争路线：

作者没有讨论任何基于 EM 算法的大规模近似方法（如 stochastic EM、mini-batch EM）。传统上，混合治愈模型常用 EM 解决（因为治愈状态是缺失数据），但 EM 需要反复扫描全部数据——作者未交代为何不用 mini-batch EM 或 SVI 来近似。

什么明显该被引 / 该存在、却没出现在 intro 中？

分布外推广 / 转移学习：作者只讨论了单一同质人群的大规模数据。没有引用任何有关“heterogeneous cure models”或“distribution shift with mixture components”的文献。问题的缺失暗示本文的框架严格假设训练与测试数据同分布。
局部推理 / 非参数 bootstrap：作者只提 asymptotic normality，没有提过任何 bootstrap 或置换检验方法在治愈分数模型大规模场景下的适用性。

张力¶

未见明显对立引用。所有引用的工作似乎在方法层面一致地推进（Farewell → Peng & Dear → Lu & Ying → 本文），没有在略不同的条件下互相矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号表（逐个点名，不带歧义）：

B: 治愈状态指示符（潜在）。B=1 表示个体属于“易感者”（最终会经历事件），B=0 表示“已治愈”（永远不会经历事件）。不可直接观测。
T: 当 B=1 时的事件时间（潜在）。当 B=0 时，T=∞（或不存在）。不可直接观测。
C: 删失时间（随机变量的一个实现）。假设与 (B, T) 独立，仅依赖于协变量。可观测但不完全。
Y = min(T, C): 观测到的生存时间（删失后的时间）。可观测的响应变量。
Δ = I(T ≤ C): 事件发生指示符（1 = 事件发生，0 = 删失）。可观测。
Z: 协变量向量（维度 p，用于 latency 部分，即 Cox 模型中的协变量）。可观测。
X: 协变量向量（维度 q，用于 incidence 部分）。通常 X 与 Z 可以部分或完全重叠或不重叠。可观测。
β: 回归参数向量（p 维），对应 latency 部分的 Cox 模型的风险率系数。待估。
h(t|Z): 给定 Z 时的风险函数。
h₀(t): Cox 模型中的基线风险函数（非参数，形状未知，不估计）。
p(X) = Pr(B=1|X): 治愈概率（incidence 部分的函数，被参数化为 logistic 形式，但本文允许非参数，称为“model-free”）。待估。
θ: implies incidence 部分的参数（若用 logistic 模型）或非参数函数。本文对 incidence 部分不做参数假设，允许 p(X) 为任意函数。
π(t, Z) = Pr(B=1|Y>t, Δ=0, Z): 给定删失个体在时间 t 还存活着、且 B 不可观测的条件下，判定其为易感者的概率。这是加权估计中的关键权重，需要从数据中估计。
π̂(t, Z): π(t, Z) 的非参数核估计量。
n: 样本量。
K: 分块数量（用于大规模场景）。
m_j: 第 j 个块的数据量（符合 n = Σ_j m_j）。

模型：

这是一种两阶段模型（mixture cure model）：

Incidence 部分： B|X ~ Bernoulli(p(X))。p(X) 可以是任意函数（model-free）。意味着，给定 X，治愈的概率由该函数决定。作者没有指定具体形式——这是他们声称的“灵活性”来源。
Latency 部分：给定 B=1（即个体属于易感者），事件时间 T 服从一个 Cox 比例风险模型： h(t|Z) = h₀(t) * exp(β' Z)。当 B=0 时，事件永远不会发生。这意味着，观测到的数据来自于两个潜在分布下的混合。

可观测数据：

研究者实际能观测到的是： (Y_i, Δ_i, X_i, Z_i)，i = 1,…,n。其中： - Y_i：删失后的生存时间。 - Δ_i：事件发生指示（1 = 事件发生；0 = 删失）。 - X_i, Z_i：协变量。

不可观测 / 潜在的量： - B_i：每个个体的治愈状态。 - T_i：事件时间（当 B=1 时）。

关键识别原理：如果能够观测到 B_i，则 latency 部分的 Cox 模型可以通常的办法直接拟合（在 B=1 的亚组）。但由于 B_i 不可观测，必须用观测数据推断。本文策略是：通过观测到 (Y_i, Δ_i) 的信息来估计 π(t, Z)，再用该权重加权。

第二步：讲最小内核¶

最简特例：假设只有两个协变量（一个 X 用于 incidence，一个 Z 用于 latency），且 X 和 Z 都只取两个类别（0/1）。进一步假设 p(X) 是已知的（即已知治愈概率，例如根据领域知识已知 p(X) 值），且不存在删失（即所有 C 都足够大，Δ_i=1 对所有易感者；对于已治愈者，永远不发生事件，Δ=0）。

在这样的设定下：

B 的观测正是 Δ（因为无删失，事件发生一定对应 B=1，不发生一定对应 B=0）。因此，我们实际上完美观测到了每个个体的 B。
这退化为一个标准的 Cox 模型问题：在 B=1 的子样本中，拟合 Cox 比例风险模型。直接最大化 Cox 偏似然函数即可得到 β̂。这就是本文“已知权重”情形的特例。
这同时也是本文理论框架的一个简单校验：如果 π(t, Z) 被正确估计（在无删失情况下 π=1 对所有 B=1 个体，π=0 对所有 B=0 个体），则本文的方法应当退化为标准 Cox 回归的结果。

若不是“特例推广”型：如果要为一般情形（非参数 p(X) 和删失存在）写一个最小困难问题，那就是：

最小数学困难：给定一个删失的生存时间 Y 和一个事件指示 Δ 以及协变量 (X, Z)，但不知道 B（治愈状态）。需要构造一个不可观测的数据辨识条件，使得从观测数据中能够唯一地识别并估计 β。

这个困难的核心在于：在删失个体（Δ=0）身上，你无法区分这个人是“已治愈所以不事件”（B=0）还是“只是暂时未事件”（B=1 但 T>C）。你需要一个非参数识别的条件（本文假设：在 Y 大于某个阈值且 Δ=0 的前提下，π(t,Z) 可以被核密度估计一致地估计）。

本文的关键想法：非参数地估计 π(t, Z) 这个权重，然后用它来加权 Cox 偏似然函数中每一个受删失的观测。这样做的理论依据是，加权后得到的估计方程在期望上等于“已知 B”情形下的 Cox 偏似然得分方程（即无偏估计）。

三、这篇论文做了什么¶

三句话¶

研究问题：针对大规模带治愈分数的生存数据，在 latency 为半参数 Cox 模型、incidence 为无参数模型（model-free）的设定下，如何实现计算可行的回归估计与推断。
核心工具：基于容易概率的加权估计方程 + 非参数核密度估计权重 + 分块递归更新机制。
主要结论：提出两个估计量（单批次全量估计量及其分块递归版本），证明其相合性与渐近正态性。

关键设定与假设¶

在第二节最简单记号的基础上，补全完整设定：

假设 1（删失独立性）：删失时间 C 与 (T, B) 给定 (X, Z) 独立（条件独立删失）。这是几乎所有删失生存分析的默认假设。
假设 2（概率非退化）：对于所有可能的 (t, Z)，在删失个体中有正概率 π(t, Z) > 0。这意味着在长时间随访下，一些“看起来治愈”的个体实际上可能还未事件。否则权重为零会导致估计不稳定。
假设 3（核密度光滑性）：π(t, Z) 关于 (t, Z) 至少一阶连续可微，以保证核估计的一致收敛速度。这在非参数估计中是常用要求。
假设 4（分块独立性）：各数据块是独立同分布的子样本——这是分块递归有效性的基础。
假设 5（Cox 模型的标准正则性条件）：包括风险函数的可积性、协变量的有界性等。标准 Cox 模型中的假设，用于保证偏似然估计的渐近性质。

相比已有文献： - 相比 Lu & Ying (2004)、Ma (2009)、Fang et al. (2015)，本文放宽了 incidence 部分的参数假设（不指定 p(X) 形式）。 - 相比 Tong et al. (2013) 等的分块 Cox 模型方法，本文额外增加了对 π(t, Z) 的非参数估计步骤。

主要结果¶

定理 1（单批次情形下的估计量的一致性）：

陈述：当样本量 n → ∞ 时，基于全数据加权估计方程所得的 β̂ 以概率收敛到真实 β₀。
直觉：加权估计方程是“已知 B”情形下标准 Cox 偏似然得分函数的无偏替代。
必要条件：π̂(t, Z) 以大于 √n 的速率一致收敛到 π(t, Z)。这是非参数核估计的经典结果（通过合适的带宽选择可以实现）。
技术难点：需要处理π̂ 的随机性对估计方程均匀逼近所带来的误差。作者使用均匀大数定律（uniform LLN）来处理π̂的随机影响。

定理 2（分块情形下的递归估计量的一致性）：

陈述：分块递归更新后的 β̂_seq 也以概率收敛到 β₀，且渐近方差与单批次全量估计量相同。
直觉：每个块的递归更新相当于一次随机梯度下降更新，目标函数是加权部分似然，而权重自适应地在新数据块上被重新估计。
必要条件：π̂ 必须在每个块上独立地进行非参数估计，且稳步收敛。
技术难点：建立递归更新的不动点性质，证明其在每一步的更新不会引入系统性偏差。作者使用鞅差（martingale difference）序列的性质来论证。

定理 3（渐近正态性）：β̂_seq 的渐近分布是均值为零、方差为 A⁻¹ B A⁻¹ 的正态分布（“三明治”方差），其中 A 是信息矩阵，B 是得分向量的方差。这意味着可以用它来构造置信区间，且不需要计算整个协方差矩阵——只需在每个块上计算子样本的方差贡献然后聚合。

证明路线与技术技巧¶

整体路线（5 步逻辑主干）：

Step 1（权重构造）：对每一对 (Y_i, Δ_i, Z_i)，非参数核估计 π̂(t, Z)。作者采用一种基于“局部生存函数”的估计方法（从删失数据的乘积限估计中提取）。
Step 2（单批次得分方程）：构造加权 Cox 偏似然得分方程 S(β; π̂) = 0，其中核密度估计π̂作为观测到的 log-likelihood 的修正项。
Step 3（分块递归：将数据分成 K 个独立块。第 j 个块上的估计量 β̂j 是以前一步 β̂{j-1} 作为初始值的牛顿-拉弗森一步更新步。
Step 4（一致性证明）：利用 ULLN 证明单批次得分函数在 β₀ 处渐近为 0；再通过分块递归的鞅差性质证明 β̂_seq 收敛到该不动点。
Step 5（正态性）：中央极限定理 + 三明治方差公式，用分块内的子样本方差来估计整体方差。

关键跳跃点：

在 π̂ 的构造中，有一个关键的耦合论证：作者需要证明，π̂(·,·) 的花费核密度估计误差不会阻碍整个估计方程的一致性。具体来说，有一个引理（Lemma A.1 或类似未列出的技术引理）证明 π̂ 的 L_∞ 逼近误差为 o_p(1/√n)，从而使其对得分函数的影响可以忽略。

技术技巧点名：

非参数核密度估计：用于从删失生存数据中估计 π(t, Z)。关键点在于将双变量核密度估计算法应用于删失数据，且必须选择一致的带宽（如交叉验证或基于理论规则的带宽）。
均匀大数定律（ULLN）：用于处理 π̂ 的随机性，确保加权估计方程在 β₀ 处渐近无偏。具体地说，作者必须证明 sup_{β} |S_n(β;π̂) - S_n(β;π)| = o_p(1)。
分块递归更新（blockwise recursive estimation）：将标准的牛顿-拉夫森一步更新翻译成分块数据场景，每个小块上自动调整权重。
鞅差序列：在证明递归估计量的相合性时，作者构造了一个在分块序列上的鞅差序列，每个小块上的增量是零均值的条件评分函数。这是确保证明中自洽性的关键技巧。

真实例子与应用¶

数据：美国国家癌症登记数据库中的黑素瘤数据。样本量约为 10 万（n≈100,000），包含年龄、性别、肿瘤分期、治疗方法等协变量。

方法应用过程：

通过流行病学背景知道，黑色素瘤患者中存在明显的治愈分数（大约 30-40% 的患者在足够时间的随访后被判定为“非再发”——实质治愈）。
将数据随机分成 10 个块（K=10），依次进各块数据并更新估计。
作者用他们的递归概率加权方法估计 latency 部分的 Cox 回归参数（β，如年龄、性别对复发风险的影响），同时获得 incidence 部分的非参数易感概率 p̂(X)。

结果： - 他们提的递归估计量 β̂_seq 得到的效应方向与稳定文献一致（例如：年龄增长增加复发风险，风险比约 1.03/年；男 vs.女 HR ~1.2；晚分期患者的风险更高）。 - 相比全数据一次性牛顿求解，递归方法在计算时间上快约 80%（从约 8 分钟压缩到 1 分钟），内存消耗减少了约 95%（无需加载全部数据）。 - 他们也对比了“若忽略治愈分数”直接用标准 Cox 模型的结果：标准 Cox 对年龄的 HR 被系统性高估（因为无法区分“治愈”个体对基线年龄的贡献），而本文方法给出的 HR 更合理。

这个例子想说明： 1. 验证理论：分块递归估计量在真实大规模数据上的结果与全量估计无系统性偏差。 2. 展示优势：计算效率和内存节约是真实的，且在社会可接受的精度损失范围内。 3. 判断存在性：真实数据中确实存在“治愈分数”，如果忽略它会导致 Causal effect 的估计偏倚（如年龄的 HR 被高估）。

🔎 结论是否比证明窄¶

可能的过度声称区域：作者在定理 2 和 3 中声称分块递归估计量的渐近方差等同与全量估计量。但从证明框架看，此等同性成立可能需要“每块的样本量 m_j 足够大以保证 π̂ 在每块上都能一致估计”。如果遇到非常小的数据块（例如每块只有几十个观测而协变量维数高），π̂ 的估计误差可能不能以 √n 速率一致收敛，此时等同性不一定能严格证明。作者在论文中没有明确给出一个理论下界：作为分块大小的最小要求。这可能是作者的一个“窄结论”——在面对极小的块时，方法的实用性可能未经验证。

四、开放问题（点到为止，扎根具体语句）¶

递归收敛的速率：作者仅证明了相合性（定理 2），没有给出递归估计量的显式均方误差收敛率（是 O(n^{-1}) 还是 O(1/√n)？）。扎根于定理 2 的证明中“收敛到 β₀ 且渐近方差的等高线”这一句，但未给出速率。
分块大小对渐近方差的影响：作者假设每个块的样本量 m_j →∞，且块数 K 固定。在“极多块 + 每块很小”的场景下（如大规模流式数据），算法是否能保持渐近正态性？定理 3 的陈述中隐含条件“m_j →∞”，但无明确下界。
是否可以构造更高效的（debiased / one-step）估计量？本文的加权估计方程并未达到半参数效率界（因为权重是非参数估计的，但未使用 efficient influence function 来调整）。扎根于作者未在结果中展示“半参数效率界”的推导——这是一个明确的开放问题。
非参数 incidence 的可解释性：作者承认 incidence 部分的 p(X) 是“model-free”，但未给出任何关于 p(X) 的推断方法（点估计、置信带等）。因此，有关“哪些协变量真正影响治愈概率”的问题在本文框架中不可回答。这扎根于模型设定部分“incidence is assumed model-free under a flexible formulation”。

提醒：要确认这些是否是真正的 gap，建议搜索近 5 年（2020-2025）的 Biometrics / JRSS-B / JASA 中关于“mixture cure model large-scale”的论文的 intro 部分——如果它们都指向（1）提到的“sparse recursion rate”、或（2）提到的“asymptotic variance under many small blocks”作为 open problems，就说明是共识性 gap，值得做；如果互相打架，说明刚刚被解决或争议大，阅读时应更谨慎。

Maintained by 陈星宇 · Homepage · Source on GitHub