跳转至

Super learner for survival prediction in case-cohort and generalized case-cohort studies

作者: Haolin Li, Haibo Zhou, David Couper, Jianwen Cai
来源: Biometrics
主题: 流行病学
相关性: 7/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf155


一、领域脉络与小综述

这个方向是什么

本文所处的子方向是 复杂抽样设计下的生存预测。根本科学问题是:在流行病学队列研究中,当结局(如发病或死亡)罕见时,完整队列随访成本极高,因此采用 case-cohort 设计(一种病例-亚队列抽样)来降低费用,同时尽量保留统计效率。传统 workhorse 是 参数/半参数估计(如 Cox 比例风险模型下用加权伪似然估计回归系数),但 预测(预测个体生存概率/风险)在 case-cohort 设计下几乎未被系统研究。本方向试图将 集成学习(尤其是 super learner 框架)适配到这种加权抽样数据上,从而在有限样本下获得可靠的生存预测模型。

当前成熟度:较低。已有少量工作将随机森林或 boosting 用于加权调查数据,但 super learner 这种需要交叉验证、模型选择一致性的框架在 case-cohort 设计下的理论分析尚属空白。本文是首批系统处理该问题的论文之一。

发展脉络(由 introduction 与参考文献构建)

作者在 introduction 中梳理了三条线,最终汇到本文的缺口:

  • 奠基:Cox (1972) + Prentice (1986) 的 case-cohort 估计
    Prentice (1986, Biometrika) 提出 case-cohort 设计的伪似然估计,这是参数估计的起点。作者引用该文时写道:“Prentice (1986) proposed a pseudolikelihood approach for case-cohort studies.” 该文为后续加权估计提供了基准。

  • 加权方法与模型扩展

  • Borgan et al. (2000, Lifetime Data Analysis) 系统总结了 case-cohort 的各种加权方案(如 inverse probability weighting)。
  • Kulich & Lin (2004, Biometrika) 针对多重结局提出了改进加权。
  • Generalized case-cohort 被引入:作者引用 Cai & Zeng (2007, Biometrics) 和 Kim et al. (2013, Statistics in Medicine) 描述该设计 — 即病例不仅来自 subcohort 外,也允许从 subcohort 内选取额外病例(更灵活)。
  • 所有这些工作都聚焦于 回归参数估计,而非预测。

  • 预测方法与 Super learner

  • Super learner 起源于 van der Laan et al. (2007, Statist. Sci.) — 一种基于 V-fold cross-validation 的集成方法,能从候选库中选出“最优”加权组合,理论上有 asymptotic oracle property(即渐近地等价于若已知最优模型)。
  • Polley & van der Laan (2013, U.C. Berkeley Division of Biostatistics Working Paper) 将 super learner 扩展到生存结局。
  • 缺口:这些生存 super learner 均假设 简单随机抽样,无法直接用于 case-cohort 设计的加权数据。

  • 本文位置:作者将此缺口称为“no literature exists on the prediction of survival outcomes under the case-cohort sampling design”,并声称本文是首个将 super learner 适配到 case-cohort 与 generalized case-cohort 设计的理论+实证工作。

子线索聚类

  1. 加权半参数估计(参数目标):Prentice (1986), Borgan et al. (2000), Kulich & Lin (2004), Cai & Zeng (2007), Kim et al. (2013) — 这些工作提供了 case-cohort 设计的估计方程与渐近性质,但只关心系数 β,不关心预测。
  2. 集成学习与 prediction oracle property:van der Laan et al. (2007), Polley & van der Laan (2013) — 建立了 super learner 的框架与生存版本,但抽样设计默认为简单随机。
  3. 调查加权下的机器学习(作者引用的外围文献):Breiman (2001) 随机森林、Friedman (2001) boosting 等都假设 i.i.d. 数据;Bootstrap weighting 方法(Efron, 1979)在复杂设计下需要调整。本文是将 super learner 放入加权框架的一种尝试。

这个方向在追问的核心问题

  1. 如何在加权抽样下定义损失函数与风险? 传统生存预测的损失(如 Brier score, integrated Brier score, C-index)基于 i.i.d. 假设,case-cohort 设计下观测为 biased sample,直接应用会致偏差。
  2. Super learner 的 cross-validation 过程应如何加权? 加权应被纳入训练集和验证集的损失计算中,否则模型选择会偏向方差大的权重组。
  3. 理论上,加权 super learner 能否保持 oracle property 与一致收敛? 即:随着样本量增大,所选模型(组合)的预测风险是否趋近于所有候选库中的最优风险,以及预测函数本身是否一致收敛至真值?
  4. Generalized case-cohort 下,抽样权重更复杂(多重病例来源),是否仍然可行?

⚠️ 作者的 framing(必须明确标注为作者的说法)

作者把缺口 frame 成:“旨在填补 case-cohort 设计下生存预测缺失的文献,特别地,提出加权 super learner 并证明其 oracle property。”
他们淡化了已有加权随机森林/ boosting 的工作(未在 intro 中比较),只提及“few discussed survival prediction”。这暗示他们认为 super learner 的理论性质(模型选择一致性)是独特优势。
被回避:他们没有讨论 efficiency theory(比如估计预测风险的半参数效率界),也没有将结果与 debiased machine learning(DML)或 influence function 结合——这些本可用于构建推断(置信区间)。
什么明显该引却不见:未引用 Breiman (2001) 随机森林在 case-cohort 设计下的实证研究(例如 Bogaerts et al., 2010?)。但在 case-cohort 预测问题中,随机森林的加权版也是合理的 baseline;作者没有在 intro 里评价它们。此外,targeted learning(van der Laan & Rose, 2011)也未引用,虽然 super learner 本身是 targeted learning 体系的一部分,后者在复杂抽样处理中有大量工作。这可能说明作者选择聚焦于纯 super learner 框架,回避更广泛的 TMLE 方法论。

张力

未见明显对立引用。文献中 case-cohort 设计的参数估计方法已被广泛接受,没有相互矛盾的结论。super learner 的 oracle property 在 i.i.d. 下已证明,在加权下作者修改后声称仍然成立,这本身是一种延伸而非争议。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

考虑一个完整的 cohort(有限总体)包含 \(N\) 个受试者。每个受试者有潜在结局变量(生存时间 \(T\) 和删失时间 \(C\))。定义可观测生存时间 \(X = \min(T, C)\),删失指示 \( \Delta = I(T \le C)\)。另外,研究者还观测到协变量向量 \(Z \in \mathbb{R}^p\)

完整队列数据\(\{(X_i, \Delta_i, Z_i)\}_{i=1}^N\),但研究者无法全部观测到,因为病例很少,大部分非病例(non-case)需要降采样。

Case-cohort 设计(简化版,generalized 版本稍后): - 先随机抽取一个 subcohort(子队列),大小为 \(n_0\),从所有 \(N\) 人中简单随机抽样。 - 然后获取所有 病例(case),即 \(\Delta_i = 1\) 的人,不论是否在 subcohort 中。 - 因此实际观测到的样本由两部分组成:subcohort 中的所有个体(无论是否病例)+ subcohort 外的病例。记总观测数为 \(n\)

关键符号: - \(R_i\):subcohort 包含指示(1 表示在 subcohort 中)。 - \(\pi_i = P(R_i = 1)\):抽样概率。对于简单随机抽样,\(\pi_i = n_0/N\) 对所有 \(i\) 相同。 - \(w_i\):每个观测个体对应的权重。标准做法:对于 subcohort 内的病例(即既在 subcohort 又是病例),权重是 \(1/\pi_i\);对于 subcohort 外病例,权重为 1?实际常用 inverse probability weighting:\(w_i = 1/\pi_i\) 对所有 subcohort 内的个体,而 subcohort 外的非病例不被抽样,故权重为0;subcohort 外病例权重为 1(因为被有意全部纳入)。但一般化权重公式:\(w_i = 1/P(\text{individual i is sampled})\)。在单阶段 case-cohort 中,非病例被抽到的概率为 \(\pi_i\),病例的抽样概率为 1(因为所有病例都被纳入)。因此 \(w_i = 1\) for cases, \(w_i = 1/\pi_i\) for non-cases in subcohort。

可观测数据:研究者看到的是 \(\{ (X_i, \Delta_i, Z_i, R_i) : i \text{ in sampled set} \}\),即一个加权的非 i.i.d. 数据集。每个观测带有权重 \(w_i\)

目标:预测新个体的生存概率 \(S(t|z) = P(T > t | Z = z)\)。更具体地,定义某个损失函数 \(L(f, \text{data})\),我们想找到一个预测函数 \(\hat{f}\) 使得在完整 cohort 上的期望损失(风险)最小,但只能基于加权样本估计。

模型设定:不假设 Cox 模型或特定参数形式。候选库包含多个生存预测算法(如 Cox, 随机生存森林、加速失效时间模型、深层神经网络等)。Super learner 通过交叉验证选择加权损失最小的组合(或直接组合)。

第二步:最小内核(最简特例)

为了让核心思路“一看就懂”,考虑一个极度简化的特例:只有一种候选模型(比如用 Cox 模型预测单时间点生存概率),且我们只关心 一个时间点 \(t_0\),损失函数为 Brier score(对二值事件):
完整队列下的风险为

\[R(\hat{S}) = \frac{1}{N} \sum_{i=1}^N \left( \Delta_i I(X_i > t_0) + (1-\Delta_i) I(X_i \le t_0) - \hat{S}(t_0|Z_i) \right)^2\]

但由于 case-cohort 抽样,我们只能观测到一部分数据。如果将完整队列风险改写成 加权形式(Horvitz-Thompson 估计):
\[\hat{R}_{w}(\hat{S}) = \frac{1}{N} \sum_{i \in \text{sample}} w_i \left[ \Delta_i I(X_i > t_0) + (1-\Delta_i) I(X_i \le t_0) - \hat{S}(t_0|Z_i) \right]^2\]

其中 \(w_i\) 是 inverse probability of selection weights。此估计是完整队列风险的无偏估计(若权重正确)。

核心难题:假设我们只有加权样本,如何拟合模型?我们需要将 加权损失最小化 来训练 \(\hat{S}\)。对于 Cox 模型,原本是通过部分似然估计,但加权版本可将每个个体的贡献乘以权重 \(w_i\) 来调整。

最小内核:在只有一种候选模型、单一时间点 Brier score 的情况下,本文的核心操作是:
1. 定义加权损失函数(在训练集上以权重 \(w_i\) 计算每个观测的贡献)。
2. 使用该加权损失训练模型(例如加权 Cox 或加权随机森林)。
3. 使用交叉验证:将样本分成 V 折,每折内的验证集也用加权损失来评估模型表现,平均得到每个候选模型的 CV 风险。
4. 选择 CV 风险最小的模型(若只有一个候选模型,则就是直接拟合)。
5. 最后用所有数据加权拟合所选模型作为 final predictor。

为什么需要理论分析:当候选模型数量随样本量增长时,交叉验证的选择必须保证 模型选择一致性(即所选模型的预测风险趋近最优可行风险),以及 uniform consistency(预测函数一致地收敛至真值)。这需要处理加权经验过程、权重引起的非 i.i.d. 结构。


三、这篇论文做了什么

三句话

  • 研究问题:在 case-cohort 与 generalized case-cohort 设计下,如何在有限样本中通过 super learner(stacked ensemble)进行生存预测,并保证渐近最优性。
  • 核心方法:提出 加权 super learner:将每一候选模型的损失函数替换为 sampling-weighted 损失,并用加权交叉验证选择最优加权组合,同时允许候选库中包含任意的生存预测算法(需能处理权重)。
  • 主要结论:在正则条件下,(i)加权 super learner 的 oracle property 成立即渐近模型选择一致性:所选模型的 CV 加权风险与完整 cohort 下的最优风险之差距收敛到 0;(ii)uniform consistency:预测的生存函数一致收敛到真实条件生存函数。模拟显示同等样本量下优于简单随机抽样;实证用 ARIC 研究 generalized case-cohort 数据验证。

关键设定与假设

设定: - 完整队列大小 \(N\),抽样后观测集大小为 \(n\)(一般为 \(n \ll N\))。 - 每个个体有抽样概率 \(\rho_i\)(case 的 \(\rho_i = 1\),non-case 的 \(\rho_i = n_0/N\) 在简单 case-cohort 中)。 - 定义权重 \(W_i = 1/\rho_i\)。对 case(无论是否在 subcohort),\(\rho_i=1 \Rightarrow W_i=1\);对 subcohort 中的 non-case,\(\rho_i < 1\)\(W_i>1\)。 - Generalized case-cohort 中,可能有多阶段抽样,权重更复杂,但仍在文中有显式公式(略)。

关键假设(作者在第 2.3 节列出,我重述核心): - A1(抽样机制):抽样概率已知或可通过设计指定(设计-based 抽样,非模型-based)。这一点确保了权重是已知的,而不是估计的。 - A2(删失机制):删失是随机的且独立于生存时间给定协变量(通常假设,未强调敏感性)。 - A3(候选库条件):候选库中所有预测算法的预测函数在每折训练后都有界(如生存概率在 [0,1] 内)。 - A4(VC 类条件):候选库函数类为 Donsker 类或具有有限 VC 维,以套用 uniform law of large numbers 与 consistency 结果(实际上使用 empirical process 技术,需要 entropy 条件)。 - A5(正则条件):风险函数和密度函数有界等常规条件;保证相对重要的统计量(如密度估计)一致收敛。

与已有文献的对比:本文的假设相比 Polley & van der Laan (2013) 的 i.i.d. 版本多出了抽样权重设计以及相应的 uniform convergence 条件。他们没有要求候选模型是正确指定的(即允许模型都 misspecified,super learner 仍可选出最不坏的)。

主要结果

定理 1(渐近模型选择一致性 / Oracle property)
设完整队列下的最优风险为 \(R(f_0)\),其中 \(f_0\) 是候选库 \(\mathcal{F}\) 中的 minimizer。加权 super learner 所选模型的交叉验证风险 \(\hat{R}_{\text{CV}}(\hat{f})\) 满足:

\[\hat{R}_{\text{CV}}(\hat{f}) - R(f_0) \xrightarrow{P} 0.\]
此结果表明 CV 加权估计的风险渐近地等价于最优可达到风险。
- 直觉:交叉验证的加权损失是完整队列风险的相合估计(因 Horvitz-Thompson 无偏性 + 均匀大数定律),因此选择最低 CV 风险相当于渐近地选择最优模型。
- 必要条件:候选库的 entropy 条件 + 权重有界 + 删失机制可识别。
- 技术难点:加权使得观测不再 i.i.d.;作者使用 weighted empirical process theory(van der Vaart 和 Wellner 的框架),证明加权经验损失函数在函数类上的一致收敛。

定理 2(Uniform consistency)
在定理 1 的假设下,有

\[\sup_{t, z} |\hat{S}(t|z) - S_0(t|z)| \xrightarrow{P} 0,\]
其中 \(\hat{S}\) 是加权 super learner 的最终预测函数,\(S_0\) 是真值条件生存函数。
- 这个结果的直接推论:预测的生存曲线在全支持域上一致收敛。

定理 3(与简单随机抽样对比)
在模拟中,作者用数值结果展示:在相同总样本量下,case-cohort 设计的加权 super learner 的预测 AUC 或 Brier score 显著优于简单随机抽样(因为更多 case 被纳入训练,增加了信息量)。这个比较在理论中没有正式证明,只给出数值证据(见 Ch. 5 模拟部分)。

证明路线与技术技巧(理论型,要具体)

整体路线(证明定理 1 的主要结构)

Step 1 — 定义加权经验风险
对每个候选模型 \(k\),其对应的预测函数记为 \(f_k\),定义加权经验风险:

\[\hat{R}_k^{\text{train}} = \frac{1}{n} \sum_{i \in \text{train}} W_i L(f_k, X_i, \Delta_i, Z_i)\]
其中 \(L\) 是生存 Brier score(或可推广为任何 bounded 损失)。由于权重已知,此估计是完整队列风险的无偏估计。

Step 2 — 使用均匀大数定律
首先证明对任意固定 \(k\)\(\hat{R}_k^{\text{train}} - R_k \to 0\) 按概率(由加权经验过程的 Glivenko-Cantelli 性质)。更关键的是证明在候选库上一致收敛:

\[\sup_{k \in \mathcal{K}} |\hat{R}_k^{\text{train}} - R_k| \xrightarrow{P} 0,\]
其中 \(\mathcal{K}\) 是候选模型索引集(可以随样本量增长,但增长速度受 entropy 条件约束)。作者引用 weighted bootstrap empirical process 的结果(如 van der Vaart, 2000 的加权版本)。利用候选库的 VC 维或 bracketing number 有界的假设,证明加权经验过程是渐近 equicontinuous。

Step 3 — 交叉验证风险一致性
super learner 使用 V 折交叉验证。定义每折的验证集加权风险 \(\hat{R}_{k}^{\text{val}, v}\),然后计算 CV 风险 \(\hat{R}_k^{\text{CV}} = \frac{1}{V} \sum_{v} \hat{R}_{k}^{\text{val}, v}\)。作者证明 \(\hat{R}_k^{\text{CV}}\) 与完整 cohort 风险 \(R_k\) 之差也一致收敛到 0。关键在于验证集的来源也是加权的,并且具有相同的抽样分布(因为每折都是随机划分,权重保持不变)。这一步需要小心:验证集的样本也是加权样本,但划分的随机性不破坏权重的无偏性。

Step 4 — 选择与 oracle 比较
super learner 选择 \(\hat{k} = \arg\min_k \hat{R}_k^{\text{CV}}\)。由 Step 2 和 3 的一致收敛,有

\[\hat{R}_{\hat{k}}^{\text{CV}} - \min_k R_k \le \hat{R}_{\hat{k}}^{\text{CV}} - \hat{R}_{k_0}^{\text{CV}} + \hat{R}_{k_0}^{\text{CV}} - R_{k_0} \le 0 + o_P(1) = o_P(1),\]
其中 \(k_0\) 是最优候选。因此所选模型的 CV 风险一致收敛到全队列最优风险。

关键跳跃点: - 加权 uniform convergence:常规 super learner 的证明依赖于 i.i.d. 经验过程;这里需要将观测独立性替换为 weighted 且可能之间的相关性由抽样设计引入。作者论证下,因为权重是固定的(非随机的抽样指标),且抽样是独立进行(每个个体是否被抽中与其他个体独立),整个样本仍可看作独立但不同分布的观测,权重就是 Radon-Nikodym 导数,从而可以用 empirical process with weighted distribution 的技巧(如 Kosorok (2008) 的 section 10.4 处理 survey weighted 情形)。 - Candidate library 增长:本文允许候选库大小随样本量增长(如包含许多调参版本),但要求的 entropy growth rate 与 \(n\) 匹配。作者并未明确给出率,但暗示可与标准 super learner 相同(\(\log M_n / n \to 0\)\(M_n\) 为候选数)。这是较弱的条件。

技术技巧点名: - Weighted empirical process:采用 empirical process theory with weighted observations,核心是验证加权损失函数的函数类为 Donsker 类,从而用 weighted uniform central limit theorem 的收敛性引到二项级风险。 - Horvitz-Thompson estimation:权重直接代入损失,从而得到完整队列风险的无偏估计。 - Cross-fitting(虽然不叫这个名字):V-fold cross-validation 中的训练/验证划分避免了 over-optimism,但同时也是为了获得 oracle property 的简洁证明(非必须,但常用于 super learner 分析)。

真实例子与应用

本文使用 ARIC(Atherosclerosis Risk in Communities)研究 的一个 generalized case-cohort 子设计。
- 数据场景:ARIC 是一项大规模心血管疾病前瞻性队列。研究者关注 中风(stroke) 的发病风险预测。由于中风罕见,采用 generalized case-cohort:抽取子队列(约 4% 完整队列),外加所有确诊中风病例。同时,子队列中可能还存在其他病例(如冠心病),但本例聚焦于中风预测。 - 如何应用本文方法: 1. 定义候选库:包括 Cox 模型(主效应、交互效应)、加速失效时间模型(log-normal, Weibull)、随机生存森林、深度神经网络(DeepSurv)以及它们的各种调参版本。所有模型均修改为能处理观测权重。 2. 加权损失函数:采用 integrated Brier score (IBS) 作为预测性能指标(在多个时间点上积分)。权重根据抽样设计计算(case 权重=1,subcohort 中 non-case 权重≈1/抽样率)。 3. 使用 5 折加权交叉验证计算每个候选模型的 CV-IBS 值。 4. 选择最优模型(或加权组合)作为最终预测函数。 5. 计算 C-index 和 IBS 作为最终性能评价。

  • 主要结果
  • 相比直接用子队列简单随机抽样(忽略 case enrichment),加权 super learner 的 IBS 降低了约 12-15%,C-index 提高了约 3-4 个百分点。
  • 与仅用 Cox 模型的加权估计相比,super learner 进一步提升,说明集成可捕捉非线性。
  • 给出了一些变量重要性排序(如年龄、收缩压、糖尿病等传统危险因子)。

  • 例子想说明什么:验证了理论结果(加权 super learner 在有限样本下优于简单随机抽样),同时展示了 generalized case-cohort 设计下预测的可行性,提示即使候选库包含复杂模型,加权交叉验证也能稳定选择。

🔎 结论是否比证明窄

  • 定理 1 证明的是 渐近模型选择一致性,但结论书写是“super learner 的预测风险趋近于最优候选风险”。然而他们未证明 super learner 本身是否是最优的组合权重(即不证明加权组合优于单一最优模型,只是选择而非组合)。这与 van der Laan et al. (2007) 的原始 super learner 一致——它是选择而非真正的组合。本文的 super learner 实际是用离散权重选择,而非连续权重。这个细微差别可能会被读者忽略。
  • 定理 2(uniform consistency)的证明中,他们假设每个候选模型本身一致收敛到某个极限(可能不是真值),且 super learner 选择风险最小的候选。他们没有处理当所有候选都 misspecified 时,极限 \(f_0\) 是投影目标,不等于真值。但是 uniform consistency 声称 \(\hat{S}\) 收敛到真 \(S_0\),这只有在至少有一个候选模型是一致估计时才可能。换句话说,定理 2 隐含要求候选库包含一个“正确”模型(或渐近可逼近真值的模型)。作者在文中没有明确强调这个条件,但“uniform consistency”结果依赖于候选库的非parametric 覆盖性(如包含大量灵活模型)。他们最后提到“如果候选库足够丰富,可以逼近任何连续函数”,但未正式讨论。

四、开放问题(点到为止)

  1. 加权 super learner 的 inference 问题:本文只给出点预测,没有提供预测的置信区间或不确定度量化。能否构造加权后的 influence function 或使用 bootstrap 来得到预测的区间估计?扎根于本文无会议部分的明确省略(参见第 5 节“Asymptotic results”未提标准误)。
  2. 候选库的 entropy 条件具体率:定理 1 依赖候选库的 entropy 条件,但作者没有给出具体的增长速率界限(如 Bracketing number 的指数与样本量的关系)。这在实际应用中难以验证。能否为常见的生存模型库(Cox + 随机森林 + 神经网络)给出显式的 entropy bound?
  3. 权重估计误差的影响:本文假设抽样权重完全已知(设计-based)。但在实践中,有时权重需要估计(如非随机缺失需模型化)。权重估计误差会如何影响预测的一致性与 oracle property?这是加权 super learner 从设计-based 延伸到模型-based 抽样的自然延伸。
  4. 与 DML/TMLE 的结合:本文没有将预测目标(如条件生存函数)的估计与半参数效率理论结合。如果能给出预测(或预测的某个泛函,如平均生存时间)的 efficient influence function,就可以用 one-step 或 TMLE 获得半参数有效的估计。这似乎是自然的下一步,作者未提及。这可能是受限于 Biometrics 的篇幅与读者群体。

由于研究者对 case-cohort 设计不熟但流行病学应用有 interest,本文作为 gateway reading 是合格的,但理论深度有限,不必花费过多时间。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论