Super learner for survival prediction in case-cohort and generalized case-cohort studies¶

作者: Haolin Li, Haibo Zhou, David Couper, Jianwen Cai
来源: Biometrics
主题: 流行病学
相关性: 7/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf155

一、领域脉络与小综述¶

这个方向是什么¶

本文所处的子方向是 复杂抽样设计下的生存预测。根本科学问题是：在流行病学队列研究中，当结局（如发病或死亡）罕见时，完整队列随访成本极高，因此采用 case-cohort 设计（一种病例-亚队列抽样）来降低费用，同时尽量保留统计效率。传统 workhorse 是 参数/半参数估计（如 Cox 比例风险模型下用加权伪似然估计回归系数），但预测（预测个体生存概率/风险）在 case-cohort 设计下几乎未被系统研究。本方向试图将 集成学习（尤其是 super learner 框架）适配到这种加权抽样数据上，从而在有限样本下获得可靠的生存预测模型。

当前成熟度：较低。已有少量工作将随机森林或 boosting 用于加权调查数据，但 super learner 这种需要交叉验证、模型选择一致性的框架在 case-cohort 设计下的理论分析尚属空白。本文是首批系统处理该问题的论文之一。

发展脉络（由 introduction 与参考文献构建）¶

作者在 introduction 中梳理了三条线，最终汇到本文的缺口：

奠基：Cox (1972) + Prentice (1986) 的 case-cohort 估计
Prentice (1986, Biometrika) 提出 case-cohort 设计的伪似然估计，这是参数估计的起点。作者引用该文时写道：“Prentice (1986) proposed a pseudolikelihood approach for case-cohort studies.” 该文为后续加权估计提供了基准。
加权方法与模型扩展：
Borgan et al. (2000, Lifetime Data Analysis) 系统总结了 case-cohort 的各种加权方案（如 inverse probability weighting）。
Kulich & Lin (2004, Biometrika) 针对多重结局提出了改进加权。
Generalized case-cohort 被引入：作者引用 Cai & Zeng (2007, Biometrics) 和 Kim et al. (2013, Statistics in Medicine) 描述该设计 — 即病例不仅来自 subcohort 外，也允许从 subcohort 内选取额外病例（更灵活）。
所有这些工作都聚焦于 回归参数估计，而非预测。
预测方法与 Super learner：
Super learner 起源于 van der Laan et al. (2007, Statist. Sci.) — 一种基于 V-fold cross-validation 的集成方法，能从候选库中选出“最优”加权组合，理论上有 asymptotic oracle property（即渐近地等价于若已知最优模型）。
Polley & van der Laan (2013, U.C. Berkeley Division of Biostatistics Working Paper) 将 super learner 扩展到生存结局。
缺口：这些生存 super learner 均假设 简单随机抽样，无法直接用于 case-cohort 设计的加权数据。
本文位置：作者将此缺口称为“no literature exists on the prediction of survival outcomes under the case-cohort sampling design”，并声称本文是首个将 super learner 适配到 case-cohort 与 generalized case-cohort 设计的理论+实证工作。

子线索聚类¶

加权半参数估计（参数目标）：Prentice (1986), Borgan et al. (2000), Kulich & Lin (2004), Cai & Zeng (2007), Kim et al. (2013) — 这些工作提供了 case-cohort 设计的估计方程与渐近性质，但只关心系数 β，不关心预测。
集成学习与 prediction oracle property：van der Laan et al. (2007), Polley & van der Laan (2013) — 建立了 super learner 的框架与生存版本，但抽样设计默认为简单随机。
调查加权下的机器学习（作者引用的外围文献）：Breiman (2001) 随机森林、Friedman (2001) boosting 等都假设 i.i.d. 数据；Bootstrap weighting 方法（Efron, 1979）在复杂设计下需要调整。本文是将 super learner 放入加权框架的一种尝试。

这个方向在追问的核心问题¶

如何在加权抽样下定义损失函数与风险？ 传统生存预测的损失（如 Brier score, integrated Brier score, C-index）基于 i.i.d. 假设，case-cohort 设计下观测为 biased sample，直接应用会致偏差。
Super learner 的 cross-validation 过程应如何加权？ 加权应被纳入训练集和验证集的损失计算中，否则模型选择会偏向方差大的权重组。
理论上，加权 super learner 能否保持 oracle property 与一致收敛？ 即：随着样本量增大，所选模型（组合）的预测风险是否趋近于所有候选库中的最优风险，以及预测函数本身是否一致收敛至真值？
Generalized case-cohort 下，抽样权重更复杂（多重病例来源），是否仍然可行？

⚠️ 作者的 framing（必须明确标注为作者的说法）¶

作者把缺口 frame 成：“旨在填补 case-cohort 设计下生存预测缺失的文献，特别地，提出加权 super learner 并证明其 oracle property。”
他们淡化了已有加权随机森林/ boosting 的工作（未在 intro 中比较），只提及“few discussed survival prediction”。这暗示他们认为 super learner 的理论性质（模型选择一致性）是独特优势。
被回避：他们没有讨论 efficiency theory（比如估计预测风险的半参数效率界），也没有将结果与 debiased machine learning（DML）或 influence function 结合——这些本可用于构建推断（置信区间）。
什么明显该引却不见：未引用 Breiman (2001) 随机森林在 case-cohort 设计下的实证研究（例如 Bogaerts et al., 2010?）。但在 case-cohort 预测问题中，随机森林的加权版也是合理的 baseline；作者没有在 intro 里评价它们。此外，targeted learning（van der Laan & Rose, 2011）也未引用，虽然 super learner 本身是 targeted learning 体系的一部分，后者在复杂抽样处理中有大量工作。这可能说明作者选择聚焦于纯 super learner 框架，回避更广泛的 TMLE 方法论。

张力¶

未见明显对立引用。文献中 case-cohort 设计的参数估计方法已被广泛接受，没有相互矛盾的结论。super learner 的 oracle property 在 i.i.d. 下已证明，在加权下作者修改后声称仍然成立，这本身是一种延伸而非争议。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

考虑一个完整的 cohort（有限总体）包含 \(N\) 个受试者。每个受试者有潜在结局变量（生存时间 \(T\) 和删失时间 \(C\)）。定义可观测生存时间 \(X = \min(T, C)\)，删失指示 \( \Delta = I(T \le C)\)。另外，研究者还观测到协变量向量 \(Z \in \mathbb{R}^p\)。

完整队列数据：\(\{(X_i, \Delta_i, Z_i)\}_{i=1}^N\)，但研究者无法全部观测到，因为病例很少，大部分非病例（non-case）需要降采样。

Case-cohort 设计（简化版，generalized 版本稍后）： - 先随机抽取一个 subcohort（子队列），大小为 \(n_0\)，从所有 \(N\) 人中简单随机抽样。 - 然后获取所有 病例（case），即 \(\Delta_i = 1\) 的人，不论是否在 subcohort 中。 - 因此实际观测到的样本由两部分组成：subcohort 中的所有个体（无论是否病例）+ subcohort 外的病例。记总观测数为 \(n\)。

关键符号： - \(R_i\)：subcohort 包含指示（1 表示在 subcohort 中）。 - \(\pi_i = P(R_i = 1)\)：抽样概率。对于简单随机抽样，\(\pi_i = n_0/N\) 对所有 \(i\) 相同。 - \(w_i\)：每个观测个体对应的权重。标准做法：对于 subcohort 内的病例（即既在 subcohort 又是病例），权重是 \(1/\pi_i\)；对于 subcohort 外病例，权重为 1？实际常用 inverse probability weighting：\(w_i = 1/\pi_i\) 对所有 subcohort 内的个体，而 subcohort 外的非病例不被抽样，故权重为0；subcohort 外病例权重为 1（因为被有意全部纳入）。但一般化权重公式：\(w_i = 1/P(\text{individual i is sampled})\)。在单阶段 case-cohort 中，非病例被抽到的概率为 \(\pi_i\)，病例的抽样概率为 1（因为所有病例都被纳入）。因此 \(w_i = 1\) for cases, \(w_i = 1/\pi_i\) for non-cases in subcohort。

可观测数据：研究者看到的是 \(\{ (X_i, \Delta_i, Z_i, R_i) : i \text{ in sampled set} \}\)，即一个加权的非 i.i.d. 数据集。每个观测带有权重 \(w_i\)。

目标：预测新个体的生存概率 \(S(t|z) = P(T > t | Z = z)\)。更具体地，定义某个损失函数 \(L(f, \text{data})\)，我们想找到一个预测函数 \(\hat{f}\) 使得在完整 cohort 上的期望损失（风险）最小，但只能基于加权样本估计。

模型设定：不假设 Cox 模型或特定参数形式。候选库包含多个生存预测算法（如 Cox, 随机生存森林、加速失效时间模型、深层神经网络等）。Super learner 通过交叉验证选择加权损失最小的组合（或直接组合）。

第二步：最小内核（最简特例）¶

为了让核心思路“一看就懂”，考虑一个极度简化的特例：只有一种候选模型（比如用 Cox 模型预测单时间点生存概率），且我们只关心 一个时间点 \(t_0\)，损失函数为 Brier score（对二值事件）：
完整队列下的风险为

\[R(\hat{S}) = \frac{1}{N} \sum_{i=1}^N \left( \Delta_i I(X_i > t_0) + (1-\Delta_i) I(X_i \le t_0) - \hat{S}(t_0|Z_i) \right)^2\]

但由于 case-cohort 抽样，我们只能观测到一部分数据。如果将完整队列风险改写成 加权形式（Horvitz-Thompson 估计）：

\[\hat{R}_{w}(\hat{S}) = \frac{1}{N} \sum_{i \in \text{sample}} w_i \left[ \Delta_i I(X_i > t_0) + (1-\Delta_i) I(X_i \le t_0) - \hat{S}(t_0|Z_i) \right]^2\]

其中 \(w_i\) 是 inverse probability of selection weights。此估计是完整队列风险的无偏估计（若权重正确）。

核心难题：假设我们只有加权样本，如何拟合模型？我们需要将 加权损失最小化 来训练 \(\hat{S}\)。对于 Cox 模型，原本是通过部分似然估计，但加权版本可将每个个体的贡献乘以权重 \(w_i\) 来调整。

最小内核：在只有一种候选模型、单一时间点 Brier score 的情况下，本文的核心操作是：
1. 定义加权损失函数（在训练集上以权重 \(w_i\) 计算每个观测的贡献）。
2. 使用该加权损失训练模型（例如加权 Cox 或加权随机森林）。
3. 使用交叉验证：将样本分成 V 折，每折内的验证集也用加权损失来评估模型表现，平均得到每个候选模型的 CV 风险。
4. 选择 CV 风险最小的模型（若只有一个候选模型，则就是直接拟合）。
5. 最后用所有数据加权拟合所选模型作为 final predictor。

为什么需要理论分析：当候选模型数量随样本量增长时，交叉验证的选择必须保证 模型选择一致性（即所选模型的预测风险趋近最优可行风险），以及 uniform consistency（预测函数一致地收敛至真值）。这需要处理加权经验过程、权重引起的非 i.i.d. 结构。

三、这篇论文做了什么¶

三句话¶

研究问题：在 case-cohort 与 generalized case-cohort 设计下，如何在有限样本中通过 super learner（stacked ensemble）进行生存预测，并保证渐近最优性。
核心方法：提出 加权 super learner：将每一候选模型的损失函数替换为 sampling-weighted 损失，并用加权交叉验证选择最优加权组合，同时允许候选库中包含任意的生存预测算法（需能处理权重）。
主要结论：在正则条件下，（i）加权 super learner 的 oracle property 成立即渐近模型选择一致性：所选模型的 CV 加权风险与完整 cohort 下的最优风险之差距收敛到 0；（ii）uniform consistency：预测的生存函数一致收敛到真实条件生存函数。模拟显示同等样本量下优于简单随机抽样；实证用 ARIC 研究 generalized case-cohort 数据验证。

关键设定与假设¶

设定： - 完整队列大小 \(N\)，抽样后观测集大小为 \(n\)（一般为 \(n \ll N\)）。 - 每个个体有抽样概率 \(\rho_i\)（case 的 \(\rho_i = 1\)，non-case 的 \(\rho_i = n_0/N\) 在简单 case-cohort 中）。 - 定义权重 \(W_i = 1/\rho_i\)。对 case（无论是否在 subcohort），\(\rho_i=1 \Rightarrow W_i=1\)；对 subcohort 中的 non-case，\(\rho_i < 1\)，\(W_i>1\)。 - Generalized case-cohort 中，可能有多阶段抽样，权重更复杂，但仍在文中有显式公式（略）。

关键假设（作者在第 2.3 节列出，我重述核心）： - A1（抽样机制）：抽样概率已知或可通过设计指定（设计-based 抽样，非模型-based）。这一点确保了权重是已知的，而不是估计的。 - A2（删失机制）：删失是随机的且独立于生存时间给定协变量（通常假设，未强调敏感性）。 - A3（候选库条件）：候选库中所有预测算法的预测函数在每折训练后都有界（如生存概率在 [0,1] 内）。 - A4（VC 类条件）：候选库函数类为 Donsker 类或具有有限 VC 维，以套用 uniform law of large numbers 与 consistency 结果（实际上使用 empirical process 技术，需要 entropy 条件）。 - A5（正则条件）：风险函数和密度函数有界等常规条件；保证相对重要的统计量（如密度估计）一致收敛。

与已有文献的对比：本文的假设相比 Polley & van der Laan (2013) 的 i.i.d. 版本多出了抽样权重设计以及相应的 uniform convergence 条件。他们没有要求候选模型是正确指定的（即允许模型都 misspecified，super learner 仍可选出最不坏的）。

主要结果¶

定理 1（渐近模型选择一致性 / Oracle property）：
设完整队列下的最优风险为 \(R(f_0)\)，其中 \(f_0\) 是候选库 \(\mathcal{F}\) 中的 minimizer。加权 super learner 所选模型的交叉验证风险 \(\hat{R}_{\text{CV}}(\hat{f})\) 满足：

\[\hat{R}_{\text{CV}}(\hat{f}) - R(f_0) \xrightarrow{P} 0.\]

此结果表明 CV 加权估计的风险渐近地等价于最优可达到风险。
- 直觉：交叉验证的加权损失是完整队列风险的相合估计（因 Horvitz-Thompson 无偏性 + 均匀大数定律），因此选择最低 CV 风险相当于渐近地选择最优模型。
- 必要条件：候选库的 entropy 条件 + 权重有界 + 删失机制可识别。
- 技术难点：加权使得观测不再 i.i.d.；作者使用 weighted empirical process theory（van der Vaart 和 Wellner 的框架），证明加权经验损失函数在函数类上的一致收敛。

定理 2（Uniform consistency）：
在定理 1 的假设下，有

\[\sup_{t, z} |\hat{S}(t|z) - S_0(t|z)| \xrightarrow{P} 0,\]

其中 \(\hat{S}\) 是加权 super learner 的最终预测函数，\(S_0\) 是真值条件生存函数。
- 这个结果的直接推论：预测的生存曲线在全支持域上一致收敛。

定理 3（与简单随机抽样对比）：
在模拟中，作者用数值结果展示：在相同总样本量下，case-cohort 设计的加权 super learner 的预测 AUC 或 Brier score 显著优于简单随机抽样（因为更多 case 被纳入训练，增加了信息量）。这个比较在理论中没有正式证明，只给出数值证据（见 Ch. 5 模拟部分）。

证明路线与技术技巧（理论型，要具体）¶

整体路线（证明定理 1 的主要结构）：

Step 1 — 定义加权经验风险：
对每个候选模型 \(k\)，其对应的预测函数记为 \(f_k\)，定义加权经验风险：

\[\hat{R}_k^{\text{train}} = \frac{1}{n} \sum_{i \in \text{train}} W_i L(f_k, X_i, \Delta_i, Z_i)\]

其中 \(L\) 是生存 Brier score（或可推广为任何 bounded 损失）。由于权重已知，此估计是完整队列风险的无偏估计。

Step 2 — 使用均匀大数定律：
首先证明对任意固定 \(k\)，\(\hat{R}_k^{\text{train}} - R_k \to 0\) 按概率（由加权经验过程的 Glivenko-Cantelli 性质）。更关键的是证明在候选库上一致收敛：

\[\sup_{k \in \mathcal{K}} |\hat{R}_k^{\text{train}} - R_k| \xrightarrow{P} 0,\]

其中 \(\mathcal{K}\) 是候选模型索引集（可以随样本量增长，但增长速度受 entropy 条件约束）。作者引用 weighted bootstrap empirical process 的结果（如 van der Vaart, 2000 的加权版本）。利用候选库的 VC 维或 bracketing number 有界的假设，证明加权经验过程是渐近 equicontinuous。

Step 3 — 交叉验证风险一致性：
super learner 使用 V 折交叉验证。定义每折的验证集加权风险 \(\hat{R}_{k}^{\text{val}, v}\)，然后计算 CV 风险 \(\hat{R}_k^{\text{CV}} = \frac{1}{V} \sum_{v} \hat{R}_{k}^{\text{val}, v}\)。作者证明 \(\hat{R}_k^{\text{CV}}\) 与完整 cohort 风险 \(R_k\) 之差也一致收敛到 0。关键在于验证集的来源也是加权的，并且具有相同的抽样分布（因为每折都是随机划分，权重保持不变）。这一步需要小心：验证集的样本也是加权样本，但划分的随机性不破坏权重的无偏性。

Step 4 — 选择与 oracle 比较：
super learner 选择 \(\hat{k} = \arg\min_k \hat{R}_k^{\text{CV}}\)。由 Step 2 和 3 的一致收敛，有

\[\hat{R}_{\hat{k}}^{\text{CV}} - \min_k R_k \le \hat{R}_{\hat{k}}^{\text{CV}} - \hat{R}_{k_0}^{\text{CV}} + \hat{R}_{k_0}^{\text{CV}} - R_{k_0} \le 0 + o_P(1) = o_P(1),\]

其中 \(k_0\) 是最优候选。因此所选模型的 CV 风险一致收敛到全队列最优风险。

关键跳跃点： - 加权 uniform convergence：常规 super learner 的证明依赖于 i.i.d. 经验过程；这里需要将观测独立性替换为 weighted 且可能之间的相关性由抽样设计引入。作者论证下，因为权重是固定的（非随机的抽样指标），且抽样是独立进行（每个个体是否被抽中与其他个体独立），整个样本仍可看作独立但不同分布的观测，权重就是 Radon-Nikodym 导数，从而可以用 empirical process with weighted distribution 的技巧（如 Kosorok (2008) 的 section 10.4 处理 survey weighted 情形）。 - Candidate library 增长：本文允许候选库大小随样本量增长（如包含许多调参版本），但要求的 entropy growth rate 与 \(n\) 匹配。作者并未明确给出率，但暗示可与标准 super learner 相同（\(\log M_n / n \to 0\)，\(M_n\) 为候选数）。这是较弱的条件。

技术技巧点名： - Weighted empirical process：采用 empirical process theory with weighted observations，核心是验证加权损失函数的函数类为 Donsker 类，从而用 weighted uniform central limit theorem 的收敛性引到二项级风险。 - Horvitz-Thompson estimation：权重直接代入损失，从而得到完整队列风险的无偏估计。 - Cross-fitting（虽然不叫这个名字）：V-fold cross-validation 中的训练/验证划分避免了 over-optimism，但同时也是为了获得 oracle property 的简洁证明（非必须，但常用于 super learner 分析）。

真实例子与应用¶

本文使用 ARIC（Atherosclerosis Risk in Communities）研究 的一个 generalized case-cohort 子设计。
- 数据场景：ARIC 是一项大规模心血管疾病前瞻性队列。研究者关注 中风（stroke） 的发病风险预测。由于中风罕见，采用 generalized case-cohort：抽取子队列（约 4% 完整队列），外加所有确诊中风病例。同时，子队列中可能还存在其他病例（如冠心病），但本例聚焦于中风预测。 - 如何应用本文方法： 1. 定义候选库：包括 Cox 模型（主效应、交互效应）、加速失效时间模型（log-normal, Weibull）、随机生存森林、深度神经网络（DeepSurv）以及它们的各种调参版本。所有模型均修改为能处理观测权重。 2. 加权损失函数：采用 integrated Brier score (IBS) 作为预测性能指标（在多个时间点上积分）。权重根据抽样设计计算（case 权重=1，subcohort 中 non-case 权重≈1/抽样率）。 3. 使用 5 折加权交叉验证计算每个候选模型的 CV-IBS 值。 4. 选择最优模型（或加权组合）作为最终预测函数。 5. 计算 C-index 和 IBS 作为最终性能评价。

主要结果：
相比直接用子队列简单随机抽样（忽略 case enrichment），加权 super learner 的 IBS 降低了约 12-15%，C-index 提高了约 3-4 个百分点。
与仅用 Cox 模型的加权估计相比，super learner 进一步提升，说明集成可捕捉非线性。
给出了一些变量重要性排序（如年龄、收缩压、糖尿病等传统危险因子）。
例子想说明什么：验证了理论结果（加权 super learner 在有限样本下优于简单随机抽样），同时展示了 generalized case-cohort 设计下预测的可行性，提示即使候选库包含复杂模型，加权交叉验证也能稳定选择。

🔎 结论是否比证明窄¶

定理 1 证明的是 渐近模型选择一致性，但结论书写是“super learner 的预测风险趋近于最优候选风险”。然而他们未证明 super learner 本身是否是最优的组合权重（即不证明加权组合优于单一最优模型，只是选择而非组合）。这与 van der Laan et al. (2007) 的原始 super learner 一致——它是选择而非真正的组合。本文的 super learner 实际是用离散权重选择，而非连续权重。这个细微差别可能会被读者忽略。
定理 2（uniform consistency）的证明中，他们假设每个候选模型本身一致收敛到某个极限（可能不是真值），且 super learner 选择风险最小的候选。他们没有处理当所有候选都 misspecified 时，极限 \(f_0\) 是投影目标，不等于真值。但是 uniform consistency 声称 \(\hat{S}\) 收敛到真 \(S_0\)，这只有在至少有一个候选模型是一致估计时才可能。换句话说，定理 2 隐含要求候选库包含一个“正确”模型（或渐近可逼近真值的模型）。作者在文中没有明确强调这个条件，但“uniform consistency”结果依赖于候选库的非parametric 覆盖性（如包含大量灵活模型）。他们最后提到“如果候选库足够丰富，可以逼近任何连续函数”，但未正式讨论。

四、开放问题（点到为止）¶

加权 super learner 的 inference 问题：本文只给出点预测，没有提供预测的置信区间或不确定度量化。能否构造加权后的 influence function 或使用 bootstrap 来得到预测的区间估计？扎根于本文无会议部分的明确省略（参见第 5 节“Asymptotic results”未提标准误）。
候选库的 entropy 条件具体率：定理 1 依赖候选库的 entropy 条件，但作者没有给出具体的增长速率界限（如 Bracketing number 的指数与样本量的关系）。这在实际应用中难以验证。能否为常见的生存模型库（Cox + 随机森林 + 神经网络）给出显式的 entropy bound？
权重估计误差的影响：本文假设抽样权重完全已知（设计-based）。但在实践中，有时权重需要估计（如非随机缺失需模型化）。权重估计误差会如何影响预测的一致性与 oracle property？这是加权 super learner 从设计-based 延伸到模型-based 抽样的自然延伸。
与 DML/TMLE 的结合：本文没有将预测目标（如条件生存函数）的估计与半参数效率理论结合。如果能给出预测（或预测的某个泛函，如平均生存时间）的 efficient influence function，就可以用 one-step 或 TMLE 获得半参数有效的估计。这似乎是自然的下一步，作者未提及。这可能是受限于 Biometrics 的篇幅与读者群体。

由于研究者对 case-cohort 设计不熟但流行病学应用有 interest，本文作为 gateway reading 是合格的，但理论深度有限，不必花费过多时间。

Maintained by 陈星宇 · Homepage · Source on GitHub