Dynamic prediction by landmarking with data from cohort subsampling designs¶

作者: Yen Chang, Anastasia Ivanova, Demetrius Albanes, Jason P Fine, Yei Eun Shin
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 6/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251403279

一、领域脉络与小综述¶

说明： 论文原文仅提供摘要，缺少 introduction 与参考文献列表。以下综述基于该摘要表述、领域常见知识及已发表教科书级工作（如 van Houwelingen & Putter, 2012 的《Dynamic Prediction in Clinical Survival Analysis》）构建，关键引用采用“据领域常见”标记，待获取全文后可核对具体引用句。

这个方向是什么
该子方向解决的根本问题是：在纵向队列研究中，利用随时间更新的协变量（如随访测量、处方记录）对个体发生健康事件（如死亡、诊断）的概率进行动态预测。其成熟度较高：全队列的landmarking方法（固定时间点重新设定基线，使用基线后累积数据）已有完整理论；nested case-control子抽样设计在流行病学成本控制中广泛应用。当前缺口在于：当队列数据因资源限制只能子抽样采集时，如何将landmarking推广到这种抽样设计下，并保持预测准确性与估计的可解释性。
发展脉络（据领域常识）
奠基工作： Landmarking 由 van Houwelingen（2007）明确提出，后来在 van Houwelingen & Putter（2012）中系统化；全队列下的 Landmark Cox 模型是标准方法。
主要进展： 全队列 Landmarking 结合 penalized smoothing 或 super learning 改善动态预测（2010s）；同时，嵌套病例-对照抽样（nested case-control）作为低成本替代被广泛用于生物样本库研究，其估计常依靠 inverse-probability weighting（IPW）或条件 logistic 回归（如 Thomas, 1977; Samuelsen, 1997）。
当前 frontier： 如何将全队列动态预测方法（landmarking）迁移到子抽样设计（nested case-control、case-cohort）的同时，保持识别公式的闭合性和计算可行性。
本文位置： 本文属于将两种成熟思路（landmarking + 子抽样 IPW / 条件似然）杂交的首次系统方法阐述与实证演示。创新幅度不算大，但填补了具体应用缺口。
子线索聚类
全队列 Landmarking（van Houwelingen 系列；文献强调对时依协变量的灵活处理）。
子抽样设计的生存分析（Thomas 1977：条件 logistic; Samuelsen 1997: IPW 加权 Cox; Kim & Kim 2008: 子抽样设计下的效率）。
动态预测在成本受限场景（如生物银行子集测量）。本文属于这一交叉点。
这个方向在追问的核心问题
子抽样数据下的动态预测是否渐近有效？方差公式如何修正？
IPW 与条件似然在动态预测框架下谁更稳健（对抽样比例、协变量依赖、censoring 机制）？
预测误差（AUC / Brier score）在子抽样下如何校正偏倚？
⚠️ 作者的 framing（必须标注为‘作者说法’）
作者声称：“已有完整全队列 Landmarking 方法，但资源限制迫使使用子抽样；本文填补了该缺口。” 他们淡化了两点：全队列 Landmarking 在子抽样下的方差公式可能已有隐式处理（如用 bootstrap）无需新方法；条件似然法本质是重写似然，未必比 IPW 有理论优势。需要注意： 摘要未引用任何直接对比文献（如用 full cohort 做基准的模拟在 2020 年后已有不少），也未提及子抽样下的预测校正指标是否与全队列分布吻合——这是读者可查证之处。
张力
未见明显对立引用（但信息不完整）。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号
\( T \)：失效时间（健康事件发生时间）。
\( C \)：删失时间。观测时间为 \( \tilde{T} = \min(T, C) \)，事件指示器 \( \Delta = I(T \le C) \)。
\( \mathbf{Z}(s) \) ：在时间 \( s \) 测量的协变量向量（可能随时间变化）。
Landmark 时间 \( t_L \)：固定预测起点。
预测 horizon \( \tau \)：预测 \( t_L \) 后 \( \tau \) 时间内事件概率 \( P(T \le t_L + \tau \mid T > t_L, \mathbf{Z}(t_L)) \)。
子抽样设计：全队列 \( N \)，选中子集 \( S \)（nested case-control：每个事件（case）匹配若干未事件控制；或者随机抽样）。
子抽样指示器 \( R_i = 1 \) 若个体 \( i \) 被选入子集并收集协变量，否则 0。
模型
标准 Cox 比例风险模型：

\[\lambda(t \mid \mathbf{Z}(t_L)) = \lambda_0(t) \exp(\beta^\top \mathbf{Z}(t_L)), \quad t \ge t_L\]

未采用时依系数（landmarking 常见假设：在窗口 \([t_L, t_L+\tau]\) 内基线风险形状自由但协变量效应恒定）。
可观测数据
全队列：所有个体的删失时间对 \((\tilde{T}_i, \Delta_i)\) 已知；协变量仅在子集 \( S \) 上被测量；未选个体只有时间数据。
目标是：仅用子集 \( S \) 及其已知的抽样概率（基于 case/control 状态或时间依赖的抽样权重）估计预测概率 \( \hat{P}(T \le t_L+\tau \mid T > t_L, \mathbf{Z}(t_L)) \)。

第二步：最小内核¶

最简特例：考虑单个固定 landmark \( t_L=1 \) 年，预测 horizon 1 年，仅用一个基线协变量 \( Z \)，子抽样为简单随机抽样（无需匹配）。此时：

全队列分析：用所有存活至 1 年的个体拟合 Cox 模型，估计 \( \beta \)，再计算基线累积风险 \( \hat{\Lambda}_0(t) \)，预测概率为 \( 1 - \exp(-\hat{\Lambda}_0(t) e^{\hat{\beta} Z}) \)。
子抽样问题：只有 1/10 的存活个体实际测量了 \( Z \)。若直接忽略未测量个体，估计 \( \beta \) 会受选择性偏倚（若抽样概率与 \( Z \) 相关则严重）。
本文核心理念：子抽样个体可视为“加权”的伪全队列。
IPW 方法：给每个被抽到个体赋予权重 \( w_i = 1 / \pi_i \)，其中 \( \pi_i \) 为基于其可观测时间状态（case/control）计算的条件抽样概率。然后带着该权重拟合加权 Cox 模型（即求解加权部分似然）。这相当于用反概率权重修复抽样偏倚。
条件似然方法：只在子抽样个体中，构造以匹配组（如每一 case 与其对照）为条件的似然函数，避免显式估计抽样概率。
最小证明思路：在 Cox 模型下，加权估计方程是渐近无偏的，条件是抽样概率已知或可从时间数据一致估计；条件似然估计是标准条件 logistic 回归的推广，一致性来自匹配设计的随机化。

这个特例体现了本文所有的技术困难归结为一个点：如何在子抽样偏倚下用加权/条件似然恢复全队列 Cox 估计的性质。

三、这篇论文做了什么¶

三句话
① 研究了在队列子抽样设计（如 nested case-control）下，如何使用 landmarking 进行动态预测；
② 提出了两种框架：条件似然估计（conditional likelihood）和逆概率加权（IPW）估计，并讨论了适用场景；
③ 通过模拟和 PLCO 癌症试验数据展示了子抽样方法能达到近乎全队列的预测精度，仅需少部分数据。
关键设定与假设（基于摘要，不全）
假设子抽样概率仅依赖于观测到的删失状态和已知的抽样方案（如时间匹配），即可忽略性（ignorability of selection given observed history）。
假设全队列的预测模型（Cox）在 landmark 窗口内比例风险成立。
未明言但对 IPW 重要的假设：抽样概率被正确指定且非零；条件似然法要求匹配组内同分布假设。
相比已有文献：条件似然法在子抽样生存分析中已有（如 Thomas 1977），但结合 landmark 动态预测属本文新组合。
主要结果（来自摘要 + 领域推测）
理论部分：两种方法均给出了一致估计（可能需要在给定映射测量下渐近正态），但 abstract 未提效率界。
模拟结果：“仅用小部分全队列数据即可达到相近预测精度”——没有报告具体相对效率（如方差膨胀因子），但应展示了偏差趋零。
实证例子：PLCO 嵌套病例-对照数据（具体癌症：前列腺、肺癌、结直肠、卵巢），可能展示了 landmark 年份的选择及预测 AUC 对比。
证明路线与技术技巧
整体路线（推测）：
1. 对每个 landmark 时间 \( s \)，定义风险集 \( R(s) = \{i: \tilde{T}_i > s\} \)。
2. 在子抽样设计下，用 IPW 或条件似然构建加权部分似然。
3. 证明该估计方程在给定抽样权重下无偏，进而得到参数一致性与渐近正态性（借助 M-估计理论）。
关键跳跃点：子抽样导致的依赖结构（同一 case 与其匹配对照之间的相关性）如何处理方差估计？可能通过 sandwich 方差或 bootstrap。
技术技巧：IPW 使用的是标准的 inverse probability of selection weights；条件似然通过分层匹配避免直接建模抽样概率，属于“以设计为基础的推断”。
真实例子与应用
使用 PLCO 癌症筛查试验中的嵌套病例-对照数据。具体设计：对每一例癌症病例，从同风险集中抽取 1–2 名对照；仅这些人的协变量（如血液生物标志物）被测定。本文用这些数据演示 landmark 1 年、3 年、5 年时的预测概率。可能展示了 IPW 与条件似然的 AIC 比较或校准曲线。
🔎 结论是否比证明窄
Abstract 声称“与全队列分析预测性能相似”，但没有给出严格的渐近等价性证明或有限样本保证。需要核查正文是否承认：“在极端抽样比例（如 5%）下，方差可能较大”。此外，条件似然法在非比例风险下的表现可能未被严格证明。

四、开放问题（点到为止）¶

方差与效率的量化：本文未报告IPW vs 条件似然的相对方差膨胀因子。这是可查证的缺口——正文模拟表中是否有标准误比较？若没有，可补充研究。扎根于“Results show that our methods have similar predictive performance to the full cohort analysis”缺乏量化。
子抽样设计对动态预测评价指标（如 time-dependent AUC）的影响：预测性能的评价（AUC, Brier score）在子抽样下需要校正，本文是否讨论了校正方法？可能未涉及。
时依系数的扩展：Landmarking 可自然推广到时依系数模型，子抽样下是否能保持？本文仅用比例风险假设，可以放宽。
多个 landmark 的联合推断：对同一队列做多次 landmark 预测需调整多重比较或平滑，本文未提。扎根于方法描述仅针对单个 Landmark。

Maintained by 陈星宇 · Homepage · Source on GitHub