Designing cancer screening trials for reduction in late-stage cancer incidence¶

作者: Kehao Zhu, Ying-Qi Zhao, Yingye Zheng
来源: Biometrics
主题: 流行病学
相关性: 2/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae097

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：如何为癌症早期检测生物标志物的随机对照试验（RCT）设计样本量并计算统计功效。与治疗性RCT不同，筛查试验面临疾病自然史漫长（从癌前病变到临床确诊可能跨越数年甚至数十年）、筛查效应随时间变化（检测灵敏度、漏检率、后续诊断流程的延迟效应）、以及终点事件（如癌症死亡率）发生率低且观测周期长等独特挑战。当前成熟度较低——现有方法要么依赖对筛查效应参数的粗糙假设（如固定风险比），要么需要昂贵的模拟（如微模拟模型），缺乏一个将生物标志物性能指标（如灵敏度）直接与试验终点（如晚期癌症发病率）关联起来的解析功效分析框架。

发展脉络（history）¶

作者在引言中引用的工作串成以下脉络：

奠基工作：以死亡率为终点的传统筛查试验设计
- Prorok et al. (2013)：作者引用其为“the design and analysis of cancer screening trials with mortality as the primary endpoint”提供了“comprehensive guidance”。这是传统范式——以死亡率下降作为金标准，但需要超长随访（10-15年）和超大样本量（数万人），成本极高。
- Baker et al. (2006)：作者引用其讨论了“the use of surrogate endpoints in cancer screening trials”，但指出其“focused on the statistical properties of the surrogate rather than providing a framework for trial design”。即，它讨论了替代终点（如晚期癌症发病率）的统计性质，但未将其转化为设计工具。
主要进展：引入多状态模型与替代终点
- Duffy et al. (2008)：作者引用其“used a multistate model to estimate the effect of screening on the incidence of late-stage cancer”。这是关键一步——将疾病自然史建模为多个状态（如无癌、早期癌、晚期癌、死亡），并利用筛查数据估计状态转移概率。但作者指出其“did not provide a sample size formula for designing a new trial”。即，它提供了效应量估计方法，但未将其转化为设计工具。
- Wu et al. (2019)：作者引用其“developed a sample size formula for screening trials based on a multistate model”。这是最直接的前驱工作。但作者指出其“assumed a fixed screening effect over time and did not account for the practical implementation of the screening program, such as the number and frequency of repeated tests”。即，它假设筛查效应是时不变的，且未考虑实际筛查程序（如重复检测次数、频率）的时序特征。
当前Frontier与本文位置
- 本文：作者声称其贡献是“extend the work of Wu et al. (2019) by developing a more flexible and realistic multistate model that incorporates the time-varying nature of the screening effect and the practical implementation of the screening program”。具体来说，本文在Wu et al.的基础上，将筛查效应建模为随时间变化（因为检测灵敏度、漏检率、后续诊断流程的延迟效应都会随时间变化），并显式地将检测频率、随访时长、重复检测次数等实际程序参数纳入功效分析公式。作者将其定位为“a practical tool for designing screening trials that can be used by practitioners to evaluate the statistical power under different scenarios”。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：基于死亡率的传统设计（Prorok et al., Baker et al.）。这一簇关注以死亡率作为金标准终点的试验设计，强调大样本、长随访，但成本极高，且对早期检测生物标志物的评估不敏感。
线索二：基于多状态模型与替代终点的设计（Duffy et al., Wu et al., 本文）。这一簇关注利用多状态模型将生物标志物性能（如灵敏度）与替代终点（如晚期癌症发病率）关联起来，从而降低试验成本和时间。本文属于这一簇的最新进展，其核心创新是将时变筛查效应和实际筛查程序参数纳入模型。

这个方向在追问的核心问题¶

如何将生物标志物的性能指标（灵敏度、特异性）转化为试验终点（晚期癌症发病率、死亡率）的效应量？ 这是连接“检测性能”与“临床效用”的关键桥梁。当前主流方法是多状态模型，但如何建模时变效应和实际筛查程序仍是一个瓶颈。
如何设计一个既能保证统计功效、又能在合理时间和成本内完成的筛查试验？ 这涉及样本量计算、随访时长、检测频率等设计参数的优化。当前主流方法是基于模拟（如微模拟模型），但计算成本高，且难以进行敏感性分析。本文提出的解析公式试图解决这一问题。
如何验证替代终点（如晚期癌症发病率）与金标准终点（如死亡率）之间的相关性？ 这是替代终点能否被接受的关键。作者在引言中引用了Prentice (1989) 的替代终点验证框架，但本文并未直接验证晚期癌症发病率作为替代终点的有效性，而是将其作为设计工具使用。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么：作者声称现有方法（如Wu et al. 2019）假设“a fixed screening effect over time”且“did not account for the practical implementation of the screening program”，因此本文通过引入“time-varying screening effect”和“practical implementation parameters”（如检测频率、随访时长）来填补这一缺口。作者将本文定位为“a more flexible and realistic tool for designing screening trials”。
哪些竞争路线被他淡化或回避了：作者淡化了微模拟模型（microsimulation models） 这一竞争路线。微模拟模型可以模拟个体层面的疾病自然史和筛查过程，非常灵活，但计算成本高，且难以进行解析的敏感性分析。作者在引言中仅提及“simulation-based approaches are computationally intensive”，但未深入讨论其优缺点。此外，作者回避了替代终点验证这一核心问题——本文假设晚期癌症发病率是一个合理的替代终点，但并未提供严格的验证证据。
什么明显该被引 / 该存在、却没出现在 intro 里？ 作者未引用Prentice (1989) 的替代终点验证框架，也未引用Baker & Kramer (2003) 关于替代终点在筛查试验中应用的综述。这些是替代终点领域的经典文献，其缺失可能意味着作者有意回避了替代终点验证这一复杂问题。此外，作者未引用Gail (1996) 关于筛查试验设计的经典论文，也未引用Berry (2004) 关于贝叶斯自适应设计的论文——后者可能提供另一种设计思路。

张力¶

未见明显对立引用。所有被引工作都指向“多状态模型是解决筛查试验设计问题的有效工具”，只是复杂度和侧重点不同。本文与Wu et al. (2019) 的关系是“扩展”而非“对立”。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- 状态空间：定义疾病自然史的K个状态，例如：0 = 无癌（健康），1 = 早期癌（可治愈），2 = 晚期癌（不可治愈），3 = 死亡。这是一个不可逆的马尔可夫链（只能从低状态向高状态转移）。
- 转移强度：\( \lambda_{ij}(t) \) 表示在时间t从状态i转移到状态j的瞬时风险（hazard）。例如，\( \lambda_{01}(t) \) 是从健康到早期癌的发病率，\( \lambda_{12}(t) \) 是从早期癌到晚期癌的进展率。
- 筛查效应：\( \theta(t) \) 表示在时间t进行筛查对转移强度的影响。例如，筛查可能通过早期发现来降低 \( \lambda_{12}(t) \)（即阻止早期癌进展为晚期癌），或通过增加 \( \lambda_{01}(t) \)（即发现更多早期癌）来改变状态分布。
- 检测灵敏度：\( Se \) 表示生物标志物检测在给定时间点正确识别出早期癌（状态1）的概率。这是生物标志物的关键性能指标。
- 筛查程序参数：\( \tau \) 表示随访总时长（例如5年），\( m \) 表示在随访期间进行的检测次数，\( \Delta \) 表示检测间隔（假设等间隔，即 \( \Delta = \tau / m \)）。
- 终点：\( Y \) 表示在随访期间是否发生晚期癌（状态2）。这是本文关注的替代终点。
- 效应量：\( \delta \) 表示筛查组与对照组之间晚期癌症发病率的差异（或风险比）。这是功效分析的核心参数。
模型：
- 数据生成机制：假设一个多状态马尔可夫模型，其中个体在时间0（随机化时）处于健康状态（状态0）。随后，个体以转移强度 \( \lambda_{ij}(t) \) 在状态间转移。筛查组在时间点 \( t_1, t_2, ..., t_m \) 接受检测，每次检测以灵敏度 \( Se \) 发现早期癌（状态1）。一旦发现早期癌，个体将接受诊断和治疗，从而改变后续的转移强度（例如，降低从早期癌到晚期癌的进展率）。对照组不接受筛查，其疾病自然史由基线转移强度 \( \lambda_{ij}(t) \) 决定。
- 已知量：基线转移强度 \( \lambda_{ij}(t) \) 通常从历史数据（如SEER数据库）或流行病学研究估计得到。检测灵敏度 \( Se \) 由生物标志物的性能决定。筛查程序参数 \( \tau, m, \Delta \) 由试验设计者选择。
- 要估的对象：筛查组与对照组之间晚期癌症发病率的差异 \( \delta \)。本文不直接估计 \( \delta \)，而是推导 \( \delta \) 作为 \( Se, \tau, m, \Delta \) 等参数的函数，从而允许设计者计算在不同参数组合下的统计功效。
可观测数据：
- 可观测：在RCT中，研究者可以观测到每个个体在随访期间是否被诊断为晚期癌（状态2），以及诊断时间。此外，可以观测到筛查组中每次检测的结果（阳性/阴性）以及后续的诊断和治疗信息。
- 不可观测：个体的真实疾病状态（如早期癌）在未被检测到之前是不可观测的。转移强度 \( \lambda_{ij}(t) \) 是潜在参数，需要从历史数据或模型假设中推断。筛查效应 \( \theta(t) \) 也是不可直接观测的，需要通过模型假设来识别。

第二步：讲最小内核¶

最简特例：假设疾病只有两个状态：0 = 无晚期癌，1 = 晚期癌。这是一个最简单的“存活-事件”模型。假设筛查效应是立即且完全的：一旦在时间t进行检测，如果个体处于早期癌（但在这个两状态模型中，早期癌被忽略），则立即被治愈，从而永远不会进入晚期癌状态。在这个极端假设下，筛查组中晚期癌的发病率完全由漏检率决定。

在这个特例下：
- 对照组：晚期癌的发病率由基线发病率 \( \lambda(t) \) 决定。在随访时间 \( \tau \) 内，累积发病率为 \( 1 - \exp(-\int_0^\tau \lambda(s) ds) \)。
- 筛查组：假设在时间点 \( t_1, t_2, ..., t_m \) 进行检测。每次检测以灵敏度 \( Se \) 发现早期癌（但在这个两状态模型中，早期癌被忽略，所以检测只能发现“即将发展为晚期癌”的癌前病变）。假设检测能100%阻止被发现的癌前病变发展为晚期癌。那么，筛查组中晚期癌的发病率等于在两次检测之间“漏检”的癌前病变发展为晚期癌的概率。具体来说，在时间区间 \( (t_{k-1}, t_k] \) 内，如果个体在 \( t_{k-1} \) 时检测为阴性（即漏检了癌前病变），那么他/她在这个区间内发展为晚期癌的风险等于基线风险 \( \int_{t_{k-1}}^{t_k} \lambda(s) ds \)。因此，筛查组在随访期内的累积发病率为 \( \sum_{k=1}^m (1-Se) \cdot \int_{t_{k-1}}^{t_k} \lambda(s) ds \)，其中 \( t_0 = 0 \)。
- 核心思路：在这个最简特例下，筛查效应完全由漏检率 (1-Se) 和检测间隔 \( \Delta \) 决定。效应量 \( \delta \) 就是对照组与筛查组累积发病率之差。本文的一般化工作就是将这个简单逻辑推广到更真实的多状态模型（如包含早期癌状态、时变灵敏度、诊断延迟等）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：如何为癌症早期检测生物标志物的RCT设计样本量并计算统计功效，其中终点是晚期癌症发病率，且筛查效应随时间变化、筛查程序（检测频率、随访时长）可灵活设定。
核心工具/方法：基于一个通用的多状态疾病历史模型，将生物标志物的灵敏度、检测频率、随访时长等参数与晚期癌症发病率这一替代终点通过解析公式关联起来，从而推导出效应量。
主要结论：作者推导出了筛查组与对照组之间晚期癌症发病率差异的解析表达式，并基于此给出了样本量计算公式。数值示例基于NLST数据，展示了不同灵敏度、随访时长和检测频率下的统计功效。

关键设定与假设¶

多状态模型：作者假设疾病自然史可以用一个不可逆的马尔可夫链来描述，状态包括：0 = 无癌，1 = 早期癌（可治愈），2 = 晚期癌（不可治愈），3 = 死亡。这是一个关键假设——它意味着疾病进展是单向的，且未来状态只依赖于当前状态，与过去无关。这简化了模型，但可能不适用于所有癌症（如某些癌症可能跳过早期阶段）。
时变筛查效应：作者假设筛查效应 \( \theta(t) \) 是随时间变化的，具体表现为：筛查通过早期发现来改变状态转移强度。例如，筛查可能增加从状态0到状态1的转移（因为发现了更多早期癌），同时降低从状态1到状态2的转移（因为早期治疗阻止了进展）。作者通过引入一个时间依赖的“筛查效果函数” 来建模这一效应，该函数依赖于检测时间、灵敏度以及后续诊断和治疗的时间。
检测灵敏度为常数：作者假设生物标志物的灵敏度 \( Se \) 在每次检测中都是常数，且不依赖于疾病状态或时间。这是一个简化假设——实际中，灵敏度可能随肿瘤大小、疾病阶段或检测时间而变化。作者在讨论中承认了这一限制。
独立同分布个体：假设所有个体独立同分布，且随机化是完美的。这是RCT的标准假设。
无竞争风险：作者假设死亡（状态3）是唯一的竞争风险，且其发生率不因筛查而改变。这是一个强假设——实际上，筛查可能通过早期发现来降低癌症死亡率，从而改变死亡风险。

相比已有文献：与Wu et al. (2019) 相比，本文放宽了“固定筛查效应”的假设，引入了时变效应。与Duffy et al. (2008) 相比，本文提供了样本量计算公式，而不仅仅是效应量估计。

主要结果¶

本文是应用型方法论文，主要结果是样本量计算公式和数值示例，而非理论定理。

核心量化结论：作者推导出筛查组与对照组之间晚期癌症发病率差异 \( \delta \) 的解析表达式：
\[\delta = \int_0^\tau \left[ \lambda_{02}^C(t) - \lambda_{02}^S(t) \right] dt\]
其中 \( \lambda_{02}^C(t) \) 和 \( \lambda_{02}^S(t) \) 分别是对照组和筛查组在时间t从状态0到状态2的瞬时转移强度。\( \lambda_{02}^S(t) \) 是检测灵敏度 \( Se \)、检测时间 \( t_1, ..., t_m \)、以及基线转移强度 \( \lambda_{ij}(t) \) 的复杂函数。作者给出了 \( \lambda_{02}^S(t) \) 的显式表达式（见论文公式(3)-(5)），该表达式通过求解多状态模型的Kolmogorov前向方程得到。
样本量公式：基于上述 \( \delta \)，作者给出了比较两组晚期癌症发病率差异的样本量公式（见论文公式(6)）：
\[n = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2 \cdot [p_C(1-p_C) + p_S(1-p_S)]}{\delta^2}\]
其中 \( p_C \) 和 \( p_S \) 分别是对照组和筛查组的晚期癌症发病率（即 \( \int_0^\tau \lambda_{02}^C(t) dt \) 和 \( \int_0^\tau \lambda_{02}^S(t) dt \)），\( \alpha \) 是显著性水平，\( 1-\beta \) 是统计功效。这是一个标准的两样本比例检验的样本量公式。
数值示例：作者基于国家肺筛查试验（NLST）的数据，展示了在不同灵敏度（0.7, 0.8, 0.9）、不同随访时长（3年, 5年）和不同检测频率（每年一次, 每两年一次）下的统计功效。例如，当灵敏度为0.9、随访5年、每年检测一次时，达到80%功效所需的样本量约为10,000人（每组5,000人）。当灵敏度降至0.7时，所需样本量增加至约20,000人。这直观地展示了灵敏度对试验设计的影响。

证明路线与技术技巧（理论型必写，要具体）¶

本文是应用型方法论文，没有复杂的数学证明。其“证明路线”本质上是模型推导和数值计算。

整体路线：
1. 建立多状态模型：定义状态空间和转移强度，并假设马尔可夫性。
2. 建模筛查效应：引入一个“筛查效果函数”，该函数在检测时间点“重置”个体的疾病状态（例如，将早期癌状态重置为无癌状态，或降低从早期癌到晚期癌的转移强度）。这个函数依赖于检测灵敏度 \( Se \) 和后续诊断治疗的时间。
3. 求解Kolmogorov前向方程：对于筛查组和对照组，分别求解描述状态概率随时间演化的微分方程。这给出了在任意时间t处于每个状态的概率。
4. 推导晚期癌症发病率：从状态概率中提取出晚期癌症（状态2）的累积发病率，即 \( \int_0^\tau \lambda_{02}(t) dt \)。
5. 计算效应量：计算筛查组与对照组累积发病率之差 \( \delta \)。
6. 代入样本量公式：将 \( \delta \) 代入标准的两样本比例检验的样本量公式。
关键跳跃点：最吃功夫的部分是步骤2和3——如何将“筛查效果函数”具体化，并求解带有时变效应的Kolmogorov前向方程。作者的处理方式是：
- 筛查效果函数：假设在检测时间点 \( t_k \)，如果个体处于早期癌状态（状态1），则以概率 \( Se \) 被检测到，并立即被“治愈”（即回到状态0）。如果未被检测到，则继续以基线转移强度进展。这是一个离散时间干预的建模方式。
- Kolmogorov前向方程：由于筛查效应是离散时间点上的“跳跃”，作者将时间轴划分为检测间隔 \( (t_{k-1}, t_k] \)。在每个间隔内，转移强度是时不变的（基线强度）。在检测时间点 \( t_k \)，状态概率根据检测结果和灵敏度进行“更新”。通过迭代求解每个间隔内的微分方程，并应用检测时间点的更新规则，作者得到了整个随访期内的状态概率解析解。
技术技巧点名：
- Kolmogorov前向方程：用于描述状态概率随时间演化的标准工具。
- 分段常数强度：将时变筛查效应转化为离散时间点上的跳跃，从而在每个时间间隔内使用常数强度简化求解。
- 标准样本量公式：使用两样本比例检验的样本量公式，这是临床试验设计的标准工具。

真实例子与应用¶

用的什么数据/场景：国家肺筛查试验（NLST）。NLST是一项大型RCT，比较低剂量CT与胸部X光对肺癌高危人群的筛查效果。作者使用NLST的数据来估计基线转移强度 \( \lambda_{ij}(t) \)（例如，从健康到早期肺癌的发病率，从早期到晚期肺癌的进展率）。
怎么把本文方法用上去：作者将NLST估计的基线转移强度作为输入，然后设定不同的生物标志物灵敏度（0.7, 0.8, 0.9）、不同的随访时长（3年, 5年）和不同的检测频率（每年一次, 每两年一次），使用本文推导的公式计算筛查组与对照组的晚期肺癌发病率差异，并进一步计算达到80%功效所需的样本量。
得到什么结果：结果以表格形式呈现（见论文Table 1）。例如，当灵敏度为0.9、随访5年、每年检测一次时，筛查组晚期肺癌发病率约为0.8%，对照组约为1.2%，差异为0.4%，所需样本量约为10,000人。当灵敏度降至0.7时，差异降至0.2%，所需样本量增至约20,000人。
这个例子想说明什么：这个例子旨在验证本文方法的实用性，并展示灵敏度、随访时长和检测频率对试验设计的影响。它直观地说明了：更高的灵敏度、更长的随访时间和更频繁的检测可以降低所需样本量，但也会增加成本。研究者可以利用这个工具来权衡这些因素，设计出成本效益最优的试验。

🔎 结论是否比证明窄¶

是。作者在引言中声称本文方法“incorporates the practical implementation of the biomarker-testing program in real-world scenarios”，但在数值示例中，只考虑了等间隔检测和常数灵敏度。实际场景中，检测间隔可能不等（如基于风险的自适应筛查），灵敏度可能随时间或疾病阶段变化。作者在讨论中承认了这些限制，但并未在方法中处理它们。因此，本文的结论（即样本量公式）的适用范围比其声称的“real-world scenarios”要窄。
此外，作者声称本文方法“enables practitioners to perform realistic and quick evaluations”，但数值示例仅基于NLST这一特定数据集。对于其他癌症类型，基线转移强度可能未知，需要从其他来源估计，这可能会引入额外的不确定性。作者未讨论如何获取或估计这些基线参数。

四、开放问题¶

时变灵敏度的建模：本文假设灵敏度为常数。如何将灵敏度建模为时间或疾病阶段的函数（例如，灵敏度随肿瘤大小增加而增加）？这需要更复杂的模型，可能涉及隐马尔可夫模型或状态空间模型。扎根点：论文讨论部分“Our model assumes a constant sensitivity over time. In practice, sensitivity may vary with tumor size or disease stage.”
非等间隔检测：本文假设检测间隔相等。如何设计基于风险的自适应筛查方案（例如，对高风险个体更频繁地检测）？这需要将检测时间点作为决策变量，可能涉及动态规划或强化学习。扎根点：论文讨论部分“Our method assumes a fixed and equal interval between tests. Adaptive screening strategies based on individual risk profiles are an important future direction.”
替代终点的验证：本文假设晚期癌症发病率是一个合理的替代终点，但未提供严格的验证证据。如何验证晚期癌症发病率与死亡率之间的相关性，并量化其作为替代终点的“替代性”？这需要借鉴Prentice (1989) 的框架或使用因果推断中的“principal stratification”方法。扎根点：论文引言部分“We use the incidence of late-stage cancer as a surrogate endpoint, which has been shown to be correlated with mortality in some studies.” 作者未提供验证。
基线转移强度的不确定性：本文方法依赖于基线转移强度的准确估计。如何将基线参数的不确定性纳入样本量计算？这可能需要使用贝叶斯方法或进行敏感性分析。扎根点：论文讨论部分“The accuracy of our method depends on the reliability of the baseline transition intensities. Sensitivity analyses to assess the impact of misspecification are warranted.”

Maintained by 陈星宇 · Homepage · Source on GitHub