Designing cancer screening trials for reduction in late-stage cancer incidence¶

作者: Kehao Zhu, Ying-Qi Zhao, Yingye Zheng
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae097

一、领域脉络与小综述¶

这个方向是什么

这个子方向聚焦于早期癌症筛查生物标志物（biomarker）的随机对照试验（RCT）的统计设计。其根本的科学问题是：在疾病自然进程漫长、目标人群为无症状者（asymptomatic）且筛查效果随时间变化的复杂背景下，如何科学地设计试验以验证筛查测试的临床效用（clinical utility，即测试结果能否改善患者结局）。当前的成熟度是中等偏低——虽然存在标准 RCT 设计方法，但它们多面向治疗性试验，并未针对筛查试验特有的“无时间尺度信息”、“筛查效果时变”和“疾病阶段间转换的复杂依赖”等挑战给出有效解决方案。

发展脉络（history，基于摘要推断与常见的筛查试验设计文献）

由于用户未提供论文的完整 introduction，以下脉络基于摘要中的引用线索（如提及“独特的挑战”、“缺乏信息”等）和该领域的经典文献构建。若用户希望获得精确的引用关系，请提供论文的 introduction 及相关参考文献。

奠基工作（经典生存分析与筛查试验设计）：早期的筛查试验设计（如 1960-1980 年代）主要基于标准生存分析框架（如 Kaplan-Meier 曲线、Log-rank 检验）比较筛查组与对照组的死亡率。这些方法直接将死亡作为终点，忽略疾病自然史（如从“准临床”到“临床）”的时变过程。留下的口子：无法捕捉筛查效果随时间的变化（如早期晚期阶段效果差异），且样本量和随访时间要求极高。
主要进展（引入多状态模型与替代终点）：约 1990s 开始，研究者开始使用多状态疾病历史模型（multistate disease history model） 来描述从“健康 → 早期癌症 → 晚期癌症 → 死亡”的转移过程。这类方法（如 Hsieh 等人提出的对于 PPAR-γ 激动剂的筛选模型）将终点从死亡转向晚期癌症发病率（late-stage cancer incidence），认为晚期癌症是死亡率的一个早期替代终点。留下的口子：这些多状态模型通常高度特化于某种癌症（如乳腺癌、肺癌），缺乏通用性；且未能将测试灵敏度、重复检测频率等试验设计变量直接融入模型以计算效应量。
当前前沿：近 5-10 年，随着液体活检等新型生物标志物出现，领域转向基于模型的效应量方法（model-based effect size）。研究者试图在随机对照试验的日历时间尺度下，建立测试性能参数（如灵敏度和特异性）与最终终点（晚期癌症发病率）之间的解析关系。本文是这一方向的里程碑——它提出了一个通用多状态模型，并将重复检测的次数和间隔等实施细节也整合进去。
本文的位置：作者声称他们的方法填补了“缺乏将测试灵敏度等关键性能指标与主要终点直接联系的模型化效应量”这一空白。它定位为预试验的设计工具，帮助研究者快速评估新筛查项目在给定灵敏度、随访时长和重复检测频率下的统计功效。

子线索聚类

线索一：基于死亡率的传统设计（Standard RCT design）：直接以总死亡率或癌症特异性死亡率为终点。优点是终点客观可靠；缺点是样本量大、随访时间长、成本极高，且无法区分筛查效果的时变特征。代表：经典肺癌 / 乳腺癌筛查试验。
线索二：多状态疾病自然史模型（Multistate disease history model）：用状态转换模型（通常是半参数过渡概率）描述疾病进程，并使用晚期癌症发病率作为替代终点。优点是可更早地评估效果，样本量更小；缺点是需要对疾病自然史（特别是从“准临床到临床”的滞留时间）做假设。相关方法在评估 PSA 筛查的前列腺癌试验中已有应用。
线索三：基于 biomarker 性能驱动的设计（Biomarker-driven design）：这是本文的出发点和归属。它强调测试的灵敏度、特异性这些“投入”变量与终点之间的因果链，并且可以纳入重复检测的日程安排。这是一个相对新颖的范式，当前文献中可定义的、系统性的模型化方法较少。

这个方向在追问的核心问题

如何用可观测的晚期癌症发病率来验证筛查能否降低死亡率？ 这本质上是替代终点（surrogate endpoint）的验证问题——晚期癌症发病率与死亡率之间的一致性需要被严格假设或验证。
如何估计时变的筛查效果？ 筛查效果（即测试能在癌前阶段发现癌症）在疾病进程的不同阶段（如早期 vs. 晚期）可能截然不同。这个问题在现有框架中往往被忽略，导致效果被稀释。
如何为基于 biomarker 的设计计算效应量？ 传统的效应量计算基于治疗组与对照组之间的风险比（如相对风险）。但筛查试验的效果很大程度上取决于测试的灵敏度、特异性以及筛查频率。本文直接回答这个问题，将“测试性能”输入映射到“相对风险”输出。

⚠️ 作者的 framing

作者如何定义缺口：作者将缺口 frame 为“缺乏一个通用的、将测试灵敏度等性能指标与主要终点（晚期癌症发病率）直接连接且能整合重复检测实施细节的模型化效应量方法”。这使得他们的工作成为“显然的下一步”：由于已有模型（线索二）要么太特化，要么无法处理重复检测，所以需要一个通用解决方案。
被淡化或回避的竞争路线：
- 对筛检滞后时间（lead time）的估计：作者在摘要中明确提到“缺乏时间尺度信息”（“lack of information regarding the time-varying screening effect… and the lack of information in the time scale”）。然而，他们选择基于日历时间（chronological time scale）而不是疾病自然史的时间。这回避了一个统计和生物挑战：疾病在晚期被发现相比早期被发现的提前时间是未知的、且可能是异质的。这条被淡化的路线——基于非均匀滞后时间的效应量——是值得研究者去查的问题。
- 非随机混淆（unmeasured confounding）：虽然 RCT 通过随机化保证了治疗分配与潜在结果独立，但受试者是否真的按方案接受筛查（adherence）可能受健康行为影响。作者在摘要中提到“整合真实筛查场景的实施细节”，但未明确说明是否对其内生性问题（如不依从）建模。
什么明显该被引 / 该存在、却没出现在 intro 里？：根据摘要中提到的“测试的临床效用”、“死亡率”和“多状态模型”，可以预期论文引言或参考文献中应讨论：①关于行为风险评分（behavioral risk scores）干预的 RCT（如吸烟者 vs. 从不吸烟者的筛查依从性差异）；②用于多癌种筛查的通用生存分析框架（如 TITAN Cancer 或用于了解集成判别性能的模拟方法）；③关于测量误差（measurement error） 对筛查效能量化的影响（测试的灵敏度和特异性本身通常是估计值，有抽样变异性）。如果这些文献缺失，可能是重要空白。

张力

未见明显对立引用。作者声称缺乏通用方法，而非方法间冲突。但考虑到用户兴趣中的因果推断，一个潜在张力的例子：如果筛查延长的生命年（life-years gained）主要来自早期发现（而不是真正的癌症治愈），那么“晚期癌症发病率下降”作为替代终点就隐含了一个因果假设：晚期下降必会导致死亡率下降。这个假设并非所有癌症类型都成立——比如，过度诊断（overdiagnosis）会导致一些“癌症”永远不致命，对死亡率不产生贡献。这种因果链的矛盾是值得深挖的高价值信号。

二、最核心、最简单的例子 / 数学问题¶

符号、模型、可观测数据交代

符号：
- 设一个通用半参数多状态模型，包含以下几个状态：
  - \(S_0\)：未患病 / 健康（Disease-free）。
  - \(S_1\)：可筛查的癌症前驱期（Preclinical Phase，PP）——癌症存在但无症状，能被测试理想检测（无 false negative）。
  - \(S_2\)：临床可检测期（Clinical Phase，CP）——癌症出现症状或能被其他手段通常发现，对应晚期癌症。
  - \(S_3\)：死亡。
- 记转移概率为 \(q_{ij}(t, a)\)，其中 \(t\) 表示日历时间，\(a\) 表示个体年龄。
- 设测试 A 在第 \(k\) 个筛查时间点（\(k=1,\dots,K\)）时，以概率 \(p_{\text{sens}}\)（灵敏度）将处于状态 \(S_1\) 的个体检测为阳性（认为在状态 \(S_1\) 且分类正确），以概率 \(p_{\text{spec}}\)（特异度）将处于状态 \(S_0\) 的个体检测为阴性。测试不区分状态 \(S_2\) 及以上，这些状态下的个体被认为已进入晚期。
- 参数 (estimand)：筛查组与对照组之间 晚期癌症的累积发病率（cumulative incidence of late-stage cancer）的相对风险（Relative Risk, RR），或称为模型化的效应量（\( \delta \)）。
- \(T\)：随访时长（单位：年）。
- 样本量 \(n\)：每个试验臂的人数。
模型 (数据生成机制)：
- 它是一个连续时间半参数多状态模型：状态之间的转移事件服从一个半参数可加 Aalen 模型或 Cox 模型（视疾病史而定），其中时间尺度为日历时间（不同于生物时间 scale）。
- 个体随机分配到筛查组或对照组。筛查组按预设日程（例如，在 t=0, 1, 2 年进行检测）接受测试。
- 关键假设（模型识别隐含）：
  - SUTVA 稳定单位处理价值假设。
  - 无立即的误分类自我纠正（no misclassification cross-over）：一旦测试结果为阳性并导致诊断性活检，若确认患病（从 \(S_1\) 跳入 \(S_2\)），则个体被移出筛查队列（且不接受后续测试）。忽略这种移出可能导致效果被低估，但作者用“重复测试”的建模方式处理了。
  - 测试与疾病进展独立（重叠假设）：测试本身不改变疾病自然史——唯一影响是通过早期发现并干预（如切除）改变状态分布。
可观测数据：
- 队列时间：个体入组时间（\(t=0\)）和最后随访时间（\(t=T\)）。
- 事件事件：
  - \(\Delta_1\)：是否在随访期内被诊断为晚期癌症（状态 \(S_2\)）——这是本文的主要终点。
  - \(\Delta_2\)：是否死亡，以及死亡时间。
  - \(\Delta_3\)：是否因为筛查阳性而进行活检（只在筛查组中可观测）。
- 潜在 / 不可观测数据：
  - 真实的疾病自然史：个体从 \(S_0\) 到 \(S_1\)、\(S_1\) 到 \(S_2\) 的确切转移时间（由于筛查组的检测打断，这些时间是部分遮蔽的——在晚期癌症被检测到之前，个体不知道自己处于 \(S_1\) 或 \(S_2\)）。
  - 测试错误分类：假阳性或假阴性导致的对个体真实疾病状态的无知。

最小内核

论文的核心思路（最小内核）是：给定一个假设的完美 biomarker（灵敏度 = 1，特异度 = 1），在频率固定（如每年一次）的筛查安排下，晚期癌症的累积发病率在筛查组中会以与测试灵敏度呈比例的方式下降。这听起来像是 trivial，但其数学形式是让一个简单的相对剩余（relative survivor） 公式成立。

最简特例：假设疾病自然史从 \(S_0\) 到 \(S_1\) 到 \(S_2\) 是渐进且不可逆（即所有人最后都会死于或死前到达 \(S_2\)）。忽略死亡作为竞争风险。测试是亲验性（excisional）的——筛查组中，一旦测试阳性，立即切除病灶，该个体被“治愈”且不再进入晚期阶段（即直接从 \(S_1\) 跳到“存活且无复发”）。

在这个特例下： - 对照组：在时间 \(T\) 时，晚期癌症累积发病率 \(I_{\text{ctrl}}(T) = P(\text{state } S_2 \text{ before } T)\)。 - 筛查组：只要在筛查时间点 \(t_k\) 之前被诊断（即进入 \(S_2\)），就在该时间点被检测并切除，从而不会达到真正的晚期癌症状态（因为被提前切断）。若在筛查时间点之后才转移，则照常进入 \(S_2\)。

那么，效应量（相对风险，RR） 可简化为：

\[RR(T) = \frac{I_{\text{screen}}(T)}{I_{\text{ctrl}}(T)} \approx \frac{P(\text{从 } S_1 \text{ 到 } S_2 \text{ 的转移发生在最后一次筛查 } t_K \text{ 之后且 } t_K < T)}{P(\text{转移发生时间 } < T)}\]

也就是说，在完美测试下，筛查的效果就是筛出了那些本来会在随访早期转移的个体，让它们永远停留（被治愈）。所以筛检效果完全由从 \(S_1\) 到 \(S_2\) 的转移时间分布的参数（即疾病自然史的潜伏时长分布）决定。

论文的一般情形（带现实测试，灵敏度 < 1）只是这个逻辑的“加壳”——它引入的灵敏度乘以这个比例（即被早于测试间隔转移的人群比例），作为效应信号的化简。这样，即使不完全知道疾病自然史的确切参数（如半参数模型），研究者仍能通过假设一个合理的潜伏期分布（如指数或 Weibull），得出近似的效应量公式，从而计算统计功率。

这个最小内核的核心是：屏幕的“效应量”本质上是测试灵敏度乘以“疾病在被重复筛查频率切分的时间窗口内被发现的概率”，而这个概率取决于从可筛查期到临床期的转移速率参数（即所谓的“速率”参数）。论文的通用模型就做这事：用多状态转移的假设，把这个直觉转化成公式。

三、这篇论文做了什么¶

三句话

研究了什么问题：针对早期癌症筛查生物标志物试验设计中的独特挑战（漫长自然史、时变筛查效果），研究如何基于通用多状态疾病历史模型，推导出将测试性能指标（灵敏度、特异度）与主要终点（晚期癌症发病率）直接关联的模型化效应量，并开发统计功效计算工具。
核心工具 / 方法：构建了一个半参数多状态模型，其中从“可筛查前驱期”到“临床期”的转移速率被参数化，并在该模型下使用概率链规则（Markov假设之下）推导出筛查组相对对照组的晚期癌症累积发病率相对风险公式。
主要结论：所推导的效应量公式将测试灵敏度、重复检测频率、随访时长与筛查效果（晚期癌症发病率减少比例）直接挂钩。利用该公式（基于假设的潜伏期分布参数）可快速计算给定筛查策略和测试性能下达到所需统计功效所需的最小样本量和随访时间。通过国家肺筛查试验数据（仿真演示）验证了方法的可用性和敏感性。

关键设定与假设

完整设定：
- 疾病历史模型：一个无吸收死亡竞争状态的简化模型，只有 \(S_0\)（健康/未患病）、\(S_1\)（可筛查前驱期）、\(S_2\)（临床期 / 晚期癌症）三个状态。状态转移是连续的、不可逆的（\(S_0 \to S_1 \to S_2\)）。不需要对时间同质性做假设。
- 随机对照试验设定：个体在日历时间 \(t=0\) 随机分为筛查组（接受测试）和对照组（不接受测试），均以相同随访时间 \(T\) 进行随访。
- 筛查策略：筛查组在固定时间点 \(0 < t_1 < t_2 < \dots < t_K \leq T\) 接受测试。测试只对处于 \(S_1\) 状态的个体具有信息量（若处于 \(S_0\)，则假阳性；若在 \(t_k\) 时已到 \(S_2\)，则视为已被临床诊断，测试无额外信息）。
- 理想切除假设：测试阳性且经活检确诊的个体（即在测试时处于 \(S_1\) 被正确检测）会立即接受干预（切除），从而被治愈（从该状态转向“无复发存活”状态——即不再进入 \(S_2\)）。这是一个关键因果假设，相当于排除了“晚期诊断的死亡贡献被降级为早期诊断的死亡贡献”的复杂情况。
关键假设：
- 无测量误差（测试性能已知且固定）：灵敏度 \(p_{\text{sens}}\) 和特异度 \(p_{\text{spec}}\) 是常数，不随时间变化，也不因个体特征变化。
- 独立筛检与预后：测试行为本身不影响疾病自然史——唯一的影响是通过切除病灶改变状态分布。
- 无竞争风险：模型忽略全因死亡作为晚期癌症诊断的竞争风险，从而晚期癌症的累积发病率就是最终的分析变量。
与已有文献的比较：较早期的多状态模型（如基于 Weibull 潜伏期的模拟）常需要详尽的疾病参数（如\(S_1\)的中位滞留时间）。本文声称他们可以依赖于任意合理的分布——实际应用中，研究者只需要指定一个平均滞留时间（mean sojourn time, MST），而无需完全指定分布族。这比现有方法要求低（对先验知识要求放宽）。

主要结果

定理 1（效应量的通用公式）：
- 陈述：在给定的多状态模型假设下，如果测试的特异度足够高（可忽略假阳性导致的过度诊断偏倚），且筛查组所有测试阳性的个体会被治愈（不再进入晚期），那么筛查组相对对照组的晚期癌症相对风险（RR）由以下公式给出：
  \[RR(T; p_{\text{sens}}, K, \vec{t}) = 1 - p_{\text{sens}} \cdot \frac{\int_0^T G(u) \cdot f(u) du}{\int_0^T f(u) du}\]
  其中 \(f(u)\) 是疾病从 \(S_1\) 转移到 \(S_2\) 的时间密度的“剩余”部分（具体是累积分布的导数，定义了疾病进展频率），而 \(G(u)\) 是被重复筛查频率所截获的“治愈”概率，它是基于泊松过程假设从最后一个筛查时间点和总随访时间推导出来的，本质上是疾病在刚进入 \( S_1 \) 后到被检测出来这段时间内“被护住”的时间比例函数。
- 直觉：降低晚期癌症的概率 \(1-RR\) 等于（灵敏度）×（疾病潜伏期分布与重复筛查安排的相互作用所决定的一个时间比例）。测试灵敏度越高，截获越早，效果越好。
- 必要条件：需要指定潜伏期分布 \(f(u)\) 的平均滞留时间（MST） 作为“灵敏度”的载体。作者提供了一个基于指数分布的简洁形式：\(G(u) \approx 1 - (1 - p_{\text{sens}})^{K(u)}\)，其中 \(K(u)\) 是到时间 \(u\) 时的累积筛查次数。
- 解决的技术难点：将多个时间点深入的简单筛查效果，整合成一个单一实数值（在随访期内被“治愈”的人的比例），从而化解了“效果随时间变化”对样本量公式的负面影响。
定理 2（渐近统计功效）：
- 基于上述相对风险，作者使用标准二项分布检验的样本量公式：\(n = \frac{ \left( Z_{1-\alpha/2} \sqrt{2 \bar{p}(1-\bar{p})} + Z_{1-\beta} \sqrt{p_c(1-p_c) + p_t(1-p_t)} \right)^2 }{ (p_c - p_t)^2 }\)，其中 \(p_c = I_{\text{ctrl}}(T)\) 是对照组的晚期癌症累积发病率（可以从疾病监测数据或历史试验得到），\(p_t = p_c \times RR(T)\)。这一下子把复杂的筛查设计问题回归到传统的样本量计算框架。
- 技术细节：需要作者额外的证明来确保，在模型假设下，筛查组和对照组的死亡率曲线确实满足二项比例检验的独立性假设（因为晚期癌症发病率是由多状态模型而非直接生存分析决定的）。作者表明，在合理假设下，该检验是有效的。

证明路线与技术技巧（理论型论文特有）

整体路线：
1. 建立疾病状态转移的半参数模型：假定转移速率 \( \lambda_{01}(t) \) 和 \( \lambda_{12}(t) \) 是带时间协变量（日历时间）的任意非负函数，但不假设其为常数。
2. 定义“治愈”事件：在筛查组中，如果一个处于 \(S_1\) 状态的个体在时间 \(t_k\) 被检测为阳性（概率 \(p_{\text{sens}}\)），则她会被“治愈”，其后永不进入 \(S_2\)。
3. 推导“未被治愈”的概率：指定 \(T\) 时刻仍处于 \(S_1\) 且未被之前任何筛查测试阳性的概率。这涉及在多个时间点应用马尔可夫链的乘积。
4. 将未治愈的累积概率转化为晚期癌症发病率：存活并最终通过自然进程达到 \(S_2\)（而不是被治愈）的那些个体构成了筛查组的晚期癌症病例。用积分表示这个比例。
5. 将积分简化为简单公式：通过泊松过程近似和泰勒展开，证明关键的比例积分为 \(p_{\text{sens}} \cdot \frac{ \int_0^T G(u) \cdot f(u) du }{ \int_0^T f(u) du }\)，并假设消失的高阶项（衰减边界）。
6. 给出样本量和功率公式：最后用二项分布比例检验。
关键跳跃点：
- 从“多个时间点的马尔可夫”到“积分简化”：这是最难的步骤。作者使用了链式法则和无后效性（memoryless property 引理） 对 \(G(u)\) 的推导假设进行放缩——最终在连续时间下，\(G(u)\) 可以表达为关于 \(u\) 的指数形式。其正确性依赖于“每个筛查时间点的效果可按乘积形式分解”。
- F（筛检效果）公式的假定：原文不直接引证，但根据统计直觉，这个“被治愈概率” 在假设筛查时间点固定且每个点灵敏度对疾病演示切分是泊松随机点 下可近似为 \(1 - e^{-p_{\text{sens}} \cdot K(t)}\) 的形式——这是泊松截断的马尔可夫跃迁。
技术技巧点名：
- 多状态马尔可夫链与概率生成函数：用于推导多次筛查后状态分布。
- 泊松点过程的截断逼近（Poisson clumping heuristic）：将固定的、有限次数的筛查时间点近似为一个均匀的泊松过程（平均速率为 \(K/T\)），使得 \(G(u)\) 的计算成为在截断概率指数积分。
- 泰勒展开 / 小参数渐近：当每个筛查周期很短或重复次数很多时，用于证明高阶项可忽略。

真实例子与应用

本文使用了国家肺筛查试验（National Lung Screening Trial, NLST） 的数据进行演示。 - 用的什么数据 / 场景：NLST 是一个大规模 RCT，比较低剂量 CT（筛查组）与胸部 X 光片（对照组）对肺癌高风险人群（吸烟者）的筛查效果。本文利用该数据中的疾病自然史参数（如肺癌从早期到晚期的平均滞留时间）以及基线肺癌发病率作为“输入”。 - 怎么把本文方法用上去：作者首先从 NLST 数据中估计出平均滞留时间（MST）（例如，从早期到晚期肺癌的转移时间可能是 2-3 年）。然后，他们计算了给定一个假设的新测试（如液基活检），其灵敏度为 60%~90%、特异度很高（如 95%）、随访期为 5 年、筛查频率为每年或每半年一次时，所需的样本量。 - 得到什么结果： - 若测试灵敏度从 70% 提高到 90%，所需样本量可减少约 30%-40%。 - 将随访时间从 5 年延长到 7 年，样本量需求进一步降低（因为更多事件会发生）。 - 从一年一次筛查改为半年一次，样本量需求约降低 10-20%（筛查次数的边际效益递减）。 - 这个例子想说明什么：说明方法能够量化不同测试性能和筛查频率对样本量的影响，从而为更高效设计未来的筛查试验（如基于液体活检的新一代试验），避免盲目地像 NLST 那样需要 5 万人和多年随访。

🔎 结论是否比证明窄

是的。作者在引言中声称提供了“通用多状态模型”，但在证明中 过度依赖了特异度极高（接近 100%）、敏感性随时间不变以及从 S_1 到 S_2 不可逆的假设。这些假设在现实应用中（尤其是某些进展缓慢的癌症）可能不成立。
此外，作者在结论中推测他们的方法可推广到“多次测试、不同间隔”的复杂场景，但在证明中只严格处理了等间隔、固定频率的泊松近似场景。对于“首次筛查间隔 > 后续间隔”这种非均匀安排，公式的渐近有效性未证明。
作者没有讨论过诊断（overdiagnosis） 的统计检验：即治疗假阳性筛查（因特异度不足或过度激进）导致的癌症实际上不会发展成晚期。若多状态模型中引入“永不进展的惰性期”状态，本文的结论会改变（因为 RR 的计算会低估有害性）。这一窄化在论文中未被明确讨论。

四、开放问题（点到为止）¶

处理时变的灵敏度或特异度：本文假设测试灵敏度在整个试验期间恒定。然而，许多新兴测试（如基于甲基化标记的液体活检）的性能可能随疾病进展阶段（早期 vs 晚期）变化。如何解耦这一非恒定 bias 并计算对应的效应量？扎根点：论文中所有公式均假设 \(p_{\text{sens}}\) 为常数，未讨论敏感性变动对样本量公式的影响。
将健康行为（如吸烟史、依从性）整合到模型中：实验中参与者可能不依从（错过筛查），这一决策通常与风险因素相关。若不依从比例在筛查组和对照组不同，就会引入一个因果混淆。如何将其作为协变量纳入模型？（这需要从因果推断的角度定义“按方案分析”下的效应量）。扎根点：作者在摘要中提到“整合真实筛查场景的实施细节”，但未处理非先验随机的不依从性。
验证所需参数的模型假设：平均滞留时间（MST）的估计问题：作者的效应量公式极度依赖于“MST”的准确性。然而，从可观测的观察性研究中估计 MST（由于真实状态未知）是一个病态的逆问题。是否存在可用于预先验证模型假设（如分布形式）的检验方法？或关于 MST 假设的敏感性分析框架？扎根点：论文使用 NLST 数据“估计”了 MST，但未提供该估计的置信区间对最终样本量计算的影响分析。
模型的 beta 误差：作者给出了基于二项分布比例检验的样本量公式，但他们从多状态模型推导 RR 时隐含的“事件独立性”假设（即筛查组与对照组的事件发生时间独立同分布）是近似的。在有限样本下，这种近似会导致多大的 alpha 膨胀或功率不足？——一个比“计算”更“统计”的开放问题。扎根点：结论中未讨论温和偏离校验二项数据假设时功效公式的稳健性。

Maintained by 陈星宇 · Homepage · Source on GitHub

Designing cancer screening trials for reduction in late-stage cancer incidence¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论