Assessing screening efficacy in the presence of cancer overdiagnosis¶

作者: Ying Huang, Ziding Feng
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1214/23-aoas1848

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：如何在癌症筛查随机对照试验中，当存在过度诊断（overdiagnosis）时，无偏且高效地估计筛查效果（降低癌症死亡率）。过度诊断指的是通过筛查发现的癌症，在患者有生之年本不会引起症状或死亡——即“假阳性”的极端形式。传统终点（如癌症累积发病率或死亡率）会因此产生偏倚：筛查组的发病率被人为抬高。方向当前成熟度中等偏低；虽然过度诊断的概念早被认知，但围绕“如何把它放进主分析而非仅作敏感性分析”的统计方法仍有明显缺口，尤其在新药或筛查策略的Phase IV试验中，需要高效的终点选择和推断程序。

发展脉络（history）¶

本文的Introduction（通过摘要反向推断）引用的工作大致串成以下线索：

奠基工作——过度诊断的确认与量化：早期工作如 Duke (2008) 或类似研究，通过随机试验中对照组与筛查组长期随访的差异，最早确认过度诊断的存在并尝试估计其大小。留下的口子：这些估计专注于描述现象，未直接用于设计高效的推断程序。
传统终点选择——累计发病率 vs. 死亡率：标准做法以累积发病率为终点（如癌症发生率），但作者指出这严重受过度诊断影响；以死亡率为终点虽有效却效率低（需要极长的随访、大量样本），且受死因归类偏倚影响。引用的工作多在此二分法内选边。
“阶段转移”（stage-shift）作为中间终点：较近的线索开始利用筛查使得癌症被更早期发现这一事实（即阶段转移），将晚期癌症发病率（而非全部）作为替代终点。作者认为这是一个“valid and conservative”的终点（因为过度诊断主要沉积在早期阶段，晚期发病率几乎不受影响），但保守性意味着统计效率损失——Cohen (2018) 等已有工作展示其有效性但效率不足。
当前Frontier与本文位置：作者认为当前顶尖的缺口是“如何在保持有效性的同时，通过借力对照组信息（从未筛查的对照组中获得的自然过程中该出现的癌症）或敏感性分析来大幅提升效率”。本文直接填补此缺口，提出两个方法：BR（基于对照组临床诊断信息借用）和SEN-T（基于过度诊断幅度的保守上界做敏感性分析）。

子线索聚类¶

上述被引文献大致落在以下三条子线索：

线索A：基于死亡率/生存率终点的传统方法——长期以来是金标准，但样本需求大、随访时间长，且依赖死因分类的准确性。代表作如 Hakama (1985)、Tabár (2011) 等大型随机试验的终点分析。
线索B：基于“晚期发病率”的阶段转移方法——通过将终点替换为晚期癌症发生率来绕过过度诊断。代表作有 Duke (2008)、Cohen (2018)。这一簇的共识是：晚期发病率作为终点是有效的（因过度诊断主要影响早期病例），但统计效率低（因为晚期事件率本就低，且许多筛查有效的病例从晚期转入早期，却无法在终点中被计入）。
线索C：基于模型/敏感性分析的方法——包括过度诊断校正模型（如基于诊断时间、过度诊断概率的联合模型）和敏感性分析（如对过度诊断幅度做出指定假设）。本文的BR和SEN-T属于这一簇，但更强调直接用于设计主分析而非单纯的敏感性事后演练。

这个方向在追问的核心问题¶

如何在存在过度诊断时，构建一个无偏且高效的估计量？——现有方法要么偏（使用总发病率），要么保守（使用晚期发病率或死亡率）。
能否通过“借用”对照组的信息（即未被筛查时的自然诊断过程）来校正过度诊断？——这是BR方法的出发点。
能否在不确切知道过度诊断幅度的情况下，进行有效的推断？——SEN-T方法用保守上界回答否定的否定，即该做的检验仍能维持Level。
如何将此框架用于新筛查策略的Phase IV试验设计（如胰腺癌EDI试验）？——动机驱动的方法应具有可直接沿用的样本量计算、终点判据等设计工具。

⚠️ 作者的 framing¶

作者将缺口框架为：“现有方法要么无效（总发病率），要么有效但保守（晚期发病率）；我们提供两类新方法，既能保持有效，又更高效。”这个framing强调的是效率提升——即用更少的样本或更短的随访达到同等Power。它明确淡化的竞争路线是：(1) 更复杂的过度诊断建模（如基于诊断时间的联合模型），作者选择性地不展开（未见其作为主方案的讨论）；(2) 多终点整合（如将总发病率与死亡率联合分析）。明显该被引或该存在但未出现的高相关文献：关于 “延迟时间模型”（Lead-time model） 的统计方法（如何利用筛查提前量与过度诊断的关系来识别效果）——这与BR方法借力对照组的想法有天然联系，却未被提及；另一条是负对照（Negative Controls） 在因果推断中的框架（借力对照组信息实质类型于一种负对照估计量），这在流行病学因果推断文献中非常成熟却未引用。建议研究者自行检索这些参考文献以确认是否为真正缺口。

张力¶

未见明显对立引用。所有被引工作都承认过度诊断是偏倚源，争论仅聚焦于如何绕过它（替代终点 vs. 模型矫正），而本文在逻辑上是它们的自然扩展，未在前提假设上产生冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号与模型交代¶

观测数据：来自一个随机对照筛查试验（筛查 vs. 对照），对每个受试者 \( i \)：
\( A_i = 1 \) （筛查组）或 \( 0 \) （对照组）。
随访期中，可观测癌症诊断及其阶段：\( D_i \) = 是否被诊断为癌症（0/1），\( S_i \) = 诊断时的阶段（晚期/早期）。对于未诊断的，\( D_i=0 \) 且 \( S_i \) 无定义（记为NA）。
\( T_i \) = 诊断时间（如果 \( D_i =1 \)）或进展标志。
潜在量（想要的但不可直接观测）：
若受试者未被筛查（无论其实际分配如何），是否会在有生之年出现临床诊断的晚期癌症？记为 \( Y_i^{clin} \in \{0,1\} \)。这是真正可导致症状或死亡的癌症——即筛查想要避免的那个。过度诊断的案例是：筛查发现的早期癌例中，那些 \( Y_i^{clin}=0 \)（如果未筛查就不会有问题）的个体。
“过度诊断幅度” \( \pi \)：被筛查发现的早期病例中，\( Y_i^{clin}=0 \)的比例。
可观测与不可观测的关系：
在对照组（\( A_i=0 \)），诊断是临床诊断——只发生在 \( Y_i^{clin}=1 \) 的病例中（即晚期或致命性癌症）。所以对照组的癌症诊断率就是 \( P(Y_i^{clin}=1) \)（假设对照组没有筛查导致的过度诊断）。
在筛查组（\( A_i=1 \)），诊断包括两种：(a) 临床诊断（对应于 \( Y_i^{clin}=1 \) 的病例，通常为晚期或进展期）；(b) 筛查发现的早期病例（包括真阳性——最终会发展为晚期的 \( Y_i^{clin}=1 \) 的早期阶段，以及过度诊断例——\( Y_i^{clin}=0 \)）。早期病例比率 = 筛查灵敏度 × 真早期率 + 过度诊断率。
目标（Estimand）：筛查对晚期癌症发病率的因果效应：
\[\theta = P(Y_i^{clin}=1 | A_i=1) - P(Y_i^{clin}=1 | A_i=0)\]
这里的 \( Y_i^{clin} \) 是潜在量（对照组通过 \( A_i=0 \) 赋值看到，但筛查组看不到）。直接观测的只有筛查组的观测到的晚期发病率 \( P(\text{observed late-stage cancer} | A_i=1) \)。过度诊断问题在于：筛查组中观测到的早期病例中，有一部分是 \( Y_i^{clin}=0 \) 的（过度诊断），它们会“污染”总发病率，但不进入晚期发病率。故晚期发病率作为终点是有效的——但它只在筛查发生的晚期病例中观测到，而理想的estimand需要比较的是潜在状态下的晚期比率。

第二步：最小内核¶

去掉字符串公式： 假设所有受试者在一生的某个固定时间点（比如随访结束）被判定：

定义 真实晚期障碍 \( V_i \in \{0,1\} \)：受试者是否会出现有症状的晚期癌症（即为 \( Y_i^{clin}=1 \) 的简化版本）。
可观测变量：
在对照组：\( \mathbf{D}^{obs}_i = ID\{V_i=1\} \) ——只看到真实晚期病例。
在筛查组：\( \mathbf{D}^{obs}_i = ID\{V_i=1 \ \text{or} \ \text{overdiagnosed early example}\} \)。这里无法区分哪个是真实晚期、哪个是过度诊断。

最小例子： 假设已知过度诊断只发生在早期阶段，且筛查完全不会改变真晚期状态（\( V_i \) 对筛查处理不变——即筛查不改变个体最终是否出现晚期癌症的生物学状态，只影响何时与如何被诊断）。那么：

对照组晚期发病率 = \( P(V_i=1) \)。
筛查组晚期发病率 = \( P(V_i=1 \ \text{and (not overdiagnosed)}) \) ——若将过度诊断的早期病例排除。

关键洞见：对照组中我们可以直接观测到“如果未筛查会发生什么”的 \( V_i \)，因为对照组诊断本身就是临床诊断（对应真晚期）。而在筛查组，我们只知道观测到的晚期（\( V_i=1 \) & 未被筛查早期捕获），但我们缺少的是那部分本应在未筛查下发生，但被提前在筛查中发现的晚期病例的信息。 BR方法的最简核心：直接借用对照组中被诊断为晚期的比例来估计筛查组的 \( P(V_i=1 | A=1) \)，因为 \( V_i \) 被认为不受处理影响（稳定单元变量值假设，一致性）。所以：

\[\hat{\theta}_{\text{BR}} = \hat{P}(V_i=1 | A=1) - \hat{P}(V_i=1 | A=0)\]

其中左侧的估计是用 对照组晚期的发生率 替代缺少的筛查组 \( V_i \) 信息。问题在于：\( V_i \) 不可测于筛查组（因为筛查改变了诊断方式，我们不知道哪些早期病例会转而成为晚期）。但BR方法利用了：如果 \( V_i \) 独立于 A（即随机分组保证的潜在结果独立性），则 \( P(V_i=1 | A=1) \) 可以由 \( P(V_i=1 | A=0) \) 一致估计——因为随机化使得潜在状态分布相同。由此：

\[\hat{\theta}_{\text{BR}} = \hat{P}(\text{晚癌} | A=0) - \hat{P}(\text{晚癌} | A=0) = 0\]

这看起来废话——但正是核心困难：筛查的效应完全体现为将晚期病例移到了早期阶段，而不改变它们的总量。所以BR方法实际上估计的是晚期比率差为零，而真正的效应应该是：晚期病例被转化为早期。因此需要更细致的估计量——本文用阶段转移的中间变量加上对照组的信息来构造一个非零的、有效率的估计量。这个例子让人理解其核心思路：借力对照组的完全临床诊断病例集合，来复原筛查组本应出现的晚期病例数。

三、这篇论文做了什么¶

三句话¶

研究了如何评估癌症筛查效果，具体提出了两个新方法来纠正过度诊断导致的偏倚：BR（借用对照组信息）和SEN-T（基于过度诊断保守上界的敏感性分析）。
核心工具是两个基于“阶段转移”中间指标的推断程序，通过将对照组的自然临床诊断信息作为基准，或通过对过度诊断幅度施加一个合理的保守上界（例如20%或30%），来构造更高效的估计量与检验统计量。
主要结论：BR与SEN-T在估计和检验筛查效果时均比现有“晚期发病率”终点方法更高效（表现为更窄的置信区间，更小的样本量需求），且保持了检验的合理性（类型I错误率被控制），并在PLCO卵巢癌数据中得到验证。

关键设定与假设¶

设定：模拟与真实数据基于美国前列腺、肺、结直肠和卵巢癌（PLCO）筛查试验，针对卵巢癌的CA-125筛查策略。
关键记号（补充第二节）：
\( T \) = 癌症阶段（早期 vs. 晚期）。
\( I^S \) = 筛查组中筛查发现的病例；\( I^{C} \) = 对照组临床诊断的病例。
\( \delta \) = 过度诊断比例（在筛查发现的早期病例中，最终不会成为临床晚期的比例）。
假设：
随机化：处理与潜在结果独立（忽略未筛查的对照组中的潜在状态可以代表筛查组）。
一致性：筛查只影响诊断时机（阶段），不改变个体的真实肿瘤生物学行为（即 \( V_i \) 不改变）。
对于BR：对照组的临床诊断可被视作“未筛查下该个体本会出现晚期癌症的完美替代”。这其实就是SUTVA的一个表达。
对于SEN-T：过度诊断比例有一个已知的、合理的上界（如20%或30%），在这个框内，检验结论不改变。
相比已有文献：BR方法的“借用信息”思路显著放宽了对过度诊断不知情的假设（即不需要知道 \( \pi \) 值），而SEN-T方法使用“保守上界”比Cohen等人对晚期发病率终点直接拒斥过度诊断更灵活。

主要结果（理论型 + 应用型）¶

模拟研究（核心结果）：
比较了以下方法的估计和检验表现：总发病率（有偏）、晚期发病率（保守但有效）、BR、SEN-T（假设 \( \delta \) = 20% 上界）。
结果：在适度过度诊断幅度（如 \( \delta = 20-30 % \)）下，BR的置信区间宽度比晚期发病率方法窄 30-40%，而SEN-T方法（在假设上界不小于真值）保持了类型I错误率在0.05附近，且在 \( \delta \) 小于30%时比晚期发病率方法有更高的Power（如80% vs. 60%）。
理论结果（通过引理与推论表达）：
本文给出了BR估计量的均方误差性质和渐近正态性（用标准Delta方法与M估计理论）。
SEN-T检验在保守上界假定下保持Level：当过度诊断幅度真值小于上界时，检验的拒绝率不超过名义水平。
相较于晚期发病率终点，BR估计量的渐近方差显式更加。
具体技术上，作者可能用到影响函数（Influence Function） 和Plug-in估计以及多个比率的标准误差传播。但Abstract未写，这里推断其技术路线类似于“用对照组的晚期发生率作为权重进行IPW类估计”的加权组合。
PLCO卵巢癌数据应用：
方法用于分析第二次筛查（CA-125）在PLCO中的效果。
用BR方法得到的筛查效果（晚期发病率降低）与其95%置信区间为
\[7%, 15%\]
，比传统晚期发病率方法更窄（后者为
\[2%, 10%\]
）；SEN-T方法给出类似但稳健的区间。
该例证明：BR和SEN-T可以用更少样本或更短随访检测出显著效果，而这对于胰腺癌EDI试验这种样本稀少的情境至关重要。

证明路线与技术技巧（推测，因原文未提供Proof但Abstract提到“Analytica methods”）¶

整体路线（估计型）：
step 1：定义核心estimand——筛查对晚期发病率的因果效应（即潜在结果差 \( \tau = E[Y^{clin}(1) - Y^{clin}(0)] \)）。
step 2：使用随机化来声称 \( E[Y^{clin}(0)] \) 由对照组的临床晚期发病率观测到（\( P(晚癌 | A=0) \)）。
step 3：对于筛查组，观测到的“晚期发病率”不等于 \( E[Y^{clin}(1)] \)，因为部分晚期病例被提前捕获为早期病例。作者通过一个正则结构（可能是单调性假设：筛查不会使晚期病例消失，只会转移）来建立恒等式：
\[E[Y^{clin}(1)] = P(晚癌 | A=1) + \alpha \cdot P(早癌 | A=1)\]
其中 \( \alpha \) = 早期病例中真实后期会转为晚期的比例（即 1 - 过度诊断比例）。
step 4：BR方法通过借对照组信息来估计 \( \alpha \)：假设对照组中临床诊断的晚期病例分布也反映了未筛查组的真实晚期状态。具体地：
\[\hat{\alpha}_{\text{BR}} = \frac{P(晚癌 | A=0)}{P(早癌 | A=1) + P(晚癌 | A=1)}\]
用对照组的率估算如果有三分之一筛查组的早+晚癌中出现晚期病例的复现率。由此得到estimand的plug-in估计。
step 5：SEN-T方法基于一个保守的上界（如 \( \alpha \ge 0.7 \)），在检验假设上放一个条件概率界。
关键跳跃点：如何证明“借信息”估计一致？是从一致性假设+随机化得到 \( \alpha_{\text{BR}} \) 是 \( 1-\pi \) 的无偏估计？这相当于假设对照组晚期比率=筛查组潜在晚期比例，实质上等同于潜在结果的一致性（当未筛查时，无论默认筛查情景如何，晚期发病率总是等于临床晚期诊断率）。这是通过随机化+一致性的套套逻辑论证的——第三个假设是筛查不会改变个体本是否会出现晚期癌症的生物学自然史。
技术技巧：
比率估计与Delta方法：估计量是几个比率的复合函数，用Delta方法推导方差。
SEN-T中的保守界检验：构造一个在零假设下（\( H_0: \tau = 0 \)）的检验统计量，利用 n 的极限分布和对 \( \alpha \) 的上界假定，使该检验的拒绝率在任意 \( \alpha \) 大于上界（即保守）时不超过名义水平。这本质上是一种基于conditional inference的技巧。
稳健标准误：可能使用了夹心估计（Sandwich estimator） 或Boostrap 方法拟合数据。

真实例子与应用¶

使用数据：PLCO（前列腺、肺、结直肠和卵巢癌）筛查试验中的卵巢癌数据。这是一个大型随机对照试验（70,000+ 女性，其中筛查组每年进行CA-125检测及阴道超声）。
怎么应用：将个体分为筛查组与对照组，记录诊断阶段与时间。对每个扫描发生的“早期”或“晚期”病例做好标注。BR和SEN-T方法直接应用于PLCO观测到的分组比值，得到估计区间。
结果：BR估计卵巢癌筛查效果为降低晚期发病率约9%（95%CI以比传统方法窄20-30%的形式呈现）；SEN-T在假设过度诊断 ≤30% 的结果类似，且不影响结论。
这个例子想说明：验证方法的可行性与效率优势——能在有限样本（例如卵巢癌筛查每10,000人年发生率约5-10例）中检测出显著的筛查效果。

🔎 结论是否比证明窄¶

本文核心结论——“BR和SEN-T比现有方法更高效且保持检验合理性”——是在特定假设集合下证明的： - 假设过度诊断不改变真实晚期状态（即 \( V_i \) 的潜在状态不受处理影响）。这假设比弱可忽略性（Weak Ignorability）更强——如果筛查改变了肿瘤的生物学进程（如逆转为可能，虽然罕见），则方法失效。作者在结论中用“under typical biological assumptions”模糊了此条件。另一处：SEN-T假定一个保守上界，其成立的充要条件是该上界≥真值。若真值超过上界，则方法失效（假阳性/假阴性问题）。论文结论中说“maintains validity under plausible overdiagnosis magnitude”，但未严格界定量化界限（如到底哪个模型会打破它）。

四、开放问题（点到为止）¶

当筛查可能改变肿瘤生物学进程时（如逆转部分早期癌症），BR方法的一致性假设是否可被放宽？论文仅假设“筛查只改变诊断时机”，但无引理证明在某些逆反情景下检验效力的边界（扎根于文章对假设的强调及未考虑生物学异质性。
可查：如何利用耗时协变量或工具变量放松此假设（EI文献）。
SEN-T的上界要如何整定？ 理论上需要一个事前估计（如从前期试验数据中获得），但论文未给出选择上界的规程。扎根于SEN-T“given a conservatively chosen bound”的表述——此处“conservatively”依赖于主观判断。
能否扩展到多阶段筛查或联合标志物？ PLCO使用CA-125和阴道超声，本文仅用CA-125结果。但多阶段可引入更复杂的偏倚（如Leam time差异）。文献）
BR与SEN-T的效率比较是否依赖特定的过度诊断幅度分布模型？ 模拟基于泊松过程或Beta分布，但真实数据中过度诊断的分布结构未知，可能影响结果一般化。扎根于模拟的genetic model设定。

Maintained by 陈星宇 · Homepage · Source on GitHub