Two-phase designs for cost-effective evaluation of cancer screening tests¶
作者: Fangya Mao, Richard J Cook, Thomas Lorey, Nicolas Wentzensen, Li C Cheung
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: University of Waterloo(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujag058
一、领域脉络与小综述¶
这个方向是什么: 这个子方向解决的根本统计问题是:在大型队列研究中,当全队列的廉价初筛变量(如基础问卷、常规检测)可全量观测,而昂贵或具有破坏性的标志物(如特定基因表达、组织病理双染色)只能对子集观测时,如何以最小成本(最优子采样)获得目标参数(如预测值、关联度)的最有效估计。当前成熟度:传统两阶段设计(主要针对相对风险/发生率比估计)已有完备的半参数效率界与 AIPW 估计理论;但针对预测值(绝对风险)与现患-新发混合结构的两阶段效率理论与最优子采样分配,尚处于从经典关联框架向预测框架迁移的建构期。
发展脉络: - 奠基工作:两阶段设计起源于流行病学队列的成本控制。Thomas (1977) 提出病例-队列设计,Prentice (1986) 提出嵌套病例-对照设计,核心目标是估计相对风险(如 Cox 模型下的 hazard ratio),留下口子:这些设计的效率理论与子采样优化均绑定在关联测度(association)上,未触及预测测度(predictive values, PPV/NPV)。 - 主要进展(半参数效率与 IPW/AIPW):Robins, Rotnitzky & Zhao (1994) 将两阶段缺失数据纳入 MAR 框架,给出了 IPW 与 AIPW 估计量及其效率界;Breslow & Cain (1988) 与 Lawless et al. (1999) 针对病例-队列给出了具体方差估计与 Neyman 分配的近似。口子:AIPW 理论虽完备,但实际操作中协变量维度高时效率增益不稳定,且针对 PPV/NPV 这种非线性参数(条件概率的比),其影响函数与最优子采样权重并未显式推导。 - 当前 frontier(预测值估计与最优子采样):近年研究开始从"发病风险比"转向"风险分层效用"(即 PPV/NPV),因为临床决策依赖绝对风险而非相对风险。同时,筛查队列中普遍存在基线现患病例与随访新发病例共存的结构,传统生存分析框架将其视为左截断,但在预测值估计中如何统一处理尚无定论。 - 本文的位置:本文处于"预测测度估计"与"现患-新发混合结构"的交汇点,试图将传统针对关联的 Neyman 子采样分配,改写为针对 PPV/NPV 的最优分配,并纳入现患-新发结构。
子线索聚类: 1. 关联导向的两阶段设计:以估计 Hazard Ratio / Odds Ratio 为目标(Case-cohort, Nested case-control)。核心手段是 Cox 模型下的伪观察或加权似然。 2. 预测值导向的估计:以估计 PPV/NPV 为目标。核心难点在于 PPV/NPV 是条件概率,涉及联合分布的比,其半参数效率界比关联参数更复杂(受 nuisance 参数影响更大)。 3. 现患-新发混合队列:基线已患病者(prevalent)与随访新发病者(incident)的生存结构不同。传统方法往往剔除 prevalent 病例或单独分析,本文试图在两阶段框架下统一估计两者的预测值。
这个方向在追问的核心问题: 1. 在 MAR 下的两阶段缺失数据中,目标参数为 PPV/NPV 时,半参数效率界是什么?其影响函数与关联参数的影响函数有何本质差异? 2. 给定有限的总子采样预算 \(n\),如何在 Phase-1 的各子群(如 \(T=1\) 与 \(T=0\))间分配 \(n_1\) 与 \(n_0\),使得 PPV 或 NPV 估计的方差最小化?针对预测值的 Neyman 分配公式是什么? 3. 当队列同时包含 prevalent 与 incident 病例时,如何在子采样与估计中统一处理两者的异质性,而不引入选择偏倚?
⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:传统两阶段设计只关注 marker-outcome 关联,而临床筛查更关注预测值与风险分层;因此需要专门针对 PPV/NPV 的两阶段设计与子采样策略。 - 作者将现患-新发共存结构 frame 为另一个缺口:现有两阶段设计多基于纯粹新发事件的生存模型,而筛查队列天然存在基线现患病例。 - 被淡化或回避的竞争路线:Abstract 仅提及 IPW,未提及 AIPW(Augmented IPW)或半参数效率界的直接逼近。在两阶段缺失数据中,AIPW 是达到效率界的标准路线,作者可能刻意回避了 AIPW 的理论复杂性,转而用"IPW + 最优子采样"作为实用替代。 - 明显该被引却未在 Abstract 中出现的:Robins & Rotnitzky (1994) 的两阶段效率理论;针对 PPV/NPV 估计的半参数影响函数推导(如近期相关文献)。这值得研究者去查证:作者在正文中是否补引了这些核心半参数文献,还是确实在理论深度上留了口子。
张力: 未见明显对立引用。但存在一条隐性张力:针对两阶段缺失数据,统计学主流共识是AIPW 才能达到效率界,IPW 除非采样权重已知且参数为线性,否则不有效;而本文主张"IPW + 最优子采样分配"即可获得显著效率增益。这两者并不矛盾,但暗示本文的"效率增益"是相对于简单随机子采样的,而非相对于半参数效率界的。这是一个高价值信号:本文可能并未触及 PPV/NPV 估计的理论效率下界。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(Y\):疾病结局。本文涉及两类,\(Y_0\) 为基线筛查时的现患结局(1=已患癌,0=未患),\(Y_t\) 为随访期间的新发结局(1=新发癌,0=未发)。综合结局可记为 \(Y = \max(Y_0, Y_t)\) 或分别估计。
- \(T\):初始筛查测试结果(Phase-1 变量,全量观测)。如 HPV 检测阳性/阴性(二值,取 \(\{0, 1\}\))。
- \(M\):昂贵标志物(Phase-2 变量,仅子集观测)。如 p16/ki-67 双染色结果(二值,取 \(\{0, 1\}\))。
- \(V\):Phase-1 已知变量集合,包含 \(T\) 及可能的其他协变量。\(V\) 决定了子采样概率。
- \(R\):子采样指示变量(1=被选入 Phase-2 测量 \(M\),0=未被选入)。
- \(\pi(V) = P(R=1 | V)\):子采样概率(已知且由设计控制,MAR 假设的核心:\(R \perp M | V\))。
- \(N\):全队列样本量(Phase-1);\(n\):Phase-2 子采样样本量。
- 目标参数:
- 阳性预测值 \(PPV = P(Y=1 | T=1, M=1)\)(在测试阳性且标志物阳性者中患病的概率)。
- 阴性预测值 \(NPV = P(Y=0 | T=0, M=0)\)(在测试阴性且标志物阴性者中不患病的概率)。
- (注:有时也定义 \(P(Y=1 | T=1)\) 即不考虑 \(M\) 的预测值,但本文核心是评估 \(M\) 的风险分层效用,故条件概率需含 \(M\))。
模型: 数据生成机制为:全队列 \((Y, T, M)\) 服从某未知联合分布 \(P\)。研究者控制子采样机制 \(R | V \sim \text{Bernoulli}(\pi(V))\),满足 \(R \perp M | V\)(MAR)。
可观测数据: - Phase-1:对所有人观测 \((Y, T, R)\)(及 \(V\) 中其他变量)。 - Phase-2:仅对 \(R=1\) 的人观测 \(M\)。 - 想要但观测不到的:对 \(R=0\) 的人,其 \(M\) 值缺失,只能靠 \(\pi(V)\) 与 IPW 重新加权恢复全队列分布。
第二步:最小内核
剥掉"现患-新发共存"与"多协变量"的壳,最小内核是:在二值 \(T\) 与二值 \(M\) 下,如何通过差异化子采样概率 \(\pi(T=1)\) 与 \(\pi(T=0)\),最小化 \(PPV = P(Y=1 | T=1, M=1)\) 估计的方差?
最简特例设定:\(T \in \{0, 1\}\),\(M \in \{0, 1\}\),\(Y \in \{0, 1\}\)。子采样仅依赖 \(T\)(即 \(\pi(V) = \pi(T)\))。 我们要估 \(PPV = P(Y=1 | T=1, M=1) = \frac{P(Y=1, M=1 | T=1)}{P(M=1 | T=1)}\)。
IPW 估计量为:
这个比式估计的渐近方差近似为(忽略分母的二阶项):
同理,对 \(NPV = P(Y=0 | T=0, M=0)\):
最小内核的数学问题:给定总子采样预算 \(n = N[P(T=1)\pi(1) + P(T=0)\pi(0)]\),如何分配 \(\pi(1)\) 与 \(\pi(0)\) 使得 \(Var(\hat{PPV}) + Var(\hat{NPV})\) 最小化?
这退化为一个带约束的优化问题。由 Lagrange 乘子法,最优解(类 Neyman allocation)为:
核心思路一看就懂:为了有效估计 PPV(测试阳性组的患病率),必须在 \(T=1\) 组中多采样(测量 \(M\));但为了有效估计 NPV,又必须在 \(T=0\) 组中多采样。最优分配取决于各组目标预测值的方差与标志物流行率的比值。本文的整个理论框架,本质上是将这个二值 Neyman 分配,推广到现患-新发混合结构(\(Y_0\) 与 \(Y_t\) 分开估计),并处理连续或高维 \(V\) 下的 \(\pi(V)\) 优化。
三、这篇论文做了什么¶
三句话: ① 研究了在筛查队列(含现患与新发病例)中,如何用两阶段设计有效估计昂贵标志物的阳性/阴性预测值(PPV/NPV)及风险分层效用; ② 核心工具是逆概率加权(IPW)与基于预测值方差公式的最优子采样分配(Neyman-type allocation); ③ 主要结论是:针对 PPV/NPV 的最优子采样分配,相比简单随机子采样与传统针对关联(相对风险)的子采样分配,能显著降低预测值估计的方差,并在 KPNC 宫颈癌数据中验证了该设计对 p16/ki-67 双染色试验风险分层效用的评估优势。
关键设定与假设: - MAR 假设:\(R \perp M | V\)。即标志物缺失完全由 Phase-1 观测变量 \(V\)(含初筛结果 \(T\) 与基本协变量)决定。统计含义:保证 IPW 能无偏恢复全队列分布;相比已有文献,这是标准设定,未放宽。 - 现患-新发混合结构:基线存在 \(Y_0=1\) 的 prevalent cases,随访产生 \(Y_t=1\) 的 incident cases。本文将两者统一在同一 IPW 框架下,分别估计 \(P(Y_0=1 | T, M)\) 与 \(P(Y_t=1 | T, M)\)。统计含义:避免了剔除 prevalent cases 导致的选择偏倚,且能评估标志物对"已有疾病检出"与"未来疾病预警"的双重效用。 - 两阶段设计设定:Phase-1 全量观测 \((Y, T, V)\);Phase-2 根据 \(\pi(V)\) 抽取子集观测 \(M\)。\(\pi(V)\) 由研究者控制。
主要结果: 1. PPV/NPV 的 IPW 估计量:在现患-新发混合结构下,给出了 \(PPV_{pre}\), \(PPV_{inc}\) 及对应 NPV 的 IPW 估计公式。解决了传统两阶段设计只估相对风险、不估绝对风险(预测值)的方法缺口。 2. 最优子采样分配公式:推导了最小化 PPV/NPV 估计渐近方差的 \(\pi(V)\) 分配。核心结论:针对预测值的 Neyman 分配,其权重正比于各组条件方差(\(\sqrt{PPV(1-PPV)}\) 等)的平方根,反比于标志物流行率。这与传统针对关联(Hazard Ratio)的子采样分配(往往在 cases 中等量采样)有本质差异。 3. 效率增益的量化:通过模拟,展示了在固定预算 \(n\) 下,本文的预测值导向最优分配,相比简单随机采样(\(\pi\) 恒定)与关联导向采样,在 PPV/NPV 估计方差上有显著缩减(具体缩减比例依赖模拟设定的 \(P(Y|T,M)\) 与 \(P(M|T)\),但趋势明确:在标志物流行率低或预测值接近 0.5 时增益最大)。
证明路线与技术技巧: - 整体路线: 1. 定义现患-新发混合下的目标参数(PPV/NPV 的条件概率形式)。 2. 在 MAR 下构造 IPW 估计量,将缺失的 \(M\) 观测通过 \(1/\pi(V)\) 重新加权。 3. 利用 Delta method 或 M-估计量理论,推导 IPW 估计量的渐近方差,将其表达为 \(\pi(V)\) 与全队列分布参数的函数。 4. 将渐近方差作为目标函数,在总采样预算 \(\sum \pi(V) \le n\) 约束下,求解使方差最小的 \(\pi(V)\)(Neyman allocation)。 5. 用模拟与真实数据验证。 - 关键跳跃点:从 IPW 估计量的比式结构(如 \(\hat{PPV} = \hat{\mu}_1 / \hat{\mu}_2\))推导其精确渐近方差,并将其关于 \(\pi(V)\) 的依赖关系剥离出来,是优化的前提。比式估计的方差展开通常需要忽略分母的二阶波动,或用 Taylor 展开,这里是技术卡点。 - 技术技巧点名: - Inverse Probability Weighting (IPW):用于构造无偏估计量,解决两阶段缺失。 - Neyman Allocation / Optimal Subsampling:经典抽样理论中的方差最小化分配,本文将其从均值估计推广到条件概率比式估计。 - Delta Method / Linearization:用于处理 PPV/NPV 这种非线性参数的方差推导。
真实例子与应用: - 数据/场景:Kaiser Permanente Northern California (KPNC) 宫颈癌筛查队列。HPV 阳性女性。 - 怎么用上去:初筛测试 \(T\) 为 HPV 阳性状态(已知且全量观测);昂贵标志物 \(M\) 为 p16/ki-67 双染色结果(需耗成本在存储细胞样本上检测);结局 \(Y_0\) 为基线现患 CIN2+,\(Y_t\) 为随访新发 CIN2+。应用本文设计,在 HPV+ 女性中,根据基线协变量分配双染色检测的子采样概率,估计双染色阳性者的 CIN2+ 现患与新发风险(PPV),以及双染色阴性者的安全概率(NPV)。 - 得到什么结果:验证了 p16/ki-67 双染色在 HPV+ 女性中具有高 PPV(对现患与新发均有预警)与高 NPV(阴性者风险极低),从而支持其作为分流管理工具的临床效用。同时,展示了用本文最优子采样,只需检测部分样本即可达到与全队列检测相近的 PPV/NPV 估计精度。 - 想说明什么:展示本文方法在真实筛查评估中的成本效益优势,以及处理现患-新发混合结构的必要性。
🔎 结论是否比证明窄: - Abstract 声称"efficiency gains... compared to other subsampling schemes",这仅在 IPW 估计类内部比较成立。作者未声称达到了半参数效率界。因此,结论(IPW+最优分配优于 IPW+简单随机)是严格证明的,但隐含的 broader claim(这是最优设计)并未证明——因为 AIPW 估计量加上不同的子采样可能达到更低的方差。这一点在正文中需核实。
四、开放问题(点到为止,扎根具体语句)¶
- PPV/NPV 在两阶段缺失数据下的半参数效率界是什么? 本文仅推导了 IPW 的方差并优化了子采样。扎根点:Abstract 只提 IPW,未提 AIPW 或效率界。需推导 PPV/NPV 的 efficient influence function,看 IPW+最优分配离效率界有多远。
- 当标志物 \(M\) 为连续型时,最优子采样如何定义? 本文核心例子依赖二值 \(M\)(双染色阳性/阴性)。扎根点:若 \(M\) 连续,预测值 \(P(Y=1 | T=1, M>m_0)\) 依赖阈值 \(m_0\),Neyman allocation 的方差公式将涉及 \(M\) 的密度函数,优化问题需重新求解。
- 偏离 MAR 时的敏感度分析。扎根点:Abstract 设定 \(R \perp M | V\),若昂贵标志物的缺失与本身值相关(如病重者样本更难保存导致 \(M\) 缺失),IPW 产生偏倚,需引入 sensitivity analysis 或 MNAR 模型。
(提醒:要确认第 1 条是不是真 gap,去读近期 Biometrics / Stat in Med 约 5 篇两阶段设计的 intro——若都在推 AIPW 而非 IPW,则"缺效率界"是共识真 gap;若都在用 IPW+优化,则本文是主流跟进。)
Maintained by 陈星宇 · Homepage · Source on GitHub