Two-phase designs for cost-effective evaluation of cancer screening tests¶

作者: Fangya Mao, Richard J Cook, Thomas Lorey, Nicolas Wentzensen, Li C Cheung
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: University of Waterloo（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujag058

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的根本统计问题是：在大型队列研究中，当全队列的廉价初筛变量（如基础问卷、常规检测）可全量观测，而昂贵或具有破坏性的标志物（如特定基因表达、组织病理双染色）只能对子集观测时，如何以最小成本（最优子采样）获得目标参数（如预测值、关联度）的最有效估计。当前成熟度：传统两阶段设计（主要针对相对风险/发生率比估计）已有完备的半参数效率界与 AIPW 估计理论；但针对预测值（绝对风险）与现患-新发混合结构的两阶段效率理论与最优子采样分配，尚处于从经典关联框架向预测框架迁移的建构期。

发展脉络： - 奠基工作：两阶段设计起源于流行病学队列的成本控制。Thomas (1977) 提出病例-队列设计，Prentice (1986) 提出嵌套病例-对照设计，核心目标是估计相对风险（如 Cox 模型下的 hazard ratio），留下口子：这些设计的效率理论与子采样优化均绑定在关联测度（association）上，未触及预测测度（predictive values, PPV/NPV）。 - 主要进展（半参数效率与 IPW/AIPW）：Robins, Rotnitzky & Zhao (1994) 将两阶段缺失数据纳入 MAR 框架，给出了 IPW 与 AIPW 估计量及其效率界；Breslow & Cain (1988) 与 Lawless et al. (1999) 针对病例-队列给出了具体方差估计与 Neyman 分配的近似。口子：AIPW 理论虽完备，但实际操作中协变量维度高时效率增益不稳定，且针对 PPV/NPV 这种非线性参数（条件概率的比），其影响函数与最优子采样权重并未显式推导。 - 当前 frontier（预测值估计与最优子采样）：近年研究开始从"发病风险比"转向"风险分层效用"（即 PPV/NPV），因为临床决策依赖绝对风险而非相对风险。同时，筛查队列中普遍存在基线现患病例与随访新发病例共存的结构，传统生存分析框架将其视为左截断，但在预测值估计中如何统一处理尚无定论。 - 本文的位置：本文处于"预测测度估计"与"现患-新发混合结构"的交汇点，试图将传统针对关联的 Neyman 子采样分配，改写为针对 PPV/NPV 的最优分配，并纳入现患-新发结构。

子线索聚类： 1. 关联导向的两阶段设计：以估计 Hazard Ratio / Odds Ratio 为目标（Case-cohort, Nested case-control）。核心手段是 Cox 模型下的伪观察或加权似然。 2. 预测值导向的估计：以估计 PPV/NPV 为目标。核心难点在于 PPV/NPV 是条件概率，涉及联合分布的比，其半参数效率界比关联参数更复杂（受 nuisance 参数影响更大）。 3. 现患-新发混合队列：基线已患病者（prevalent）与随访新发病者（incident）的生存结构不同。传统方法往往剔除 prevalent 病例或单独分析，本文试图在两阶段框架下统一估计两者的预测值。

这个方向在追问的核心问题： 1. 在 MAR 下的两阶段缺失数据中，目标参数为 PPV/NPV 时，半参数效率界是什么？其影响函数与关联参数的影响函数有何本质差异？ 2. 给定有限的总子采样预算 \(n\)，如何在 Phase-1 的各子群（如 \(T=1\) 与 \(T=0\)）间分配 \(n_1\) 与 \(n_0\)，使得 PPV 或 NPV 估计的方差最小化？针对预测值的 Neyman 分配公式是什么？ 3. 当队列同时包含 prevalent 与 incident 病例时，如何在子采样与估计中统一处理两者的异质性，而不引入选择偏倚？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：传统两阶段设计只关注 marker-outcome 关联，而临床筛查更关注预测值与风险分层；因此需要专门针对 PPV/NPV 的两阶段设计与子采样策略。 - 作者将现患-新发共存结构 frame 为另一个缺口：现有两阶段设计多基于纯粹新发事件的生存模型，而筛查队列天然存在基线现患病例。 - 被淡化或回避的竞争路线：Abstract 仅提及 IPW，未提及 AIPW（Augmented IPW）或半参数效率界的直接逼近。在两阶段缺失数据中，AIPW 是达到效率界的标准路线，作者可能刻意回避了 AIPW 的理论复杂性，转而用"IPW + 最优子采样"作为实用替代。 - 明显该被引却未在 Abstract 中出现的：Robins & Rotnitzky (1994) 的两阶段效率理论；针对 PPV/NPV 估计的半参数影响函数推导（如近期相关文献）。这值得研究者去查证：作者在正文中是否补引了这些核心半参数文献，还是确实在理论深度上留了口子。

张力：未见明显对立引用。但存在一条隐性张力：针对两阶段缺失数据，统计学主流共识是AIPW 才能达到效率界，IPW 除非采样权重已知且参数为线性，否则不有效；而本文主张"IPW + 最优子采样分配"即可获得显著效率增益。这两者并不矛盾，但暗示本文的"效率增益"是相对于简单随机子采样的，而非相对于半参数效率界的。这是一个高价值信号：本文可能并未触及 PPV/NPV 估计的理论效率下界。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Y\)：疾病结局。本文涉及两类，\(Y_0\) 为基线筛查时的现患结局（1=已患癌，0=未患），\(Y_t\) 为随访期间的新发结局（1=新发癌，0=未发）。综合结局可记为 \(Y = \max(Y_0, Y_t)\) 或分别估计。
\(T\)：初始筛查测试结果（Phase-1 变量，全量观测）。如 HPV 检测阳性/阴性（二值，取 \(\{0, 1\}\)）。
\(M\)：昂贵标志物（Phase-2 变量，仅子集观测）。如 p16/ki-67 双染色结果（二值，取 \(\{0, 1\}\)）。
\(V\)：Phase-1 已知变量集合，包含 \(T\) 及可能的其他协变量。\(V\) 决定了子采样概率。
\(R\)：子采样指示变量（1=被选入 Phase-2 测量 \(M\)，0=未被选入）。
\(\pi(V) = P(R=1 | V)\)：子采样概率（已知且由设计控制，MAR 假设的核心：\(R \perp M | V\)）。
\(N\)：全队列样本量（Phase-1）；\(n\)：Phase-2 子采样样本量。
目标参数：
阳性预测值 \(PPV = P(Y=1 | T=1, M=1)\)（在测试阳性且标志物阳性者中患病的概率）。
阴性预测值 \(NPV = P(Y=0 | T=0, M=0)\)（在测试阴性且标志物阴性者中不患病的概率）。
（注：有时也定义 \(P(Y=1 | T=1)\) 即不考虑 \(M\) 的预测值，但本文核心是评估 \(M\) 的风险分层效用，故条件概率需含 \(M\)）。

模型：数据生成机制为：全队列 \((Y, T, M)\) 服从某未知联合分布 \(P\)。研究者控制子采样机制 \(R | V \sim \text{Bernoulli}(\pi(V))\)，满足 \(R \perp M | V\)（MAR）。

可观测数据： - Phase-1：对所有人观测 \((Y, T, R)\)（及 \(V\) 中其他变量）。 - Phase-2：仅对 \(R=1\) 的人观测 \(M\)。 - 想要但观测不到的：对 \(R=0\) 的人，其 \(M\) 值缺失，只能靠 \(\pi(V)\) 与 IPW 重新加权恢复全队列分布。

第二步：最小内核

剥掉"现患-新发共存"与"多协变量"的壳，最小内核是：在二值 \(T\) 与二值 \(M\) 下，如何通过差异化子采样概率 \(\pi(T=1)\) 与 \(\pi(T=0)\)，最小化 \(PPV = P(Y=1 | T=1, M=1)\) 估计的方差？

最简特例设定：\(T \in \{0, 1\}\)，\(M \in \{0, 1\}\)，\(Y \in \{0, 1\}\)。子采样仅依赖 \(T\)（即 \(\pi(V) = \pi(T)\)）。我们要估 \(PPV = P(Y=1 | T=1, M=1) = \frac{P(Y=1, M=1 | T=1)}{P(M=1 | T=1)}\)。

IPW 估计量为：

\[\hat{PPV}_{IPW} = \frac{\sum_{i: T_i=1} R_i Y_i M_i / \pi(1)}{\sum_{i: T_i=1} R_i M_i / \pi(1)}\]

这个比式估计的渐近方差近似为（忽略分母的二阶项）：

\[Var(\hat{PPV}) \approx \frac{1}{N \cdot P(T=1)} \frac{PPV(1-PPV)}{\pi(1) P(M=1|T=1)}\]

同理，对 \(NPV = P(Y=0 | T=0, M=0)\)：

\[Var(\hat{NPV}) \approx \frac{1}{N \cdot P(T=0)} \frac{NPV(1-NPV)}{\pi(0) P(M=0|T=0)}\]

最小内核的数学问题：给定总子采样预算 \(n = N[P(T=1)\pi(1) + P(T=0)\pi(0)]\)，如何分配 \(\pi(1)\) 与 \(\pi(0)\) 使得 \(Var(\hat{PPV}) + Var(\hat{NPV})\) 最小化？

这退化为一个带约束的优化问题。由 Lagrange 乘子法，最优解（类 Neyman allocation）为：

\[\pi(1) \propto \sqrt{\frac{PPV(1-PPV)}{P(T=1) P(M=1|T=1)}} \quad \text{与} \quad \pi(0) \propto \sqrt{\frac{NPV(1-NPV)}{P(T=0) P(M=0|T=0)}}\]

核心思路一看就懂：为了有效估计 PPV（测试阳性组的患病率），必须在 \(T=1\) 组中多采样（测量 \(M\)）；但为了有效估计 NPV，又必须在 \(T=0\) 组中多采样。最优分配取决于各组目标预测值的方差与标志物流行率的比值。本文的整个理论框架，本质上是将这个二值 Neyman 分配，推广到现患-新发混合结构（\(Y_0\) 与 \(Y_t\) 分开估计），并处理连续或高维 \(V\) 下的 \(\pi(V)\) 优化。

三、这篇论文做了什么¶

三句话： ① 研究了在筛查队列（含现患与新发病例）中，如何用两阶段设计有效估计昂贵标志物的阳性/阴性预测值（PPV/NPV）及风险分层效用； ② 核心工具是逆概率加权（IPW）与基于预测值方差公式的最优子采样分配（Neyman-type allocation）； ③ 主要结论是：针对 PPV/NPV 的最优子采样分配，相比简单随机子采样与传统针对关联（相对风险）的子采样分配，能显著降低预测值估计的方差，并在 KPNC 宫颈癌数据中验证了该设计对 p16/ki-67 双染色试验风险分层效用的评估优势。

关键设定与假设： - MAR 假设：\(R \perp M | V\)。即标志物缺失完全由 Phase-1 观测变量 \(V\)（含初筛结果 \(T\) 与基本协变量）决定。统计含义：保证 IPW 能无偏恢复全队列分布；相比已有文献，这是标准设定，未放宽。 - 现患-新发混合结构：基线存在 \(Y_0=1\) 的 prevalent cases，随访产生 \(Y_t=1\) 的 incident cases。本文将两者统一在同一 IPW 框架下，分别估计 \(P(Y_0=1 | T, M)\) 与 \(P(Y_t=1 | T, M)\)。统计含义：避免了剔除 prevalent cases 导致的选择偏倚，且能评估标志物对"已有疾病检出"与"未来疾病预警"的双重效用。 - 两阶段设计设定：Phase-1 全量观测 \((Y, T, V)\)；Phase-2 根据 \(\pi(V)\) 抽取子集观测 \(M\)。\(\pi(V)\) 由研究者控制。

主要结果： 1. PPV/NPV 的 IPW 估计量：在现患-新发混合结构下，给出了 \(PPV_{pre}\), \(PPV_{inc}\) 及对应 NPV 的 IPW 估计公式。解决了传统两阶段设计只估相对风险、不估绝对风险（预测值）的方法缺口。 2. 最优子采样分配公式：推导了最小化 PPV/NPV 估计渐近方差的 \(\pi(V)\) 分配。核心结论：针对预测值的 Neyman 分配，其权重正比于各组条件方差（\(\sqrt{PPV(1-PPV)}\) 等）的平方根，反比于标志物流行率。这与传统针对关联（Hazard Ratio）的子采样分配（往往在 cases 中等量采样）有本质差异。 3. 效率增益的量化：通过模拟，展示了在固定预算 \(n\) 下，本文的预测值导向最优分配，相比简单随机采样（\(\pi\) 恒定）与关联导向采样，在 PPV/NPV 估计方差上有显著缩减（具体缩减比例依赖模拟设定的 \(P(Y|T,M)\) 与 \(P(M|T)\)，但趋势明确：在标志物流行率低或预测值接近 0.5 时增益最大）。

证明路线与技术技巧： - 整体路线： 1. 定义现患-新发混合下的目标参数（PPV/NPV 的条件概率形式）。 2. 在 MAR 下构造 IPW 估计量，将缺失的 \(M\) 观测通过 \(1/\pi(V)\) 重新加权。 3. 利用 Delta method 或 M-估计量理论，推导 IPW 估计量的渐近方差，将其表达为 \(\pi(V)\) 与全队列分布参数的函数。 4. 将渐近方差作为目标函数，在总采样预算 \(\sum \pi(V) \le n\) 约束下，求解使方差最小的 \(\pi(V)\)（Neyman allocation）。 5. 用模拟与真实数据验证。 - 关键跳跃点：从 IPW 估计量的比式结构（如 \(\hat{PPV} = \hat{\mu}_1 / \hat{\mu}_2\)）推导其精确渐近方差，并将其关于 \(\pi(V)\) 的依赖关系剥离出来，是优化的前提。比式估计的方差展开通常需要忽略分母的二阶波动，或用 Taylor 展开，这里是技术卡点。 - 技术技巧点名： - Inverse Probability Weighting (IPW)：用于构造无偏估计量，解决两阶段缺失。 - Neyman Allocation / Optimal Subsampling：经典抽样理论中的方差最小化分配，本文将其从均值估计推广到条件概率比式估计。 - Delta Method / Linearization：用于处理 PPV/NPV 这种非线性参数的方差推导。

真实例子与应用： - 数据/场景：Kaiser Permanente Northern California (KPNC) 宫颈癌筛查队列。HPV 阳性女性。 - 怎么用上去：初筛测试 \(T\) 为 HPV 阳性状态（已知且全量观测）；昂贵标志物 \(M\) 为 p16/ki-67 双染色结果（需耗成本在存储细胞样本上检测）；结局 \(Y_0\) 为基线现患 CIN2+，\(Y_t\) 为随访新发 CIN2+。应用本文设计，在 HPV+ 女性中，根据基线协变量分配双染色检测的子采样概率，估计双染色阳性者的 CIN2+ 现患与新发风险（PPV），以及双染色阴性者的安全概率（NPV）。 - 得到什么结果：验证了 p16/ki-67 双染色在 HPV+ 女性中具有高 PPV（对现患与新发均有预警）与高 NPV（阴性者风险极低），从而支持其作为分流管理工具的临床效用。同时，展示了用本文最优子采样，只需检测部分样本即可达到与全队列检测相近的 PPV/NPV 估计精度。 - 想说明什么：展示本文方法在真实筛查评估中的成本效益优势，以及处理现患-新发混合结构的必要性。

🔎 结论是否比证明窄： - Abstract 声称"efficiency gains... compared to other subsampling schemes"，这仅在 IPW 估计类内部比较成立。作者未声称达到了半参数效率界。因此，结论（IPW+最优分配优于 IPW+简单随机）是严格证明的，但隐含的 broader claim（这是最优设计）并未证明——因为 AIPW 估计量加上不同的子采样可能达到更低的方差。这一点在正文中需核实。

四、开放问题（点到为止，扎根具体语句）¶

PPV/NPV 在两阶段缺失数据下的半参数效率界是什么？ 本文仅推导了 IPW 的方差并优化了子采样。扎根点：Abstract 只提 IPW，未提 AIPW 或效率界。需推导 PPV/NPV 的 efficient influence function，看 IPW+最优分配离效率界有多远。
当标志物 \(M\) 为连续型时，最优子采样如何定义？ 本文核心例子依赖二值 \(M\)（双染色阳性/阴性）。扎根点：若 \(M\) 连续，预测值 \(P(Y=1 | T=1, M>m_0)\) 依赖阈值 \(m_0\)，Neyman allocation 的方差公式将涉及 \(M\) 的密度函数，优化问题需重新求解。
偏离 MAR 时的敏感度分析。扎根点：Abstract 设定 \(R \perp M | V\)，若昂贵标志物的缺失与本身值相关（如病重者样本更难保存导致 \(M\) 缺失），IPW 产生偏倚，需引入 sensitivity analysis 或 MNAR 模型。

(提醒：要确认第 1 条是不是真 gap，去读近期 Biometrics / Stat in Med 约 5 篇两阶段设计的 intro——若都在推 AIPW 而非 IPW，则"缺效率界"是共识真 gap；若都在用 IPW+优化，则本文是主流跟进。)

Maintained by 陈星宇 · Homepage · Source on GitHub

Two-phase designs for cost-effective evaluation of cancer screening tests¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论