Two-phase designs with failure time processes subject to nonsusceptibility¶

作者: Fangya Mao, Li C Cheung, Richard J Cook
来源: Biometrics
主题: 流行病学
相关性: 4/10
机构绿灯: University of Waterloo（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujad038

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在大型流行病学队列研究中，某些关键协变量（如生物标志物、基因型）的测量成本极高，无法对全队列所有个体进行测量。如何利用已有的廉价信息（如基础人口学信息、初步结局记录），通过两阶段设计（two-phase design） 在第二阶段有策略地抽取一个子样本，仅对该子样本测量昂贵协变量，从而在有限预算下最大化对感兴趣参数的估计效率？当前该领域在标准生存分析（Cox比例风险模型）下已有较成熟的理论与方法，但针对存在不敏感（cure） 分组的失效时间数据——即一部分个体是长期幸存者、永远不会经历事件——的两阶段设计策略尚属空白。

发展脉络（history）¶

奠基工作：两阶段设计的统计基础
- White (1982) 和 Breslow & Cain (1988) 奠定了两阶段设计在流行病学中的理论基础，提出了基于结局和廉价协变量进行分层抽样的基本框架。这些工作确立了“先收集廉价数据（Phase I），再基于此设计昂贵协变量的子抽样方案（Phase II）”的核心范式。
主要进展：针对删失数据的Cox模型两阶段设计
- Prentice (1986) 提出了病例-队列设计（case-cohort design），这是针对删失数据最经典的两阶段设计之一。它在Phase II中抽取所有发生事件的个体（病例）和一个随机子样本（子队列），通过加权Cox模型进行估计。其核心思想是确保有足够的事件数来估计风险比。
- Borgan et al. (2000) 和 Samuelsen et al. (2007) 进一步发展了针对Cox模型的分层病例-队列设计和嵌套病例-对照设计，通过更精细的Phase I分层变量（如年龄、性别）来提升Phase II子样本的代表性和估计效率。
- Kulich & Lin (2004) 提出了残差依赖设计（residual-dependent design），这是本文的关键前身。其核心创新在于：Phase II的抽样概率不再仅依赖于简单的分层变量，而是依赖于从Phase I数据拟合的Cox模型得到的鞅残差（martingale residual）。由于鞅残差反映了观测事件时间与模型预测之间的偏差，基于它抽样可以更有效地选择信息量大的个体，从而显著提升对回归系数的估计效率。
当前Frontier：处理更复杂的数据结构
- 当前的前沿是将两阶段设计从标准Cox模型扩展到更复杂的失效时间模型，例如竞争风险模型、多状态模型，以及本文所关注的混合治愈模型（mixture cure model）。这些模型引入了新的参数（如治愈概率、不同状态间的转移强度），对Phase II抽样策略提出了新的挑战。
本文的位置
- 本文是第一个系统性地将两阶段设计应用于混合治愈模型的工作。它填补了“针对存在不敏感分组的失效时间数据的高效两阶段设计”这一空白。作者将已有的残差依赖设计思想从单一参数（Cox模型回归系数）推广到多参数（治愈概率和敏感个体的失效时间风险比）场景，并针对两个参数同时存在的情况，创新性地提出了双变量残差依赖设计（bivariate residual-dependent design）。

子线索聚类¶

基于简单分层的设计：如White (1982), Breslow & Cain (1988)。核心是依据Phase I的离散协变量（如年龄组、性别）进行分层，然后在层内进行简单随机抽样或病例-对照抽样。优点是简单易行，但效率受限于分层变量的信息量。
基于结局的设计：如Prentice (1986)的病例-队列设计，以及嵌套病例-对照设计。核心是确保Phase II样本中包含所有或大部分事件（病例），因为事件通常携带最多的信息。这类设计在事件率低时效率很高。
基于模型残差的设计：如Kulich & Lin (2004)的残差依赖设计。核心是利用Phase I数据拟合一个初步模型，然后根据模型残差（如鞅残差）来决定Phase II的抽样概率。这种方法能更精细地捕捉个体对参数估计的“信息量”，通常比前两类设计更高效。本文的工作属于这一线索的延伸。

这个方向在追问的核心问题¶

如何定义和量化“信息量”：在Phase I信息有限的情况下，如何定义一个能准确反映个体对Phase II目标参数（如治愈概率、风险比）估计贡献的“信息量”指标？残差是一个选择，但还有其他可能性吗？
多参数场景下的最优抽样：当Phase II需要同时估计多个参数（如本文的治愈概率和风险比）时，如何设计一个单一的抽样方案，使其对所有目标参数的估计效率都达到较高水平？这通常需要在不同参数的信息需求之间进行权衡。
Phase I模型错误设定的影响：Phase I用于指导抽样的模型（如简单的Cox模型或逻辑回归）如果设定错误，是否会严重影响Phase II的估计效率？如何设计对模型错误设定更稳健的抽样策略？
预算约束下的最优分配：给定一个固定的Phase II样本量（或预算），如何最优地分配抽样概率，以最小化目标参数估计量的渐近方差？这通常需要求解一个优化问题。

⚠️ 作者的Framing¶

作者的缺口定位：作者明确指出，现有的两阶段设计文献几乎全部聚焦于标准Cox模型，而忽略了混合治愈模型这一重要且广泛应用的框架。他们将自己的工作定位为“填补这一空白”，并强调其提出的双变量残差依赖设计是解决多参数场景下抽样挑战的“自然且有效的推广”。
被淡化或回避的竞争路线：
- 自适应设计（Adaptive design）：作者没有讨论在Phase II抽样过程中进行多轮自适应调整的可能性。他们的设计是“一次性”的，即基于Phase I数据确定所有Phase II抽样概率。自适应设计理论上可以更高效，但操作更复杂。
- 贝叶斯方法：作者完全采用了频率学派框架。贝叶斯方法可以通过后验分布自然地整合Phase I信息并指导Phase II抽样，但作者未提及这一路线。
值得研究者去查的问题：作者在引言中引用了大量关于混合治愈模型和两阶段设计的文献，但没有引用任何关于“最优两阶段设计”或“基于信息论准则的抽样”的文献。例如，是否存在基于Fisher信息矩阵或A-optimality/D-optimality准则来设计Phase II抽样的工作？这些工作可能与本文的残差依赖设计有理论上的联系或对比。这是一个值得研究者去核实的潜在缺口。

张力¶

未见明显对立引用。该领域的发展脉络是清晰的，不同设计方法（分层、基于结局、基于残差）通常被视为互补而非对立，各有其适用场景。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- i = 1, ..., N：Phase I全队列中的个体索引。
- T_i：个体的真实失效时间（如果会发生事件）或潜在失效时间（如果永不发生事件）。这是一个潜在变量，对于治愈个体，它没有定义或为无穷大。
- C_i：个体的删失时间。
- Y_i = min(T_i, C_i)：可观测的随访时间。
- Δ_i = I(T_i ≤ C_i)：可观测的事件指示符（1=观察到事件，0=删失）。
- Z_i：Phase I可观测的廉价协变量向量（如年龄、性别）。
- X_i：Phase II才测量的昂贵协变量向量（如生物标志物）。对于未被选入Phase II的个体，X_i是缺失的。
- S_i：潜在变量，表示个体的“易感性”状态。S_i = 1表示个体是易感的（susceptible，最终会经历事件），S_i = 0表示个体是治愈的（cured，永不经历事件）。这是混合治愈模型的核心。
- π_i = P(S_i = 1 | Z_i, X_i)：个体是易感的概率，由逻辑回归模型建模。
- λ(t | S_i=1, Z_i, X_i)：对于易感个体，在时间t的风险函数，由Cox比例风险模型建模。
- β：Cox模型中与协变量相关的回归系数向量（目标参数之一）。
- γ：逻辑回归模型中与协变量相关的回归系数向量（目标参数之一）。
- θ = (β, γ)：完整的参数向量。
- R_i：Phase II的抽样指示符。R_i = 1表示个体i被选入Phase II并测量了X_i；R_i = 0表示未被选中。
模型：
- 混合治愈模型：
  1. 治愈部分（逻辑回归）：logit(π_i) = γ_0 + γ_Z * Z_i + γ_X * X_i。这里γ = (γ_0, γ_Z, γ_X)。
  2. 失效时间部分（Cox比例风险模型）：对于易感个体（S_i=1），风险函数为 λ(t | Z_i, X_i) = λ_0(t) * exp(β_Z * Z_i + β_X * X_i)。这里β = (β_Z, β_X)，λ_0(t)是未指定的基线风险函数。
- 两阶段设计：Phase I观测到(Y_i, Δ_i, Z_i)。基于这些数据，设计一个抽样概率p_i = P(R_i=1 | Phase I data)。然后，对R_i=1的个体测量X_i。最终用于分析的完整数据集是{ (Y_i, Δ_i, Z_i, X_i) : R_i=1 }，以及所有个体的Phase I数据。
可观测数据：
- 所有个体（Phase I）：(Y_i, Δ_i, Z_i)。这是研究者实际能观测到的廉价信息。
- 子样本（Phase II）：(Y_i, Δ_i, Z_i, X_i)。这是研究者额外测量到的昂贵信息。
- 潜在/不可观测：S_i（易感性状态）是永远观测不到的，因为即使一个个体在随访结束时未发生事件，我们也无法区分他是“治愈”还是“尚未发生事件”（即右删失）。这是混合治愈模型推断的核心困难。T_i对于删失个体也是不可观测的。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：假设我们只有一个二元昂贵协变量X（例如，基因突变：有/无），并且我们只关心它在易感个体中对失效时间的影响，即参数β_X。同时，我们假设治愈概率是常数（即逻辑回归中只有截距项γ_0），不依赖于任何协变量。

在这个特例下，问题退化为： * 目标：高效估计β_X。 * 挑战：X很贵，只能测一小部分人。而且，我们不知道谁是易感的（S_i=1），这增加了估计β_X的难度。 * Phase I信息：我们有(Y_i, Δ_i)。Δ_i（是否观察到事件）是一个关键信息。如果Δ_i=1，我们知道这个人一定是易感的（S_i=1）。如果Δ_i=0，这个人可能是易感但被删失，也可能是治愈的。

Kulich & Lin (2004) 的残差依赖设计在这个特例下的核心思想是： 1. 用Phase I数据拟合一个“朴素”模型：忽略治愈部分，直接用标准Cox模型拟合(Y_i, Δ_i)，得到β_X的一个初步估计β̃_X（虽然可能有偏，但作为指导抽样的工具是可行的）。 2. 计算鞅残差：对于每个个体，计算基于这个朴素模型的鞅残差 M_i = Δ_i - ∫₀^{Y_i} λ̃_0(t) * exp(β̃_X * 0) dt（这里假设X未知，所以用0代替）。这个残差M_i反映了观测事件状态与模型预测的偏差。 3. 设计抽样概率：让Phase II的抽样概率p_i与|M_i|成正比。直觉上，|M_i|大的个体（即模型预测与观测严重不符的个体）携带了更多关于β_X的信息，因此应该更有可能被抽中测量X。

本文的创新在于将这个思想推广到更复杂的场景，特别是当治愈概率本身也依赖于X（即γ_X也是目标参数）时。此时，我们需要同时估计β_X和γ_X，而一个单一的鞅残差不足以捕捉对两个参数的信息量。因此，作者提出了双变量残差依赖设计： 1. 拟合两个初步模型：一个用于治愈概率（逻辑回归），一个用于易感个体的失效时间（Cox模型）。这两个模型都基于Phase I数据，并通过一些技巧（如假设X的某种分布或使用代理变量）来获得初步估计。 2. 计算两个残差： * 治愈模型的残差：例如，基于逻辑回归的Pearson残差或偏差残差，反映个体对治愈概率估计的贡献。 * 失效时间模型的残差：例如，基于Cox模型的鞅残差，反映个体对风险比估计的贡献。 3. 设计双变量抽样概率：让p_i同时依赖于这两个残差。例如，p_i可以正比于两个残差绝对值的最大值、和，或者通过一个更复杂的函数来权衡两者。本文探索了多种具体的双变量残差依赖设计方案。

一句话总结最小内核：本文的核心数学问题是，如何构造一个依赖于两个不同模型残差的Phase II抽样概率函数，使得由此得到的加权估计量对混合治愈模型中的两个参数（治愈概率和风险比）同时具有较高的估计效率。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对存在不敏感（治愈）分组的右删失失效时间数据，开发了高效的两阶段设计策略，以在有限预算下估计混合治愈模型中的参数（治愈概率和易感个体的失效时间风险比）。
核心工具/方法：提出了双变量残差依赖设计（bivariate residual-dependent design），该设计基于Phase I数据拟合的初步模型，计算与治愈概率和失效时间相关的两个残差，并据此确定Phase II的抽样概率。估计阶段采用逆概率加权（IPW）的伪似然方法。
主要结论：通过广泛的模拟研究，证明所提出的双变量残差依赖设计在估计效率上显著优于传统的Phase II子抽样方案（如简单随机抽样、基于结局的分层抽样）。该方法在前列腺、肺、结直肠和卵巢癌（PLCO）筛查试验数据上的应用也展示了其实用价值。

关键设定与假设¶

设定：考虑三种回归框架：
- (a) 仅治愈模型：只关心治愈概率，失效时间被视为 nuisance。
- (b) 仅失效时间模型：假设治愈概率是常数或已知，只关心易感个体的失效时间风险比。
- (c) 联合模型：同时关心治愈概率和失效时间风险比，这是本文的核心贡献场景。
假设：
- SUTVA：个体的潜在结果和治愈状态不受其他个体治疗分配的影响（标准假设，未明确提及但隐含）。
- 条件独立删失：给定协变量(Z, X)，删失时间C与失效时间T和治愈状态S独立。这是标准假设。
- 混合治愈模型正确设定：逻辑回归模型和Cox比例风险模型的形式是正确的。这是模型依赖的推断所必需的。
- Phase I模型正确或足够好：用于指导抽样的Phase I初步模型（如忽略治愈的Cox模型或简化模型）不需要完全正确，但需要能提供有信息量的残差。作者通过模拟研究了模型错误设定的影响。
- Phase II抽样机制已知：抽样概率p_i完全由Phase I数据决定，并且是已知的（或可以被一致地估计）。这是IPW估计的基础。
- Positivity：对于所有Phase I个体，抽样概率p_i > 0，确保每个个体都有非零的概率被选入Phase II。

主要结果¶

理论结果：本文主要是方法论文，没有提供严格的渐近理论证明（如估计量的相合性和渐近正态性）。作者在文中提到，估计方法基于IPW伪似然，其渐近性质可以借鉴标准两阶段设计文献（如Breslow & Cain, 1988; Kulich & Lin, 2004）的结果。这是一个重要的局限性：本文的结论主要基于模拟，而非严格的数学证明。
模拟研究结果：
- 场景(a)和(b)：对于仅估计治愈概率或仅估计风险比的情况，基于相应模型残差的单变量残差依赖设计显著优于简单随机抽样和基于结局（病例/对照）的分层抽样。效率提升可达50%-100%（以均方误差衡量）。
- 场景(c)（核心贡献）：对于联合估计，作者比较了多种双变量残差依赖设计方案（如基于两个残差的最大值、和、乘积等）。结果表明，没有一个单一方案在所有情况下都绝对最优，但所有双变量方案都一致地优于传统的单变量方案（如仅基于失效时间残差或仅基于治愈残差）和简单随机抽样。其中，基于两个残差最大值的方案在平衡两个参数的估计效率方面表现良好。
- 对模型错误设定的稳健性：当Phase I用于计算残差的初步模型被错误设定时（例如，忽略了治愈部分），基于该残差的设计效率会下降，但仍然优于简单随机抽样。这表明该方法具有一定的稳健性。

证明路线与技术技巧¶

整体路线：本文没有提供严格的证明。其方法论路线是：
1. Phase I模型拟合：基于全队列的(Y_i, Δ_i, Z_i)数据，拟合一个初步的、可能简化的模型（如忽略X的Cox模型或逻辑回归模型），以获得参数的初步估计。
2. 残差计算：基于初步模型，计算每个个体的两个残差：一个反映其对治愈概率估计的贡献（如逻辑回归的偏差残差），一个反映其对失效时间风险比估计的贡献（如Cox模型的鞅残差或Schoenfeld残差）。
3. 抽样概率设计：定义一个函数f(·,·)，将两个残差映射到抽样概率p_i。例如，p_i ∝ max(|residual_cure_i|, |residual_failure_i|)。
4. Phase II抽样：根据计算出的p_i，进行不等概率抽样，测量选中的个体的X_i。
5. 加权估计：使用IPW方法，对Phase II样本中的个体赋予权重w_i = 1/p_i，然后拟合完整的混合治愈模型（逻辑回归+Cox模型）。估计通过最大化加权伪似然函数得到。
关键跳跃点：本文的关键跳跃点在于如何定义和计算用于指导抽样的残差，尤其是在治愈状态S_i未知的情况下。作者巧妙地利用了Phase I数据中的信息：
- 对于失效时间残差，他们借鉴了Kulich & Lin (2004)的方法，使用一个忽略治愈部分的“朴素”Cox模型来计算鞅残差。这个残差虽然不能完美区分治愈和易感个体，但能捕捉到与失效时间相关的异常信息。
- 对于治愈残差，他们利用了一个事实：观察到事件的个体（Δ_i=1）一定是易感的（S_i=1）。因此，可以基于这些“确定易感”的个体，结合所有个体的删失信息，来拟合一个初步的逻辑回归模型（例如，将删失个体视为一个混合群体），并计算残差。作者在文中讨论了多种计算治愈残差的策略。
技术技巧点名：
- 逆概率加权（IPW）：核心估计技巧，用于纠正因非随机Phase II抽样带来的选择偏差。
- 伪似然（Pseudo-likelihood）：将IPW权重应用于标准混合治愈模型的似然函数，得到加权伪似然进行估计。
- 鞅残差（Martingale residual）：用于失效时间模型，是Kulich & Lin (2004)工作的核心。
- 偏差残差/皮尔逊残差（Deviance/Pearson residual）：用于广义线性模型（逻辑回归），是计算治愈模型残差的候选工具。

真实例子与应用¶

数据：前列腺、肺、结直肠和卵巢癌（PLCO）筛查试验数据。这是一个大型随机对照试验，旨在评估多种癌症筛查方法的效果。
应用场景：研究者关注前列腺癌特异性死亡这一结局。由于前列腺癌的惰性特性，很多患者即使被诊断也不会死于该病，因此存在一个明显的“治愈”群体（即死于其他原因或存活至随访结束）。昂贵的协变量是前列腺特异性抗原（PSA）的基线水平。
方法应用：
1. Phase I：全队列（约38,000名男性）拥有年龄、种族、吸烟史等廉价协变量，以及随访时间和死亡状态（是否死于前列腺癌）。
2. Phase II设计：基于Phase I数据，使用本文提出的双变量残差依赖设计，计算每个个体的抽样概率。目标是高效地抽取一个子样本（例如，n=2000），测量其基线PSA水平。
3. 分析：对Phase II子样本，使用IPW加权混合治愈模型，估计PSA对治愈概率和（对易感个体的）前列腺癌死亡风险的影响。
结果：本文展示了使用不同Phase II设计方法得到的估计结果。结果表明，与简单随机抽样相比，使用双变量残差依赖设计得到的标准误更小，即估计效率更高。这验证了模拟研究的结论，并展示了该方法在实际大规模队列研究中的潜力。
例子想说明什么：这个例子旨在证明本文提出的方法不是纸上谈兵，而是可以应用于真实世界的大型流行病学研究，并能带来切实的效率提升。

🔎 结论是否比证明窄¶

是的，结论比证明窄。 本文的结论（双变量残差依赖设计更高效）完全基于模拟研究和一个实证例子。作者没有提供任何严格的渐近理论证明来支持其方法的相合性、渐近正态性或效率最优性。文中提到“渐近性质可以借鉴...”，但这并非证明。因此，本文的贡献更偏向于方法论的提出和实证验证，而非理论上的严格确立。读者需要意识到，在没有理论保证的情况下，该方法在更复杂或偏离模拟设定的场景下的表现是未知的。

四、开放问题¶

理论证明的缺失：本文最直接的开放问题是，能否为所提出的双变量残差依赖设计下的IPW估计量提供严格的渐近理论证明（相合性、渐近正态性、方差估计）？这扎根于本文完全没有提供理论结果这一事实。
最优抽样方案的确定：本文比较了多种双变量残差依赖设计方案，但没有一个在所有情况下最优。是否存在一个理论上最优的抽样概率函数，可以最小化目标参数（如β_X和γ_X）的联合渐近方差（例如，基于A-optimality或D-optimality准则）？这扎根于文中“没有一个单一方案在所有情况下都绝对最优”这一结论。
Phase I模型错误设定的影响：本文的模拟研究初步探索了模型错误设定的影响，但不够系统。一个开放问题是，当Phase I用于计算残差的模型严重错误时，该方法效率下降的理论速率是多少？是否存在对模型错误设定更稳健的残差定义或抽样策略？这扎根于文中“对模型错误设定的稳健性”这一讨论的初步性。
扩展到更复杂的治愈模型：本文使用了标准的混合治愈模型（逻辑回归+Cox）。一个自然的扩展是，将该两阶段设计思想应用于更复杂的治愈模型，例如推广的Gamma脆弱模型、非参数治愈模型，或带有区间删失的治愈模型。这扎根于本文仅关注标准混合治愈模型这一设定。

Maintained by 陈星宇 · Homepage · Source on GitHub