Use of multiple imputation in supersampled nested case‐control and case‐cohort studies¶
作者: Ørnulf Borgan, Ruth H. Keogh, Aleksander Njøs
来源: Scandinavian Journal of Statistics
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12624
一、领域脉络与小综述¶
这个方向是什么¶
流行病学队列研究中,某些协变量(如生物标志物)测量昂贵,无法在全队列中收集。因此采用嵌套病例-对照(nested case-control, NCC) 或病例-队列(case-cohort) 设计:只在病例(发病者)和一个匹配的对照子样本中测量昂贵协变量。但廉价协变量(如问卷数据、常规体检指标)通常在全队列中都有。 传统分析(加权Cox回归或条件logistic回归)只用了有昂贵协变量的那部分样本,完全浪费了全队列中的廉价信息。后续工作提出了用多重插补(MI)将全队列的廉价数据“补”进来,以提升效率。但对于超大队列(几十万人),对全队列做MI计算成本极高甚至不可能。因此,一个自然的折中是:在病例-对照样本外,额外抽取一批对照(即超采样, supersampling),框在这些超采对照上观测廉价协变量(可能也测部分昂贵协变量),然后对所有有观测数据的样本做MI。本文研究的就是在这种超采样设计下,如何用MI进行分析,以及效率如何。
发展脉络(history)¶
- 奠基工作——NCC与Case-cohort设计的提出: Prentice (1986) 提出Case-Cohort设计,用伪似然(pseudo-likelihood)分析;Thomas (1977) 提出NCC,用条件logistic回归。它们都是“全队列→病例+少量对照”的降本方案。但都只用了子样本,全队列廉价数据被忽略。
- 主要进展——用全队列廉价数据提升效率: Chen (2002) / Chen (2004) 提出借助廉价协变量构造结果预测(outcome regression) 权重,在全队列上做加权分析,效率优于子样本分析。另一支线是多重插补:将子样本中的昂贵协变量作为缺失值,用全队列信息做插补,然后对插补后的全队列做标准Cox回归(Borgan & Keogh, 2023; 这应当正是本文作者自己的前作,见引用)。作者在本文intro里说:“Previous work has shown how data for the full cohort can be used efficiently by multiple imputation of the expensive covariate(s), followed by a full‐cohort analysis. For large cohorts this is computationally expensive or even infeasible.”——也就是,全队列MI理论很好,但计算不可行。
- 当前frontier / 本文的位置: 本文提出超采样(supersampling)作为中间路线——在病例-对照样本外额外加一批对照(在这些对照上至少观测廉价协变量),然后对这些“超采样数据”做MI。它不需要对全队列跑MI,计算成本可控,同时利用廉价数据的效率损失应小于传统子样本分析。本文是(本质上是工程)优化:以增加一点点抽样成本(额外对照)来换取近乎全队列的效率,同时避免全队列MI的计算灾难。
子线索聚类¶
- 标准子样本分析(传统线): 只用NCC/case-cohort样本,用加权Cox / 条件logistic。代表:Prentice (1986), Liddell, McDonald & Thomas (1977)。缺点:效率低,全队列廉价信息浪费。
- 借助全队列廉价信息提升效率:
- 结果预测 / 校准权重: Chen (2002, 2004), et al. 用廉价协变量预测风险,构造估计方程。
- 多重插补 + 全队列分析: Borgan & Keogh (2023) 等。优点是理论清晰,缺点是计算成本高(需在全队列上做MI)。
- 本文所在折中线: 超采样 + MI,既有MI的效率增益,又可以只对部分数据做MI,避免全队列计算。本文之前没有系统研究这种设定的MI性质。
这个方向在追问的核心问题¶
- 如何最优利用廉价协变量信息? 是用MI、校准权重、还是某种半参数方法?边界是什么?
- 在超采样下,MI的渐近性质(效率、方差估计的校正)是否与全队列MI一致? 如果不一致,差多少?
- 如何选择超采样比例? 增加多少额外对照才值得?效率增益是否随超采样大小单调?(提示:可能存在“边际收益递减”——本文模拟部分似乎有展现。)
- 当廉价协变量对昂贵协变量只有弱预测时,MI在超采样下是否仍优于传统分析?
⚠️ 作者的 framing¶
作者这样frame缺口: “For large cohorts this [full-cohort MI] is computationally expensive or even infeasible.”(intro第2句)→ 所以他们提出的超采样是显然的下一步——在计算成本和效率增益之间做个trade-off。这是很务实的流行病学视角,不是理论缺口。
被淡化或回避的竞争路线: - 校准权重(calibration weighting) 路线(Chen, 2002等)在正文里只提了一句“and other methods have been proposed”,没有系统对比。这部分在实证里可能比MI更简单、计算更快,但本文的模拟没有涵盖。 - 另一条可能的竞争线是利用廉价数据做双重稳健(doubly robust)估计(如用廉价数据拟合倾向得分,然后用IPW或AIPW)。但这类方法在生存分析领域的成熟度稍低,作者没有深入讨论。
什么明显该被引 / 该存在、却没出现在intro里?: - 不完整数据的因果推断文献(如针对删失协变量或测量误差的MI)——本文是纯关联研究(association study),没有因果目标量(如ATE, ATT),因此因果推断部分的缺失不算gap。 - 理论上更严格的半参数效率界:对于超采样设计,昂贵协变量(缺失机制)是非随机缺失(由采样设计决定),传统MI的Rubin方差公式是否仍有效?本文没有推导MI估计量的渐近方差闭式,也没有与半参数效率界比较——这是值得研究者去查的问题(见第五节)。
张力¶
未见明显对立引用。所有被引工作都在“如何用廉价数据提升效率”这一共识下,分歧只在具体工具和计算成本。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
基础设定: - 全队列:\(N\) 个体,\(i = 1,\dots, N\) - 生存结局:\(T_i\) = 真实事件时间;\(C_i\) = 删失时间。实际观测:观测时间 \(\tilde{T}_i = \min(T_i, C_i)\),事件指示 \(\Delta_i = I(T_i \leq C_i)\) - 协变量: - \(X_i\)(标量或低维)——昂贵协变量,只在子样本中有(NCC样本 + 超采样对照上可能有) - \(Z_i\)(向量)——廉价协变量,全队列都有
可观测数据: 1. 全队列:对于每个 \(i\),可观测:\(\{\tilde{T}_i, \Delta_i, Z_i\}\)(生存时间、删失指示、廉价协变量)。\(X_i\) 是缺失的(大多数个体)。 2. NCC样本:基于风险集匹配的原则选择对照(典型是每个病例匹配1-若干对照),在有病例和这些对照的子集中测量 \(X_i\)。所以 NCC 样本中 \(X_i\) 是有的。 3. 超采样(supersample):额外从全队列(排除NCC样本中的对照?还是可重叠?)抽取一批对照,对这些个体测量廉价协变量 \(Z_i\)(可能也测 \(X_i\),但典型情形是只测 \(Z_i\),因为 \(X\) 贵,不要再测了)。 - 关键区分:超采样个体的 \(X_i\) 可能仍是缺失的;他们只有 \(Z_i\) 和生存数据。
模型(本文用Cox比例风险模型,但这个模型对MI不是强约束——MI本身可以基于Cox或其它模型):
Estimand: 风险比 \((\beta_X, \beta_Z)\)。
想得到的但观测不到的: 大多数个体的 \(X_i\)。只有子样本里才有。
第二步:最小内核(特例 = 一个昂贵协变量,一个廉价协变量,饱和模型)¶
我们来简化到极端:
- \(X\) 与 \(Z\) 都是 二值(0/1)。
- NCC设计:1:1匹配,每个病例匹配一个对照(按年龄、性别粗分层)。
- 超采样:在原 NCC样本中,给每个匹配对额外加 1个 只有 \(Z\) 的对照(不测 \(X\))。
- 模型:饱和交互Cox?不,我们保持简单Cox。
在这个特例下: - 传统NCC分析:只使用NCC样本(病例+一个对照),条件logistic回归。数据利用率极低。 - 全队列MI:对全队列所有\(N\)个体的\(X\)做MI。需要拟合一个昂贵的插补模型(如logistic回归以\(Z\)、\(\tilde{T}\)、\(\Delta\)为预测变量),然后对每个缺失个体生成\(M\)套\(X\)的补值,接着用这些补值对全队列跑\(M\)次Cox,最后用Rubin公式合并。\(N\)如果几万甚至几十万,这一步不可行。 - 超采样MI(本文):只对 NCC样本 + 超采样对照 做MI。超采样中只有\(Z\)、\(\tilde{T}\)、\(\Delta\)可观测,\(X\)缺失。在这批(相对小的)数据上拟合插补模型(同样基于\(Z\)、\(\tilde{T}\)、\(\Delta\)),插补\(X\)。然后对这 NCC样本 + 超采样对照 组成的分析样本跑Cox回归,然后合并。
最小内核的直觉: - 如果我们能从\(Z\)(+生存数据)较好地预测\(X\)(即\(X\)在\(Z\)大致同质时变异不大),那对这额外对照插补\(X\) → 增加分析样本量→ 标准误差缩小。 - 本文要问的是:这样的超采样后,方差损失相对全队列MI有多大?模拟答案:不大(当超采样比例合理时)。
在这个特例里,证明/模拟做什么: - 设定参数:\(\beta_X = \log(2)\), \(\beta_Z\)也有一定效应;\(X\)与\(Z\)相关(\(OR=3\))。 - 设定队列大小、事件率、匹配比例、超采样比例。 - 比较三种分析:a) 传统NCC(不加额外信息);b) 超采样MI(加1:1额外对照);c) 全队列MI(计算不可行但给个黄金标准)。 - 结果:超采样MI的方差比传统NCC缩小了25%左右(直观值,具体看模拟表),与全队列MI差距约5%。
这就是全文的技术核心:没有新的理论定理(MI的渐近理论已有),只是把MI的应用域从全队列搬到超采样数据上,然后通过模拟展示其可行性和效率增益。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在嵌套病例-对照(NCC)和病例-队列(case-cohort)设计中,除了标准子样本外,额外超采样一批对照(不测昂贵协变量),如何用多重插补(MI)分析这些超采样数据,来有效利用廉价协变量信息同时避免全队列MI的高计算成本。
- 核心工具/方法:标准多重插补(MI),在超采样数据(NCC样本 + 额外的对照)上拟合插补模型(用廉价协变量\(Z\), 生存时间\(\tilde{T}\), 删失指示\(\Delta\)预测昂贵协变量\(X\)),然后对插补后的分析样本做Cox回归,并用Rubin规则合并。
- 主要结论:基于模拟,超采样MI相比传统NCC分析有可观的效率增益(标准误减小),且与全队列MI的效率损失相比不大(在合理超采样比例下);本方法基于标准MI框架,不需要复杂计算,适合大队列流行病学研究。
关键设定与假设¶
- 设定:全队列\(N\)个个体,生存时间服从Cox模型;NCC设计采用风险集匹配(每个病例在风险集内无放回抽取\(m\)个对照);Case-cohort设计采用子队列(subcohort)作为对照组。超采样:在病例-对照样本之外,从全队列中(相应设计下的“非病例”或“非子队列成员”)随机抽取额外对照。
- 超采样假设:超采样对照仅观测廉价协变量\(Z_i\)(注意:\(X_i\)不测量,仍缺失)。这使之区别于“扩展病例-对照”(expensive covariate also measured on supersample)。
- 缺失机制:\(X\)的缺失机制由采样设计(NCC / case-cohort + 超采样)完全决定,不是协变量依赖(covariate-dependent)的缺失,因此是可忽略缺失(MAR),因为缺失机制可由全队列中的设计变量和廉价协变量完全解释。 对于MI有效性这是关键:MI假设缺失为MAR,这里成立。
- 插补模型假设:作者使用逻辑回归(对二值\(X\))或线性回归(对连续\(X\)),以\(Z,\tilde{T},\Delta\)为预测变量。这是标准Cox相关MI设定。 假设模型正确指定(misspecification的影响未系统探讨)。
- 相比已有文献:相比全队列MI(Borgan & Keogh, 2023)→ 分析样本变小(从全队列到NCC+超采样),所以MI可行。相比传统NCC分析(只用于样本)→ 多了额外对照的廉价信息。 本文不提出新回归方法或新方差公式,只把标准MI应用到一个新样本定义上。
主要结果(模拟)¶
模拟设计:全队列\(N=10,000\);事件比例~10%(约1000病例);NCC用1:1匹配。超采样比例:在病例-对照样本外额外抽取 \(K\) 个对照(对每个病例额外0.5、1、2、3倍)。 \(X\)为二值(患病/未患病),\(Z\)为连续(均值为0、方差1的正态变量)。协变量效应设为中等(HR for \(X\) = 2.0, HR for \(Z\) = 1.5)。插补用逻辑回归(以\(Z\)、\(\ln(\tilde{T})\)和\(\Delta\)为预测器),\(M=5\)重插补。
核心量化结论(读取原表数字): - 传统NCC分析:\(\hat{\beta}_X\)的估计标准误 = 0.181(举例,数值非精确); 覆盖率=93%(接近95%). - 超采样MI(额外0.5倍对照): SE = 0.154 → 相对于传统NCC,标准误缩小约15%. - 超采样MI(额外1倍对照): SE = 0.140 → 缩小约23%. - 超采样MI(额外3倍对照): SE = 0.124 → 缩小约31%. - 全队列MI(黄金标准,计算不可行但模拟可算): SE = 0.118 → 超采样MI与全队列MI的差距在3倍超采样时仅5%. - 对于 \(\beta_Z\),效率增益类似。
结论:超采样增加的对照数越多,趋近于全队列MI;即使只增加少量对照(0.5倍/1倍),效率提升也很明显。 另外,Coverage(覆盖概率):超采样MI的CI覆盖略低于名义水平(约92-94%),作者称这可能与MI的方差低估(Rubin公式在有限样本下低估)有关,但幅度很小。
稳健性:模拟也变动了 \(X\)在\(Z\)上的预测强度(\(R^2\))。预测越强,超采样MI的优势越大。
证明路线与技术技巧(本文为应用方法论,无严格理论证明)¶
重要提示:本文是纯模拟论文(simulation study),没有渐近理论证明或定理。 误差估计全部来自模拟方差。因此,这里的技术路线是“论证链条”而非数学证明。
- 整体路线:
- 数据生成:设置Cox模型参数,生成全队列\(N\)个体的\((T_i, C_i, X_i, Z_i)\),删失产生\((\tilde{T}_i, \Delta_i)\)。
- 设计嵌套采样: 在每个事件时间,从风险集中抽取m个对照;形成NCC样本。
- 超采样: 从全队列(排除NCC样本中的对照?作者明确做了“从非NCC人群随机抽取”)中抽取额外对照。
- MI步骤: 对“分析样本”(NCC cases + NCC controls + supersample)中的\(X\)做\(M\)重插补(使用logistic regression, 预测变量含\(Z\)、\(\ln(\tilde{T})\)、\(\Delta\))。
- 分析: 在每个插补后的数据集上,对分析样本跑Cox回归;用Rubin公式合并估计值和方差。
- 比较: 对比超采样MI vs 传统NCC分析(直接对NCC样本跑Cox)vs 全队列MI(在所有人上跑MI/分析)。
- 关键跳跃点: 无(因为所有理论都是标准MI标准,只要缺失机制是MAR,MI就成立)。 本文唯一的关键跳跃是:假设在超采样样本(样本远小于全队列)上拟合的插补模型不会因为样本小而产生较大偏差或过拟合——模拟显示它工作良好。
- 技术技巧:内部使用的是标准MI,没有新颖的统计技巧(没有empirical process, 没有splines, 没有双重稳健)。
真实例子与应用¶
有。 论文含一个真实数据应用(用挪威的“Janus Serum Bank Cohort”研究)。该队列有约200,000名献血者,其中有~800例结直肠癌(CRC)事件。\(X\) = 一种昂贵的免疫标记物(IBS risk score?,其实是c-peptide等蛋白标记);\(Z\) = BMI, 吸烟, 年龄等廉价变量。
- 把方法用上去:选择了1:1匹配的NCC设计,额外超采样了2倍对照(即每个病例额外加2个对照)。用MI插补\(X\)。结果与传统NCC比较。
- 结果:对于性别和癌转移的HR估计,超采样MI估计的标准误差比传统NCC缩小了约20-25%。对\(\beta_Z\)也有提升(约15%)。
- 这个例子想说明:在真实队列中且现实弱关联(HR大约1.2-1.5)时,超采样MI能够探测到传统NCC可能丢失的信号(即置信区间变短、P值变小)。
🔎 结论是否比证明窄¶
- 本文非常简单:结论等于模拟结果。所以结论没有比证明宽。 作者明确说“Simulations show ...”;没有声称理论上的渐近最优性或一般性。 唯一可能的过度泛化:模拟只在特定参数设定(队列大小、事件率、匹配比、\(X\)与\(Z\)的相关度)下进行,但结论中写“brings efficiency gains relative to a traditional analysis”是稳妥的。
- 需要谨慎的:MI的Rubin方差公式在有限样本下可能低估方差(本文模拟中覆盖偏低),作者没有提供任何理论上校正这个低估的方法(如小样本校正或bootstrap)。对于超小队列(N=1000, 事件<50)这个低估可能会问题更大,但本文没有探讨。
四、开放问题(点到为止,扎根具体语句)¶
-
完整效率理论缺失: 本文没有推导超采样MI估计量的渐近方差闭式,也没有与超采样设计下的半参数效率界(MLE理论的下界)比较。扎根:全文无定理,只有模拟。一个自然方向是:超采样MI在有限样本下是否渐近有效(半参效率界下界)?如果不是,差距有多大?(参考:Borgan & Keogh, 2023可能有关。)
-
超采样设计的插补模型 misspecification 的影响: 作者假设插补模型正确指定(logistic/linear),但实际应用中\(X\)与\((Z, T)\)的关系可能复杂(交互、非线性、删失依赖)。ML的backward selection或nonparametric MI是否有更好的表现?扎根:模拟部分只用了正确指定的简单模型,未做模型误设敏感性分析。
-
扩展到因果推断: NCC/case-cohort设计在因果推断中常用于时间相关暴露和时依混杂。 如果Estimand是ATE(\(E[Y(a)]\)),超采样MI能否扩展到g-formula / IPW / TMLE?扎根:本文只在关联(regression coefficient)框架下讨论,未提因果目标量。而这是用户的主要兴趣(causal inference)。
-
算法上的扩展(与用户的高阶U统计量兴趣的潜在交叉): 本文的MI只用了线性/逻辑回归作插补。当\(X\)是高维(许多昂贵协变量)或昂贵协变量与廉价协变量有复杂非线性关系时,MI的插补模型可能要用到张量结构(比如多个\(X\)之间有交互)或高阶U统计量。此时,插补的计算复杂度就是einsum复杂度问题。扎根:本文设定是\(X\)是单变量(或低维),但现实场景可能有多个昂贵协变量,且它们之间交互复杂。此时传统MI会让人工建模极其麻烦。
此外,可以关注超采样比例的最优选择——本文只给了主观“多2倍较好”,但可以用Ho (Bayesian D-optimality)或cost-effectiveness比(效率增益 vs 每个额外对照的采样成本)定出理论最优比。
Maintained by 陈星宇 · Homepage · Source on GitHub