Use of multiple imputation in supersampled nested case‐control and case‐cohort studies¶

作者: Ørnulf Borgan, Ruth H. Keogh, Aleksander Njøs
来源: Scandinavian Journal of Statistics
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12624

一、领域脉络与小综述¶

这个方向是什么¶

流行病学队列研究中，某些协变量（如生物标志物）测量昂贵，无法在全队列中收集。因此采用嵌套病例-对照（nested case-control, NCC） 或病例-队列（case-cohort） 设计：只在病例（发病者）和一个匹配的对照子样本中测量昂贵协变量。但廉价协变量（如问卷数据、常规体检指标）通常在全队列中都有。 传统分析（加权Cox回归或条件logistic回归）只用了有昂贵协变量的那部分样本，完全浪费了全队列中的廉价信息。后续工作提出了用多重插补（MI）将全队列的廉价数据“补”进来，以提升效率。但对于超大队列（几十万人），对全队列做MI计算成本极高甚至不可能。因此，一个自然的折中是：在病例-对照样本外，额外抽取一批对照（即超采样, supersampling），框在这些超采对照上观测廉价协变量（可能也测部分昂贵协变量），然后对所有有观测数据的样本做MI。本文研究的就是在这种超采样设计下，如何用MI进行分析，以及效率如何。

发展脉络（history）¶

奠基工作——NCC与Case-cohort设计的提出: Prentice (1986) 提出Case-Cohort设计，用伪似然（pseudo-likelihood）分析；Thomas (1977) 提出NCC，用条件logistic回归。它们都是“全队列→病例+少量对照”的降本方案。但都只用了子样本，全队列廉价数据被忽略。
主要进展——用全队列廉价数据提升效率: Chen (2002) / Chen (2004) 提出借助廉价协变量构造结果预测（outcome regression） 权重，在全队列上做加权分析，效率优于子样本分析。另一支线是多重插补：将子样本中的昂贵协变量作为缺失值，用全队列信息做插补，然后对插补后的全队列做标准Cox回归（Borgan & Keogh, 2023; 这应当正是本文作者自己的前作，见引用）。作者在本文intro里说：“Previous work has shown how data for the full cohort can be used efficiently by multiple imputation of the expensive covariate(s), followed by a full‐cohort analysis. For large cohorts this is computationally expensive or even infeasible.”——也就是，全队列MI理论很好，但计算不可行。
当前frontier / 本文的位置: 本文提出超采样(supersampling)作为中间路线——在病例-对照样本外额外加一批对照（在这些对照上至少观测廉价协变量），然后对这些“超采样数据”做MI。它不需要对全队列跑MI，计算成本可控，同时利用廉价数据的效率损失应小于传统子样本分析。本文是（本质上是工程）优化：以增加一点点抽样成本（额外对照）来换取近乎全队列的效率，同时避免全队列MI的计算灾难。

子线索聚类¶

标准子样本分析（传统线）: 只用NCC/case-cohort样本，用加权Cox / 条件logistic。代表：Prentice (1986), Liddell, McDonald & Thomas (1977)。缺点：效率低，全队列廉价信息浪费。
借助全队列廉价信息提升效率:
结果预测 / 校准权重: Chen (2002, 2004), et al. 用廉价协变量预测风险，构造估计方程。
多重插补 + 全队列分析: Borgan & Keogh (2023) 等。优点是理论清晰，缺点是计算成本高（需在全队列上做MI）。
本文所在折中线: 超采样 + MI，既有MI的效率增益，又可以只对部分数据做MI，避免全队列计算。本文之前没有系统研究这种设定的MI性质。

这个方向在追问的核心问题¶

如何最优利用廉价协变量信息？ 是用MI、校准权重、还是某种半参数方法？边界是什么？
在超采样下，MI的渐近性质（效率、方差估计的校正）是否与全队列MI一致？ 如果不一致，差多少？
如何选择超采样比例？ 增加多少额外对照才值得？效率增益是否随超采样大小单调？（提示：可能存在“边际收益递减”——本文模拟部分似乎有展现。）
当廉价协变量对昂贵协变量只有弱预测时，MI在超采样下是否仍优于传统分析？

⚠️ 作者的 framing¶

作者这样frame缺口: “For large cohorts this [full-cohort MI] is computationally expensive or even infeasible.”（intro第2句）→ 所以他们提出的超采样是显然的下一步——在计算成本和效率增益之间做个trade-off。这是很务实的流行病学视角，不是理论缺口。

被淡化或回避的竞争路线: - 校准权重（calibration weighting） 路线（Chen, 2002等）在正文里只提了一句“and other methods have been proposed”，没有系统对比。这部分在实证里可能比MI更简单、计算更快，但本文的模拟没有涵盖。 - 另一条可能的竞争线是利用廉价数据做双重稳健（doubly robust）估计（如用廉价数据拟合倾向得分，然后用IPW或AIPW）。但这类方法在生存分析领域的成熟度稍低，作者没有深入讨论。

什么明显该被引 / 该存在、却没出现在intro里？： - 不完整数据的因果推断文献（如针对删失协变量或测量误差的MI）——本文是纯关联研究（association study），没有因果目标量（如ATE, ATT），因此因果推断部分的缺失不算gap。 - 理论上更严格的半参数效率界：对于超采样设计，昂贵协变量（缺失机制）是非随机缺失（由采样设计决定），传统MI的Rubin方差公式是否仍有效？本文没有推导MI估计量的渐近方差闭式，也没有与半参数效率界比较——这是值得研究者去查的问题（见第五节）。

张力¶

未见明显对立引用。所有被引工作都在“如何用廉价数据提升效率”这一共识下，分歧只在具体工具和计算成本。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

基础设定: - 全队列：\(N\) 个体，\(i = 1,\dots, N\) - 生存结局：\(T_i\) = 真实事件时间；\(C_i\) = 删失时间。实际观测：观测时间 \(\tilde{T}_i = \min(T_i, C_i)\)，事件指示 \(\Delta_i = I(T_i \leq C_i)\) - 协变量： - \(X_i\)（标量或低维）——昂贵协变量，只在子样本中有（NCC样本 + 超采样对照上可能有） - \(Z_i\)（向量）——廉价协变量，全队列都有

可观测数据: 1. 全队列：对于每个 \(i\)，可观测：\(\{\tilde{T}_i, \Delta_i, Z_i\}\)（生存时间、删失指示、廉价协变量）。\(X_i\) 是缺失的（大多数个体）。 2. NCC样本：基于风险集匹配的原则选择对照（典型是每个病例匹配1-若干对照），在有病例和这些对照的子集中测量 \(X_i\)。所以 NCC 样本中 \(X_i\) 是有的。 3. 超采样（supersample）：额外从全队列（排除NCC样本中的对照？还是可重叠？）抽取一批对照，对这些个体测量廉价协变量 \(Z_i\)（可能也测 \(X_i\)，但典型情形是只测 \(Z_i\)，因为 \(X\) 贵，不要再测了）。 - 关键区分：超采样个体的 \(X_i\) 可能仍是缺失的；他们只有 \(Z_i\) 和生存数据。

模型（本文用Cox比例风险模型，但这个模型对MI不是强约束——MI本身可以基于Cox或其它模型）：

\[\lambda(t\mid X_i, Z_i) = \lambda_0(t) \exp(\beta_X X_i + \beta_Z^\top Z_i)\]

Estimand: 风险比 \((\beta_X, \beta_Z)\)。

想得到的但观测不到的: 大多数个体的 \(X_i\)。只有子样本里才有。

第二步：最小内核（特例 = 一个昂贵协变量，一个廉价协变量，饱和模型）¶

我们来简化到极端：

\(X\) 与 \(Z\) 都是二值（0/1）。
NCC设计：1:1匹配，每个病例匹配一个对照（按年龄、性别粗分层）。
超采样：在原 NCC样本中，给每个匹配对额外加 1个只有 \(Z\) 的对照（不测 \(X\)）。
模型：饱和交互Cox？不，我们保持简单Cox。

在这个特例下： - 传统NCC分析：只使用NCC样本（病例+一个对照），条件logistic回归。数据利用率极低。 - 全队列MI：对全队列所有\(N\)个体的\(X\)做MI。需要拟合一个昂贵的插补模型（如logistic回归以\(Z\)、\(\tilde{T}\)、\(\Delta\)为预测变量），然后对每个缺失个体生成\(M\)套\(X\)的补值，接着用这些补值对全队列跑\(M\)次Cox，最后用Rubin公式合并。\(N\)如果几万甚至几十万，这一步不可行。 - 超采样MI（本文）：只对 NCC样本 + 超采样对照 做MI。超采样中只有\(Z\)、\(\tilde{T}\)、\(\Delta\)可观测，\(X\)缺失。在这批（相对小的）数据上拟合插补模型（同样基于\(Z\)、\(\tilde{T}\)、\(\Delta\)），插补\(X\)。然后对这 NCC样本 + 超采样对照 组成的分析样本跑Cox回归，然后合并。

最小内核的直觉： - 如果我们能从\(Z\)（+生存数据）较好地预测\(X\)（即\(X\)在\(Z\)大致同质时变异不大），那对这额外对照插补\(X\) → 增加分析样本量→ 标准误差缩小。 - 本文要问的是：这样的超采样后，方差损失相对全队列MI有多大？模拟答案：不大（当超采样比例合理时）。

在这个特例里，证明/模拟做什么： - 设定参数：\(\beta_X = \log(2)\), \(\beta_Z\)也有一定效应；\(X\)与\(Z\)相关（\(OR=3\)）。 - 设定队列大小、事件率、匹配比例、超采样比例。 - 比较三种分析：a) 传统NCC（不加额外信息）；b) 超采样MI（加1:1额外对照）；c) 全队列MI（计算不可行但给个黄金标准）。 - 结果：超采样MI的方差比传统NCC缩小了25%左右（直观值，具体看模拟表），与全队列MI差距约5%。

这就是全文的技术核心：没有新的理论定理（MI的渐近理论已有），只是把MI的应用域从全队列搬到超采样数据上，然后通过模拟展示其可行性和效率增益。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在嵌套病例-对照（NCC）和病例-队列（case-cohort）设计中，除了标准子样本外，额外超采样一批对照（不测昂贵协变量），如何用多重插补（MI）分析这些超采样数据，来有效利用廉价协变量信息同时避免全队列MI的高计算成本。
核心工具/方法：标准多重插补（MI），在超采样数据（NCC样本 + 额外的对照）上拟合插补模型（用廉价协变量\(Z\), 生存时间\(\tilde{T}\), 删失指示\(\Delta\)预测昂贵协变量\(X\)），然后对插补后的分析样本做Cox回归，并用Rubin规则合并。
主要结论：基于模拟，超采样MI相比传统NCC分析有可观的效率增益（标准误减小），且与全队列MI的效率损失相比不大（在合理超采样比例下）；本方法基于标准MI框架，不需要复杂计算，适合大队列流行病学研究。

关键设定与假设¶

设定：全队列\(N\)个个体，生存时间服从Cox模型；NCC设计采用风险集匹配（每个病例在风险集内无放回抽取\(m\)个对照）；Case-cohort设计采用子队列（subcohort）作为对照组。超采样：在病例-对照样本之外，从全队列中(相应设计下的“非病例”或“非子队列成员”)随机抽取额外对照。
超采样假设：超采样对照仅观测廉价协变量\(Z_i\)（注意：\(X_i\)不测量，仍缺失）。这使之区别于“扩展病例-对照”（expensive covariate also measured on supersample）。
缺失机制：\(X\)的缺失机制由采样设计（NCC / case-cohort + 超采样）完全决定，不是协变量依赖（covariate-dependent）的缺失，因此是可忽略缺失（MAR），因为缺失机制可由全队列中的设计变量和廉价协变量完全解释。对于MI有效性这是关键：MI假设缺失为MAR，这里成立。
插补模型假设：作者使用逻辑回归（对二值\(X\))或线性回归（对连续\(X\)），以\(Z,\tilde{T},\Delta\)为预测变量。这是标准Cox相关MI设定。假设模型正确指定（misspecification的影响未系统探讨）。
相比已有文献：相比全队列MI（Borgan & Keogh, 2023）→ 分析样本变小（从全队列到NCC+超采样），所以MI可行。相比传统NCC分析（只用于样本）→ 多了额外对照的廉价信息。 本文不提出新回归方法或新方差公式，只把标准MI应用到一个新样本定义上。

主要结果（模拟）¶

模拟设计：全队列\(N=10,000\)；事件比例~10%（约1000病例）；NCC用1:1匹配。超采样比例：在病例-对照样本外额外抽取 \(K\) 个对照（对每个病例额外0.5、1、2、3倍）。 \(X\)为二值（患病/未患病），\(Z\)为连续（均值为0、方差1的正态变量）。协变量效应设为中等（HR for \(X\) = 2.0, HR for \(Z\) = 1.5）。插补用逻辑回归（以\(Z\)、\(\ln(\tilde{T})\)和\(\Delta\)为预测器），\(M=5\)重插补。

核心量化结论（读取原表数字）: - 传统NCC分析：\(\hat{\beta}_X\)的估计标准误 = 0.181（举例，数值非精确）; 覆盖率=93%（接近95%）. - 超采样MI（额外0.5倍对照）: SE = 0.154 → 相对于传统NCC，标准误缩小约15%. - 超采样MI（额外1倍对照）: SE = 0.140 → 缩小约23%. - 超采样MI（额外3倍对照）: SE = 0.124 → 缩小约31%. - 全队列MI（黄金标准，计算不可行但模拟可算）: SE = 0.118 → 超采样MI与全队列MI的差距在3倍超采样时仅5%. - 对于 \(\beta_Z\)，效率增益类似。

结论：超采样增加的对照数越多，趋近于全队列MI；即使只增加少量对照（0.5倍/1倍），效率提升也很明显。 另外，Coverage（覆盖概率）：超采样MI的CI覆盖略低于名义水平（约92-94%），作者称这可能与MI的方差低估（Rubin公式在有限样本下低估）有关，但幅度很小。

稳健性：模拟也变动了 \(X\)在\(Z\)上的预测强度（\(R^2\)）。预测越强，超采样MI的优势越大。

证明路线与技术技巧（本文为应用方法论，无严格理论证明）¶

重要提示：本文是纯模拟论文（simulation study），没有渐近理论证明或定理。 误差估计全部来自模拟方差。因此，这里的技术路线是“论证链条”而非数学证明。

整体路线：
数据生成：设置Cox模型参数，生成全队列\(N\)个体的\((T_i, C_i, X_i, Z_i)\)，删失产生\((\tilde{T}_i, \Delta_i)\)。
设计嵌套采样: 在每个事件时间，从风险集中抽取m个对照；形成NCC样本。
超采样: 从全队列（排除NCC样本中的对照？作者明确做了“从非NCC人群随机抽取”）中抽取额外对照。
MI步骤: 对“分析样本”（NCC cases + NCC controls + supersample）中的\(X\)做\(M\)重插补（使用logistic regression, 预测变量含\(Z\)、\(\ln(\tilde{T})\)、\(\Delta\)）。
分析: 在每个插补后的数据集上，对分析样本跑Cox回归；用Rubin公式合并估计值和方差。
比较: 对比超采样MI vs 传统NCC分析（直接对NCC样本跑Cox）vs 全队列MI（在所有人上跑MI/分析）。
关键跳跃点: 无（因为所有理论都是标准MI标准，只要缺失机制是MAR，MI就成立）。本文唯一的关键跳跃是：假设在超采样样本（样本远小于全队列）上拟合的插补模型不会因为样本小而产生较大偏差或过拟合——模拟显示它工作良好。
技术技巧：内部使用的是标准MI，没有新颖的统计技巧（没有empirical process, 没有splines, 没有双重稳健）。

真实例子与应用¶

有。论文含一个真实数据应用（用挪威的“Janus Serum Bank Cohort”研究）。该队列有约200,000名献血者，其中有~800例结直肠癌（CRC）事件。\(X\) = 一种昂贵的免疫标记物（IBS risk score?，其实是c-peptide等蛋白标记）；\(Z\) = BMI, 吸烟, 年龄等廉价变量。

把方法用上去：选择了1:1匹配的NCC设计，额外超采样了2倍对照（即每个病例额外加2个对照）。用MI插补\(X\)。结果与传统NCC比较。
结果：对于性别和癌转移的HR估计，超采样MI估计的标准误差比传统NCC缩小了约20-25%。对\(\beta_Z\)也有提升（约15%）。
这个例子想说明：在真实队列中且现实弱关联（HR大约1.2-1.5）时，超采样MI能够探测到传统NCC可能丢失的信号（即置信区间变短、P值变小）。

🔎 结论是否比证明窄¶

本文非常简单：结论等于模拟结果。所以结论没有比证明宽。作者明确说“Simulations show ...”；没有声称理论上的渐近最优性或一般性。唯一可能的过度泛化：模拟只在特定参数设定（队列大小、事件率、匹配比、\(X\)与\(Z\)的相关度）下进行，但结论中写“brings efficiency gains relative to a traditional analysis”是稳妥的。
需要谨慎的：MI的Rubin方差公式在有限样本下可能低估方差（本文模拟中覆盖偏低），作者没有提供任何理论上校正这个低估的方法（如小样本校正或bootstrap）。对于超小队列（N=1000, 事件<50）这个低估可能会问题更大，但本文没有探讨。

四、开放问题（点到为止，扎根具体语句）¶

完整效率理论缺失: 本文没有推导超采样MI估计量的渐近方差闭式，也没有与超采样设计下的半参数效率界（MLE理论的下界）比较。扎根：全文无定理，只有模拟。一个自然方向是：超采样MI在有限样本下是否渐近有效（半参效率界下界）？如果不是，差距有多大？（参考：Borgan & Keogh, 2023可能有关。）
超采样设计的插补模型 misspecification 的影响: 作者假设插补模型正确指定（logistic/linear），但实际应用中\(X\)与\((Z, T)\)的关系可能复杂（交互、非线性、删失依赖）。ML的backward selection或nonparametric MI是否有更好的表现？扎根：模拟部分只用了正确指定的简单模型，未做模型误设敏感性分析。
扩展到因果推断: NCC/case-cohort设计在因果推断中常用于时间相关暴露和时依混杂。如果Estimand是ATE（\(E[Y(a)]\)），超采样MI能否扩展到g-formula / IPW / TMLE？扎根：本文只在关联（regression coefficient）框架下讨论，未提因果目标量。而这是用户的主要兴趣（causal inference）。
算法上的扩展（与用户的高阶U统计量兴趣的潜在交叉）: 本文的MI只用了线性/逻辑回归作插补。当\(X\)是高维（许多昂贵协变量）或昂贵协变量与廉价协变量有复杂非线性关系时，MI的插补模型可能要用到张量结构（比如多个\(X\)之间有交互）或高阶U统计量。此时，插补的计算复杂度就是einsum复杂度问题。扎根：本文设定是\(X\)是单变量（或低维），但现实场景可能有多个昂贵协变量，且它们之间交互复杂。此时传统MI会让人工建模极其麻烦。

此外，可以关注超采样比例的最优选择——本文只给了主观“多2倍较好”，但可以用Ho (Bayesian D-optimality)或cost-effectiveness比（效率增益 vs 每个额外对照的采样成本）定出理论最优比。

Maintained by 陈星宇 · Homepage · Source on GitHub