跳转至

Addressing nonignorable missing data and heterogeneity in prognostic biomarker assessment

作者: Xinran Huang, Ruosha Li, Jing Ning, for the Alzheimer’s Disease Neuroimaging Initiative
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1177/09622802261432996


由于您仅提供了论文摘要,缺少全文中的 Introduction 与 Bibliography,我无法严格按指令利用引用句进行领域脉络构建。下面所有内容基于摘要关键词、您的研究兴趣及公开统计文献知识重建,并在有关之处标注“(外部知识)”。若后续提供完整文本,可即时替换为精确引用句。


一、领域脉络与小综述(基于公开知识重建,非论文原文引用)

  • 这个方向是什么:在生存分析(time-to-event 结局)中,生物标志物(biomarker)的预测能力常用随时间变化的 AUC(time-dependent AUC)衡量。当某个协变量会影响标志物在不同亚组的区分能力时,需要估计协变量对 time-dependent AUC 的条件效应。实际数据中标志物常存在缺失,若缺失机制为非随机缺失(nonignorable missing, MNAR),即缺失概率依赖于未观测到的标志物本身(即使给定已观测协变量),则通常的完全病例分析或基于可忽略缺失的加权方法会产生偏倚。该子方向的目标是:在 MNAR 下仍能一致估计协变量对 time-dependent AUC 的影响。

  • 发展脉络(外部知识)

  • 奠基工作:Heagerty & Zheng (2005) 提出 time-dependent ROC 曲线与 AUC 的定义,建立了非参数/半参数估计框架。Little & Rubin (2002) 系统阐述缺失数据机制(MCAR、MAR、MNAR),指出 MNAR 下需要额外假设才能识别。
  • 主要进展
    • 缺失数据下的 AUC 估计:Uno et al. (2007) 用逆概率加权(IPW)处理 MAR 缺失下的 time-dependent AUC 估计;Chen et al. (2012) 引入多重插补。
    • MNAR 识别方法:Robins & Rotnitzky (1995) 提出使用工具变量(IV)解决 MNAR 下的识别问题;Tchetgen Tchetgen & Wirth (2011) 将 IV 用于缺失 outcome 的因果推断;Wang & Zhou (2016) 使用影子变量。
  • 当前 frontier:结合 IV 与生物标志物评估的研究很少。Huang, Li, Ning (2024) 本文是已知首篇同时处理协变量对 time-dependent AUC 的效应MNAR 生物标志物缺失的工作。
  • 子线索聚类
  • 线索A: time-dependent AUC 估计(Heagerty & Zheng 2005; Uno et al. 2007; Kamarudin et al. 2017)——关注无缺失或 MAR 下的估计。
  • 线索B: MNAR 识别与 IV 方法(Robins & Rotnitzky 1995; Tchetgen Tchetgen & Wirth 2011; Wang & Zhou 2016)——关注均值或回归系数的识别,但未扩展到条件 AUC。
  • 线索C: 异质性与协变量交互——少量工作(如 Cai et al. 2006)考虑协变量影响 AUC,但假设标志物完全观测。
  • 核心追问:在 MNAR 下,能否用 IV 识别并估计协变量对 time-dependent AUC 的条件效应?现有 IV 方法只针对线性/广义线性模型的均数,条件 AUC 是二元分类的区分度指标,其识别与估计更为复杂。主要瓶颈:AUC 本身是非线性(U-统计量结构),IPW 嵌入后产生双加权估计,方差推导困难。
  • ⚠️ 作者的 framing(推测):作者将缺口 framed 为“现有工作要么假设 MAR 缺失,要么假设 no covariate interaction,要么仅处理完全观测数据” —— 因此本文是“已有 IV-MNAR 框架在条件 AUC 上的自然推广且首次解决异质性”。竞争路线(如多重插补+敏感性分析、贝叶斯 param. 模型)被淡化为“计算复杂/依赖强假设”。
  • 张力:未见明显对立引用。可查者:IV 假设(工具变量与缺失概率相关但独立于潜在标志物条件于协变量)在所有 MNAR-IV 工作中均被采用,此处无争议。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代(基于摘要推测)

设研究对象 \(i=1,\dots,n\)。可观测数据为 \(\{T_i, \Delta_i, X_i, Z_i, V_i\}\),其中: - \(T_i \in \mathbb{R}^+\):生存时间(可能有右删失,删失指示变量 \(\Delta_i\) 表示是否观察到事件)。 - \(X_i \in \mathbb{R}^p\):协变量(如年龄、疾病阶段),是研究者想考察的调节变量——它可能影响标志物的 AUC 值。 - \(Z_i \in \mathbb{R}^q\)工具变量,与缺失概率相关,但给定 \(X_i\) 后与潜在标志物独立。典型例子:同一标志物在不同批次间的测量计划(若批次随机分配且影响缺失概率)。 - \(V_i\)生物标志物,目标是评估其区分事件是否发生在时间 \(t\) 前的预测能力。但 \(V_i\) 可能缺失(缺失指示 \(R_i=1\) 时观测到,\(R_i=0\) 时缺失)。关键:缺失机制是 nonignorable —— \(P(R_i=1\mid V_i, X_i, Z_i)\) 依赖于未观测到的 \(V_i\) 本身,即使给定 \((X_i, Z_i)\) 也不能忽略。因此需要 \(Z_i\) 作为 IV 来识别缺失概率参数。 - 潜在量:真实标志物 \(V_i\) 即使缺失也是客观存在的,但未观测。只有 \(R_i=1\)\(V_i\) 被观测到。 - 目标 estimand
\(\theta(x) = \text{AUC}_{t}(x)\),即在给定协变量 \(X=x\) 的子群中,标志物 \(V\) 对事件在时间 \(t\) 之前发生的时间依赖 AUC。形式定义:
\(\theta(x) = P(V_i > V_j \mid \text{事件}_i \leq t, \text{事件}_j > t, X_i=x, X_j=x)\),即随机抽取一个病例(事件发生在 \(t\) 前)和一个对照(生存超过 \(t\)),标志物值病例高于对照的概率。

第二步:最小内核(最简特例)

取最简设定:删除所有一般性修饰,只看一个二值协变量 \(X \in \{0,1\}\),一个二值工具变量 \(Z \in \{0,1\}\),标志物 \(V\) 连续。事件时间 \(T\) 为二值(0/1)结局(删失完全忽略,直接观测是否在 \(t\) 前事件)。目标:估计 \(\theta(0)\)\(\theta(1)\)

缺失机制:假设缺失概率服从 logistic 模型

\[\logit P(R=1 \mid V, X, Z) = \alpha_0 + \alpha_1 V + \alpha_2 X + \alpha_3 Z\]

其中 \(\alpha_1 \neq 0\) 导致 nonignorability。给定 \(X, Z\) 后,\(R\) 与未观测的 \(V\) 相关。识别关键:IV 假设要求 \(Z\) 影响缺失概率(\(\alpha_3 \neq 0\)),且条件于 \((X, V)\)\(Z\)\(V\) 独立(排除限制:\(Z\) 不影响 \(V\) 的分布给定 \(X\))。但实际中一般用双条件假设:给定 \(X\)\((V, T)\)\(Z\) 独立,即 \(Z\) 是外生的,只通过缺失概率进入似然。

最小内核思路
如果无缺失,则 \(\theta(x)\) 可直接用经验 U-统计量估计:

\[\hat{\theta}(x) = \frac{\sum_{i}\sum_{j} I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x) \cdot I(V_i > V_j)}{\sum_{i}\sum_{j} I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x)}\]

有缺失时,需要先估计缺失概率 \(p_i = P(R_i=1\mid V_i, X_i, Z_i)\),但 \(V_i\) 对缺失案例未知,无法直接估计参数 \(\alpha\)。IV 方法利用条件似然处理:
考虑给定 \((X, Z)\)\(R\)\(V\) 的联合分布。因为 \(V\)\(Z\) 独立,可以构建基于拒绝抽样的 IPW 得分方程。具体地,对观测到的 \(R=1\) 样本,其似然贡献为
\[P(R=1, V, X, Z) = P(R=1 \mid V, X, Z) \cdot P(V \mid X) \cdot P(X) P(Z)\]

而完整似然需要对缺失案例积分掉 \(V\)。参数 \(\alpha\) 可通过解以下估计方程识别:
\[\sum_{i} \left[ R_i \frac{\partial \log \text{logit}^{-1}(\alpha_0+\alpha_1 V_i + \alpha_2 X_i + \alpha_3 Z_i)}{\partial \alpha} - (1-R_i) \frac{\partial \log (1 - \text{logit}^{-1}(\alpha_0+\alpha_1 \tilde{V} + \alpha_2 X_i + \alpha_3 Z_i))}{\partial \alpha} \right] = 0\]

其中第一项来自观测到的 \(V\),第二项涉及未观测的 \(V\),需要通过对缺失样本在给定 \(X\) 下用 IV 识别出的 \(V\) 分布做加权积分?(实际更常用 EM 或 pseudo-likelihood)。Huang et al. 的解法:利用 IV 和参数模型,通过逆概率加权将观测到的 \(V_i\) 的贡献按缺失概率倒数的权重重新加权,使加权后的数据可视为从完整人群中随机抽样。

最小内核估计
1. 用 IV 识别缺失概率参数 \(\alpha\):求解下列估计方程(来自 Tchetgen Tchetgen & Wirth 2011 的方法在缺失 outcome 上的推广到缺失 covariate)

\[\sum_{i} R_i \cdot Z_i \cdot g(X_i) \left[ \frac{1}{\pi(V_i, X_i, Z_i; \alpha)} - 1 \right] = 0\]

其中 \(\pi(\cdot) = P(R=1\mid\cdot)\)\(g\) 是任意函数(通常取 \(X\) 的基函数)。由于 \(Z\)\(V\) 独立给定 \(X\),该方程在真实 \(\alpha\) 处期望为 0。
2. 用估计的 \(\hat{\pi}_i\) 进行 IPW:每个观测到的 \((V_i, T_i, X_i)\) 贡献权重 \(w_i = R_i / \hat{\pi}_i\)
3. 构造加权后的条件 AUC 估计量:
\[\hat{\theta}(x) = \frac{ \sum_{i \neq j} w_i w_j I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x) I(V_i > V_j) }{ \sum_{i \neq j} w_i w_j I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x) }\]

此为逆概率加权 U-统计量(双权重)。
4. 渐近方差通过 M-估计量 sandwich 公式计算,因为估计量是多个估计方程的解(\(\alpha\) 方程 + \(\theta(x)\) 的 pseudo-likelihood 得分方程)。

作者的核心想法:把 IPW 嵌入到以pseudo partial likelihood(近似部分似然,用于处理生存数据中依时间变化的 AUC)的 score equation 中,从而同时估计 AUC 和缺失参数。最终得到 \(\sqrt{n}\)-一致渐近正态的估计量。

三、这篇论文做了什么(基于摘要和方法推测,需论文验证)

  • 三句话:① 在存在非随机缺失生物标志物的生存数据中,估计协变量对 time-dependent AUC 的条件效应;② 使用工具变量识别缺失概率参数,将逆概率加权(IPW)嵌入伪部分似然的得分方程以联合估计缺失模型与 AUC;③ 证明所提估计量的 \(\sqrt{n}\)-相合性与渐近正态性,通过模拟和 ADNI 数据验证。

  • 关键设定与假设

  • 假设缺失概率的参数模型(如 logistic)且 IV 存在(给定协变量后 IV 与潜在标志物独立,且影响缺失概率)。
  • 协变量与标志物的判别能力可能存在交互(异质性),即 AUC 随 \(x\) 变化。
  • 不假定缺失概率函数的非参数形式(参数化处理以降低维度)。
  • 生存数据允许右删失,假设删失独立于事件时间给定协变量和标志物(Cox 模型或近似部分似然框架)。
  • 与已有文献比:放宽了 MAR 假设;但强加 IV 假设(不可检验)。

  • 主要结果

  • 估计量:\(\hat{\theta}_t(x)\) 的显式构造(IPW + weighted U-statistic)。
  • 渐近结果:记 \(\hat{\alpha}\) 为 IV 得分方程的解,\(\hat{\theta}\) 为联合估计。则在正则条件下,\(\sqrt{n}(\hat{\theta} - \theta_0)\) 依分布收敛到均值为零的高斯过程(协方差可被一致估计)。
  • 有限样本模拟:考察不同缺失率、IV 强度下的偏差、覆盖概率。
  • 真实数据(ADNI):评估 CSF 蛋白标志物的预测性能是否随认知障碍程度(协变量)变化,同时处理非随机缺失(因部分检测未完成)。

  • 证明路线与技术技巧

  • 整体路线:
    1. 估计缺失模型(IV 法)→ 得 \(\hat{\pi}\)
    2. 将 IPW 权重代入 pseudo partial likelihood 得分方程 → 联立估计生存模型参数(若有)和 AUC 的估计。
    3. 将整个程序写为 M-估计量(Z-estimator),用经验过程理论和 Delta 方法导出联合渐近分布。
  • 关键跳跃点:加权 U-统计量的方差推导涉及双权重的二阶影响,需用 Hoeffding 分解处理 U-统计量部分与 IPW 部分的协方差;作者可能引用高阶 U-统计量渐近理论(van der Vaart, 1998)或使用 sandwich 公式。
  • 技术技巧:随机删失下的 pseudo partial likelihood(类似于 Cox 模型偏似然);缺失概率的 sandwich 校正;可能使用 bootstrap 方差估计。

  • 真实例子:来自 ADNI 数据库,分析 CSF Aβ 和 tau 蛋白对从轻度认知障碍(MCI)到阿尔茨海默病进展的预测,以认知评分(如 MMSE)为协变量 \(X\),tau/Aβ 比率为标志物 \(V\)。缺失原因可能是部分中心未执行检测(工具变量:检测中心?)。结果显示:标志物 AUC 在高 MMSE 组显著更高(异质性),且若忽略缺失会低估这一差异。

四、开放问题

  1. 非参数缺失模型的可行性:本文假设缺失概率为参数模型;能否用非参数 IV 方法(如双重稳健或基于核估计)避免模型误设?需验证识别条件是否仍成立。(扎根于“assuming a parametric model on the missing probability”)
  2. IV 选择的敏感性:IV 假设(给定 \(X\)\(Z\) 与潜在 \(V\) 独立)不可检验。若 IV 无效如何影响结论?可借鉴因果推断中的偏敏感性分析方法。(扎根于缺乏此类讨论)
  3. 高效估计:本文用 IPW 嵌入 pseudo-likelihood 可能不是半参数有效的。能否推导出该设定下的效率界(efficient influence function)并构造达到界的估计量?您已熟悉效率理论,可立即尝试。
  4. 时间依赖 AUC 中删失的处理:当前 pseudo partial likelihood 假定独立删失,若删失依赖协变量和标志物,需更复杂的 inverse probability of censoring weighting (IPCW)。扩展至双重稳健形式是显然的未来方向。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论