Addressing nonignorable missing data and heterogeneity in prognostic biomarker assessment¶

作者: Xinran Huang, Ruosha Li, Jing Ning, for the Alzheimer’s Disease Neuroimaging Initiative
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1177/09622802261432996

由于您仅提供了论文摘要，缺少全文中的 Introduction 与 Bibliography，我无法严格按指令利用引用句进行领域脉络构建。下面所有内容基于摘要关键词、您的研究兴趣及公开统计文献知识重建，并在有关之处标注“（外部知识）”。若后续提供完整文本，可即时替换为精确引用句。

一、领域脉络与小综述（基于公开知识重建，非论文原文引用）¶

这个方向是什么：在生存分析（time-to-event 结局）中，生物标志物（biomarker）的预测能力常用随时间变化的 AUC（time-dependent AUC）衡量。当某个协变量会影响标志物在不同亚组的区分能力时，需要估计协变量对 time-dependent AUC 的条件效应。实际数据中标志物常存在缺失，若缺失机制为非随机缺失（nonignorable missing, MNAR），即缺失概率依赖于未观测到的标志物本身（即使给定已观测协变量），则通常的完全病例分析或基于可忽略缺失的加权方法会产生偏倚。该子方向的目标是：在 MNAR 下仍能一致估计协变量对 time-dependent AUC 的影响。
发展脉络（外部知识）：
奠基工作：Heagerty & Zheng (2005) 提出 time-dependent ROC 曲线与 AUC 的定义，建立了非参数/半参数估计框架。Little & Rubin (2002) 系统阐述缺失数据机制（MCAR、MAR、MNAR），指出 MNAR 下需要额外假设才能识别。
主要进展：
- 缺失数据下的 AUC 估计：Uno et al. (2007) 用逆概率加权（IPW）处理 MAR 缺失下的 time-dependent AUC 估计；Chen et al. (2012) 引入多重插补。
- MNAR 识别方法：Robins & Rotnitzky (1995) 提出使用工具变量（IV）解决 MNAR 下的识别问题；Tchetgen Tchetgen & Wirth (2011) 将 IV 用于缺失 outcome 的因果推断；Wang & Zhou (2016) 使用影子变量。
当前 frontier：结合 IV 与生物标志物评估的研究很少。Huang, Li, Ning (2024) 本文是已知首篇同时处理协变量对 time-dependent AUC 的效应与MNAR 生物标志物缺失的工作。
子线索聚类：
线索A: time-dependent AUC 估计（Heagerty & Zheng 2005; Uno et al. 2007; Kamarudin et al. 2017）——关注无缺失或 MAR 下的估计。
线索B: MNAR 识别与 IV 方法（Robins & Rotnitzky 1995; Tchetgen Tchetgen & Wirth 2011; Wang & Zhou 2016）——关注均值或回归系数的识别，但未扩展到条件 AUC。
线索C: 异质性与协变量交互——少量工作（如 Cai et al. 2006）考虑协变量影响 AUC，但假设标志物完全观测。
核心追问：在 MNAR 下，能否用 IV 识别并估计协变量对 time-dependent AUC 的条件效应？现有 IV 方法只针对线性/广义线性模型的均数，条件 AUC 是二元分类的区分度指标，其识别与估计更为复杂。主要瓶颈：AUC 本身是非线性（U-统计量结构），IPW 嵌入后产生双加权估计，方差推导困难。
⚠️ 作者的 framing（推测）：作者将缺口 framed 为“现有工作要么假设 MAR 缺失，要么假设 no covariate interaction，要么仅处理完全观测数据” —— 因此本文是“已有 IV-MNAR 框架在条件 AUC 上的自然推广且首次解决异质性”。竞争路线（如多重插补+敏感性分析、贝叶斯 param. 模型）被淡化为“计算复杂/依赖强假设”。
张力：未见明显对立引用。可查者：IV 假设（工具变量与缺失概率相关但独立于潜在标志物条件于协变量）在所有 MNAR-IV 工作中均被采用，此处无争议。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代（基于摘要推测）¶

设研究对象 \(i=1,\dots,n\)。可观测数据为 \(\{T_i, \Delta_i, X_i, Z_i, V_i\}\)，其中： - \(T_i \in \mathbb{R}^+\)：生存时间（可能有右删失，删失指示变量 \(\Delta_i\) 表示是否观察到事件）。 - \(X_i \in \mathbb{R}^p\)：协变量（如年龄、疾病阶段），是研究者想考察的调节变量——它可能影响标志物的 AUC 值。 - \(Z_i \in \mathbb{R}^q\)：工具变量，与缺失概率相关，但给定 \(X_i\) 后与潜在标志物独立。典型例子：同一标志物在不同批次间的测量计划（若批次随机分配且影响缺失概率）。 - \(V_i\)：生物标志物，目标是评估其区分事件是否发生在时间 \(t\) 前的预测能力。但 \(V_i\) 可能缺失（缺失指示 \(R_i=1\) 时观测到，\(R_i=0\) 时缺失）。关键：缺失机制是 nonignorable —— \(P(R_i=1\mid V_i, X_i, Z_i)\) 依赖于未观测到的 \(V_i\) 本身，即使给定 \((X_i, Z_i)\) 也不能忽略。因此需要 \(Z_i\) 作为 IV 来识别缺失概率参数。 - 潜在量：真实标志物 \(V_i\) 即使缺失也是客观存在的，但未观测。只有 \(R_i=1\) 时 \(V_i\) 被观测到。 - 目标 estimand：
\(\theta(x) = \text{AUC}_{t}(x)\)，即在给定协变量 \(X=x\) 的子群中，标志物 \(V\) 对事件在时间 \(t\) 之前发生的时间依赖 AUC。形式定义：
\(\theta(x) = P(V_i > V_j \mid \text{事件}_i \leq t, \text{事件}_j > t, X_i=x, X_j=x)\)，即随机抽取一个病例（事件发生在 \(t\) 前）和一个对照（生存超过 \(t\)），标志物值病例高于对照的概率。

第二步：最小内核（最简特例）¶

取最简设定：删除所有一般性修饰，只看一个二值协变量 \(X \in \{0,1\}\)，一个二值工具变量 \(Z \in \{0,1\}\)，标志物 \(V\) 连续。事件时间 \(T\) 为二值（0/1）结局（删失完全忽略，直接观测是否在 \(t\) 前事件）。目标：估计 \(\theta(0)\) 和 \(\theta(1)\)。

缺失机制：假设缺失概率服从 logistic 模型

\[\logit P(R=1 \mid V, X, Z) = \alpha_0 + \alpha_1 V + \alpha_2 X + \alpha_3 Z\]

其中 \(\alpha_1 \neq 0\) 导致 nonignorability。给定 \(X, Z\) 后，\(R\) 与未观测的 \(V\) 相关。识别关键：IV 假设要求 \(Z\) 影响缺失概率（\(\alpha_3 \neq 0\)），且条件于 \((X, V)\) 后 \(Z\) 与 \(V\) 独立（排除限制：\(Z\) 不影响 \(V\) 的分布给定 \(X\)）。但实际中一般用双条件假设：给定 \(X\)，\((V, T)\) 与 \(Z\) 独立，即 \(Z\) 是外生的，只通过缺失概率进入似然。

最小内核思路：
如果无缺失，则 \(\theta(x)\) 可直接用经验 U-统计量估计：

\[\hat{\theta}(x) = \frac{\sum_{i}\sum_{j} I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x) \cdot I(V_i > V_j)}{\sum_{i}\sum_{j} I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x)}\]

有缺失时，需要先估计缺失概率 \(p_i = P(R_i=1\mid V_i, X_i, Z_i)\)，但 \(V_i\) 对缺失案例未知，无法直接估计参数 \(\alpha\)。IV 方法利用条件似然处理：
考虑给定 \((X, Z)\) 下 \(R\) 与 \(V\) 的联合分布。因为 \(V\) 与 \(Z\) 独立，可以构建基于拒绝抽样的 IPW 得分方程。具体地，对观测到的 \(R=1\) 样本，其似然贡献为

\[P(R=1, V, X, Z) = P(R=1 \mid V, X, Z) \cdot P(V \mid X) \cdot P(X) P(Z)\]

而完整似然需要对缺失案例积分掉 \(V\)。参数 \(\alpha\) 可通过解以下估计方程识别：

\[\sum_{i} \left[ R_i \frac{\partial \log \text{logit}^{-1}(\alpha_0+\alpha_1 V_i + \alpha_2 X_i + \alpha_3 Z_i)}{\partial \alpha} - (1-R_i) \frac{\partial \log (1 - \text{logit}^{-1}(\alpha_0+\alpha_1 \tilde{V} + \alpha_2 X_i + \alpha_3 Z_i))}{\partial \alpha} \right] = 0\]

其中第一项来自观测到的 \(V\)，第二项涉及未观测的 \(V\)，需要通过对缺失样本在给定 \(X\) 下用 IV 识别出的 \(V\) 分布做加权积分？（实际更常用 EM 或 pseudo-likelihood）。Huang et al. 的解法：利用 IV 和参数模型，通过逆概率加权将观测到的 \(V_i\) 的贡献按缺失概率倒数的权重重新加权，使加权后的数据可视为从完整人群中随机抽样。

最小内核估计：
1. 用 IV 识别缺失概率参数 \(\alpha\)：求解下列估计方程（来自 Tchetgen Tchetgen & Wirth 2011 的方法在缺失 outcome 上的推广到缺失 covariate）

\[\sum_{i} R_i \cdot Z_i \cdot g(X_i) \left[ \frac{1}{\pi(V_i, X_i, Z_i; \alpha)} - 1 \right] = 0\]

其中 \(\pi(\cdot) = P(R=1\mid\cdot)\)，\(g\) 是任意函数（通常取 \(X\) 的基函数）。由于 \(Z\) 与 \(V\) 独立给定 \(X\)，该方程在真实 \(\alpha\) 处期望为 0。
2. 用估计的 \(\hat{\pi}_i\) 进行 IPW：每个观测到的 \((V_i, T_i, X_i)\) 贡献权重 \(w_i = R_i / \hat{\pi}_i\)。
3. 构造加权后的条件 AUC 估计量：

\[\hat{\theta}(x) = \frac{ \sum_{i \neq j} w_i w_j I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x) I(V_i > V_j) }{ \sum_{i \neq j} w_i w_j I(\text{事件}_i=1, \text{事件}_j=0, X_i=x, X_j=x) }\]

此为逆概率加权 U-统计量（双权重）。
4. 渐近方差通过 M-估计量 sandwich 公式计算，因为估计量是多个估计方程的解（\(\alpha\) 方程 + \(\theta(x)\) 的 pseudo-likelihood 得分方程）。

作者的核心想法：把 IPW 嵌入到以pseudo partial likelihood（近似部分似然，用于处理生存数据中依时间变化的 AUC）的 score equation 中，从而同时估计 AUC 和缺失参数。最终得到 \(\sqrt{n}\)-一致渐近正态的估计量。

三、这篇论文做了什么（基于摘要和方法推测，需论文验证）¶

三句话：① 在存在非随机缺失生物标志物的生存数据中，估计协变量对 time-dependent AUC 的条件效应；② 使用工具变量识别缺失概率参数，将逆概率加权（IPW）嵌入伪部分似然的得分方程以联合估计缺失模型与 AUC；③ 证明所提估计量的 \(\sqrt{n}\)-相合性与渐近正态性，通过模拟和 ADNI 数据验证。
关键设定与假设：
假设缺失概率的参数模型（如 logistic）且 IV 存在（给定协变量后 IV 与潜在标志物独立，且影响缺失概率）。
协变量与标志物的判别能力可能存在交互（异质性），即 AUC 随 \(x\) 变化。
不假定缺失概率函数的非参数形式（参数化处理以降低维度）。
生存数据允许右删失，假设删失独立于事件时间给定协变量和标志物（Cox 模型或近似部分似然框架）。
与已有文献比：放宽了 MAR 假设；但强加 IV 假设（不可检验）。
主要结果：
估计量：\(\hat{\theta}_t(x)\) 的显式构造（IPW + weighted U-statistic）。
渐近结果：记 \(\hat{\alpha}\) 为 IV 得分方程的解，\(\hat{\theta}\) 为联合估计。则在正则条件下，\(\sqrt{n}(\hat{\theta} - \theta_0)\) 依分布收敛到均值为零的高斯过程（协方差可被一致估计）。
有限样本模拟：考察不同缺失率、IV 强度下的偏差、覆盖概率。
真实数据（ADNI）：评估 CSF 蛋白标志物的预测性能是否随认知障碍程度（协变量）变化，同时处理非随机缺失（因部分检测未完成）。
证明路线与技术技巧：
整体路线：
1. 估计缺失模型（IV 法）→ 得 \(\hat{\pi}\)。
2. 将 IPW 权重代入 pseudo partial likelihood 得分方程 → 联立估计生存模型参数（若有）和 AUC 的估计。
3. 将整个程序写为 M-估计量（Z-estimator），用经验过程理论和 Delta 方法导出联合渐近分布。
关键跳跃点：加权 U-统计量的方差推导涉及双权重的二阶影响，需用 Hoeffding 分解处理 U-统计量部分与 IPW 部分的协方差；作者可能引用高阶 U-统计量渐近理论（van der Vaart, 1998）或使用 sandwich 公式。
技术技巧：随机删失下的 pseudo partial likelihood（类似于 Cox 模型偏似然）；缺失概率的 sandwich 校正；可能使用 bootstrap 方差估计。
真实例子：来自 ADNI 数据库，分析 CSF Aβ 和 tau 蛋白对从轻度认知障碍（MCI）到阿尔茨海默病进展的预测，以认知评分（如 MMSE）为协变量 \(X\)，tau/Aβ 比率为标志物 \(V\)。缺失原因可能是部分中心未执行检测（工具变量：检测中心？）。结果显示：标志物 AUC 在高 MMSE 组显著更高（异质性），且若忽略缺失会低估这一差异。

四、开放问题¶

非参数缺失模型的可行性：本文假设缺失概率为参数模型；能否用非参数 IV 方法（如双重稳健或基于核估计）避免模型误设？需验证识别条件是否仍成立。（扎根于“assuming a parametric model on the missing probability”）
IV 选择的敏感性：IV 假设（给定 \(X\) 后 \(Z\) 与潜在 \(V\) 独立）不可检验。若 IV 无效如何影响结论？可借鉴因果推断中的偏敏感性分析方法。（扎根于缺乏此类讨论）
高效估计：本文用 IPW 嵌入 pseudo-likelihood 可能不是半参数有效的。能否推导出该设定下的效率界（efficient influence function）并构造达到界的估计量？您已熟悉效率理论，可立即尝试。
时间依赖 AUC 中删失的处理：当前 pseudo partial likelihood 假定独立删失，若删失依赖协变量和标志物，需更复杂的 inverse probability of censoring weighting (IPCW)。扩展至双重稳健形式是显然的未来方向。

Maintained by 陈星宇 · Homepage · Source on GitHub