Augmented doubly robust post-imputation inference for proteomic data¶
作者: Haeun Moon, Jin-Hong Du, Jing Lei, Kathryn Roeder
来源: Annals of Applied Statistics
主题: 效率理论 / Debiased ML
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:如何在含有高比例缺失值的数据中,对下游统计推断(如均值估计、差异表达分析)进行去偏与不确定性量化,使得推断既不因忽略缺失机制而引入系统性偏差,也不因插补误差的传播而丧失效率或犯假阳性错误。当前该方向的成熟度处于“方法应用繁荣、但严格半参数推断框架刚起步”的阶段:生物信息学界已有大量插补算法(矩阵分解、随机森林、深度生成模型),但几乎都不做 post-imputation inference;统计学界对缺失数据的因果/半参数推断理论已成熟(Rubin, Robins, Tsiatis),但尚未系统移植到质谱蛋白质组学这种“高维肽段 + 复杂非随机缺失(MNAR/MAR混合)+ 极高缺失率”的具体场景。
发展脉络: 1. 奠基工作(缺失数据推断理论):Rubin (1976) 建立了缺失数据的分类体系(MCAR/MAR/MNAR)与多重插补框架;Robins, Rotnitzky & Zhao (1994) 提出双重稳健估计,在倾向得分模型或结果回归模型之一正确时即可获得一致估计;Little et al. (2012) 将缺失数据推断规范引入临床试验。这些工作留下了口子:理论多基于低维设定,未触及高维辅助变量下的倾向得分/结果模型估计。 2. 主要进展(高维去偏与 DML):Chernozhukov et al. (2018) 建立了 Double Machine Learning (DML) 框架,用 Neyman 正交性解决高维 nuisance 估计的偏差渗透问题;Semenova & Chernozhukov (2017) 与 Kennedy (2020) 将 DML 推广至条件平均处理效应(CATE)等结构函数的估计。这些工作留下了口子:DML 框架要求 nuisance 函数可被 ML 方法以 \(o(n^{-1/4})\) 率一致估计,但在极高缺失率下,结果模型的 ML 估计往往因有效样本过小而无法达到此率。 3. 当前 frontier(插补后推断与矩阵完成推断):Andrews & Hemberg (2018) 揭示了单细胞数据插补极易引入假阳性信号;Chen et al. (2019) 在矩阵完成中提出了去偏估计与置信区间构建,但要求低秩与随机缺失假设;Wei et al. (2018) 与 Webb-Robertson et al. (2015) 系统评测了质谱数据的各类插补法,指出 MNAR 机制下无单一最优方法。这些工作留下了口子:矩阵完成推断依赖强低秩假设且多限于 MAR,质谱评测停留在插补精度比较,未建立“插补 + 去偏推断”的闭环。 4. 本文的位置:本文将双重稳健估计与 DML 框架移植到质谱蛋白质组学,用 VAE 处理高维结果模型(插补),用参数模型处理倾向得分(缺失机制去偏),填补了“高维 MNAR 缺失下如何做严格 post-imputation inference”的口子。
子线索聚类: - 线索 A:质谱数据插补方法评测与开发(Wei et al. 2018; Webb-Robertson et al. 2015; Välikangas et al. 2017; Stekhoven & Bühlmann 2011; Hastie et al. 2015; Yoon et al. 2018; Qiu et al. 2020; Du et al. 2022)。这一簇在做:针对质谱/基因组数据的缺失,开发更精确的插补算法(矩阵分解、随机森林、GAN、VAE),并在模拟/真实数据上比较插补精度。瓶颈:只关注重构误差,不关心下游推断的偏差与方差。 - 线索 B:插补后假阳性风险警示(Andrews & Hemberg 2018; Ly & Vingron 2022)。这一簇在做:通过模拟与置换检验,揭示插补算法(如 MAGIC)如何人为制造基因间相关性与差异表达信号。瓶颈:只指出问题,未给出带理论保证的修正方案。 - 线索 C:缺失数据的半参数推断与去偏(Robins et al. 1994; Chernozhukov et al. 2018; Kennedy 2020; Chen et al. 2019; Zhao & Ding 2022)。这一簇在做:在 MAR 或部分 MNAR 下,用双重稳健、Neyman 正交、矩阵去偏等工具,构造一致且渐近正态的估计量。瓶颈:理论多假设 nuisance 可估或矩阵低秩,未针对质谱数据“高维肽段辅助变量 + 极高缺失率 + MNAR”的复合困难。
这个方向在追问的核心问题: 1. 如何对插补后的数据做有效的统计推断(去偏与不确定性量化),而不犯假阳性? 当前主流方法(直接对插补数据做 t 检验等)已知有偏且假阳性膨胀;已知瓶颈是插补误差与缺失机制的耦合。 2. 在高维辅助变量下,如何估计缺失机制(倾向得分)与结果模型,使得双重稳健估计量仍具备渐近正态性与效率? 当前 DML 框架要求 nuisance 估计收敛率 \(o(n^{-1/4})\);已知瓶颈是极高缺失率下有效样本量骤降,ML 方法难以达标。 3. 质谱数据中 MNAR(低丰度肽段更易缺失)与 MAR 混合的缺失机制,如何被参数化或半参数化建模,以纳入推断? 当前主流要么假设纯 MAR(矩阵完成),要么用启发式左截断插补;已知瓶颈是 MNAR 机制的识别本身需强假设。
⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:现有质谱数据分析要么只做插补不做推断(假阳性风险),要么做推断但忽略插补偏差(系统性偏倚),而双重稳健估计是“显然的下一步”——因为它只需倾向得分或结果模型之一正确即可去偏。 - 被淡化或回避的竞争路线:矩阵完成的去偏推断(Chen et al. 2019)——作者只在引用中提及矩阵分解插补,但未在理论部分与低秩去偏路线做对比或讨论其假设(低秩 vs. 本文的参数倾向得分假设)的优劣。多重插补的联合推断也未出现。 - 明显该被引/该存在却未出现的:MNAR 下的非参数或半参数识别理论(如 Robins 1997 的 g-estimation,或近年 Tchetgen et al. 的 shadow variable 方法)——本文假设缺失机制可被参数 logistic 模型捕获,但未引用 MNAR 识别的更根本文献来支撑此假设的合理性;高维倾向得分估计的协变量选择/正则化文献——本文用参数模型估倾向得分,但高维下参数模型本身可能过拟合或欠拟合,未讨论。
张力: 未见明显对立引用。各线索在不同设定下得出不同结论(插补评测线索说“无单一最优方法”,假阳性线索说“插补有害”,推断线索说“可去偏”),但未在同一设定下直接矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 符号:
- \(n\):样本量(细胞或批次个数)。
- \(p\):高维肽段的个数。
- \(Y_i \in \mathbb{R}\):第 \(i\) 个样本的目标蛋白丰度(estimand/要估的均值 \(\mu = E[Y]\))。
- \(X_i \in \mathbb{R}^p\):第 \(i\) 个样本的高维肽段丰度向量(辅助变量/协变量)。
- \(R_i \in \{0, 1\}\):第 \(i\) 个样本的缺失指示变量(\(R_i=1\) 表示 \(Y_i\) 可观测,\(R_i=0\) 表示 \(Y_i\) 缺失)。
- \(\pi(X_i) = P(R_i=1 \mid X_i)\):倾向得分(给定肽段时,目标蛋白被观测的概率)。
- \(m(X_i) = E[Y_i \mid X_i, R_i=1]\):结果回归函数(给定肽段且目标蛋白可观测时的期望丰度)。
- \(\hat{m}(X_i)\):用 VAE 等机器学习方法从 \(\{(X_j, Y_j): R_j=1\}\) 训练得到的插补函数(对缺失的 \(Y_i\),插补值为 \(\hat{m}(X_i)\))。
- \(\hat{\pi}(X_i)\):用参数 logistic 模型从 \(\{(X_j, R_j)\}\) 训练得到的倾向得分估计。
-
\(\mu\):要估的 estimand,即目标蛋白的总体平均丰度 \(E[Y]\)。
-
模型: 数据生成机制:\((X_i, Y_i, R_i)\) 独立同分布。\(X_i\) 为高维肽段向量。\(Y_i\) 的生成依赖 \(X_i\)(如线性或非线性关系 \(Y_i = f(X_i) + \epsilon_i\))。缺失机制 \(R_i\) 依赖 \(X_i\)(MAR:\(R_i \perp Y_i \mid X_i\))或同时依赖 \(Y_i\) 本身(MNAR)。本文核心假设是:缺失机制可被参数 logistic 模型捕获(即 \(\pi(x) = \text{expit}(\alpha^T x)\) 或其变体),且 MAR 假设成立或 MNAR 机制可被该参数模型显式建模。结果模型 \(m(x)\) 的形式未知,允许是高维非线性函数,用 VAE 等非参数 ML 方法估计。
-
可观测数据: 研究者实际能观测到的是:对所有 \(n\) 个样本,观测到高维肽段向量 \(X_i\) 与缺失指示 \(R_i\);对 \(R_i=1\) 的子样本(有效样本),观测到目标蛋白丰度 \(Y_i\);对 \(R_i=0\) 的子样本,\(Y_i\) 不可观测(想要但观测不到)。高维肽段 \(X_i\) 本身也可能有缺失,但本文假设 \(X_i\) 的缺失已被预处理(如用 VAE 插补)为完整矩阵,或只使用 \(X_i\) 中无缺失的子集作为协变量。
第二步:讲最小内核
本文支撑整篇论文的最小内核是:在单变量目标蛋白 \(Y\)、单维肽段协变量 \(X\)、二值缺失指示 \(R\) 的设定下,双重稳健估计量如何对插补偏差去偏,以及其渐近正态性如何成立。
- 最简特例(\(p=1\), MAR, 参数倾向得分): 设 \(X_i \in \mathbb{R}\) 为单维肽段,\(Y_i \in \mathbb{R}\) 为目标蛋白,\(R_i \in \{0, 1\}\) 为缺失指示。假设 MAR:\(R_i \perp Y_i \mid X_i\)。假设倾向得分模型正确:\(\pi(x) = P(R=1 \mid X=x) = \text{expit}(\alpha x)\),且 \(\hat{\pi}(x)\) 为其一致估计。结果模型 \(m(x) = E[Y \mid X=x, R=1]\) 未知,用 ML 方法(如 VAE 的退化形式:单隐层神经网络)估计得 \(\hat{m}(x)\)。
要证的命题退化成:双重稳健估计量
证明怎么走、为什么成立: 1. 去偏直觉:若只用完整样本均值 \(\frac{1}{n} \sum_{R_i=1} Y_i / \hat{\pi}(X_i)\)(逆概率加权 IPW),当 \(\hat{\pi}\) 有偏时估计量有偏;若只用插补均值 \(\frac{1}{n} \sum_{i=1}^n \hat{m}(X_i)\),当 \(\hat{m}\) 有偏时估计量有偏。双重稳健估计量将两者结合:当 \(\hat{\pi}\) 正确时,IPW 部分无偏,第二项为均值零的调整项;当 \(\hat{m}\) 正确时,第二项恰好抵消 IPW 的偏差。 2. 渐近正态性的关键跳跃:将 \(\hat{\mu}_{DR}\) 展开,分离出 Neyman 正交项。核心技巧是:将 nuisance 估计 \((\hat{\pi}, \hat{m})\) 的偏差对 \(\hat{\mu}_{DR}\) 的影响,通过交叉拟合或样本分割,降为二阶交叉项 \(O(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|)\)。当 \(\|\hat{\pi}-\pi\| = o(n^{-1/2})\)(参数模型可达)且 \(\|\hat{m}-m\| = o(n^{-1/4})\)(ML 方法在温和条件下可达)时,二阶交叉项 \(o(n^{-1/2})\) 可忽略,\(\hat{\mu}_{DR}\) 的渐近分布只由一阶项(影响函数)决定,从而渐近正态且达到半参数效率界。 3. 为什么成立:本质是 Neyman 正交性——估计量对 nuisance 函数的 Gateaux 导数在真实值处为零,使得 nuisance 的一阶偏差不渗透到估计量中,只有二阶交叉项残存,而交叉项在收敛率假设下可被控制。
论文的一般情形(\(p\) 高维、VAE 插补、多蛋白同时推断)只是此最小内核的“加壳”:高维 \(X\) 使得 \(\hat{m}\) 的估计更困难(需 VAE 降维),多蛋白使得推断需同时处理多个 \(\mu_j\),但核心去偏逻辑与渐近正态性证明路线不变。
三、这篇论文做了什么¶
三句话: ①研究了质谱蛋白质组学数据中高比例缺失值下的统计推断问题,即如何对插补后的数据做去偏与不确定性量化。 ②核心工具是双重稳健估计量 + 双机器学习(DML)框架:用变分自编码器(VAE)从高维肽段数据中估计结果模型(插补),用参数 logistic 模型估计倾向得分(缺失机制),通过交叉拟合控制 nuisance 估计偏差的渗透。 ③主要结论是:在倾向得分模型正确或结果模型收敛率 \(o(n^{-1/4})\) 的条件下,提出的 Augmented Doubly Robust (ADR) 估计量渐近无偏、渐近正态且达到半参数效率界;模拟与真实数据(单细胞蛋白质组学、阿尔茨海默病 bulk 数据)表明,ADR 在偏差校正与假阳性控制上显著优于现有插补后推断流程。
关键设定与假设: 在第二节最小记号的基础上补全: - 定义:ADR 估计量的一般形式为
主要结果: - 定理 1(ADR 的双重稳健性与渐近正态性):在假设 A1-A3 与交叉拟合下,
证明路线与技术技巧: - 整体路线: 1. 定义影响函数:写出 \(\mu\) 的有效影响函数 \(\psi(O) = \frac{R Y}{\pi(X)} - \frac{R-\pi(X)}{\pi(X)} m(X) - \mu\),其中 \(O=(X, Y, R)\)。 2. 构造 ADR 估计量:用交叉拟合的 \(\hat{\pi}, \hat{m}\) 替换影响函数中的 \(\pi, m\),得 \(\hat{\mu}_{ADR} = \frac{1}{n} \sum_{i \in \text{fold } k} \psi(O_i; \hat{\pi}^{(-k)}, \hat{m}^{(-k)})\)。 3. 展开偏差:将 \(\hat{\mu}_{ADR} - \mu\) 分解为 一阶项(影响函数均值)+ 二阶交叉项(nuisance 偏差的乘积)+ 高阶余项。 4. 控制二阶交叉项:用 Cauchy-Schwarz 不等式,将二阶交叉项绑定为 \(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|\),在假设 A3 下此项 \(o(n^{-1/2})\) 可忽略。 5. 证渐近正态性:一阶项为独立同分布影响函数的均值,由经典中心极限定理得渐近正态;方差为影响函数的方差,即半参数效率界。 - 关键跳跃点: - 引理 1(Neyman 正交性验证):验证 \(\frac{\partial \mu(\pi, m)}{\partial \pi}\big|_{\pi=\pi_0, m=m_0} = 0\) 且 \(\frac{\partial \mu(\pi, m)}{\partial m}\big|_{\pi=\pi_0, m=m_0} = 0\)。难点在于:影响函数的形式需精确推导,使得 nuisance 的偏差在真实值处的一阶导数为零。作者用 Robins et al. (1994) 的经典构造,直接写出影响函数并验证。 - 引理 2(交叉拟合的样本分割有效性):证明交叉拟合不引入额外偏差,且估计量等价于全样本影响函数均值。难点在于:样本分割导致有效样本量降为 \(n/K\),需证明 \(K\) 折平均后渐近方差仍为 \(V/n\)。作者用 Chernozhukov et al. (2018) 的交叉拟合框架,直接引用其结论。 - 技术技巧点名: - Neyman 正交性:用于构造影响函数,使 nuisance 的一阶偏差不渗透。用在引理 1。 - 交叉拟合:用于分离 nuisance 估计与目标估计的样本,避免过拟合偏差。用在引理 2 与定理 1。 - Cauchy-Schwarz 不等式控制二阶交叉项:用于将 \(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|\) 绑定为 \(o(n^{-1/2})\)。用在定理 1 的偏差展开。 - VAE 的 ELBO 最大化与潜变量降维:用于估计高维结果模型 \(m(x)\),将收敛率绑定到潜维度 \(m\)。用在定理 2。 - 截断:用于控制 IPW 权重的极端值,避免 \(\hat{\pi}\) 近零时方差爆炸。用在应用与模拟中。
真实例子与应用: - 单细胞蛋白质组学数据(nPOP 数据,Leduc et al. 2021): - 用的什么数据:nPOP 方法生成的单细胞质谱数据,包含数千个单细胞的蛋白质丰度测量,缺失率极高(部分蛋白缺失率 > 50%)。 - 怎么把本文方法用上去:对每个蛋白 \(Y_j\),用高维肽段向量 \(X\) 作为辅助变量,训练 VAE 插补模型 \(\hat{m}_j(X)\) 与参数倾向得分模型 \(\hat{\pi}_j(X)\),计算 ADR 估计量 \(\hat{\mu}_{j,ADR}\) 与置信区间,进行差异表达分析(比较不同细胞类型间的蛋白丰度差异)。 - 得到什么结果:ADR 方法在单细胞数据中发现了 额外的有意义的差异表达蛋白(如与细胞周期、药物抵抗相关的蛋白),这些蛋白在完整样本分析中因缺失率过高而被遗漏;同时,ADR 的假阳性率控制在名义水平(如 5%),而直接插补后 t 检验的假阳性率显著膨胀。 - 这个例子想说明什么:验证 ADR 在极高缺失率下的 偏差校正能力(发现完整样本分析遗漏的信号)与 假阳性控制能力(避免插补引入的虚假信号)。 - 阿尔茨海默病 bulk 蛋白质组学数据(Brenes et al. 2019; Pereira et al. 2016): - 用的什么数据:多批次 TMT 蛋白质组学数据,包含 AD 患者与对照的脑组织蛋白丰度,缺失率因批次效应与低丰度蛋白而较高。 - 怎么把本文方法用上去:对每个蛋白,用 ADR 估计 AD 与对照间的丰度差异(\(\mu_{AD} - \mu_{Ctrl}\)),与直接插补后 t 检验、完整样本 t 检验对比。 - 得到什么结果:ADR 发现了 与 AD 病理相关的新蛋白差异(如谷氨酸转运蛋白 EAAT2 的丰度变化,与 Pereira et al. 2016 的 riluzole 实验一致),而完整样本分析因缺失遗漏了这些差异;ADR 的假阳性率与多重比较校正后的发现数优于基线方法。 - 这个例子想说明什么:展示 ADR 在 bulk 数据中的实用性,特别是 多批次整合下的缺失值处理 与 生物学意义的发现。
🔎 结论是否比证明窄: - 定理 2(VAE 插补的收敛率保证):在证明中,假设了“VAE 的生成模型族包含真实分布”(即真实分布 \(p(X \mid Z)\) 在 VAE 的参数族内),但此假设在实际中几乎不可能成立(真实分布通常非 VAE 的 Gaussian/重参数化族)。作者在陈述定理 2 时泛泛 claim “VAE 可达到 \(o(n^{-1/4})\)”,但证明实际上只在 模型族包含真实分布 的强假设下成立,此假设被淡化。研究者需核验:定理 2 的陈述是否明确标注了此假设,或是否作为 conjecture 提出。 - MNAR 下的推断:作者在 introduction 中 claim “框架可推广至 MNAR”,但理论部分(定理 1-2)的证明严格在 MAR 或参数化 MNAR 下进行。MNAR 下的渐近正态性证明未给出,只作为泛泛 claim。研究者需核验:是否有专门的定理或推论处理 MNAR,或只是文字讨论。
四、开放问题(点到为止,扎根具体语句)¶
- MNAR 下的非参数识别与推断:本文定理 1-2 在 MAR 或参数化 MNAR 下证明,但质谱数据中 MNAR 机制(低丰度肽段更易缺失)可能不满足参数 logistic 模型。要证什么:在非参数 MNAR 机制下,ADR 估计量是否仍一致且渐近正态?需什么额外假设(如 shadow variable)?扎根在:Introduction 中“Our framework can be extended to MNAR settings”的 claim,以及假设 A1 的参数化限制。
- VAE 模型族不包含真实分布时的收敛率:定理 2 假设 VAE 族包含真实分布,但实际中 VAE 为近似模型。要估什么:当 VAE 族不包含真实分布时(即存在模型误设),\(\hat{m}(X)\) 的收敛率与偏差如何影响 ADR 的渐近性质?双重稳健性是否仍能保护?扎根在:定理 2 的强假设与作者对 VAE 实际表现的泛泛 claim。
- 高维倾向得分估计的替代方案:本文用参数 logistic 模型估 \(\hat{\pi}\),但高维 \(X\) 下参数模型可能欠拟合(遗漏非线性缺失机制)。要算什么:若用非参数 ML 方法(如随机森林、深度网络)估 \(\hat{\pi}\),其收敛率能否达到 \(o(n^{-1/4})\)?交叉项 \(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|\) 如何控制?扎根在:假设 A3 对 \(\hat{\pi}\) 的 \(o(n^{-1/2})\) 要求,以及作者对参数模型的依赖(回避了高维非参数倾向得分估计的困难)。
- 多蛋白联合推断的效率界与多重比较修正:推论 1 用 Bonferroni 或 Bootstrap 修正多重比较,但 Bonferroni 在 \(J\) 极大时过于保守。要证什么:在 \(J\) 个蛋白的联合推断中,ADR 的半参数效率界如何随 \(J\) 变化?是否有更效率的联合置信区间构建方法(如借蛋白间相依性)?扎根在:推论 1 的温和相依性假设与 Bonferroni 修正的保守性。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——如 MNAR 识别的 shadow variable 文献(Tchetgen et al.)、VAE 模型误设的理论文献、高维倾向得分估计的 DML 文献。都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub