Augmented doubly robust post-imputation inference for proteomic data¶

作者: Haeun Moon, Jin-Hong Du, Jing Lei, Kathryn Roeder
来源: Annals of Applied Statistics
主题: 效率理论 / Debiased ML
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：如何在含有高比例缺失值的数据中，对下游统计推断（如均值估计、差异表达分析）进行去偏与不确定性量化，使得推断既不因忽略缺失机制而引入系统性偏差，也不因插补误差的传播而丧失效率或犯假阳性错误。当前该方向的成熟度处于“方法应用繁荣、但严格半参数推断框架刚起步”的阶段：生物信息学界已有大量插补算法（矩阵分解、随机森林、深度生成模型），但几乎都不做 post-imputation inference；统计学界对缺失数据的因果/半参数推断理论已成熟（Rubin, Robins, Tsiatis），但尚未系统移植到质谱蛋白质组学这种“高维肽段 + 复杂非随机缺失（MNAR/MAR混合）+ 极高缺失率”的具体场景。

发展脉络： 1. 奠基工作（缺失数据推断理论）：Rubin (1976) 建立了缺失数据的分类体系（MCAR/MAR/MNAR）与多重插补框架；Robins, Rotnitzky & Zhao (1994) 提出双重稳健估计，在倾向得分模型或结果回归模型之一正确时即可获得一致估计；Little et al. (2012) 将缺失数据推断规范引入临床试验。这些工作留下了口子：理论多基于低维设定，未触及高维辅助变量下的倾向得分/结果模型估计。 2. 主要进展（高维去偏与 DML）：Chernozhukov et al. (2018) 建立了 Double Machine Learning (DML) 框架，用 Neyman 正交性解决高维 nuisance 估计的偏差渗透问题；Semenova & Chernozhukov (2017) 与 Kennedy (2020) 将 DML 推广至条件平均处理效应（CATE）等结构函数的估计。这些工作留下了口子：DML 框架要求 nuisance 函数可被 ML 方法以 \(o(n^{-1/4})\) 率一致估计，但在极高缺失率下，结果模型的 ML 估计往往因有效样本过小而无法达到此率。 3. 当前 frontier（插补后推断与矩阵完成推断）：Andrews & Hemberg (2018) 揭示了单细胞数据插补极易引入假阳性信号；Chen et al. (2019) 在矩阵完成中提出了去偏估计与置信区间构建，但要求低秩与随机缺失假设；Wei et al. (2018) 与 Webb-Robertson et al. (2015) 系统评测了质谱数据的各类插补法，指出 MNAR 机制下无单一最优方法。这些工作留下了口子：矩阵完成推断依赖强低秩假设且多限于 MAR，质谱评测停留在插补精度比较，未建立“插补 + 去偏推断”的闭环。 4. 本文的位置：本文将双重稳健估计与 DML 框架移植到质谱蛋白质组学，用 VAE 处理高维结果模型（插补），用参数模型处理倾向得分（缺失机制去偏），填补了“高维 MNAR 缺失下如何做严格 post-imputation inference”的口子。

子线索聚类： - 线索 A：质谱数据插补方法评测与开发（Wei et al. 2018; Webb-Robertson et al. 2015; Välikangas et al. 2017; Stekhoven & Bühlmann 2011; Hastie et al. 2015; Yoon et al. 2018; Qiu et al. 2020; Du et al. 2022）。这一簇在做：针对质谱/基因组数据的缺失，开发更精确的插补算法（矩阵分解、随机森林、GAN、VAE），并在模拟/真实数据上比较插补精度。瓶颈：只关注重构误差，不关心下游推断的偏差与方差。 - 线索 B：插补后假阳性风险警示（Andrews & Hemberg 2018; Ly & Vingron 2022）。这一簇在做：通过模拟与置换检验，揭示插补算法（如 MAGIC）如何人为制造基因间相关性与差异表达信号。瓶颈：只指出问题，未给出带理论保证的修正方案。 - 线索 C：缺失数据的半参数推断与去偏（Robins et al. 1994; Chernozhukov et al. 2018; Kennedy 2020; Chen et al. 2019; Zhao & Ding 2022）。这一簇在做：在 MAR 或部分 MNAR 下，用双重稳健、Neyman 正交、矩阵去偏等工具，构造一致且渐近正态的估计量。瓶颈：理论多假设 nuisance 可估或矩阵低秩，未针对质谱数据“高维肽段辅助变量 + 极高缺失率 + MNAR”的复合困难。

这个方向在追问的核心问题： 1. 如何对插补后的数据做有效的统计推断（去偏与不确定性量化），而不犯假阳性？ 当前主流方法（直接对插补数据做 t 检验等）已知有偏且假阳性膨胀；已知瓶颈是插补误差与缺失机制的耦合。 2. 在高维辅助变量下，如何估计缺失机制（倾向得分）与结果模型，使得双重稳健估计量仍具备渐近正态性与效率？ 当前 DML 框架要求 nuisance 估计收敛率 \(o(n^{-1/4})\)；已知瓶颈是极高缺失率下有效样本量骤降，ML 方法难以达标。 3. 质谱数据中 MNAR（低丰度肽段更易缺失）与 MAR 混合的缺失机制，如何被参数化或半参数化建模，以纳入推断？ 当前主流要么假设纯 MAR（矩阵完成），要么用启发式左截断插补；已知瓶颈是 MNAR 机制的识别本身需强假设。

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成：现有质谱数据分析要么只做插补不做推断（假阳性风险），要么做推断但忽略插补偏差（系统性偏倚），而双重稳健估计是“显然的下一步”——因为它只需倾向得分或结果模型之一正确即可去偏。 - 被淡化或回避的竞争路线：矩阵完成的去偏推断（Chen et al. 2019）——作者只在引用中提及矩阵分解插补，但未在理论部分与低秩去偏路线做对比或讨论其假设（低秩 vs. 本文的参数倾向得分假设）的优劣。多重插补的联合推断也未出现。 - 明显该被引/该存在却未出现的：MNAR 下的非参数或半参数识别理论（如 Robins 1997 的 g-estimation，或近年 Tchetgen et al. 的 shadow variable 方法）——本文假设缺失机制可被参数 logistic 模型捕获，但未引用 MNAR 识别的更根本文献来支撑此假设的合理性；高维倾向得分估计的协变量选择/正则化文献——本文用参数模型估倾向得分，但高维下参数模型本身可能过拟合或欠拟合，未讨论。

张力：未见明显对立引用。各线索在不同设定下得出不同结论（插补评测线索说“无单一最优方法”，假阳性线索说“插补有害”，推断线索说“可去偏”），但未在同一设定下直接矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(n\)：样本量（细胞或批次个数）。
\(p\)：高维肽段的个数。
\(Y_i \in \mathbb{R}\)：第 \(i\) 个样本的目标蛋白丰度（estimand/要估的均值 \(\mu = E[Y]\)）。
\(X_i \in \mathbb{R}^p\)：第 \(i\) 个样本的高维肽段丰度向量（辅助变量/协变量）。
\(R_i \in \{0, 1\}\)：第 \(i\) 个样本的缺失指示变量（\(R_i=1\) 表示 \(Y_i\) 可观测，\(R_i=0\) 表示 \(Y_i\) 缺失）。
\(\pi(X_i) = P(R_i=1 \mid X_i)\)：倾向得分（给定肽段时，目标蛋白被观测的概率）。
\(m(X_i) = E[Y_i \mid X_i, R_i=1]\)：结果回归函数（给定肽段且目标蛋白可观测时的期望丰度）。
\(\hat{m}(X_i)\)：用 VAE 等机器学习方法从 \(\{(X_j, Y_j): R_j=1\}\) 训练得到的插补函数（对缺失的 \(Y_i\)，插补值为 \(\hat{m}(X_i)\)）。
\(\hat{\pi}(X_i)\)：用参数 logistic 模型从 \(\{(X_j, R_j)\}\) 训练得到的倾向得分估计。
\(\mu\)：要估的 estimand，即目标蛋白的总体平均丰度 \(E[Y]\)。
模型：数据生成机制：\((X_i, Y_i, R_i)\) 独立同分布。\(X_i\) 为高维肽段向量。\(Y_i\) 的生成依赖 \(X_i\)（如线性或非线性关系 \(Y_i = f(X_i) + \epsilon_i\)）。缺失机制 \(R_i\) 依赖 \(X_i\)（MAR：\(R_i \perp Y_i \mid X_i\)）或同时依赖 \(Y_i\) 本身（MNAR）。本文核心假设是：缺失机制可被参数 logistic 模型捕获（即 \(\pi(x) = \text{expit}(\alpha^T x)\) 或其变体），且 MAR 假设成立或 MNAR 机制可被该参数模型显式建模。结果模型 \(m(x)\) 的形式未知，允许是高维非线性函数，用 VAE 等非参数 ML 方法估计。
可观测数据：研究者实际能观测到的是：对所有 \(n\) 个样本，观测到高维肽段向量 \(X_i\) 与缺失指示 \(R_i\)；对 \(R_i=1\) 的子样本（有效样本），观测到目标蛋白丰度 \(Y_i\)；对 \(R_i=0\) 的子样本，\(Y_i\) 不可观测（想要但观测不到）。高维肽段 \(X_i\) 本身也可能有缺失，但本文假设 \(X_i\) 的缺失已被预处理（如用 VAE 插补）为完整矩阵，或只使用 \(X_i\) 中无缺失的子集作为协变量。

第二步：讲最小内核

本文支撑整篇论文的最小内核是：在单变量目标蛋白 \(Y\)、单维肽段协变量 \(X\)、二值缺失指示 \(R\) 的设定下，双重稳健估计量如何对插补偏差去偏，以及其渐近正态性如何成立。

最简特例（\(p=1\), MAR, 参数倾向得分）：设 \(X_i \in \mathbb{R}\) 为单维肽段，\(Y_i \in \mathbb{R}\) 为目标蛋白，\(R_i \in \{0, 1\}\) 为缺失指示。假设 MAR：\(R_i \perp Y_i \mid X_i\)。假设倾向得分模型正确：\(\pi(x) = P(R=1 \mid X=x) = \text{expit}(\alpha x)\)，且 \(\hat{\pi}(x)\) 为其一致估计。结果模型 \(m(x) = E[Y \mid X=x, R=1]\) 未知，用 ML 方法（如 VAE 的退化形式：单隐层神经网络）估计得 \(\hat{m}(x)\)。

要证的命题退化成：双重稳健估计量

\[\hat{\mu}_{DR} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{R_i Y_i}{\hat{\pi}(X_i)} - \frac{R_i - \hat{\pi}(X_i)}{\hat{\pi}(X_i)} \hat{m}(X_i) \right]\]

在 \(\hat{\pi}\) 一致且 \(\hat{m}\) 收敛率 \(o(n^{-1/4})\) 时，渐近正态且无偏。

证明怎么走、为什么成立： 1. 去偏直觉：若只用完整样本均值 \(\frac{1}{n} \sum_{R_i=1} Y_i / \hat{\pi}(X_i)\)（逆概率加权 IPW），当 \(\hat{\pi}\) 有偏时估计量有偏；若只用插补均值 \(\frac{1}{n} \sum_{i=1}^n \hat{m}(X_i)\)，当 \(\hat{m}\) 有偏时估计量有偏。双重稳健估计量将两者结合：当 \(\hat{\pi}\) 正确时，IPW 部分无偏，第二项为均值零的调整项；当 \(\hat{m}\) 正确时，第二项恰好抵消 IPW 的偏差。 2. 渐近正态性的关键跳跃：将 \(\hat{\mu}_{DR}\) 展开，分离出 Neyman 正交项。核心技巧是：将 nuisance 估计 \((\hat{\pi}, \hat{m})\) 的偏差对 \(\hat{\mu}_{DR}\) 的影响，通过交叉拟合或样本分割，降为二阶交叉项 \(O(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|)\)。当 \(\|\hat{\pi}-\pi\| = o(n^{-1/2})\)（参数模型可达）且 \(\|\hat{m}-m\| = o(n^{-1/4})\)（ML 方法在温和条件下可达）时，二阶交叉项 \(o(n^{-1/2})\) 可忽略，\(\hat{\mu}_{DR}\) 的渐近分布只由一阶项（影响函数）决定，从而渐近正态且达到半参数效率界。 3. 为什么成立：本质是 Neyman 正交性——估计量对 nuisance 函数的 Gateaux 导数在真实值处为零，使得 nuisance 的一阶偏差不渗透到估计量中，只有二阶交叉项残存，而交叉项在收敛率假设下可被控制。

论文的一般情形（\(p\) 高维、VAE 插补、多蛋白同时推断）只是此最小内核的“加壳”：高维 \(X\) 使得 \(\hat{m}\) 的估计更困难（需 VAE 降维），多蛋白使得推断需同时处理多个 \(\mu_j\)，但核心去偏逻辑与渐近正态性证明路线不变。

三、这篇论文做了什么¶

三句话： ①研究了质谱蛋白质组学数据中高比例缺失值下的统计推断问题，即如何对插补后的数据做去偏与不确定性量化。 ②核心工具是双重稳健估计量 + 双机器学习（DML）框架：用变分自编码器（VAE）从高维肽段数据中估计结果模型（插补），用参数 logistic 模型估计倾向得分（缺失机制），通过交叉拟合控制 nuisance 估计偏差的渗透。 ③主要结论是：在倾向得分模型正确或结果模型收敛率 \(o(n^{-1/4})\) 的条件下，提出的 Augmented Doubly Robust (ADR) 估计量渐近无偏、渐近正态且达到半参数效率界；模拟与真实数据（单细胞蛋白质组学、阿尔茨海默病 bulk 数据）表明，ADR 在偏差校正与假阳性控制上显著优于现有插补后推断流程。

关键设定与假设：在第二节最小记号的基础上补全： - 定义：ADR 估计量的一般形式为

\[\hat{\mu}_{ADR} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{R_i Y_i}{\hat{\pi}(X_i)} - \frac{R_i - \hat{\pi}(X_i)}{\hat{\pi}(X_i)} \hat{m}(X_i) \right]\]

其中 \(\hat{\pi}\) 与 \(\hat{m}\) 通过 交叉拟合（cross-fitting，将样本分为 \(K\) 折，用 \(k\) 折外样本估计 nuisance，在 \(k\) 折内样本计算估计量）得到。 - 假设 A1（MAR 或参数化 MNAR）：缺失机制满足 \(R_i \perp Y_i \mid X_i\)（MAR），或 \(R_i\) 依赖 \(Y_i\) 但该依赖可被参数 logistic 模型显式捕获（如 \(\pi(x, y) = \text{expit}(\alpha^T x + \beta y)\)，此时需对 \(\beta\) 有先验或用外部数据校准）。统计含义：缺失机制可被观测数据识别。相比已有文献（如矩阵完成多假设纯 MAR），本文在 MNAR 下给出了参数化建模路线，但未给出 MNAR 识别的非参数充分条件。 - 假设 A2（倾向得分有界）：\(\pi(X_i) \geq \epsilon > 0\) 几乎必然。统计含义：无零概率缺失单元（positivity），保证 IPW 权重不爆炸。相比已有文献（如 DML 框架），此假设是标准要求，但在质谱数据中极强——低丰度肽段的缺失概率可能接近 1（即 \(\pi\) 接近 0），本文在应用中通过截断（clipping \(\hat{\pi}\) 到 \([\epsilon, 1-\epsilon]\)）来近似满足。 - 假设 A3（Nuisance 收敛率）：\(\|\hat{\pi} - \pi\|_{P,2} = o(n^{-1/2})\)（参数模型可达），\(\|\hat{m} - m\|_{P,2} = o(n^{-1/4})\)（ML 方法需温和条件）。统计含义：交叉项可忽略，Neyman 正交性生效。相比已有文献（如 Chernozhukov et al. 2018），此假设是 DML 的标准要求，本文特别之处在于指出 VAE 在高维肽段辅助下可达到此率（因 VAE 降维后有效维度可控）。 - 假设 A4（VAE 模型设定）：VAE 的潜变量 \(Z \in \mathbb{R}^m\)（\(m \ll p\)），生成模型 \(X \mid Z \sim p_\theta(X \mid Z)\)，推断模型 \(Z \mid X \sim q_\psi(Z \mid X)\)，通过最大化 ELBO 训练。插补时，对缺失的 \(Y_i\)，用 \(\hat{m}(X_i) = E_{q_\psi}[Y \mid X_i, R_i=1]\) 或其变体。统计含义：结果模型被 VAE 的非线性降维结构参数化。相比已有文献（如 MissForest 或 GAIN），VAE 提供了显式的条件分布 \(p(Y \mid X)\)，而非仅点预测，有利于不确定性量化。

主要结果： - 定理 1（ADR 的双重稳健性与渐近正态性）：在假设 A1-A3 与交叉拟合下，

\[\sqrt{n}(\hat{\mu}_{ADR} - \mu) \xrightarrow{d} N(0, V)\]

其中 \(V = E\left[ \left( \frac{R Y}{\pi(X)} - \frac{R-\pi(X)}{\pi(X)} m(X) - \mu \right)^2 \right]\) 为半参数效率界。直觉：Neyman 正交性使 nuisance 的一阶偏差不渗透，二阶交叉项在收敛率假设下可忽略，估计量等价于用真实 nuisance 计算的影响函数均值。必要条件：\(\hat{\pi}\) 一致且 \(\hat{m}\) 收敛率 \(o(n^{-1/4})\)。解决的技术难点：高维 nuisance 估计的偏差如何不破坏渐近正态性——通过交叉拟合与 Neyman 正交性，将偏差降为二阶交叉项并控制。 - 定理 2（VAE 插补的收敛率保证）：在 VAE 的潜变量维度 \(m\) 固定、生成模型族足够丰富（包含真实分布）的条件下，VAE 插补 \(\hat{m}(X)\) 的收敛率可达 \(o(n^{-1/4})\)。直觉：VAE 将高维 \(X\) 降维到 \(m\) 维潜空间，在潜空间中估计条件期望 \(E[Y \mid Z]\) 的难度只依赖 \(m\)，而非原始 \(p\)。必要条件：VAE 的 ELBO 优化可近似最大化似然（即 \(q_\psi\) 足够接近真实后验）。解决的技术难点：高维 \(X\) 下 \(m(x)\) 的非参数估计收敛率通常慢于 \(o(n^{-1/4})\)，VAE 的降维如何绕过此诅咒——通过潜变量结构假设，将收敛率绑定到潜维度 \(m\)。 - 推论 1（多蛋白同时推断的误差控制）：对 \(J\) 个蛋白同时做 ADR 推断，在温和相依性假设下，联合置信区间可通过 Bonferroni 或 Bootstrap 构建，且假阳性率可控。直觉：ADR 的渐近正态性可逐蛋白建立，联合推断只需修正多重比较。

证明路线与技术技巧： - 整体路线： 1. 定义影响函数：写出 \(\mu\) 的有效影响函数 \(\psi(O) = \frac{R Y}{\pi(X)} - \frac{R-\pi(X)}{\pi(X)} m(X) - \mu\)，其中 \(O=(X, Y, R)\)。 2. 构造 ADR 估计量：用交叉拟合的 \(\hat{\pi}, \hat{m}\) 替换影响函数中的 \(\pi, m\)，得 \(\hat{\mu}_{ADR} = \frac{1}{n} \sum_{i \in \text{fold } k} \psi(O_i; \hat{\pi}^{(-k)}, \hat{m}^{(-k)})\)。 3. 展开偏差：将 \(\hat{\mu}_{ADR} - \mu\) 分解为 一阶项（影响函数均值）+ 二阶交叉项（nuisance 偏差的乘积）+ 高阶余项。 4. 控制二阶交叉项：用 Cauchy-Schwarz 不等式，将二阶交叉项绑定为 \(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|\)，在假设 A3 下此项 \(o(n^{-1/2})\) 可忽略。 5. 证渐近正态性：一阶项为独立同分布影响函数的均值，由经典中心极限定理得渐近正态；方差为影响函数的方差，即半参数效率界。 - 关键跳跃点： - 引理 1（Neyman 正交性验证）：验证 \(\frac{\partial \mu(\pi, m)}{\partial \pi}\big|_{\pi=\pi_0, m=m_0} = 0\) 且 \(\frac{\partial \mu(\pi, m)}{\partial m}\big|_{\pi=\pi_0, m=m_0} = 0\)。难点在于：影响函数的形式需精确推导，使得 nuisance 的偏差在真实值处的一阶导数为零。作者用 Robins et al. (1994) 的经典构造，直接写出影响函数并验证。 - 引理 2（交叉拟合的样本分割有效性）：证明交叉拟合不引入额外偏差，且估计量等价于全样本影响函数均值。难点在于：样本分割导致有效样本量降为 \(n/K\)，需证明 \(K\) 折平均后渐近方差仍为 \(V/n\)。作者用 Chernozhukov et al. (2018) 的交叉拟合框架，直接引用其结论。 - 技术技巧点名： - Neyman 正交性：用于构造影响函数，使 nuisance 的一阶偏差不渗透。用在引理 1。 - 交叉拟合：用于分离 nuisance 估计与目标估计的样本，避免过拟合偏差。用在引理 2 与定理 1。 - Cauchy-Schwarz 不等式控制二阶交叉项：用于将 \(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|\) 绑定为 \(o(n^{-1/2})\)。用在定理 1 的偏差展开。 - VAE 的 ELBO 最大化与潜变量降维：用于估计高维结果模型 \(m(x)\)，将收敛率绑定到潜维度 \(m\)。用在定理 2。 - 截断：用于控制 IPW 权重的极端值，避免 \(\hat{\pi}\) 近零时方差爆炸。用在应用与模拟中。

真实例子与应用： - 单细胞蛋白质组学数据（nPOP 数据，Leduc et al. 2021）： - 用的什么数据：nPOP 方法生成的单细胞质谱数据，包含数千个单细胞的蛋白质丰度测量，缺失率极高（部分蛋白缺失率 > 50%）。 - 怎么把本文方法用上去：对每个蛋白 \(Y_j\)，用高维肽段向量 \(X\) 作为辅助变量，训练 VAE 插补模型 \(\hat{m}_j(X)\) 与参数倾向得分模型 \(\hat{\pi}_j(X)\)，计算 ADR 估计量 \(\hat{\mu}_{j,ADR}\) 与置信区间，进行差异表达分析（比较不同细胞类型间的蛋白丰度差异）。 - 得到什么结果：ADR 方法在单细胞数据中发现了 额外的有意义的差异表达蛋白（如与细胞周期、药物抵抗相关的蛋白），这些蛋白在完整样本分析中因缺失率过高而被遗漏；同时，ADR 的假阳性率控制在名义水平（如 5%），而直接插补后 t 检验的假阳性率显著膨胀。 - 这个例子想说明什么：验证 ADR 在极高缺失率下的 偏差校正能力（发现完整样本分析遗漏的信号）与 假阳性控制能力（避免插补引入的虚假信号）。 - 阿尔茨海默病 bulk 蛋白质组学数据（Brenes et al. 2019; Pereira et al. 2016）： - 用的什么数据：多批次 TMT 蛋白质组学数据，包含 AD 患者与对照的脑组织蛋白丰度，缺失率因批次效应与低丰度蛋白而较高。 - 怎么把本文方法用上去：对每个蛋白，用 ADR 估计 AD 与对照间的丰度差异（\(\mu_{AD} - \mu_{Ctrl}\)），与直接插补后 t 检验、完整样本 t 检验对比。 - 得到什么结果：ADR 发现了 与 AD 病理相关的新蛋白差异（如谷氨酸转运蛋白 EAAT2 的丰度变化，与 Pereira et al. 2016 的 riluzole 实验一致），而完整样本分析因缺失遗漏了这些差异；ADR 的假阳性率与多重比较校正后的发现数优于基线方法。 - 这个例子想说明什么：展示 ADR 在 bulk 数据中的实用性，特别是 多批次整合下的缺失值处理 与 生物学意义的发现。

🔎 结论是否比证明窄： - 定理 2（VAE 插补的收敛率保证）：在证明中，假设了“VAE 的生成模型族包含真实分布”（即真实分布 \(p(X \mid Z)\) 在 VAE 的参数族内），但此假设在实际中几乎不可能成立（真实分布通常非 VAE 的 Gaussian/重参数化族）。作者在陈述定理 2 时泛泛 claim “VAE 可达到 \(o(n^{-1/4})\)”，但证明实际上只在 模型族包含真实分布 的强假设下成立，此假设被淡化。研究者需核验：定理 2 的陈述是否明确标注了此假设，或是否作为 conjecture 提出。 - MNAR 下的推断：作者在 introduction 中 claim “框架可推广至 MNAR”，但理论部分（定理 1-2）的证明严格在 MAR 或参数化 MNAR 下进行。MNAR 下的渐近正态性证明未给出，只作为泛泛 claim。研究者需核验：是否有专门的定理或推论处理 MNAR，或只是文字讨论。

四、开放问题（点到为止，扎根具体语句）¶

MNAR 下的非参数识别与推断：本文定理 1-2 在 MAR 或参数化 MNAR 下证明，但质谱数据中 MNAR 机制（低丰度肽段更易缺失）可能不满足参数 logistic 模型。要证什么：在非参数 MNAR 机制下，ADR 估计量是否仍一致且渐近正态？需什么额外假设（如 shadow variable）？扎根在：Introduction 中“Our framework can be extended to MNAR settings”的 claim，以及假设 A1 的参数化限制。
VAE 模型族不包含真实分布时的收敛率：定理 2 假设 VAE 族包含真实分布，但实际中 VAE 为近似模型。要估什么：当 VAE 族不包含真实分布时（即存在模型误设），\(\hat{m}(X)\) 的收敛率与偏差如何影响 ADR 的渐近性质？双重稳健性是否仍能保护？扎根在：定理 2 的强假设与作者对 VAE 实际表现的泛泛 claim。
高维倾向得分估计的替代方案：本文用参数 logistic 模型估 \(\hat{\pi}\)，但高维 \(X\) 下参数模型可能欠拟合（遗漏非线性缺失机制）。要算什么：若用非参数 ML 方法（如随机森林、深度网络）估 \(\hat{\pi}\)，其收敛率能否达到 \(o(n^{-1/4})\)？交叉项 \(\|\hat{\pi}-\pi\| \cdot \|\hat{m}-m\|\) 如何控制？扎根在：假设 A3 对 \(\hat{\pi}\) 的 \(o(n^{-1/2})\) 要求，以及作者对参数模型的依赖（回避了高维非参数倾向得分估计的困难）。
多蛋白联合推断的效率界与多重比较修正：推论 1 用 Bonferroni 或 Bootstrap 修正多重比较，但 Bonferroni 在 \(J\) 极大时过于保守。要证什么：在 \(J\) 个蛋白的联合推断中，ADR 的半参数效率界如何随 \(J\) 变化？是否有更效率的联合置信区间构建方法（如借蛋白间相依性）？扎根在：推论 1 的温和相依性假设与 Bonferroni 修正的保守性。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——如 MNAR 识别的 shadow variable 文献（Tchetgen et al.）、VAE 模型误设的理论文献、高维倾向得分估计的 DML 文献。都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Augmented doubly robust post-imputation inference for proteomic data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论