跳转至

Imputation scores

作者: Jeffrey Näf, Meta-Lina Spohn, Loris Michel, Nicolai Meinshausen
来源: Annals of Applied Statistics
主题: 其他
相关性: 5/10
机构绿灯: ETH Zurich(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/22-aoas1727


一、领域脉络与小综述

这个方向是什么: 这个子方向关注的是缺失数据插补方法的评估与选择问题。在统计建模与因果推断中,缺失数据普遍存在,已有大量插补方法(MICE、矩阵补全、深度生成模型等),但"如何从众多方法中选出'最好'的那一个"这一根本问题长期未得到妥善解决。核心困难在于:我们无法观测到缺失值的真实值,因此无法直接计算预测误差。该方向目前处于方法成熟但评估标准混乱的阶段——实践界普遍使用的 RMSE(均方根误差)存在理论缺陷,而学界提出的替代方案(如似然、图模型检验)要么计算困难,要么适用范围狭窄。本文试图建立一个无需额外掩盖观测数据、且能正确识别"从真实条件分布抽样"的插补方法的评分框架。

发展脉络: 根据 Introduction 的梳理,该领域的发展线索如下:

  1. 奠基工作——掩盖观测法: 传统的评估思路是人为制造缺失:从完全观测的样本中随机选一部分"掩盖"其观测值,用待评估方法插补,再与真实值比较。这一路线的代表性工作是 Rubin (1976)Schafer (1997)。作者指出,这种方法有两个根本缺陷:①需要"额外掩盖"观测数据,造成信息浪费;②当使用 RMSE 作为指标时,条件均值插补会得到最高分,但这并非我们想要的插补——我们希望插补值能反映条件分布的变异性,而非仅仅预测条件均值。

  2. 主要进展——Proper Scoring Rules: 另一条线索来自预测评估文献。Gneiting & Raftery (2007) 系统总结了 Proper Scoring Rules:如果一个评分规则在真实分布处达到期望最大值,则称其为 Proper 的。例如,Log Score \(\log f(y)\) 和 Continuous Ranked Probability Score (CRPS) 都是典型的 Proper Scoring Rules。然而,作者在 Introduction 中明确指出:这些标准评分规则无法直接应用于缺失数据场景,因为缺失值的真实条件分布 \(f(Y_{\text{mis}} \mid Y_{\text{obs}})\) 是未知的,我们无法计算 \(f\) 的似然或 CRPS。

  3. 当前 Frontier——无真实分布的评分: 近期有工作尝试绕过对真实分布的已知性。Gneiting & Ranjan (2013) 研究了在分布部分未知时的评分规则。Dawid & Musio (2014) 讨论了基于估计方程的评分方法。但这些工作多停留在理论层面,未针对缺失数据插补的具体场景给出可操作的评分函数。

  4. 本文的位置: 作者将自己的工作定位为:首个针对缺失数据插补的、无需掩盖观测、且 Proper 的评分框架。作者声称,他们提出的 I-Score 在总体水平上满足 Properness(最高分赋给从真实条件分布抽样的方法),且仅需观测数据即可计算。

子线索聚类: 被引文献大致落在以下三条子线索上: - 插补方法与评估实践:Rubin (1976), Schafer (1997), Van Buuren (2018) —— 奠定了多重插补框架,但评估依赖掩盖观测与 RMSE。 - Proper Scoring Rules 理论:Gneiting & Raftery (2007), Gneiting & Ranjan (2013) —— 提供了评分规则的理论基础,但未解决"真实分布未知"时的评分问题。 - 密度比估计:Sugiyama et al. (2012) —— 提供了本文的核心技术工具(密度比估计),但此前主要用于协变量偏移等场景,未用于插补评估。

这个方向在追问的核心问题: 1. 如何定义插补方法的"好坏"? —— 是预测准确(RMSE 最小),还是能还原条件分布的变异性?当前主流实践(RMSE)与理论期望(从条件分布抽样)存在错位。 2. 在缺失值真实值不可观测的前提下,如何评估插补质量? —— 这是该领域的根本性识别问题。 3. 如何避免"额外掩盖观测"带来的信息损失与人为性? —— 传统掩盖法在实践中被广泛使用,但其理论缺陷(偏向条件均值)与操作任意性(掩盖多少、掩盖谁)长期被忽视。

⚠️ 作者的 framing: 作者将现有方法的缺陷 frame 为两点:①需要掩盖观测;②RMSE 偏向条件均值。这使得本文的 I-Score 成为"显然的下一步":既不掩盖观测,又能在理论上保证 Properness。 被淡化或回避的竞争路线: - 基于模型的似然选择:如果假设参数模型(如多元正态),可以直接计算观测数据的似然来选择插补方法。作者在 Introduction 中未讨论这条路线,可能因为现代应用中参数模型假设过强。 - 图模型检验:通过检验插补后数据的联合分布是否合理来评估。这类方法在引文中未见提及。 - 什么明显该被引却未出现:近年来基于深度生成模型(如 GAN、VAE)的插补方法(如 GAIN: Generative Adversarial Imputation Nets, Yoon et al. 2018)通常使用"掩盖观测+重构误差"作为训练与评估目标。本文的 I-Score 是否能用于评估这些黑箱插补方法?作者未提及这一快速发展的子领域。

张力: 未见明显对立引用。被引文献主要是在方法论上提供基础,而非彼此矛盾。但存在一个隐含张力:作者声称 I-Score 在 MAR 下"valid",但主要理论结果(Theorem 1)是在 MCAR 下证明的 Properness。MAR 下的结果(Proposition 1)需要额外假设,作者承认这些假设"可能难以验证"。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • \(Y\):完整的 \(n \times p\) 数据矩阵,其中 \(n\) 为样本量,\(p\) 为变量数。
  • \(R\)\(n \times p\) 的指示矩阵,\(R_{ij} = 1\) 表示 \(Y_{ij}\) 被观测到,\(R_{ij} = 0\) 表示缺失。\(R\) 是可观测的。
  • \(Y_{\text{obs}}\)\(Y\) 中被观测到的部分(即 \(Y_{ij}\) where \(R_{ij}=1\))。这是研究者实际能观测到的数据
  • \(Y_{\text{mis}}\)\(Y\) 中缺失的部分。这是想要但观测不到的潜在量
  • 插补方法 \(\mathcal{M}\):一个算法或随机过程,用于生成 \(Y_{\text{mis}}\) 的估计值 \(\hat{Y}_{\text{mis}}\)
  • 插补数据集 \(\hat{Y}\):将 \(\hat{Y}_{\text{mis}}\) 填入 \(Y\) 的缺失位置后得到的完整数据矩阵。
  • 目标:评估 \(\mathcal{M}\) 的好坏,即定义一个评分函数 \(S(\hat{Y}, Y_{\text{obs}}, R)\),使得 \(S\) 能反映 \(\mathcal{M}\) 是否从"正确的条件分布"中抽样。

模型与假设: - 数据生成机制\(Y \sim F\)(某个联合分布),\(R \sim G(Y)\)(缺失机制)。\(F\)\(G\) 均未知。 - MCAR (Missing Completely At Random)\(R \perp\!\!\!\perp Y\)。即缺失与否与数据本身无关。 - MAR (Missing At Random)\(R \perp\!\!\!\perp Y_{\text{mis}} \mid Y_{\text{obs}}\)。即给定观测数据,缺失与否与缺失值无关。 - 待估对象:不是参数,而是插补方法 \(\mathcal{M}\) 的质量。这是一个模型选择 / 方法评估问题,而非传统的参数估计问题。

第二步:最小内核

为了理解 I-Score 的核心思想,考虑最简特例:一维数据,单点缺失

\(Y = (Y_1, Y_2) \in \mathbb{R}^2\),其中 \(Y_1\) 始终被观测,\(Y_2\) 可能缺失。\(R_2 = 0\) 表示 \(Y_2\) 缺失。 我们想评估一个插补方法 \(\mathcal{M}\),它对缺失的 \(Y_2\) 给出插补值 \(\hat{Y}_2\)

核心困难:我们没有 \(Y_2\) 的真实值,无法计算 \(\|\hat{Y}_2 - Y_2\|\)

作者的思路(最小内核): 1. 目标:我们希望 \(\hat{Y}_2\) 的分布接近真实条件分布 \(f(Y_2 \mid Y_1)\)。 2. 关键观察:如果 \(\hat{Y}_2\) 确实来自 \(f(Y_2 \mid Y_1)\),那么 \((Y_1, \hat{Y}_2)\) 的联合分布应该与 \((Y_1, Y_2)\) 的联合分布 \(f(Y_1, Y_2)\) 相同。 3. 密度比思想:定义 \(g(Y_1, Y_2)\) 为插补后数据的联合分布密度。如果插补完美,则 \(g = f\),即密度比 \(g/f = 1\)。 4. I-Score 的构造: 作者构造的评分函数(总体版本)为:

\[S(g, f) = \mathbb{E}_f \left[ \frac{g(Y_1, Y_2)}{f(Y_1, Y_2)} \right] - \mathbb{E}_g \left[ \frac{g(Y_1, Y_2)}{f(Y_1, Y_2)} \right]\]
这里有一个问题:\(f\) 未知,无法直接计算。

**作者的技巧**:利用 MCAR 假设,观测数据的分布与完全数据的分布存在简单关系。作者通过**投影**与**密度比估计**,构造了一个仅依赖可观测量的评分。

**最简情形下的直觉**:
如果插补方法 $\mathcal{M}$ 总是用条件均值 $E[Y_2 \mid Y_1]$ 来插补(确定性插补),那么插补后的数据 $(Y_1, \hat{Y}_2)$ 将落在一条曲线上,其联合分布 $g$ 是退化的(奇异分布)。此时,$g$ 与真实分布 $f$ 差异巨大,I-Score 会给它一个低分。

反之,如果 $\mathcal{M}$ 能从真实的 $f(Y_2 \mid Y_1)$ 中抽样,则 $g \approx f$,I-Score 达到最大值。

这个最小内核解决了什么问题? 它绕过了"没有真实值"这一根本障碍,转而比较"插补后数据的联合分布"与"观测数据的边际分布"之间的匹配程度。这本质上是一个两样本检验 / 分布匹配问题,而密度比是这一问题的核心工具。


三、这篇论文做了什么

三句话: 1. 研究了缺失数据插补方法的评估问题,提出了一个无需掩盖观测数据、且能正确识别"从真实条件分布抽样"方法的评分框架 I-Scores。 2. 核心工具是密度比估计投影技术:将插补后的联合分布与观测数据的分布进行比较,通过密度比构造评分。 3. 主要结论:在 MCAR 下,I-Score 的总体版本是 Proper 的(Theorem 1);在 MAR 下,在特定假设下也具有有效性(Proposition 1)。实证表明 I-Score 能避免 RMSE 偏向条件均值的缺陷。

关键设定与假设

  1. MCAR 假设:这是主要理论结果的核心假设。在此假设下,观测数据的分布与完全数据的分布有简单联系,使得密度比估计可行。

    • 统计含义:缺失机制完全随机,与数据本身无关。这在实际中是一个强假设,但作者指出这是保证 Properness 的充分条件。
    • 与已有文献对比:传统掩盖法不依赖 MCAR(因为人为制造了 MCAR),但作者的方法利用了数据的自然缺失机制。
  2. Properness 定义:一个评分 \(S\) 是 Proper 的,如果对于任意插补分布 \(g\),有 \(S(g, f) \leq S(f, f)\),且等号成立当且仅当 \(g = f\)

    • 统计含义:最高分唯一对应于"从真实条件分布抽样"的方法。这修正了 RMSE 的缺陷(RMSE 最高分对应条件均值)。
  3. 密度比估计的可实现性:作者假设可以使用现有的非参数方法(如 KLIEP, uLSIF 等)来估计密度比。这是本文方法的"计算引擎"。

主要结果

  1. Theorem 1 (Properness under MCAR)

    • 陈述:在 MCAR 假设下,作者构造的 I-Score \(S(\hat{Y}, Y_{\text{obs}}, R)\) 在总体水平上是 Proper 的。即,当插补分布 \(g\) 等于真实分布 \(f\) 时,I-Score 达到最大值。
    • 直觉:在 MCAR 下,观测数据的边际分布与完全数据的边际分布成比例。I-Score 本质上是在衡量插补分布 \(g\) 与真实分布 \(f\) 的"距离"(通过密度比),而这个距离在 \(g=f\) 时最小(得分最大)。
    • 解决的技术难点:在 \(f\) 未知的情况下,如何仅用 \(Y_{\text{obs}}\) 来构造评分?作者利用了 MCAR 下的分布恒等式,将涉及 \(f\) 的项替换为可观测量的期望。
  2. Proposition 1 (Validity under MAR)

    • 陈述:在 MAR 假设下,如果插补方法满足特定的"条件独立性"(插补值与缺失指示变量独立,给定观测值),I-Score 仍然有效。
    • 条件:需要 \(\hat{Y}_{\text{mis}} \perp\!\!\!\perp R \mid Y_{\text{obs}}\)
    • 局限:作者承认这个假设在实际中可能难以验证,且 MAR 下的结果不如 MCAR 下强。
  3. Proposition 2 (Consistency of Sample Version)

    • 陈述:基于样本的 I-Score 估计值收敛于总体值。
    • 技术细节:依赖于密度比估计器的收敛速率(假设为 \(O_p(n^{-1/2})\) 或更优)。

证明路线与技术技巧

  1. 整体路线

    • Step 1: 定义目标。定义总体水平的 Properness 目标:\(S(g, f)\) 应在 \(g=f\) 时最大。
    • Step 2: 密度比分解。将 \(S(g, f)\) 写成密度比 \(g/f\) 的函数。这通常涉及 \(\mathbb{E}_g[g/f]\)\(\mathbb{E}_f[g/f]\) 的项。
    • Step 3: 利用 MCAR 消去 \(f\)。这是最关键的一步。在 MCAR 下,观测数据的分布 \(f(Y_{\text{obs}})\) 与完全数据的边际分布 \(f(Y)\) 存在比例关系。作者利用这一性质,将 \(\mathbb{E}_f[\cdot]\) 替换为关于 \(Y_{\text{obs}}\) 的期望。
    • Step 4: 构造样本版本。将总体期望替换为样本均值,并引入密度比估计器 \(\hat{r}\)
    • Step 5: 证明 Properness。通过凸性或变分论证,证明 \(S(g, f) \leq S(f, f)\)
  2. 关键跳跃点

    • \(f\)\(Y_{\text{obs}}\) 的转换:如何在不观测 \(f\) 的情况下计算评分?作者利用了 MCAR 下的一个恒等式(文中 Eq. 8 附近),使得评分的计算仅依赖于 \(Y_{\text{obs}}\) 和插补值 \(\hat{Y}\),而不需要未知的 \(f\)
    • 投影技术:当变量维度较高或数据复杂时,直接估计密度比困难。作者引入了"投影"——将数据投影到低维空间或特定基函数空间,使得密度比估计在高维下依然可行。这类似于 sufficient dimension reduction 的思想。
  3. 技术技巧点名

    • 密度比估计:核心工具。文中引用了 Sugiyama et al. (2012) 的方法,如 KLIEP(Kullback-Leibler Importance Estimation Procedure)。这是非参数统计中的成熟工具,用于直接估计 \(g/f\) 而无需分别估计 \(g\)\(f\)
    • Proper Scoring Rules 理论:借鉴了 Gneiting & Raftery (2007) 的框架,将插补评估问题转化为一个评分规则的构造问题。
    • U-统计量 / 经验过程(隐含):在证明样本版本的收敛性时,需要处理经验分布与真实分布的差异,这涉及标准的经验过程理论。

真实例子与应用

论文包含广泛的模拟与真实数据分析。

  1. 模拟实验

    • 场景:多元正态数据、混合型数据(连续+离散)。
    • 方法对比:比较了均值插补、MICE(多重插补)、随机森林插补、真实数据插补(Oracle,从真实条件分布抽样)。
    • 结果
      • RMSE 的缺陷:RMSE 一致地给"条件均值插补"最高分,而给"真实数据插补"较低分。这验证了作者的理论批评。
      • I-Score 的表现:I-Score 一致地给"真实数据插补"最高分,并能正确区分好的插补方法(如 MICE)与差的插补方法(如均值插补)。
    • 想说明什么:验证 I-Score 的 Properness(真实分布得分最高),并展示其相对于 RMSE 的优势。
  2. 真实数据分析

    • 数据集:使用了多个公开数据集(如 UCI 数据集),人为制造缺失(MCAR 和 MAR)。
    • 应用方式:用不同方法插补,计算 I-Score 与 RMSE。
    • 结果:在没有"真实值"的情况下,I-Score 依然能给出合理的排序。作者通过对比"掩盖部分观测"后的 RMSE,展示了 I-Score 无需掩盖数据的优势。
    • 想说明什么:I-Score 在实际数据上可行,且计算成本可接受。

🔎 结论是否比证明窄: - Theorem 1 的 Properness 严格依赖 MCAR。作者在文中明确讨论了这一点,并在 MAR 下给出了较弱的结果(Proposition 1)。这是一个诚实的理论局限。 - 密度比估计的准确性:I-Score 的样本版本依赖于密度比估计器 \(\hat{r}\) 的质量。如果 \(\hat{r}\) 估计不准,I-Score 的 Properness 可能无法保证。作者在模拟中展示了使用不同密度比估计器的结果,但理论分析中假设了 \(\hat{r}\) 的收敛性。这是一个"计算-统计"权衡:理论保证依赖于一个难以验证的非参数估计质量。


四、开放问题

  1. MAR 下的 Properness:本文的主要理论结果在 MCAR 下成立。作者在 Proposition 1 中给出了 MAR 下的结果,但需要额外假设(插补值与缺失指示独立)。问题:能否在更弱的、可验证的假设下,证明 I-Score 在 MAR 下的 Properness?或者,能否构造一个新的评分,在 MAR 下天然 Proper?(扎根在 Theorem 1 与 Proposition 1 的条件对比)。

  2. 高维数据的密度比估计:I-Score 的计算核心是密度比估计。当 \(p\) 很大时,密度比估计本身就是一个高维非参数问题,面临维数灾难。作者提到了投影技术,但这引入了"选择哪个投影"的模型选择问题。问题:在高维设定下,I-Score 是否依然保持 Properness?密度比估计的误差如何传播到 I-Score 的排序?(扎根在 Section 2.3 关于 Projection 的讨论)。

  3. 与因果推断的结合:在因果推断中,潜在结果 \(Y(1), Y(0)\) 是永远缺失一半的"缺失数据",且缺失机制 \(R\)(处理分配)通常不是 MCAR。问题:I-Score 能否用于评估因果推断中的插补方法(如基于 IV 或 Proximal 的插补)?在缺失机制已知(如 RCT)或可识别(如 Unconfoundedness)时,I-Score 是否有对应的修正版本?(扎根在 Introduction 中关于因果推断的提及,以及 MAR 下的局限性)。

  4. 计算成本与统计精度的权衡:作者提供了 R 包,但密度比估计在大样本下可能计算昂贵。问题:是否存在 I-Score 的近似版本,可以在保证排序正确性的前提下,大幅降低计算成本?(扎根在 Section 4 的实证计算时间)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论