Imputation scores¶

作者: Jeffrey Näf, Meta-Lina Spohn, Loris Michel, Nicolai Meinshausen
来源: Annals of Applied Statistics
主题: 其他
相关性: 5/10
机构绿灯: ETH Zurich（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/22-aoas1727

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是缺失数据插补方法的评估与选择问题。在统计建模与因果推断中，缺失数据普遍存在，已有大量插补方法（MICE、矩阵补全、深度生成模型等），但"如何从众多方法中选出'最好'的那一个"这一根本问题长期未得到妥善解决。核心困难在于：我们无法观测到缺失值的真实值，因此无法直接计算预测误差。该方向目前处于方法成熟但评估标准混乱的阶段——实践界普遍使用的 RMSE（均方根误差）存在理论缺陷，而学界提出的替代方案（如似然、图模型检验）要么计算困难，要么适用范围狭窄。本文试图建立一个无需额外掩盖观测数据、且能正确识别"从真实条件分布抽样"的插补方法的评分框架。

发展脉络：根据 Introduction 的梳理，该领域的发展线索如下：

奠基工作——掩盖观测法：传统的评估思路是人为制造缺失：从完全观测的样本中随机选一部分"掩盖"其观测值，用待评估方法插补，再与真实值比较。这一路线的代表性工作是 Rubin (1976) 与 Schafer (1997)。作者指出，这种方法有两个根本缺陷：①需要"额外掩盖"观测数据，造成信息浪费；②当使用 RMSE 作为指标时，条件均值插补会得到最高分，但这并非我们想要的插补——我们希望插补值能反映条件分布的变异性，而非仅仅预测条件均值。
主要进展——Proper Scoring Rules：另一条线索来自预测评估文献。Gneiting & Raftery (2007) 系统总结了 Proper Scoring Rules：如果一个评分规则在真实分布处达到期望最大值，则称其为 Proper 的。例如，Log Score \(\log f(y)\) 和 Continuous Ranked Probability Score (CRPS) 都是典型的 Proper Scoring Rules。然而，作者在 Introduction 中明确指出：这些标准评分规则无法直接应用于缺失数据场景，因为缺失值的真实条件分布 \(f(Y_{\text{mis}} \mid Y_{\text{obs}})\) 是未知的，我们无法计算 \(f\) 的似然或 CRPS。
当前 Frontier——无真实分布的评分：近期有工作尝试绕过对真实分布的已知性。Gneiting & Ranjan (2013) 研究了在分布部分未知时的评分规则。Dawid & Musio (2014) 讨论了基于估计方程的评分方法。但这些工作多停留在理论层面，未针对缺失数据插补的具体场景给出可操作的评分函数。
本文的位置：作者将自己的工作定位为：首个针对缺失数据插补的、无需掩盖观测、且 Proper 的评分框架。作者声称，他们提出的 I-Score 在总体水平上满足 Properness（最高分赋给从真实条件分布抽样的方法），且仅需观测数据即可计算。

子线索聚类：被引文献大致落在以下三条子线索上： - 插补方法与评估实践：Rubin (1976), Schafer (1997), Van Buuren (2018) —— 奠定了多重插补框架，但评估依赖掩盖观测与 RMSE。 - Proper Scoring Rules 理论：Gneiting & Raftery (2007), Gneiting & Ranjan (2013) —— 提供了评分规则的理论基础，但未解决"真实分布未知"时的评分问题。 - 密度比估计：Sugiyama et al. (2012) —— 提供了本文的核心技术工具（密度比估计），但此前主要用于协变量偏移等场景，未用于插补评估。

这个方向在追问的核心问题： 1. 如何定义插补方法的"好坏"？ —— 是预测准确（RMSE 最小），还是能还原条件分布的变异性？当前主流实践（RMSE）与理论期望（从条件分布抽样）存在错位。 2. 在缺失值真实值不可观测的前提下，如何评估插补质量？ —— 这是该领域的根本性识别问题。 3. 如何避免"额外掩盖观测"带来的信息损失与人为性？ —— 传统掩盖法在实践中被广泛使用，但其理论缺陷（偏向条件均值）与操作任意性（掩盖多少、掩盖谁）长期被忽视。

⚠️ 作者的 framing：作者将现有方法的缺陷 frame 为两点：①需要掩盖观测；②RMSE 偏向条件均值。这使得本文的 I-Score 成为"显然的下一步"：既不掩盖观测，又能在理论上保证 Properness。 被淡化或回避的竞争路线： - 基于模型的似然选择：如果假设参数模型（如多元正态），可以直接计算观测数据的似然来选择插补方法。作者在 Introduction 中未讨论这条路线，可能因为现代应用中参数模型假设过强。 - 图模型检验：通过检验插补后数据的联合分布是否合理来评估。这类方法在引文中未见提及。 - 什么明显该被引却未出现：近年来基于深度生成模型（如 GAN、VAE）的插补方法（如 GAIN: Generative Adversarial Imputation Nets, Yoon et al. 2018）通常使用"掩盖观测+重构误差"作为训练与评估目标。本文的 I-Score 是否能用于评估这些黑箱插补方法？作者未提及这一快速发展的子领域。

张力：未见明显对立引用。被引文献主要是在方法论上提供基础，而非彼此矛盾。但存在一个隐含张力：作者声称 I-Score 在 MAR 下"valid"，但主要理论结果（Theorem 1）是在 MCAR 下证明的 Properness。MAR 下的结果（Proposition 1）需要额外假设，作者承认这些假设"可能难以验证"。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(Y\)：完整的 \(n \times p\) 数据矩阵，其中 \(n\) 为样本量，\(p\) 为变量数。
\(R\)：\(n \times p\) 的指示矩阵，\(R_{ij} = 1\) 表示 \(Y_{ij}\) 被观测到，\(R_{ij} = 0\) 表示缺失。\(R\) 是可观测的。
\(Y_{\text{obs}}\)：\(Y\) 中被观测到的部分（即 \(Y_{ij}\) where \(R_{ij}=1\)）。这是研究者实际能观测到的数据。
\(Y_{\text{mis}}\)：\(Y\) 中缺失的部分。这是想要但观测不到的潜在量。
插补方法 \(\mathcal{M}\)：一个算法或随机过程，用于生成 \(Y_{\text{mis}}\) 的估计值 \(\hat{Y}_{\text{mis}}\)。
插补数据集 \(\hat{Y}\)：将 \(\hat{Y}_{\text{mis}}\) 填入 \(Y\) 的缺失位置后得到的完整数据矩阵。
目标：评估 \(\mathcal{M}\) 的好坏，即定义一个评分函数 \(S(\hat{Y}, Y_{\text{obs}}, R)\)，使得 \(S\) 能反映 \(\mathcal{M}\) 是否从"正确的条件分布"中抽样。

模型与假设： - 数据生成机制：\(Y \sim F\)（某个联合分布），\(R \sim G(Y)\)（缺失机制）。\(F\) 与 \(G\) 均未知。 - MCAR (Missing Completely At Random)：\(R \perp\!\!\!\perp Y\)。即缺失与否与数据本身无关。 - MAR (Missing At Random)：\(R \perp\!\!\!\perp Y_{\text{mis}} \mid Y_{\text{obs}}\)。即给定观测数据，缺失与否与缺失值无关。 - 待估对象：不是参数，而是插补方法 \(\mathcal{M}\) 的质量。这是一个模型选择 / 方法评估问题，而非传统的参数估计问题。

第二步：最小内核

为了理解 I-Score 的核心思想，考虑最简特例：一维数据，单点缺失。

设 \(Y = (Y_1, Y_2) \in \mathbb{R}^2\)，其中 \(Y_1\) 始终被观测，\(Y_2\) 可能缺失。\(R_2 = 0\) 表示 \(Y_2\) 缺失。我们想评估一个插补方法 \(\mathcal{M}\)，它对缺失的 \(Y_2\) 给出插补值 \(\hat{Y}_2\)。

核心困难：我们没有 \(Y_2\) 的真实值，无法计算 \(\|\hat{Y}_2 - Y_2\|\)。

作者的思路（最小内核）： 1. 目标：我们希望 \(\hat{Y}_2\) 的分布接近真实条件分布 \(f(Y_2 \mid Y_1)\)。 2. 关键观察：如果 \(\hat{Y}_2\) 确实来自 \(f(Y_2 \mid Y_1)\)，那么 \((Y_1, \hat{Y}_2)\) 的联合分布应该与 \((Y_1, Y_2)\) 的联合分布 \(f(Y_1, Y_2)\) 相同。 3. 密度比思想：定义 \(g(Y_1, Y_2)\) 为插补后数据的联合分布密度。如果插补完美，则 \(g = f\)，即密度比 \(g/f = 1\)。 4. I-Score 的构造：作者构造的评分函数（总体版本）为：

\[S(g, f) = \mathbb{E}_f \left[ \frac{g(Y_1, Y_2)}{f(Y_1, Y_2)} \right] - \mathbb{E}_g \left[ \frac{g(Y_1, Y_2)}{f(Y_1, Y_2)} \right]\]

这里有一个问题：\(f\) 未知，无法直接计算。

**作者的技巧**：利用 MCAR 假设，观测数据的分布与完全数据的分布存在简单关系。作者通过**投影**与**密度比估计**，构造了一个仅依赖可观测量的评分。

**最简情形下的直觉**：
如果插补方法 $\mathcal{M}$ 总是用条件均值 $E[Y_2 \mid Y_1]$ 来插补（确定性插补），那么插补后的数据 $(Y_1, \hat{Y}_2)$ 将落在一条曲线上，其联合分布 $g$ 是退化的（奇异分布）。此时，$g$ 与真实分布 $f$ 差异巨大，I-Score 会给它一个低分。

反之，如果 $\mathcal{M}$ 能从真实的 $f(Y_2 \mid Y_1)$ 中抽样，则 $g \approx f$，I-Score 达到最大值。

这个最小内核解决了什么问题？ 它绕过了"没有真实值"这一根本障碍，转而比较"插补后数据的联合分布"与"观测数据的边际分布"之间的匹配程度。这本质上是一个两样本检验 / 分布匹配问题，而密度比是这一问题的核心工具。

三、这篇论文做了什么¶

三句话： 1. 研究了缺失数据插补方法的评估问题，提出了一个无需掩盖观测数据、且能正确识别"从真实条件分布抽样"方法的评分框架 I-Scores。 2. 核心工具是密度比估计与投影技术：将插补后的联合分布与观测数据的分布进行比较，通过密度比构造评分。 3. 主要结论：在 MCAR 下，I-Score 的总体版本是 Proper 的（Theorem 1）；在 MAR 下，在特定假设下也具有有效性（Proposition 1）。实证表明 I-Score 能避免 RMSE 偏向条件均值的缺陷。

关键设定与假设：

MCAR 假设：这是主要理论结果的核心假设。在此假设下，观测数据的分布与完全数据的分布有简单联系，使得密度比估计可行。
- 统计含义：缺失机制完全随机，与数据本身无关。这在实际中是一个强假设，但作者指出这是保证 Properness 的充分条件。
- 与已有文献对比：传统掩盖法不依赖 MCAR（因为人为制造了 MCAR），但作者的方法利用了数据的自然缺失机制。
Properness 定义：一个评分 \(S\) 是 Proper 的，如果对于任意插补分布 \(g\)，有 \(S(g, f) \leq S(f, f)\)，且等号成立当且仅当 \(g = f\)。
- 统计含义：最高分唯一对应于"从真实条件分布抽样"的方法。这修正了 RMSE 的缺陷（RMSE 最高分对应条件均值）。
密度比估计的可实现性：作者假设可以使用现有的非参数方法（如 KLIEP, uLSIF 等）来估计密度比。这是本文方法的"计算引擎"。

主要结果：

Theorem 1 (Properness under MCAR)：
- 陈述：在 MCAR 假设下，作者构造的 I-Score \(S(\hat{Y}, Y_{\text{obs}}, R)\) 在总体水平上是 Proper 的。即，当插补分布 \(g\) 等于真实分布 \(f\) 时，I-Score 达到最大值。
- 直觉：在 MCAR 下，观测数据的边际分布与完全数据的边际分布成比例。I-Score 本质上是在衡量插补分布 \(g\) 与真实分布 \(f\) 的"距离"（通过密度比），而这个距离在 \(g=f\) 时最小（得分最大）。
- 解决的技术难点：在 \(f\) 未知的情况下，如何仅用 \(Y_{\text{obs}}\) 来构造评分？作者利用了 MCAR 下的分布恒等式，将涉及 \(f\) 的项替换为可观测量的期望。
Proposition 1 (Validity under MAR)：
- 陈述：在 MAR 假设下，如果插补方法满足特定的"条件独立性"（插补值与缺失指示变量独立，给定观测值），I-Score 仍然有效。
- 条件：需要 \(\hat{Y}_{\text{mis}} \perp\!\!\!\perp R \mid Y_{\text{obs}}\)。
- 局限：作者承认这个假设在实际中可能难以验证，且 MAR 下的结果不如 MCAR 下强。
Proposition 2 (Consistency of Sample Version)：
- 陈述：基于样本的 I-Score 估计值收敛于总体值。
- 技术细节：依赖于密度比估计器的收敛速率（假设为 \(O_p(n^{-1/2})\) 或更优）。

证明路线与技术技巧：

整体路线：
- Step 1: 定义目标。定义总体水平的 Properness 目标：\(S(g, f)\) 应在 \(g=f\) 时最大。
- Step 2: 密度比分解。将 \(S(g, f)\) 写成密度比 \(g/f\) 的函数。这通常涉及 \(\mathbb{E}_g[g/f]\) 与 \(\mathbb{E}_f[g/f]\) 的项。
- Step 3: 利用 MCAR 消去 \(f\)。这是最关键的一步。在 MCAR 下，观测数据的分布 \(f(Y_{\text{obs}})\) 与完全数据的边际分布 \(f(Y)\) 存在比例关系。作者利用这一性质，将 \(\mathbb{E}_f[\cdot]\) 替换为关于 \(Y_{\text{obs}}\) 的期望。
- Step 4: 构造样本版本。将总体期望替换为样本均值，并引入密度比估计器 \(\hat{r}\)。
- Step 5: 证明 Properness。通过凸性或变分论证，证明 \(S(g, f) \leq S(f, f)\)。
关键跳跃点：
- 从 \(f\) 到 \(Y_{\text{obs}}\) 的转换：如何在不观测 \(f\) 的情况下计算评分？作者利用了 MCAR 下的一个恒等式（文中 Eq. 8 附近），使得评分的计算仅依赖于 \(Y_{\text{obs}}\) 和插补值 \(\hat{Y}\)，而不需要未知的 \(f\)。
- 投影技术：当变量维度较高或数据复杂时，直接估计密度比困难。作者引入了"投影"——将数据投影到低维空间或特定基函数空间，使得密度比估计在高维下依然可行。这类似于 sufficient dimension reduction 的思想。
技术技巧点名：
- 密度比估计：核心工具。文中引用了 Sugiyama et al. (2012) 的方法，如 KLIEP（Kullback-Leibler Importance Estimation Procedure）。这是非参数统计中的成熟工具，用于直接估计 \(g/f\) 而无需分别估计 \(g\) 和 \(f\)。
- Proper Scoring Rules 理论：借鉴了 Gneiting & Raftery (2007) 的框架，将插补评估问题转化为一个评分规则的构造问题。
- U-统计量 / 经验过程（隐含）：在证明样本版本的收敛性时，需要处理经验分布与真实分布的差异，这涉及标准的经验过程理论。

真实例子与应用：

论文包含广泛的模拟与真实数据分析。

模拟实验：
- 场景：多元正态数据、混合型数据（连续+离散）。
- 方法对比：比较了均值插补、MICE（多重插补）、随机森林插补、真实数据插补（Oracle，从真实条件分布抽样）。
- 结果：
  - RMSE 的缺陷：RMSE 一致地给"条件均值插补"最高分，而给"真实数据插补"较低分。这验证了作者的理论批评。
  - I-Score 的表现：I-Score 一致地给"真实数据插补"最高分，并能正确区分好的插补方法（如 MICE）与差的插补方法（如均值插补）。
- 想说明什么：验证 I-Score 的 Properness（真实分布得分最高），并展示其相对于 RMSE 的优势。
真实数据分析：
- 数据集：使用了多个公开数据集（如 UCI 数据集），人为制造缺失（MCAR 和 MAR）。
- 应用方式：用不同方法插补，计算 I-Score 与 RMSE。
- 结果：在没有"真实值"的情况下，I-Score 依然能给出合理的排序。作者通过对比"掩盖部分观测"后的 RMSE，展示了 I-Score 无需掩盖数据的优势。
- 想说明什么：I-Score 在实际数据上可行，且计算成本可接受。

🔎 结论是否比证明窄： - Theorem 1 的 Properness 严格依赖 MCAR。作者在文中明确讨论了这一点，并在 MAR 下给出了较弱的结果（Proposition 1）。这是一个诚实的理论局限。 - 密度比估计的准确性：I-Score 的样本版本依赖于密度比估计器 \(\hat{r}\) 的质量。如果 \(\hat{r}\) 估计不准，I-Score 的 Properness 可能无法保证。作者在模拟中展示了使用不同密度比估计器的结果，但理论分析中假设了 \(\hat{r}\) 的收敛性。这是一个"计算-统计"权衡：理论保证依赖于一个难以验证的非参数估计质量。

四、开放问题¶

MAR 下的 Properness：本文的主要理论结果在 MCAR 下成立。作者在 Proposition 1 中给出了 MAR 下的结果，但需要额外假设（插补值与缺失指示独立）。问题：能否在更弱的、可验证的假设下，证明 I-Score 在 MAR 下的 Properness？或者，能否构造一个新的评分，在 MAR 下天然 Proper？（扎根在 Theorem 1 与 Proposition 1 的条件对比）。
高维数据的密度比估计：I-Score 的计算核心是密度比估计。当 \(p\) 很大时，密度比估计本身就是一个高维非参数问题，面临维数灾难。作者提到了投影技术，但这引入了"选择哪个投影"的模型选择问题。问题：在高维设定下，I-Score 是否依然保持 Properness？密度比估计的误差如何传播到 I-Score 的排序？（扎根在 Section 2.3 关于 Projection 的讨论）。
与因果推断的结合：在因果推断中，潜在结果 \(Y(1), Y(0)\) 是永远缺失一半的"缺失数据"，且缺失机制 \(R\)（处理分配）通常不是 MCAR。问题：I-Score 能否用于评估因果推断中的插补方法（如基于 IV 或 Proximal 的插补）？在缺失机制已知（如 RCT）或可识别（如 Unconfoundedness）时，I-Score 是否有对应的修正版本？（扎根在 Introduction 中关于因果推断的提及，以及 MAR 下的局限性）。
计算成本与统计精度的权衡：作者提供了 R 包，但密度比估计在大样本下可能计算昂贵。问题：是否存在 I-Score 的近似版本，可以在保证排序正确性的前提下，大幅降低计算成本？（扎根在 Section 4 的实证计算时间）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Imputation scores¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论