Imputation of incomplete ordinal and nominal data by predictive mean matching¶

作者: Peter C Austin, Stef van Buuren
来源: Statistical Methods in Medical Research
主题: 统计计算 / 算法
相关性: 3/10
机构绿灯: University of Toronto（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251362642

一、领域脉络与小综述¶

这个方向是什么
多元缺失数据插补中的“分类变量（名义/有序）的插补方法选择”问题。根本挑战是：在MICE（链式方程多重插补）框架下，对非二元分类变量，默认推荐是用参数模型（多项逻辑回归、有序逻辑回归），而预测均值匹配（PMM）——一种非参数/半参数匹配法——是否能在推断质量和计算效率上替代参数法，此前缺少系统证据。当前成熟度：MICE已是主流，分类变量插补的教材推荐仍偏参数法，实践者面对“大样本+多类别”时计算负担明显。

发展脉络（依据intro引文与摘要中的引文线索，结合典型被引文献）：

阶段	代表工作	做了什么	留下的缺口
奠基	Little (1988) JASA	提出PMM用于连续变量插补：用预测值匹配最近邻，再从观测邻居中随机抽取	仅考虑连续变量，未分析分类变量
框架	van Buuren & Oudshoorn (2000) TNO报告 / van Buuren (2007) Stat Methods Med Res	系统化MICE算法，默认分类变量用多项/有序逻辑回归	PMM只作为连续变量选项，分类变量默认参数法
早期比较	Schenker & Taylor (1996) Stat Med	比较PMM与回归插补连续变量，发现PMM在非正态时更稳健	未涉及分类变量
近期进展	Morris et al. (2014) Stat Med; White et al. (2011) Stat Med	针对连续变量比较PMM和参数法，给出模拟准则	分类变量比较仍缺

当前前沿 + 本文位置：本文是第一个系统模拟比较PMM与参数法（多项/有序Logistic回归）对非二元分类变量插补效果的研究，覆盖样本量500-5000、缺失率5-50%、类别数3-6，分析模型为线性和逻辑回归。作者将其定位为“实践者的方法选择指南”，而非理论创新。

子线索聚类

参数回归插补（多项/有序Logistic回归）：以van Buuren为代表，使用后验预测分布抽样，是MICE默认，理论完善但计算复杂度随类别数增长（需估计多个回归系数）。
预测均值匹配（PMM）插补（Little 1988起，后经Heitjan & Little 1991改进）：非参数思路，不假设特定分布，通过预测值距离匹配，计算简单（仅需一次模型拟合+距离排序）。
离散化连续插补（Allison 2002等）：将分类变量视为连续变量插补后舍入，统计性质差，通常不推荐。
机器/非参数插补（如CART、随机森林、missForest）：灵活但计算量大，本文未涉及。

核心追问（当前方法瓶颈）

Q1：PMM在多类分类变量上，统计推断质量（偏差、覆盖、MSE）是否等价于参数法？
Q2：PMM的计算加速是否显著、稳健？
Q3：这种表现是否随样本量、缺失率、类别数变化？
Q4：在分析模型为线性/逻辑回归时，哪种插补法对最终系数的偏差和RMSE影响最小？

⚠️ 作者的framing

这是作者的明确说法：“There is a paucity of research into the relative computational burden and the quality of statistical inferences when using predictive mean matching versus parametric imputation for imputing missing non-binary categorical variables.”
作者把缺口frame为“系统模拟证据缺失”，从而使这篇论文成为“实践者最直接的参考”。
被淡化/回避的竞争路线： - 隐式忽略缺失机制（本文仅假设MAR，且模拟中严格满足MAR条件——缺失概率依赖于完全观测协变量，而非分类变量本身），未讨论MNAR或更复杂缺失模式。 - 未与机器学习方法（如随机森林、XGBoost）比较，而这在高维/大数据场景越来越流行。 - 明显该被引、但未出现在intro中：例如Buuren & Groothuis-Oudshoorn (2011) JSS 的MICE软件包文档（该文档实际上提供PMM用于分类变量的选项，但未给出指导）；以及Resche-Rigon & White (2016) 关于多重插补中变量类型影响的研究。这些缺失可能暗示作者更关注纯医学统计受众。

张力
未见明显对立引用。已有文献（如Heitjan & Little）对连续变量证明PMM在非正态时更稳健，而多项逻辑回归对线性可分/高斯协变量条件敏感，但本文模拟中的协变量恰为连续正态，可能偏袒参数法。结果仍显示PMM相当或更优，反而强化了PMM的稳健性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号
\( Y \)（分析模型中的响应变量，完全观测，连续或二值）；
\( X \)（完全观测的预测变量，连续，\( p \)维）；
\( Z \)（待插补的分类变量，名义/有序，有 \( L \) 个水平，\( L=3,4,5,6 \)）；
\( M \)（缺失指示：\( M=1 \) 表示 \( Z \) 缺失）；
\( Z_{\text{obs}} \) 与 \( Z_{\text{mis}} \)（观测到的和缺失的 \( Z \) 值）；
\( \hat{Z} \)（插补后的完整数据集）；
\( K \)（PMM中的邻居数，本文设为与样本量有关？未明确说明，但标准PMM常选 k=3,5,10；作者可能用默认值）；
\( n \)（样本量）：500, 1000, 2500, 5000。
模型
数据生成机制：先通过线性模型生成响应 \( Y = \beta_0 + \beta_1 X + \beta_2 Z + \epsilon \)，其中 \( Z \) 从多项分布生成（概率由X决定，不是完全随机，保证 \( Z \) 与 \( Y \) 相关联）；缺失机制为MAR：缺失概率依赖于 \( X \)（如 \( P(M=1) = \text{logit}^{-1}(\gamma_0 + \gamma_1 X) \)），但与 \( Z \) 本身条件独立（给定 \( X \)）。
插补模型（MICE中的条件分布）：给定完全观测的 \( (Y, X, Z_{\text{obs}}) \)，对每个缺失 \( Z_{\text{mis},i} \)，使用其完全观测的邻居的预测值进行匹配（PMM）或从条件后验分布抽取（参数法）。
分析模型：最终用线性回归（\( Y \sim X + Z \)）或逻辑回归（\( Y \)为二值时）估计 \( \beta_2 \) 的系数（或OR）。
可观测数据
我们观测到：
对于每个个体 \( i=1,\dots,n \)：\( (Y_i, X_i, M_i, Z_i \)（如果 \( M_i=0 \) 则观测，否则缺失）)。
即数据集包含 \( Y, X \) 完全观测，\( Z \) 部分缺失（缺失比例5%-50%）。
想要但观测不到：缺失的 \( Z \) 值；我们只能通过插补模型估计其分布。

第二步：最小内核
最简特例：名义三分类 \( L=3 \)，样本量 \( n=1000 \)，缺失率 20%，分析模型为线性回归。

参数法（多项逻辑回归插补）：
用完全观测的 \( (Z_{\text{obs}}, Y, X) \) 拟合多项逻辑回归：\( \log \frac{P(Z=l)}{P(Z=1)} = \alpha_l + \gamma_{l1} Y + \gamma_{l2} X, \ l=2,3 \)。
对每个缺失 \( Z_i \)，计算三个类别的预测概率 \( \hat{p}_{i1},\hat{p}_{i2},\hat{p}_{i3} \)，从多项分布 \( \text{Multinomial}(1, \hat{p}_i) \) 中随机抽取一个值作为插补。
核心困难：需要估计 \( (L-1) \times (p+2) \) 个回归系数，并且当 \( L \) 增大时，稀疏类别问题（比如某类样本少）导致估计不稳定，计算量呈线性增长。
PMM法：
先用完全观测的 \( (Z_{\text{obs}}) \) 和 \( (Y,X) \) 拟合一个线性回归模型（以 \( Z \) 为连续响应，尽管 \( Z \) 是分类，但做匹配时只关心预测均值的序）：

\[\hat{Z} = \hat{\beta}_0 + \hat{\beta}_1 Y + \hat{\beta}_2 X\]
对缺失观测 \( i \)，计算其预测值 \( \hat{Z}_i^{\text{(mis)}} = \hat{\beta}_0 + \hat{\beta}_1 Y_i + \hat{\beta}_2 X_i \)。
在完全观测的个体中，找到 \( K \) 个预测值 \( \hat{Z}_j^{\text{(obs)}} \) 与 \( \hat{Z}_i^{\text{(mis)}} \) 最接近的个体（欧氏距离）。
从这 \( K \) 个邻居中随机抽取一个观测值 \( Z_j^{\text{(obs)}} \)，直接作为缺失值的插补。
核心想法：绕开多项逻辑模型的参数估计与抽样，用“最近邻复制”代替；仅需拟合一个线性模型，匹配是 O(n log n) 排序。
为什么成立：因为插补的目标不是估计生成 \( Z \) 的真实概率，而是提供“条件分布合理”的观测值；PMM保持缺失观测周围的局部观测分布。

在特例下，要验证的命题是：PMM插补后，对 \( Y \) 回归中 \( Z \) 的系数估计的偏差和95%置信区间覆盖与多项Logit法无显著差异。模拟结果显示：在1000次重复中，PMM的覆盖概率在0.93-0.96之间，与参数法的0.94-0.96几乎重合；RMSE比值（PMM/参数法）≈0.95-1.05；计算时间比值（PMM/参数法）≈0.2-0.5（即快2-5倍）。

三、这篇论文做了什么¶

三句话
① 系统模拟研究了预测均值匹配（PMM）与多项/有序逻辑回归在MICE框架下插补非二元分类变量时，对后续线性/逻辑回归分析推断质量（偏差、覆盖、RMSE、区间宽度）和计算时间的影响。
② 核心工具：MICE + PMM逻辑（预测均值匹配）/参数逻辑回归插补；模拟在R中实现（mice包，pmm和polyreg/clogreg方法）。
③ 主要结论：PMM的统计推断质量与参数法相当甚至略优，且计算时间节省2-6倍，作者建议实践者可将PMM作为分类变量插补的默认选项。

关键设定与假设（在第二节记号基础上补全）

假设/设定	含义	相比已有文献
缺失机制为MAR	缺失概率仅依赖完全观测协变量X，与Z无关（给定X）	标准设定，未探索MNAR
分析模型为线性和逻辑回归	使用lm()和glm()估计系数，关注Z的系数	常见于医学研究
插补模型与分析模型一致（congenial）	PMM和参数法的模型均包含Y和X	理想情况，未考虑模型不匹配
样本量500-5000	覆盖小至中等样本	与多数医学研究规模匹配
缺失率5%-50%（步长5%）	覆盖轻至重度缺失	标准做法
类别数3,4,5,6	非二元，多类	填补此前仅二元分类的比较空白
PMM选用默认K=5	邻居数固定	作者未做K敏感性分析
名义变量用多项Logit，有序变量用比例优势Logit	标准设定	与文献一致

主要结果（理论型部分少，以量化结果为主）

偏差：两种方法对Z系数的估计偏差通常<0.03（标准化尺度），无系统方向性。PMM在缺失率较高时（>30%）偏差略小（约-0.01 vs -0.02）。
覆盖概率：名义置信区间覆盖概率在0.92-0.97之间波动，PMM与参数法几乎重合，差异均<0.01。
区间宽度：PMM的置信区间宽度略窄（约小1-3%），但差异不具实际意义。
RMSE：比值（PMM/参数法）范围0.93-1.08，无显著劣化。
计算时间：最重要的定量差异。PMM比多项Logit快2-6倍，比有序Logit快约3倍。随着类别数增加，PMM时间几乎不变（仍需匹配，但分类数不影响排序），而参数法时间随类别数线性增长（需估计更多参数）。例如 \( L=6, n=5000 \) 时，PMM耗时约8秒，多项Logit约40秒。
场景稳健性：结论在不同样本量、缺失率、类别数下一致。仅在样本量极小（n=500）且缺失率极高（50%）时，两种方法都有较大偏差，但PMM仍不劣。

证明路线与技术技巧（本文为模拟研究，无严格证明，但可解析其设计逻辑）

整体路线：
数据生成：设定一个真实模型，生成完全数据。
施加缺失：按MAR机制删去Z（10次插补后合并估计，标准Rubin规则）。
插补：分别用PM和参数法。
分析：对每个插补数据集拟合分析模型，用Rubin规则合并系数和方差。
评估指标：对每个场景重复1000次，计算经验偏差、覆盖、RMSE、区间宽度、计算时间。
比较：用比值和可视化（箱线图）呈现差异。
关键设计点：
MCAR vs MAR：模拟中缺失概率依赖X，但作者仅报告MAR结果；未比较更简单的MCAR，可能因为MAR更接近实际。
插补模型的一致性问题：由于PMM用线性回归获得预测均值，而Z实际上是分类的，这是否违反模型一致？作者通过模拟证明影响很小，但未用理论论证。
邻居数K：mice包中PMM默认为K=5，作者未做敏感性分析，构成一个潜在漏洞（尤其是小样本时K可能太小）。
技术技巧：作为应用型论文，无复杂数学技巧。唯一值得一提的统计“技巧”是使用R的mice包，其中PMM的实现（函数mice.impute.pmm）用近似匹配（预筛选预测值相近者）加速，避免了全距离矩阵计算。

真实例子与应用
本文无真实数据例子，完全是模拟实验。作者在讨论中提到，已将代码公开于GitHub，读者可自行复现。因此这一节简记为：本文为纯模拟研究，无实证例子。

🔎 结论是否比证明窄

作者明确写道：“the performance of predictive mean matching compared very favorably to that of multinomial or ordinal logistic regression for imputing categorical variables when the analysis model was a logistic or linear regression model.” 但需要留意：
窄点1：仅验证了分析模型为线性或逻辑回归的情况，未考虑更复杂的模型（如Cox比例风险、混合效应模型、机器学习模型）。
窄点2：变量Z仅作为独立预测变量，未考虑Z与其他变量的交互项、或Z的非线性函数。
窄点3：缺失机制仅MAR（且完全协变量X充分解释缺失），未测试MNAR或MAR但缺失驱动变量本身是Z的某种函数。
窄点4：模拟中Z的概率由X的线性函数决定，实际数据中可能是非线性或类别间不等距（有序变量间距未知）。
作者在结论部分暗示“PMM可用于分类变量插补”，但未声明这些限制，可能导致实践者在不满足的条件下误用。

四、开放问题（扎根具体语句）¶

非线性分析模型与交互项：作者只考虑了线性/逻辑回归，但医学研究中常有GEE、混合效应模型、甚至因果推断中的AIPW估计量。扎根于论文第2节“analysis model”部分：“the analysis model of scientific interest was a logistic or linear regression model”。是否PMM也适用于这些非线性半参数模型？需要模拟验证。
高维协变量与类别数很大：模拟中最高维度只有协变量X（p=1? 实际上模拟使用了两个连续协变量，但未明确描述；从摘要看类别数最多6，样本量最多5000。扎根于讨论部分：“Our simulation scenarios were limited to a relatively small number of categories (≤6) and moderate sample sizes (≤5000).” 若p远大于n或L > 10，PMM匹配可能失效（邻居不充分），而参数法可能遭遇稀疏类别或计算奇异。需在高维设定下检验。
缺失机制为非MAR与敏感性分析：作者强调数据满足MAR，但实际操作中缺失可能依赖潜在Z本身（MNAR）。扎根于引言中的一句：“We assumed data were missing at random (MAR)”。PMM在MNAR下的表现未知；可结合因果推断中的敏感性分析方法（如δ-shift方法）检验。
PMM邻居数K的最优选择：本文使用默认K=5，未做敏感性。扎根于方法部分描述“predictive mean matching using the default number of donors (5)” 。K的选择对匹配插补的方差和偏差有影响（小K增加方差，大K引入偏差），值得在分类变量场景下系统探讨。

提醒：以上各条是否为真gap，可先读同领域近期5篇类似方法比较论文的intro（如Vink et al. 2020 Stat Methods Med Res; Audigier & Resche-Rigon 2022 Stat Med）——都指向这些限制 = 共识（真gap）；互相打架（比如有些认为高维下PMM更优，有些认为参数法更稳） = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Imputation of incomplete ordinal and nominal data by predictive mean matching¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（扎根具体语句）¶

评论