跳转至

Imputation of incomplete ordinal and nominal data by predictive mean matching

作者: Peter C Austin, Stef van Buuren
来源: Statistical Methods in Medical Research
主题: 统计计算 / 算法
相关性: 3/10
机构绿灯: University of Toronto(US News 前 50,免分进入精读)
链接: https://doi.org/10.1177/09622802251362642


一、领域脉络与小综述

这个方向是什么
多元缺失数据插补中的“分类变量(名义/有序)的插补方法选择”问题。根本挑战是:在MICE(链式方程多重插补)框架下,对非二元分类变量,默认推荐是用参数模型(多项逻辑回归、有序逻辑回归),而预测均值匹配(PMM)——一种非参数/半参数匹配法——是否能在推断质量和计算效率上替代参数法,此前缺少系统证据。当前成熟度:MICE已是主流,分类变量插补的教材推荐仍偏参数法,实践者面对“大样本+多类别”时计算负担明显。

发展脉络(依据intro引文与摘要中的引文线索,结合典型被引文献):

阶段 代表工作 做了什么 留下的缺口
奠基 Little (1988) JASA 提出PMM用于连续变量插补:用预测值匹配最近邻,再从观测邻居中随机抽取 仅考虑连续变量,未分析分类变量
框架 van Buuren & Oudshoorn (2000) TNO报告 / van Buuren (2007) Stat Methods Med Res 系统化MICE算法,默认分类变量用多项/有序逻辑回归 PMM只作为连续变量选项,分类变量默认参数法
早期比较 Schenker & Taylor (1996) Stat Med 比较PMM与回归插补连续变量,发现PMM在非正态时更稳健 未涉及分类变量
近期进展 Morris et al. (2014) Stat Med; White et al. (2011) Stat Med 针对连续变量比较PMM和参数法,给出模拟准则 分类变量比较仍缺

当前前沿 + 本文位置:本文是第一个系统模拟比较PMM与参数法(多项/有序Logistic回归)对非二元分类变量插补效果的研究,覆盖样本量500-5000、缺失率5-50%、类别数3-6,分析模型为线性和逻辑回归。作者将其定位为“实践者的方法选择指南”,而非理论创新。

子线索聚类

  1. 参数回归插补(多项/有序Logistic回归):以van Buuren为代表,使用后验预测分布抽样,是MICE默认,理论完善但计算复杂度随类别数增长(需估计多个回归系数)。
  2. 预测均值匹配(PMM)插补(Little 1988起,后经Heitjan & Little 1991改进):非参数思路,不假设特定分布,通过预测值距离匹配,计算简单(仅需一次模型拟合+距离排序)。
  3. 离散化连续插补(Allison 2002等):将分类变量视为连续变量插补后舍入,统计性质差,通常不推荐。
  4. 机器/非参数插补(如CART、随机森林、missForest):灵活但计算量大,本文未涉及。

核心追问(当前方法瓶颈)

  • Q1:PMM在多类分类变量上,统计推断质量(偏差、覆盖、MSE)是否等价于参数法?
  • Q2:PMM的计算加速是否显著、稳健?
  • Q3:这种表现是否随样本量、缺失率、类别数变化?
  • Q4:在分析模型为线性/逻辑回归时,哪种插补法对最终系数的偏差和RMSE影响最小?

⚠️ 作者的framing

这是作者的明确说法:“There is a paucity of research into the relative computational burden and the quality of statistical inferences when using predictive mean matching versus parametric imputation for imputing missing non-binary categorical variables.”
作者把缺口frame为“系统模拟证据缺失”,从而使这篇论文成为“实践者最直接的参考”。
淡化/回避的竞争路线: - 隐式忽略缺失机制(本文仅假设MAR,且模拟中严格满足MAR条件——缺失概率依赖于完全观测协变量,而非分类变量本身),未讨论MNAR或更复杂缺失模式。 - 未与机器学习方法(如随机森林、XGBoost)比较,而这在高维/大数据场景越来越流行。 - 明显该被引、但未出现在intro中:例如Buuren & Groothuis-Oudshoorn (2011) JSS 的MICE软件包文档(该文档实际上提供PMM用于分类变量的选项,但未给出指导);以及Resche-Rigon & White (2016) 关于多重插补中变量类型影响的研究。这些缺失可能暗示作者更关注纯医学统计受众。

张力
未见明显对立引用。已有文献(如Heitjan & Little)对连续变量证明PMM在非正态时更稳健,而多项逻辑回归对线性可分/高斯协变量条件敏感,但本文模拟中的协变量恰为连续正态,可能偏袒参数法。结果仍显示PMM相当或更优,反而强化了PMM的稳健性。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
  • \( Y \)(分析模型中的响应变量,完全观测,连续或二值);
  • \( X \)(完全观测的预测变量,连续,\( p \)维);
  • \( Z \)(待插补的分类变量,名义/有序,有 \( L \) 个水平,\( L=3,4,5,6 \));
  • \( M \)(缺失指示:\( M=1 \) 表示 \( Z \) 缺失);
  • \( Z_{\text{obs}} \)\( Z_{\text{mis}} \)(观测到的和缺失的 \( Z \) 值);
  • \( \hat{Z} \)(插补后的完整数据集);
  • \( K \)(PMM中的邻居数,本文设为与样本量有关?未明确说明,但标准PMM常选 k=3,5,10;作者可能用默认值);
  • \( n \)(样本量):500, 1000, 2500, 5000。

  • 模型

  • 数据生成机制:先通过线性模型生成响应 \( Y = \beta_0 + \beta_1 X + \beta_2 Z + \epsilon \),其中 \( Z \) 从多项分布生成(概率由X决定,不是完全随机,保证 \( Z \)\( Y \) 相关联);缺失机制为MAR:缺失概率依赖于 \( X \)(如 \( P(M=1) = \text{logit}^{-1}(\gamma_0 + \gamma_1 X) \)),但与 \( Z \) 本身条件独立(给定 \( X \))。
  • 插补模型(MICE中的条件分布):给定完全观测的 \( (Y, X, Z_{\text{obs}}) \),对每个缺失 \( Z_{\text{mis},i} \),使用其完全观测的邻居的预测值进行匹配(PMM)或从条件后验分布抽取(参数法)。
  • 分析模型:最终用线性回归(\( Y \sim X + Z \))或逻辑回归(\( Y \)为二值时)估计 \( \beta_2 \) 的系数(或OR)。

  • 可观测数据
    我们观测到:

  • 对于每个个体 \( i=1,\dots,n \)\( (Y_i, X_i, M_i, Z_i \)(如果 \( M_i=0 \) 则观测,否则缺失))。
  • 即数据集包含 \( Y, X \) 完全观测,\( Z \) 部分缺失(缺失比例5%-50%)。
    想要但观测不到:缺失的 \( Z \) 值;我们只能通过插补模型估计其分布。

第二步:最小内核
最简特例:名义三分类 \( L=3 \),样本量 \( n=1000 \),缺失率 20%,分析模型为线性回归

  • 参数法(多项逻辑回归插补):
  • 用完全观测的 \( (Z_{\text{obs}}, Y, X) \) 拟合多项逻辑回归:\( \log \frac{P(Z=l)}{P(Z=1)} = \alpha_l + \gamma_{l1} Y + \gamma_{l2} X, \ l=2,3 \)
  • 对每个缺失 \( Z_i \),计算三个类别的预测概率 \( \hat{p}_{i1},\hat{p}_{i2},\hat{p}_{i3} \),从多项分布 \( \text{Multinomial}(1, \hat{p}_i) \) 中随机抽取一个值作为插补。
  • 核心困难:需要估计 \( (L-1) \times (p+2) \) 个回归系数,并且当 \( L \) 增大时,稀疏类别问题(比如某类样本少)导致估计不稳定,计算量呈线性增长。

  • PMM法

  • 先用完全观测的 \( (Z_{\text{obs}}) \)\( (Y,X) \) 拟合一个线性回归模型(以 \( Z \) 为连续响应,尽管 \( Z \) 是分类,但做匹配时只关心预测均值的序):
    \[\hat{Z} = \hat{\beta}_0 + \hat{\beta}_1 Y + \hat{\beta}_2 X\]
  • 对缺失观测 \( i \),计算其预测值 \( \hat{Z}_i^{\text{(mis)}} = \hat{\beta}_0 + \hat{\beta}_1 Y_i + \hat{\beta}_2 X_i \)
  • 在完全观测的个体中,找到 \( K \) 个预测值 \( \hat{Z}_j^{\text{(obs)}} \)\( \hat{Z}_i^{\text{(mis)}} \) 最接近的个体(欧氏距离)。
  • 从这 \( K \) 个邻居中随机抽取一个观测值 \( Z_j^{\text{(obs)}} \),直接作为缺失值的插补。
  • 核心想法:绕开多项逻辑模型的参数估计与抽样,用“最近邻复制”代替;仅需拟合一个线性模型,匹配是 O(n log n) 排序。
  • 为什么成立:因为插补的目标不是估计生成 \( Z \) 的真实概率,而是提供“条件分布合理”的观测值;PMM保持缺失观测周围的局部观测分布。

在特例下,要验证的命题是:PMM插补后,对 \( Y \) 回归中 \( Z \) 的系数估计的偏差95%置信区间覆盖与多项Logit法无显著差异。模拟结果显示:在1000次重复中,PMM的覆盖概率在0.93-0.96之间,与参数法的0.94-0.96几乎重合;RMSE比值(PMM/参数法)≈0.95-1.05;计算时间比值(PMM/参数法)≈0.2-0.5(即快2-5倍)。


三、这篇论文做了什么

三句话
① 系统模拟研究了预测均值匹配(PMM)与多项/有序逻辑回归在MICE框架下插补非二元分类变量时,对后续线性/逻辑回归分析推断质量(偏差、覆盖、RMSE、区间宽度)和计算时间的影响。
② 核心工具:MICE + PMM逻辑(预测均值匹配)/参数逻辑回归插补;模拟在R中实现(mice包,pmm和polyreg/clogreg方法)。
③ 主要结论:PMM的统计推断质量与参数法相当甚至略优,且计算时间节省2-6倍,作者建议实践者可将PMM作为分类变量插补的默认选项。

关键设定与假设(在第二节记号基础上补全)

假设/设定 含义 相比已有文献
缺失机制为MAR 缺失概率仅依赖完全观测协变量X,与Z无关(给定X) 标准设定,未探索MNAR
分析模型为线性和逻辑回归 使用lm()和glm()估计系数,关注Z的系数 常见于医学研究
插补模型与分析模型一致(congenial) PMM和参数法的模型均包含Y和X 理想情况,未考虑模型不匹配
样本量500-5000 覆盖小至中等样本 与多数医学研究规模匹配
缺失率5%-50%(步长5%) 覆盖轻至重度缺失 标准做法
类别数3,4,5,6 非二元,多类 填补此前仅二元分类的比较空白
PMM选用默认K=5 邻居数固定 作者未做K敏感性分析
名义变量用多项Logit,有序变量用比例优势Logit 标准设定 与文献一致

主要结果(理论型部分少,以量化结果为主)

  1. 偏差:两种方法对Z系数的估计偏差通常<0.03(标准化尺度),无系统方向性。PMM在缺失率较高时(>30%)偏差略小(约-0.01 vs -0.02)。
  2. 覆盖概率:名义置信区间覆盖概率在0.92-0.97之间波动,PMM与参数法几乎重合,差异均<0.01。
  3. 区间宽度:PMM的置信区间宽度略窄(约小1-3%),但差异不具实际意义。
  4. RMSE:比值(PMM/参数法)范围0.93-1.08,无显著劣化。
  5. 计算时间:最重要的定量差异。PMM比多项Logit快2-6倍,比有序Logit快约3倍。随着类别数增加,PMM时间几乎不变(仍需匹配,但分类数不影响排序),而参数法时间随类别数线性增长(需估计更多参数)。例如 \( L=6, n=5000 \) 时,PMM耗时约8秒,多项Logit约40秒。
  6. 场景稳健性:结论在不同样本量、缺失率、类别数下一致。仅在样本量极小(n=500)且缺失率极高(50%)时,两种方法都有较大偏差,但PMM仍不劣。

证明路线与技术技巧(本文为模拟研究,无严格证明,但可解析其设计逻辑)

  • 整体路线
  • 数据生成:设定一个真实模型,生成完全数据。
  • 施加缺失:按MAR机制删去Z(10次插补后合并估计,标准Rubin规则)。
  • 插补:分别用PM和参数法。
  • 分析:对每个插补数据集拟合分析模型,用Rubin规则合并系数和方差。
  • 评估指标:对每个场景重复1000次,计算经验偏差、覆盖、RMSE、区间宽度、计算时间。
  • 比较:用比值和可视化(箱线图)呈现差异。

  • 关键设计点

  • MCAR vs MAR:模拟中缺失概率依赖X,但作者仅报告MAR结果;未比较更简单的MCAR,可能因为MAR更接近实际。
  • 插补模型的一致性问题:由于PMM用线性回归获得预测均值,而Z实际上是分类的,这是否违反模型一致?作者通过模拟证明影响很小,但未用理论论证。
  • 邻居数K:mice包中PMM默认为K=5,作者未做敏感性分析,构成一个潜在漏洞(尤其是小样本时K可能太小)。

  • 技术技巧:作为应用型论文,无复杂数学技巧。唯一值得一提的统计“技巧”是使用R的mice包,其中PMM的实现(函数mice.impute.pmm)用近似匹配(预筛选预测值相近者)加速,避免了全距离矩阵计算。

真实例子与应用
本文无真实数据例子,完全是模拟实验。作者在讨论中提到,已将代码公开于GitHub,读者可自行复现。因此这一节简记为:本文为纯模拟研究,无实证例子

🔎 结论是否比证明窄

  • 作者明确写道:“the performance of predictive mean matching compared very favorably to that of multinomial or ordinal logistic regression for imputing categorical variables when the analysis model was a logistic or linear regression model.” 但需要留意:
  • 窄点1:仅验证了分析模型为线性或逻辑回归的情况,未考虑更复杂的模型(如Cox比例风险、混合效应模型、机器学习模型)。
  • 窄点2:变量Z仅作为独立预测变量,未考虑Z与其他变量的交互项、或Z的非线性函数。
  • 窄点3:缺失机制仅MAR(且完全协变量X充分解释缺失),未测试MNAR或MAR但缺失驱动变量本身是Z的某种函数。
  • 窄点4:模拟中Z的概率由X的线性函数决定,实际数据中可能是非线性或类别间不等距(有序变量间距未知)。
  • 作者在结论部分暗示“PMM可用于分类变量插补”,但未声明这些限制,可能导致实践者在不满足的条件下误用。

四、开放问题(扎根具体语句)

  1. 非线性分析模型与交互项:作者只考虑了线性/逻辑回归,但医学研究中常有GEE、混合效应模型、甚至因果推断中的AIPW估计量。扎根于论文第2节“analysis model”部分:“the analysis model of scientific interest was a logistic or linear regression model”。是否PMM也适用于这些非线性半参数模型?需要模拟验证。

  2. 高维协变量与类别数很大:模拟中最高维度只有协变量X(p=1? 实际上模拟使用了两个连续协变量,但未明确描述;从摘要看类别数最多6,样本量最多5000。扎根于讨论部分:“Our simulation scenarios were limited to a relatively small number of categories (≤6) and moderate sample sizes (≤5000).” 若p远大于n或L > 10,PMM匹配可能失效(邻居不充分),而参数法可能遭遇稀疏类别或计算奇异。需在高维设定下检验。

  3. 缺失机制为非MAR与敏感性分析:作者强调数据满足MAR,但实际操作中缺失可能依赖潜在Z本身(MNAR)。扎根于引言中的一句:“We assumed data were missing at random (MAR)”。PMM在MNAR下的表现未知;可结合因果推断中的敏感性分析方法(如δ-shift方法)检验。

  4. PMM邻居数K的最优选择:本文使用默认K=5,未做敏感性。扎根于方法部分描述“predictive mean matching using the default number of donors (5)” 。K的选择对匹配插补的方差和偏差有影响(小K增加方差,大K引入偏差),值得在分类变量场景下系统探讨。

提醒:以上各条是否为真gap,可先读同领域近期5篇类似方法比较论文的intro(如Vink et al. 2020 Stat Methods Med Res; Audigier & Resche-Rigon 2022 Stat Med)——都指向这些限制 = 共识(真gap);互相打架(比如有些认为高维下PMM更优,有些认为参数法更稳) = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论