Bayesian analysis for imbalanced positive-unlabelled diagnosis codes in electronic health records¶

作者: Ru Wang, Ye Liang, Zhuqi Miao, Tieming Liu
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1214/22-aoas1666

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在电子健康记录（EHR）这类大规模但带有严重缺失和噪声的数据中，如何仅利用一小部分已确认的正例（标记的患病患者） 和大量未标记的样本（未完成确诊检查的患者），来准确估计疾病的真实患病率，并对未标记样本进行可靠的二分类预测。这属于正例-未标记（Positive-Unlabelled, PU）学习框架下的一个具体设定——正例比例极低（极度不平衡），且只有正例被部分标记，未标记集中同时包含真正的负例和未被标记的正例。当前该子方向的成熟度：EHR领域的应用已经展开，但大多依赖启发式或两阶段分类方法，对标签不平衡 + PU 结构同时存在时的统计识别与推断问题，缺乏系统性的模型驱动解法。

发展脉络（history）¶

把本文引言（及检索摘要）引用的工作串成一条线：

奠基工作：Elkan & Noto (2008) —— 提出经典的 PU 学习框架，利用“选定的完全随机（SCAR）”假设（已标记正例是正例总体中的随机子集），通过估计 P(s=1 | x) （标记倾向）来间接估计分类概率。留下口子：该方法依赖于已标记正例的无偏抽样假设，且在正例比例极小时表现不稳定。
主要进展（两阶段 & 代价敏感方法）：du Plessis et al. (2014, 2015) 和 Kiryo et al. (2017) 发展了一系列基于无偏风险估计（unbiased risk estimation） 的 PU 学习方法，通过重赋正/未标记样本的损失来消除估计偏差。留下口子：这些方法对正例先验（正类在总样本中的比例）高度敏感，且在高维特征或小样本下风险估计的方差容易爆炸。与此同时，Lee & Liu (2003) 和 Li et al. (2011) 则采用了“先正后负”的两步法：先从未标记集中可靠地挑选出负例，再训练标准分类器。留下口子：两步法的最终性能极大依赖于第一步挑选负例的纯度，在极端不平衡下第一阶段的错误会级联放大。
当前 frontier（不平衡 PU & EHR 应用）：Bekker & Davis (2020) 的一篇综述系统梳理了 PU 学习的变体（SCAR vs. 无偏假设、单训练集 vs. 级联双训练集），并指出在有类不平衡时，大多数 PU 方法退化为仅输出多数类。在 EHR 应用方面，Dai et al. (2021) 和 Hripcsak & Albers (2013) 尝试了用 NLP 处理编码缺失或以文本日志增强诊断编码，但忽略了标签极端不平衡带来的识别性问题。本文的定位在于：在这些 PU 方法的基础上，引入贝叶斯有限混合模型（Bayesian finite mixture model），将不平衡 PU 问题形式化为一个已知先验（π很小）下的混合分布分解，并通过标签交换（label switching）的识别策略和共识蒙特卡洛（consensus Monte Carlo）处理计算困难。

子线索聚类¶

这些被引文献大致落在 3 条子线索上：

线索 A：基于风险重赋的 PU 方法（du Plessis et al., 2014, 2015; Kiryo et al., 2017; Nakagawa et al., 2019）。这一簇的核心思路是修改损失函数——通过将正例和未标记样本的损失重新赋权，使得在未标记集上的期望损失等于全监督下的期望损失，从而实现无偏训练。它不显式估计混合比例，而是依赖于某种形式的均匀标记假设（SCAR），或额外需要已知的类先验。
线索 B：两步法 / 先正后负方法（Lee & Liu, 2003; Li et al., 2011; Wang et al., 2020）。这一簇的策略是先从未标记集中提取一组“可靠负例”（通常通过阈值化或密度估计），然后用标准分类器在“标记正例 + 可靠负例”上训练。它不依赖完整的 SCAR 假设，但在极端不平衡下第一阶段的可靠性极低。
线索 C：贝叶斯和非参数方法（本文主体；Miao et al., 2017 作为方法对比用的基线——非贝叶斯混合模型）。这一簇尝试将 PU 问题转化为一类混合分布：观测数据来自正类（已标记 + 未标记）和负类的混合，PU 学习即推断混合成分及每个样本的归属概率。贝叶斯版本的优点是能通过先验自然地编码“正类占比很小”这一先验知识，并给出的不确定性区间。

这个方向在追问的核心问题¶

识别性问题：在仅有正例被部分标记、未标记集混合了正负的情况下，在不做 SCAR 假设时，后验类别概率是否唯一可识别？ 如果仅有正例比例 π 和特征分布 P(x) 可被观测，能否无歧义地分解为正类分布和负类分布？
不平衡下算法稳定性和偏差：当 π 小到 0.01–0.03 时，绝大多数基于经验风险最小化的 PU 方法会把几乎所有样本预测为负类。是否存在一种估计器，其有限样本下的偏差和方差受 π 的控制程度是可证明的？
计算效率 vs. 统计效率：在数十万到百万条 EHR 记录上，贝叶斯后验采样（尤其混合模型）的高计算负担如何被缓解？共识蒙特卡洛等分布式策略的近似误差与被逼近的后验之间的差距，目前缺少理论刻画。
外部验证与泛化：PU 模型在不同医院/不同地区的 EHR 上是否仍然保持估计的患病率和分类性能？目前的几乎所有现有方法只在一个医院系统（Cerner）上验证过。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“… existing PU learning algorithms (such as PNPU and bagging-based methods) perform poorly under extreme class imbalance … our Bayesian finite mixture model naturally handles the label ambiguity by modeling the unknown labels as latent variables.” 作者认为——这是《应用统计年鉴》论文的专属叙事——这篇论文的“显然的下一步”是将已有 PU 算法从启发式或风险重赋框架升级到一个完全模型化、自带不确定性度量的贝叶斯框架，并借助共识 Monte Carlo 解决计算瓶颈。

什么明显该被引/该存在、却没出现在 intro 里？ - 没有引用任何关于深度 PU 学习（如基于神经网络的 nnPU 或 Self-PU）方面近年的工作（比如最近五年在高维图像/文本上的 PU 学习），这些工作虽然主要针对高维特征，但构成了 PU 领域的主流。作者似乎刻意回避了这些竞争路线，以便强调“我们的贝叶斯混合模型在高维（如特征空间 p=数十）的临床预测中同样简洁有效”。 - 没有引用任何关于 PU 学习中的有限样本统计理论（如 minimax rate for estimating π under SCAR）。这很可能是因为作者是应用统计学者，而不是理论家——他们更关心估计结果与文献患病率一致，而非建立可证明的界。

张力¶

未见明显对立引用。文献中对不平衡 PU 方法的批评几乎一致：大部分现有方法在不平衡下负类支配结果。作者提出的贝叶斯框架是一个不同于主流的解法（模型驱动而非损失函数驱动），而非与已有理论矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- X：特征向量（如实验室测量指标），观测到所有样本（已标记和未标记）。
- Y ∈ {0,1}：患者真实的患病状态（0=健康/负类，1=患病/正类）。这是潜变量——大多数患者无法观测到。
- S ∈ {0,1}：是否被记录为确诊（即记录中是否有一个为该疾病的 ICD 编码）。S=1 意味着 Y=1（确诊必然患病），但 S=0 既可能 Y=0（真健康）也可能 Y=1（患病但未确诊）。这是可观测的标签。
- π = P(Y=1)：真实患病率（目标的参数），极小（如 0.03 即 3%）。
- θ, φ：正类分布和负类分布的参数（如在混合模型中为正类和负类的高斯均值/协方差）。
- K：混合成分个数（本文取 2，即正类和负类各一个高斯成分，或者也可多个成分建模更复杂的类内结构）。
- n：总样本量。n_1：标记正例数；n_0：未标记（S=0）样本数。
模型：本文假设观测数据由两成分有限高斯混合模型 生成：

X | Y=1 ~ N(μ_pos, Σ_pos)，X | Y=0 ~ N(μ_neg, Σ_neg)

但 Y 是不可观测的，我们只观察到 S（标记状态）。PU 机制假定满足非随机但一致的标记过程（选定的完全随机，SCAR）：标记的 n_1 个正例来自于正类总体的一个随机子样本，即 P(S=1 | Y=1, X) = c（常数，不依赖于 X），而 P(S=1 | Y=0) = 0。但本文没有显式依赖 SCAR 来构建方法（采用了完全模型化的贝叶斯框架，允许标签歧义由后验自动处理）。
可观测数据：
- 研究者实际观测到的是 {(X_i, S_i)}_{i=1}^n，其中当 S_i=1 时确定 Y_i=1，当 S_i=0 时 Y_i 未知。
- 想要但观测不到的是：所有未标记患者的真实状态 Y_i（这是要推断的潜在变量），以及全局患病率 π（目标参数）。由于 S=0 的集合同时包含真正的负例和未被标记的正例，且前者的比例远大于后者，因此想要在无额外假设下识别 π 本质上不可行——模型的“可识别性”要依靠假设正类和负类的分布差异（通常由高斯混合模型的分离程度保证）。

第二步：讲最小内核¶

最简特例（去掉几乎所有非本质具体设——保留核心困难即可）

考虑单变量高斯混合（d=1）：

X | Y=1 ~ N(μ₁, σ₁²)，X | Y=0 ~ N(μ₀, σ₀²)。
可观测到的数据：一个“标记正例”集（大小 n₁）：{x_i | s_i=1}，和一个“未标记”集（大小 n₀）：{x_i | s_i=0}。
目标：估计 \(\pi = P(Y=1)\)（患病率），以及每一个未标记 x_j 对应的后验概率 \(P(Y_j=1 | x_j, \text{data})\)。
困难：当我们使用标准的两成分高斯混合模型且试图直接对 (x_i, s_i=0) 建模时，因为只有正类的很小部分被标出（比如只有 3% 的正例被标为 s=1），混合比例的估计 会严重偏离真值——如果直接做 EM 或 MCMC，模型很容易将所有未标记样本全部分配给方差更大的那个成分（通常负类方差更大），于是估计出的 π 会近乎 0，完全无法恢复 25% 的真实患病率。

本文的关键想法（在这个最小例子下）： 1. 显式利用“只有正例可以被标记”这一先验信息：在贝叶斯框架中，引入 Y 作为潜在变量，并设定一个带先验的正类比例 π ~ Beta(a, b)，其中 a 远小于 b（如 a=1, b=50），编码了“患病率很小”的先验知识。 2. 通过数据增广（data augmentation），使 MCMC 在每个迭代中既能用标记正例的高斯参数来约束 μ₁, σ₁²，又允许从未标记数据中抽取 Y 的后验值，再基于更新的 Y 重新估计 π。 3. 标签交换（label switching）的解决：在标准混合模型中，后验分布在高斯成分的置换下是对称的，因此 MCMC 链可能在正类和负类之间“切换”标签。对于不平衡数据，标记正例很少，这种切换会造成灾难——多数迭代把负类当成正类。本文的解决：基于固定标记正例和极小的 π 先验，使得只有一个成分（即由标记正例强约束的那个）可以被 Y_i=1 的高概率后验采样支持，从而打破对称性。

这个最小内核唯一的数学困难是：当两个类在特征空间高度重叠且正例比例极小时，后验的识别性变弱。本文的贝叶斯框架通过先验的偏向性（π很小且标记正例很少的事实）提供微弱但有价值的信息，这只是渐进拉近了识别性，而非完全保证。真正的实用力量在于模拟和真实 EHR 数据的验证：当类重心分离度足够大（这在 DR 实验室指标中是成立的——比如糖化血红蛋白 HbA1c 在患者中远高于正常人），即使在 π=0.03 左右，贝叶斯混合模型也能恢复出显著的类分离。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：面对电子健康记录中因确诊检查未完成造成的正例-未标记、且正例比例极端不平衡（仅约3%） 的分类问题——既有如何估计真实患病率，也有如何分类未标记患者。
核心工具/方法：开发了一个基于贝叶斯有限混合模型（高斯混合）的方法，将未标记患者的真实患病状态作为潜在变量放入 MCMC 采样，采用共识蒙特卡洛（consensus Monte Carlo）在子数据集上并行化后验采样后合并，并专门为不平衡 PU 情形设计了标签交换识别策略。
主要结论：在模拟中，本文方法在 AUC 和 F1-score 上优于现有 PU 算法（PNPU、Bagging-PU 等）和小样本回归方法；在 Cerner EHR 数据库的糖尿病视网膜病变（DR）检测中，仅用 3% 的确认诊断编码（约 4000 个确诊病例在 13.5 万条记录中）估计出实际患病率为 25%，与医学文献报告一致；该方法可以揭示 DR 的关键风险因子（如年龄、HbA1c、血压、BMI）。

关键设定与假设¶

在第二节最小记号基础上补全完整设定：

PU 设定：已标记样本（S=1）全部来自正类（患病），但非全部正类——未标记集（S=0）包含未确诊正例和真正负例。没有一个负例被标记为正例（标记无假正）。
类先验知识：并不假设已知π，但使用的先验分布 π ~ Beta(a, b) 编码了“π 很小”的信息。作者声称这是一种弱先验，不严重依赖先验准确性。
高斯混合假设：正类和负类分别由一个或多个高斯成分建模。在应用部分，DR 特征（HbA1c, 血压等）通过 Box-Cox 变换后近似满足多元正态性。
独立同分布抽样：假设每个患者记录是独立地从由真实患病状态驱动的分布中抽样。
无额外的标记偏差：没有假设标记与否与特征值有关（即默认在正类内部标记是随机的），但模型未依赖 SCAR 的精确形式——潜在变量的贝叶斯更新自动允许特征相关标记，但模拟仅测试了 SCAR。
相比已有文献的放松/强化：相比两步法（如 Lee & Liu, 2003），本文方法不需要人工设计“可靠负例”阶段；相比 PNPU 等风险重赋方法，本文不需要额外估计或假设已知的类先验——先验由 Beta 分布编码，由 MCMC 后验迁移。但在计算更昂贵（需马尔可夫链收敛）这一代价是明显的放松。

主要结果¶

分类性能（模拟部分，核心量化结论——具体数字来自全文）：
- π=0.03（极端稀疏）时，本文贝叶斯方法的平均 AUC = 0.82–0.85（取决于特征分离度），而 PNPU 的 AUC = 0.55–0.60（接近随机）、Bagging-PU 的 AUC = 0.61–0.65。
- F1-score（正类）：贝叶斯方法 0.71–0.79；PNPU < 0.20。改进主要是召回率的巨大提升（平均召回率 0.85 vs. PNPU 的 0.12）。
标签识别：提出的“基于最小 p( Y=1 | 所有数据 ) 的正类归属排序”解决了传统贝叶斯混合模型中标签交换问题。模拟显示：在 π=0.03 时，95%以上未被交换颠倒数 5%以内。
患病率估计（真实数据）：
- 在 Cerner EHR（约 135,000 条就诊记录，仅 4,026 个确诊 DR ICD 编码）上，本文模型估计的患病率 = 25.1%（95%可信区间，20.3%–30.2%），而仅使用确诊编码时的表面患病率 = 3.0%。医学文献报告的 DR 患病率在糖尿病患者中约 28–30%——所以文章声称接近。
标签交换解决策略 vs. 传统方法：作者提出的“基于固定标记正例类一定是最小而不是最大p( Y=1 )”的规则，有效避免了高维混合模型中因不平衡而导致的标签颠倒。模拟中，在 π=0.03 时，传统顺序约束（如按成分均值排序）失败率 40%，新规则失败率 < 2%。

证明路线与技术技巧（本文为应用型论文，但贝叶斯推导和标签交换问题仍有技术深度）¶

整体路线（建模—MCMC—后处理）： 1. 模型构建：给定 K 个高斯成分（本文主要取 K=2 对应正负、K=3 对正类内部进一步细分），完整贝叶斯模型：成分权重 w~Dir(α_1,...,α_K)，均值 μ~N(μ0, Σ0)，协方差 Σ~Inv-Wishart(Ψ, ν)。标记信息 "S=1 时 Y=1" 作为确定性约束引入似然。 2. 后验推导：采用 Gibbs 采样——交替更新成分分配 Z_i（每个样本属于哪个成分）、成分参数、全局比例 π。当 S=0 时，Z_i 的后验概率 P(Z_i=k | 所有其他参数) 根据成分的在x_i上的密度与成分权重的乘积归一化得到。这就是数据增广的标准做法，没有新技巧。 3. 标签交换识别（关键工程创新）： - 传统的解决标签交换的方法（如基于成分均值的排序约束）在不平衡 PU 下失效，因为多数迭代中均值最小的成分并非正类（正类往往有较高均值——比如 HbA1c 值在患者中平均更高）。 - 本文新规则：在每一 MCMC 迭代中，计算每个成分“包含至少一个被标记正例（S=1 的样本）”的比例，并将“包含最多被标记正例的成分”强制认定为“正类”。这一规则利用了标记正例数量很少（n₁=4026 → 占样本 3%）但仍是正类唯一正确来源的事实。它在数学上等价于：仅在 S=1 样本的后验分配中取众数成分作为正类。由于协方差矩阵的差异（正类可能在某个特征轴上更分散），这比按均值排序更稳定。 4. 共识蒙特卡洛（consensus Monte Carlo）：将数据平均分割为 10 个子集，每个子集上独立运行 MCMC（各 10,000 次迭代+5000 次 burn-in），然后将子集后验样本按“加权平均”方法（每个子集的后验均值和协方差的线性组合）合并成全局后验近似。这是标准的分布式贝叶斯方法，而非本文原创——作者直接应用了 Scott et al. (2016) 提出的共识 MC。

关键跳跃点：其实就是标签交换被解决的工程命题。难点在于：当 π 很小（=0.03）且特征有重叠时，即便已知某些样本确认为正类（S=1），在 Gibbs 采样过程中它们仍有可能在一部分迭代中被分配给负类成分（因为未标记数据中的负类似乎也是那个成分的很好候选）。本文的解决：在对每个样本的类别归属做后验边缘化前，先将每个成分中 S=1 样本的比例纳入考虑，并让该比例作为一个天然锚点，将正类锁定在正确成分上。这不是严格的推导，而是一个经验性后处理策略。

技术技巧点名： - 贝叶斯有限混合模型（finite mixture model） —— 用 Dirichlet 先验对成分权重建模。 - 共轭先验（Normal–Inverse-Wishart）—— 使得 Gibbs 采样中的条件分布可解析更新，无需 Metropolis-Hastings。 - 基于最小 p(Y=1) 的排序法则 —— 处理标签交换的启发式规则。 - 共识 Monte Carlo（consensus Monte Carlo） —— 分布式后验近似，降低完整 MCMC 的内存和收敛负担。 - Box-Cox 变换并标准化 —— 数据预处理（并非本文方法的一部分，而是使数据适用于高斯混合的惯例）。

真实例子与应用¶

用的什么数据/场景：Cerner Health Facts 数据库（一个大型匿名电子健康记录数据库）。从中提取了 ≥18 岁的糖尿病患者的记录（通过 ICD-9/10 糖尿病编码），约 135,000 例就诊记录，其中 4,026 例（≈3%）有 DR 确诊编码。特征：年龄、HbA1c（糖化血红蛋白）、SBP（收缩压）、DBP（舒张压）、BMI、糖尿病病程等共 11 维。在本文建模前，特征通过 Box-Cox 标准化至单位方差、去除极端值。
怎么把本文方法用上去：将全部数据建模为一个多变量高斯混合模型，K=2（正类 vs. 负类），MCMC 采样 20,000 次迭代 + 5,000 burn-in，共 4 条链。使用 consensus Monte Carlo 在 10 个子集上并行。无验证集——因为未标记集的真实标签不存在，只能通过“估计患病率与文献一致”来外部验证。
得到什么结果：估计患病率：
- 本文方法：25.1% [20.3%–30.2%]
- 仅用确诊编码：3.0%
- 文献参考（CDC 及多项大规模筛查研究）：23–35%（对糖尿病视网膜病变似患病率）。这个结果是对模型的主要验证。
- 风险因子排序：最高后验均值：年龄（55+岁）、HbA1c（>7.0%）、SBP（>140 mmHg）、DBP（>90 mmHg）、糖尿病病程（>10年）。这与临床知识一致，给结果增加了表面效度。
这个例子想说明什么：传递的核心信息是——一个仅依赖实验室测量和人口统计特征的无监督贝叶斯混合模型，即使只有 3% 的确认诊断作为种子，也可以在正确保留不确定性度量的情况下，推断出与权威文献一致的患病率估计和风险因子概要。从而使方法具有实际可用性：医院只需用已有的少量确诊编码和大量常规检验结果，就可以对未检查的患者分层（例如对模型推断的患病概率高的人，定向推动眼科检查）。

🔎 结论是否比证明窄¶

主要窄化之处：“与医学文献报告的一致（25% vs 28–30%）” 在文中被称为“real-world validation”，但在数据层面，Cerner 的样本并非随机抽取，且 DR 患病率在不同国家/地区差异巨大。作者并没有检验方法在另一个医疗系统（或不同地区）上的泛化性。因此，结论“方法可以准确估计患病率”仅在 Cerner 这个特定数据库、针对特定疾病的例子上得到支持，并非一般性声明。
标签交换策略在理论上没有被严格证明：文中只给出模拟和可视化证据，没有渐近理论或有限样本界证明这种策略在极低 π 时依然保证无偏后验。作者的主要精力在应用而非定理证明。因此，论文的结论（在真实数据上方法有效）比证明（标签交换策略的理论保证）宽——这也是大部分《应用统计年鉴》论文的特征。
共识 MC 的近似误差未被理论量化：文章提到“We adopt the consensus Monte Carlo approach to handle the computation burden”，但从未量化该近似后验与真实全数据后验之间的 KL 散度或任何误差界。真实例子中，也没有展示共识后验与完整 MCMC 后验的差异。所以结论（结果的一致性）可能部分来自巧合而非方法严格保证。

四、开放问题（点到为止，扎根具体语句）¶

更严格的 PU 标签交换理论分析：本文的标签交换解决策略纯属启发式（3.3 节：“Our labeling rule: rank components by the proportion of labeled positives they contain …”）。能否在极小 π 且特征重叠严重时给出保证此规则不造成正负交换的概率上界？这是可以明确定义的命题（扎根于 3.3 节最后一句话），且与研究者对高维统计和非参数理论很熟悉的技能匹配。但需要全贝叶斯记号下的精细概率分析，挑战在於：这是非参数混合模型——没有直接的先验概率边界。
不等协方差矩阵的等高线次优性：模型假设正类和负类各自服从共同的高斯协方差结构（高斯混合成分可为均一或不同协方差，但在本文应用中是两个完整的多元高斯，且通过共轭先验估出协方差）。在真实 DR 数据中，正例特征（如 HbA1c）的方差可能大于或小于负例——这种不等方差导致的成分重叠如何被贝叶斯处理？作者在支持材料中做了方差是否同质的检验（Bayesian LRT），但没有在 PU 不完整标签下检验方差不等时模型识别的稳健性。扎根于 4.2 节：“Without additional assumptions, our model cannot guarantee identifiability if the two classes have very similar mean vectors.” 但若方差也无差异呢？（这是开放问题——在方差比亦相近时，混合模型是否能识别？）
共识 MC 的统计效率损失与通信成本权衡：10 个子集的共识 MC 的近似误差在真实数据上未曾量化，但原文写道“We believe 10 subsets is sufficient …”（第 31 页）。在 EHR 规模（n=135k）上，多少子集是“足够”的？给定共识 MC 的近似偏差（通常表现为低估方差），它对患病率区间的覆盖频率有何影响？这是一个可计算的问题——可以通过模拟（已知真实π）系统地改变子集数量，评估区间覆盖率。扎根于 3.4 节。
PU 识别与因果推断中的“阴性对照”的连接：在因果推断中，阴性对照（negative controls）常用于检测未测量的混杂。在 PU 问题中，是否可以将已知的“确定未患病”样本（如非糖尿病患者的 HbA1c 正常范围记录） 视为一种负对照，来检测 SCAR 假设的偏离或改善识别性？这是一个跨领域连接的想法——扎根于 5 节 future work：“Extension to incorporate additional known negative cases …”。与研究者对因果推断的熟悉程度直接对应，值得深挖。

Maintained by 陈星宇 · Homepage · Source on GitHub