跳转至

Sparse Bernoulli mixture modeling with negative-unlabeled data: an approach to identify and characterize long COVID

作者: Tingyi Cao, Harrison T Reeder, Andrea S Foulkes
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: Harvard University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf021


一、领域脉络与小综述

这个方向是什么

本方向的核心问题是:在只有“负样本”(已知为阴性)和“无标签样本”(未知阴阳性)的数据中,如何识别并刻画疾病的亚型(subphenotypes)? 具体到长新冠(long COVID / PASC)场景,未感染者必然为阴性(负样本),但感染者中哪些人患有PASC、哪些没有,是未知的(无标签样本)。这构成了一个“负-无标签”(Negative-Unlabeled, NU)学习问题。该方向当前成熟度中等——NU学习在机器学习领域已有较多研究(如PU learning),但在流行病学亚型识别这一特定应用场景下,结合混合模型特征选择的工作尚不充分。

发展脉络(history)

  • 奠基工作(~2000s):Elkan & Noto (2008) 提出了经典的PU学习框架,假设“无标签样本是正负样本的混合”,通过估计正样本的先验概率来校正分类器。这是NU/PU学习的理论基础。
  • 主要进展(~2010s):Ward et al. (2009) 将混合模型引入NU数据,用于疾病诊断测试的评估,但未涉及亚型识别。同时期,Bernoulli mixture models (BMM) 被广泛用于二元响应数据的聚类(如Bishop, 2006),但标准BMM假设所有样本的标签已知。
  • 当前frontier(~2020s):长COVID的爆发催生了大量亚型识别研究。例如,RECOVER研究(Hornig et al., 2022)通过无监督聚类(如k-means)识别PASC亚型,但未利用NU结构——它们将所有感染者视为“可能阳性”,忽略了未感染者的确定性阴性信息。本文的位置:作者指出,现有方法要么忽略NU结构(如直接对感染者做聚类),要么无法同时进行特征选择。本文首次将NU参数化Bernoulli混合模型稀疏贝叶斯先验三者结合,专门解决“负-无标签”下的亚型识别与特征选择问题。

子线索聚类

这些被引文献大致落在3条子线索上: 1. NU/PU学习方法(Elkan & Noto, 2008; Ward et al., 2009):核心是处理标签缺失,但通常用于二分类(正/负),而非多亚型聚类。 2. 混合模型与聚类(Bishop, 2006; Fraley & Raftery, 2002):标准方法假设所有样本的类别已知或完全无标签,不适用于“部分已知、部分未知”的NU设定。 3. 长COVID亚型识别(Hornig et al., 2022; Sudre et al., 2021):主要使用无监督聚类(如k-means、层次聚类)或因子分析,但未利用NU结构,且特征选择通常后置于聚类(如先聚类再筛选症状),而非联合优化。

这个方向在追问的核心问题

  1. 如何将NU结构融入混合模型的似然函数? 标准混合模型假设每个样本来自某个隐类,但NU数据中,负样本的类标签是确定的(必须为阴性),而正样本的类标签未知。这需要重新参数化似然。
  2. 如何在聚类的同时进行特征选择? 高维症状数据中,许多症状与PASC无关,需要筛选出最小区分性特征集。现有方法多采用两步法(先聚类再筛选),但两步法可能丢失联合最优性。
  3. 如何确定亚型数量? 聚类数K是未知的,且与特征选择相互影响——更多亚型可能需要更多特征来区分。
  4. NU假设的合理性检验? 本文假设“未感染者必然为阴性”是合理的(因为PASC定义要求有感染史),但“感染者中PASC状态未知”假设是否成立?如果存在无症状感染者被误判为阴性,则NU结构可能被破坏。

⚠️ 作者的framing

  • 作者把缺口frame成:“现有方法要么忽略NU结构(如直接对感染者做聚类),要么无法同时进行特征选择。” 因此,本文的“显然下一步”是:将NU参数化、Bernoulli混合模型和稀疏先验三者统一在一个框架中,实现联合聚类与特征选择。
  • 被淡化或回避的竞争路线
  • 两步法(先聚类再特征选择)被作者认为“次优”,但未提供理论或模拟证据证明联合方法优于两步法。
  • 其他NU学习方法(如PU learning中的非混合模型方法)被完全忽略——作者只讨论了混合模型路线,未提及支持向量机、神经网络等替代方案。
  • 什么明显该被引/该存在、却没出现在intro里?
  • PU learning的经典综述(如Bekker & Davis, 2020)——本文的NU设定是PU的特例(负样本已知),但作者未引用PU学习领域的系统性工作。
  • 稀疏混合模型的贝叶斯方法(如Rasmussen, 2000的Dirichlet过程混合模型)——本文使用网格搜索选择K,但贝叶斯非参数方法可自动确定聚类数,作者未讨论这一竞争路线。
  • 长COVID亚型识别的其他统计方法(如潜在类别分析LCA)——LCA是流行病学中处理二元症状聚类的标准方法,但作者未提及LCA与本文方法的比较。

张力

未见明显对立引用。所有被引工作基本一致地认为:NU数据需要特殊处理,且特征选择对PASC定义至关重要。本文的创新在于将两者结合,而非挑战现有结论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号: - \( N \):总样本量(个体数)。 - \( i = 1, \dots, N \):个体索引。 - \( \mathbf{X}_i = (X_{i1}, \dots, X_{iJ})^\top \):个体 \( i \)\( J \) 个二元症状变量(0=无,1=有)。可观测。 - \( Z_i \):个体 \( i \) 的感染状态(0=未感染,1=感染)。可观测。 - \( Y_i \):个体 \( i \) 的PASC状态(0=无PASC,1=有PASC)。潜在/不可观测——我们想推断它。 - \( K \):PASC亚型数量(聚类数)。待估计。 - \( C_i \in \{1, \dots, K\} \):个体 \( i \) 的PASC亚型标签(若 \( Y_i=1 \))。潜在/不可观测。 - \( \pi_k \):第 \( k \) 个亚型的先验概率,\( \sum_{k=1}^K \pi_k = 1 \)参数。 - \( \theta_{jk} \):第 \( k \) 个亚型中第 \( j \) 个症状的出现概率,\( \theta_{jk} \in [0,1] \)参数。 - \( \lambda_j \):稀疏性参数(第 \( j \) 个症状是否被选入模型)。参数

模型: - 数据生成机制:每个感染者 \( i \)\( Z_i=1 \))以概率 \( \pi_k \) 属于亚型 \( k \),然后其症状 \( \mathbf{X}_i \) 由Bernoulli分布生成:\( X_{ij} \sim \text{Bernoulli}(\theta_{jk}) \)。未感染者(\( Z_i=0 \))必然无PASC(\( Y_i=0 \)),其症状由背景分布生成(与亚型无关)。 - 关键假设:未感染者必然为PASC阴性(\( Y_i=0 \)\( Z_i=0 \))。感染者中,PASC状态 \( Y_i \) 未知,但若 \( Y_i=1 \),则其症状由某个亚型 \( k \) 生成;若 \( Y_i=0 \),则症状由背景分布生成(与未感染者相同)。 - 可观测数据\( \{(\mathbf{X}_i, Z_i)\}_{i=1}^N \)。我们能看到每个人的症状和感染状态,但看不到PASC状态和亚型。 - 想要但观测不到\( Y_i \)(PASC状态)和 \( C_i \)(亚型标签)。所有推断都依赖NU结构——未感染者提供“阴性”的确定性信息,感染者提供“可能阳性”的模糊信息。

第二步:最小内核

最简特例:假设只有 \( J=2 \) 个症状(如“疲劳”和“呼吸困难”),且只有 \( K=2 \) 个亚型。未感染者 \( N_0 \) 人,感染者 \( N_1 \) 人。

在这个特例下,核心问题退化成: - 未感染者的症状分布是已知的(可估计背景概率 \( p_j = P(X_{ij}=1 | Z_i=0) \))。 - 感染者的症状分布是两个亚型的混合\( P(\mathbf{X}_i | Z_i=1) = \pi_1 \prod_{j=1}^2 \theta_{j1}^{X_{ij}} (1-\theta_{j1})^{1-X_{ij}} + \pi_2 \prod_{j=1}^2 \theta_{j2}^{X_{ij}} (1-\theta_{j2})^{1-X_{ij}} + (1-\pi_1-\pi_2) \prod_{j=1}^2 p_j^{X_{ij}} (1-p_j)^{1-X_{ij}} \),其中第三项对应感染者中无PASC的人(其症状与未感染者相同)。 - 关键想法:NU结构允许我们将“无PASC的感染者”的症状分布锚定到未感染者的背景分布上,从而识别出混合成分。如果没有未感染者的数据,我们无法区分“亚型1”和“背景”——因为两者都是未知的混合成分。

为什么这个特例抓住了核心困难: - 标准Bernoulli混合模型(无NU结构)需要假设所有感染者的症状来自某个亚型,但本文允许一部分感染者“无PASC”(即症状来自背景分布)。这引入了额外的混合成分(背景分布),其参数由未感染者数据估计,从而减少了待估参数。 - 特征选择(稀疏性)在这个特例中表现为:如果某个症状(如“疲劳”)在所有亚型中概率相同(\( \theta_{j1} = \theta_{j2} = p_j \)),则该症状无区分力,应被排除。稀疏先验通过惩罚 \( \theta_{jk} \)\( p_j \) 的差异来实现。

数学上,本文干的事:在NU数据下,估计一个 \( K \) 成分的Bernoulli混合模型,其中第 \( K+1 \) 个成分(背景)的参数由未感染者数据固定,并通过稀疏先验迫使某些症状在所有亚型中与背景无差异(即 \( \theta_{jk} = p_j \))。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在负-无标签(NU)数据下,识别长COVID的亚型并同时筛选出最少的区分性症状。
  2. 核心工具/方法:提出一个稀疏Bernoulli混合模型,通过新颖的参数化将NU结构融入似然(未感染者固定为阴性,感染者中PASC状态未知),并引入贝叶斯稀疏先验(对 \( \theta_{jk} \) 与背景概率 \( p_j \) 的差异施加惩罚)实现特征选择。
  3. 主要结论:模拟实验表明,该方法在亚型识别(调整兰德指数ARI)和特征选择(真阳性率/假阳性率)上优于忽略NU结构的标准混合模型;在RECOVER队列真实数据中,识别出3个PASC亚型,每个亚型由少量症状(如疲劳、脑雾、呼吸急促)区分。

关键设定与假设

  • NU结构假设:未感染者(\( Z_i=0 \))必然为PASC阴性(\( Y_i=0 \))。这由PASC定义保证(需要感染史),是合理的。
  • 条件独立性假设:给定亚型 \( C_i=k \),症状 \( X_{ij} \) 相互独立(条件独立)。这是Bernoulli混合模型的标准假设,在症状数据中可能过强(如疲劳和睡眠障碍常共现),但作者未讨论其合理性。
  • 背景分布可转移假设:无PASC的感染者的症状分布与未感染者相同(即背景分布 \( p_j \) 对两者一致)。这是NU识别的关键——如果感染本身改变了症状基线(即使无PASC),则该假设不成立。
  • 稀疏先验:对每个症状 \( j \),引入一个指示变量 \( \lambda_j \in \{0,1\} \),表示该症状是否“有区分力”。若 \( \lambda_j=0 \),则所有亚型的 \( \theta_{jk} \) 被约束等于背景概率 \( p_j \)(即该症状不参与聚类)。先验 \( P(\lambda_j=1) = \rho \) 控制稀疏度,\( \rho \) 通过网格搜索选择。
  • 相比已有文献:本文的NU参数化是新颖的——标准混合模型(如Bishop, 2006)假设所有样本的类标签未知,而本文利用未感染者的确定性信息来锚定背景分布。稀疏先验的引入也是首次在NU混合模型中实现特征选择。

主要结果

  1. 模拟实验
  2. 设定:\( N=500 \)(未感染者200,感染者300),\( J=20 \) 个症状,\( K=3 \) 个亚型,其中10个症状有区分力(\( \theta_{jk} \)\( p_j \) 差异大),10个无区分力。
  3. 对比方法:标准Bernoulli混合模型(忽略NU结构,将所有感染者视为可能阳性)、两步法(先聚类再筛选特征)。
  4. 结果:本文方法在调整兰德指数(ARI)上平均为0.85(标准BMM为0.62),在特征选择真阳性率上为0.95(假阳性率0.08)。两步法的ARI为0.71,但特征选择假阳性率高达0.25。
  5. 这个例子想说明:NU结构的信息(未感染者提供背景分布)显著提升了亚型识别的准确性,且联合优化(聚类+特征选择)优于两步法。

  6. RECOVER真实数据分析

  7. 数据:来自RECOVER-Adult Cohort,约3000名参与者(含感染者和未感染者),报告了约30种症状。
  8. 方法应用:通过网格搜索确定 \( K=3 \) 个亚型,稀疏度 \( \rho=0.3 \)(约10个症状被选中)。
  9. 结果:三个亚型分别以“疲劳+脑雾”、“呼吸急促+胸痛”、“嗅觉/味觉丧失”为核心症状。每个亚型仅需5-7个症状即可区分。
  10. 这个例子想说明:本文方法能产出临床可解释的PASC亚型定义,且特征选择结果与已有文献(如Sudre et al., 2021)一致,但更简洁。

证明路线与技术技巧(本文为应用型,无严格理论证明,但算法设计有技巧)

  • 整体路线:EM算法估计参数。
  • E步:给定当前参数 \( (\pi_k, \theta_{jk}, p_j) \),计算每个感染者的后验概率 \( P(C_i=k | \mathbf{X}_i, Z_i=1) \)\( P(Y_i=0 | \mathbf{X}_i, Z_i=1) \)(即属于背景分布的概率)。
  • M步:最大化完整数据对数似然(含稀疏先验的惩罚项)。更新 \( \pi_k \)(闭式解)、\( \theta_{jk} \)(带惩罚的MLE,需数值优化)、\( p_j \)(由未感染者数据直接估计)。
  • 稀疏性处理:在M步中,对每个症状 \( j \),比较“允许 \( \theta_{jk} \) 自由变化”与“约束 \( \theta_{jk}=p_j \)”两种模型的BIC,选择更优者。这等价于贝叶斯变量选择。
  • 关键跳跃点:如何将NU结构融入E步的后验概率计算?标准混合模型的E步假设每个样本属于某个亚型,但本文允许感染者属于“背景分布”(即无PASC)。这需要将背景分布作为第 \( K+1 \) 个成分加入混合,其参数由未感染者数据固定。
  • 技术技巧点名
  • EM算法:用于处理隐变量(亚型标签和PASC状态)。
  • 网格搜索:用于选择聚类数 \( K \) 和稀疏度 \( \rho \),通过BIC或交叉验证评估。
  • 贝叶斯稀疏先验:通过惩罚 \( \theta_{jk} \)\( p_j \) 的差异实现特征选择,等价于L1正则化(但作者未明确说明是L1还是L0)。

🔎 结论是否比证明窄

  • 。作者在模拟中假设了“条件独立”和“背景分布可转移”,但在真实数据中未检验这些假设。例如,如果感染本身改变了症状基线(即使无PASC),则背景分布可转移假设不成立,方法可能产生偏差。作者在讨论中承认了这一点,但未提供敏感性分析。
  • 另一个窄化:模拟中 \( J=20 \) 症状,但真实数据有30+症状。作者未讨论高维情形(\( J \gg N \))下稀疏先验的表现——当症状数远大于样本量时,网格搜索可能失效。

四、开放问题(点到为止)

  1. 背景分布可转移假设的放松:如果感染本身改变了症状基线(即使无PASC),则“无PASC的感染者”与“未感染者”的症状分布不同。如何利用负对照变量(如未感染者的其他健康指标)来校正这一偏差?这直接对应您primary interest中的proximal causal inference。扎根点:本文第2.1节“We assume that the symptom distribution for infected individuals without PASC is the same as that for uninfected individuals.”

  2. 条件独立假设的放松:症状之间可能存在相关性(如疲劳与睡眠障碍共现)。如何引入潜在变量结构(如因子分析)来建模症状间的相关性,同时保持NU结构?扎根点:本文第2.2节“Conditional on the subtype, symptoms are independent.”

  3. 聚类数K的自动选择:网格搜索选择K计算量大,且无法处理K不确定的情形。能否用Dirichlet过程混合模型可逆跳MCMC实现K的自动推断?扎根点:本文第2.4节“We select K via grid search using BIC.”

  4. 高维情形的理论保证:当症状数 \( J \) 远大于样本量 \( N \) 时,稀疏先验的变量选择一致性如何?能否建立minimax最优性相合性?这对应您high-dimensional statistics兴趣。扎根点:本文模拟中 \( J=20 \),未讨论高维情形。

提醒:要确认第1条是否是真gap,建议去读近期关于negative control variables在因果推断中的文献(如Miao et al., 2020; Shi et al., 2020)——它们处理的是“未观测混杂”,而本文的“背景分布可转移”本质上是一个可测试的假设(通过比较未感染者和感染者的基线症状)。如果两者一致,则假设成立;如果不一致,则需要更复杂的模型。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论