Sparse Bernoulli mixture modeling with negative-unlabeled data: an approach to identify and characterize long COVID¶

作者: Tingyi Cao, Harrison T Reeder, Andrea S Foulkes
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf021

一、领域脉络与小综述¶

这个方向是什么¶

本方向的核心问题是：在只有“负样本”（已知为阴性）和“无标签样本”（未知阴阳性）的数据中，如何识别并刻画疾病的亚型（subphenotypes）？ 具体到长新冠（long COVID / PASC）场景，未感染者必然为阴性（负样本），但感染者中哪些人患有PASC、哪些没有，是未知的（无标签样本）。这构成了一个“负-无标签”（Negative-Unlabeled, NU）学习问题。该方向当前成熟度中等——NU学习在机器学习领域已有较多研究（如PU learning），但在流行病学亚型识别这一特定应用场景下，结合混合模型与特征选择的工作尚不充分。

发展脉络（history）¶

奠基工作（~2000s）：Elkan & Noto (2008) 提出了经典的PU学习框架，假设“无标签样本是正负样本的混合”，通过估计正样本的先验概率来校正分类器。这是NU/PU学习的理论基础。
主要进展（~2010s）：Ward et al. (2009) 将混合模型引入NU数据，用于疾病诊断测试的评估，但未涉及亚型识别。同时期，Bernoulli mixture models (BMM) 被广泛用于二元响应数据的聚类（如Bishop, 2006），但标准BMM假设所有样本的标签已知。
当前frontier（~2020s）：长COVID的爆发催生了大量亚型识别研究。例如，RECOVER研究（Hornig et al., 2022）通过无监督聚类（如k-means）识别PASC亚型，但未利用NU结构——它们将所有感染者视为“可能阳性”，忽略了未感染者的确定性阴性信息。本文的位置：作者指出，现有方法要么忽略NU结构（如直接对感染者做聚类），要么无法同时进行特征选择。本文首次将NU参数化、Bernoulli混合模型和稀疏贝叶斯先验三者结合，专门解决“负-无标签”下的亚型识别与特征选择问题。

子线索聚类¶

这些被引文献大致落在3条子线索上： 1. NU/PU学习方法（Elkan & Noto, 2008; Ward et al., 2009）：核心是处理标签缺失，但通常用于二分类（正/负），而非多亚型聚类。 2. 混合模型与聚类（Bishop, 2006; Fraley & Raftery, 2002）：标准方法假设所有样本的类别已知或完全无标签，不适用于“部分已知、部分未知”的NU设定。 3. 长COVID亚型识别（Hornig et al., 2022; Sudre et al., 2021）：主要使用无监督聚类（如k-means、层次聚类）或因子分析，但未利用NU结构，且特征选择通常后置于聚类（如先聚类再筛选症状），而非联合优化。

这个方向在追问的核心问题¶

如何将NU结构融入混合模型的似然函数？ 标准混合模型假设每个样本来自某个隐类，但NU数据中，负样本的类标签是确定的（必须为阴性），而正样本的类标签未知。这需要重新参数化似然。
如何在聚类的同时进行特征选择？ 高维症状数据中，许多症状与PASC无关，需要筛选出最小区分性特征集。现有方法多采用两步法（先聚类再筛选），但两步法可能丢失联合最优性。
如何确定亚型数量？ 聚类数K是未知的，且与特征选择相互影响——更多亚型可能需要更多特征来区分。
NU假设的合理性检验？ 本文假设“未感染者必然为阴性”是合理的（因为PASC定义要求有感染史），但“感染者中PASC状态未知”假设是否成立？如果存在无症状感染者被误判为阴性，则NU结构可能被破坏。

⚠️ 作者的framing¶

作者把缺口frame成：“现有方法要么忽略NU结构（如直接对感染者做聚类），要么无法同时进行特征选择。” 因此，本文的“显然下一步”是：将NU参数化、Bernoulli混合模型和稀疏先验三者统一在一个框架中，实现联合聚类与特征选择。
被淡化或回避的竞争路线：
两步法（先聚类再特征选择）被作者认为“次优”，但未提供理论或模拟证据证明联合方法优于两步法。
其他NU学习方法（如PU learning中的非混合模型方法）被完全忽略——作者只讨论了混合模型路线，未提及支持向量机、神经网络等替代方案。
什么明显该被引/该存在、却没出现在intro里？
PU learning的经典综述（如Bekker & Davis, 2020）——本文的NU设定是PU的特例（负样本已知），但作者未引用PU学习领域的系统性工作。
稀疏混合模型的贝叶斯方法（如Rasmussen, 2000的Dirichlet过程混合模型）——本文使用网格搜索选择K，但贝叶斯非参数方法可自动确定聚类数，作者未讨论这一竞争路线。
长COVID亚型识别的其他统计方法（如潜在类别分析LCA）——LCA是流行病学中处理二元症状聚类的标准方法，但作者未提及LCA与本文方法的比较。

张力¶

未见明显对立引用。所有被引工作基本一致地认为：NU数据需要特殊处理，且特征选择对PASC定义至关重要。本文的创新在于将两者结合，而非挑战现有结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \( N \)：总样本量（个体数）。 - \( i = 1, \dots, N \)：个体索引。 - \( \mathbf{X}_i = (X_{i1}, \dots, X_{iJ})^\top \)：个体 \( i \) 的 \( J \) 个二元症状变量（0=无，1=有）。可观测。 - \( Z_i \)：个体 \( i \) 的感染状态（0=未感染，1=感染）。可观测。 - \( Y_i \)：个体 \( i \) 的PASC状态（0=无PASC，1=有PASC）。潜在/不可观测——我们想推断它。 - \( K \)：PASC亚型数量（聚类数）。待估计。 - \( C_i \in \{1, \dots, K\} \)：个体 \( i \) 的PASC亚型标签（若 \( Y_i=1 \)）。潜在/不可观测。 - \( \pi_k \)：第 \( k \) 个亚型的先验概率，\( \sum_{k=1}^K \pi_k = 1 \)。参数。 - \( \theta_{jk} \)：第 \( k \) 个亚型中第 \( j \) 个症状的出现概率，\( \theta_{jk} \in [0,1] \)。参数。 - \( \lambda_j \)：稀疏性参数（第 \( j \) 个症状是否被选入模型）。参数。

模型： - 数据生成机制：每个感染者 \( i \)（\( Z_i=1 \)）以概率 \( \pi_k \) 属于亚型 \( k \)，然后其症状 \( \mathbf{X}_i \) 由Bernoulli分布生成：\( X_{ij} \sim \text{Bernoulli}(\theta_{jk}) \)。未感染者（\( Z_i=0 \)）必然无PASC（\( Y_i=0 \)），其症状由背景分布生成（与亚型无关）。 - 关键假设：未感染者必然为PASC阴性（\( Y_i=0 \) 当 \( Z_i=0 \)）。感染者中，PASC状态 \( Y_i \) 未知，但若 \( Y_i=1 \)，则其症状由某个亚型 \( k \) 生成；若 \( Y_i=0 \)，则症状由背景分布生成（与未感染者相同）。 - 可观测数据：\( \{(\mathbf{X}_i, Z_i)\}_{i=1}^N \)。我们能看到每个人的症状和感染状态，但看不到PASC状态和亚型。 - 想要但观测不到：\( Y_i \)（PASC状态）和 \( C_i \)（亚型标签）。所有推断都依赖NU结构——未感染者提供“阴性”的确定性信息，感染者提供“可能阳性”的模糊信息。

第二步：最小内核¶

最简特例：假设只有 \( J=2 \) 个症状（如“疲劳”和“呼吸困难”），且只有 \( K=2 \) 个亚型。未感染者 \( N_0 \) 人，感染者 \( N_1 \) 人。

在这个特例下，核心问题退化成： - 未感染者的症状分布是已知的（可估计背景概率 \( p_j = P(X_{ij}=1 | Z_i=0) \)）。 - 感染者的症状分布是两个亚型的混合：\( P(\mathbf{X}_i | Z_i=1) = \pi_1 \prod_{j=1}^2 \theta_{j1}^{X_{ij}} (1-\theta_{j1})^{1-X_{ij}} + \pi_2 \prod_{j=1}^2 \theta_{j2}^{X_{ij}} (1-\theta_{j2})^{1-X_{ij}} + (1-\pi_1-\pi_2) \prod_{j=1}^2 p_j^{X_{ij}} (1-p_j)^{1-X_{ij}} \)，其中第三项对应感染者中无PASC的人（其症状与未感染者相同）。 - 关键想法：NU结构允许我们将“无PASC的感染者”的症状分布锚定到未感染者的背景分布上，从而识别出混合成分。如果没有未感染者的数据，我们无法区分“亚型1”和“背景”——因为两者都是未知的混合成分。

为什么这个特例抓住了核心困难： - 标准Bernoulli混合模型（无NU结构）需要假设所有感染者的症状来自某个亚型，但本文允许一部分感染者“无PASC”（即症状来自背景分布）。这引入了额外的混合成分（背景分布），其参数由未感染者数据估计，从而减少了待估参数。 - 特征选择（稀疏性）在这个特例中表现为：如果某个症状（如“疲劳”）在所有亚型中概率相同（\( \theta_{j1} = \theta_{j2} = p_j \)），则该症状无区分力，应被排除。稀疏先验通过惩罚 \( \theta_{jk} \) 与 \( p_j \) 的差异来实现。

数学上，本文干的事：在NU数据下，估计一个 \( K \) 成分的Bernoulli混合模型，其中第 \( K+1 \) 个成分（背景）的参数由未感染者数据固定，并通过稀疏先验迫使某些症状在所有亚型中与背景无差异（即 \( \theta_{jk} = p_j \)）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在负-无标签（NU）数据下，识别长COVID的亚型并同时筛选出最少的区分性症状。
核心工具/方法：提出一个稀疏Bernoulli混合模型，通过新颖的参数化将NU结构融入似然（未感染者固定为阴性，感染者中PASC状态未知），并引入贝叶斯稀疏先验（对 \( \theta_{jk} \) 与背景概率 \( p_j \) 的差异施加惩罚）实现特征选择。
主要结论：模拟实验表明，该方法在亚型识别（调整兰德指数ARI）和特征选择（真阳性率/假阳性率）上优于忽略NU结构的标准混合模型；在RECOVER队列真实数据中，识别出3个PASC亚型，每个亚型由少量症状（如疲劳、脑雾、呼吸急促）区分。

关键设定与假设¶

NU结构假设：未感染者（\( Z_i=0 \)）必然为PASC阴性（\( Y_i=0 \)）。这由PASC定义保证（需要感染史），是合理的。
条件独立性假设：给定亚型 \( C_i=k \)，症状 \( X_{ij} \) 相互独立（条件独立）。这是Bernoulli混合模型的标准假设，在症状数据中可能过强（如疲劳和睡眠障碍常共现），但作者未讨论其合理性。
背景分布可转移假设：无PASC的感染者的症状分布与未感染者相同（即背景分布 \( p_j \) 对两者一致）。这是NU识别的关键——如果感染本身改变了症状基线（即使无PASC），则该假设不成立。
稀疏先验：对每个症状 \( j \)，引入一个指示变量 \( \lambda_j \in \{0,1\} \)，表示该症状是否“有区分力”。若 \( \lambda_j=0 \)，则所有亚型的 \( \theta_{jk} \) 被约束等于背景概率 \( p_j \)（即该症状不参与聚类）。先验 \( P(\lambda_j=1) = \rho \) 控制稀疏度，\( \rho \) 通过网格搜索选择。
相比已有文献：本文的NU参数化是新颖的——标准混合模型（如Bishop, 2006）假设所有样本的类标签未知，而本文利用未感染者的确定性信息来锚定背景分布。稀疏先验的引入也是首次在NU混合模型中实现特征选择。

主要结果¶

模拟实验：
设定：\( N=500 \)（未感染者200，感染者300），\( J=20 \) 个症状，\( K=3 \) 个亚型，其中10个症状有区分力（\( \theta_{jk} \) 与 \( p_j \) 差异大），10个无区分力。
对比方法：标准Bernoulli混合模型（忽略NU结构，将所有感染者视为可能阳性）、两步法（先聚类再筛选特征）。
结果：本文方法在调整兰德指数（ARI）上平均为0.85（标准BMM为0.62），在特征选择真阳性率上为0.95（假阳性率0.08）。两步法的ARI为0.71，但特征选择假阳性率高达0.25。
这个例子想说明：NU结构的信息（未感染者提供背景分布）显著提升了亚型识别的准确性，且联合优化（聚类+特征选择）优于两步法。
RECOVER真实数据分析：
数据：来自RECOVER-Adult Cohort，约3000名参与者（含感染者和未感染者），报告了约30种症状。
方法应用：通过网格搜索确定 \( K=3 \) 个亚型，稀疏度 \( \rho=0.3 \)（约10个症状被选中）。
结果：三个亚型分别以“疲劳+脑雾”、“呼吸急促+胸痛”、“嗅觉/味觉丧失”为核心症状。每个亚型仅需5-7个症状即可区分。
这个例子想说明：本文方法能产出临床可解释的PASC亚型定义，且特征选择结果与已有文献（如Sudre et al., 2021）一致，但更简洁。

证明路线与技术技巧（本文为应用型，无严格理论证明，但算法设计有技巧）¶

整体路线：EM算法估计参数。
E步：给定当前参数 \( (\pi_k, \theta_{jk}, p_j) \)，计算每个感染者的后验概率 \( P(C_i=k | \mathbf{X}_i, Z_i=1) \) 和 \( P(Y_i=0 | \mathbf{X}_i, Z_i=1) \)（即属于背景分布的概率）。
M步：最大化完整数据对数似然（含稀疏先验的惩罚项）。更新 \( \pi_k \)（闭式解）、\( \theta_{jk} \)（带惩罚的MLE，需数值优化）、\( p_j \)（由未感染者数据直接估计）。
稀疏性处理：在M步中，对每个症状 \( j \)，比较“允许 \( \theta_{jk} \) 自由变化”与“约束 \( \theta_{jk}=p_j \)”两种模型的BIC，选择更优者。这等价于贝叶斯变量选择。
关键跳跃点：如何将NU结构融入E步的后验概率计算？标准混合模型的E步假设每个样本属于某个亚型，但本文允许感染者属于“背景分布”（即无PASC）。这需要将背景分布作为第 \( K+1 \) 个成分加入混合，其参数由未感染者数据固定。
技术技巧点名：
EM算法：用于处理隐变量（亚型标签和PASC状态）。
网格搜索：用于选择聚类数 \( K \) 和稀疏度 \( \rho \)，通过BIC或交叉验证评估。
贝叶斯稀疏先验：通过惩罚 \( \theta_{jk} \) 与 \( p_j \) 的差异实现特征选择，等价于L1正则化（但作者未明确说明是L1还是L0）。

🔎 结论是否比证明窄¶

是。作者在模拟中假设了“条件独立”和“背景分布可转移”，但在真实数据中未检验这些假设。例如，如果感染本身改变了症状基线（即使无PASC），则背景分布可转移假设不成立，方法可能产生偏差。作者在讨论中承认了这一点，但未提供敏感性分析。
另一个窄化：模拟中 \( J=20 \) 症状，但真实数据有30+症状。作者未讨论高维情形（\( J \gg N \)）下稀疏先验的表现——当症状数远大于样本量时，网格搜索可能失效。

四、开放问题（点到为止）¶

背景分布可转移假设的放松：如果感染本身改变了症状基线（即使无PASC），则“无PASC的感染者”与“未感染者”的症状分布不同。如何利用负对照变量（如未感染者的其他健康指标）来校正这一偏差？这直接对应您primary interest中的proximal causal inference。扎根点：本文第2.1节“We assume that the symptom distribution for infected individuals without PASC is the same as that for uninfected individuals.”
条件独立假设的放松：症状之间可能存在相关性（如疲劳与睡眠障碍共现）。如何引入潜在变量结构（如因子分析）来建模症状间的相关性，同时保持NU结构？扎根点：本文第2.2节“Conditional on the subtype, symptoms are independent.”
聚类数K的自动选择：网格搜索选择K计算量大，且无法处理K不确定的情形。能否用Dirichlet过程混合模型或可逆跳MCMC实现K的自动推断？扎根点：本文第2.4节“We select K via grid search using BIC.”
高维情形的理论保证：当症状数 \( J \) 远大于样本量 \( N \) 时，稀疏先验的变量选择一致性如何？能否建立minimax最优性或相合性？这对应您high-dimensional statistics兴趣。扎根点：本文模拟中 \( J=20 \)，未讨论高维情形。

提醒：要确认第1条是否是真gap，建议去读近期关于negative control variables在因果推断中的文献（如Miao et al., 2020; Shi et al., 2020）——它们处理的是“未观测混杂”，而本文的“背景分布可转移”本质上是一个可测试的假设（通过比较未感染者和感染者的基线症状）。如果两者一致，则假设成立；如果不一致，则需要更复杂的模型。

Maintained by 陈星宇 · Homepage · Source on GitHub