Model-based clustering of multiple images incorporating covariates¶

作者: Ying Cui, Jeong Hoon Jang, Robert G Mannino, Amita K Manatunga
来源: Statistical Methods in Medical Research
主题: 流行病学
相关性: 2/10
机构绿灯: Emory University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251393631

一、领域脉络与小综述（基于摘要信息 + 通用背景推断，因无完整引言与引用列表，以下内容为基于公开知识的合理重构，需研究者自行核验）¶

这个方向是什么：多幅图像的无监督聚类一直是医学影像分析中的基础任务，但传统方法通常将每幅图像展平为高维向量（忽略空间结构）或提取手工特征（丢失细节），且难以在聚类成员分配中同时调整协变量（如拍摄条件、患者人口学特征）的影响。本文提出的方向是将每幅图像视为二维函数型数据（functional data），通过函数型潜类别混合模型（functional latent class mixed model）在聚类的同时纳入协变量，从而在低资源场景下实现基于手机照片的贫血风险亚组识别。
发展脉络（推断）：该领域的基础工作包括：
函数型数据分析（FDA）奠基：Ramsay & Silverman (2005) 建立了将曲线/曲面视为光滑函数进行分析的框架，但其早期应用多为一维曲线。
函数型聚类方法：James & Sugar (2003) 提出基于函数型主成分的聚类；Chiou & Li (2007) 提出函数型混合模型。这些方法未考虑协变量对簇归属的直接调整。
潜类别混合模型：Muthen & Muthen (2000) 在传统的潜类别分析中加入协变量以影响类别概率，但与函数型数据结合的工作少有。
近期应用：智能手机图像用于贫血筛查已有初步研究（如Mannino et al. 2018），但聚类时未系统处理协变量效应。本文的位置：首次将函数型潜类别混合模型直接用于二维图像聚类，并显式调整元数据（拍摄条件）对簇归属的影响。
子线索聚类（推断）：
函数型数据的降维与聚类：使用B样条基或功能主成分将图像投影到低维函数空间，再施以经典聚类算法（k-means、模型聚类）。文献多集中于一维曲线，对二维图像的空间相关性处理粗糙。
带协变量的潜类别模型：在传统潜类别分析中，协变量通过多分类Logistic回归影响类别先验概率。此类方法通常假设观测变量为标量或向量，未扩展到函数型响应。
医学图像无监督聚类在低资源筛查中的应用：以贫血、糖尿病视网膜病变等为目标，利用手机摄像头获取图像，但聚类结果往往受光照、角度等混杂因素干扰，缺少直接校正手段。
核心问题：
如何高效表示二维图像的空间结构并减少维数？
如何在聚类模型中纳入协变量以消除其混杂影响，从而得到更纯净的生物信号簇？
如何在样本量有限（低资源场景）时保证聚类稳定性和可解释性？当前主流方法要么忽略图像空间结构（展平），要么忽略协变量，本文试图同时解决这两个缺陷。
⚠️ 作者的 framing（基于摘要推断）：作者将缺口框架为“现有图像聚类方法未同时利用图像的空间结构并调整协变量效应，导致识别出的簇可能反映拍摄条件差异而非真实生物分型”。本文通过提出功能型潜类别混合模型，声称是“第一个”在图像聚类中同时处理这两个问题的。竞争路线（如直接使用深度学习CNN提取特征后再聚类）在摘要中未被提及；CNN方法可能因其样本量限制（低资源）或可解释性不足被淡化了。未见明显对立引用（因缺少引用列表，无法判断）。

二、最核心、最简单的例子 / 数学问题（基于模型结构推断）¶

第一步：符号、模型、可观测数据（基于摘要与通用功能数据分析框架）¶

符号：
每幅图像被表示为一个二维函数 \(X_i(s,t)\)，其中 \((s,t)\) 是像素坐标（连续化），\(i=1,\dots,n\) 为受试者。
\(Y_i\)：潜类别变量（unobserved），\(Y_i = k\) 表示第 \(i\) 个受试者属于第 \(k\) 个簇（\(k=1,\dots,K\)）。
\(Z_i\)：可观测协变量向量（如拍摄时环境光照强度、相机型号等图像元数据）。
\(\theta\)：模型参数，包括基函数系数、协变量对类别概率的回归系数、噪声方差等。
模型：假设给定 \(Y_i = k\) 和 \(Z_i\)，图像 \(X_i\) 来自一个函数型混合模型：
\[X_i(s,t) = \mu_k(s,t) + \alpha_k(s,t)^\top Z_i + \epsilon_i(s,t)\]
其中 \(\mu_k\) 是第 \(k\) 类平均图像曲面，\(\alpha_k\) 是协变量对图像的效应函数（允许因簇而异），\(\epsilon_i\) 为高斯过程噪声。\(Y_i\) 的分布为多分类Logistic模型：\(P(Y_i=k \mid Z_i) = \frac{\exp(\gamma_k^\top Z_i)}{\sum_{j=1}^K \exp(\gamma_j^\top Z_i)}\)。整个模型通过基函数展开（如B样条）将 \(\mu_k\)、\(\alpha_k\) 参数化为有限维系数。
可观测数据：研究者观测到的是 \(n\) 个受试者的图像强度矩阵（离散化采样）及其对应的协变量向量 \(Z_i\)。潜类别 \(Y_i\) 是不可观测的，需要借助模型识别。图像的高维性（例如每幅图像数千像素）通过函数型表示降维。

第二步：最小内核¶

考虑最简情况：\(K=2\)（两类），\(Z_i\) 为单个二元协变量（如“拍摄时闪光灯开/关”），且图像退化为一维函数 \(X_i(t)\)（例如沿指甲纵向的强度曲线）。此时模型为： - \(P(Y_i = 1 \mid Z_i) = \frac{e^{\gamma_1 Z_i}}{1+e^{\gamma_1 Z_i}}\)（设 \(\gamma_2=0\)）。 - \(X_i(t) = \mu_{Y_i}(t) + \alpha_{Y_i}(t) Z_i + \epsilon_i(t)\)，其中 \(\epsilon_i(t)\) 是均值为0的高斯过程。

该内核回答的核心问题：如何在已知 \(Z_i\) 影响曲线形状的情况下，仍能正确区分两组受试者（贫血 vs 非贫血）？如果直接聚类（忽略 \(Z_i\)），则闪光灯导致的颜色偏移可能将同一生物组的人分成两个簇。本文的关键想法是：通过潜类别模型同时估计曲线基底、协变量效应和类别概率，从而将 \(Z_i\) 的效应从类别差异中剥离，只保留与生物分组相关的形状差异。

在这个最简例子下，模型退化为一个带协变量的函数型混合模型，其似然函数可用EM算法最大化，数学难点在于函数型部分的无限维参数需要在有限基上截断且需光滑性惩罚。整个论文的一般性只是将此从一维推广到二维（通过张量积基），协变量从单个到向量，组数从2到K。

三、这篇论文做了什么（基于摘要）¶

三句话： ① 本文提出一种对多幅图像进行无监督聚类的方法，允许在聚类成员分配的同时调整协变量效应，将图像表示为二维函数型数据并构建功能型潜类别混合模型。 ② 核心工具是B样条基展开与潜类别Logistic回归结合的EM算法，利用函数的平滑性处理高维度，同时将协变量作为簇归属的调节变量纳入模型。 ③ 应用于手机指甲照片：识别出三个簇，分别对应0%、79%、86%的受试者被临床诊断为贫血，表明该方法有望用于低资源环境下的非侵入性贫血筛查。
关键设定与假设（推断）：
假设1：图像强度曲面可以被平滑函数 \(\mu_k(s,t)\) 和 \(\alpha_k(s,t)\) 很好逼近，且可通过基展开近似（B样条阶数需事先选定）。
假设2：给定簇成员和协变量，各像素点残差 \(\epsilon_i(s,t)\) 为独立高斯过程（但实际手机拍摄可能有空间相关，作者可能使用了噪声协方差结构如可分离核）。
假设3：潜类别数量 \(K\) 已知（通过BIC或AIC选择，但摘要未提及）。
相比已有方法：既有函数型聚类通常忽略协变量；既有潜类别模型通常处理标量观测而非函数型数据。本文同时放宽了这两个限制。
主要结果（基于摘要）：
方法应用于86名受试者的指甲照片，聚类后三个簇的贫血比例分别为0%（所有非贫血）、79%和86%（几乎全部为贫血），表明簇与生物风险高度对应。
通过调整图像元数据协变量（如拍摄条件），模型避免了因照片亮度差异导致的虚假聚类。
未报告与简单基线（如先展平再k-means，或忽略协变量的函数型聚类）的量化对比，也未给出聚类准确率的交叉验证结果（可能缺失）。因此结论需审慎看待：该结果可能只是验证性而非因果性。
证明路线与技术技巧（本文为应用型论文，无严格理论证明，因此仅描述方法实现流程）：
整体路线：①将每幅图像原始像素矩阵映射到二维光滑函数（通过基展开）；②建立含协变量的潜类别混合模型，写出观测数据似然；③EM算法迭代：E步计算后验类别概率，M步更新基函数系数和Logistic回归参数；④利用B样条的光滑性惩罚防止过拟合；⑤通过BIC选择簇数K。
关键难点：二维B样条参数众多，EM算法对初始值敏感。作者可能使用了多重启动或模拟退火进行优化。
技术技巧：使用张量积B样条表示二维曲面（降维），在M步中运用加权最小二乘法更新系数，并使用交叉验证选择光滑参数。
真实例子：患者自拍智能手机指甲照片，提取指甲区域的颜色强度矩阵（32×32像素已降采样）。元数据协变量包括环境光照强度、白平衡模式、相机型号等。将颜色强度视为二维函数，进行上述聚类。结果强调三个簇对应的贫血患病率具有临床意义阶梯状（0%→79%→86%）。此例子验证了方法的可用性，但未展示稳健性或通用性（例如与其他聚类方法的ROC曲线对比）。
🔎 结论是否比证明窄：从摘要看，作者声称“三个簇分别对应不同贫血风险水平”，但未报告簇内贫血比例的置信区间或假设检验，也未排除协变量仅部分校正而残留的混杂（如肤色差异）。结论应限于“在所收集数据上，该方法能产生与贫血临床诊断高度一致的聚类”，而非“该方法能无偏识别贫血亚组”。这是应用型论文常见局限。

四、开放问题（基于摘要推断）¶

簇数K的选择稳定性：本文使用BIC，但在小样本高维（二维曲面）情况下，BIC是否可靠？没有对K选择的不确定性进行量化。扎根于：摘要未提及K的选择方法与诊断。
协变量效应与生物效应的可分离性：模型假设协变量对图像的影响是加性的且在簇内相同，但拍摄条件可能与生物特征（如指甲苍白程度）交互作用，这种交互被模型忽略了。具体不足见摘要：仅调整了图像元数据，但未考虑元数据与潜类别的交互项。
图像空间结构更为复杂的情况：本文使用张量积基假设各向同性平滑，但指甲纹理可能存在方向性，更灵活的（如各向异性）平滑方法或深度特征嵌入是否更优？该口子未被本文探讨。
从聚类到诊断的可推广性：模型训练与验证在同一数据集上完成，没有独立的外部验证集。建议确认同领域近期5篇贫血筛查工作是否都指向这一gap（公开测试集缺失）——若都提到，则为共识缺口；若已有基于深度学习的端到端分类器且表现更好，则本文的临床价值需重新评估。

Maintained by 陈星宇 · Homepage · Source on GitHub