A fast integrative clustering and feature selection approach for high-dimensional multiview data¶
作者: Abdalkarim Alnajjar, Helen Bian, Zihang Lu
来源: Statistical Methods in Medical Research
主题: 其他
相关性: 5/10
机构绿灯: McGill University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1177/09622802251406584
一、领域脉络与小综述¶
这个方向是什么: 高维多视图整合聚类与特征选择要解决的根本统计问题是:当面对同一个样本集的多种不同来源、不同模态(如基因表达、DNA甲基化、CNV突变等)且维度极高(特征数 \(p \gg\) 样本数 \(n\))的异质数据时,如何在一个共享的低维潜在空间中提取出驱动样本异质性的核心子结构(聚类),并同时识别出哪些高维特征真正承载了这种异质性(特征选择),而非被噪声淹没。当前该方向在方法层面已相当成熟,有大量基于矩阵分解、贝叶斯潜变量模型的实现,但在理论层面(如高维下聚类恢复的 minimax 界、变分近似误差的收敛率、计算-统计权衡)仍几乎是空白。
发展脉络: - 奠基工作:Shen et al. (2009) 提出iCluster框架,将多视图高维数据整合聚类问题转化为联合潜变量广义线性模型(GLM)框架,通过惩罚回归(如L1)实现特征选择。这是该子方向的起点,但留下了计算瓶颈(依赖EM算法,在高维下极慢)与稀疏假设过强(只选特征,不选视图)的口子。 - 主要进展: - Mo et al. (2018) 开发iClusterPlus,将模型扩展到混合数据类型(连续、分类、计数),并引入组稀疏惩罚,但仍受限于EM算法在高维下的计算代价。 - Shen et al. (2020) 提出iClusterBayes,转向MCMC的贝叶斯推断,用分层先验处理特征选择,解决了惩罚参数调优的困难,但作者明确指出MCMC在多视图高维设定下"computationally expensive and time-consuming"。 - 当前 frontier 与本文位置:本文 iClusterVB 正是站在 iClusterBayes 留下的计算缺口上,用变分贝叶斯(VB)替代MCMC以加速推断,同时保留了混合数据类型与贝叶斯特征选择的结构。作者在 intro 中将其定位为"fast integrative clustering approach"。
子线索聚类: 1. 惩罚潜变量矩阵分解路线:iCluster / iClusterPlus / iClusterBayo(早期版本)。通过GLM+惩罚/贝叶斯先验做特征选择,计算依赖EM或MCMC。 2. 多视图共识/联合聚类路线:如 MOFA (Stegle et al., 2018) 等因子分析模型,侧重多视图降维与变异解释,但通常不显式做硬聚类(离散潜变量)。 3. 变分推断加速路线:本文 iClusterVB。用坐标上升变分推断(CAVI)逼近后验,将计算从MCMC的采样复杂度拉到迭代求闭式解的复杂度。
这个方向在追问的核心问题: 1. 异质整合:不同模态、不同分布族(Gaussian, Binomial, Poisson)的数据如何被映射到同一个离散潜变量(聚类指标)上? 2. 高维特征选择:在 \(p \gg n\) 下,如何从数万特征中挑出几百个真正驱动聚类的特征,且不引入过多假阳性? 3. 计算可行性:当视图数与特征数爆炸时,推断算法(EM / MCMC / VB)的收敛速度与内存开销能否支撑真实癌症数据(\(n \approx 100, p \approx 10^4\))的应用?
⚠️ 作者的 framing: - 作者把缺口 frame 成计算速度:intro 反复强调 MCMC 的 "computationally expensive" 与 "time-consuming",从而让基于 VB 的加速成为"显然的下一步"。 - 被淡化或回避的路线:作者完全没有讨论变分近似的理论误差。VB 只保证收敛到局部最优且下界(ELBO)不等于真实后验,这在高维下可能导致聚类恢复的系统性偏差——这一风险在 intro 中被彻底回避。此外,基于矩阵分解的谱聚类 / 低秩恢复路线(带有 minimax 界的理论工作,如 Löffler et al. 2021 的聚类恢复界)也未出现在 intro 中。 - 明显该被引却缺失的:关于高维聚类恢复率的 minimax 理论(如 Lu & Zhou 2016, Löffler et al. 2021),以及变分推断收敛率的近期理论(如 Yang et al. 2020 的 VB 收敛界)。这些文献的存在意味着本文的"快"可能牺牲了"准",但读者无法从 intro 中察觉这一张力。
张力:未见明显对立引用。iCluster 系列文献之间是线性递进关系(EM → MCMC → VB),没有在略不同条件下得相反结论的引用。但存在一个隐含张力:MCMC 理论上渐近精确,VB 理论上有偏;作者用 VB 替代 MCMC 时,只论证了速度优势,未提供任何偏差控制的理论或模拟证据。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(n\):样本量(如病人数)。
- \(K\):视图(数据模态)的数量,如基因表达、甲基化、CNV三个视图则 \(K=3\)。
- \(p_k\):第 \(k\) 个视图的特征维度(通常 \(p_k \gg n\))。
- \(\mathbf{X}_k\):第 \(k\) 个视图的 \(n \times p_k\) 可观测数据矩阵。其元素可以是连续、二值分类或多值计数数据。
- \(G\):预设的聚类数(类别数)。
- \(\mathbf{Z}\):\(n \times G\) 的潜在聚类指示矩阵(不可观测)。每行只有一个元素为1,其余为0,表示该样本属于哪个离散潜类别。这是模型要推断的核心 estimand。
- \(\mathbf{W}_k\):\(G \times p_k\) 的特征载荷矩阵(不可观测)。其元素大小反映第 \(k\) 视图中第 \(j\) 个特征对区分 \(G\) 个聚类的贡献。
- \(\pi\):\(G\) 维的聚类混合比例向量(不可观测),\(\sum \pi_g = 1\)。
- 可观测数据:研究者实际能观测到的是 \(K\) 个异质数据矩阵 \(\{\mathbf{X}_k\}_{k=1}^K\)。
- 不可观测 / 需识别的量:\(\mathbf{Z}\)(样本的潜类别归属)、\(\mathbf{W}_k\)(哪些特征在驱动类别差异)、\(\pi\)(类别比例)。这些只能通过模型假设与贝叶斯先验从 \(\mathbf{X}_k\) 中识别出来。
模型(数据生成机制): 对第 \(k\) 个视图,假设 \(\mathbf{X}_k\) 的第 \(i\) 行(样本 \(i\) 的第 \(k\) 视图数据)由广义线性模型生成:
第二步:最小内核(最简特例:单视图连续数据 + 两分类)
剥掉多视图、混合数据类型与变分推断的壳,支撑整篇论文的最小内核是:如何用带稀疏先验的潜变量线性回归做聚类与特征选择,并用变分推断求解。
设定最简特例:\(K=1\)(单视图),\(G=2\)(只分两类),数据 \(\mathbf{X}\) 为连续(Gaussian)。 此时模型退化为:
贝叶斯先验:对 \(W\) 施加 spike-and-slab 稀疏先验:
变分推断的最小内核: 变分推断的核心是用参数化分布 \(q\) 逼近真实后验 \(P(Z, W, \gamma | X)\)。最小内核下的操作是: 1. 假设变分分布因子化:\(q(Z, W, \gamma) = q(Z) q(W) q(\gamma)\)(这是VB引入的核心近似假设,破坏了 \(W\) 与 \(\gamma\) 的后验耦合)。 2. 坐标上升迭代(CAVI):固定其他项,对 \(q(Z)\) 求闭式解。此时 \(Z_i\) 的最优变分分布是 Bernoulli,其参数(属于类1的概率)正比于 \(\exp(\text{ELBO中涉及} Z_i \text{的项})\),这些项依赖于 \(q(W)\) 的当前均值。 3. 对 \(q(W)\) 求闭式解:在 Gaussian 假设下,\(W\) 的变分后验仍是 Gaussian,其均值受 \(q(Z)\) 的软标签与 \(q(\gamma)\) 的稀疏选择加权。 4. 对 \(q(\gamma)\) 求闭式解:\(\gamma_j\) 的变分概率是 slab 先验似然与 spike 先验似然的比值的单调变换。
为什么成立 / 证明怎么走:在这个特例下,因为所有分布都是指数族(Gaussian + Bernoulli + spike-and-slab 的混合),CAVI 的每一步更新都有闭式解(由指数族的共轭性保证)。迭代必然收敛到 ELBO 的局部最大值,因为每步更新都保证 ELBO 不降。论文的一般情形(多视图、混合链接函数)只是把这个闭式更新规则从 Gaussian 推广到 Multinomial/Poisson 的指数族形式,并把 \(Z_i\) 从 Bernoulli 推广到 Multinomial,把 \(W\) 从行向量推广到矩阵。 数学内核没有任何质变,只是共轭更新的公式变长。
三、这篇论文做了什么¶
三句话: ① 研究了高维多视图混合类型数据的整合聚类与特征选择问题; ② 核心方法是构建共享离散潜变量的多视图 GLM 联合模型,并采用坐标上升变分推断(CAVI)配合 spike-and-slab 稀疏先验来逼近后验; ③ 主要结论是:在模拟与三组真实癌症数据中,iClusterVB 在聚类准确性(ARI)与特征筛选上与 MCMC 版本相当,但计算时间从数小时缩短至数分钟。
关键设定与假设: - 多视图联合 GLM 设定:\(K\) 个视图的数据矩阵 \(\mathbf{X}_k\) 共享同一个离散潜变量矩阵 \(\mathbf{Z}\),每个视图通过特异的链接函数与载荷矩阵 \(\mathbf{W}_k\) 连接到 \(\mathbf{Z}\)。 - Spike-and-slab 先验:对 \(\mathbf{W}_k\) 的每个元素施加 \(w_{k,g,j} \sim (1-\gamma_{k,g,j})\delta_0 + \gamma_{k,g,j} N(0, \tau_k^2)\)。相比 iClusterBayes,本文的先验结构基本相同,未做理论层面的放宽或强化。 - 变分因子化假设(最核心假设):\(q(\mathbf{Z}, \{\mathbf{W}_k\}, \{\boldsymbol{\gamma}_k\}, \{\boldsymbol{\pi}_k\}) = q(\mathbf{Z}) \prod_k q(\mathbf{W}_k) q(\boldsymbol{\gamma}_k) q(\boldsymbol{\pi}_k)\)。这一假设切断了特征权重 \(\mathbf{W}\) 与特征选择指示 \(\boldsymbol{\gamma}\) 的后验依赖,是 VB 速度快的根源,也是理论偏差的根源。文中未对这一假设的统计代价做任何量化。
主要结果: - 理论结果:本文无任何定理、命题或渐近收敛率结果。唯一可算作"理论"的是变分推断的 ELBO 迭代单调上升性质(这是 CAVI 的通用性质,非本文独创)。 - 量化结论(纯模拟与实证): 1. 模拟设定:\(n=200\), \(p_k=500\), \(K=3\), \(G=2\) 或 \(3\)。在连续、分类、计数混合生成下,iClusterVB 的 ARI(调整 Rand 指数)在多数设定下与 iClusterBayes(MCMC)持平或略高(0.75-0.95区间),远超 K-means 与单视图方法。 2. 计算时间:在 \(p=1500\) 的设定下,iClusterVB 耗时约 1-2 分钟,iClusterBayes 耗时约 60-120 分钟。这是本文最硬的量化优势。 3. 特征选择准确性:真特征被选中的概率高,假特征的选中概率低,与 MCMC 版本持平。
证明路线与技术技巧: 本文无传统意义上的证明路线。其"技术技巧"全在算法实现层面: - CAVI 闭式更新:利用指数族分布的共轭性,对 \(q(\mathbf{Z})\)(Multinomial)、\(q(\mathbf{W}_k)\)(Gaussian)、\(q(\boldsymbol{\gamma}_k)\)(Bernoulli)推导出坐标上升的闭式更新公式。这是全文计算量最大的部分,但数学上只是标准的变分推断套路。 - ELBO 计算:用于监控收敛与模型选择(选 \(G\))。ELBO 的表达式被拆解为各项期望之和,利用因子化假设逐项计算。 - 无 MCMC / 无采样:彻底避开 MCMC 的采样链混合与收敛诊断问题,这是速度提升的直接原因。
真实例子与应用: - 数据场景:三组癌症多视图数据(DLBCL淋巴瘤、肺癌、乳腺癌),每组的样本量 \(n \approx 100-200\),特征数 \(p_k \approx 3000-12000\),视图数 \(K=2-3\)。 - 怎么用上去:将基因表达、甲基化、CNV等模态分别作为视图输入 iClusterVB,设定 \(G=2\) 到 \(5\),通过 ELBO 选最优 \(G\)。 - 得到什么结果:识别出 2-4 个癌症亚型,这些亚型在 Kaplan-Meier 生存曲线上显示出显著的生存概率差异(p-value < 0.05)。同时筛选出几十到几百个驱动特征(基因/位点)。 - 想说明什么:验证 iClusterVB 在真实高维多视图数据上能跑通、跑得快(几分钟出结果),且发现的亚型有临床预后意义,与 MCMC 版本的结果高度一致。
🔎 结论是否比证明窄: 本文的结论"iClusterVB provides accurate clustering and feature selection comparable to MCMC"完全基于模拟与三个数据集的有限实验,没有任何理论保证。变分推断的局部收敛性与后验偏差在文中被隐含假设为"可忽略",但这一假设在高维 \(p \gg n\) 下极可能不成立(高维后验的多峰性会导致 CAVI 陷入远离真实模式的局部解)。文中未对这一风险做任何声明或 conjecture,属于"实验上看着好,理论上无保证"的典型情况。
四、开放问题(点到为止)¶
- 变分近似的高维偏差界:在 \(p_k \gg n\) 的设定下,CAVI 因子化假设导致的后验偏差(\(\|q - P\|\))是否有量化的上界?这扎根于文中对变分因子化假设的引入(Section 2.2 的因子化拆解),该处未提供任何误差分析。要确认这是否是真 gap,需查阅近期约 5 篇高维 VB 理论(如 Yang et al. 2020, Ray et al. 2022)的 intro,看他们是否将"高维 VB 的偏差界"列为未解问题。
- 聚类恢复的 minimax 界:在多视图混合类型 GLM 潜变量模型下,恢复 \(\mathbf{Z}\) 的 minimax 下界是什么?iClusterVB 的算法是否达到该界?扎根于本文完全空白的理论部分——文中连聚类恢复率的渐近一致性都未声明。
- 计算-统计权衡:VB 比 MCMC 快 60 倍,但代价是后验有偏。是否存在一个"有限计算预算下的最优推断"框架,能明确量化"多跑 1 分钟 MCMC"与"多忍受 1% 偏差"之间的权衡?扎根于 intro 中对 MCMC "time-consuming" 的指责,该指责隐含了"速度优先于精确"的价值判断,但未给出权衡的数学刻画。
Maintained by 陈星宇 · Homepage · Source on GitHub