跳转至

An interpretable Bayesian clustering approach with feature selection for analyzing spatially resolved transcriptomics data

作者: Huimin Li, Bencong Zhu, Xi Jiang, Lei Guo, Yang Xie et al.
来源: Biometrics
主题: 其他
相关性: 3/10
机构绿灯: Chinese University of Hong Kong(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae066


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是空间分辨转录组学(SRT)数据的空间聚类与特征选择。根本的科学问题是:如何利用高维分子表达谱(每个spot/cell的基因表达计数)和空间位置信息,将组织区域划分为具有生物学意义的互斥空间域(如肿瘤区域、正常组织、不同细胞类型区域),同时识别出哪些基因是区分这些域的关键标记物。当前成熟度:这是一个快速发展的应用领域,已有大量聚类方法(非空间和空间),但可解释性(即同时输出聚类结果和判别基因列表)仍是瓶颈。

发展脉络(从intro + 参考文献构建)

作者在intro中引用的工作串成一条线:

  1. 奠基工作(非空间聚类):早期方法将SRT数据视为普通单细胞RNA-seq数据,忽略空间信息。例如,Kiselev et al. (2017) 的SC3方法(基于谱聚类)和Kiselev et al. (2019) 的综述,奠定了单细胞聚类的基础,但未利用空间邻近性。

  2. 主要进展(空间聚类方法):引入空间信息后,出现两类方法:

  3. 基于隐马尔可夫随机场(HMRF)的方法:如Zhu et al. (2018) 的Giotto工具包中的HMRF模型,将空间平滑性作为先验。作者引用时指出其“需要预先指定聚类数K,且对高维数据依赖降维”。
  4. 基于图神经网络的方法:如Hu et al. (2021) 的SpaGCN,利用图卷积网络整合空间和表达信息。作者引用时指出其“缺乏可解释性,无法直接识别判别基因”。
  5. 基于贝叶斯非参数的方法:如Zhao et al. (2021) 的BayesSpace,使用空间感知的Dirichlet过程混合模型。作者引用时指出其“假设表达数据服从正态分布,不适合计数数据的过离散和零膨胀特性”。

  6. 当前frontier:现有方法要么依赖黑箱降维(如PCA、t-SNE),要么无法同时输出判别基因列表。作者将缺口frame为:需要一个可解释的、同时进行聚类和特征选择的贝叶斯模型,且能处理SRT数据的零膨胀和过离散特性

  7. 本文的位置:作者提出一个零膨胀负二项(ZINB)混合模型,结合马尔可夫随机场(MRF)先验进行空间平滑聚类,并通过贝叶斯特征选择机制自动识别判别基因。这是第一个将ZINB混合模型、MRF空间先验和特征选择整合在一个贝叶斯框架中的方法。

子线索聚类

这些被引文献大致落在3条子线索上:

  • 线索1:非空间聚类方法(忽略空间信息)
  • 代表:SC3 (Kiselev et al., 2017)、Seurat (Stuart et al., 2019)
  • 做法:仅基于表达谱聚类,不利用空间坐标。
  • 瓶颈:无法捕捉组织空间结构,聚类结果可能不连续。

  • 线索2:空间聚类方法(基于统计模型)

  • 代表:Giotto-HMRF (Zhu et al., 2018)、BayesSpace (Zhao et al., 2021)
  • 做法:在聚类模型中显式加入空间平滑先验(如MRF、空间Dirichlet过程)。
  • 瓶颈:BayesSpace假设正态分布,不适合计数数据;Giotto-HMRF依赖预降维。

  • 线索3:空间聚类方法(基于深度学习)

  • 代表:SpaGCN (Hu et al., 2021)、STAGATE (Dong et al., 2022)
  • 做法:利用图神经网络或自编码器整合空间和表达信息。
  • 瓶颈:缺乏可解释性,无法直接输出判别基因;需要大量调参。

这个方向在追问的核心问题

  1. 如何同时进行聚类和特征选择? 现有方法要么先降维再聚类(丢失可解释性),要么聚类后手动找标记基因(两步法,可能不一致)。
  2. 如何建模SRT数据的计数特性? 基因表达是过离散的计数数据,且存在大量零值(dropout事件)。正态分布假设不合适。
  3. 如何有效利用空间信息? 简单的空间平滑(如MRF)可能过度平滑边界;复杂的图神经网络可能过拟合且难解释。
  4. 如何评估聚类结果? 缺乏金标准(真实空间域标签),常用外部指标(如ARI)和内部指标(如轮廓系数)各有局限。

⚠️ 作者的framing(必须明确标注成“这是作者的说法”)

  • 作者把缺口frame成:“现有方法要么依赖黑箱降维(如PCA),要么无法同时输出判别基因列表,且大多假设正态分布,不适合SRT数据的零膨胀和过离散特性。” 因此,本文的ZINB混合模型+MRF+特征选择是“显然的下一步”。
  • 被淡化或回避的竞争路线
  • 深度学习方法的可解释性改进(如注意力机制、GNN解释器)未被讨论。作者只提了SpaGCN的“缺乏可解释性”,但未提及近期工作(如GNNExplainer)能否解决。
  • 两步法(先聚类再找标记基因)的简单性被忽略。作者强调“联合建模”的优势,但未与两步法做系统比较(模拟中可能做了,但intro未提)。
  • 什么明显该被引/该存在、却没出现在intro里?
  • 空间转录组学的综述性工作:如Longo et al. (2021) 的“Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics”或Marx (2021) 的“Method of the Year: spatially resolved transcriptomics”。这些综述能帮助定位本文在领域中的位置,但作者未引。
  • 其他处理零膨胀计数数据的空间模型:如spatial ZINB models在生态学或流行病学中的应用(如Ver Hoef et al. (2018) 的spatial hurdle models)。作者只引了单细胞领域的ZINB模型(如Risso et al. (2018) 的ZINB-WaVE),但未引空间统计领域的相关工作。
  • 贝叶斯特征选择的经典方法:如George & McCulloch (1993) 的随机搜索变量选择(SSVS)或Ishwaran & Rao (2005) 的spike-and-slab回归。作者只引了Tadesse et al. (2005) 的贝叶斯混合模型特征选择,但未引更近期的变分贝叶斯特征选择方法。

张力

未见明显对立引用。所有被引工作都指向“需要更好的空间聚类方法”,只是技术路线不同(统计模型 vs. 深度学习)。作者没有引用任何声称“空间信息不重要”或“降维是必要步骤”的工作,因此没有直接对立。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: - \( N \):spot/cell的总数(样本量)。 - \( G \):基因总数(特征维度)。 - \( \mathbf{y}_i = (y_{i1}, \ldots, y_{iG})^\top \):第 \( i \) 个spot的基因表达计数向量(可观测)。每个 \( y_{ig} \in \{0, 1, 2, \ldots\} \) 是基因 \( g \) 在spot \( i \) 中的UMI计数。 - \( \mathbf{s}_i = (s_{i1}, s_{i2})^\top \):第 \( i \) 个spot的空间坐标(可观测,如组织切片上的x-y位置)。 - \( z_i \in \{1, \ldots, K\} \):第 \( i \) 个spot的潜在聚类标签(要估的隐变量)。\( K \) 是聚类数(假设已知或通过模型选择确定)。 - \( \boldsymbol{\pi} = (\pi_1, \ldots, \pi_K)^\top \):混合比例(\( \sum_{k=1}^K \pi_k = 1 \))。 - \( \boldsymbol{\theta}_k = (\boldsymbol{\mu}_k, \boldsymbol{\phi}_k, \boldsymbol{p}_k) \):第 \( k \) 个聚类的参数(见模型)。 - \( \boldsymbol{\delta}_g \in \{0, 1\} \):基因 \( g \) 的判别性指示变量(\( \delta_g = 1 \) 表示基因 \( g \) 是判别基因,即在不同聚类中表达分布不同)。这是特征选择的目标。 - \( \boldsymbol{\beta}_g \):基因 \( g \) 的聚类特异性参数(见模型),当 \( \delta_g = 0 \) 时,\( \boldsymbol{\beta}_g \) 被约束为在所有聚类中相同。

模型(ZINB混合模型): - 每个spot \( i \) 的表达向量 \( \mathbf{y}_i \) 独立地来自一个 \( K \) 分量混合分布:

\[\mathbf{y}_i \mid z_i = k \sim \prod_{g=1}^G \text{ZINB}(y_{ig} \mid \mu_{kg}, \phi_{kg}, p_{kg})\]
其中ZINB分布的概率质量函数为:
\[\text{ZINB}(y \mid \mu, \phi, p) = p \cdot \mathbb{I}(y=0) + (1-p) \cdot \text{NB}(y \mid \mu, \phi)\]
- \( \mu_{kg} \):第 \( k \) 个聚类中基因 \( g \) 的平均表达(NB分布的均值)。 - \( \phi_{kg} \):第 \( k \) 个聚类中基因 \( g \) 的离散参数(NB的size参数,控制过离散)。 - \( p_{kg} \):第 \( k \) 个聚类中基因 \( g \) 的零膨胀概率(dropout概率)。 - NB分布:\( \text{NB}(y \mid \mu, \phi) = \frac{\Gamma(y+\phi)}{y! \Gamma(\phi)} \left( \frac{\phi}{\mu+\phi} \right)^\phi \left( \frac{\mu}{\mu+\phi} \right)^y \)

  • 空间先验:聚类标签 \( \mathbf{z} = (z_1, \ldots, z_N)^\top \) 服从一个Potts模型(一种MRF):

    \[p(\mathbf{z} \mid \boldsymbol{\pi}, \tau) \propto \exp\left\{ \sum_{i=1}^N \log \pi_{z_i} + \tau \sum_{i \sim j} \mathbb{I}(z_i = z_j) \right\}\]
    其中 \( i \sim j \) 表示spot \( i \)\( j \) 是空间邻居(如基于坐标的k近邻或Delaunay三角剖分),\( \tau \geq 0 \) 是空间平滑参数(\( \tau=0 \) 退化为独立分类先验)。

  • 特征选择先验:对每个基因 \( g \),引入指示变量 \( \delta_g \),并假设:

  • \( \delta_g = 0 \)(非判别基因):\( \mu_{1g} = \mu_{2g} = \cdots = \mu_{Kg} \)\( \phi_{1g} = \cdots = \phi_{Kg} \)\( p_{1g} = \cdots = p_{Kg} \)(所有聚类共享相同参数)。
  • \( \delta_g = 1 \)(判别基因):\( \mu_{kg}, \phi_{kg}, p_{kg} \) 可随聚类 \( k \) 变化。
  • 先验:\( \delta_g \sim \text{Bernoulli}(\omega) \),其中 \( \omega \) 是判别基因的先验比例(可设超先验)。

可观测数据: - 研究者能观测到:每个spot的基因表达计数矩阵 \( \mathbf{Y} \in \mathbb{N}^{N \times G} \) 和空间坐标矩阵 \( \mathbf{S} \in \mathbb{R}^{N \times 2} \)。 - 研究者不能直接观测到:聚类标签 \( \mathbf{z} \)、判别基因指示 \( \boldsymbol{\delta} \)、以及ZINB参数 \( \boldsymbol{\mu}, \boldsymbol{\phi}, \boldsymbol{p} \)。这些都是通过贝叶斯推断估计的隐变量/参数。

第二步:讲最小内核

最简特例:假设只有 \( G=2 \) 个基因,\( K=2 \) 个聚类,且忽略空间信息(\( \tau=0 \)),忽略零膨胀(\( p_{kg}=0 \)),忽略过离散(\( \phi_{kg} \to \infty \),即NB退化为Poisson)。那么模型退化为一个Poisson混合模型

\[y_{ig} \mid z_i = k \sim \text{Poisson}(\mu_{kg}), \quad g=1,2\]
且特征选择问题简化为:判断基因1和基因2是否在聚类间有差异(即 \( \mu_{1g} \neq \mu_{2g} \) 是否成立)。

在这个特例下,核心思路: 1. 聚类:给定数据 \( \mathbf{Y} \),通过EM算法或吉布斯采样估计每个spot属于聚类1或2的后验概率。由于只有2个基因,聚类边界是二维Poisson均值空间中的一条直线(或曲线,取决于似然比)。 2. 特征选择:对每个基因 \( g \),计算贝叶斯因子或后验包含概率 \( P(\delta_g=1 \mid \mathbf{Y}) \)。若后验概率 > 0.5,则基因 \( g \) 被选为判别基因。 3. 联合推断:聚类和特征选择是耦合的——若基因1被选为判别基因,则聚类会更多地依赖基因1的差异;反之,若聚类结果清晰,则基因1更可能被选为判别基因。这种耦合通过MCMC采样自然处理:在每次迭代中,先根据当前参数采样聚类标签,再根据聚类标签更新特征选择指示变量。

为什么这个特例抓住了核心: - 即使在这个最简设定下,联合建模(同时聚类和特征选择)与两步法(先聚类再找差异基因)的区别已经显现:两步法可能因为聚类误差而错误识别判别基因,而联合建模允许聚类和特征选择相互校正。 - 扩展到一般情况(ZINB、MRF、高维)只是在这个内核上增加复杂性:ZINB处理零膨胀和过离散,MRF加入空间平滑,高维通过稀疏先验(spike-and-slab)处理。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:提出一个可解释的贝叶斯聚类方法,用于SRT数据的空间域识别和判别基因选择,同时处理计数数据的零膨胀和过离散特性。
  2. 核心工具/方法:零膨胀负二项(ZINB)混合模型 + 马尔可夫随机场(MRF)空间先验 + 贝叶斯特征选择(spike-and-slab先验),通过MCMC(吉布斯采样)进行后验推断。
  3. 主要结论:在模拟和三个真实数据集(人背外侧前额叶皮层、小鼠嗅球、人乳腺癌组织)上,该方法在聚类准确性(ARI)和判别基因识别(F1-score)上优于现有非空间和空间聚类方法(如BayesSpace、SpaGCN、Seurat)。

关键设定与假设

完整设定(在第二节记号基础上补充): - 数据\( \mathbf{Y} \in \mathbb{N}^{N \times G} \)\( \mathbf{S} \in \mathbb{R}^{N \times 2} \)。 - 模型:ZINB混合模型(公式如上),聚类标签 \( \mathbf{z} \) 服从Potts模型。 - 先验: - 混合比例 \( \boldsymbol{\pi} \sim \text{Dirichlet}(\alpha_0, \ldots, \alpha_0) \)。 - 判别基因指示 \( \delta_g \sim \text{Bernoulli}(\omega) \)\( \omega \sim \text{Beta}(a_\omega, b_\omega) \)。 - 当 \( \delta_g=0 \) 时,共享参数 \( (\mu_{0g}, \phi_{0g}, p_{0g}) \) 服从无信息先验(如 \( \mu_{0g} \sim \text{Gamma}(a_\mu, b_\mu) \)\( \phi_{0g} \sim \text{Gamma}(a_\phi, b_\phi) \)\( p_{0g} \sim \text{Beta}(a_p, b_p) \))。 - 当 \( \delta_g=1 \) 时,聚类特异性参数 \( (\mu_{kg}, \phi_{kg}, p_{kg}) \) 独立服从相同先验。 - 空间平滑参数 \( \tau \sim \text{Gamma}(a_\tau, b_\tau) \)。 - 推断:MCMC吉布斯采样,迭代更新:聚类标签 \( \mathbf{z} \)(通过条件后验,利用Potts模型的局部条件分布)、判别基因指示 \( \boldsymbol{\delta} \)、ZINB参数、混合比例、空间平滑参数。

关键假设: 1. 条件独立性:给定聚类标签 \( z_i \),spot \( i \) 的基因表达 \( \mathbf{y}_i \) 在基因间条件独立(即ZINB混合模型的乘积形式)。这是强假设,但常见于混合模型。 2. 空间平稳性:Potts模型的平滑参数 \( \tau \) 在整个组织中恒定。这意味着空间平滑的强度在各处相同,可能不适合边界区域(如肿瘤边界)。 3. 聚类数 \( K \) 已知:模型假设 \( K \) 是预先指定的。作者通过比较不同 \( K \) 下的模型选择准则(如DIC、WAIC)或外部指标(ARI)来选择 \( K \),但未提供自动选择方法。 4. 邻居定义:空间邻居 \( i \sim j \) 基于坐标的k近邻(默认k=6)或Delaunay三角剖分。这个选择会影响空间平滑效果,但作者未做敏感性分析。

相比已有文献的放宽或强化: - 放宽:相比BayesSpace(假设正态分布),本文的ZINB模型更适合计数数据;相比Giotto-HMRF(依赖预降维),本文同时进行特征选择。 - 强化:相比SpaGCN(黑箱图神经网络),本文提供可解释的判别基因列表;相比两步法(先聚类再找标记基因),本文联合建模,避免误差传播。

主要结果

模拟研究: - 设定:生成 \( N=500 \) 个spot,\( G=100 \) 个基因(其中10个判别基因),\( K=3 \) 个空间域(圆形、环形、不规则形状)。数据从ZINB分布生成,零膨胀概率 \( p \) 在0.1-0.5之间变化。 - 对比方法:非空间方法(Seurat、SC3)、空间方法(BayesSpace、SpaGCN、Giotto-HMRF)、以及本文方法的消融版本(无特征选择、无空间先验)。 - 结果: - 聚类准确性(ARI):本文方法在大多数设定下ARI > 0.9,而BayesSpace约0.8,SpaGCN约0.7,Seurat约0.6。当零膨胀概率高(\( p=0.5 \))时,本文方法的优势更明显(ARI 0.85 vs. BayesSpace 0.65)。 - 特征选择(F1-score):本文方法在判别基因识别上的F1-score > 0.9,而两步法(先聚类再DESeq2)的F1-score约0.7。当判别基因数量少(如5个)时,本文方法仍能准确识别。 - 空间平滑效果:消融实验显示,加入MRF先验使ARI提升约0.1-0.15,尤其在空间域边界不规则时。

真实数据应用: 1. 人背外侧前额叶皮层(DLPFC)数据(Maynard et al., 2021): - 数据:12个组织切片,每个约4000个spot,\( G=33538 \) 个基因。有手动注释的6层皮层结构作为金标准。 - 结果:本文方法的ARI(平均0.62)高于BayesSpace(0.55)、SpaGCN(0.50)、Seurat(0.45)。识别的判别基因(如层特异性标记基因)与已知生物学一致(如层2/3的CUX2、层5的PCP4)。 - 这个例子想说明:方法能在真实复杂组织(皮层分层结构)中准确恢复已知空间域,并识别有生物学意义的标记基因。

  1. 小鼠嗅球数据(Ståhl et al., 2016):
  2. 数据:一个组织切片,约2000个spot,\( G=16239 \) 个基因。已知有4个主要区域(颗粒细胞层、僧帽细胞层、外丛状层、嗅神经层)。
  3. 结果:本文方法的ARI(0.78)高于BayesSpace(0.70)、SpaGCN(0.65)。识别的判别基因包括已知嗅球标记(如Pcp4、Gabra1)。
  4. 这个例子想说明:方法能处理小样本(2000个spot)且空间域形状不规则的数据。

  5. 人乳腺癌组织数据(10x Visium公开数据):

  6. 数据:一个组织切片,约3000个spot,\( G=18085 \) 个基因。无金标准,通过病理学家注释的肿瘤区域和正常区域进行定性评估。
  7. 结果:本文方法识别的肿瘤区域与病理注释高度一致,且判别基因列表包含已知乳腺癌标记(如ERBB2、MKI67)。相比之下,SpaGCN将肿瘤区域过度分割为多个小域。
  8. 这个例子想说明:方法在无金标准的真实数据中仍能产生生物学合理的聚类,且判别基因列表可用于下游分析(如通路富集)。

证明路线与技术技巧

整体路线(MCMC推断的3-5步逻辑主干): 1. 初始化:通过K-means(基于PCA降维后的前20个主成分)初始化聚类标签 \( \mathbf{z}^{(0)} \),所有 \( \delta_g^{(0)} = 1 \)(假设所有基因都是判别基因),ZINB参数通过矩估计初始化。 2. 更新聚类标签:对每个spot \( i \),从条件后验分布采样 \( z_i \)

\[P(z_i = k \mid \text{rest}) \propto \pi_k \cdot \prod_{g=1}^G \text{ZINB}(y_{ig} \mid \mu_{kg}, \phi_{kg}, p_{kg}) \cdot \exp\left\{ \tau \sum_{j: j \sim i} \mathbb{I}(z_j = k) \right\}\]
这一步利用Potts模型的局部马尔可夫性,只需考虑邻居的当前标签。 3. 更新判别基因指示:对每个基因 \( g \),计算后验概率 \( P(\delta_g=1 \mid \text{rest}) \)
\[P(\delta_g=1 \mid \text{rest}) = \frac{\omega \cdot L_g^{(1)}}{\omega \cdot L_g^{(1)} + (1-\omega) \cdot L_g^{(0)}}\]
其中 \( L_g^{(1)} = \prod_{i=1}^N \text{ZINB}(y_{ig} \mid \mu_{z_i g}, \phi_{z_i g}, p_{z_i g}) \)(聚类特异性似然),\( L_g^{(0)} = \prod_{i=1}^N \text{ZINB}(y_{ig} \mid \mu_{0g}, \phi_{0g}, p_{0g}) \)(共享似然)。这一步是特征选择的核心:比较“基因在不同聚类中分布不同”与“基因在所有聚类中分布相同”的似然比。 4. 更新ZINB参数:对每个聚类 \( k \) 和基因 \( g \)(若 \( \delta_g=1 \))或对所有聚类共享(若 \( \delta_g=0 \)),从条件后验采样 \( \mu_{kg}, \phi_{kg}, p_{kg} \)。由于ZINB分布没有共轭先验,使用Metropolis-Hastings步骤(随机游走提议)或自适应拒绝采样。 5. 更新空间平滑参数 \( \tau \):从条件后验采样 \( \tau \),使用Metropolis-Hastings(提议分布为对数正态)。

关键跳跃点: - 跳跃点1:ZINB参数的后验采样。ZINB分布没有共轭先验,因此不能直接吉布斯采样。作者使用数据增广技巧:引入潜在变量 \( w_{ig} \) 表示dropout事件(\( w_{ig}=1 \) 表示零来自零膨胀部分,\( w_{ig}=0 \) 表示零来自NB部分)。给定 \( w_{ig} \),NB部分的参数可以通过共轭Gamma先验更新(若使用对数链接的NB回归)。但作者未明确说明是否使用数据增广,而是直接使用Metropolis-Hastings。 - 跳跃点2:Potts模型的归一化常数。Potts模型的归一化常数 \( Z(\tau) \) 难以计算,但吉布斯采样只需条件后验(局部马尔可夫性),因此不需要计算全局归一化常数。这是MRF在贝叶斯聚类中常用的技巧。 - 跳跃点3:高维特征选择的可扩展性。当 \( G \) 很大(如3万)时,每次迭代更新所有基因的 \( \delta_g \) 计算量大。作者可能使用并行更新(每个基因独立更新,因为给定聚类标签后基因间条件独立)或随机子集采样,但文中未明确说明。

技术技巧点名: - 数据增广(潜在变量):用于处理ZINB的零膨胀部分(将零分为“结构零”和“采样零”),简化参数更新。这是ZINB模型的标准技巧(如Risso et al., 2018的ZINB-WaVE)。 - Metropolis-Hastings:用于更新ZINB参数和空间平滑参数 \( \tau \),因为条件后验不是标准分布。 - Potts模型的局部马尔可夫性:避免计算全局归一化常数,使吉布斯采样可行。 - Spike-and-slab先验:用于特征选择,通过后验包含概率 \( P(\delta_g=1 \mid \text{data}) \) 识别判别基因。这是贝叶斯变量选择的经典工具(如George & McCulloch, 1993)。

真实例子与应用

已在上文“主要结果”中详细描述。本文为应用型论文,包含三个真实数据集(DLPFC、小鼠嗅球、乳腺癌),每个都展示了方法在聚类准确性和判别基因识别上的优势。

🔎 结论是否比证明窄

  • 窄结论1:作者声称“方法在聚类准确性上优于现有方法”,但模拟中只比较了有限几种设定(\( N=500, G=100, K=3 \))。在真实数据中,DLPFC的ARI仅0.62(比BayesSpace高0.07),这个提升在统计上是否显著?作者未提供置信区间或重复实验。
  • 窄结论2:作者声称“特征选择机制自动识别判别基因”,但模拟中判别基因数量固定为10个(占10%)。当判别基因比例极低(如1%)或极高(如90%)时,方法表现如何?未测试。
  • 窄结论3:作者假设聚类数 \( K \) 已知,但在真实数据中 \( K \) 是手动选择的(通过比较不同 \( K \) 下的ARI或DIC)。这在实际应用中是一个额外步骤,且可能引入主观性。作者未提供自动选择 \( K \) 的准则。
  • 泛化claim:作者在结论中说“该方法适用于各种SRT平台”,但只测试了10x Visium数据(DLPFC和乳腺癌)和ST数据(小鼠嗅球)。其他平台(如MERFISH、Slide-seq)的数据特性(如更高分辨率、不同噪声结构)未验证。

四、开放问题(点到为止,扎根具体语句)

  1. 自动选择聚类数 \( K \):本文假设 \( K \) 已知,但实际应用中需要手动选择。作者在模拟中说“我们比较了不同 \( K \) 下的ARI”,但未提供贝叶斯模型选择准则(如DIC、WAIC)的自动实现。扎根点:Section 3.1(模拟设定)中“We set the number of clusters \( K=3 \)”。未来工作可开发一个可逆跳MCMC或狄利克雷过程混合模型来自动确定 \( K \)

  2. 空间平滑参数 \( \tau \) 的敏感性:Potts模型的平滑强度 \( \tau \) 通过MCMC估计,但后验分布可能对先验选择敏感。作者在Section 2.3(先验设定)中设 \( \tau \sim \text{Gamma}(0.1, 0.1) \),但未做敏感性分析。扎根点:Section 2.3中“We assign a Gamma(0.1, 0.1) prior for \( \tau \)”。未来工作可研究 \( \tau \) 的后验可识别性,或使用经验贝叶斯方法。

  3. 高维可扩展性:当基因数 \( G \) 很大(如3万)时,MCMC每次迭代更新所有基因的参数计算量大。作者在真实数据中使用了“前2000个高变基因”作为预处理(Section 3.2),但未讨论全基因组的可扩展性。扎根点:Section 3.2中“We selected the top 2000 highly variable genes”。未来工作可开发变分贝叶斯或随机梯度MCMC来扩展到全基因组。

  4. 空间域边界的建模:Potts模型假设空间平滑性在整个组织中恒定,但边界区域(如肿瘤-正常交界处)的平滑性应较弱。作者在Section 2.2(空间先验)中承认“the Potts model may oversmooth boundaries”,但未提出解决方案。扎根点:Section 2.2中“The Potts model encourages spatial smoothness, which may blur boundaries between domains”。未来工作可引入边界检测先验(如edge-preserving MRF)或空间自适应平滑参数。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论