An interpretable Bayesian clustering approach with feature selection for analyzing spatially resolved transcriptomics data¶

作者: Huimin Li, Bencong Zhu, Xi Jiang, Lei Guo, Yang Xie et al.
来源: Biometrics
主题: 其他
相关性: 3/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae066

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是空间分辨转录组学（SRT）数据的空间聚类与特征选择。根本的科学问题是：如何利用高维分子表达谱（每个spot/cell的基因表达计数）和空间位置信息，将组织区域划分为具有生物学意义的互斥空间域（如肿瘤区域、正常组织、不同细胞类型区域），同时识别出哪些基因是区分这些域的关键标记物。当前成熟度：这是一个快速发展的应用领域，已有大量聚类方法（非空间和空间），但可解释性（即同时输出聚类结果和判别基因列表）仍是瓶颈。

发展脉络（从intro + 参考文献构建）¶

作者在intro中引用的工作串成一条线：

奠基工作（非空间聚类）：早期方法将SRT数据视为普通单细胞RNA-seq数据，忽略空间信息。例如，Kiselev et al. (2017) 的SC3方法（基于谱聚类）和Kiselev et al. (2019) 的综述，奠定了单细胞聚类的基础，但未利用空间邻近性。
主要进展（空间聚类方法）：引入空间信息后，出现两类方法：
基于隐马尔可夫随机场（HMRF）的方法：如Zhu et al. (2018) 的Giotto工具包中的HMRF模型，将空间平滑性作为先验。作者引用时指出其“需要预先指定聚类数K，且对高维数据依赖降维”。
基于图神经网络的方法：如Hu et al. (2021) 的SpaGCN，利用图卷积网络整合空间和表达信息。作者引用时指出其“缺乏可解释性，无法直接识别判别基因”。
基于贝叶斯非参数的方法：如Zhao et al. (2021) 的BayesSpace，使用空间感知的Dirichlet过程混合模型。作者引用时指出其“假设表达数据服从正态分布，不适合计数数据的过离散和零膨胀特性”。
当前frontier：现有方法要么依赖黑箱降维（如PCA、t-SNE），要么无法同时输出判别基因列表。作者将缺口frame为：需要一个可解释的、同时进行聚类和特征选择的贝叶斯模型，且能处理SRT数据的零膨胀和过离散特性。
本文的位置：作者提出一个零膨胀负二项（ZINB）混合模型，结合马尔可夫随机场（MRF）先验进行空间平滑聚类，并通过贝叶斯特征选择机制自动识别判别基因。这是第一个将ZINB混合模型、MRF空间先验和特征选择整合在一个贝叶斯框架中的方法。

子线索聚类¶

这些被引文献大致落在3条子线索上：

线索1：非空间聚类方法（忽略空间信息）
代表：SC3 (Kiselev et al., 2017)、Seurat (Stuart et al., 2019)
做法：仅基于表达谱聚类，不利用空间坐标。
瓶颈：无法捕捉组织空间结构，聚类结果可能不连续。
线索2：空间聚类方法（基于统计模型）
代表：Giotto-HMRF (Zhu et al., 2018)、BayesSpace (Zhao et al., 2021)
做法：在聚类模型中显式加入空间平滑先验（如MRF、空间Dirichlet过程）。
瓶颈：BayesSpace假设正态分布，不适合计数数据；Giotto-HMRF依赖预降维。
线索3：空间聚类方法（基于深度学习）
代表：SpaGCN (Hu et al., 2021)、STAGATE (Dong et al., 2022)
做法：利用图神经网络或自编码器整合空间和表达信息。
瓶颈：缺乏可解释性，无法直接输出判别基因；需要大量调参。

这个方向在追问的核心问题¶

如何同时进行聚类和特征选择？ 现有方法要么先降维再聚类（丢失可解释性），要么聚类后手动找标记基因（两步法，可能不一致）。
如何建模SRT数据的计数特性？ 基因表达是过离散的计数数据，且存在大量零值（dropout事件）。正态分布假设不合适。
如何有效利用空间信息？ 简单的空间平滑（如MRF）可能过度平滑边界；复杂的图神经网络可能过拟合且难解释。
如何评估聚类结果？ 缺乏金标准（真实空间域标签），常用外部指标（如ARI）和内部指标（如轮廓系数）各有局限。

⚠️ 作者的framing（必须明确标注成“这是作者的说法”）¶

作者把缺口frame成：“现有方法要么依赖黑箱降维（如PCA），要么无法同时输出判别基因列表，且大多假设正态分布，不适合SRT数据的零膨胀和过离散特性。” 因此，本文的ZINB混合模型+MRF+特征选择是“显然的下一步”。
被淡化或回避的竞争路线：
深度学习方法的可解释性改进（如注意力机制、GNN解释器）未被讨论。作者只提了SpaGCN的“缺乏可解释性”，但未提及近期工作（如GNNExplainer）能否解决。
两步法（先聚类再找标记基因）的简单性被忽略。作者强调“联合建模”的优势，但未与两步法做系统比较（模拟中可能做了，但intro未提）。
什么明显该被引/该存在、却没出现在intro里？
空间转录组学的综述性工作：如Longo et al. (2021) 的“Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics”或Marx (2021) 的“Method of the Year: spatially resolved transcriptomics”。这些综述能帮助定位本文在领域中的位置，但作者未引。
其他处理零膨胀计数数据的空间模型：如spatial ZINB models在生态学或流行病学中的应用（如Ver Hoef et al. (2018) 的spatial hurdle models）。作者只引了单细胞领域的ZINB模型（如Risso et al. (2018) 的ZINB-WaVE），但未引空间统计领域的相关工作。
贝叶斯特征选择的经典方法：如George & McCulloch (1993) 的随机搜索变量选择（SSVS）或Ishwaran & Rao (2005) 的spike-and-slab回归。作者只引了Tadesse et al. (2005) 的贝叶斯混合模型特征选择，但未引更近期的变分贝叶斯特征选择方法。

张力¶

未见明显对立引用。所有被引工作都指向“需要更好的空间聚类方法”，只是技术路线不同（统计模型 vs. 深度学习）。作者没有引用任何声称“空间信息不重要”或“降维是必要步骤”的工作，因此没有直接对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( N \)：spot/cell的总数（样本量）。 - \( G \)：基因总数（特征维度）。 - \( \mathbf{y}_i = (y_{i1}, \ldots, y_{iG})^\top \)：第 \( i \) 个spot的基因表达计数向量（可观测）。每个 \( y_{ig} \in \{0, 1, 2, \ldots\} \) 是基因 \( g \) 在spot \( i \) 中的UMI计数。 - \( \mathbf{s}_i = (s_{i1}, s_{i2})^\top \)：第 \( i \) 个spot的空间坐标（可观测，如组织切片上的x-y位置）。 - \( z_i \in \{1, \ldots, K\} \)：第 \( i \) 个spot的潜在聚类标签（要估的隐变量）。\( K \) 是聚类数（假设已知或通过模型选择确定）。 - \( \boldsymbol{\pi} = (\pi_1, \ldots, \pi_K)^\top \)：混合比例（\( \sum_{k=1}^K \pi_k = 1 \)）。 - \( \boldsymbol{\theta}_k = (\boldsymbol{\mu}_k, \boldsymbol{\phi}_k, \boldsymbol{p}_k) \)：第 \( k \) 个聚类的参数（见模型）。 - \( \boldsymbol{\delta}_g \in \{0, 1\} \)：基因 \( g \) 的判别性指示变量（\( \delta_g = 1 \) 表示基因 \( g \) 是判别基因，即在不同聚类中表达分布不同）。这是特征选择的目标。 - \( \boldsymbol{\beta}_g \)：基因 \( g \) 的聚类特异性参数（见模型），当 \( \delta_g = 0 \) 时，\( \boldsymbol{\beta}_g \) 被约束为在所有聚类中相同。

模型（ZINB混合模型）： - 每个spot \( i \) 的表达向量 \( \mathbf{y}_i \) 独立地来自一个 \( K \) 分量混合分布：

\[\mathbf{y}_i \mid z_i = k \sim \prod_{g=1}^G \text{ZINB}(y_{ig} \mid \mu_{kg}, \phi_{kg}, p_{kg})\]

其中ZINB分布的概率质量函数为：

\[\text{ZINB}(y \mid \mu, \phi, p) = p \cdot \mathbb{I}(y=0) + (1-p) \cdot \text{NB}(y \mid \mu, \phi)\]

- \( \mu_{kg} \)：第 \( k \) 个聚类中基因 \( g \) 的平均表达（NB分布的均值）。 - \( \phi_{kg} \)：第 \( k \) 个聚类中基因 \( g \) 的离散参数（NB的size参数，控制过离散）。 - \( p_{kg} \)：第 \( k \) 个聚类中基因 \( g \) 的零膨胀概率（dropout概率）。 - NB分布：\( \text{NB}(y \mid \mu, \phi) = \frac{\Gamma(y+\phi)}{y! \Gamma(\phi)} \left( \frac{\phi}{\mu+\phi} \right)^\phi \left( \frac{\mu}{\mu+\phi} \right)^y \)。

空间先验：聚类标签 \( \mathbf{z} = (z_1, \ldots, z_N)^\top \) 服从一个Potts模型（一种MRF）：
\[p(\mathbf{z} \mid \boldsymbol{\pi}, \tau) \propto \exp\left\{ \sum_{i=1}^N \log \pi_{z_i} + \tau \sum_{i \sim j} \mathbb{I}(z_i = z_j) \right\}\]
其中 \( i \sim j \) 表示spot \( i \) 和 \( j \) 是空间邻居（如基于坐标的k近邻或Delaunay三角剖分），\( \tau \geq 0 \) 是空间平滑参数（\( \tau=0 \) 退化为独立分类先验）。
特征选择先验：对每个基因 \( g \)，引入指示变量 \( \delta_g \)，并假设：
若 \( \delta_g = 0 \)（非判别基因）：\( \mu_{1g} = \mu_{2g} = \cdots = \mu_{Kg} \)，\( \phi_{1g} = \cdots = \phi_{Kg} \)，\( p_{1g} = \cdots = p_{Kg} \)（所有聚类共享相同参数）。
若 \( \delta_g = 1 \)（判别基因）：\( \mu_{kg}, \phi_{kg}, p_{kg} \) 可随聚类 \( k \) 变化。
先验：\( \delta_g \sim \text{Bernoulli}(\omega) \)，其中 \( \omega \) 是判别基因的先验比例（可设超先验）。

可观测数据： - 研究者能观测到：每个spot的基因表达计数矩阵 \( \mathbf{Y} \in \mathbb{N}^{N \times G} \) 和空间坐标矩阵 \( \mathbf{S} \in \mathbb{R}^{N \times 2} \)。 - 研究者不能直接观测到：聚类标签 \( \mathbf{z} \)、判别基因指示 \( \boldsymbol{\delta} \)、以及ZINB参数 \( \boldsymbol{\mu}, \boldsymbol{\phi}, \boldsymbol{p} \)。这些都是通过贝叶斯推断估计的隐变量/参数。

第二步：讲最小内核¶

最简特例：假设只有 \( G=2 \) 个基因，\( K=2 \) 个聚类，且忽略空间信息（\( \tau=0 \)），忽略零膨胀（\( p_{kg}=0 \)），忽略过离散（\( \phi_{kg} \to \infty \)，即NB退化为Poisson）。那么模型退化为一个Poisson混合模型：

\[y_{ig} \mid z_i = k \sim \text{Poisson}(\mu_{kg}), \quad g=1,2\]

且特征选择问题简化为：判断基因1和基因2是否在聚类间有差异（即 \( \mu_{1g} \neq \mu_{2g} \) 是否成立）。

在这个特例下，核心思路： 1. 聚类：给定数据 \( \mathbf{Y} \)，通过EM算法或吉布斯采样估计每个spot属于聚类1或2的后验概率。由于只有2个基因，聚类边界是二维Poisson均值空间中的一条直线（或曲线，取决于似然比）。 2. 特征选择：对每个基因 \( g \)，计算贝叶斯因子或后验包含概率 \( P(\delta_g=1 \mid \mathbf{Y}) \)。若后验概率 > 0.5，则基因 \( g \) 被选为判别基因。 3. 联合推断：聚类和特征选择是耦合的——若基因1被选为判别基因，则聚类会更多地依赖基因1的差异；反之，若聚类结果清晰，则基因1更可能被选为判别基因。这种耦合通过MCMC采样自然处理：在每次迭代中，先根据当前参数采样聚类标签，再根据聚类标签更新特征选择指示变量。

为什么这个特例抓住了核心： - 即使在这个最简设定下，联合建模（同时聚类和特征选择）与两步法（先聚类再找差异基因）的区别已经显现：两步法可能因为聚类误差而错误识别判别基因，而联合建模允许聚类和特征选择相互校正。 - 扩展到一般情况（ZINB、MRF、高维）只是在这个内核上增加复杂性：ZINB处理零膨胀和过离散，MRF加入空间平滑，高维通过稀疏先验（spike-and-slab）处理。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：提出一个可解释的贝叶斯聚类方法，用于SRT数据的空间域识别和判别基因选择，同时处理计数数据的零膨胀和过离散特性。
核心工具/方法：零膨胀负二项（ZINB）混合模型 + 马尔可夫随机场（MRF）空间先验 + 贝叶斯特征选择（spike-and-slab先验），通过MCMC（吉布斯采样）进行后验推断。
主要结论：在模拟和三个真实数据集（人背外侧前额叶皮层、小鼠嗅球、人乳腺癌组织）上，该方法在聚类准确性（ARI）和判别基因识别（F1-score）上优于现有非空间和空间聚类方法（如BayesSpace、SpaGCN、Seurat）。

关键设定与假设¶

完整设定（在第二节记号基础上补充）： - 数据：\( \mathbf{Y} \in \mathbb{N}^{N \times G} \)，\( \mathbf{S} \in \mathbb{R}^{N \times 2} \)。 - 模型：ZINB混合模型（公式如上），聚类标签 \( \mathbf{z} \) 服从Potts模型。 - 先验： - 混合比例 \( \boldsymbol{\pi} \sim \text{Dirichlet}(\alpha_0, \ldots, \alpha_0) \)。 - 判别基因指示 \( \delta_g \sim \text{Bernoulli}(\omega) \)，\( \omega \sim \text{Beta}(a_\omega, b_\omega) \)。 - 当 \( \delta_g=0 \) 时，共享参数 \( (\mu_{0g}, \phi_{0g}, p_{0g}) \) 服从无信息先验（如 \( \mu_{0g} \sim \text{Gamma}(a_\mu, b_\mu) \)，\( \phi_{0g} \sim \text{Gamma}(a_\phi, b_\phi) \)，\( p_{0g} \sim \text{Beta}(a_p, b_p) \)）。 - 当 \( \delta_g=1 \) 时，聚类特异性参数 \( (\mu_{kg}, \phi_{kg}, p_{kg}) \) 独立服从相同先验。 - 空间平滑参数 \( \tau \sim \text{Gamma}(a_\tau, b_\tau) \)。 - 推断：MCMC吉布斯采样，迭代更新：聚类标签 \( \mathbf{z} \)（通过条件后验，利用Potts模型的局部条件分布）、判别基因指示 \( \boldsymbol{\delta} \)、ZINB参数、混合比例、空间平滑参数。

关键假设： 1. 条件独立性：给定聚类标签 \( z_i \)，spot \( i \) 的基因表达 \( \mathbf{y}_i \) 在基因间条件独立（即ZINB混合模型的乘积形式）。这是强假设，但常见于混合模型。 2. 空间平稳性：Potts模型的平滑参数 \( \tau \) 在整个组织中恒定。这意味着空间平滑的强度在各处相同，可能不适合边界区域（如肿瘤边界）。 3. 聚类数 \( K \) 已知：模型假设 \( K \) 是预先指定的。作者通过比较不同 \( K \) 下的模型选择准则（如DIC、WAIC）或外部指标（ARI）来选择 \( K \)，但未提供自动选择方法。 4. 邻居定义：空间邻居 \( i \sim j \) 基于坐标的k近邻（默认k=6）或Delaunay三角剖分。这个选择会影响空间平滑效果，但作者未做敏感性分析。

相比已有文献的放宽或强化： - 放宽：相比BayesSpace（假设正态分布），本文的ZINB模型更适合计数数据；相比Giotto-HMRF（依赖预降维），本文同时进行特征选择。 - 强化：相比SpaGCN（黑箱图神经网络），本文提供可解释的判别基因列表；相比两步法（先聚类再找标记基因），本文联合建模，避免误差传播。

主要结果¶

模拟研究： - 设定：生成 \( N=500 \) 个spot，\( G=100 \) 个基因（其中10个判别基因），\( K=3 \) 个空间域（圆形、环形、不规则形状）。数据从ZINB分布生成，零膨胀概率 \( p \) 在0.1-0.5之间变化。 - 对比方法：非空间方法（Seurat、SC3）、空间方法（BayesSpace、SpaGCN、Giotto-HMRF）、以及本文方法的消融版本（无特征选择、无空间先验）。 - 结果： - 聚类准确性（ARI）：本文方法在大多数设定下ARI > 0.9，而BayesSpace约0.8，SpaGCN约0.7，Seurat约0.6。当零膨胀概率高（\( p=0.5 \)）时，本文方法的优势更明显（ARI 0.85 vs. BayesSpace 0.65）。 - 特征选择（F1-score）：本文方法在判别基因识别上的F1-score > 0.9，而两步法（先聚类再DESeq2）的F1-score约0.7。当判别基因数量少（如5个）时，本文方法仍能准确识别。 - 空间平滑效果：消融实验显示，加入MRF先验使ARI提升约0.1-0.15，尤其在空间域边界不规则时。

真实数据应用： 1. 人背外侧前额叶皮层（DLPFC）数据（Maynard et al., 2021）： - 数据：12个组织切片，每个约4000个spot，\( G=33538 \) 个基因。有手动注释的6层皮层结构作为金标准。 - 结果：本文方法的ARI（平均0.62）高于BayesSpace（0.55）、SpaGCN（0.50）、Seurat（0.45）。识别的判别基因（如层特异性标记基因）与已知生物学一致（如层2/3的CUX2、层5的PCP4）。 - 这个例子想说明：方法能在真实复杂组织（皮层分层结构）中准确恢复已知空间域，并识别有生物学意义的标记基因。

小鼠嗅球数据（Ståhl et al., 2016）：
数据：一个组织切片，约2000个spot，\( G=16239 \) 个基因。已知有4个主要区域（颗粒细胞层、僧帽细胞层、外丛状层、嗅神经层）。
结果：本文方法的ARI（0.78）高于BayesSpace（0.70）、SpaGCN（0.65）。识别的判别基因包括已知嗅球标记（如Pcp4、Gabra1）。
这个例子想说明：方法能处理小样本（2000个spot）且空间域形状不规则的数据。
人乳腺癌组织数据（10x Visium公开数据）：
数据：一个组织切片，约3000个spot，\( G=18085 \) 个基因。无金标准，通过病理学家注释的肿瘤区域和正常区域进行定性评估。
结果：本文方法识别的肿瘤区域与病理注释高度一致，且判别基因列表包含已知乳腺癌标记（如ERBB2、MKI67）。相比之下，SpaGCN将肿瘤区域过度分割为多个小域。
这个例子想说明：方法在无金标准的真实数据中仍能产生生物学合理的聚类，且判别基因列表可用于下游分析（如通路富集）。

证明路线与技术技巧¶

整体路线（MCMC推断的3-5步逻辑主干）： 1. 初始化：通过K-means（基于PCA降维后的前20个主成分）初始化聚类标签 \( \mathbf{z}^{(0)} \)，所有 \( \delta_g^{(0)} = 1 \)（假设所有基因都是判别基因），ZINB参数通过矩估计初始化。 2. 更新聚类标签：对每个spot \( i \)，从条件后验分布采样 \( z_i \)：

\[P(z_i = k \mid \text{rest}) \propto \pi_k \cdot \prod_{g=1}^G \text{ZINB}(y_{ig} \mid \mu_{kg}, \phi_{kg}, p_{kg}) \cdot \exp\left\{ \tau \sum_{j: j \sim i} \mathbb{I}(z_j = k) \right\}\]

这一步利用Potts模型的局部马尔可夫性，只需考虑邻居的当前标签。 3. 更新判别基因指示：对每个基因 \( g \)，计算后验概率 \( P(\delta_g=1 \mid \text{rest}) \)：

\[P(\delta_g=1 \mid \text{rest}) = \frac{\omega \cdot L_g^{(1)}}{\omega \cdot L_g^{(1)} + (1-\omega) \cdot L_g^{(0)}}\]

其中 \( L_g^{(1)} = \prod_{i=1}^N \text{ZINB}(y_{ig} \mid \mu_{z_i g}, \phi_{z_i g}, p_{z_i g}) \)（聚类特异性似然），\( L_g^{(0)} = \prod_{i=1}^N \text{ZINB}(y_{ig} \mid \mu_{0g}, \phi_{0g}, p_{0g}) \)（共享似然）。这一步是特征选择的核心：比较“基因在不同聚类中分布不同”与“基因在所有聚类中分布相同”的似然比。 4. 更新ZINB参数：对每个聚类 \( k \) 和基因 \( g \)（若 \( \delta_g=1 \)）或对所有聚类共享（若 \( \delta_g=0 \)），从条件后验采样 \( \mu_{kg}, \phi_{kg}, p_{kg} \)。由于ZINB分布没有共轭先验，使用Metropolis-Hastings步骤（随机游走提议）或自适应拒绝采样。 5. 更新空间平滑参数 \( \tau \)：从条件后验采样 \( \tau \)，使用Metropolis-Hastings（提议分布为对数正态）。

关键跳跃点： - 跳跃点1：ZINB参数的后验采样。ZINB分布没有共轭先验，因此不能直接吉布斯采样。作者使用数据增广技巧：引入潜在变量 \( w_{ig} \) 表示dropout事件（\( w_{ig}=1 \) 表示零来自零膨胀部分，\( w_{ig}=0 \) 表示零来自NB部分）。给定 \( w_{ig} \)，NB部分的参数可以通过共轭Gamma先验更新（若使用对数链接的NB回归）。但作者未明确说明是否使用数据增广，而是直接使用Metropolis-Hastings。 - 跳跃点2：Potts模型的归一化常数。Potts模型的归一化常数 \( Z(\tau) \) 难以计算，但吉布斯采样只需条件后验（局部马尔可夫性），因此不需要计算全局归一化常数。这是MRF在贝叶斯聚类中常用的技巧。 - 跳跃点3：高维特征选择的可扩展性。当 \( G \) 很大（如3万）时，每次迭代更新所有基因的 \( \delta_g \) 计算量大。作者可能使用并行更新（每个基因独立更新，因为给定聚类标签后基因间条件独立）或随机子集采样，但文中未明确说明。

技术技巧点名： - 数据增广（潜在变量）：用于处理ZINB的零膨胀部分（将零分为“结构零”和“采样零”），简化参数更新。这是ZINB模型的标准技巧（如Risso et al., 2018的ZINB-WaVE）。 - Metropolis-Hastings：用于更新ZINB参数和空间平滑参数 \( \tau \)，因为条件后验不是标准分布。 - Potts模型的局部马尔可夫性：避免计算全局归一化常数，使吉布斯采样可行。 - Spike-and-slab先验：用于特征选择，通过后验包含概率 \( P(\delta_g=1 \mid \text{data}) \) 识别判别基因。这是贝叶斯变量选择的经典工具（如George & McCulloch, 1993）。

真实例子与应用¶

已在上文“主要结果”中详细描述。本文为应用型论文，包含三个真实数据集（DLPFC、小鼠嗅球、乳腺癌），每个都展示了方法在聚类准确性和判别基因识别上的优势。

🔎 结论是否比证明窄¶

窄结论1：作者声称“方法在聚类准确性上优于现有方法”，但模拟中只比较了有限几种设定（\( N=500, G=100, K=3 \)）。在真实数据中，DLPFC的ARI仅0.62（比BayesSpace高0.07），这个提升在统计上是否显著？作者未提供置信区间或重复实验。
窄结论2：作者声称“特征选择机制自动识别判别基因”，但模拟中判别基因数量固定为10个（占10%）。当判别基因比例极低（如1%）或极高（如90%）时，方法表现如何？未测试。
窄结论3：作者假设聚类数 \( K \) 已知，但在真实数据中 \( K \) 是手动选择的（通过比较不同 \( K \) 下的ARI或DIC）。这在实际应用中是一个额外步骤，且可能引入主观性。作者未提供自动选择 \( K \) 的准则。
泛化claim：作者在结论中说“该方法适用于各种SRT平台”，但只测试了10x Visium数据（DLPFC和乳腺癌）和ST数据（小鼠嗅球）。其他平台（如MERFISH、Slide-seq）的数据特性（如更高分辨率、不同噪声结构）未验证。

四、开放问题（点到为止，扎根具体语句）¶

自动选择聚类数 \( K \)：本文假设 \( K \) 已知，但实际应用中需要手动选择。作者在模拟中说“我们比较了不同 \( K \) 下的ARI”，但未提供贝叶斯模型选择准则（如DIC、WAIC）的自动实现。扎根点：Section 3.1（模拟设定）中“We set the number of clusters \( K=3 \)”。未来工作可开发一个可逆跳MCMC或狄利克雷过程混合模型来自动确定 \( K \)。
空间平滑参数 \( \tau \) 的敏感性：Potts模型的平滑强度 \( \tau \) 通过MCMC估计，但后验分布可能对先验选择敏感。作者在Section 2.3（先验设定）中设 \( \tau \sim \text{Gamma}(0.1, 0.1) \)，但未做敏感性分析。扎根点：Section 2.3中“We assign a Gamma(0.1, 0.1) prior for \( \tau \)”。未来工作可研究 \( \tau \) 的后验可识别性，或使用经验贝叶斯方法。
高维可扩展性：当基因数 \( G \) 很大（如3万）时，MCMC每次迭代更新所有基因的参数计算量大。作者在真实数据中使用了“前2000个高变基因”作为预处理（Section 3.2），但未讨论全基因组的可扩展性。扎根点：Section 3.2中“We selected the top 2000 highly variable genes”。未来工作可开发变分贝叶斯或随机梯度MCMC来扩展到全基因组。
空间域边界的建模：Potts模型假设空间平滑性在整个组织中恒定，但边界区域（如肿瘤-正常交界处）的平滑性应较弱。作者在Section 2.2（空间先验）中承认“the Potts model may oversmooth boundaries”，但未提出解决方案。扎根点：Section 2.2中“The Potts model encourages spatial smoothness, which may blur boundaries between domains”。未来工作可引入边界检测先验（如edge-preserving MRF）或空间自适应平滑参数。

Maintained by 陈星宇 · Homepage · Source on GitHub