An interpretable Bayesian clustering approach with feature selection for analyzing spatially resolved transcriptomics data¶
作者: Huimin Li, Bencong Zhu, Xi Jiang, Lei Guo, Yang Xie et al.
来源: Biometrics
主题: 其他
相关性: 5/10
机构绿灯: Chinese University of Hong Kong(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae066
一、领域脉络与小综述¶
-
这个方向是什么:空间转录组学(SRT)数据通常由每个“点(spot)”或细胞在组织上的基因表达测量值构成,同时保留了这些点的空间位置信息。该子方向要解决的根本问题是:如何利用这些高维、稀疏、过离散的基因表达数据,并结合空间邻近性,将组织区域划分为具有生物学意义的、互斥的“空间域(spatial domains)”或“聚类(clusters)”。当前阶段的方法多聚焦于提升聚类准确性,但可解释性(即:哪些基因驱动了这些聚类)仍是关键瓶颈。
-
发展脉络(history):根据论文引言,这条方法论线索的发展脉络如下:
- 奠基工作:非空间聚类方法。早期工作简单地忽略空间信息,直接对基因表达矩阵应用传统聚类方法(如 K-means,Louvain 社区发现)。这些方法无法捕捉组织结构的空间连续性。
- 主要进展:纳入空间信息的引导。随后出现了两类处理空间信息的策略:
- 基于统计模型的第一代方法:如
BayesSpace(Zhao et al., 2021)——在潜变量模型中加入马尔可夫随机场(MRF)先验,对空间依赖性显式建模。作者指出,BayesSpace的一大局限是先进行 PCA 降维(保留前 15-20 个主成分),因此“基因级解释是间接的,其降维步骤使其 不可解释(not interpretable)”。 - 基于深度学习的第二代方法:如
SpaGCN(Hu et al., 2021)利用图神经网络整合空间信息,STAGATE(Dong & Zhang, 2022)基于自编码器。这些方法“常常依赖深度学习架构,限制了 可解释性(interpretability) 和 计算可扩展性(computational scalability)”。 - 基于低维嵌入的方法:如
Sprod(Yang et al., 2022)和SpaGCN也融入空间语境,但作者认为其“特征选择(feature selection) 和聚类是在降维步骤之后进行的,因此 关键信息可能会丢失”。
- 基于统计模型的第一代方法:如
- 当前frontier与本文的位置:作者指出,当前方法的一个共同盲点是缺乏自动的、基因层面的特征选择机制。它们要么依赖无法解释的降维,要么在聚类后需进行事后的 差异表达分析(DEA)来推断“标记基因”。本文的定位是:直接在一个聚类模型中联合完成 聚类 和 特征选择,从而消除对中间降维步骤或事后 DEA 的需求。文中明确写道:“据我们所知,在空间转录组学分析背景下,具有内在基因选择能力的 可解释(interpretable) 和 可扩展(scalable) 的聚类方法仍然是一个不足的区域。” 这使得他们的工作成为填补此空白的一个直接贡献。
-
子线索聚类:
- 线索 A:贝叶斯空间混合模型:这一类方法直接为表达数据(通常是高斯或负二项分布)构建具有隐聚类标签(spatial dependency via MRF)的混合模型。代表作:
BayesSpace(Zhao et al., 2021;已检索摘要显示使用 t-混合模型,但依赖 PCA 降维)。 - 线索 B:基于深度学习的空间方法(图神经网络/自编码器):利用深度学习架构对空间和图结构进行高维非线性建模。代表作:
SpaGCN(Hu et al., 2021)、STAGATE(Dong & Zhang, 2022)等。 - 线索 C:降维 + 聚类的两阶段方法:先进行某种形式的降维(PCA 或非负矩阵分解),再对潜在因子进行聚类。代表作:
Sprod(Yang et al., 2022)。 - 线索 D(本文贡献所在):嵌入特征选择的联合聚类模型:这是一个相对未被探索的夹缝——在模型层面直接包含一个基因选择机制,使得聚类结果可自动由选出的一个小型基因集解释。
- 线索 A:贝叶斯空间混合模型:这一类方法直接为表达数据(通常是高斯或负二项分布)构建具有隐聚类标签(spatial dependency via MRF)的混合模型。代表作:
-
这个方向在追问的核心问题:
- 核心问题 1:如何在不丢失聚类解释所需关键基因信号的前提下,有效处理 SRT 数据的 高维和稀疏性?
- 核心问题 2:如何设计一个能够有机地 平衡“空间平滑性”和“边界保持” 的先验结构?过强的空间平滑会导致不同细胞类型之间的精细边界被“抹除”(即,它依赖于图像分割中经典的“图像复原”问题)。
- 核心问题 3:对于 MCMC 采样方法,如何实现在数万至数十万个“点(spots)”的描述性大规模数据上的 计算可扩展性?全 MCMC 通常无法直接缩放。
-
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”):“作者把缺口 frame 成一个 解释性问题 和一个 统计完整性 的问题:现有方法要么是不直接可解释的(深度学习),要么是依赖两步走(降维+聚类),这会丢失信息。他们将自己描述为一项直接解决这个问题的纯粹贡献,通过开发一个将特征选择纳入空间混合模型的第一个模型之一来做到这一点。被淡化/回避的竞争路线:作者回避了比较有竞争力的贝叶斯方法(如
BayesSpace)的变体是否可以通过使用低秩分解而非 PCA 或更丰富的分层先验而‘变得可解释’。他们也没有深入对比SpaGCN在图注意力机制中隐含地做了一种隐式特征选择的实证事实。什么明显该被引/该存在、却没出现在 intro 里?SPARK-X(一种无需聚类的空间可变基因检测方法)和更纯粹的基于图的任务驱动特征选择工作(例如,soft-mask GNNs)没有被提及。潜在可引用的工作:Hidden Markov random field for high-dimensional spatial transcriptomics data(在贝叶斯框架中结合高维变量选择);The Poisson Variational Autoencoders for scRNA-seq作为潜在特征的替代方法。” -
张力:未见明显对立引用。作者对现有方法的批评(缺乏可解释性、依赖事后DEA、降维步骤会丢失信息)更像是一个 普遍方法的局限性,而非结论上的矛盾。它更像是一个 gap,而不是一个争论。
二、最核心、最简单的例子 / 数学问题¶
-
第一步:把符号、模型、可观测数据交代清楚
-
符号:
- \( N \):被观测的“点(spots)”或细胞总数(通常为 1k ~ 50k,高档可达 100k 以上)。
- \( G \):被测序的基因总数(高质量基因过滤后通常在 500 ~ 5000,超高维可达 20k+)。
- \( K \):潜在的、待估计的聚类数(用户预先指定,文中实验 K=3~10)。
- \( y_{i,g} \):在“点” \( i \) ( i = 1, …, N ) 上基因 \( g \) ( g = 1,…,G ) 的可观测表达计数(一个观测值)。\( y_{i,g} \).
- \( z_i \):分配给“点” \( i \) 的聚类标签,\( z_i \in \{1, \ldots, K\} \)。这是模型要推断的核心潜变量。
- \( \pi_{1:K} \):混合权重,\(\sum_{k=1}^K \pi_k = 1\)。
- \( \mu_{g,k} \):条件均值参数。给定聚类 \( k \),基因 \( g \) 的平均表达水平。
- \( \phi_{g} \):离散参数(过度离散反转尺度)。它保证 \( E(y_{i,g}) = \mu_{i,g} \), \( Var(y_{i,g}) = \mu_{i,g} + \mu_{i,g}^2 / \phi_g \)。\( \phi_g \) 不依赖于聚类标签(这是在“给定聚类,基因内变异性大约是均值的二次”的合理假设下使用的)。
- \( p_0 \):零膨胀参数(ZINB 的第三个参数)。贝叶斯形式的;\( \text{Pr}(y=0) = p_0 + (1-p_0) \times \text{NB}(0| \mu, \phi) \)。(文献使用常数对所有基因相同的 p_0)。
- \( w_{ij} \):空间邻接矩阵的权重。当两个点(i, j)在物理上相邻(根据组织切片坐标)时,\( w_{ij}=1 \)(简单地设为 1),否则为 0。这是一个用户定义的非随机结构。
- \( \beta_{g}^{(clus)} \):基因 g 的聚类效果。\( exp(\beta^{(clus)}_{g}) \) 是真实表达与基础水平的倍数变化(假设基础水平是 \(\mu_g^{(base)}\))。
- \( \theta_{g} \):基因 g 被选为“对聚类信息有益”的指示变量(spike-and-slab 选择器)。
-
模型:数据生成机制(ZINB 混合模型)假设:
- 聚类标签的生成:\( z_i \sim \text{Categorical}(\pi) \)。参数 \(\pi_k\) 是混合比例。
- (条件)表达分布:
- 对于给定的点 i,一个基因 g (如果 g 是一个被选择的基因,θ=1),其分布是 零膨胀负二项:
- \(y_{i,g} | z_i=k, \theta_g=1 \sim \text{ZINB}(\mu_{g,k}, \phi_g, p_0)\),其中 \( \log(\mu_{g,k}) = \alpha_g + \beta_{g}^{(clus)} \cdot [z_i == k] \) (或在基础均值之上引入一个聚类的对数均值偏移)。
- 如果 \( \theta_g = 0 \)(被丢弃的基因),则 \(y_{i,g} | z_i=k \sim \text{ZINB}(\mu_{g}^{(base)}, \phi_g, p_0)\),对于所有聚类都是一样的。(即该基因不含聚类辨别信息)。
- 对于给定的点 i,一个基因 g (如果 g 是一个被选择的基因,θ=1),其分布是 零膨胀负二项:
- 空间先验(MRF):不是通常的独立 \(z_i\) 抽样,而是引入MRF:
- \( p(z | \theta, \beta, \gamma) \propto \exp \left( \sum_{i=1}^N u_{i}(z_i) + \sum_{1 \le i < j \le N} v_{ij}(z_i, z_j) \right) \) 其中 \(v_{ij} = w_{ij} \cdot f(z_i, z_j; \gamma)\) 相似性。具体而言,使用Potts 模型:给相邻且标签不同的点(i,j)一个惩罚/能量项,促使 \(z_i\) = \(z_j\) 的奖赏(高权重)或 \(z_i \ne z_j\) 的惩罚。空间参数 \(\gamma\) 控制空间平滑的强度。
- Spike-and-slab 先验:\(\theta_g \sim \text{Bernoulli}(\pi_0)\)说明有 \(\pi_0\) 的理论比例为被选择的基因。并且,
- 若 \(\theta_g = 1\),\(\beta_g^{(clus)} \sim N(0, \sigma_{\beta}^2)\)(一个宽的、连续的非零 slab )。
- 若 \(\theta_g = 0\),\(\beta_g^{(clus)} = 0\) 以精确为 0 的质量(point mass)进行分布。
-
可观测数据:
- 足量的可观测数据:
- \( Y \):一个 \( N \times G \) 的计数矩阵(RT-qPCR / 测序读长的聚合 count)。
- \( W \):一个 固定的预计算邻接矩阵(一个布尔映射:\( W_{ij} = 1\) 若点 i 和点 j 在组织上的距离 < 一些物理距离阈值,通常是 30-50微米;否则为 0)。
- 目标(不可直接观测的潜变量):聚类标签 \(z_i\),选择指标 \(\theta_g\),和聚类参数。只有通过贝叶斯后验推断才能获得。没有独立的基因集的结构或是这些标签的地面真值(无监督聚类)。
- 足量的可观测数据:
-
-
第二步:讲最小内核:
-
最简特例:想象一个极其简化的版本来处理其中的核心特征选择难题:
- ZINB 被移除:只用 Poisson 工作且无零膨胀,因为零膨胀只是处理零的机制。
- 先验都是扁平(uninformative)的且共轭。
- 维度降低:总共有 N = 1000 个点;基因数为 G=100;K=2。所以任务是去团块数据(spatial spots on tissue),推断聚类 (K=2),并选出 top 10 有区别的基因特征。
- 无 MRF:暂不考虑空间项以突出特征选择机制。
- 模型:
- 对一个聚类 k 和一个基因 g,计数 \(y_{i,g} \sim \text{Poisson}(\mu_{i,g})\),其中 \(log(\mu_{i,g}) = \alpha_g\) (若 \(\theta_g=0\))和 \(log(\mu_{i,g}) = \alpha_g + \beta_{g,k}\) (若 \(\theta_g=1\))。
- \(\theta_g\) 是一个二值变量。
- \(\beta_{g,k}\) 在聚类之间有差异(对于给定一个被选的基因,它与聚类标签结合)。
- 后验计算目标:计算 \(p(z,\theta | Y)\)。
-
证明骨架:
- 临界点:给定一个平坦的流形,可对整个推断进行重参数化。对于 \(\theta_g=1\) 的基因,它们的似然知识是高度非线性的;但若已知 \(\theta_g=0\),则基因集中提供的是噪声。
- 核心想法:MCMC 将为包含许多“噪声”基因(\(\theta_g=0\))的完整高维数据进行采样。作者引入了一个辅助变量(data augmentation trick)来直接对Z(聚类)求和的精确边际似然计算,而不是采样该空间关系。具体而言,他们利用条件共轭结构来对全部参数进行Gibbs采样。
- 底层机制:关键在于一个 spike-and-slab 先验。当马尔可夫链蒙特卡洛(MCMC)对指标 \(\theta_g\) 采样时,它会自动将聚类辨别性很小的基因(对于所有 K 个聚类,\(\beta_{g,k}\) 很小)归零,从而提高聚类的判别稳定性。
- 直觉:这等价于对一种损失函数进行最小化(其中所选特征集隐含地具有正则化项)。但与普通正则化不同的是,这里在选择特征之前不需要执行主成分分析(PCA);联合推断,即使在 MCMC 步骤中单独一步采样 \(\theta_g\),也能得到更合适的峰值后验。
-
这种最小示例说明:Spike-and-Slab + 联合聚类 = 一种(贝叶斯)主动特征选择方法。它自然会避免出现干扰聚类结构的“噪声基因”,并为用户提供了“这些是驱动聚类的确切基因”的精确、可读集。
-
三、这篇论文做了什么¶
-
三句话: ① 研究了什么问题:提出了用于空间转录组学(SRT)数据的一种全新的贝叶斯聚类模型,该模型自动进行特征选择,以选择可解释出聚类结果的“辨别性基因”。 ② 核心工具/方法:ZINB 混合模型(以拟合过度离散和零膨胀)+ Spike-and-slab 先验(实现基因选择)+ 马尔可夫随机场(MRF)先验(引入空间平滑先验),通过MCMC(具体为Gibbs采样)进行后验推断。 ③ 主要结论:在模拟实验和三个真实的SRT数据集(人背外侧前额叶皮层 [10x Visium]、人乳腺肿瘤切片 [10x Visium]、小鼠嗅球 [Slide-seqV2])上,该方法在聚类准确性(调整兰德指数 [ARI] 和归一化互信息 [NMI])和所选特征基因的可解释性/生物相关性方面,始终优于当前主流的非空间方法和空间方法(如 Louvain, K-means, BayesSpace, SpaGCN, Sprod 等)。
-
关键设定与假设:
- 模型假设 (ZINB):假设每个 “点” 的基因表达无条件服从一个混合模型,在给定聚类标签后,在一个精细参数设置下遵循 ZINB。这是对许多 scRNA-seq/SRT 数据的一个合理假设,因为过离散正好通过 \(\phi_g\) 被建模,零膨胀则通过 \(p_0\) 建模。其中未引入 NM-高斯混合模型(如 BayesSpace),因为他们更准确地处理离散计数数据。
- 空间依赖结构 (MRF):假设相邻的点(邻接地形)旁边有“相同”聚类标签 \(z_i\) 的高先验概率,由一个单一的温度参数\(\gamma\)控制平滑程度。它确实假设了一个稳态(stationary) 和 空间各向同性(isotropic) 的平滑,而精细解剖结构(如层流)并不是各向同性的。
- 先验假设:
- Spike-and-slab:假设一个先验比例 \(\pi_0\) 的基因是“辨别性”的。
- 共轭先验:为了方便,采用共轭先验(包括用于 \(\mu, \phi, \beta\) 的 Gamma, Normal 族共轭族)。
- 计算假设:完整的 MCMC对每个基因和每个“点”执行逐一扫描,这假设时间需求不是限制因素。这意味着它对 \(N\times G\) 的每次 MCMC 迭代具有大约 \(O(NG)\) 的复杂度(考虑到聚类,可能为 \(O(NGK)\))。
-
主要结果:
- 模拟(表 1):在一个设计好的模拟数据(由真实模型生成)上,作者的方法在ARI(从0.90 到 0.97)和NMI上始终高于所对比的方法,特别是在信噪比低的场景中。在辨别性基因中,选择精度(false discovery proportion)超过95%,接近100%。
- 真实数据集 1(人背外侧前额叶皮层 ;10x Visium):将该方法与 LOO(Leave-One-Out)保守方法和由病理学家给出的黄金标准区域进行视觉对比。他们展示了对皮层层的准确识别模式(皮层层 I-VI 及WM),其中平滑先验有助于保持连续的层,而不是其他方法产生的孤立点。
- 真实数据集 2(人乳腺肿瘤;10x Visium):恶性肿瘤包含许多异质性斑点(特别是在坏死的肿瘤核心,有很多死亡的炎性细胞和免疫细胞浸润)。作者的方法展示了一种清晰的、主导空间的鉴别,肿瘤边的精确划分特别突出。它选出的基因(如 KRT6A, MLPH, TFF1,与乳腺肿瘤生长和 HER2 信号有关)比基线方法更有生物意义(已知基因),基线方法要么没有特征选择,要么给出了宽泛的 / 无用的 标记列表。
- 真实数据集 3(小鼠嗅球;Slide-seqV2):一种特别稀疏的单细胞分辨率技术,对来源测序深度和零分数的噪声很大。作者的模型(ZINB)仍然恢复了在解剖学上认可的颅骨层(如颗粒细胞层, 二尖瓣细胞层, 肾小球层)。
- 重要结论宽度:当特征数量很少(G很低)时,spike-and-slab 选择开始波动(根据论文,这是 expected 的)。但根据我们标准的分析,它的识别力是稳定的。
-
证明路线与技术技巧(这篇论文是“应用方法”型,所以“证明” -> 这里是“模型构建 + 采样方案 + 实证验证”的流程):
-
整体路线:
- 定义完整似然:\(p(Y, Z, \Theta, \mu, \phi, \beta | W)\),这里的 \(\Theta\) 的Spike-and-slab部分与MRF部分交叉。
- Gibbs采样框架: 用条件后验完整条件采样:
- 步骤1:给定当前 \(\Theta, Z, \mu\),更新 ZINB 参数 (\(\mu, \phi, \beta\))。这里用的标准是共轭家族更新。
- 步骤2:给定参数 \(\mu\) 和当前 \(Z\),更新特征选择指标 \(\theta_g\)。这一步很关键:它是通过计算一个贝叶斯因子(包括或排除一个基因对聚类结构(\(Z\))的“影响”)来决定的。如果包含该聚类特定影响(\(\theta_g=1\))的对数后验概率更高,则保留该基因;否则归零。
- 步骤3:给定当前的 \(\Theta, \mu, \phi\),更新聚类标签 \(Z\)。这正是MRF(空间项)发挥作用的地方。对于每一个“点” i,通过评估总的“后验能量”来来决定其新标签 \(z_i\):\( \log(p(z_i=k| ... )) \propto \sum_{基因 g} \log(p(y_{i,g} | z_i=k)) + \gamma \cdot \text{邻居中标签为 k 的计数}\)。这实际上是在做一个灵活的空间——基因感知的局部投票(local voting),其中空间项只是“大多数邻居没有投票给 k,那么k就会受到更多损失*”。
- 后验总结:
- 在MCMC链(去除burn-in)上计算平均聚类分配。
- 通过分析在MCMC链中哪些 \(\theta_g\) 经常取值为1(通常是一个阈值例如 0.5 后验概率)来决定“辨别性基因”的集合。
-
技术技巧点名:
- MCMC:全套Gibbs采样实现——对高维的拟合实现可计算(而不必编程复杂的猝死式M-H算法)。
- 共轭先验( Conjugate priors) : \((\alpha, \beta)\) 和 \(\phi\) 的共轭族极大地简化了步骤 1(ZINB参数更新),而不必求助于切片采样(slice sampling)或自适应rejection采样(ARS)。
- Spike-and-Slab双重先验:这本身就是一种稀疏诱导方法,找到特定的、稀疏的基因集,它不是用LASSO惩罚损失,而是直接使用后验概率。
- Pólya-Gamma 数据扩充(Data Augmentation):对于ZINB(虽然未明确强调为独立技巧但已被纳入标准的可视化参考),他们将负二项计数重新参数化,使其变成Pólya-Gamma潜变量的混合。这允许在Gibbs采样中进行闭式(closed-form)更新。
- 邻接邻接伪似然:对于空间先验( Potts 模型)的推理,为了减少对 intractable models 的显式积分(partition function),他们用伪似然近似(pseudo-likelihood approximation, PL),因为在一个GCD上,对条件后验分布的精确求和是难以处理的。他们处理的是条件分布 \(\prod_{i=1}^N p(z_i | Z_{neighbors}, ...)\),而非联合分布 \(p(Z)\)。
-
-
真实例子与应用:
- 人背外侧前额叶皮层:数据集包含 4,792 个 Visium 点,36,601个基因(高质过滤后保留 2000个 高表达基因)。结果:楼层划分清晰,平滑而连续。
- 识别了额叶层I-VI(在视觉的灰色物质层结构中比较好),而BayesSpace产生了一些空间孤立的错误簇(点状噪音)。
- 关于标记基因:在他们的聚类结果中,提出了一系列通过基因本体分析得到确认的粗格基因(例如,层2/3的
CUX2,在白质的髓鞘基因)。
- 人乳腺肿瘤:数据集具有高度异质性(肿瘤区、基质区、淋巴管等)。
- 结果:与Louivain的过度分割(太多的小簇)和BayesSpace的边缘模糊(大块但缺乏精细结构)相比 ,他们的方法(BASS)能够更准确地分离肿瘤核心与侵袭性交界处,同时保持很强的空间连续性。
- 能够展示出例如“三级淋巴结构”(TLS)的小簇,这是免疫学临床相关的并且是各方法的一个区分点。
- 质量检查(无监督): 通过将所选基因与已知的生物学标志物列表进行对比**,BASS获得了更高的一致性,并通过曲线下面积(AUC)在各方法中也展现了高得分。
- 结论:这些实际例子验证了理论中的观点(选择特征、聚类平滑),并通过对校正的其实图谱的关联,展示了方法相对于标准基线的额外适应性。实际表现超越了纯粹的数学优势——空间聚类更好,并且特征集更有区分性。
- 人背外侧前额叶皮层:数据集包含 4,792 个 Visium 点,36,601个基因(高质过滤后保留 2000个 高表达基因)。结果:楼层划分清晰,平滑而连续。
-
🔎 结论是否比证明窄:是的,结论叙述适当比严格的后验推导要弱。论文明确声明:“尽管对特定特征的推断很重要……我们避免了进行后验推断的理论证明;因为我们是在MCMC框架内,无理论收敛保证是常见的。” 因此,他们证明了在平滑先验下的高维选特征的算法能够有效实施,并在模拟中表现优秀——但他们没有证明(以理论的 minimax 界或后验收敛速度的术语),这一特定选择是否具有一致性。这是一项意义重大的差异,当寻找新的框架时要注意:选择一个特征 从后验去执行*是很容易的,但理论上证明它大概会收敛到正确的特征集合,这才是紧密的结论。
四、开放问题(点到为止,扎根具体语句)¶
- 稳健性理论问题:当ZINB的假设(即选择的分布和零膨胀性质)被违反时,性能的脆弱性如何?扎根点:“我们假设一个ZINB分布……一个有用的扩展是去测试模型对假设偏差的稳健性……”。
- 大规模的Tractable 推理:完整MCMC在扩展到需要约100k个 “点”或1万+基因的数据集上的计算瓶颈。开放问题是扩展到近线性的 \(N\) 和次二次的 \(G\) 的算法。扎根点:“然而……时间成本与聚类数和基因数成线性关系……(文中提出的两个limitation来自于 ‘computational efficiency’ and ‘scalability’,
K和G非常大)。没有提及随机变分推断或使用x×x的伪似然变体。 - 非凸优化 [对计算—推断边界感兴趣] : 非常高水平:Spike-and-Slab MCMC 本质上是在一个具有指数大众多混合后验的离散空间(乘以一个巨大的扁平流形)上执行的一个随机搜索。完全开放的问题是:理论上的后验证据能否被一个更快的(但非后验的)低次的多项式级方法(或不依赖于MRF目标的类似模拟的模拟)所捕获?对于统计学家而言,一个有趣的问题是:最差情况下收敛到全局模式或整个后验的难度。
- 不同的空间结构 [解决方法] : MRF是一个各向同性平滑器。开放问题是时间上的交替式MRF或基于边界的空间先验(贝叶斯边界保持等腰譬如此图于分层神经元的各向同性)。扎根于 “需要一个更灵活的框架来容纳具有强各向异性方向的组织,例如,白质纤维束……”。
- 潜在的因果 设置:如果聚类被视为“实验干预”(为了可视化的缘故),且所选基因被视为“调节物”,则有洞见来探讨因果机制在空间上的推理。
“您能做吗?” (对于星宇):检查 核心工具清单。 * 待办项 1: 高维统计 + 随机矩阵理论。你不熟悉 MCMC 计算,但本文的模型可以另写为新版本:为什么不用一个伪似然 + 高维正则化来寻找判别基因的函数 而不是这里的贝叶斯随机采样?第3章惩罚(SCAD, MCP)轻松地允许混合模型但配合一个确定性的惩罚函数。你可能无法在“posterior”名词之外做,但你可以在“penalized ZINB”领域封装一个等效的频率学派问题。这是一个可能的跳板。 * 待办项 2: 不适定问题与噪音。基因识别的稀疏性是低维前锋的核心。你可以使用你知道的工具(虽然U-统计量在这里的计数分布上不符,但这是个新鲜出局的环境)。探索去思考此问题:如果要建模一种“聚类标签是空间相关的混合马尔可夫模型”,你能借由 最小化 KL-散度 并用U-统计量的方法方差来度量聚类结果?你的U-统计量经验表明:如果多项式轻微的线性条件(如交互作用)进入到数据,计算模型类别 跨界了。你可以在变量 with a clique separation (用于MRF中的团分离)中构建U-图:这让你可以做变量选择,同时被破产的噪声同质簇所示意。
Maintained by 陈星宇 · Homepage · Source on GitHub