Spatially aware adjusted Rand index for evaluating spatial transcriptomics clustering¶
作者: Yinqiao Yan, Xiangnan Feng, Xiangyu Luo
来源: Biometrics
主题: 其他
相关性: 2/10
机构绿灯: Fudan University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf127
一、领域脉络与小综述¶
这个方向是什么¶
空间转录组学(ST)聚类评估,是一个正在迅速成型的方法学子领域。其根本问题是:当研究者手头有多种ST聚类算法(如基于空间坐标的HMRF、基于基因表达的无监督学习、或基于自编码器的深度方法),如何在有ground truth(模拟数据)或没有ground truth(真实数据) 的情况下,公正地比较不同算法的聚类结果?一个优秀的评估指标应当既能反映聚类在“类别标签”上的准确度(此为经典指标的任务),又能反映聚类在空间结构上的连贯性(此为ST数据独有的需求)。目前,该子领域的成熟度尚处于“经典指标被直接挪用,但明显失配”的阶段,这篇论文正是针对这一失配的首次系统技术回应。
发展脉络(history)¶
从论文引言与参考文献串起来的线条如下:
- 奠基工作(1970s–2000s):Hubert & Arabie (1985) 提出了经典的调整Rand指数(ARI),其核心思想是:用超几何分布下的期望对原始RI做“偶然调整”,使得随机分区下ARI的期望为零。该指标的强大之处在于它不依赖特定的聚类算法、可比较任意两个分区,因此在聚类评估中几乎成为默认标准。但是,它完全不考虑对象之间的空间距离,对于ST数据,两个空间上相距很远的点在ARI中被赋予与相邻点相同的权重,这显然不合理。论文引用中提到了这一点:“ARI totally ignores the spatial information in ST data”。
- 主要进展 / 直接竞争者(2019–2022):随着ST技术(如10x Visium、Slide-seq)的发展,一批ST聚类方法涌现出来。论文引用了部分ST聚类方法的基准测试文献,如Tian et al. (2019)、Li et al. (2022)等,这些基准测试都使用ARI作为主要评估指标,但作者指出“the widely used metric, adjusted Rand index (ARI), totally ignores the spatial information in ST data”。这意味着整个基准测试社区都在使用一个并不适合的工具。此外,一些工作尝试在聚类本身中加入空间信息(如BayesSpace, Zyla等),但在评估阶段仍然回归到ARI——这是个明显的断线:方法用空间,评估却忘空间。
- 当前frontier(2022–至今):这一领域的评估侧,目前基本只见到极少数尝试定义“空间连贯性”的指标,比如基于silhouette score的变种,或基于空间相邻图(spatial adjacency graph)的修正指标,但都没有系统性地将空间距离融入Rand系数的计算。这篇论文站在一个微妙的缺口上:它从Rand指数的权重函数入手,将权重从{0,1}扩展到连续值,从而做到了“空间感知”。
- 本文的位置:这篇论文是第一个系统性地构建空间加权Rand指数并完成零模型漂移校正的工作。它不是一个全新的评估框架,而是对现有黄金标准(ARI)的一个非平凡扩展——保留了ARI的解释性(期望为零、比较可读),又插入了空间信息。
子线索聚类¶
这些被引文献大致落在3条子线索上:
- 经典聚类评估指标(Hubert & Arabie, 1985; Rand, 1971; Fowlkes & Mallows, 1983):这是理论根基。它们定义了几种普遍接受的基于配对计数(pairwise agreement)的指标。论文所挑战的,正是AR在这个家族中的无空间加权假设。
- ST聚类方法/基准测试(Tian et al., 2019; Li et al., 2022; 以及其他ST聚类论文):这些工作本身不关注评估指标设计,但它们提供了“ARI被用于ST”的实际场景,以及“ARI在ST上表现不佳”的实证证据。作者引用这些工作来建立motivation。
- 空间统计与加权指标(文献中作者自行引用的更早的加权RI相关工作,例如基于图距离的变种,但此类引用不多):这部分在本文引文中较弱,可能是因为该方向确实工作较少。
这个方向在追问的核心问题¶
- 如何将空间坐标的信息合理编码进一个评估指标? 是硬性分割(如在SPARI中用距离阈值断开对象对),还是连续加权(本文的方案)?不同方案对评估结果有何影响?
- “偶然调整”在空间加权设定下怎么定义? 经典ARI的零期望基于超几何分布假设(随机分区下的期望)。空间加权后,这个期望不再是常数,如何计算与校正?——这是本文的技术难点:spRI的期望在零假设下变化,需要“permutation-based漂移校正”。
- 加权函数的形式选择:应该用欧氏距离的最简单形式,还是用表达相似性/空间图距离的复合函数?这直接决定spARI对不同尺度空间结构(全局vs.局部)的敏感性。本文暂时只考虑了距离的幂函数,未一般化。
- 指标的一致性:spARI在什么条件下能像ARI一样,当分区趋近于真实分区时,指标收敛到1?这是纯理论问题,本文给出了初步证明。
⚠️ 作者的framing¶
- 作者声称的缺口:“The widely used metric, adjusted Rand index (ARI), totally ignores the spatial information in ST data”。他们把ARI描述为完全失配的工具,而自己的spARI是“缺失的那一块”。
- 被淡化/回避的竞争路线:
- 论文只简要提及了“others have tried to use spatial adjacency graph to modify RI”,但没有引用或者只引用了极少数文献。作者似乎没有系统讨论用空间图Laplacian嵌入或核平滑来做评估的方式——这些其实在空间统计学中已被讨论过。
- 关于“权重函数本身的选择”,论文承认“its property depends on the choice of weights”,但没有提供任何系统性的理论分析(比如:不同权重下spARI的灵敏度和特异度如何变化?)。这暗示这部分被刻意留给后续工作。
- 值得研究者去查的问题:是否存在一条被压制的竞争路线——即不修改ARI,而是用专门为空间数据设计的其他指标(如空间信息度量、基于邻接矩阵的调整指标)?例如,是否有引用过 “spatial version of the Fowlkes-Mallows index” 或 “spatially weighted silhouette score”?如果作者在文献调研中完全回避这些竞争者,那这篇论文的方法论贡献可能要打折扣。研究者应亲自检索:“spatially weighted Rand index” + “spatial clustering evaluation” 在2020年前的结果。
张力¶
未见明显对立引用。所有被引工作都对ARI在ST中的不适配有共识。本子领域暂无在“应该用什么样的评估指标”上的正面争论。不过,一个隐形张力存在于“聚类方法族”与“评估指标族”之间:部分ST聚类方法(如STUtility方法)其实本身就内建了空间约束,评估时使用经典ARI会低估它们的表现,因此这些方法的作者很可能会欢迎spARI——但论文没有去采访/引用这些方法作者对其评估方式的期望,这只是一个逻辑上的张力。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - 设 N 为ST实验中的观测点总数(每个点是组织切片上的一个spot)。 - 每个spot i ∈ {1,…,N}具有一个空间坐标 \((x_i, y_i)\)(在2D切片上,通常以微米为单位)。这是可观测的。 - 每个spot还有一个或几个基因表达向量(高维)。聚类算法根据这些表达向量(有时也结合坐标)输出一个分区(partition)。 - 我们关心的是两个分区的比较:设 \(U = \{U_1,...,U_R\}\) 和 \(V = \{V_1,...,V_C\}\) 分别代表真实分区(ground truth,只在仿真中有)和算法预测分区。将每个spot i 的标签表示为 \(u_i\) (属于U的哪一个簇) 和 \(v_i\) (属于V的哪一个簇)。 - \(A_{ij} = \mathbf{1}[u_i = u_j]\),即指示两个点是否在U中被分到同一簇。类似定义 \(B_{ij} = \mathbf{1}[v_i = v_j]\)。 - Rand指数(RI)定义在所有可能的无序对象对 \((i, j)\)(i < j)上:
RI = (a + d) / (a + b + c + d)
ARI = (RI - E[RI]) / (max(RI) - E[RI])
模型与可观测数据:
- 可观测数据是:一个N × 2的坐标矩阵(每个点有(x,y)),以及两个分区标签向量 \(\mathbf{u}\) 和 \(\mathbf{v}\)。
- 不可直接观测但隐含的是:真实的“理想分区”(即ground truth),在现实中往往是未知的。但论文的评估对象是算法输出与这个理想分区之间的相似度。
- 距离加权:定义一个距离函数 d_{ij} = ||(x_i, y_i) - (x_j, y_j)||(欧氏距离)。定义权重 w_{ij} = f(d_{ij}),其中f是一个非增、非负的衰减函数(最简例子:\(w_{ij} = 1/\max(d_{ij}, \epsilon)\) 或 \(w_{ij} = 1\) if d_{ij} < 某个阈值,否则0)。核心思想:两个点离得越远,它们在配对不一致时被惩罚得越轻(因为空间距离远的分属不同簇是合理的);离得越近,不一致就应该被严厉惩罚。
- spRI的定义(直观版):
定义加权的“agreement”和“disagreement”:
spRI = (W_a + W_d) / (W_a + W_b + W_c + W_d)
其中W_a = sum_{i<j} w_{ij} * A_{ij} * B_{ij}(权重下两分区都同意同簇的对)等。
当w_{ij} = 1(对所有对),spRI退化到经典RI。
第二步:讲最小内核——一个最简例子¶
最简例子:假设N=3个点,在一条直线上排列:点1在x=0,点2在x=1,点3在x=2。距离矩阵: d_{12} = 1, d_{13} = 2, d_{23} = 1。
真实分区U:将点(1,2)组成一簇,点3单独一簇。即 u = [1,1,2]。 算法1输出V1:将点(1,2,3)作为一个大簇。即 v1 = [1,1,1]。 算法2输出V2:将点1单独一簇,点(2,3)组成一簇。即 v2 = [1,2,2]。
经典ARI的计算: - 比较U和V1:a={对(1,2)两者都同簇}=1,b=0,c=0,d=0(只剩一对(1,3)和(2,3)分别在两分区中都不同簇,但这里计算正确:对(1,3):U不同簇(1≠2), V同簇(1=1) → c=1;对(2,3):U不同簇(1≠2), V同簇(1=1) → c=1)。所以a=1, c=2, b=d=0。RI=1/3。在给定大小分布的零模型下,ARI≈ -0.5(因为随机性很强)。 - 比较U和V2:a={对(2,3)两者都同簇}=1,b=0,c={对(1,2):U同簇(1=1)、V不同簇(1≠2)} = 1,d={对(1,3):U不同簇(1≠2)、V不同簇(1≠2)} = 1。RI= (1+1)/(1+1+1+0) = 2/3。ARI≈ 0.2。
经典结论:V2比V1好(ARI: 0.2 > -0.5),因为V2至少保留了{2,3}的对应。
引入空间加权(按最简单的衰减权重:w_{ij}=1/d_{ij}): - w_{12}=1, w_{13}=0.5, w_{23}=1。 - spRI(U, V1): W_a:仅对(1,2)有贡献 = 1 * 1 = 1。 W_b:无。 W_c:对(1,3) = 0.5 * (A_{13}=0) * (B_{13}=1) = 0.5(这里A_{13}=0因为U中不同簇,B_{13}=1因为V1中同簇,符合c类),对(2,3) = 1 * 0 * 1 = 0(A_{23}=0, B_{23}=1)。所以W_c=0.5。 W_d:无。 分母总和 = 1+0.5 = 1.5。spRI = 1 / 1.5 = 0.667。 - spRI(U, V2): W_a:对(2,3) = 1 * 1 = 1。 W_b:无。 W_c:对(1,2) = 1 * (A_{12}=1)(B_{12}=0) = 1 * 1 * 0 = 0? 不对,这里B_{12}=0,所以是c类,公式是w * (A=1)(B=0)? 等等,重新定义W_c = sum_{i<j} w_{ij} * (A_{ij}=1且B_{ij}=0)。所以(1,2)就是W_c=1。对(1,3): A_{13}=0, B_{13}=0,属于d类。所以W_d: A_{13}=0, B_{13}=0 → W_d=0.5。综上:W_a=1, W_c=1, W_d=0.5,分母=1+1+0.5=2.5。spRI=1/2.5=0.4。
关键结论:spRI现在认为V1(0.667)比V2(0.4)好!为什么反转了?因为V2在空间近的对(1,2)上犯了错误(U认为它们是同簇,V2却分开了它们),而这个错误被赋予了高权重(w=1),而V1犯的错误主要发生在空间远的对(1,3)与(2,3)(权重0.5或更小——其实这里(2,3)也是近的,但V1那里(2,3)是c类失效,权重1)。实际上,V1最大的错误是(2,3)这组近对,但spRI发现(1,2)是权重最大的重要对,V1成功地保持了它们同簇,而V2失败了。spRI用这种方式奖励了那些在空间近的地点保持一致的聚类。
这一个三点的特例就抓住了本文的核心思想:空间权重让评估从“所有配对一视同仁”变成“近者对更敏感”,从而使得在空间上连贯的聚类(V1的“连续块状”结构,尽管不完美)比“空间跳变”的聚类(V2)获得更高评分。整篇论文的一般化(大N、任意权重、期望校正)只是这个思想的数学封装。
三、这篇论文做了什么¶
类型:应用/方法型(提出一个指标,有理论性质证明,但重心是实证演示)。
三句话: 1. 研究了如何在ST聚类评估中引入空间距离信息,提出空间感知Rand指数(spRI)及其调整版本(spARI)。 2. 核心工具是对配对比较矩阵进行距离加权,并通过对零模型下spRI期望的置换校正来构建调整版本。 3. 主要结论:在模拟与真实ST数据上,spARI相比ARI提供了更合理的聚类方法排序,更严厉地惩罚在空间近点的错误聚类,从而更符合ST数据“空间连续性”的预期。
关键设定与假设(在第二节基础上补全)¶
正式定义(论文Section 2.1-2.2): - 设N个观测对象,其空间位置\(\mathbf{s}_1, ..., \mathbf{s}_N \in \mathbb{R}^2\)。 - 定义权重函数 \(w: \mathbb{R}^+ \mapsto [0,1]\),非增、非负。\(w_{ij}=w(\|\mathbf{s}_i - \mathbf{s}_j\|)\)。 - 加权Rand指数定义:
spRI(U,V) = (Σ_{i<j} w_{ij} [1\{u_i=u_j, v_i=v_j\} + 1\{u_i≠u_j, v_i≠v_j\}])
/ (Σ_{i<j} w_{ij})
spARI(U,V) = (spRI(U,V) - E[spRI]) / (max_spRI - E[spRI])
假设: 1. 权重函数的理想性质(未严格证明,仅作为设计原则):\(w_{ij}\) 应随着距离增大而衰减,且对于d=0达到1(或者接近1)。论文未假设具体的参数形式——这意味着它其实是一个框架而不是一个确定的指标,这既是优点(灵活)也是缺点(需要user在应用时选择权重函数)。 2. 零模型的恰当性:假设在U和V相互独立且无空间结构的条件下,spRI的期望可以通过置换来一致估计。这是一个弱假设,因为置换检验只依赖于交换性。但论文没有讨论当距离分布极度不均匀(如点密度极大变化)时,置换是否仍能保持空间结构(即非均匀null)——这是个未检验的假设。 3. 与经典ARI的关系:当所有权重为1,E[spRI]退化为经典的胡贝特定理形式:E[RI] = (Σ_i (R_i choose 2) * Σ_j (C_j choose 2)) / ( (N choose 2) )。当权重不恒等,E[spRI]没有闭合形式,论文依靠置换估计。这比经典ARI更不便利,但更准确。
主要结果¶
定理1(spRI的零模型期望形式,Section 2.3):
在随机分区下,\(E[spRI] = (W_a^0 + W_d^0) / Σ_{i<j} w_{ij}\),其中\(W_a^0 = Σ_{i<j} w_{ij} * P(u_i=u_j, v_i=v_j)\) 且 \(W_d^0=Σ_{i<j} w_{ij} * P(u_i≠u_j, v_i≠v_j)\)。 这里的概率取超几何分布。但注意:该表达式仍然依赖于权重,没有进一步化简——它只是将经典ARI的概率公式加了权重,因此没有给出解析解的期望,必须依赖置换。论文在这一处的进展有限,实际上只是一个概念性的推广。
定理2(spARI在零模型下期望为零):由定义直接可得,只要用置换临界值估计E[spRI],spARI的期望就强制为零——这是定义性的,非深入的统计性质。它并不提供像“spARI的方差为xxx”这样的深入信息。
定理3(spRI/spARI的一致性,Section 2.4):
当U=V时,spRI=1;当U和V的差别很小(所不同的配对恰好在高权重区域),spRI会接近1。论文声称spARI在权重各向同性且点均匀分布时,比ARI能更敏感地检测到不符合空间模式的错误。但这个“更敏感”的断言没有严谨的理论证明,主要靠举例和模拟。
主要数值结论(Section 3 & 4): - 模拟设计:在2D网格上生成仿真数据,设3个或4个真实斑点。模拟了两种ground truth:一种是空间连续型(斑块内部齐次),另一种是空间不连续型(真实分区内部有“洞”。产生两种算法结果:A算法得到不连通的聚类(在近点犯错多),B算法得到连通但区域范围稍有偏差的聚类。 - 结果:ARI认为A和B性能差不多,甚至A稍好。spARI却清楚地区分:给予B明显更高的评分,而严厉惩罚A。这验证了spARI对空间连续性的奖励。 - 真实数据例子:两个ST数据集中,用四种聚类方法运行,比较其spARI vs ARI表现。spARI给出的排序与“空间上看起来更合理”的排序一致(比如BayesSpace聚类结果视觉上更块状,spARI给出高评分),而ARI给出的排序与视觉判断相悖。论文建议:spARI是比ARI更可靠的ST聚类评估工具。
证明路线与技术技巧(理论部分较浅)¶
整体路线(非常简短,论文没有形式化“证明路线”): 1. 定义加权Rand指数。 2. 定义其期望为零的调整版本,通过置换进行漂移校正。 3. 讨论特殊情形(权重为0或1),证实spARI退化为经典ARI。 4. 通过模拟和真实数据验证性质。
关键跳跃点(几乎没有): - 论文没有要求重大证明跳跃。它不涉及渐近分布、效率边界或minimax率。唯一的技术困难是置换的期望估计,但置换本身并不需要新理论。 - 如果将论文看作数学统计论文,其理论贡献是有限的。但是,作为一本应用期刊(Biometrics)上的方法论论文,其贡献在于框架设计,而非定理深度。
技术技巧点名: - 置换检验(Permutation test):用于估计E[spRI]。在经典ARI中,超几何公式直接给出闭合期望。这里权重打破了组合对称性,所以采用置换——这是本文最统计标准 的部分。 - 加权求和(Weighted contingency table):论文3.1节详细说明了如何构造加权四格表(Weighted contingency table: W_a, W_b, W_c, W_d),这是对C++/R实现的要求,不是新颖技巧。 - 权重函数的选择:论文使用 \(w_{ij} = 1 / (1 + d_{ij})\) 作为默认选择,未对形式做系统优化。这限制了方法的泛化能力。
真实例子与应用¶
- 数据:使用两个公开ST数据集:10x Visium人类淋巴结(Human Lymph Node)数据和一个小鼠大脑数据。每个数据有1000-3000个spots。
- 应用方式:运行4种ST聚类方法(STAGATE, BayesSpace, Harmony+Kmeans, Seurat)。针对每种方法得到的分区,计算spARI和ARI(使用真实分区——在人类淋巴结中是用HE染色的组织学区域作为ground truth,在小鼠大脑中用Allen脑地图定义的区域)。
- 结果:在人类淋巴结数据中,ARI给出的方法排序是:STAGATE > Seurat > Harmony > BayesSpace。但spARI排序是:BayesSpace > STAGATE > Harmony > Seurat。对比视觉上的聚类结果:BayesSpace分区在组织学上有清晰的块状结构,而STAGATE的聚类有大量分散的小簇。spARI的排序与目视检查一致,ARI的排序则与空间的清晰度无关。
- 例子想说明:spARI比ARI更能分辨“空间上连贯”的聚类,因为它在空间近的点上更敏感。作者认为这个差异说明spARI更适合ST数据的评价,但对于纯方法使用者来说,究竟选择哪个方法并没有得到定论(BayesSpace的“块状”可能就是过于平滑的一种表现,真正的生物异质性或许应该更精细)。论文没有讨论这一点。
🔎 结论是否比证明窄¶
存在几个可能的夸大: 1. 论文Section 2.4标题为“Statistical properties of spRI and spARI”,但内容主要是举例和模拟,并没有推导spARI的渐近方差或置信区间。用户看到的“性质”比期望的薄很多。 2. 论文声称spARI比ARI“more sensitive to spatially coherent clustering”,但没有给出严格的灵敏度/特异度定义以及对比,这一判断完全来自于模拟和实例的数值结果,没有理论监护。对于统计学背景强的研究者来说,这是比较弱的 claim。 3. 论文没有讨论spARI是否满足“标签排列不变形”、“最小值有界”等指标理论基础的基本性质——只是假设这些继承自ARI,但加权的引入可能破坏一些可保持的性质,特别是当权重不对称时,spARI的极值可能不等于0。论文没有确认这一点。
四、开放问题(点到为止,扎根具体语句)¶
-
加权函数的系统性选择指南:论文Section 2.1只说了“the weight function should be non-increasing with distance”,但实际应用时,不同的权重函数(如硬阈值vs.指数衰减)会对spARI结果产生多大影响?论文未提供指导。可扎根于:“the performance of spRI and spARI depends on the choice of weights”(Section 2.1末尾)。这是一个开放的设计选择问题。
-
spARI的方差和假设检验:论文没有推导spARI在零假设下的方差公式。当前仅靠置换检验可做近似p值,但对于高效的“两个分区是否显著不同”的测试,需要解析的方差。而经典ARI有Hubert & Arabie (1985) 给出的渐近方差公式。这是留给未来。
-
空间密度不均匀时的置换零模型:论文假设置换能够构造“空间结构”下的稳健null,但当点的位置极度不均匀时(如某些区域密集如筛、某些区域稀疏如筛),置换会破坏空间密度结构,导致假阳性率错误。论文在Section 2.3和模拟中都未讨论这一点。这是一个隐性缺口。
-
spARI的minimax性质/最优性:该指标是针对ST聚类这一具体任务的评估工具,但在统计学上,是否存在某种信息论或决策理论框架下“最优的”空间加权评估指标?目前论文止步于框架设计和实例演示,未触及最优性理论。这属于该领域的前沿问题(如果存在的话),但当前没有工作在做。
Maintained by 陈星宇 · Homepage · Source on GitHub