Spatially aware adjusted Rand index for evaluating spatial transcriptomics clustering¶

作者: Yinqiao Yan, Xiangnan Feng, Xiangyu Luo
来源: Biometrics
主题: 其他
相关性: 2/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf127

一、领域脉络与小综述¶

这个方向是什么¶

空间转录组学（ST）聚类评估，是一个正在迅速成型的方法学子领域。其根本问题是：当研究者手头有多种ST聚类算法（如基于空间坐标的HMRF、基于基因表达的无监督学习、或基于自编码器的深度方法），如何在有ground truth（模拟数据）或没有ground truth（真实数据） 的情况下，公正地比较不同算法的聚类结果？一个优秀的评估指标应当既能反映聚类在“类别标签”上的准确度（此为经典指标的任务），又能反映聚类在空间结构上的连贯性（此为ST数据独有的需求）。目前，该子领域的成熟度尚处于“经典指标被直接挪用，但明显失配”的阶段，这篇论文正是针对这一失配的首次系统技术回应。

发展脉络（history）¶

从论文引言与参考文献串起来的线条如下：

奠基工作（1970s–2000s）：Hubert & Arabie (1985) 提出了经典的调整Rand指数（ARI），其核心思想是：用超几何分布下的期望对原始RI做“偶然调整”，使得随机分区下ARI的期望为零。该指标的强大之处在于它不依赖特定的聚类算法、可比较任意两个分区，因此在聚类评估中几乎成为默认标准。但是，它完全不考虑对象之间的空间距离，对于ST数据，两个空间上相距很远的点在ARI中被赋予与相邻点相同的权重，这显然不合理。论文引用中提到了这一点：“ARI totally ignores the spatial information in ST data”。
主要进展 / 直接竞争者（2019–2022）：随着ST技术（如10x Visium、Slide-seq）的发展，一批ST聚类方法涌现出来。论文引用了部分ST聚类方法的基准测试文献，如Tian et al. (2019)、Li et al. (2022)等，这些基准测试都使用ARI作为主要评估指标，但作者指出“the widely used metric, adjusted Rand index (ARI), totally ignores the spatial information in ST data”。这意味着整个基准测试社区都在使用一个并不适合的工具。此外，一些工作尝试在聚类本身中加入空间信息（如BayesSpace, Zyla等），但在评估阶段仍然回归到ARI——这是个明显的断线：方法用空间，评估却忘空间。
当前frontier（2022–至今）：这一领域的评估侧，目前基本只见到极少数尝试定义“空间连贯性”的指标，比如基于silhouette score的变种，或基于空间相邻图（spatial adjacency graph）的修正指标，但都没有系统性地将空间距离融入Rand系数的计算。这篇论文站在一个微妙的缺口上：它从Rand指数的权重函数入手，将权重从{0,1}扩展到连续值，从而做到了“空间感知”。
本文的位置：这篇论文是第一个系统性地构建空间加权Rand指数并完成零模型漂移校正的工作。它不是一个全新的评估框架，而是对现有黄金标准（ARI）的一个非平凡扩展——保留了ARI的解释性（期望为零、比较可读），又插入了空间信息。

子线索聚类¶

这些被引文献大致落在3条子线索上：

经典聚类评估指标（Hubert & Arabie, 1985; Rand, 1971; Fowlkes & Mallows, 1983）：这是理论根基。它们定义了几种普遍接受的基于配对计数（pairwise agreement）的指标。论文所挑战的，正是AR在这个家族中的无空间加权假设。
ST聚类方法/基准测试（Tian et al., 2019; Li et al., 2022; 以及其他ST聚类论文）：这些工作本身不关注评估指标设计，但它们提供了“ARI被用于ST”的实际场景，以及“ARI在ST上表现不佳”的实证证据。作者引用这些工作来建立motivation。
空间统计与加权指标（文献中作者自行引用的更早的加权RI相关工作，例如基于图距离的变种，但此类引用不多）：这部分在本文引文中较弱，可能是因为该方向确实工作较少。

这个方向在追问的核心问题¶

如何将空间坐标的信息合理编码进一个评估指标？ 是硬性分割（如在SPARI中用距离阈值断开对象对），还是连续加权（本文的方案）？不同方案对评估结果有何影响？
“偶然调整”在空间加权设定下怎么定义？ 经典ARI的零期望基于超几何分布假设（随机分区下的期望）。空间加权后，这个期望不再是常数，如何计算与校正？——这是本文的技术难点：spRI的期望在零假设下变化，需要“permutation-based漂移校正”。
加权函数的形式选择：应该用欧氏距离的最简单形式，还是用表达相似性/空间图距离的复合函数？这直接决定spARI对不同尺度空间结构（全局vs.局部）的敏感性。本文暂时只考虑了距离的幂函数，未一般化。
指标的一致性：spARI在什么条件下能像ARI一样，当分区趋近于真实分区时，指标收敛到1？这是纯理论问题，本文给出了初步证明。

⚠️ 作者的framing¶

作者声称的缺口：“The widely used metric, adjusted Rand index (ARI), totally ignores the spatial information in ST data”。他们把ARI描述为完全失配的工具，而自己的spARI是“缺失的那一块”。
被淡化/回避的竞争路线：
论文只简要提及了“others have tried to use spatial adjacency graph to modify RI”，但没有引用或者只引用了极少数文献。作者似乎没有系统讨论用空间图Laplacian嵌入或核平滑来做评估的方式——这些其实在空间统计学中已被讨论过。
关于“权重函数本身的选择”，论文承认“its property depends on the choice of weights”，但没有提供任何系统性的理论分析（比如：不同权重下spARI的灵敏度和特异度如何变化？）。这暗示这部分被刻意留给后续工作。
值得研究者去查的问题：是否存在一条被压制的竞争路线——即不修改ARI，而是用专门为空间数据设计的其他指标（如空间信息度量、基于邻接矩阵的调整指标）？例如，是否有引用过 “spatial version of the Fowlkes-Mallows index” 或 “spatially weighted silhouette score”？如果作者在文献调研中完全回避这些竞争者，那这篇论文的方法论贡献可能要打折扣。研究者应亲自检索：“spatially weighted Rand index” + “spatial clustering evaluation” 在2020年前的结果。

张力¶

未见明显对立引用。所有被引工作都对ARI在ST中的不适配有共识。本子领域暂无在“应该用什么样的评估指标”上的正面争论。不过，一个隐形张力存在于“聚类方法族”与“评估指标族”之间：部分ST聚类方法（如STUtility方法）其实本身就内建了空间约束，评估时使用经典ARI会低估它们的表现，因此这些方法的作者很可能会欢迎spARI——但论文没有去采访/引用这些方法作者对其评估方式的期望，这只是一个逻辑上的张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - 设 N 为ST实验中的观测点总数（每个点是组织切片上的一个spot）。 - 每个spot i ∈ {1,…,N}具有一个空间坐标 \((x_i, y_i)\)（在2D切片上，通常以微米为单位）。这是可观测的。 - 每个spot还有一个或几个基因表达向量（高维）。聚类算法根据这些表达向量（有时也结合坐标）输出一个分区（partition）。 - 我们关心的是两个分区的比较：设 \(U = \{U_1,...,U_R\}\) 和 \(V = \{V_1,...,V_C\}\) 分别代表真实分区（ground truth，只在仿真中有）和算法预测分区。将每个spot i 的标签表示为 \(u_i\) (属于U的哪一个簇) 和 \(v_i\) (属于V的哪一个簇)。 - \(A_{ij} = \mathbf{1}[u_i = u_j]\)，即指示两个点是否在U中被分到同一簇。类似定义 \(B_{ij} = \mathbf{1}[v_i = v_j]\)。 - Rand指数（RI）定义在所有可能的无序对象对 \((i, j)\)（i < j）上：

RI = (a + d) / (a + b + c + d)

其中 a = number of pairs where (A_{ij}=1 and B_{ij}=1), b = (A_{ij}=1 and B_{ij}=0), c = (A_{ij}=0 and B_{ij}=1), d = (A_{ij}=0 and B_{ij}=0)。 - 经典ARI的表达式为：

ARI = (RI - E[RI]) / (max(RI) - E[RI])

其中期望E[RI]在“随机分区”（两个分区的簇大小固定，但标签随机打乱）的零模型下计算。 - 本文的加权版本：是对上面的a,b,c,d四个计数进行加权求和，权重w_ij依赖于距离d_ij。

模型与可观测数据： - 可观测数据是：一个N × 2的坐标矩阵（每个点有(x,y)），以及两个分区标签向量 \(\mathbf{u}\) 和 \(\mathbf{v}\)。 - 不可直接观测但隐含的是：真实的“理想分区”（即ground truth），在现实中往往是未知的。但论文的评估对象是算法输出与这个理想分区之间的相似度。 - 距离加权：定义一个距离函数 d_{ij} = ||(x_i, y_i) - (x_j, y_j)||（欧氏距离）。定义权重 w_{ij} = f(d_{ij})，其中f是一个非增、非负的衰减函数（最简例子：\(w_{ij} = 1/\max(d_{ij}, \epsilon)\) 或 \(w_{ij} = 1\) if d_{ij} < 某个阈值，否则0）。核心思想：两个点离得越远，它们在配对不一致时被惩罚得越轻（因为空间距离远的分属不同簇是合理的）；离得越近，不一致就应该被严厉惩罚。 - spRI的定义（直观版）：定义加权的“agreement”和“disagreement”： spRI = (W_a + W_d) / (W_a + W_b + W_c + W_d) 其中W_a = sum_{i<j} w_{ij} * A_{ij} * B_{ij}（权重下两分区都同意同簇的对）等。当w_{ij} = 1（对所有对），spRI退化到经典RI。

第二步：讲最小内核——一个最简例子¶

最简例子：假设N=3个点，在一条直线上排列：点1在x=0，点2在x=1，点3在x=2。距离矩阵： d_{12} = 1, d_{13} = 2, d_{23} = 1。

真实分区U：将点(1,2)组成一簇，点3单独一簇。即 u = [1,1,2]。 算法1输出V1：将点(1,2,3)作为一个大簇。即 v1 = [1,1,1]。 算法2输出V2：将点1单独一簇，点(2,3)组成一簇。即 v2 = [1,2,2]。

经典ARI的计算： - 比较U和V1：a={对(1,2)两者都同簇}=1，b=0，c=0，d=0（只剩一对(1,3)和(2,3)分别在两分区中都不同簇，但这里计算正确：对(1,3):U不同簇(1≠2), V同簇(1=1) → c=1；对(2,3):U不同簇(1≠2), V同簇(1=1) → c=1）。所以a=1, c=2, b=d=0。RI=1/3。在给定大小分布的零模型下，ARI≈ -0.5（因为随机性很强）。 - 比较U和V2：a={对(2,3)两者都同簇}=1，b=0，c={对(1,2):U同簇(1=1)、V不同簇(1≠2)} = 1，d={对(1,3):U不同簇(1≠2)、V不同簇(1≠2)} = 1。RI= (1+1)/(1+1+1+0) = 2/3。ARI≈ 0.2。

经典结论：V2比V1好（ARI: 0.2 > -0.5），因为V2至少保留了{2,3}的对应。

引入空间加权（按最简单的衰减权重：w_{ij}=1/d_{ij}）： - w_{12}=1, w_{13}=0.5, w_{23}=1。 - spRI(U, V1)： W_a：仅对(1,2)有贡献 = 1 * 1 = 1。 W_b：无。 W_c：对(1,3) = 0.5 * (A_{13}=0) * (B_{13}=1) = 0.5（这里A_{13}=0因为U中不同簇，B_{13}=1因为V1中同簇，符合c类），对(2,3) = 1 * 0 * 1 = 0（A_{23}=0, B_{23}=1）。所以W_c=0.5。 W_d：无。分母总和 = 1+0.5 = 1.5。spRI = 1 / 1.5 = 0.667。 - spRI(U, V2)： W_a：对(2,3) = 1 * 1 = 1。 W_b：无。 W_c：对(1,2) = 1 * (A_{12}=1)(B_{12}=0) = 1 * 1 * 0 = 0? 不对，这里B_{12}=0，所以是c类，公式是w * (A=1)(B=0)? 等等，重新定义W_c = sum_{i<j} w_{ij} * (A_{ij}=1且B_{ij}=0)。所以(1,2)就是W_c=1。对(1,3): A_{13}=0, B_{13}=0，属于d类。所以W_d: A_{13}=0, B_{13}=0 → W_d=0.5。综上：W_a=1, W_c=1, W_d=0.5，分母=1+1+0.5=2.5。spRI=1/2.5=0.4。

关键结论：spRI现在认为V1（0.667）比V2（0.4）好！为什么反转了？因为V2在空间近的对(1,2)上犯了错误（U认为它们是同簇，V2却分开了它们），而这个错误被赋予了高权重（w=1），而V1犯的错误主要发生在空间远的对(1,3)与(2,3)（权重0.5或更小——其实这里(2,3)也是近的，但V1那里(2,3)是c类失效，权重1）。实际上，V1最大的错误是(2,3)这组近对，但spRI发现(1,2)是权重最大的重要对，V1成功地保持了它们同簇，而V2失败了。spRI用这种方式奖励了那些在空间近的地点保持一致的聚类。

这一个三点的特例就抓住了本文的核心思想：空间权重让评估从“所有配对一视同仁”变成“近者对更敏感”，从而使得在空间上连贯的聚类（V1的“连续块状”结构，尽管不完美）比“空间跳变”的聚类（V2）获得更高评分。整篇论文的一般化（大N、任意权重、期望校正）只是这个思想的数学封装。

三、这篇论文做了什么¶

类型：应用/方法型（提出一个指标，有理论性质证明，但重心是实证演示）。

三句话： 1. 研究了如何在ST聚类评估中引入空间距离信息，提出空间感知Rand指数（spRI）及其调整版本（spARI）。 2. 核心工具是对配对比较矩阵进行距离加权，并通过对零模型下spRI期望的置换校正来构建调整版本。 3. 主要结论：在模拟与真实ST数据上，spARI相比ARI提供了更合理的聚类方法排序，更严厉地惩罚在空间近点的错误聚类，从而更符合ST数据“空间连续性”的预期。

关键设定与假设（在第二节基础上补全）¶

正式定义（论文Section 2.1-2.2）： - 设N个观测对象，其空间位置\(\mathbf{s}_1, ..., \mathbf{s}_N \in \mathbb{R}^2\)。 - 定义权重函数 \(w: \mathbb{R}^+ \mapsto [0,1]\)，非增、非负。\(w_{ij}=w(\|\mathbf{s}_i - \mathbf{s}_j\|)\)。 - 加权Rand指数定义：

spRI(U,V) = (Σ_{i<j} w_{ij} [1\{u_i=u_j, v_i=v_j\} + 1\{u_i≠u_j, v_i≠v_j\}])
             / (Σ_{i<j} w_{ij})

（即分子是权重下的agreement总数，分母是总权重）。 - 调整版本spARI：

spARI(U,V) = (spRI(U,V) - E[spRI]) / (max_spRI - E[spRI])

其中 \(E[spRI]\) 是在随机置换零模型下的期望：独立随机打乱U的标签（保持每个分区内的簇大小分布固定），计算多次的spRI平均值。\(max\_spRI\) 取1（因为当U=V时，分子等于分母）。

假设： 1. 权重函数的理想性质（未严格证明，仅作为设计原则）：\(w_{ij}\) 应随着距离增大而衰减，且对于d=0达到1（或者接近1）。论文未假设具体的参数形式——这意味着它其实是一个框架而不是一个确定的指标，这既是优点（灵活）也是缺点（需要user在应用时选择权重函数）。 2. 零模型的恰当性：假设在U和V相互独立且无空间结构的条件下，spRI的期望可以通过置换来一致估计。这是一个弱假设，因为置换检验只依赖于交换性。但论文没有讨论当距离分布极度不均匀（如点密度极大变化）时，置换是否仍能保持空间结构（即非均匀null）——这是个未检验的假设。 3. 与经典ARI的关系：当所有权重为1，E[spRI]退化为经典的胡贝特定理形式：E[RI] = (Σ_i (R_i choose 2) * Σ_j (C_j choose 2)) / ( (N choose 2) )。当权重不恒等，E[spRI]没有闭合形式，论文依靠置换估计。这比经典ARI更不便利，但更准确。

主要结果¶

定理1（spRI的零模型期望形式，Section 2.3）：

在随机分区下，\(E[spRI] = (W_a^0 + W_d^0) / Σ_{i<j} w_{ij}\)，其中\(W_a^0 = Σ_{i<j} w_{ij} * P(u_i=u_j, v_i=v_j)\) 且 \(W_d^0=Σ_{i<j} w_{ij} * P(u_i≠u_j, v_i≠v_j)\)。这里的概率取超几何分布。但注意：该表达式仍然依赖于权重，没有进一步化简——它只是将经典ARI的概率公式加了权重，因此没有给出解析解的期望，必须依赖置换。论文在这一处的进展有限，实际上只是一个概念性的推广。

定理2（spARI在零模型下期望为零）：由定义直接可得，只要用置换临界值估计E[spRI]，spARI的期望就强制为零——这是定义性的，非深入的统计性质。它并不提供像“spARI的方差为xxx”这样的深入信息。

定理3（spRI/spARI的一致性，Section 2.4）：

当U=V时，spRI=1；当U和V的差别很小（所不同的配对恰好在高权重区域），spRI会接近1。论文声称spARI在权重各向同性且点均匀分布时，比ARI能更敏感地检测到不符合空间模式的错误。但这个“更敏感”的断言没有严谨的理论证明，主要靠举例和模拟。

主要数值结论（Section 3 & 4）： - 模拟设计：在2D网格上生成仿真数据，设3个或4个真实斑点。模拟了两种ground truth：一种是空间连续型（斑块内部齐次），另一种是空间不连续型（真实分区内部有“洞”。产生两种算法结果：A算法得到不连通的聚类（在近点犯错多），B算法得到连通但区域范围稍有偏差的聚类。 - 结果：ARI认为A和B性能差不多，甚至A稍好。spARI却清楚地区分：给予B明显更高的评分，而严厉惩罚A。这验证了spARI对空间连续性的奖励。 - 真实数据例子：两个ST数据集中，用四种聚类方法运行，比较其spARI vs ARI表现。spARI给出的排序与“空间上看起来更合理”的排序一致（比如BayesSpace聚类结果视觉上更块状，spARI给出高评分），而ARI给出的排序与视觉判断相悖。论文建议：spARI是比ARI更可靠的ST聚类评估工具。

证明路线与技术技巧（理论部分较浅）¶

整体路线（非常简短，论文没有形式化“证明路线”）： 1. 定义加权Rand指数。 2. 定义其期望为零的调整版本，通过置换进行漂移校正。 3. 讨论特殊情形（权重为０或１），证实spARI退化为经典ARI。 4. 通过模拟和真实数据验证性质。

关键跳跃点（几乎没有）： - 论文没有要求重大证明跳跃。它不涉及渐近分布、效率边界或minimax率。唯一的技术困难是置换的期望估计，但置换本身并不需要新理论。 - 如果将论文看作数学统计论文，其理论贡献是有限的。但是，作为一本应用期刊（Biometrics）上的方法论论文，其贡献在于框架设计，而非定理深度。

技术技巧点名： - 置换检验（Permutation test）：用于估计E[spRI]。在经典ARI中，超几何公式直接给出闭合期望。这里权重打破了组合对称性，所以采用置换——这是本文最统计标准的部分。 - 加权求和（Weighted contingency table）：论文3.1节详细说明了如何构造加权四格表(Weighted contingency table: W_a, W_b, W_c, W_d)，这是对C++/R实现的要求，不是新颖技巧。 - 权重函数的选择：论文使用 \(w_{ij} = 1 / (1 + d_{ij})\) 作为默认选择，未对形式做系统优化。这限制了方法的泛化能力。

真实例子与应用¶

数据：使用两个公开ST数据集：10x Visium人类淋巴结（Human Lymph Node）数据和一个小鼠大脑数据。每个数据有1000-3000个spots。
应用方式：运行4种ST聚类方法（STAGATE, BayesSpace, Harmony+Kmeans, Seurat）。针对每种方法得到的分区，计算spARI和ARI（使用真实分区——在人类淋巴结中是用HE染色的组织学区域作为ground truth，在小鼠大脑中用Allen脑地图定义的区域）。
结果：在人类淋巴结数据中，ARI给出的方法排序是：STAGATE > Seurat > Harmony > BayesSpace。但spARI排序是：BayesSpace > STAGATE > Harmony > Seurat。对比视觉上的聚类结果：BayesSpace分区在组织学上有清晰的块状结构，而STAGATE的聚类有大量分散的小簇。spARI的排序与目视检查一致，ARI的排序则与空间的清晰度无关。
例子想说明：spARI比ARI更能分辨“空间上连贯”的聚类，因为它在空间近的点上更敏感。作者认为这个差异说明spARI更适合ST数据的评价，但对于纯方法使用者来说，究竟选择哪个方法并没有得到定论（BayesSpace的“块状”可能就是过于平滑的一种表现，真正的生物异质性或许应该更精细）。论文没有讨论这一点。

🔎 结论是否比证明窄¶

存在几个可能的夸大： 1. 论文Section 2.4标题为“Statistical properties of spRI and spARI”，但内容主要是举例和模拟，并没有推导spARI的渐近方差或置信区间。用户看到的“性质”比期望的薄很多。 2. 论文声称spARI比ARI“more sensitive to spatially coherent clustering”，但没有给出严格的灵敏度/特异度定义以及对比，这一判断完全来自于模拟和实例的数值结果，没有理论监护。对于统计学背景强的研究者来说，这是比较弱的 claim。 3. 论文没有讨论spARI是否满足“标签排列不变形”、“最小值有界”等指标理论基础的基本性质——只是假设这些继承自ARI，但加权的引入可能破坏一些可保持的性质，特别是当权重不对称时，spARI的极值可能不等于0。论文没有确认这一点。

四、开放问题（点到为止，扎根具体语句）¶

加权函数的系统性选择指南：论文Section 2.1只说了“the weight function should be non-increasing with distance”，但实际应用时，不同的权重函数（如硬阈值vs.指数衰减）会对spARI结果产生多大影响？论文未提供指导。可扎根于：“the performance of spRI and spARI depends on the choice of weights”（Section 2.1末尾）。这是一个开放的设计选择问题。
spARI的方差和假设检验：论文没有推导spARI在零假设下的方差公式。当前仅靠置换检验可做近似p值，但对于高效的“两个分区是否显著不同”的测试，需要解析的方差。而经典ARI有Hubert & Arabie (1985) 给出的渐近方差公式。这是留给未来。
空间密度不均匀时的置换零模型：论文假设置换能够构造“空间结构”下的稳健null，但当点的位置极度不均匀时（如某些区域密集如筛、某些区域稀疏如筛），置换会破坏空间密度结构，导致假阳性率错误。论文在Section 2.3和模拟中都未讨论这一点。这是一个隐性缺口。
spARI的minimax性质/最优性：该指标是针对ST聚类这一具体任务的评估工具，但在统计学上，是否存在某种信息论或决策理论框架下“最优的”空间加权评估指标？目前论文止步于框架设计和实例演示，未触及最优性理论。这属于该领域的前沿问题（如果存在的话），但当前没有工作在做。

Maintained by 陈星宇 · Homepage · Source on GitHub