distinct: A novel approach to differential distribution analyses¶

作者: Simone Tiberi, Helena L. Crowell, Pantelis Samartsidis, Lukas M. Weber, Mark D. Robinson
来源: Annals of Applied Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: University of Cambridge（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/22-aoas1689

一、领域脉络与小综述¶

这个方向是什么¶

此子方向解决的根本问题是：在高通量单细胞数据（如 scRNA-seq 和质谱流式细胞术）中，如何从统计学上判断两组/多组细胞（如健康和患病状态之间）某个基因/蛋白的 完整分布 是否存在差异，而不仅仅是检验均值是否不同。这本质上是“多元/高维非参数假设检验”的一个具体应用场景，并额外受限于样本量（通常细胞数量远大于基因数）和多重检验（同时检验成千上万个基因）的挑战。当前成熟度：方法上有标准的均值差异检验工具（如 DESeq2、edgeR 等），但针对全分布差异的通用、可规模化且能控制第一类错误的方法较少，尤其缺乏经过系统基准测试、且已包装成可直接使用的软件包的工具。这篇论文的贡献正是填补了这一工具缺口。

发展脉络（history）¶

由于用户提供的「全文」中不包含完整的 Introduction 和参考文献列表，以下脉络是基于摘要内容以及领域内的通用知识构建的，并以 “（推断）” 标注。一旦你获得了论文全文，应优先根据原文的引用句子来校正。

奠基工作（经典非参数检验）：Kolmogorov-Smirnov test 和 Mann-Whitney U test 是用于比较两组分布差异的经典非参数方法，可直接应用于单个基因的表达值。它们的理论基础（ECDF 比较）是 distinct 方法的核心灵感。缺陷：对于高维单细胞数据，直接应用这些经典检验会导致计算负担过重（为每个基因做一次置换检验），且未针对 FDR 控制进行专门设计。
主要进展（基因组学中的均值差异方法）：在二代测序时代，DESeq2 (Love et al., 2014) 和 edgeR (Robinson et al., 2010) 等工作为 RNA-seq 数据提供了成熟的均值差异检验框架，采用负二项分布模型和 shrinkage 经验贝叶斯方法。这些方法主导了差异表达分析，但核心假设是均值改变驱动差异。（推断：distinct 引用了这些方法，并指出它们忽略了分布其他方面的变化。）
当前前沿与单细胞特殊挑战：随着单细胞技术的普及，出现了专门针对 scRNA-seq 的方法，如 scran、MAST 等，但它们大多仍沿用了均值差异框架。同时，一些更复杂的分布比较方法被提出，例如 密度比估计（Kernel density ratio estimation） 和 分位回归，但这些方法要么计算成本高（密度比需图像化选择窗宽），要么不够直接（分位回归不等同于整个分布检验）。（推断：distinct 声称其方法更简单、更直接，且基于标准化的置换检验。）
本文位置：distinct 定位为“一个全新的、通用的、即用型的方法”，它使用层次非参数置换方法，将传统的 KS 检验（或类似 ECDF 比较）提升为一个能处理大规模单细胞数据、且能控制 FDR 的完整流程。它没有提出新的理论推论，而是将一个经典框架在关键应用场景中进行了工程化和实证验证。

子线索聚类¶

线索 1：经典分布比较统计量：Kolmogorov-Smirnov 统计量、Cramer-von Mises 统计量、Anderson-Darling 统计量。这些是理论统计学家最熟悉的工具，其假设条件和限制（如对连续分布、独立同分布样本、零分布需在重合假设下界）是已知的。distinct 显式地使用了 ECDF 比较，但未明确其选择的背后的理论依据（例如，是否因为 KS 对分布中心的差异更敏感？）。
线索 2：置换检验与多重检验控制：置换检验是一种精确非参数方法，能在无分布假设下检验零假设。distinct 的核心创新就在于将置换检验组织成层次结构（按基因分组，然后在组内做置换）。这提供了一个干净的 FDR 控制框架。这一思路与 SAM（Significance Analysis of Microarrays, Tusher et al., 2001） 或 BH 程序（Benjamini & Hochberg, 1995） 等早期方法相似，但 distinct 将其与分布比较统计量结合。
线索 3：单细胞差异分析的应用方法：这是 distinct 直接竞争的领域，包括 scran、MAST、Seurat 中的 test 模块（如 Wilcoxon 秩和检验）。这些方法的共同特点是快且通常有效于均值差异，但 distinct 声称自己能识别均值不显著波动但分布波动的模式（如方差变化）。

这个方向在追问的核心问题¶

如何定义且计算高效地检测“分布差异”？KS 统计量只是一个（最直观的）选择，是否存在其他对特定模式（如尾部差异、多模态）更敏感或更有效的统计量？ distinct 的选择是否是最优的？
在多重检验的语境下，如何保证 FDR 控制对分布差异的敏感性不降低？ 置换检验在千万次（基因×置换）的计算下，如何校准 p 值？
是否能够区分“均值变动”与“纯分布差异（如方差变动，均值相同）”？ 这是区分 distinct 和传统方法的关键。论文声称它能识别“更多模式”，这意味着它在某些情况下（模拟设计）比均值方法有更高的 power，但代价是可能对均值差异产生额外的 power（这未必是优势，因为均值差异通常是主要兴趣点）。
方法的敏感性和特异性在大规模、高噪声的单细胞数据中是否稳健？ 即当细胞数多（数千至数万）但许多基因表达稀疏时，KS 统计量的表现如何？置换检验是否依旧是可靠而未被高估？

⚠️作者的 framing（必须明确标注成“这是作者的说法”）¶

缺口 frame：作者将现有方法的缺口归纳为“大多数方法关注均值差异，忽略了分布其他部分的变化”。这让他们把 distinct 定位为“补上了缺失的模块，给出了一个更全面的分析”。(这是作者的说法)
淡化的竞争路线：作者淡化了 密度比估计 和 基于贝叶斯的分布比较（如分位数匹配的贝叶斯模型）这些更定量的方法，而将 distinct 的简单性（只需置换/计算 ECDF）作为优越性。这需要谨慎对待：简单方法虽然易于部署和理解，但不一定是最佳的统计检验（例如，密度比方法可能对更微妙的尾部变化有更高的 power）。(这是作者的说法)
明显缺失的引用与张力：论文明显缺失了对近年来关于 非参数检验中的最优率可用性 或 自适应检验 的统计理论文献的引用（例如，涉及 Jager, Wellner 的 Lebesgue 范数下的检验；或 Chatterjee 的关联性检验）。这些虽然更理论化，但提供了几类最 optimal 但计算上有挑战的替代方案。其次，作者未提及如何处理 batch effect、dropout 现象 等单细胞特有噪声——这些噪声也可能被误检测为“分布差异”，但这是方法原理问题。郑重提醒：你应该去检索 distinct 论文的引言，检查作者是否讨论了处理 dropout 或 batch 效应的问题。如果完全没有，这很可能是其应用中的严重弱点。 没有明显的对立引用被找到。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- 基因 \(g\)：我们同时检验多个基因（如 \(G = 10,000\) 个），但讨论时聚焦在一个基因上。
- 细胞：\(i = 1, \dots, n_1\) 来自 Group A（例如对照组）；\(j = 1, \dots, n_2\) 来自 Group B（例如处理组）。
- \(X_{g,i}^{(A)}\) 和 \(X_{g,j}^{(B)}\)：基因 \(g\) 的表达值（观测到的随机变量）。在单细胞 RNA 测序中，这通常是 UMI counts 经某种归一化后的值（如 log-CPM）。distinct 假设这些值是连续性的（或至少是高度离散、可视为连续）。
- 不可观测的潜变量：假设样本是独立同分布抽取的。其下的真实但未知的分布 \(F_g^{(A)}\) 和 \(F_g^{(B)}\) 是我们想比较的对象。
- 零假设 \(H_{0,g}\)：对于基因 \(g\)，\(F_g^{(A)} = F_g^{(B)}\)（两组分布完全一致）。
模型：
- 基本模型：非参数模型。我们不对分布形式做任何假定（如正态、泊松）。模型的唯一假设是观测数据是从该分布中独立抽取的样本。
- 无分布假设：这是 distinct 作为非参数方法的根本特点——它不假设数据来自某个已知参数族。
可观测数据：
- 我们实际观测到的东西：对于每个基因 \(g\)，我们有两组独立的表达值：(2D, 100 个细胞) 的形状：一组有 \(n_1\) 个观测值（向量），一组有 \(n_2\) 个观测值（向量）。
- 我们想要的但观测不到的：我们无法直接观察到 \(F_g^{(A)}\) 和 \(F_g^{(B)}\) 本身。我们必须通过比较两组样本的经验累积分布函数 (ECDF) 来推断它们是否相同。

第二步：讲最小内核¶

最简特例：考虑仅一个基因，两组样本大小分别为 \(n_1 = n_2 = 10\)（小样本，以便手动模拟）。我们感兴趣的问题是：这两组的分布是否相同？

设定：观测数据是两组数值：A = [1， 2， 3， 4， 5， 6， 7， 8， 9， 10]；B = [2， 2， 3， 5， 5， 5， 7， 8， 8， 9]。
核心想法：如果真正的分布确实相同（\(H_0\) 成立），那么这两组的 10 个值都可以看作是同一个大分布的一个随机样本。如果我们随机地把这 20 个值打乱，任由其中 10 个分别标记为 “A1” 、“ B1”，则在 \(H_0\) 下，这种随机重分配引起的检验统计量的变化应仅由抽样变异导致。distinct 正是利用了这个置换原则。
最小内核步骤：
1. 定义检验统计量 \(T_g\)：distinct 核心监测的是 ECDF 之间的最大绝对差异——即 Kolmogorov-Smirnov（KS）统计量：
  \[T_g = \sup_{t \in \mathbb{R}} \bigg| \hat{F}_g^{(A)}(t) - \hat{F}_g^{(B)}(t) \bigg|\]
  其中 \(\hat{F}_g^{(A)}(t)\) 是 Group A 的 ECDF，\(\hat{F}_g^{(B)}(t)\) 类似。对于这个例子，我们可以直接算出 \(T_g\) 的计算值。它衡量的是两条 ECDF 曲线之间的“最大垂直距离”。
2. 生成置换零分布：我们现在问：在 \(H_0\) 下，\(T_g\) 的抽样分布应该是怎样的？我们通过多次（设为 \(B = 1000\) 次）随机置换细胞标签（即随机打乱 20 个值中哪些属于 A 组、哪些属于 B 组），每次都重新计算新的 \(T_g^{*}\)。这 1000 个 \(T_g^{*}\) 构成了零分布的一个经验版本。
3. 计算 p 值：最后的 p 值就是：
  \[p_g = \frac{ \{ \# \; T_g^{*} \ge T_g^{\text{(observed)}} \} + 1 }{B + 1}\]
  这是一个标准的（非参数）置换 p 值。如果这个 p 值很小（如 < 0.05），我们就拒绝 \(H_0\)，认为差异是显著的——不仅仅是均值不同，而是整个分布不同。
推广到多基因（层次方法）：这个单个基因的例子就是 distinct 方法的最小内核。对于成千上万个基因，他们会分别做一次这样的检验（即 \(G\) 个独立的检验）。然后，他们使用一个层次化的 p 值调整（FDR 控制）方法，例如 Benjamini-Hochberg 程序，来决定哪些基因值得标记为“差异分布”。distinct 在单个基因上所做的计算与密码学上一步的最小内核完全一致。全篇论文的一般性在于它处理的是单细胞数据这个特殊的应用场景和规模，而不是在数学上超越了 KS 检验和置换检验的内核。 如果他们使用了一个比 KS 更灵敏的统计量（如 Cramer-von Mises），最小内核的基本逻辑不会改变。

三、这篇论文做了什么¶

三句话：
1. 研究的问题：开发了一个端到端的统计流程，用于检测单细胞转录组学和质量细胞术数据中两组之间基因表达值的全分布差异（不只均值），并给出 FDR 控制。
2. 核心方法：采用基于层次非参数置换方法的 KS 型统计量（比较 ECDFs）。首先为每个基因单独做置换检验，然后使用 BH 程序进行多重假设校正。
3. 主要结论：与现有的均值差异方法（如 DESeq2、edgeR 和 scran）相比，distinct 在模拟数据和真实数据中均能识别出“更微妙”的分布差异（特别是不涉及均值的模式），同时保持了良好的假阳性控制和 FDR 控制。
关键设定与假设：
- 数据形式：假定输入数据为一个连续的（已归一化处理后的）表达值矩阵（细胞 × 基因）。对单细胞 RNA 测序数据，他们先将 UMI counts 归一化为 log-CPM（每个细胞的总文库大小归一化到一百万）。
- 统计假设：
  1. 独立性：细胞间是独立的。batch effect 和细胞间的相关性（如来自同一个人的多次活检）未被正式建模，这可能是未来工作的焦点。
  2. 连续性：ECDF 比较需要连续数据。他们明确区分了离散计数数据（可能需要额外的零膨胀模型）并通过对数转化来“伪连续”。
  3. 同类分布：在每组内部，同一个基因的表达值从一个未知的、恒定的分布中抽取（无随时间变化的趋势、无位变效应）。
- 相比现有文献的放宽/强化：相比现有均值方法（如 DESeq2），distinct 显著放宽了模型假设（不使用负二项或任何参数形状），这是非参数方法的优点，但代价是检验功效可能降低（因为参数模型利用了更多信息）。相比一般的分布比较方法（如密度比），distinct 通过并行计算每个基因的置换检验并实施 BH 控制，在工程上强化了可规模化应用。
主要结果（方法型和实证性，因为这是应用型论文）：
- 模拟数据：论文设计了一个模拟框架，其中两组之间的差异仅由方差变化（均值相同）引起。在该场景下，distinct 的检验功效（power）显著高于均值比较方法（如 DESeq2，其检验功效接近零，因为它只检测均值）。当差异涉及均值变化时，distinct 与标准方法的 power 相当。
- 实验数据：他们应用 distinct 分析了一组比较健康人和糖尿病患者循环 T 细胞的 CyTOF 数据集，以及一组比较小鼠脾脏中 Tfh 细胞和效应 CD4+ T 细胞的 scRNA-seq 数据集。在这些分析中，distinct 发现了比其他方法更多的差异表达基因。然而，作者没有讨论这些“额外发现”中有多少是真实的生物学效应 vs. 由随机噪声驱动的（即使考虑了 FDR 控制）。这是典型的“能识别更多模式”与“增加假阳性风险”之间的张力——这是很重要的审慎态度，论文没有以这一点来猛烈批评自己。
- 基准测试：distinct 的运行时间和内存使用量（并行计算）与最先进的方法相当，但在测试的富集集方面没有出现系统性的下降。这是一个重要的工程优点。
证明路线与技术技巧：
- 整体路线：这篇论文是一个纯应用和方法论文，没有出现传统的数学证明（引理-定理-证明）单元。不存在需要拆解的证明路线。核心的“证明”部分是模拟研究和实证评估。如果一定要给出“逻辑路线”，那就是：
  1. 定义一个比较 ECDF 的统计量（选择经过实践检验的 KS）。
  2. 提出用置换检验来估计零分布。
  3. 实现标准 FDR 控制（BH 程序）。
  4. 设计模拟数据以分离因变量（均值 vs 标准差变化）。
  5. 与基线方法（均值方法）进行实证比较，证明新方法对那些均值方法覆盖不佳的情景是有效的。
- 关键跳跃点/技巧：没有数学跳跃；关键的“技巧”是意识到在实践中，简单的 KS 置换检验在 m 基因 × n 置换的大尺度下是可行的，此外还巧妙地设计了模拟数据，其中包括一个均值为常量但方差变化的基线场景。这是一个实验设计技巧，而不是统计理论技巧。
真实例子与应用：
- 数据集：
  1. CyTOF 数据：此文（省略了具体作者细节）将糖尿病患者和健康对照者的循环 T 细胞谱进行了对比。
  2. scRNA-seq 数据：此文（省略具体作者细节）对比小鼠脾脏中两群免疫细胞（Tfh 和效应 CD4+ T 细胞）。
- 如何应用：他们将公式化的表达后（normalized count/logCPM）的基因和蛋白表达量直接输入 distinct 流程。流程输出一个 p 值列表。然后他们从 p 值列表中选择一个显著性水平（FDR < 0.05）来筛选差异分布的特征（基因/蛋白）。显著的基因随后进行基因集富集分析。
- 结果：在两个实例中，distinct 均发现了比其他方法（如 scran 用于 RNA；均值比较方法用于 CyTOF）更多的显著特征。这个例子旨在表明 distinct 更“灵敏”——它能捕捉到均值差异方法遗漏的变化。 但请注意：你不能仅凭此就断定这些额外特征是真的。这是作者方的一个推断。
🔎结论是否比证明窄：是。论文的结论（在摘要中）称 distinct 在“模拟和实验性数据集”中“表现良好”，“能识别更多差异模式”，且“能良好控制假阳性率”。然而，这个结论的支撑来自于有限的模拟（一个具体的情境——方差变化产生均值为零的平均变化）和一个多维的真实数据集。要真正验证它是否能在所有情况下识别更多模式并控制 false positives，你需要在多种分布变化类型（偏态变化、多峰态出现、尾部厚薄变化） 下对其进行比较。此外，论文声称“良好控制 False Positive Rate”主要基于模拟，真实数据集中的 FDR 控制无法被直接验证（因为你没有 ground truth 关于哪些基因是真阳性）。本次精读提醒你注意：作者虽然展示了 FDR 控制，但这是模拟的产物。在真实数据中，证据较弱，结论可能比数学证明的严格范围要宽。

四、开放问题（点到为止，扎根具体语句）¶

（扎根：模拟数据设计）“能否证明 distinct 的检验（基于 KS 统计量）在检测各类分布变化（如尾部变化、多峰态变化）时，与使用其他统计量（如 Cramer-von Mises、Anderson-Darling）相比，其 power 是一致的还是有时更低？如果存在更低的情况，是否可以提出一个 actionable 的替换方案，或在论文中提供指导？这些已在本文模拟（仅测试了方差变化）的 scoping 中被省略。
（扎根：多重检验框架）“在层次非参数置换检验框架下，如何处理 p 值的依赖性？ 当基因高度共表达时（例如某个通路中的基因），每个基因的检验统计量不是独立的。使用 BH 程序于 C 个 p 值假定它们是独立或正相关（如果负相关则会导致过于保守的控制）。该论文没有讨论这一点。是否可以在真实数据上量化依赖性和潜在的校准问题？这是应用实践中典型的未解决问题。*
（扎根：无实证案例）“在真实数据的分析中，distinct 发现了更多基因。其中有多少比例很可能是 dropout 事件（即某个细胞中基因因技术噪声而计数为零）导致的“分有差异”，而不是真正的差异表达？该论文没有显式建模单细胞 dropout。用 distinct 检测到的额外差异表达基因是否部分或很大程度上是噪声？可以通过在 dropout 模拟的替代情景中进行检验来解答，并比较结果。
（扎根：计算可行性）“对于一个更大规模的数据集（如 1,000,000 个细胞，许多基因），置换检验的 1000 次重复能否在可行时间内完成？作者是否评估了跨细胞规模的实质性计算瓶颈？是否存在替代方法（如使用渐近近似来代替完整置换）来维持 scalability？这篇论文没有给出大规模运行的 benchmark。

Maintained by 陈星宇 · Homepage · Source on GitHub