Addressing the mean–variance relationship in spatially resolved transcriptomics data with spoon¶
作者: Kinnary Shah, Boyi Guo, Stephanie C Hicks
来源: Biostatistics
主题: 其他
相关性: 2/10
机构绿灯: Johns Hopkins University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biostatistics/kxaf012
一、领域脉络与小综述¶
这个方向是什么:空间转录组学数据的统计建模,核心任务是识别空间变异基因(SVGs)——即在二维空间坐标上表达量存在非随机变异的基因。该方向的成熟度处于方法爆发期:测序技术(如 10x Visium、MERFISH)已产出大量真实数据,但针对其计数数据特征(过度离散、均值-方差强耦合、空间相关性)的统计检验与效应量估计框架仍在迭代,尚未形成如 bulk RNA-seq 中 limma/voom 那样的绝对标准。
发展脉络:
- 奠基工作(Bulk RNA-seq 的均值-方差校正):Smyth (2004) 提出对基因方差进行经验贝叶斯收缩的 limma;Law et al. (2014) 提出 voom,精确指出了 log-变换在 RNA-seq 计数数据上的技术偏差:高表达基因原始方差大,但 log-变换后方差反而小,破坏了均值-方差单调关系,voom 通过估计均值-方差趋势并生成精确权重解决了此问题。本文摘要明确引用此脉络:"previous work in the analysis of RNA-sequencing data identified a technical bias with log-transformation, violating the 'mean–variance relationship'"。
- 主要进展(SRT 中的 SVG 检测):SpatialDE (Svensson et al., 2018) 与 SPARK (Sun et al., 2020) 引入高斯过程(GP)或自回归模型刻画空间相关性,基于 p-value 排序 SVG;SPARK-X (Zhu et al., 2021) 转向非参数的核均值嵌入检验以提升计算速度。这些工作留下了口子:要么依赖 p-value 排序而忽略效应量(空间方差占比),要么在预处理时直接对 counts 做 log-变换,未校正 log-变换引入的方差偏差。
- 当前 frontier 与本文位置:当前 SRT 分析同时追求效应量估计(proportion of spatial variance)与计算可扩展性。本文 spoon 将 voom 的均值-方差校正逻辑移植到 SRT 领域,填补了"空间模型 + log-变换方差校正 + 经验贝叶斯收缩"的交叉空白。
子线索聚类:
1. 均值-方差建模与方差收缩(Empirical Bayes 线索):从 limma 到 voom,核心是利用跨基因的方差趋势进行收缩,降低低样本量下方差估计的波动。本文直接继承此线索。
2. 空间相关性检验与估计(Spatial Process 线索):从 SpatialDE 到 SPARK/X,核心是定义空间协方差结构(如 GP 的 Matérn 核)或非参数空间独立性检验,提取空间方差分量。本文在此线索上加入了方差校正。
3. 效应量优先排序 vs P-value 排序(Effect Size 线索):近期 SRT 文献开始强调空间方差占比而非仅看显著性,本文的校正直接作用于效应量估计。
这个方向在追问的核心问题: 1. 如何在过度离散的计数数据上,既保留空间相关性的非参数/参数结构,又避免 log-变换对方差结构的扭曲? 2. SVG 的优先排序究竟应该依赖 p-value 还是空间方差占比?若依赖占比,如何保证其无偏性? 3. 当前瓶颈:SRT 数据每个 spot 的测序深度极度不均,导致均值-方差趋势的估计比 bulk RNA-seq 更易受零膨胀干扰。
⚠️ 作者的 framing(这是作者的说法):
- 作者将缺口 frame 为:SRT 领域现有的 SVG 排序方法(基于 p-value 或 proportion of spatial variance)忽略了 log-变换的技术偏差,因此排序不准确;spoon 通过经验贝叶斯校正此偏差,是"显然的下一步"。
- 被淡化或回避的竞争路线:直接在原始 counts 上建模(如负二项空间模型、零膨胀泊松),而不做 log-变换。如果存在不依赖 log-变换的生成模型,那么"校正 log-变换偏差"本身就是一个伪需求,只需换一个似然即可。摘要中完全未提及此类 count-based 竞争模型。
- 明显该被引但未出现的文献:SRT 领域内处理零膨胀与测序深度异质性的计数模型(如基于 NB 的空间 GLM),以及空间统计学中关于非平稳方差分量的经典文献。这是值得研究者去查的问题:spoon 的方差校正是否只是在为一个本不该使用的 log-变换打补丁?
张力:未见明显对立引用。voom 的结论(log-变换反转均值-方差关系)在 SRT 数据上被本文实证确认,逻辑自洽。但存在隐含张力:SPARK 等方法在 log-变换后使用 GP 似然,假设了平稳性,而 voom 指出 log-变换后方差随均值变化(非平稳),二者在方差结构的假设上存在冲突,本文试图调和此冲突。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(g \in \{1, \dots, G\}\):基因索引。
- \(i \in \{1, \dots, n\}\):空间 spot 索引。
- \(s_i \in \mathbb{R}^2\):spot \(i\) 的二维空间坐标(可观测)。
- \(Y_{gi} \in \mathbb{N}_0\):基因 \(g\) 在 spot \(i\) 的原始 read count(可观测)。
- \(\mu_{gi}\):\(Y_{gi}\) 的期望(不可观测的潜在参数,需估)。
- \(\sigma^2_{gi}\):\(Y_{gi}\) 的原始方差(不可观测)。
- \(X_{gi} = \log_2(Y_{gi} + c)\):log-变换后的表达量(可观测计算值,\(c\) 为偏移常数,如 1)。
- \(V_{gi}\):\(X_{gi}\) 的方差(不可观测,核心被估量)。
-
\(\pi_g\):基因 \(g\) 的空间方差占比(proportion of spatial variance,目标 estimand / SVG 排序指标)。
-
模型: 原始计数生成机制:\(Y_{gi} \sim \text{Overdispersed Count}(\mu_{gi}, \phi_g)\)(如负二项分布),满足均值-方差关系 \(\sigma^2_{gi} = \mu_{gi} + \phi_g \mu_{gi}^2\)(均值越大,原始方差越大)。 空间结构:\(\mu_{gi}\) 或 \(X_{gi}\) 在坐标 \(s_i\) 上服从某空间随机过程(如高斯过程),具有空间协方差分量与非空间残差分量。
-
可观测数据: 矩阵 \(Y \in \mathbb{N}_0^{G \times n}\)(counts),坐标集 \(\{s_i\}_{i=1}^n\)。不可观测的是每个基因在每个 spot 上的真实期望 \(\mu_{gi}\) 与方差 \(V_{gi}\),以及空间与非空间方差的真实分拆比例 \(\pi_g\)。
第二步:最小内核——log-变换的方差反转与 delta method 校正
整篇论文的数学地基是:为什么 log-变换会破坏均值-方差关系,以及如何用 delta method 量化并校正它。剥去所有空间 GP 结构与经验贝叶斯先验,最小内核是一个一维的方差近似问题。
-
最简特例(单一基因,无空间结构,仅看均值-方差趋势): 假设 \(Y \sim \text{NB}(\mu, \phi)\),则 \(\text{Var}(Y) = \mu + \phi\mu^2\)。 令 \(X = \log_2(Y + c)\)。当 \(\mu\) 较大时,由 Delta Method:
\[\text{Var}(X) \approx \left( \frac{d \log_2(\mu+c)}{d \mu} \right)^2 \text{Var}(Y) = \left( \frac{1}{(\mu+c) \ln 2} \right)^2 (\mu + \phi\mu^2)\]当 \(\mu \to \infty\) 时,\(\text{Var}(X) \approx \frac{\phi \mu^2}{\mu^2 (\ln 2)^2} = \frac{\phi}{(\ln 2)^2}\)(常数)。 但当 \(\mu\) 极小(如 \(\mu \approx 0\),零膨胀严重)时,\(\text{Var}(X)\) 因 \(\frac{1}{(\mu+c)^2}\) 的分母极小而急剧膨胀。 核心数学现象:在原始尺度下,\(\text{Var}(Y)\) 随 \(\mu\) 单调递增;但在 log-尺度下,\(\text{Var}(X)\) 随 \(\mu\) 单调递减(低表达基因方差极大,高表达基因方差收敛到常数)。这被称为 mean-variance relationship 的反转。 -
最小内核要证的命题:若直接在 \(X_{gi}\) 上拟合空间模型并提取残差方差与空间方差以计算 \(\pi_g\),低表达基因的巨大技术方差 \(V_{gi}\) 会淹没空间信号,导致 \(\pi_g\) 估计有偏。
spoon的核心操作是:利用跨基因的均值-方差趋势 \(\hat{V}_{gi} = h(\hat{\mu}_{gi})\)(通过 delta method 或 loess 拟合),计算逆方差权重 \(w_{gi} = 1 / \hat{V}_{gi}\),将其注入空间模型的似然或加权最小二乘中,从而在效应量 \(\pi_g\) 的估计中剔除技术方差的影响。
三、这篇论文做了什么¶
三句话:
① 研究了 SRT 数据中 SVG 排序受 log-变换均值-方差反转偏差影响的问题;
② 核心工具是移植 voom 的均值-方差趋势估计与经验贝叶斯方差收缩;
③ 主要结论是:校正该偏差后,基于空间方差占比 \(\pi_g\) 的 SVG 优先排序更准确(模拟与真实数据实证)。
关键设定与假设:
- 设定:SRT 数据 \((Y, s)\),预处理采用 log-变换 \(X = \log_2(Y+c)\)。
- 假设 1(均值-方差趋势存在性):log-变换后的方差 \(V_{gi}\) 是均值 \(\mu_{gi}\) 的确定性函数 \(h(\mu_{gi})\),且单调递减。这是 voom 逻辑的基石,在 SRT 的零膨胀与深度异质性下,此趋势的形状可能异于 bulk RNA-seq。
- 假设 2(空间模型可分性):基因表达的空间变异可分拆为"空间方差"与"独立残差方差",二者之和等于总方差,从而 \(\pi_g = \text{Spatial Var} / \text{Total Var}\)。这隐含了 GP 或混合模型的方差分拆框架。
- 假设 3(经验贝叶斯先验适用性):基因间的残差方差(去除趋势后)服从某共同先验(如 Inverse Wishart 或 scaled F),可通过跨基因信息收缩。相比 limma/voom,本文将此假设延伸到了带有空间协方差的结构中。
主要结果:
本文为应用/方法型论文,无定理形式的 minimax 界或渐近效率证明。核心量化结论为算法流程与实证指标:
1. 偏差的实证确认:在多个真实 SRT 数据集上,绘制 log-尺度下的均值-方差散点图,确认低表达基因方差极高、高表达基因方差趋于常数的反转现象。
2. spoon 算法流程:
- 步骤 A:计算每个 spot 的文库大小因子,估计 \(\hat{\mu}_{gi}\)。
- 步骤 B:拟合均值-方差趋势 \(\hat{V}_{gi} = h(\hat{\mu}_{gi})\)(低表达段用 delta method 插值,高表达段用 loess 平滑)。
- 步骤 C:计算精确权重 \(w_{gi} = 1/\hat{V}_{gi}\)。
- 步骤 D:将 \(w_{gi}\) 输入空间线性混合模型(类似 limma 的 mixed-model 框架,空间随机效应用 GP 或其他核刻画),估计空间方差与残差方差。
- 步骤 E:对残差方差进行经验贝叶斯收缩,计算收缩后的 \(\hat{\pi}_g\)。
3. 模拟与真实数据对比:在模拟数据(已知真实 SVG 与 \(\pi_g\))中,spoon 相比无校正的 baseline(如直接在 log 数据跑 SPARK 或类似模型)在 ROC 曲线或排序相关性上数值更优;在真实数据(如 10x Visium 小鼠肾脏数据)中,spoon 识别出的顶层 SVG 更符合已知的空间生物学模式。
证明路线与技术技巧(方法型拆解):
- 整体路线:实证确认偏差 → 量化偏差(趋势拟合) → 逆方差加权消除偏差 → 经验贝叶斯收缩稳定估计 → 效应量排序。
- 关键跳跃点:从"识别出均值-方差趋势"到"在空间模型中应用权重"。难点在于空间模型的似然通常假设平稳性(方差与位置无关),而加权后每个 spot 的方差不同,破坏了标准 GP 似然的解析可解性。本文的绕过方式是采用 limma 式的线性混合模型近似,将空间效应作为随机效应,利用 Fisher scoring 或 REML 在加权尺度下求解。
- 技术技巧点名:
- Delta method:用于在低均值区域(零膨胀主导)解析计算 \(\text{Var}(\log Y)\) 的近似,避免 loess 在极端低均值处的过拟合。
- Local regression (loess):用于在高均值区域平滑均值-方差趋势,捕捉 SRT 特有的过度离散特征。
- Empirical Bayes moderation:沿用 Smyth (2004) 的先验构造,对混合模型提取的残差方差进行收缩,将 spot 数量极少时的不稳定方差估计拉向跨基因的池化估计。
- Variance partition:通过线性混合模型的方差分拆(总方差 = 空间随机效应方差 + 残差方差),计算 \(\pi_g\)。
真实例子与应用:
- 数据/场景:10x Visium 小鼠肾脏数据(具有明确的组织解剖学空间结构,如皮质、髓质)。
- 怎么用上去:对 counts 矩阵运行 spoon,提取每个基因的 \(\hat{\pi}_g\) 排序。
- 得到什么结果:排序靠前的 SVG 在组织切片上呈现与已知解剖边界高度吻合的空间梯度;相比之下,未校正 log-偏差的方法倾向于将低表达、高技术方差的基因误判为 SVG。
- 想说明什么:验证方差校正不仅理论上必要,在实际 SRT 数据中确实能改变生物学结论(剔除假阳性 SVG)。
🔎 结论是否比证明窄: 摘要声称 "leading to more accurate prioritization of SVGs",这是一个经验性声明,缺乏统计理论层面的保证(如:校正后的 \(\hat{\pi}_g\) 是否是 \(\pi_g\) 的无偏估计?其置信区间是否合理?收缩的先验假设在空间异质性下是否导致过度收缩?)。论文的"证明"仅停留在模拟数据的数值比较与真实数据的生物学合理性回溯,未给出 \(\hat{\pi}_g\) 的渐近分布或 MSE 界。
四、开放问题(点到为止)¶
- 直接建模 counts 的空间 GLM 是否能绕过 log-偏差? 摘要完全回避了负二项空间模型路线。若构建基于 NB 似然的空间随机效应模型,直接估 \(\pi_g\),则无需 log-变换,亦无需 delta method 校正。这指向一个根本性问题:
spoon是在为一个本不该用的变换打补丁,还是 log-变换在 SRT 中有不可替代的计算/统计优势?(扎根于摘要对 "technical bias with log-transformation" 的单一强调)。 - \(\pi_g\) 的半参数/非参数效率界是什么? 本文采用经验贝叶斯 + 线性混合模型分拆方差,但空间方差占比 \(\pi_g\) 的识别与估计在半参数模型下的效率界尚未被刻画。若将空间过程视为非参数无限维参数,\(\pi_g\) 的估计是否能达到 \(\sqrt{n}\)-收敛?(扎根于第三节指出的"无渐近理论保证")。
- 测序深度异质性对均值-方差趋势的破坏:SRT 中不同 spot 的总 reads 数差异极大,导致 \(\mu_{gi}\) 的估计受深度混杂。
voom的趋势拟合假设深度已被标准化,但在 SRT 的零膨胀下,标准化后的趋势是否仍满足单调递减?(扎根于假设 1 的趋势存在性)。 - 空间非平稳性与方差收缩的冲突:经验贝叶斯假设残差方差跨基因共享先验,但若空间相关性本身是非平稳的(方差随空间位置变化),跨基因收缩可能抹平真实的局部空间异质性。(扎根于假设 2 与 3 的张力)。
Maintained by 陈星宇 · Homepage · Source on GitHub