Addressing the mean–variance relationship in spatially resolved transcriptomics data with spoon¶

作者: Kinnary Shah, Boyi Guo, Stephanie C Hicks
来源: Biostatistics
主题: 其他
相关性: 2/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxaf012

一、领域脉络与小综述¶

这个方向是什么：空间转录组学数据的统计建模，核心任务是识别空间变异基因（SVGs）——即在二维空间坐标上表达量存在非随机变异的基因。该方向的成熟度处于方法爆发期：测序技术（如 10x Visium、MERFISH）已产出大量真实数据，但针对其计数数据特征（过度离散、均值-方差强耦合、空间相关性）的统计检验与效应量估计框架仍在迭代，尚未形成如 bulk RNA-seq 中 limma/voom 那样的绝对标准。

发展脉络： - 奠基工作（Bulk RNA-seq 的均值-方差校正）：Smyth (2004) 提出对基因方差进行经验贝叶斯收缩的 limma；Law et al. (2014) 提出 voom，精确指出了 log-变换在 RNA-seq 计数数据上的技术偏差：高表达基因原始方差大，但 log-变换后方差反而小，破坏了均值-方差单调关系，voom 通过估计均值-方差趋势并生成精确权重解决了此问题。本文摘要明确引用此脉络："previous work in the analysis of RNA-sequencing data identified a technical bias with log-transformation, violating the 'mean–variance relationship'"。 - 主要进展（SRT 中的 SVG 检测）：SpatialDE (Svensson et al., 2018) 与 SPARK (Sun et al., 2020) 引入高斯过程（GP）或自回归模型刻画空间相关性，基于 p-value 排序 SVG；SPARK-X (Zhu et al., 2021) 转向非参数的核均值嵌入检验以提升计算速度。这些工作留下了口子：要么依赖 p-value 排序而忽略效应量（空间方差占比），要么在预处理时直接对 counts 做 log-变换，未校正 log-变换引入的方差偏差。 - 当前 frontier 与本文位置：当前 SRT 分析同时追求效应量估计（proportion of spatial variance）与计算可扩展性。本文 spoon 将 voom 的均值-方差校正逻辑移植到 SRT 领域，填补了"空间模型 + log-变换方差校正 + 经验贝叶斯收缩"的交叉空白。

子线索聚类： 1. 均值-方差建模与方差收缩（Empirical Bayes 线索）：从 limma 到 voom，核心是利用跨基因的方差趋势进行收缩，降低低样本量下方差估计的波动。本文直接继承此线索。 2. 空间相关性检验与估计（Spatial Process 线索）：从 SpatialDE 到 SPARK/X，核心是定义空间协方差结构（如 GP 的 Matérn 核）或非参数空间独立性检验，提取空间方差分量。本文在此线索上加入了方差校正。 3. 效应量优先排序 vs P-value 排序（Effect Size 线索）：近期 SRT 文献开始强调空间方差占比而非仅看显著性，本文的校正直接作用于效应量估计。

这个方向在追问的核心问题： 1. 如何在过度离散的计数数据上，既保留空间相关性的非参数/参数结构，又避免 log-变换对方差结构的扭曲？ 2. SVG 的优先排序究竟应该依赖 p-value 还是空间方差占比？若依赖占比，如何保证其无偏性？ 3. 当前瓶颈：SRT 数据每个 spot 的测序深度极度不均，导致均值-方差趋势的估计比 bulk RNA-seq 更易受零膨胀干扰。

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：SRT 领域现有的 SVG 排序方法（基于 p-value 或 proportion of spatial variance）忽略了 log-变换的技术偏差，因此排序不准确；spoon 通过经验贝叶斯校正此偏差，是"显然的下一步"。 - 被淡化或回避的竞争路线：直接在原始 counts 上建模（如负二项空间模型、零膨胀泊松），而不做 log-变换。如果存在不依赖 log-变换的生成模型，那么"校正 log-变换偏差"本身就是一个伪需求，只需换一个似然即可。摘要中完全未提及此类 count-based 竞争模型。 - 明显该被引但未出现的文献：SRT 领域内处理零膨胀与测序深度异质性的计数模型（如基于 NB 的空间 GLM），以及空间统计学中关于非平稳方差分量的经典文献。这是值得研究者去查的问题：spoon 的方差校正是否只是在为一个本不该使用的 log-变换打补丁？

张力：未见明显对立引用。voom 的结论（log-变换反转均值-方差关系）在 SRT 数据上被本文实证确认，逻辑自洽。但存在隐含张力：SPARK 等方法在 log-变换后使用 GP 似然，假设了平稳性，而 voom 指出 log-变换后方差随均值变化（非平稳），二者在方差结构的假设上存在冲突，本文试图调和此冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(g \in \{1, \dots, G\}\)：基因索引。
\(i \in \{1, \dots, n\}\)：空间 spot 索引。
\(s_i \in \mathbb{R}^2\)：spot \(i\) 的二维空间坐标（可观测）。
\(Y_{gi} \in \mathbb{N}_0\)：基因 \(g\) 在 spot \(i\) 的原始 read count（可观测）。
\(\mu_{gi}\)：\(Y_{gi}\) 的期望（不可观测的潜在参数，需估）。
\(\sigma^2_{gi}\)：\(Y_{gi}\) 的原始方差（不可观测）。
\(X_{gi} = \log_2(Y_{gi} + c)\)：log-变换后的表达量（可观测计算值，\(c\) 为偏移常数，如 1）。
\(V_{gi}\)：\(X_{gi}\) 的方差（不可观测，核心被估量）。
\(\pi_g\)：基因 \(g\) 的空间方差占比（proportion of spatial variance，目标 estimand / SVG 排序指标）。
模型：原始计数生成机制：\(Y_{gi} \sim \text{Overdispersed Count}(\mu_{gi}, \phi_g)\)（如负二项分布），满足均值-方差关系 \(\sigma^2_{gi} = \mu_{gi} + \phi_g \mu_{gi}^2\)（均值越大，原始方差越大）。空间结构：\(\mu_{gi}\) 或 \(X_{gi}\) 在坐标 \(s_i\) 上服从某空间随机过程（如高斯过程），具有空间协方差分量与非空间残差分量。
可观测数据：矩阵 \(Y \in \mathbb{N}_0^{G \times n}\)（counts），坐标集 \(\{s_i\}_{i=1}^n\)。不可观测的是每个基因在每个 spot 上的真实期望 \(\mu_{gi}\) 与方差 \(V_{gi}\)，以及空间与非空间方差的真实分拆比例 \(\pi_g\)。

第二步：最小内核——log-变换的方差反转与 delta method 校正

整篇论文的数学地基是：为什么 log-变换会破坏均值-方差关系，以及如何用 delta method 量化并校正它。剥去所有空间 GP 结构与经验贝叶斯先验，最小内核是一个一维的方差近似问题。

最简特例（单一基因，无空间结构，仅看均值-方差趋势）：假设 \(Y \sim \text{NB}(\mu, \phi)\)，则 \(\text{Var}(Y) = \mu + \phi\mu^2\)。令 \(X = \log_2(Y + c)\)。当 \(\mu\) 较大时，由 Delta Method：
\[\text{Var}(X) \approx \left( \frac{d \log_2(\mu+c)}{d \mu} \right)^2 \text{Var}(Y) = \left( \frac{1}{(\mu+c) \ln 2} \right)^2 (\mu + \phi\mu^2)\]
当 \(\mu \to \infty\) 时，\(\text{Var}(X) \approx \frac{\phi \mu^2}{\mu^2 (\ln 2)^2} = \frac{\phi}{(\ln 2)^2}\)（常数）。但当 \(\mu\) 极小（如 \(\mu \approx 0\)，零膨胀严重）时，\(\text{Var}(X)\) 因 \(\frac{1}{(\mu+c)^2}\) 的分母极小而急剧膨胀。 核心数学现象：在原始尺度下，\(\text{Var}(Y)\) 随 \(\mu\) 单调递增；但在 log-尺度下，\(\text{Var}(X)\) 随 \(\mu\) 单调递减（低表达基因方差极大，高表达基因方差收敛到常数）。这被称为 mean-variance relationship 的反转。
最小内核要证的命题：若直接在 \(X_{gi}\) 上拟合空间模型并提取残差方差与空间方差以计算 \(\pi_g\)，低表达基因的巨大技术方差 \(V_{gi}\) 会淹没空间信号，导致 \(\pi_g\) 估计有偏。spoon 的核心操作是：利用跨基因的均值-方差趋势 \(\hat{V}_{gi} = h(\hat{\mu}_{gi})\)（通过 delta method 或 loess 拟合），计算逆方差权重 \(w_{gi} = 1 / \hat{V}_{gi}\)，将其注入空间模型的似然或加权最小二乘中，从而在效应量 \(\pi_g\) 的估计中剔除技术方差的影响。

三、这篇论文做了什么¶

三句话： ① 研究了 SRT 数据中 SVG 排序受 log-变换均值-方差反转偏差影响的问题； ② 核心工具是移植 voom 的均值-方差趋势估计与经验贝叶斯方差收缩； ③ 主要结论是：校正该偏差后，基于空间方差占比 \(\pi_g\) 的 SVG 优先排序更准确（模拟与真实数据实证）。

关键设定与假设： - 设定：SRT 数据 \((Y, s)\)，预处理采用 log-变换 \(X = \log_2(Y+c)\)。 - 假设 1（均值-方差趋势存在性）：log-变换后的方差 \(V_{gi}\) 是均值 \(\mu_{gi}\) 的确定性函数 \(h(\mu_{gi})\)，且单调递减。这是 voom 逻辑的基石，在 SRT 的零膨胀与深度异质性下，此趋势的形状可能异于 bulk RNA-seq。 - 假设 2（空间模型可分性）：基因表达的空间变异可分拆为"空间方差"与"独立残差方差"，二者之和等于总方差，从而 \(\pi_g = \text{Spatial Var} / \text{Total Var}\)。这隐含了 GP 或混合模型的方差分拆框架。 - 假设 3（经验贝叶斯先验适用性）：基因间的残差方差（去除趋势后）服从某共同先验（如 Inverse Wishart 或 scaled F），可通过跨基因信息收缩。相比 limma/voom，本文将此假设延伸到了带有空间协方差的结构中。

主要结果：本文为应用/方法型论文，无定理形式的 minimax 界或渐近效率证明。核心量化结论为算法流程与实证指标： 1. 偏差的实证确认：在多个真实 SRT 数据集上，绘制 log-尺度下的均值-方差散点图，确认低表达基因方差极高、高表达基因方差趋于常数的反转现象。 2. spoon 算法流程： - 步骤 A：计算每个 spot 的文库大小因子，估计 \(\hat{\mu}_{gi}\)。 - 步骤 B：拟合均值-方差趋势 \(\hat{V}_{gi} = h(\hat{\mu}_{gi})\)（低表达段用 delta method 插值，高表达段用 loess 平滑）。 - 步骤 C：计算精确权重 \(w_{gi} = 1/\hat{V}_{gi}\)。 - 步骤 D：将 \(w_{gi}\) 输入空间线性混合模型（类似 limma 的 mixed-model 框架，空间随机效应用 GP 或其他核刻画），估计空间方差与残差方差。 - 步骤 E：对残差方差进行经验贝叶斯收缩，计算收缩后的 \(\hat{\pi}_g\)。 3. 模拟与真实数据对比：在模拟数据（已知真实 SVG 与 \(\pi_g\)）中，spoon 相比无校正的 baseline（如直接在 log 数据跑 SPARK 或类似模型）在 ROC 曲线或排序相关性上数值更优；在真实数据（如 10x Visium 小鼠肾脏数据）中，spoon 识别出的顶层 SVG 更符合已知的空间生物学模式。

证明路线与技术技巧（方法型拆解）： - 整体路线：实证确认偏差 → 量化偏差（趋势拟合） → 逆方差加权消除偏差 → 经验贝叶斯收缩稳定估计 → 效应量排序。 - 关键跳跃点：从"识别出均值-方差趋势"到"在空间模型中应用权重"。难点在于空间模型的似然通常假设平稳性（方差与位置无关），而加权后每个 spot 的方差不同，破坏了标准 GP 似然的解析可解性。本文的绕过方式是采用 limma 式的线性混合模型近似，将空间效应作为随机效应，利用 Fisher scoring 或 REML 在加权尺度下求解。 - 技术技巧点名： - Delta method：用于在低均值区域（零膨胀主导）解析计算 \(\text{Var}(\log Y)\) 的近似，避免 loess 在极端低均值处的过拟合。 - Local regression (loess)：用于在高均值区域平滑均值-方差趋势，捕捉 SRT 特有的过度离散特征。 - Empirical Bayes moderation：沿用 Smyth (2004) 的先验构造，对混合模型提取的残差方差进行收缩，将 spot 数量极少时的不稳定方差估计拉向跨基因的池化估计。 - Variance partition：通过线性混合模型的方差分拆（总方差 = 空间随机效应方差 + 残差方差），计算 \(\pi_g\)。

真实例子与应用： - 数据/场景：10x Visium 小鼠肾脏数据（具有明确的组织解剖学空间结构，如皮质、髓质）。 - 怎么用上去：对 counts 矩阵运行 spoon，提取每个基因的 \(\hat{\pi}_g\) 排序。 - 得到什么结果：排序靠前的 SVG 在组织切片上呈现与已知解剖边界高度吻合的空间梯度；相比之下，未校正 log-偏差的方法倾向于将低表达、高技术方差的基因误判为 SVG。 - 想说明什么：验证方差校正不仅理论上必要，在实际 SRT 数据中确实能改变生物学结论（剔除假阳性 SVG）。

🔎 结论是否比证明窄：摘要声称 "leading to more accurate prioritization of SVGs"，这是一个经验性声明，缺乏统计理论层面的保证（如：校正后的 \(\hat{\pi}_g\) 是否是 \(\pi_g\) 的无偏估计？其置信区间是否合理？收缩的先验假设在空间异质性下是否导致过度收缩？）。论文的"证明"仅停留在模拟数据的数值比较与真实数据的生物学合理性回溯，未给出 \(\hat{\pi}_g\) 的渐近分布或 MSE 界。

四、开放问题（点到为止）¶

直接建模 counts 的空间 GLM 是否能绕过 log-偏差？ 摘要完全回避了负二项空间模型路线。若构建基于 NB 似然的空间随机效应模型，直接估 \(\pi_g\)，则无需 log-变换，亦无需 delta method 校正。这指向一个根本性问题：spoon 是在为一个本不该用的变换打补丁，还是 log-变换在 SRT 中有不可替代的计算/统计优势？（扎根于摘要对 "technical bias with log-transformation" 的单一强调）。
\(\pi_g\) 的半参数/非参数效率界是什么？ 本文采用经验贝叶斯 + 线性混合模型分拆方差，但空间方差占比 \(\pi_g\) 的识别与估计在半参数模型下的效率界尚未被刻画。若将空间过程视为非参数无限维参数，\(\pi_g\) 的估计是否能达到 \(\sqrt{n}\)-收敛？（扎根于第三节指出的"无渐近理论保证"）。
测序深度异质性对均值-方差趋势的破坏：SRT 中不同 spot 的总 reads 数差异极大，导致 \(\mu_{gi}\) 的估计受深度混杂。voom 的趋势拟合假设深度已被标准化，但在 SRT 的零膨胀下，标准化后的趋势是否仍满足单调递减？（扎根于假设 1 的趋势存在性）。
空间非平稳性与方差收缩的冲突：经验贝叶斯假设残差方差跨基因共享先验，但若空间相关性本身是非平稳的（方差随空间位置变化），跨基因收缩可能抹平真实的局部空间异质性。（扎根于假设 2 与 3 的张力）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Addressing the mean–variance relationship in spatially resolved transcriptomics data with spoon¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论