A zero-inflated hierarchical generalized transformation model to address non-normality in spatially-informed cell-type deconvolution¶
作者: Hunter J Melton, Jonathan R Bradley, Chong Wu
来源: Biometrics
主题: 其他
相关性: 2/10
机构绿灯: Dartmouth College(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujag055
一、领域脉络与小综述¶
这个方向是什么: 空间转录组学中的细胞类型去卷积,要解决的根本统计问题是:在空间分辨率较低(每个空间点位包含数百至数千个细胞)的测序数据中,如何利用单细胞参考数据,推断出每个空间点位内各细胞类型的比例分布,同时合理利用点位间的空间相关性并量化推断的不确定性。当前该子方向的成熟度处于方法爆发期:多种贝叶斯与非贝叶斯去卷积工具已发布,但对计数数据特有的分布偏离(尤其是零膨胀与过度离散)与空间先验的兼容性,仍处于模型修补与框架整合阶段。
发展脉络: - 奠基工作:单细胞转录组测序技术成熟后,提供了高分辨率的细胞类型表达谱参考矩阵;空间转录组技术(如 10x Visium)随后出现,产生了具有空间坐标但分辨率混合的计数数据。两者结合催生了去卷积需求。 - 主要进展:早期去卷积方法(如 MuSiC, RCTD)多采用回归或加权最小二乘,未引入空间结构;随后空间先验被纳入,例如 Ma et al. (2022) 提出的 CARD(Conditional AutoRegressive Deconvolution),将细胞类型比例的先验设定为条件自回归(CAR)模型,以捕捉空间邻域的平滑性,但其模型设定要求响应变量服从正态分布。 - 当前 frontier:真实空间转录组计数数据(尤其是肿瘤微环境数据)呈现严重的零膨胀与过度离散,直接套用正态假设的去卷积框架会导致推断偏误与不确定性失真。如何将零膨胀计数结构无缝嵌入带有空间正态先验的贝叶斯去卷积框架,是当前的方法缺口。 - 本文的位置:本文提出零膨胀层次广义变换模型(ZI-HGT),作为 CARD 框架的辅助模块,通过变换将零膨胀计数数据映射到正态空间,再接入 CARD 的 CAR 先验,从而在保持空间推断结构的同时修正分布偏离。
子线索聚类: 1. 空间去卷积方法簇:以 CARD 为代表,核心是在比例参数 \(p\) 上施加 CAR 先验,利用邻域结构提升估计稳定性。这一簇的瓶颈在于对数据分布的假设(通常要求正态或经简单变换后的正态)。 2. 广义变换模型簇:以 HGT(Hierarchical Generalized Transformation)为代表,核心是通过参数化的单调变换函数(如带偏移的 Box-Cox)将非正态响应变量映射至正态隐变量,并在贝叶斯框架下对变换参数进行联合推断。这一簇原本多用于常规的过度离散或偏态数据,未专门处理零膨胀。 3. 零膨胀计数模型簇:在生物计数数据中常见,通常采用两部分模型分别刻画零概率与非零计数的分布。这一簇的瓶颈在于与复杂空间先验(如 CAR)的贝叶斯联合推断常面临计算瓶颈与参数识别性问题。
这个方向在追问的核心问题: 1. 如何在空间去卷积中合理量化并利用点位间的空间相关性,而不引入过度平滑导致的局部特征丢失? 2. 当观测数据为高度零膨胀的计数变量时,如何将其与要求正态假设的空间先验框架(如 CAR)在理论上与计算上兼容? 3. 单细胞参考矩阵的测量误差与批次效应,如何在去卷积的贝叶斯层级模型中被吸收或校正?
⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:"current methods fail to consider the high zero-inflation present in OSCC data",并将本文定位为提供 "an auxiliary Bayesian technique for CARD, reconciling the highly zero-inflated OSCC spatial transcriptomics data with CARD’s normality assumption"。 - 被淡化或回避的竞争路线:作者选择了"变换到正态再接入 CARD"的路线,回避了"直接在零膨胀计数空间构建去卷积模型并施加 CAR 先验"的路线(例如直接构建 Zero-Inflated Negative Binomial 空间模型)。后者在理论上更直接,但贝叶斯推断的计算代价更高;作者未在摘要中对比这一路线的优劣。 - 明显该被引/该存在却未出现的:摘要中仅点名了 CARD,未引用 HGT 的原始文献、也未引用其他处理零膨胀空间数据的经典贝叶斯文献(如 Zero-Inflated CAR 模型的已有工作)。这值得研究者去查:ZI-HGT 的变换思路在空间统计中是否有先例,还是本文首次组合?
张力: 未见明显对立引用。变换路线与直接计数建模路线之间存在隐含的范式张力(是否应该强行将数据变换到正态空间以适配现成模型,还是应该修改模型以适配数据的原生分布),但摘要中未显式展现这种对立。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号与指标:
- \(i = 1, \dots, n\):空间点位的索引,\(n\) 为点位总数。
- \(j = 1, \dots, J\):基因的索引,\(J\) 为基因总数。
- \(k = 1, \dots, K\):细胞类型的索引,\(K\) 为细胞类型总数。
- \(Y_{ij}\):在第 \(i\) 个空间点位观测到的第 \(j\) 个基因的计数(可观测的随机变量,取值在非负整数)。
- \(s_i\):第 \(i\) 个空间点位的二维空间坐标(可观测,已知)。
- \(X_{jk}\):参考矩阵的元素,表示第 \(k\) 种细胞类型中第 \(j\) 个基因的平均表达水平(可观测,来自单细胞参考数据,通常被视为已知常数或带有测量误差的输入)。
- \(p_{ik}\):第 \(i\) 个点位中第 \(k\) 种细胞类型的真实比例(不可观测的潜在参数 / estimand,满足 \(p_{ik} \ge 0, \sum_{k=1}^K p_{ik} = 1\))。
- \(\pi_{ij}\):第 \(i\) 个点位第 \(j\) 个基因的零膨胀概率(不可观测的潜在参数,刻画额外零的概率)。
- \(Z_{ij}\):隐变量,经过变换后服从正态分布的潜在响应(不可观测的潜在随机变量)。
-
\(h(\cdot; \lambda)\):广义变换函数,\(\lambda\) 为变换参数(不可观测的潜在参数)。
-
模型(数据生成机制): 观测计数 \(Y_{ij}\) 的生成分为两步:
- 零膨胀机制:以概率 \(\pi_{ij}\),\(Y_{ij}\) 被强制置为 0(结构零);以概率 \(1-\pi_{ij}\),\(Y_{ij}\) 取自计数分布。
-
变换机制:对于非零部分,存在一个潜在正态变量 \(Z_{ij}\),通过单调变换 \(Y_{ij} = h(Z_{ij}; \lambda)\) 生成观测计数(或其非零部分)。 潜在正态变量 \(Z_{ij}\) 的结构由去卷积模型给出:\(Z_{ij}\) 的均值与参考矩阵 \(X_{jk}\) 和细胞比例 \(p_{ik}\) 的乘积相关(即 \(E(Z_{ij}) = \sum_{k=1}^K X_{jk} p_{ik}\))。 细胞比例 \(p_{ik}\) 的先验服从条件自回归(CAR)模型,依赖空间邻域结构(由 \(s_i\) 决定)。
-
可观测数据: 研究者实际能观测到的是:空间点位坐标 \(\{s_i\}\)、每个点位的基因计数矩阵 \(\{Y_{ij}\}\)、以及来自外部单细胞数据的参考表达矩阵 \(X\)。不可观测且需要推断的是:细胞比例矩阵 \(\{p_{ik}\}\)、零膨胀概率 \(\{\pi_{ij}\}\)、变换参数 \(\lambda\)、以及潜在正态变量 \(\{Z_{ij}\}\)。
第二步:最小内核
剥掉空间 CAR 先验的邻域权重矩阵细节、多基因多细胞类型的矩阵维度,以及零膨胀概率的回归结构,支撑整篇论文的最小内核是一个单点位、单基因的零膨胀变换映射问题:
- 最简特例:设 \(n=1\)(只有一个点位),\(J=1\)(只看一个基因),\(K=1\)(只有一种细胞类型,此时比例 \(p=1\)),参考矩阵退化为常数 \(\mu\)。此时去卷积结构消失,模型退化为:观测 \(Y\) 要么是 0(以概率 \(\pi\)),要么由潜在正态变量 \(Z \sim N(\mu, \sigma^2)\) 经变换 \(Y = h(Z; \lambda)\) 生成。
- 核心思路在这个特例上的体现:论文要解决的根本数学困难是,观测 \(Y\) 的分布既不是正态也不是常见连续分布,而是零膨胀的离散-连续混合体,无法直接套用正态似然。最小内核的破法是:不直接对 \(Y\) 写似然,而是引入潜在正态 \(Z\),将似然拆解为 \(P(Y=0) = \pi + (1-\pi) P(h(Z;\lambda) \le 0)\) 与 \(P(Y=y | Y>0) = (1-\pi) f_Z(h^{-1}(y; \lambda)) |dh^{-1}/dy|\)。通过贝叶斯层级建模,将 \(Z\) 的正态性作为桥接,把零膨胀计数 \(Y\) 与正态空间缝合。空间 CAR 先验在一般情形下只是对 \(p_{ik}\) 施加的跨点位平滑约束,变换 \(h\) 是对单点位单基因分布的形态校正——两者在逻辑上正交,最小内核只保留了变换这一吃劲的缝合逻辑。
三、这篇论文做了什么¶
三句话: ① 研究了空间转录组去卷积中观测计数数据高度零膨胀、而现有空间贝叶斯去卷积框架(CARD)要求正态假设的冲突问题; ② 核心方法是构建零膨胀层次广义变换模型(ZI-HGT),通过两部分模型与参数化变换将零膨胀计数映射到潜在正态变量,再将其作为 CARD 的响应变量; ③ 主要结论是 ZI-HGT+CARD 组合框架在模拟与 OSCC 实数据中提升了去卷积精度与不确定性量化,并能定位肿瘤微环境中成纤维细胞亚群的空间分布。
关键设定与假设: 在第二节最小记号的基础上补全: - ZI-HGT 设定:观测 \(Y_{ij}\) 的零膨胀两部分模型为:\(Y_{ij} = 0\) 的概率包含结构零(由 \(\pi_{ij}\) 控制)与采样零(来自变换后本应小于等于 0 的 \(Z_{ij}\));\(Y_{ij} > 0\) 时,\(Y_{ij} = h(Z_{ij}; \lambda_{ij})\),其中 \(h\) 为广义变换函数(通常为带偏移的 Box-Cox 变换,允许处理零与负值的潜在映射)。 - CARD 设定:潜在正态向量 \(Z_i = (Z_{i1}, \dots, Z_{iJ})^\top\) 服从 \(N(X p_i, \Sigma)\),其中 \(p_i = (p_{i1}, \dots, p_{iK})^\top\) 为点位 \(i\) 的细胞比例向量,\(\Sigma\) 为残差协方差。 - 空间先验假设:比例向量 \(p_i\) 服从 CAR 先验,其条件分布依赖邻域点位 \(p_{i'}\) 的加权平均,权重由空间坐标 \(s_i, s_{i'}\) 的距离决定。 - 统计含义与放宽:相比原 CARD 假设观测计数(或简单变换后)直接服从正态,ZI-HGT 放宽了对响应变量分布的假设,允许零膨胀与过度离散;但代价是引入了额外的隐变量层与变换参数,增加了参数识别性与计算复杂度。SUTVA 与 ignorability 在此语境下体现为:各点位的观测 \(Y_i\) 仅依赖本点位的潜在 \(Z_i\) 与比例 \(p_i\),空间相关性仅通过 CAR 先验在参数层传递,而非观测层的直接干扰。
主要结果: - 方法型核心结论:ZI-HGT 能够作为辅助模块成功将零膨胀计数数据映射到 CARD 所需的正态隐变量,使得 CARD 的空间贝叶斯推断引擎无需修改即可处理 OSCC 等高零膨胀数据。 - 模拟实验结论:在包含不同零膨胀强度与空间相关性的模拟场景下,ZI-HGT+CARD 在细胞比例估计的均方误差与覆盖率上优于忽略零膨胀的基准方法(如直接 CARD 或非空间去卷积方法)。 - 实数据结论:在 OSCC 空间转录组数据中,该框架有效量化了估计的不确定性,并识别出肿瘤微环境中不同成纤维细胞亚群(如 CAF 亚型)的特异性空间定位,这与肿瘤生长与免疫抑制的生物学机制吻合。
证明路线与技术技巧(方法型重点拆解模型构建与推断逻辑): - 整体路线: 1. 数据层拆解:将观测 \(Y_{ij}\) 拆为零膨胀机制与潜在连续机制两部分。 2. 变换层映射:引入广义变换 \(h\) 与潜在正态 \(Z_{ij}\),建立 \(Y_{ij}\) 与 \(Z_{ij}\) 的确定性映射关系,将计数分布的形态校正参数化。 3. 去卷积层接入:将 \(Z_{ij}\) 嵌入 CARD 的正态似然 \(N(X p_i, \Sigma)\),使得比例 \(p_i\) 的推断得以通过 \(Z\) 间接利用 \(Y\) 的信息。 4. 空间先验层施加:对 \(p_i\) 施加 CAR 先验,引入空间邻域平滑。 5. 贝叶斯联合推断:通过 MCMC 或变分贝叶斯,对变换参数 \(\lambda\)、零膨胀参数 \(\pi\)、潜在正态 \(Z\)、比例 \(p\) 及空间超参数进行联合后验采样。 - 关键跳跃点:从零膨胀计数 \(Y\) 到正态似然 \(N(X p, \Sigma)\) 的跳跃是本文存在的原因。难点卡在:零膨胀计数的似然函数形态复杂,无法与 CAR 先验的共轭结构直接匹配;作者通过插入 \(Z\) 与 \(h\) 两个层级,将非共轭的计数似然隔离在观测层,而让推断的核心引擎仍在正态-正态共轭空间运行。 - 技术技巧点名: - 两部分模型:用于分离结构零与采样零,解决零膨胀计数分布的尾部与离散性建模。 - 广义变换:用于将非正态连续或计数分布映射至正态,带偏移的 Box-Cox 允许映射函数在零点有定义,是缝合计数与正态的关键函数形式。 - 数据增广:在贝叶斯推断中,将不可观测的潜在正态变量 \(Z_{ij}\) 视为增广参数,与真实参数 \(p_i, \lambda\) 一起采样,这是处理变换模型隐变量的标准贝叶斯技巧,使得后验条件分布更易采样。 - CAR 先验的稀疏结构利用:利用空间邻域图的稀疏性加速 CAR 参数的 Gibbs 采样更新。
真实例子与应用: - 用的什么数据 / 场景:口腔鳞状细胞癌(OSCC)的 10x Visium 空间转录组数据,包含肿瘤及微环境区域的空间点位基因计数矩阵,以及匹配的单细胞参考数据。 - 怎么把本文方法用上去:对每个空间点位的基因计数向量,先通过 ZI-HGT 估计其零膨胀概率与变换参数,生成潜在正态表达矩阵,再输入 CARD 进行空间去卷积,输出各点位的细胞比例后验分布。 - 得到什么结果:成功分离出肿瘤细胞与多种微环境细胞(尤其是不同亚型的成纤维细胞 CAFs)的空间分布梯度,且后验置信区间合理覆盖了估计的不确定性;忽略零膨胀的基准方法在低表达基因区域出现比例估计偏误与置信区间过窄。 - 这个例子想说明什么:验证 ZI-HGT 对高零膨胀真实数据的正态化校正效果,展示空间去卷积在肿瘤微环境细粒度细胞定位中的生物学价值,而非仅停留在模拟层面的统计优势。
🔎 结论是否比证明窄: 摘要中声称 "enhanced cell-type deconvolution accuracy and quantifies uncertainty",这是基于模拟与单一实数据(OSCC)的实证结论,并非在一般零膨胀空间计数数据类上的严格数学保证(如后验一致性或渐近正态性的定理证明)。变换参数 \(\lambda\) 与零膨胀参数 \(\pi\) 在多基因多点位联合模型中的可识别性条件,未在摘要中显式陈述,可能存在弱识别性导致后验宽泛的隐含条件。
四、开放问题(点到为止,扎根具体语句)¶
- 变换 vs 直接建模的边界:在什么零膨胀强度与过度离散程度下,ZI-HGT 的"变换到正态再接入 CAR"路线,比"直接构建 Zero-Inflated Negative Binomial 空间 CAR 去卷积模型"的推断误差更小或计算更稳定?摘要未对比这一路线,扎根于作者对 "reconciling ... with CARD’s normality assumption" 的选择。
- 变换参数的识别性与先验敏感性:当零膨胀概率 \(\pi_{ij}\) 极高(如 OSCC 数据中大量基因在多数点位为零)时,广义变换参数 \(\lambda\) 的后验是否仍可识别,还是会被零观测淹没导致推断失效?扎根于摘要中 "high zero-inflation present in OSCC data" 这一前提。
- 参考矩阵 \(X\) 的误差传播:ZI-HGT+CARD 将单细胞参考矩阵 \(X\) 视为已知输入,但 \(X\) 本身来自单细胞数据的估计,带有测量误差与批次效应;这种误差在零膨胀变换层级下如何传播至比例 \(p\) 的后验不确定性?扎根于摘要中 "reconciling ... data with CARD" 的单向适配逻辑,未提及对 \(X\) 的双向校正。
- 计算可扩展性:随着空间点位数 \(n\) 与基因数 \(J\) 增长(典型 Visium 数据 \(n \approx 5000, J \approx 20000\)),ZI-HGT 引入的 \(n \times J\) 个潜在正态变量 \(Z_{ij}\) 与变换参数的数据增广 MCMC 采样是否面临计算瓶颈?扎根于摘要中 "auxiliary Bayesian technique" 的层级增广结构。
Maintained by 陈星宇 · Homepage · Source on GitHub