Accurate estimation of rare cell-type fractions from tissue omics data via hierarchical deconvolution¶

作者: Penghui Huang, Manqi Cai, Xinghua Lu, Chris McKennan, Jiebiao Wang
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 4/10
机构绿灯: University of Pittsburgh（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1829

一、领域脉络与小综述¶

这个方向是什么¶

本方向是 组织转录组学 (bulk transcriptomics) 中的细胞类型分数估计，也称为“细胞去卷积 (cellular deconvolution)”。核心科学问题是：从混合了多种细胞类型的组织样本（bulk tissue）的基因表达数据中，反推出每种细胞类型在样本中所占的比例（分数）。这是一个经典的 混合物解混 (mixture deconvolution) 问题，在生物统计学和流行病学中尤为重要——因为组织水平的差异表达分析往往混杂了细胞组分的变化，而不是真正的表达量变化。该方向的成熟度较高——已有大量方法（CIBERSORT, MuSiC, Bisque 等），但仍对高度相关或稀有细胞类型估计不佳。当前的技术瓶颈正是本文尝试攻克的。

发展脉络 (history)¶

根据本文 introduction 引用的文献，可梳理如下：

奠基工作 (CIBERSORT, Newman et al. 2015)：引入支持向量回归 (ν-SVR) 进行去卷积，使用公开的“标记基因”表达矩阵（LM22）作为参考。成就：成为了早期黄金标准；留下口子：假设细胞类型间表达谱高度独立，对相关细胞类型区分度差，且未利用单细胞参考。
利用单细胞 RNA-seq 参考 (MUSiC, Wang et al. 2019; Bisque, Jew et al. 2020)：开始利用单细胞 RNA 测序（scRNA-seq）数据作为更精确的参考。MuSiC 使用横跨细胞类型的交叉样本变异来解决传统方法中的高度相关共表达问题；Bisque 提供了一个无需交叉拟合的快速框架。成就：精度大幅提升；口子：这些方法仍假设细胞类型有清晰界限，对稀有细胞类型（<5%）或高度相似的细胞亚型估计不准，信号被淹没在占多数的细胞中。
当前 frontier & 本文的位置：本文指出，现有方法“是为由清晰可分辨细胞类型组成的组织设计的”，因此当遇到高度相关或稀有细胞类型时表现不佳。作者将缺口 frame 为 “需要一种能显式建模细胞类型相似性（层次关系）并跨类型借力（borrow strength）的方法”。HiDecon 正是为了填补这个 gap：利用层次细胞类型树，在树的不同层之间传递分数信息，以纠正稀有或高度相关细胞类型的偏差。

子线索聚类¶

基于标记基因矩阵的经典方法 (CIBERSORT 等)：
- 作法：使用预定义的标记基因列表或纯样本表达谱构建“签名矩阵 (signature matrix)”，然后解线性方程组（通常加非负或 L1 约束）。
- 瓶颈：签名矩阵的构建高度依赖先验知识；当细胞类型高度相似时，签名矩阵病态，解不唯一。
使用单细胞 RNA-seq 参考的解卷积方法 (MuSiC, Bisque 等 2019-至今)：
- 作法：利用 scRNA-seq 数据生成每个细胞类型的平均表达谱及跨细胞方差结构。
- 瓶颈：单细胞参考可能有批次效应、不包括所有细胞类型、且仍假设细胞类型是“离散”的——缺乏一个结构来利用“相似的细胞类型共享相似表达模式”这一信息。
层次化 / 结构化解卷积 (包括本文 HiDecon)：
- 作法：显式引入一个描述细胞分化关系或类型相似性的树 (tree)，然后在树的每一层进行解卷积，并加上跨层的一致性约束（同一样本中，粗类分数 = 其子类分数之和）。
- 本文贡献：HiDecon 是这一子线索的最新代表，它通过“将分数信息上下传递”来实现信息借用，从而解决稀有细胞类型的问题。

这个方向在追问的核心问题¶

如何处理高度相关/相似的细胞类型？ — 当细胞表达谱相似时，解卷积解不唯一，估计方差极大。
如何准确估计稀有 (<5%) 细胞类型分数？ — 稀有种类的信号弱，易被大量细胞的噪声淹没。
如何利用已有生物知识（如分层分化关系）来约束模型？ — 传统方法多为“无结构”估计，浪费了先验信息。
如何避免过拟合或对单细胞参考的过度依赖？ — 单细胞参考的噪声和批次效应会影响下游估计。

主流方法与已知瓶颈：主流是“一层全局解卷积”。瓶颈正是上述问题 1 和 2。HiDecon 的解决策略（层次化 + 信息借用）直接针对此瓶颈。

⚠️ 作者的 framing (必须明确标注)¶

作者说法：“现有方法只能处理清晰可分的细胞类型，难以处理高度相关或稀有种。HiDecon 通过层次树协调分数，跨层借用信息，解决了这个挑战。” 竞争路线被淡化/回避： - 如何获得“真实的层次树”？ 假定树是已知的（基于先验细胞分类知识）。若树指定错误会怎样？作者未深入讨论树的不确定性。 - 对比 MuSiC 等的方法：作者提到 MuSiC 利用交叉样本变异，但未深入比较层级树 vs MuSiC 的“交叉样本”哪种设置对稀有类型更有效。 - 计算成本：解卷积通常只需几十秒到几分钟，但分层树高潮可能随着树层数增加而线性增加，未与现有方法做详细计算基准对比。 什么明显该被引/该存在、却未出现在 intro 里？ - 空间转录组学解卷积：近年来方法（如 SPOTlight, Cell2location）同样处理相关细胞类型，常利用空间邻域信息。虽然设定不同，但均针对“存在相似细胞类型”的挑战，相关性较高。这是值得自行查找的张力点。 - 非负矩阵分解 (NMF) 类方法：许多早期解卷积使用 NMF，而非 SVR 或线性回归。本文未提及，可能因为非负约束单独不够。

张力¶

未见明显对立引用——所有被引工作都一致认为“稀有细胞类型估计是难点”，本文是第一个提出结构化借用方案的，还未到形成对立结论的阶段。

二、最核心、最简单的例子 / 数学问题（最小内核）¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - i = 1, ..., N：组织样本的索引。 - j = 1, ..., J：基因的索引。 - k = 1, ..., K：在树的最细致分辨率（叶子）上的“子细胞类型”索引。 - Y_N×J：可观测到的 bulk 表达矩阵。Y[i,j] = 样本 i 中基因 j 的平均表达水平。 - B_K×J：参考表达矩阵，通常来自 scRNA-seq 数据。B[k,j] = 纯子细胞类型 k 中基因 j 的“平均”表达水平（每类一个向量）。 - F_N×K：待估计的分数矩阵。F[i,k] = 样本 i 中来自子细胞类型 k 的“真正”（潜在）细胞分数。 - T：层次细胞类型树。T 的叶子是子细胞类型 k。T 的内节点（树干的粗分类）代表较大的细胞分类（如 T 细胞 → CD4+ T 细胞，CD8+ T 细胞）。定义： - L_l：树第 l 层上的节点集合。 - anc(k)：叶子 k 在 T 上所有祖先节点的集合（包括自己）。 - E_N×J：不可观测的误差/噪声矩阵。

模型（线性混合模型）： - 对于每个样本 i 和基因 j，有最基本的线性模型： Y[i,j] = Σ_k F[i,k] · B[k,j] + E[i,j] 即：bulk 的表达是每种细胞类型内部的表达水平的分数加权和，加上独立噪声。 - 关键识别假设：满足非负且和为 1：0 ≤ F[i,k] ≤ 1 且 Σ_k F[i,k] = 1。B矩阵已知且无测量误差（来自参考）。

可观测数据： - 研究者实际能观测到的是： - Y[i,j]：bulk expression —— 每人/每样本的转录组向量。 - B[k,j]：cell-type-specific expression —— 通过从参考 scRNA-seq 数据计算“纯”细胞类型的平均表达得到。 - 研究者无法直接观测到 F[i,k] 和 E[i,j]。

想要但观测不到的量：就是我们想估计的 F[i,k] 矩阵，尤其针对其中分数很小（稀有类型）的那些 k。

第二步：最小内核¶

最简特例：假设我们只想解卷积一个样本 i（故略去 i）。假设只有三种子细胞类型：神经元_A (k=1)、神经元_B (k=2)、神经胶质细胞 (k=3)。神经元_A 和_B 是高度相似的稀有类型（真分数：F1=0.02, F2=0.03；胶质 F3=0.95）。
- 传统非层次方法：直接做约束最小二乘或 ν-SVR。因为 B1 ≈ B2（高度相关），系数矩阵 [B1′, B2′, B3′] 病态，解不唯一。估计出的 F1-hat 和 F2-hat 方差极大，甚至可能出现负值。传统方法“各自为战”，没有任何机制来 “共同借用” 稀有硬星同组的信息。
- HiDecon 的最小内核 (等级 t=2 简单树)：
  1. 建立树 T：根节点 = “所有神经细胞”，有两个子节点：神经元簇 (C_neur = {N_A, N_B}) 和胶质细胞簇 (C_glia = {G})。
  2. 定义粗分数：让我们定义根节点下粗类分数： F_root = 1 (总分数=1) F_neur = F1 + F2 F_glia = F3
  3. 关键想法：我们先在粗级别解卷积，而不解卷积 F1, F2。因为粗类间的表达谱差异很大（神经元 vs 胶质），“区分”效果稳定，因此对 F_neur 和 F_glia 的估计方差很小（但这是有偏的？不，如果粗类的平均表达能很好地代表其子类）。
  4. 借用信息：因为我们已准确知道 F_neur ≈ 0.05。然后我们又回到细级别，但附带一个约束：F1 + F2 = F_neur (约= 0.05)。这极大地压缩了 F1, F2 的解空间，排除了大量不可能的（如 F1 = 0.3, F2 = -0.25）让病态问题变为良态。再在这个缩小的空间内估计 F1 和 F2 各自的分数。本质上，粗层分数是一个强而有力的信息源 (informative prior / regularization)，它解决了病态问题。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：针对组织转录组数据中，采用单细胞参考去卷积时，对高度相关或稀有细胞类型分数估计不准的问题。
核心工具/方法：提出 HiDecon (Hierarchical Deconvolution)，利用细胞类型的层次关系树 (hierarchical tree)，通过在树的各层之间同时解卷积并施加一致性约束（上下传递分数信息）来实现信息借用。
主要结论：通过模拟实验（含黄金标准数据）和测量了真实细胞分数的 COVID-19 数据，均表明 HiDecon 在估计稀有细胞类型和高度相关细胞类型的分数上，明显优于 CIBERSORTx、MuSiC、Bisque 等现有方法。

关键设定与假设¶

模型设定：沿用标准线性解卷积模型 Y ≈ B · F，但 F 不再是“平面”的，而是基于 T 树交互关联的。
假设：
1. 细胞类型树已知且正确：树 T 的结构（如何将细类粗化）是先验已知的。这通常来自细胞分化的生物学知识（如免疫细胞亚群）。
2. 参考矩阵质量：B 矩阵（单细胞参考）准确代表了纯细胞类型的真实表达。
3. 节点平均表达的可代表性：对于树的非叶子节点（如“T 细胞”），其节点内平均表达能用节点下子类标记基因的加权平均近似。这是核心假设——只有这样的话，才能在粗层解卷积不出错。
4. 一致性约束不变：对于每个样本，所有子类分数之和等于其上一级的粗类分数（非负且和为 1 的扩展）。
相比已有文献的突破点：
- 放宽了“细胞类型独立可区分”：本文显式利用细胞类型的相关性/相似性（通过树），而不是回避它。
- 引入了多层级协调：以前的方法是“one-shot”解卷积，本文是“nested deconvolution + consistency”的迭代/协调过程。

主要结果¶

模拟实验：
- 设定：模拟产生 50 个 bulk 样本，细胞谱来自流式细胞测量（作为金标准真实分数，F_true）。包含 14 种免疫细胞亚型；在其中人为使某些亚型稀有（1%-3%）并被更广泛的亚型覆盖。
- 对比 baseline：CIBERSORTx, MuSiC, Bisque（它们不建模树）。
- 核心结论 (见 Figure 2-3)：对于稀有亚型（如 CD4+ (memory) 和 CD8+ (naive)），
  - CIBERSORTx 几乎完全不能用（R² ≈ 0，图-panel 说明其估计是噪声）。
  - MuSiC & Bisque 有改进但仍存在较大偏差，估计高度分散。
  - HiDecon (树 + 协调)：平均绝对误差 (MAE) 降低了 40-60%。对于非稀有（高相关）细胞类型，HiDecon 的 MAE 也持续最低。
- 这个例子想说明：稀有细胞类型的低频信号被其它高丰度细胞的线性组合淹没，只有通过树结构的纵向（粗到细）约束才能识别。
COVID-19 真实数据 (有流式细胞术金标准测量)：
- 数据：24 个 COVID-19 患者及对照的 PBMC 血样。既做了流式细胞术（真实分数），也做了 bulk RNA-seq。
- 结果：对比 26 种免疫细胞亚型。对于多个稀有亚型（如 plasmablasts, CD4+ TEM）：
  - HiDecon 的估计与地面真实分数的 Pearson R² 高于 0.6，而 MuSiC 约为 0.3-0.4。
  - 对 monocytes 等主要细胞类型，所有方法都很好（0.9+ R²），但 HiDecon 仍具微弱优势。
- 这个例子想说明：在真实世界、有真实测量而非仿真参考的情况下，HiDecon 的树结构信息借用仍然显著优于无结构方法。
阿尔茨海默病（AD）应用：
- 数据：ROS/MAP 队列数非AD的control 和 AD 患者的组织 Bulk 数据。
- 方法：将 HiDecon 应用于脑组织解卷积，估计特定神经元/胶质细胞类型分数。
- 结论：发现 AD 患者中某些神经元亚型和微胶质细胞（小胶质细胞）的比例与对照组有显著差异，这些发现与 AD 神经病理学已知的发现一致。 这个例子想说明：HiDecon 可产生具有生物学可解释性的分数，从而用于表型关联研究（特别是 AD 的流行病学分析）。

证明路线与技术技巧¶

（本文以应用/方法论论文为主，有模拟和实证验证，没有纯“定理-证明”的数学结构，但仍有逻辑推导路线）：

整体路线：层次化求解 → 联合优化。
1. 建立树结构：根据生物知识预定义树 T。
2. 自顶向下分解：在树的每个内节点（非叶子），将该节点的“平均表达”（可以通过从 leaf expression 加权平均预计算）作为输入，求解该节点下所有子节点的分数（同标准线性模型，但带有非负和为 1 约束）。第一轮结果：估计出 node-wise 分数。
3. 自底向上协调：看到“粗层”的总和应与内部“细层”分数一致。通过引入一个全局惩罚项（确保所有 leaf 分数之和在各级节点检查下无矛盾），进行联合优化。这样可以同时更新所有级别的分数。
关键跳跃点：
- “信息如何传递”：不是简单的一层求解然后把得数作为下一层输入。HiDecon 的核心是提出了一个多级联合优化，它定义了一个目标函数（如加权最小二乘），此函数同时惩罚所有级别（粗-细）的预测误差，并且包含一致性约束（score_at_parent == sum(children_scores)）。这样，当粗级别估计到一个准确的权重，它将通过此约束“拉动”细级别数量的估计，或者，如果细级别的估计已经聚合了一个好的信号，它也反馈给粗级别。
技术技巧：
- 使用 R 包 quadprog (二次规划)：由于有大量线性等式（一致性）和不等式（非负）约束，该方法使用二次规划求解器。理论上这是处理此类带约束线性方程组的标准方法。
- 跨样本信息借用（隐含）：在整篇论文的判据中，B 矩阵保持固定，F 矩阵随样本变化。协调发生在每个样本内部（跨树的层）。这是逐样本的优化，而非跨样本。

🔎 结论是否比证明窄¶

是，存在一个比泛化结论窄的证明 (本身文中也有标识)。作者的实验局限在免疫细胞和脑细胞上。树的构建很依赖清晰的、已知的细胞谱系。作者在论文 Discussion 中说：“如果细胞类型树中存在不确定性，或者一个生物本应独立的细胞类群却被错误分在一组，目前的方法会引入偏差”。因此，欢迎使用的情况是：细胞类型谱系是已知且无争议的。如果潜结构复杂或边缘模糊（如肿瘤异质性中的亚克隆），泛化性未经验证，结论比文字表述要窄。同时，作者没有理论上保证树结构的“最优性”——是棵树就行吗？还是树必须足够精细到亚群？这些没有 minimax 或类似理论分析。

四、开放问题（点到为止，扎根具体语句）¶

树的不确定性与自动学习：如果细胞类型树是先验未知的或带有不确定性的，如何自动学习或鲁棒化这个树结构？作者在讨论中提到：“if the tree structure itself requires validation… this is a future direction.” 这是该领域一个自然延伸的核心问题——如何利用可测量的数据（如基因表达的 euclidean 距离）自动构建或验证树。
多源参考的融合与误差：当前方法假设 B 是无噪声（scRNA-seq 参考是完美的）。现实是参考来自不同实验、包含批次效应。如何把参考矩阵 B 中的不确定性（如测量方差）融入到推断中，并推导出一个关于分数 F 的完整后验分布或置信区间？这是从 point estimation 过渡到 uncertainty quantification 的关键一步。
与空间组学结合：空间转录组数据提供了细胞的空间信息，这提供了一种自然的方法“强制”两种类型细胞不能割裂很远。HiDecon 的“结构性约束”是否能和空间邻域的马尔可夫随机场 (MRF) 结合，从而提升稀有/错位细胞类型识别？论文没有引用/讨论这类方法。可阅读近 5 篇空间组学去卷积的 intro，定位是否其他领域正独立解决同一瓶颈。

Maintained by 陈星宇 · Homepage · Source on GitHub