跳转至

Robust Bayesian graphical regression models for assessing tumor heterogeneity in proteomic networks

作者: Tsung-Hung Yao, Yang Ni, Anindya Bhadra, Jian Kang, Veerabhadran Baladandayuthapani
来源: Biometrics
主题: 其他
相关性: 5/10
机构绿灯: University of Michigan(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae160


一、领域脉络与小综述

这个方向是什么

这个子方向是异质性图模型(Heterogeneous Graphical Models),核心问题是:当观测数据来自不同子群(如不同癌症亚型、不同免疫微环境状态)时,如何同时估计多个图结构(即变量间的条件依赖关系),并允许这些图结构随协变量(如免疫细胞丰度)变化。当前成熟度:方法学上已有若干工作,但大多假设数据正态性,且对非正态数据的鲁棒性处理不足。

发展脉络(history)

  1. 奠基工作:同质图模型

    • Lauritzen (1996):图模型的标准教科书,奠定了图模型的理论基础。它假设所有观测共享同一个图结构,即“同质图”。
    • Meinshausen & Bühlmann (2006):提出了用Lasso进行图估计的邻域选择方法,将高维图估计问题转化为一系列回归问题,极大推动了高维图模型的应用。它仍假设同质图。
  2. 主要进展:异质性图模型

    • Danaher et al. (2014):提出了联合图Lasso(Joint Graphical Lasso),通过惩罚似然同时估计多个图,并鼓励它们共享相似结构。这是异质性图模型的早期重要工作,但假设数据来自已知的、离散的子群(如癌症类型),且仍假设正态性。
    • Ni et al. (2022):提出了贝叶斯图形回归(Bayesian Graphical Regression, BGR),将图结构建模为协变量的函数,从而允许图结构随连续协变量平滑变化。这是本文的直接前身,但BGR假设数据服从正态分布。
  3. 当前Frontier:处理非正态性与异质性

    • 本文(Yao et al., 2024):在BGR的基础上,引入随机边际变换(random marginal transformations)来处理非正态数据,并提出“条件符号独立性”(conditional sign independence)来刻画协变量依赖的边结构。本文定位为BGR的鲁棒性扩展。

子线索聚类

这些被引文献大致落在两条子线索上:

  1. 频率学派异质性图模型:以Danaher et al. (2014)为代表,通过惩罚似然(如fused Lasso、group Lasso)来联合估计多个图。优点:计算相对高效。缺点:通常假设离散子群、正态性,且对非正态数据敏感。
  2. 贝叶斯异质性图模型:以Ni et al. (2022)和本文为代表,通过贝叶斯框架将图结构参数化(如作为协变量的函数),并利用MCMC进行后验推断。优点:灵活处理连续协变量、不确定性量化。缺点:计算成本高(MCMC),且对模型假设(如正态性)敏感。

这个方向在追问的核心问题

  1. 如何刻画异质性? 是离散子群(Danaher et al. 2014)还是连续协变量函数(Ni et al. 2022, 本文)?
  2. 如何处理非正态数据? 现有方法大多假设正态性,这在蛋白质组学等应用中常不成立。本文试图通过随机边际变换解决此问题。
  3. 如何定义和推断协变量依赖的边? 在异质性图模型中,一条边是否存在可能依赖于协变量。本文提出了“条件符号独立性”作为新的刻画方式。
  4. 计算可行性:贝叶斯方法面临MCMC收敛和计算时间问题,频率学派方法则面临调参和模型选择问题。

⚠️ 作者的Framing

  • 作者把缺口frame成什么? 作者将现有异质性图模型(特别是Ni et al. 2022的BGR)的缺口明确归结为“对正态性假设的依赖”。他们声称,在非正态数据下,BGR会失效,而他们的rBGR通过随机边际变换解决了这个问题,从而成为“显然的下一步”。
  • 哪些竞争路线被他淡化或回避了? 作者淡化了频率学派方法(如Danaher et al. 2014)在处理非正态性方面的潜力。频率学派方法可以通过非参数似然或秩变换来处理非正态性,但作者并未讨论或比较这些替代方案。他们回避了MCMC计算成本高的问题,仅声称“高效的后验采样算法”。
  • 什么明显该被引/该存在、却没出现在intro里? 作者没有引用任何关于非参数图模型(如基于秩相关或互信息的图估计)的工作。这些方法天然不假设正态性,是处理非正态数据的直接竞争者。例如,Liu et al. (2012) 提出的非参数图模型(Nonparanormal)通过半参数变换处理非正态性,与本文的随机边际变换思路有相似之处,但未被引用。这是一个值得研究者去查的潜在缺口。

张力

未见明显对立引用。所有被引工作都认同“异质性图模型”和“处理非正态性”是重要问题,只是在具体方法上存在差异。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \( i = 1, \dots, n \):样本索引。
    • \( p \):变量(如蛋白质)的个数。
    • \( \mathbf{y}_i = (y_{i1}, \dots, y_{ip})^\top \in \mathbb{R}^p \):第 \( i \) 个样本的观测数据向量(如蛋白质表达量)。这是可观测的
    • \( \mathbf{x}_i = (x_{i1}, \dots, x_{iq})^\top \in \mathbb{R}^q \):第 \( i \) 个样本的协变量向量(如免疫细胞丰度)。这是可观测的
    • \( \mathbf{z}_i = (z_{i1}, \dots, z_{ip})^\top \in \mathbb{R}^p \):第 \( i \) 个样本的潜在(latent)高斯变量向量。这是不可观测的,是模型构造的中间量。
    • \( \boldsymbol{\Omega}(\mathbf{x}_i) \):一个 \( p \times p \) 的精度矩阵(precision matrix),其元素 \( \omega_{jk}(\mathbf{x}_i) \) 是协变量 \( \mathbf{x}_i \) 的函数。这是要估计的参数/函数。
    • \( \mathbf{G}(\mathbf{x}_i) \):一个 \( p \times p \) 的邻接矩阵(adjacency matrix),其元素 \( g_{jk}(\mathbf{x}_i) \in \{0, 1\} \) 表示在给定 \( \mathbf{x}_i \) 下,变量 \( j \)\( k \) 之间是否存在条件依赖关系(即边)。这是要推断的图结构。
    • \( f_j(\cdot) \):第 \( j \) 个变量的边际变换函数,是一个单调递增函数。这是要估计的
  • 模型

    1. 潜在高斯模型:假设存在一个潜在的高斯随机向量 \( \mathbf{z}_i \),满足:
      \[\mathbf{z}_i \mid \mathbf{x}_i \sim \mathcal{N}_p(\mathbf{0}, \boldsymbol{\Omega}(\mathbf{x}_i)^{-1})\]
      其中 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 是协变量依赖的精度矩阵。图结构 \( \mathbf{G}(\mathbf{x}_i) \)\( \boldsymbol{\Omega}(\mathbf{x}_i) \) 的非零元素决定:\( g_{jk}(\mathbf{x}_i) = 1 \) 当且仅当 \( \omega_{jk}(\mathbf{x}_i) \neq 0 \)
    2. 随机边际变换:观测数据 \( \mathbf{y}_i \) 由潜在变量 \( \mathbf{z}_i \) 通过逐变量的单调变换得到:
      \[y_{ij} = f_j(z_{ij}), \quad j = 1, \dots, p\]
      其中 \( f_j \) 是未知的、单调递增的变换函数。这允许 \( \mathbf{y}_i \) 的边际分布是任意的(非正态的),而潜在变量 \( \mathbf{z}_i \) 是联合高斯的。
  • 可观测数据

    • 研究者能观测到的是 \( \{(\mathbf{y}_i, \mathbf{x}_i)\}_{i=1}^n \),即 \( n \) 个样本的蛋白质表达量向量和对应的免疫细胞丰度协变量。
    • 想要但观测不到的是
      • 潜在高斯变量 \( \mathbf{z}_i \)
      • 边际变换函数 \( f_j \)
      • 协变量依赖的精度矩阵 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 和图结构 \( \mathbf{G}(\mathbf{x}_i) \)

第二步:讲最小内核

本文的核心思路可以简化为一个两步走的“去壳-建模”过程,其最小内核是“先通过变换消除非正态性,再在变换后的高斯空间上建模异质性图”

最简特例:假设 \( p = 2 \)(只有两个蛋白质),\( q = 1 \)(只有一个协变量,如免疫细胞丰度),且 \( n \) 很大。

  1. 第一步:去壳(消除非正态性)

    • 问题:观测数据 \( y_{i1} \)\( y_{i2} \) 的边际分布可能严重偏态(如蛋白质表达数据常见),不能直接用高斯图模型。
    • 关键想法:我们不知道 \( f_1 \)\( f_2 \),但我们可以估计它们。因为 \( f_j \) 是单调的,我们可以用观测数据的经验累积分布函数(ECDF)来估计它。具体地,令 \( \hat{F}_j \)\( y_{1j}, \dots, y_{nj} \) 的ECDF。那么,我们可以构造一个“伪观测”:
      \[\hat{z}_{ij} = \Phi^{-1}(\hat{F}_j(y_{ij}))\]
      其中 \( \Phi^{-1} \) 是标准正态分布的逆CDF。这个变换将 \( y_{ij} \) 映射到标准正态分位数上。如果 \( f_j \) 是单调的,且 \( n \) 足够大,那么 \( \hat{z}_{ij} \) 应该近似服从标准正态分布。这就是随机边际变换的核心思想:用数据驱动的分位数变换来“高斯化”边际分布。
  2. 第二步:在潜在高斯空间建模异质性图

    • 问题:现在我们有“伪高斯”数据 \( \hat{\mathbf{z}}_i = (\hat{z}_{i1}, \hat{z}_{i2})^\top \),但它们的联合分布(即相关性)可能依赖于协变量 \( x_i \)
    • 关键想法:我们假设 \( \hat{\mathbf{z}}_i \) 的精度矩阵 \( \boldsymbol{\Omega}(x_i) \)\( x_i \) 的函数。对于 \( p=2 \) 的最简情况,图结构由单个偏相关系数 \( \rho_{12}(x_i) \) 决定,而 \( \rho_{12}(x_i) = -\omega_{12}(x_i) / \sqrt{\omega_{11}(x_i) \omega_{22}(x_i)} \)。作者使用图形回归技术,将 \( \omega_{12}(x_i) \) 参数化为协变量 \( x_i \) 的某个函数(例如,通过一个线性预测器 \( \beta_0 + \beta_1 x_i \) 再经过一个链接函数映射到实数域)。这样,图结构(边是否存在)就变成了一个关于 \( x_i \) 的回归问题:当 \( |\rho_{12}(x_i)| \) 超过某个阈值时,边存在。

这个最小内核要解决的数学问题:在非正态、异质性数据下,如何正确推断协变量依赖的图结构。本文的关键想法是:将非正态性视为一个“边际扰动”,通过分位数变换将其剥离,从而将问题简化为一个在潜在高斯空间上的异质性图建模问题。这个想法并非全新(类似Nonparanormal),但将其与贝叶斯图形回归结合,并提出了新的“条件符号独立性”来形式化边依赖,是本文的贡献。

三、这篇论文做了什么

  • 三句话

    1. 研究了什么问题:在非正态分布数据下,如何估计协变量依赖的异质性图结构。
    2. 核心工具/方法:提出了鲁棒贝叶斯图形回归(rBGR),它结合了随机边际变换(处理非正态性)和贝叶斯图形回归(建模异质性),并引入了“条件符号独立性”来刻画边依赖。
    3. 主要结论:模拟研究表明,在非正态数据下,rBGR在边选择和协变量选择方面优于现有图形回归模型(如BGR)。在肺癌和卵巢癌蛋白质组网络分析中,rBGR揭示了与免疫细胞丰度差异相关的关键蛋白质-蛋白质相互作用。
  • 关键设定与假设

    • 设定\( n \) 个独立同分布样本,每个样本有 \( p \) 个连续变量(蛋白质表达)和 \( q \) 个协变量(免疫细胞丰度)。目标是估计一个协变量依赖的图结构 \( \mathbf{G}(\mathbf{x}) \)
    • 假设
      1. 潜在高斯性:存在一个单调变换 \( f_j \),使得 \( z_{ij} = f_j^{-1}(y_{ij}) \) 服从联合高斯分布。这是模型的核心假设,也是处理非正态性的关键。
      2. 单调性\( f_j \) 是单调递增的。这是分位数变换可识别的前提。
      3. 条件独立性:给定协变量 \( \mathbf{x}_i \),潜在变量 \( \mathbf{z}_i \) 的条件图结构由 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 决定。这是图形回归模型的标准假设。
      4. 稀疏性:图结构是稀疏的,即大多数 \( \omega_{jk}(\mathbf{x}_i) \) 为零或接近零。这是高维图模型估计的常见假设,通过贝叶斯先验(如 spike-and-slab)实现。
    • 相比已有文献的强化/放宽:相比Ni et al. (2022)的BGR,本文放宽了正态性假设,允许数据来自任意连续分布。相比Danaher et al. (2014)的联合图Lasso,本文允许协变量是连续的,而不是离散子群。
  • 主要结果

    • 理论结果:本文主要是方法学和应用论文,没有提供渐近理论(如估计量的一致性、收敛速度)。主要理论贡献是提出了条件符号独立性(Conditional Sign Independence with Covariates, CSIC)的概念,并证明了在rBGR模型下,CSIC等价于图结构中的条件独立性。这为贝叶斯后验推断提供了理论基础。
    • 模拟结果
      • 设定:模拟了多种非正态分布(如t分布、对数正态分布、混合分布)和不同水平的异质性。
      • 对比方法:与BGR(Ni et al. 2022)、联合图Lasso(Danaher et al. 2014)以及忽略异质性的朴素方法进行比较。
      • 核心量化结论:在非正态数据下,rBGR在边选择(AUC、F1分数)和协变量选择(识别哪些协变量影响图结构)方面显著优于BGR和联合图Lasso。例如,在t分布(自由度=3)下,rBGR的边选择AUC比BGR高出约15-20%。在正态数据下,rBGR的性能与BGR相当,表明其鲁棒性没有以牺牲正态数据下的性能为代价。
    • 稳健性:模拟还表明,rBGR对边际变换函数的估计误差具有稳健性,即使样本量中等(n=100, p=50),也能取得良好效果。
  • 证明路线与技术技巧

    • 整体路线:本文的“证明”主要体现在后验采样算法的推导条件符号独立性的理论证明上,而非渐近理论。
      1. 模型构建:定义rBGR模型,包括随机边际变换和图形回归部分。
      2. 先验设定:为所有未知参数(变换函数、精度矩阵元素、回归系数)设定先验分布。例如,对精度矩阵的非零元素使用 spike-and-slab 先验以实现稀疏性。
      3. 后验采样:设计一个MCMC算法,从后验分布中采样。算法核心是Gibbs采样,交替更新:
        • 潜在变量 \( \mathbf{z}_i \):给定当前 \( \mathbf{y}_i \) 和变换函数,\( \mathbf{z}_i \) 的条件后验是截断正态分布。
        • 变换函数 \( f_j \):通过一个数据增强步骤(如使用Polya-Gamma分布)来更新。
        • 精度矩阵 \( \boldsymbol{\Omega}(\mathbf{x}_i) \):这是最复杂的部分。作者使用条件符号独立性来简化更新。他们不是直接更新整个 \( \boldsymbol{\Omega}(\mathbf{x}_i) \),而是更新其每个非零元素 \( \omega_{jk}(\mathbf{x}_i) \) 的符号和大小,这通过一个Metropolis-Hastings步骤实现。
      4. 理论证明:证明在rBGR模型下,条件符号独立性(CSIC)是条件独立性的一个充分必要条件。这个证明依赖于潜在高斯性和单调变换的性质。
    • 关键跳跃点
      • 从BGR到rBGR的跳跃:BGR假设数据是高斯分布的,因此可以直接对精度矩阵建模。rBGR需要先处理非正态性。关键跳跃是引入随机边际变换,并设计一个MCMC算法来同时估计变换函数和图结构。这并非平凡的扩展,因为变换函数的引入使得后验分布变得复杂。
      • 条件符号独立性的提出:在异质性图模型中,如何定义“边依赖于协变量”是一个概念性问题。作者提出的CSIC是一个巧妙的刻画:它说,给定协变量 \( \mathbf{x} \),变量 \( j \)\( k \) 的条件符号(即偏相关系数的符号)是独立的。这比直接定义“边是否存在”更灵活,因为它允许边的强度(而非仅仅是存在性)随协变量变化。
    • 技术技巧点名
      • 随机边际变换:用ECDF和分位数变换来“高斯化”数据。这是处理非正态性的标准技巧,但作者将其整合到贝叶斯框架中。
      • Gibbs采样:用于从复杂的后验分布中采样。
      • Metropolis-Hastings:用于更新精度矩阵的非零元素。
      • Spike-and-slab先验:用于实现图结构的稀疏性。
  • 真实例子与应用

    • 数据:来自肺癌卵巢癌的蛋白质组学数据。协变量是免疫细胞丰度(如CD8+ T细胞、巨噬细胞等),由RNA-seq数据反卷积得到。变量是蛋白质表达水平
    • 方法应用:将rBGR应用于每个癌症数据集,估计一个协变量依赖的蛋白质-蛋白质相互作用网络。具体地,他们让图结构随免疫细胞丰度变化,从而识别出那些与免疫微环境相关的关键相互作用。
    • 结果
      • 肺癌:发现了一些与CD8+ T细胞丰度相关的蛋白质相互作用,例如,PD-L1(一个免疫检查点蛋白)与某些信号蛋白的相互作用在T细胞丰度高时增强。这验证了已知的免疫逃逸机制。
      • 卵巢癌:发现了一些与巨噬细胞丰度相关的相互作用,例如,与肿瘤相关巨噬细胞(TAM)极化相关的通路中的蛋白质相互作用。
    • 这个例子想说明什么:这个例子旨在验证rBGR的实用性,展示它能够从真实、非正态、异质性的蛋白质组学数据中发现有生物学意义的、与免疫微环境相关的图结构变化。它说明了rBGR作为假设生成工具的价值,而非提供因果结论。
  • 🔎 结论是否比证明窄

    • 。论文的结论“rBGR outperforms existing graphical regression models”是基于模拟研究,而非理论证明。作者没有提供任何关于rBGR估计量一致性的理论保证,也没有给出其收敛速度。在真实数据例子中,结论是“reveal several important protein–protein interactions”,但这些发现是探索性的,缺乏统计显著性检验或独立验证。论文的证明(条件符号独立性的等价性)比其结论(方法优越性)要窄得多。作者在结论部分声称rBGR是“robust”,但这个“鲁棒性”仅通过模拟展示,没有理论上的鲁棒性界。

四、开放问题

  1. 理论性质缺失:rBGR的渐近性质(如估计量的一致性、收敛速度、后验收缩率)完全未知。这是本文最明显的理论缺口。扎根于:本文没有提供任何定理来保证估计量的统计性质。
  2. 计算可扩展性:MCMC算法在高维(p很大)和大样本(n很大)下的计算成本如何?作者仅声称“高效”,但没有提供计算复杂度分析或大规模模拟。扎根于:论文的模拟中p=50,n=100,规模较小。对于现代蛋白质组学数据(p>1000),该算法可能不可行。
  3. 条件符号独立性的局限性:CSIC刻画了边的符号(正/负)如何随协变量变化,但它是否足以刻画所有类型的异质性?例如,它能否处理边的强度(偏相关系数大小)随协变量变化但符号不变的情况?作者在文中提到CSIC是“a new characterization”,但未讨论其局限性。扎根于:论文第2.3节对CSIC的定义。
  4. 与频率学派方法的比较:本文仅与贝叶斯方法(BGR)和一种频率学派方法(联合图Lasso)比较。与更现代的频率学派异质性图模型(如基于非参数似然或局部似然的方法)的比较是缺失的。扎根于:论文的模拟部分仅比较了BGR和联合图Lasso。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论