Robust Bayesian graphical regression models for assessing tumor heterogeneity in proteomic networks¶

作者: Tsung-Hung Yao, Yang Ni, Anindya Bhadra, Jian Kang, Veerabhadran Baladandayuthapani
来源: Biometrics
主题: 其他
相关性: 5/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae160

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是异质性图模型（Heterogeneous Graphical Models），核心问题是：当观测数据来自不同子群（如不同癌症亚型、不同免疫微环境状态）时，如何同时估计多个图结构（即变量间的条件依赖关系），并允许这些图结构随协变量（如免疫细胞丰度）变化。当前成熟度：方法学上已有若干工作，但大多假设数据正态性，且对非正态数据的鲁棒性处理不足。

发展脉络（history）¶

奠基工作：同质图模型
- Lauritzen (1996)：图模型的标准教科书，奠定了图模型的理论基础。它假设所有观测共享同一个图结构，即“同质图”。
- Meinshausen & Bühlmann (2006)：提出了用Lasso进行图估计的邻域选择方法，将高维图估计问题转化为一系列回归问题，极大推动了高维图模型的应用。它仍假设同质图。
主要进展：异质性图模型
- Danaher et al. (2014)：提出了联合图Lasso（Joint Graphical Lasso），通过惩罚似然同时估计多个图，并鼓励它们共享相似结构。这是异质性图模型的早期重要工作，但假设数据来自已知的、离散的子群（如癌症类型），且仍假设正态性。
- Ni et al. (2022)：提出了贝叶斯图形回归（Bayesian Graphical Regression, BGR），将图结构建模为协变量的函数，从而允许图结构随连续协变量平滑变化。这是本文的直接前身，但BGR假设数据服从正态分布。
当前Frontier：处理非正态性与异质性
- 本文（Yao et al., 2024）：在BGR的基础上，引入随机边际变换（random marginal transformations）来处理非正态数据，并提出“条件符号独立性”（conditional sign independence）来刻画协变量依赖的边结构。本文定位为BGR的鲁棒性扩展。

子线索聚类¶

这些被引文献大致落在两条子线索上：

频率学派异质性图模型：以Danaher et al. (2014)为代表，通过惩罚似然（如fused Lasso、group Lasso）来联合估计多个图。优点：计算相对高效。缺点：通常假设离散子群、正态性，且对非正态数据敏感。
贝叶斯异质性图模型：以Ni et al. (2022)和本文为代表，通过贝叶斯框架将图结构参数化（如作为协变量的函数），并利用MCMC进行后验推断。优点：灵活处理连续协变量、不确定性量化。缺点：计算成本高（MCMC），且对模型假设（如正态性）敏感。

这个方向在追问的核心问题¶

如何刻画异质性？ 是离散子群（Danaher et al. 2014）还是连续协变量函数（Ni et al. 2022, 本文）？
如何处理非正态数据？ 现有方法大多假设正态性，这在蛋白质组学等应用中常不成立。本文试图通过随机边际变换解决此问题。
如何定义和推断协变量依赖的边？ 在异质性图模型中，一条边是否存在可能依赖于协变量。本文提出了“条件符号独立性”作为新的刻画方式。
计算可行性：贝叶斯方法面临MCMC收敛和计算时间问题，频率学派方法则面临调参和模型选择问题。

⚠️ 作者的Framing¶

作者把缺口frame成什么？ 作者将现有异质性图模型（特别是Ni et al. 2022的BGR）的缺口明确归结为“对正态性假设的依赖”。他们声称，在非正态数据下，BGR会失效，而他们的rBGR通过随机边际变换解决了这个问题，从而成为“显然的下一步”。
哪些竞争路线被他淡化或回避了？ 作者淡化了频率学派方法（如Danaher et al. 2014）在处理非正态性方面的潜力。频率学派方法可以通过非参数似然或秩变换来处理非正态性，但作者并未讨论或比较这些替代方案。他们回避了MCMC计算成本高的问题，仅声称“高效的后验采样算法”。
什么明显该被引/该存在、却没出现在intro里？ 作者没有引用任何关于非参数图模型（如基于秩相关或互信息的图估计）的工作。这些方法天然不假设正态性，是处理非正态数据的直接竞争者。例如，Liu et al. (2012) 提出的非参数图模型（Nonparanormal）通过半参数变换处理非正态性，与本文的随机边际变换思路有相似之处，但未被引用。这是一个值得研究者去查的潜在缺口。

张力¶

未见明显对立引用。所有被引工作都认同“异质性图模型”和“处理非正态性”是重要问题，只是在具体方法上存在差异。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( i = 1, \dots, n \)：样本索引。
- \( p \)：变量（如蛋白质）的个数。
- \( \mathbf{y}_i = (y_{i1}, \dots, y_{ip})^\top \in \mathbb{R}^p \)：第 \( i \) 个样本的观测数据向量（如蛋白质表达量）。这是可观测的。
- \( \mathbf{x}_i = (x_{i1}, \dots, x_{iq})^\top \in \mathbb{R}^q \)：第 \( i \) 个样本的协变量向量（如免疫细胞丰度）。这是可观测的。
- \( \mathbf{z}_i = (z_{i1}, \dots, z_{ip})^\top \in \mathbb{R}^p \)：第 \( i \) 个样本的潜在（latent）高斯变量向量。这是不可观测的，是模型构造的中间量。
- \( \boldsymbol{\Omega}(\mathbf{x}_i) \)：一个 \( p \times p \) 的精度矩阵（precision matrix），其元素 \( \omega_{jk}(\mathbf{x}_i) \) 是协变量 \( \mathbf{x}_i \) 的函数。这是要估计的参数/函数。
- \( \mathbf{G}(\mathbf{x}_i) \)：一个 \( p \times p \) 的邻接矩阵（adjacency matrix），其元素 \( g_{jk}(\mathbf{x}_i) \in \{0, 1\} \) 表示在给定 \( \mathbf{x}_i \) 下，变量 \( j \) 和 \( k \) 之间是否存在条件依赖关系（即边）。这是要推断的图结构。
- \( f_j(\cdot) \)：第 \( j \) 个变量的边际变换函数，是一个单调递增函数。这是要估计的。
模型：
1. 潜在高斯模型：假设存在一个潜在的高斯随机向量 \( \mathbf{z}_i \)，满足：
  \[\mathbf{z}_i \mid \mathbf{x}_i \sim \mathcal{N}_p(\mathbf{0}, \boldsymbol{\Omega}(\mathbf{x}_i)^{-1})\]
  其中 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 是协变量依赖的精度矩阵。图结构 \( \mathbf{G}(\mathbf{x}_i) \) 由 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 的非零元素决定：\( g_{jk}(\mathbf{x}_i) = 1 \) 当且仅当 \( \omega_{jk}(\mathbf{x}_i) \neq 0 \)。
2. 随机边际变换：观测数据 \( \mathbf{y}_i \) 由潜在变量 \( \mathbf{z}_i \) 通过逐变量的单调变换得到：
  \[y_{ij} = f_j(z_{ij}), \quad j = 1, \dots, p\]
  其中 \( f_j \) 是未知的、单调递增的变换函数。这允许 \( \mathbf{y}_i \) 的边际分布是任意的（非正态的），而潜在变量 \( \mathbf{z}_i \) 是联合高斯的。
可观测数据：
- 研究者能观测到的是 \( \{(\mathbf{y}_i, \mathbf{x}_i)\}_{i=1}^n \)，即 \( n \) 个样本的蛋白质表达量向量和对应的免疫细胞丰度协变量。
- 想要但观测不到的是：
  - 潜在高斯变量 \( \mathbf{z}_i \)。
  - 边际变换函数 \( f_j \)。
  - 协变量依赖的精度矩阵 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 和图结构 \( \mathbf{G}(\mathbf{x}_i) \)。

第二步：讲最小内核¶

本文的核心思路可以简化为一个两步走的“去壳-建模”过程，其最小内核是“先通过变换消除非正态性，再在变换后的高斯空间上建模异质性图”。

最简特例：假设 \( p = 2 \)（只有两个蛋白质），\( q = 1 \)（只有一个协变量，如免疫细胞丰度），且 \( n \) 很大。

第一步：去壳（消除非正态性）
- 问题：观测数据 \( y_{i1} \) 和 \( y_{i2} \) 的边际分布可能严重偏态（如蛋白质表达数据常见），不能直接用高斯图模型。
- 关键想法：我们不知道 \( f_1 \) 和 \( f_2 \)，但我们可以估计它们。因为 \( f_j \) 是单调的，我们可以用观测数据的经验累积分布函数（ECDF）来估计它。具体地，令 \( \hat{F}_j \) 为 \( y_{1j}, \dots, y_{nj} \) 的ECDF。那么，我们可以构造一个“伪观测”：
  \[\hat{z}_{ij} = \Phi^{-1}(\hat{F}_j(y_{ij}))\]
  其中 \( \Phi^{-1} \) 是标准正态分布的逆CDF。这个变换将 \( y_{ij} \) 映射到标准正态分位数上。如果 \( f_j \) 是单调的，且 \( n \) 足够大，那么 \( \hat{z}_{ij} \) 应该近似服从标准正态分布。这就是随机边际变换的核心思想：用数据驱动的分位数变换来“高斯化”边际分布。
第二步：在潜在高斯空间建模异质性图
- 问题：现在我们有“伪高斯”数据 \( \hat{\mathbf{z}}_i = (\hat{z}_{i1}, \hat{z}_{i2})^\top \)，但它们的联合分布（即相关性）可能依赖于协变量 \( x_i \)。
- 关键想法：我们假设 \( \hat{\mathbf{z}}_i \) 的精度矩阵 \( \boldsymbol{\Omega}(x_i) \) 是 \( x_i \) 的函数。对于 \( p=2 \) 的最简情况，图结构由单个偏相关系数 \( \rho_{12}(x_i) \) 决定，而 \( \rho_{12}(x_i) = -\omega_{12}(x_i) / \sqrt{\omega_{11}(x_i) \omega_{22}(x_i)} \)。作者使用图形回归技术，将 \( \omega_{12}(x_i) \) 参数化为协变量 \( x_i \) 的某个函数（例如，通过一个线性预测器 \( \beta_0 + \beta_1 x_i \) 再经过一个链接函数映射到实数域）。这样，图结构（边是否存在）就变成了一个关于 \( x_i \) 的回归问题：当 \( |\rho_{12}(x_i)| \) 超过某个阈值时，边存在。

这个最小内核要解决的数学问题：在非正态、异质性数据下，如何正确推断协变量依赖的图结构。本文的关键想法是：将非正态性视为一个“边际扰动”，通过分位数变换将其剥离，从而将问题简化为一个在潜在高斯空间上的异质性图建模问题。这个想法并非全新（类似Nonparanormal），但将其与贝叶斯图形回归结合，并提出了新的“条件符号独立性”来形式化边依赖，是本文的贡献。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：在非正态分布数据下，如何估计协变量依赖的异质性图结构。
2. 核心工具/方法：提出了鲁棒贝叶斯图形回归（rBGR），它结合了随机边际变换（处理非正态性）和贝叶斯图形回归（建模异质性），并引入了“条件符号独立性”来刻画边依赖。
3. 主要结论：模拟研究表明，在非正态数据下，rBGR在边选择和协变量选择方面优于现有图形回归模型（如BGR）。在肺癌和卵巢癌蛋白质组网络分析中，rBGR揭示了与免疫细胞丰度差异相关的关键蛋白质-蛋白质相互作用。
关键设定与假设：
- 设定：\( n \) 个独立同分布样本，每个样本有 \( p \) 个连续变量（蛋白质表达）和 \( q \) 个协变量（免疫细胞丰度）。目标是估计一个协变量依赖的图结构 \( \mathbf{G}(\mathbf{x}) \)。
- 假设：
  1. 潜在高斯性：存在一个单调变换 \( f_j \)，使得 \( z_{ij} = f_j^{-1}(y_{ij}) \) 服从联合高斯分布。这是模型的核心假设，也是处理非正态性的关键。
  2. 单调性：\( f_j \) 是单调递增的。这是分位数变换可识别的前提。
  3. 条件独立性：给定协变量 \( \mathbf{x}_i \)，潜在变量 \( \mathbf{z}_i \) 的条件图结构由 \( \boldsymbol{\Omega}(\mathbf{x}_i) \) 决定。这是图形回归模型的标准假设。
  4. 稀疏性：图结构是稀疏的，即大多数 \( \omega_{jk}(\mathbf{x}_i) \) 为零或接近零。这是高维图模型估计的常见假设，通过贝叶斯先验（如 spike-and-slab）实现。
- 相比已有文献的强化/放宽：相比Ni et al. (2022)的BGR，本文放宽了正态性假设，允许数据来自任意连续分布。相比Danaher et al. (2014)的联合图Lasso，本文允许协变量是连续的，而不是离散子群。
主要结果：
- 理论结果：本文主要是方法学和应用论文，没有提供渐近理论（如估计量的一致性、收敛速度）。主要理论贡献是提出了条件符号独立性（Conditional Sign Independence with Covariates, CSIC）的概念，并证明了在rBGR模型下，CSIC等价于图结构中的条件独立性。这为贝叶斯后验推断提供了理论基础。
- 模拟结果：
  - 设定：模拟了多种非正态分布（如t分布、对数正态分布、混合分布）和不同水平的异质性。
  - 对比方法：与BGR（Ni et al. 2022）、联合图Lasso（Danaher et al. 2014）以及忽略异质性的朴素方法进行比较。
  - 核心量化结论：在非正态数据下，rBGR在边选择（AUC、F1分数）和协变量选择（识别哪些协变量影响图结构）方面显著优于BGR和联合图Lasso。例如，在t分布（自由度=3）下，rBGR的边选择AUC比BGR高出约15-20%。在正态数据下，rBGR的性能与BGR相当，表明其鲁棒性没有以牺牲正态数据下的性能为代价。
- 稳健性：模拟还表明，rBGR对边际变换函数的估计误差具有稳健性，即使样本量中等（n=100, p=50），也能取得良好效果。
证明路线与技术技巧：
- 整体路线：本文的“证明”主要体现在后验采样算法的推导和条件符号独立性的理论证明上，而非渐近理论。
  1. 模型构建：定义rBGR模型，包括随机边际变换和图形回归部分。
  2. 先验设定：为所有未知参数（变换函数、精度矩阵元素、回归系数）设定先验分布。例如，对精度矩阵的非零元素使用 spike-and-slab 先验以实现稀疏性。
  3. 后验采样：设计一个MCMC算法，从后验分布中采样。算法核心是Gibbs采样，交替更新：
    - 潜在变量 \( \mathbf{z}_i \)：给定当前 \( \mathbf{y}_i \) 和变换函数，\( \mathbf{z}_i \) 的条件后验是截断正态分布。
    - 变换函数 \( f_j \)：通过一个数据增强步骤（如使用Polya-Gamma分布）来更新。
    - 精度矩阵 \( \boldsymbol{\Omega}(\mathbf{x}_i) \)：这是最复杂的部分。作者使用条件符号独立性来简化更新。他们不是直接更新整个 \( \boldsymbol{\Omega}(\mathbf{x}_i) \)，而是更新其每个非零元素 \( \omega_{jk}(\mathbf{x}_i) \) 的符号和大小，这通过一个Metropolis-Hastings步骤实现。
  4. 理论证明：证明在rBGR模型下，条件符号独立性（CSIC）是条件独立性的一个充分必要条件。这个证明依赖于潜在高斯性和单调变换的性质。
- 关键跳跃点：
  - 从BGR到rBGR的跳跃：BGR假设数据是高斯分布的，因此可以直接对精度矩阵建模。rBGR需要先处理非正态性。关键跳跃是引入随机边际变换，并设计一个MCMC算法来同时估计变换函数和图结构。这并非平凡的扩展，因为变换函数的引入使得后验分布变得复杂。
  - 条件符号独立性的提出：在异质性图模型中，如何定义“边依赖于协变量”是一个概念性问题。作者提出的CSIC是一个巧妙的刻画：它说，给定协变量 \( \mathbf{x} \)，变量 \( j \) 和 \( k \) 的条件符号（即偏相关系数的符号）是独立的。这比直接定义“边是否存在”更灵活，因为它允许边的强度（而非仅仅是存在性）随协变量变化。
- 技术技巧点名：
  - 随机边际变换：用ECDF和分位数变换来“高斯化”数据。这是处理非正态性的标准技巧，但作者将其整合到贝叶斯框架中。
  - Gibbs采样：用于从复杂的后验分布中采样。
  - Metropolis-Hastings：用于更新精度矩阵的非零元素。
  - Spike-and-slab先验：用于实现图结构的稀疏性。
真实例子与应用：
- 数据：来自肺癌和卵巢癌的蛋白质组学数据。协变量是免疫细胞丰度（如CD8+ T细胞、巨噬细胞等），由RNA-seq数据反卷积得到。变量是蛋白质表达水平。
- 方法应用：将rBGR应用于每个癌症数据集，估计一个协变量依赖的蛋白质-蛋白质相互作用网络。具体地，他们让图结构随免疫细胞丰度变化，从而识别出那些与免疫微环境相关的关键相互作用。
- 结果：
  - 肺癌：发现了一些与CD8+ T细胞丰度相关的蛋白质相互作用，例如，PD-L1（一个免疫检查点蛋白）与某些信号蛋白的相互作用在T细胞丰度高时增强。这验证了已知的免疫逃逸机制。
  - 卵巢癌：发现了一些与巨噬细胞丰度相关的相互作用，例如，与肿瘤相关巨噬细胞（TAM）极化相关的通路中的蛋白质相互作用。
- 这个例子想说明什么：这个例子旨在验证rBGR的实用性，展示它能够从真实、非正态、异质性的蛋白质组学数据中发现有生物学意义的、与免疫微环境相关的图结构变化。它说明了rBGR作为假设生成工具的价值，而非提供因果结论。
🔎 结论是否比证明窄：
- 是。论文的结论“rBGR outperforms existing graphical regression models”是基于模拟研究，而非理论证明。作者没有提供任何关于rBGR估计量一致性的理论保证，也没有给出其收敛速度。在真实数据例子中，结论是“reveal several important protein–protein interactions”，但这些发现是探索性的，缺乏统计显著性检验或独立验证。论文的证明（条件符号独立性的等价性）比其结论（方法优越性）要窄得多。作者在结论部分声称rBGR是“robust”，但这个“鲁棒性”仅通过模拟展示，没有理论上的鲁棒性界。

四、开放问题¶

理论性质缺失：rBGR的渐近性质（如估计量的一致性、收敛速度、后验收缩率）完全未知。这是本文最明显的理论缺口。扎根于：本文没有提供任何定理来保证估计量的统计性质。
计算可扩展性：MCMC算法在高维（p很大）和大样本（n很大）下的计算成本如何？作者仅声称“高效”，但没有提供计算复杂度分析或大规模模拟。扎根于：论文的模拟中p=50，n=100，规模较小。对于现代蛋白质组学数据（p>1000），该算法可能不可行。
条件符号独立性的局限性：CSIC刻画了边的符号（正/负）如何随协变量变化，但它是否足以刻画所有类型的异质性？例如，它能否处理边的强度（偏相关系数大小）随协变量变化但符号不变的情况？作者在文中提到CSIC是“a new characterization”，但未讨论其局限性。扎根于：论文第2.3节对CSIC的定义。
与频率学派方法的比较：本文仅与贝叶斯方法（BGR）和一种频率学派方法（联合图Lasso）比较。与更现代的频率学派异质性图模型（如基于非参数似然或局部似然的方法）的比较是缺失的。扎根于：论文的模拟部分仅比较了BGR和联合图Lasso。

Maintained by 陈星宇 · Homepage · Source on GitHub