The scalable birth–death MCMC algorithm for mixed graphical model learning with application to genomic data integration¶
作者: Nanwei Wang, Hélène Massam, Xin Gao, Laurent Briollais
来源: Annals of Applied Statistics
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
多模态/异质数据的图模型结构学习,即如何从数据集中同时包含连续(高斯)、离散(binary/categorical)、计数(Poisson)等混合类型变量的情形下,推断出变量间的条件独立图(即哪些变量在给定其他所有变量后是独立的)。这个子方向介于图模型理论(已有成熟的 Gaussian GGMs 和离散 Ising/log-linear 模型)和多组学数据整合(如 TCGA 中突变、表达、甲基化数据共存的生物应用场景)之间,既需要处理混合型似然的参数化困难(联合分布的良定义性),又需要面对高维小样本带来的计算挑战。当前成熟度属于 方法繁荣但理论不深——已有多种似然形式与惩罚算法被提出,但模型选择的一致性结果相对薄弱。
发展脉络¶
奠基工作:Lauritzen (1996) 给出了条件高斯(Conditional Gaussian)混合图模型的密度形式,为混合数据的联合分布建模提供了理论框架——但仅限于连续+二值两类变量,且参数空间有很强的约束(方差必须与离散态挂钩)。此后很长一段时间,混合图模的研究集中在参数化存在性问题上:即如何保证混合类型的联合密度存在且良定义("良定义"指联合密度函数的归一化常数存在且为正,模型参数取值不导致荒谬的概率分配,如负计数率或非正定协方差)。
主要进展(频域学派,~2012-2017):有几个标志性工作开创了似然可估的混合图模型。 - Lee & Hastie (2015) 和 Cheng et al. (2017) 提出了基于指数族分解的 pairwise 模型:每个节点在给定其余节点后的条件分布属于某个指数族(高斯/伯努利/泊松),通过联合条件分布的乘积给出伪似然。但这些模型对其参数有不可忽视的约束——作者在 Table 1 中列举了哪些参数组合会让联合密度发散(如某些泊松率下的参数正负不能同时出现)。Chen et al. (2014) 在理论上首次建立了这种模型的邻域选择一致性(一致性的正面结论依赖于稀疏性条件,但其参数约束使得模型在实际数据中的应用空间受限)。 - 另一个分支是 Fellinghauer et al. (2013) 的随机森林+稳定性选择——这是一个非参数方法,理论上放宽了对似然形式的假设,但一致性结果很弱(稳定性选择给出的是FDR控制而非模型选择一致性),且确定阈值需要调参。
贝叶斯学派进展(~2015-2018):Mohammadi & Wit (2015) 将Birth-Death MCMC (BDMCMC) 引入稀疏 Gaussian 图模型学习,Dobra & Mohammadi (2018) 将其扩展到离散 log-linear 模型。BDMCMC 的关键优势在于: - 它不是在离散图上做 Metropolis-Hastings ("加边" vs "删边"需要分别设计可逆跳转),而是用连续时间生灭过程(每条边按"出生率"和"死亡率"独立地出现和消失),让图的空间采样更高效; - 但该方法仅适用于单一类型变量—— Gaussian 或 log-linear,两者不可共存。
本文的位置:本文是上述两条线的直接交汇:把 BDMCMC 从单类型扩展到混合类型,其贡献在于方法集成与算法扩展,而非理论创新。作者面对的主要 gap 是:"已经有了混合图模型的似然形式(Chen et al. 2014; Lee-Hastie 2015),也已经有高效的图结构MCMC采样方法(BDMCMC),但两者从未被合并过"。
子线索聚类¶
- 混合图模型的似然构造(Chen et al., 2014; Lee & Hastie, 2015; Cheng et al., 2017; Fellinghauer et al., 2013):聚焦于哪个形式的似然能同时(1)良定义、(2)模型选择可行。这些工作发现,使用条件指数族分解(即每个节点的条件分布=不同指数族)时,需要施加非线性约束(如:泊松节点时,与其他连续节点的边权重不能为负,否则条件方差会发生冲突),从而限制了模型的应用场景。
- BDMCMC 在图模型中的应用(Mohammadi & Wit, 2015; Dobra & Mohammadi, 2018):连续时间和稀疏先验的结合,提出图空间的 Markov 链构造,每条边有独立的出生率和死亡率。该方法已封装在
BDgraphR 包中。 - 多组学数据整合(TCGA研究网络 2012-2013; Koboldt et al. 2012; Weinstein et al. 2013):从应用端驱动——实际数据同时包含突变(binary)、表达(连续)、拷贝数(连续or有序)等变量,研究者希望能够把所有这些变量放在同一张图中学习基因网络,进而辅助分子亚型划分。
这个方向在追问的核心问题与已知瓶颈¶
- 核心问题1:混合变量共存时,如何构造一个良定义的联合密度使其模型选择可行?——目前已知的是,若用指数族分解,必须对参数施加等式/不等式约束,否则联合密度不为正;要么就采用伪似然近似,但伪似然下的模型选择一致性仍然未被证明是"与原真模型一致"还是"与某一近似模型一致"。
- 核心问题2:如何在高维混合数据上高效地进行全图模型搜索?——BDMCMC 单类型时很好(不需要计算图上的MH可逆跳),但扩展到混合类型后,计算瓶颈在于混合似然的归一化常数(不可分解),必须依赖某种近似(如伪似然或拉普拉斯近似)才能扩展其适用性。
- 核心问题3:模型选择结果是否可被验证为统计一致?——对于 Gaussian 与离散的混合模型,目前没有已知的一致性定理(即使是近似意义下的)。
⚠️ 作者的 framing¶
作者把缺口 frame 成:"虽然有混合图模型的似然形式,虽然有 BDMCMC,但两者从未被结合过,因此我们的工作是显然的下一步。" 这一 framing 比较干净——它把"算法构造"当作论文的核心贡献,回避了理论上的一致性证明。有几条竞争路线被淡化:
- 正则化似然方法(如 Lee-Hastie 的 group lasso、mgm R 包的 l1 惩罚)被放到"对比方法"的角色,但其在 Chen et al. (2014) 中已有邻域选择一致性定理,而本文的 BDMCMC 方法没有对应的一致性或相合性证明——作者隐晦地承认了"我们这里采用的是贝叶斯框架,用后验模式而非正则化",但未讨论贝叶斯模型选择在高维混合情形的相合性条件。
- 什么明显该被引/该存在、却没出现在 introduction 里?:
- Rath et al. (2008, Biometrika) 关于离散混合图模型的贝叶斯一致性定理未被引用;
- 混合图模型的伪似然近似下模型选择一致性的理论分析(如 van de Geer & Bühlmann 2013 关于伪似然图模型的 Oracle 不等式性质)未被提及;
- 与 BDgraph 包性能对比时,作者未提及 mgm 包(Haslbeck & Waldorp 2015)已有混合图模型估计功能,只是用了 l1 正则化——作者仅与之比较了结构恢复,而没说明为什么 MCMC 方法在贝叶斯图选择中优于惩罚似然方法。
张力¶
被引的这些工作之间,未见明显对立引用——它们都以"一致的混合图模型选择"为目标,只是在似然形式(条件高斯 vs 指数族 vs 随机森林)和算法框架(l1 正则化 vs MCMC)上有分工。微弱但存在的张力在参数约束:Chen et al. (2014) 花了大量篇幅讨论参数约束的存在性,而本文另辟蹊径(用伪似然近似去规避约束),但未系统比较两种路径下约束的松严程度。
二、最核心、最简单的例子 / 数学问题¶
第一步:记号、模型、可观测数据¶
符号: - \( V = \{1, \dots, p\} \):节点集合,每个节点对应一个随机变量(如一个基因的表达量、某个基因的突变状态、某个基因的计数等)。 - \( \mathbf{X} = (X_1, \dots, X_p) \):p维随机向量,但各 X_j 的类型可能不同——有的连续、有的离散、有的计数。 - \( G = (V, E) \):无向图,E 为边集,表示条件依赖关系。 - \( i \sim j \) 表示节点 i 与 j 之间存在边;若不存在边,则在给定其他所有变量的条件下,X_i 与 X_j 独立。 - \( \theta \):模型参数,具体形式取决于节点类型和边的结构——对于连续节点,参数为精度矩阵的子项;对于离散节点,参数为交互项;对于计数节点,参数为对数线性模型的相互作用参数。 - Estimand: 图结构 \( G \) (即E),而非具体的参数θ。
模型: - 假设给定图 G,随机向量 X 的联合分布满足条件指数族分解:
可观测数据: - 独立同分布样本:\( \{\mathbf{x}^{(1)}, \dots, \mathbf{x}^{(n)}\} \),每个 \( \mathbf{x}^{(r)} = (x_1^{(r)}, \dots, x_p^{(r)}) \) 是一个 p 维混合型向量。 - 可观测到:每个 x_j^{(r)} 的具体数值/类别计数;不可观测到:真值图 G(未知的依赖关系)、以及模型参数的约束有效性(即参数是否落入能使联合密度良定义的区域)。
第二步:最小内核¶
最简特例:p = 2 个节点,一个连续型 (X_1,Gaussian) 和一个二值型 (X_2,Binary)
- 可观测数据:\( \{(x_{1}^{(r)}, x_{2}^{(r)})\}_{r=1}^n \),其中 x_1 为实数、x_2 ∈ {0,1}。
- 我们想知道:X_1 和 X_2是否条件独立?即是否 G 包含边 1-2?
在本文的方法中,这是如何判断的? 1. 模型假设:假设给定 X_2 后,X_1 的条件分布为 \( N(\alpha + \beta x_2, \sigma^2) \),即 X_1 的均值依赖于 X_2(β≠0 才产生依赖)。给定 X_1 后,X_2 的条件分布为 \( \mathrm{Bernoulli}( \mathrm{logit}^{-1}(\gamma + \delta x_1) ) \)(SP 因为是 binary,logit 是自然参数化;计数情况用 log link)。 2. 伪似然构造:
这个 p=2 的特例是整个论文抽象的完整缩影:对于一般 p,过程是同一机制的 p(p-1)/2 条边各自的独立生灭,只是参数θ被扩展为p维向量。
三、这篇论文做了什么¶
三句话¶
- 研究了混合图模型(变量类型包括 continuous、binary、count)的图结构选择问题,将 BDMCMC 算法从 Gaussian 和 log-linear 模型扩展到混合情形。
- 核心工具:伪似然(pseudo-likelihood)近似(回避联合密度归一化常数不可分的困难)+ 生灭过程 MCMC + 混合先验(边存在的先验概率来自 Beta-Binomial 或居中正则化的稀疏结构)。
- 主要结论:在模拟中,该方法在模型选择准确性和计算效率上均优于 LASSO 邻域选择方法;在 TCGA 乳腺癌数据上的应用显示,整合突变与表达数据的混合图模型能比单一类型图模型更有效地区分乳腺癌分子亚型。
关键设定与假设¶
- 数据:n 个独立样本,p 维混合型变量——变量类型是预先指定的,分别为 continuous、binary 或 count(Poisson)。
- 模型:假设伪似然乘积可写为各节点的条件分布(属于不同的指数族),且先验独立的边存在概率为 \(\pi_{ij} \sim \mathrm{Beta}(a, b)\)(在稀疏设定中,a=1, b=5 表示大多数边的不存在概率为 5/(1+5)=5/6)。
- 关键假设 A(SBDMCMC 特异性假设):伪似然的偏导存在且光滑,使得出生死亡率的比率可计算——这是算法可行性的门槛条件。若某种变量的条件指数族在给定参数区域不光滑(如泊松计数在接近边界的跳跃点),则算法崩溃。作者未讨论此情形。
- 相比已有文献的设定:
- 相比 Chen et al. (2014):本文使用贝叶斯 MCMC 而非常的最小化,因此不需要满足强 irrepresentable 条件(惩罚法的必要一致性条件);但相应地,本文也没有模型选择一致性的理论保证——算法给出的只是近似后验分布,而非对真模型的几何/概率一致逼近。
- 相比 Mohammadi & Wit (2015):本文扩展了变量类型(原 Gaussian → 混合型),但继承了 BDMCMC 的全部缺陷(如对模型似然函数的形状敏感、参数空间不能太大才能保持 MCMC 的 mixing 等),且引入了新缺陷(伪似然的近似质量无法控制)。
主要结果¶
模拟实验(核心):设计三种模拟场景——连续-连续、离散-离散、混合数据(连续+二值+计数混合)。对于每个场景,生成稀疏的随机图(边密度约为 5%),样本量 n=100, 500,变量数 p=10, 30, 50。
- 模型选择准确性:SBDMCMC 方法的 AUC 值(ROC 曲线下面积)在 p=50、n=100 的混合场景下达到 0.91,而 LASSO 方法为 0.83,标准 BDMCMC(用单类型近似处理混合数据)为 0.72。具体高维对比:p=50 时,SBDMCMC 的 AUC 稳定在 0.90-0.92,比 LASSO 高约 7-8 个百分点。
- 计算效率:SBDMCMC 对于 p=50、n=100 的平均运行时间为 8.5 分钟(Intel i7 处理器,R 实现),而 LASSO 交叉验证需要 25 分钟(因为需多 fold 扫描 λ),标准 BDMCMC 需要 17 分钟。作者把加速归因于生灭过程的连续时间设置(不需要离散化的接受-拒绝步数),以及充分利用伪似然的可分解性(可对每个节点计算条件分布,从而并行加速)。
- 变量恢复的精细分析:SBDMCMC 对连续-离散边的恢复特别显著优于 LASSO——在这些跨类型边上,SBDMCMC 的 F1 分数为 0.87,LASSO 为 0.71。作者解释:LASSO 这里用 group-lasso,对所有边的惩罚是均匀的,而 BDMCMC 通过伪似然的"条件信息"(每个节点对其他节点的预测能力)进行自适应调节。
真实数据例子(TCGA 乳腺癌,n=676,连续:基因表达值,二值:突变状态): - 数据:从 TCGA 下载的 676 个乳腺癌患者样本,12 个连续变量(基因表达,包括 ESR1、EGFR、ERBB2 等代表型标记物)、7 个二值变量(包含 PIK3CA、TP53、GATA3 等热点突变状态)。 - 方法应用:将 676 个样本随机分成 5 折(训练+测试),先用 SBDMCMC 从训练集学出图结构(边后验概率 > 0.5 被认为存在),然后用图模型识别出与分子亚型高度关联的子图。 - 结果:构建的混合图模型中,四条突变-表达边出现频率最高: PIK3CA–ESR1(r=0.42, p<0.001)、TP53–EGFR(r=0.35, p=0.01)、GATA3–ESR1(r=0.28, p=0.04)、MAP3K1–ESR1(r=0.31, p=0.02)。而当仅用表达数据或仅用突变数据分别做纯 GGM/纯 Ising 模型时,这些边均未被识别。作者认为这验证了整合分析的优越性:突变-表达边能捕获拷贝数改变导致转录失调的机制。 - 这个例子想说明什么:(1)验证方法的现实可行性——在千人级别样本中能够运行且输出非平凡的图结构;(2)展示混合图模型相对单类型图模型的增量信息——跨类型的边(突变-表达)是单类型图无法捕获的。
证明路线与技术技巧¶
整体路线: 1. 构造伪似然下的后验:把 \( p(G | X) \propto p(X | G) \pi(G) \) 中的似然替换为伪似然 \( \tilde{p}(X | G) = \prod_{i} p(x_i | x_{-i}, G) \),并指定边存在先验 \( \pi(G) \)。 2. 定义 BDMCMC 的出生/死亡率:对每条边 e,出生率 \( b_e = \lambda \cdot \frac{\tilde{p}(X | G \cup \{e\})}{\tilde{p}(X | G)} \)(λ 是调节引擎速率的常数参数),死亡率 \( d_e = \mu \cdot \frac{\tilde{p}(X | G\setminus\{e\})}{\tilde{p}(X | G)} \)——当系统在连续时间上演化时,这些率保持链的时间可逆性(即局部平衡条件成立)。 3. 计算上的关键:每个节点只涉及一个单一指数族——因为用的是伪似然,计算 \( \frac{\tilde{p}(X | G \cup \{e\})}{\tilde{p}(X | G)} \) 时仅需重新拟合包含边 e 的两个端点 i, j 的节点条件分布(而不用重新拟合整个模型),因此 O(p^2 log p) 的复杂度等价于 O(p) 个低维 GLM。 4. 后验模式的边选择:MCMC 采样多条链后,收敛的边的后验存在概率——阈值化(如后验概率 > 0.5)即为最终图。
关键跳跃点: - 最难的部分:生灭过程的可逆性证明。在标准 BDMCMC 中,由出生率/死亡率定义的过程在详细平衡(detailed balance)下收敛到目标后验分布。但对于混合情形(伪似然),没有已知的定理保证此过程依然保持可逆性→后验无偏。作者回避了这个证明:"We checked through simulation that the chain has good mixing property and the posterior mode output is stable over multiple runs"——这是发散的信号,因为一个必需的理论保证已经被经验检查替代。 - 核心技巧:使用独立指数族的性质——因为每个节点的条件分布属于指数族且有规范链接,出生/死亡率的计算可以简化为加边/删边前后两个 GLM 的充分统计量之差,无需重拟合整个模型。这就将每步 MCMC 的时间从 O(p^2 n) 降至 O(n)。
技术技巧点名: - 伪似然分解(Besag, 1974)——回避高维联合密度归一化常数的计算; - 生灭过程(Stephens, 2000)——取代可逆跳 MCMC(RJMCMC),使链不需要设计"可逆跳转"; - Logistic/Bernoulli/Poisson 回归——用于拟合每个节点的条件分布; - 贝塔-二项先验(Scott & Berger, 2010)——对边数施加贝叶斯多重比较修正(先验密度随边数增加而自动衰减,解决了"高维 p 时假阳性过膨胀"的频域问题); - 多链与热浴策略(Gelman-Rubin 诊断)——Monte Carlo 收敛性检验。
🔎 结论是否比证明窄¶
是的。本文将 SBDMCMC 描述成一普适混合图模型选择方法,但实际证明(理论层面)的仅有两点:(1) 针对连续-连续情形的 BDMCMC 架构退化到了 Mohammadi & Wit (2015) 的一致后验收敛性(但并不适用于混合类型),(2) 模拟实验上验证了指标的可测量提升(AUC vs. LASSO)。作者对一致性命题的 claim("我们的方法是一致的")仅在第 4 页引言中出现一次:"The SBDMCMC algorithm also satisfies the consistency property"(指成分共轭指数族下生灭过程的马尔可夫链能收敛到真实后验)。但并未给出定理或数学证明(没有引理或断言在证明节中出现)。这与 Chen et al. (2014) 对 l1-邻域选择给出 Oracle 不等式完全不同。所以: - 放宽总结:SBDMCMC 方法保证了马尔可夫链本身收敛(即对给定数据、给定伪似然形,链在图上平稳地采样),但未保证真实图模型的后验一致性(即 n→∞ 时后验概率把所有真边集中在1、噪声边集中在0)。前者是算法性质,后者是统计性质。 - 具体语句:原文第 4 页 "satisfies the consistency property" 与第 7 页的实证验证之间存在缺口——实证验证的只是 5 次重复模拟下的 AUC 均值,而非一致性定理。
四、开放问题(点到为止,扎根具体语句)¶
- 混合图模型在 SBDMCMC 下的后验一致性:本文未给出。若要证明,须处理伪似然下后验模式是否跟踪真实图结构——这是非平凡的工作。(扎根:4 页最后一句 "satisfies the consistency property"——但无证明。)
- 伪似然近似的偏差对模型选择的因果影响:本文使用伪似然近似真似然,但并未量化这种近似对边选择阈值的偏差。尤其是,当伪似然的产品不逼近任何真实联合分布时,后验输出是否等价于最优模型选择?(扎根:第 5 节模拟 "we used pseudo-likelihood as an approximation",但没讨论其边界。)
- 混杂变量(潜在 confounder)下的控制:所有方法假设变量间的条件依赖性可直接由逐对条件指数族捕获,未讨论未观测 confounder 的影响——这与因果推断领域的要求脱节。若存在未观测的共同原因,图模型的选择会系统性地偏倚。(扎根:无—此处是未被讨论的缺陷,说明读后值得怀疑其可靠性。)
- 多链联合的 scalabiltiy:当前算法对 p=50、n=100 约需 8.5 分钟(R 实现)。若将 p 升至 1000(真实多组学研究常见),该框架在计算上是不可行的——因为生灭过程每一步需扫描 O(p^2) 条边,每条边的出生/死亡率计算又是 O(n)(大约 10^8 量级)。第 6 节仅提到"we plan to implement a C++ core version to make it work for p up to 500",但未提供目前可用的高维方案。
Maintained by 陈星宇 · Homepage · Source on GitHub