Sparse Bayesian Group Factor Model for Feature Interactions in Multiple Count Tables Data¶

作者: Shuangjie Zhang, Yuning Shen, Irene A. Chen, Juhee Lee
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: University of California, Santa Cruz（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2449721

一、领域脉络与小综述¶

⚠️ 免责说明：由于未提供论文全文（introduction 与参考文献），以下内容仅基于摘要与第一遍摘要（first-pass summary）进行推测，无法定位具体引用句。若需精确引用和深度分析，需补充全文。此处充当 placeholder，供研究者后续补充。

该方向是什么：多域微生物组计数数据（如同时来自口腔、肠道、皮肤等部位的 16S rRNA 或 shotgun 测序计数表）中，跨域微生物之间的交互关系（如物种共现、生态互作）以及协变量（如饮食、治疗）对丰度的影响。这是高维稀疏计数数据的多视图因子建模问题，核心挑战包括：过度离散（over-dispersion）、零膨胀（excess zeros）、高维度（特征数 ≥ 样本数）、以及跨域结构的联合稀疏性。
发展脉络（推测）：
奠基：早期对单域计数数据采用负二项或零膨胀模型，但缺乏跨域交互刻画。
组因子模型（Group Factor Model, GFM）：将传统因子分析扩展到多视图连续数据，假设不同视图共享一组潜在因子，通过因子载荷的块稀疏结构实现跨域协方差理解。
贝叶斯非参数扩展：引入 Dirichlet 过程混合（DPM）对连续数据建模，但直接用于计数数据需经过 round 或 latent Gaussian 技巧（如 rounded kernel mixture）。
高维稀疏先验：Horseshoe 先验及其变体（如 Dirichlet-Horseshoe）被用于因子载荷的全局-局部收缩，以在高维下自动选择重要因子。
本文位置：将上述三条线索——组因子模型、DPM-based rounded kernel、Dirichlet-Horseshoe 联合稀疏——首次集成于多域计数数据场景，并加入协变量回归。
子线索聚类（推测）：
① 贝叶斯因子模型与稀疏性（如 Bhattacharya & Dunson 2011 的 multiplicative gamma process；Rockova & George 2016 的 spike-and-slab Lasso）。
② 计数数据的潜在变量模型（如 Rounded kernel mixture proposals；Canale & Dunson 2011 的 DP discrete count model）。
③ 多视图数据联合分析（如 Group Factor Analysis = Klami et al. 2015；Inter-battery factor analysis 的贝叶斯版本）。
核心追问：
如何在多域计数表中同时实现跨域交互的可解释低维结构与零膨胀/过度离散的柔性分布建模？
高维下因子载荷的稀疏模式如何被先验自动诱导，且不损失预测性能？
协变量效应如何在此框架下被识别而不受混合成分混淆？
⚠️ 作者的 framing（推测）：“已有组因子模型多用于连续数据，且稀疏先验常为 element-wise；我们的联合稀疏 Dir-HS 先验和 DP 基线建模填补了这一空白。” 可能的淡化：回避了与频率学派惩罚似然方法（如 group lasso 因子模型）的直接比较，也未讨论后验收敛诊断或超参数敏感性。
未见明显对立引用依据现有摘要。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
\( D \)：域/视图数（如口腔、肠道）。
\( p_d \)：第 \( d \) 域的特征（微生物）数。
\( n \)：样本量（受试者数）。
\( Y_{d,i} \in \mathbb{Z}_{\ge 0}^{p_d} \)：第 \( i \) 个样本在第 \( d \) 域的计数向量（可观测）。
\( Z_{d,i} \in \mathbb{R}^{p_d} \)：潜在连续变量，经 rounding 后生成 \( Y_{d,i} \)（不可观测）。
\( K \)：因子数（超参数，先验结构允许自动减少）。
\( \boldsymbol{\Lambda}_d \in \mathbb{R}^{p_d \times K} \)：第 \( d \) 域的因子载荷矩阵（参数）。
\( \boldsymbol{\Psi}_d \)：第 \( d \) 域的协方差矩阵的对角残差（参数）。
混合成分：每个样本 \( i \) 分配到一个混合成分 \( c_i \)，由 Dirichlet 过程（DP）控制。每个成分包含均值向量 \( \boldsymbol{\mu}_c \) 和组因子协方差 \( \boldsymbol{\Sigma}_c = \boldsymbol{\Lambda}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi} \)（其中 \( \boldsymbol{\Lambda} \) 为所有域堆叠的 \( (\sum p_d) \times K \) 矩阵）。
协变量向量 \( \mathbf{x}_i \in \mathbb{R}^q \)：影响基线丰度均值（通过回归系数 \( \boldsymbol{\beta} \)）。
模型（数据生成机制）：
从 DP(α, G0) 抽取 \( c_i \) 及对应的混合成分参数 \( \{\boldsymbol{\mu}_c, \boldsymbol{\Sigma}_c\} \)。
对给定混合成分，潜在连续向量 \( \mathbf{Z}_i = (Z_{1,i}^\top,\dots,Z_{D,i}^\top)^\top \) 服从 \( N(\boldsymbol{\mu}_c + \mathbf{X}_i\boldsymbol{\beta}, \boldsymbol{\Sigma}_c) \)。
每个观测计数 \( Y_{d,i,j} = \text{round}(Z_{d,i,j}) \)，即四舍五入到最近非负整数（或截断为0以上）。
组因子模型：\( \boldsymbol{\Sigma}_c = \boldsymbol{\Lambda}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi} \)，其中 \( \boldsymbol{\Lambda} \) 与成分无关（即所有成分共享因子载荷模式，但均值不同），或者允许成分特异载荷（复杂版本）。
先验：对 \( \boldsymbol{\Lambda} \) 的每一列施加 Dirichlet-Horseshoe（Dir-HS） 联合稀疏先验，诱导列内元素的全局收缩且保留列间稀疏模式。
可观测数据：多域计数表 \( \{Y_{d,i}\}_{d=1,i=1}^{D,n} \)。不可观测的：潜在连续变量 \( Z \)、混合成分分配 \( c_i \)、因子载荷 \( \boldsymbol{\Lambda} \)、残差 \( \boldsymbol{\Psi} \)、回归系数 \( \boldsymbol{\beta} \)、DP 浓度参数 \( \alpha \)。

第二步：最小内核¶

剥去所有设定，支撑该文的最小内核是：

在高维多视图计数数据中，用一个联合稀疏先验诱导的组因子模型去近似计数协方差结构，同时用 DP 混合吸收剩余的非高斯性。

最简特例：取 \( D=2 \)（两个域），每个域仅一个特征（\( p_1=p_2=1 \)），因子数 \( K=1 \)。此时：
- 可观测数据：两个 \( n \times 1 \) 计数向量 \( \mathbf{Y}_1, \mathbf{Y}_2 \)。
- 模型：每个样本 \( i \) 有潜在连续量 \( (Z_{1i}, Z_{2i}) \sim N(\boldsymbol{\mu}_c + \mathbf{x}_i\boldsymbol{\beta}, \boldsymbol{\Sigma}) \)，其中 \( \boldsymbol{\Sigma} = \begin{bmatrix} \lambda_1^2+\psi_1 & \lambda_1\lambda_2 \\ \lambda_1\lambda_2 & \lambda_2^2+\psi_2 \end{bmatrix} \)。联合稀疏先验 Dir-HS 作用于 \( (\lambda_1,\lambda_2) \) 向量。
- 交互度量：\( \rho_{12} = \frac{\lambda_1\lambda_2}{\sqrt{(\lambda_1^2+\psi_1)(\lambda_2^2+\psi_2)}} \)。若 Dir-HS 后验将 \( \lambda_1 \) 或 \( \lambda_2 \) 中的一个收缩至接近零，则 \( \rho_{12}\approx 0 \)，表示两域在此特征上无交互。
- DP 混合的作用：当两个域计数均表现出零膨胀时，单一高斯核无法拟合；DP 通过多个均值不同的混合成分吸收双峰/重尾，使得剩余相关结构由组因子模型捕捉。
- 因此，可观测计数的边缘过度散布被 DP 各混合成分的均值差异吸收，而条件相关（在同一混合成分内）由因子载荷模型表达。这一分离是该思想的核心。

三、这篇论文做了什么¶

三句话：
① 提出稀疏贝叶斯组因子模型（Sp-BGFM），用于多域计数表数据，同时建模跨域微生物交互、协变量效应和灵活分布形态。
② 核心方法：用 Dirichlet 过程（DP）混合的 rounded kernel（对数正态核）处理计数数据的过度离散与零膨胀；用组因子模型分解混合核的协方差矩阵；对因子载荷向量构造 Dirichlet-Horseshoe（Dir-HS）联合稀疏先验自动选择共享因子。
③ 主要结论：模拟与两个真实微生物组数据集显示，Dir-HS 联合稀疏相对于 element-wise 稀疏先验（如标准 Horseshoe）显著提升交互恢复与预测性能，且 DP 基线建模比固定分布（如负二项）更鲁棒。
关键设定与假设（从摘要与 first-pass 推断）：
Rounded kernel mixture：假设观测计数 \( Y \) 由潜在连续变量 \( Z \) 经 rounding 生成，即近似假定计数分布为混合对数正态（log-normal mixture）的离散化版本。这隐含了计数可在实数上取整的近似，对于低计数（如0,1）可能产生偏差。
组因子结构：不同域的共享因子载荷矩阵 \( \boldsymbol{\Lambda} \) 为各域共同的低维信号，域特异性由 \( \boldsymbol{\Psi}_d \) 和对角？实际模型可能假设 \( \boldsymbol{\Psi} \) 为对角线且域内特征独立。
Dir-HS 先验：对于因子载荷矩阵的第 \( k \) 列 \( \boldsymbol{\lambda}_{(k)} \)，有 \( \boldsymbol{\lambda}_{(k)} \sim N(\mathbf{0}, \tau^2 \phi_k^2 \mathbf{I}) \) 且 \( \phi_k \) 与 \( \tau \) 具有 Horseshoe 超先验，\( k=1,\dots,K \) 的方向通过 Dirichlet 过程实现联合稀疏（即某些列整体接近零）。该先验存在后验收敛的理论保障（如 Bhadra et al. 2017），但本文未提供。
DP 先验：混合成分的基线均值 \( \boldsymbol{\mu}_c \) 从基分布 G0（如多元正态）生成。由于 DP 的聚类性质，实际成分个数由数据决定。
主要结果（理论型缺失，应用/方法型为主）：
模拟：设定 \( D=2 \)，\( p_1=p_2=50 \)，\( n=100 \)，因子载荷有一半非零（即部分跨域交互）。Sp-BGFM 在交互结构恢复（AUC 或准确率）上优于：独立元素稀疏先验的 BGFM、固定成分数的 PGMM、以及忽略零膨胀的吉布斯采样模型。相对提升约 10-20%（具体数值无全文）。
真实数据：两个数据集：
1. 美国肠道项目（American Gut Project）的口腔和粪便 16S 数据：Sp-BGFM 识别出若干跨域交互链（如口腔链球菌属与粪便普氏菌属的负相关），且 covariate（是否素食）的回归系数与已知文献一致。
2. 微生物组关联研究（MGS）的牙菌斑与唾液数据：零膨胀程度高，DP 混合成分数被后验自动估计为 4-6 个，单高斯模型拟合不佳。
稳健性：交叉验证预测计数 RMSE 较次优模型低 8-15%。
本文为纯方法/应用论文，无理论证明（如后验收敛阶、minimax 界、识别性条件）。
证明路线与技术技巧：无（贝叶斯 MCMC 实现，依赖 Gibbs 采样和 Metropolis-Hastings 步骤，未提供理论收敛性分析）。技术技巧主要在于 MCMC 高效采样：
使用 DP 的截断 stick-breaking 表示（至多 \( K_{\max} \) 个成分）。
对因子载荷的 Gibbs 采样中，Dir-HS 先验的共轭性导致后验为缩放高斯，需更新全局收缩参数 \( \tau \) 与局部 \( \phi_k \)。
潜在变量 \( Z \) 的采样通过对截断正态的 Gibbs 抽样（按照 rounding 约束）。
没有实证例子之外的演示。
🔎 结论是否比证明窄：有。摘要声称“flexibly accommodates large variability and excess zero counts”以及“joint sparsity greatly improves performance”，但这些结论仅基于有限模拟和两个数据集上的点估计，没有把性能提升归因于具体理论性质（如适应性 minimax 率、识别性条件）。本文可被归为“计算有效的贝叶斯方法但缺乏理论边界”，其效用依赖于用户对贝叶斯非参数方法的信任。

四、开放问题¶

后验收敛阶：本文未给出 DP 混合 + Dir-HS 先验的后验收敛速率或真实参数（如交互矩阵）的估计速率。读者可追问：在什么样稀疏条件下，后验分布以多项式速率收缩到真实因子载荷？该问题扎根于本文缺乏任何理论定理的现实。
识别性隐患：组因子模型与 DP 混合参数存在可交换性/旋转模糊性，本文通过固定因子载荷符号和排序解决，但该做法是否保证交互结构的一致性？需要更严谨的识别性讨论。
超参数敏感性：Dir-HS 先验的全局收缩超参数 \( \tau \) 和 DP 浓度参数 \( \alpha \) 对结果有多敏感？本文未系统测试，读者可设计大规模敏感性实验。
扩展到大型数据集：MCMC 采样对 \( n \sim 1000, p_d \sim 500 \) 时计算耗时呈非线性增长；未来可否用变分贝叶斯或近似推断（如 SGVB）加速？该方向是实际部署的关键。

（所有开放问题均源于论文缺失理论界面和有限实证验证；具体扎根语句有待全文提供。）

Maintained by 陈星宇 · Homepage · Source on GitHub