Scalable multiple network inference with the joint graphical horseshoe¶

作者: Camilla Lingjærde, Benjamin P. Fairfax, Sylvia Richardson, Hélène Ruffieux
来源: Annals of Applied Statistics
主题: 高维统计 / 随机矩阵
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：高维多网络联合图模型推断要解决的根本统计问题是：在样本量 \(n\) 远小于变量维度 \(p\) 的设定下，如何从观测数据中同时估计多个（\(K\) 个）相关子群体的稀疏精度矩阵（逆协方差矩阵），使得估计既能借力跨群体的共有结构以降低方差，又能保留各群体特有的异质性边。当前该子方向在频率学派端已有成熟的凸优化框架与一致性理论，但在贝叶斯端，全局-局部收缩先验的计算可扩展性与多网络联合建模仍处于从单网络向多网络过渡的阶段，理论收敛率与后验收缩率的结果尚不完整。

发展脉络： 1. 奠基工作（单网络高维图模型）：Meinshausen and Bühlmann (2006) 引入邻域选择法，用 Lasso 逐节点回归做变量选择，证明了在稀疏图与特定惩罚参数下的一致性（指数收敛率），但指出用于最优预测的 Oracle 惩罚参数并不能保证图结构估计的一致性。Friedman et al. (2008) 提出 Graphical Lasso，将全图估计转化为带 \(L_1\) 惩罚的凸优化问题，极大提升了计算可行性。Fan et al. (2009) 引入 SCAD 与 Adaptive Lasso 非凹惩罚，以缓解 \(L_1\) 惩罚对大系数的过度收缩偏差。 2. 贝叶斯单网络图模型：Wang (2012) 提出 Bayesian Graphical Lasso，用数据增广构造了块 Gibbs 采样器，但本质上仍受 Lasso 偏差困扰。Li et al. (2019a)（即 Graphical Horseshoe）引入马蹄先验，利用其全局-局部结构在噪声边施加强收缩、在信号边保持无偏，理论上证明了后验均值在特定条件下近乎无偏，且信息散度小；但计算依赖全 Gibbs 采样，当 \(p\) 增大时，对 \(p \times p\) 精度矩阵的逐元素采样使得计算不可行。 3. 多网络联合估计（频率学派）：Danaher et al. (2014) 提出 Joint Graphical Lasso（JGL），引入 Fused Lasso（惩罚组间差异）与 Group Lasso（鼓励组间同为零）惩罚，用 ADMM 算法求解凸优化，实现了跨群体信息借用，但惩罚对异质性的保留依赖于调参，且 \(L_1\) 惩罚同样引入偏差。 4. 贝叶斯多网络图模型（当前 frontier）：Li et al. (2018) 提出 Bayesian Joint Spike-and-Slab Graphical Lasso，将 JGL 的 Fused/Group 惩罚嵌入连续 Spike-and-Slab 框架，用 EM 算法求后验众数，减少了偏差；但其局部先验仍基于 Laplace（Lasso），对强信号的收缩偏差依然存在。Yang et al. (2021)（即 GemBag）引入组间共享的 Spike-and-Slab 先验，但同样基于 Laplace 惩罚。本文的位置：将单网络 Graphical Horseshoe 的无偏收缩优势带入多网络设定，并解决其 Gibbs 采样的计算瓶颈。

子线索聚类： - 线索 A：频率学派凸惩罚方法（Meinshausen & Bühlmann 2006; Friedman et al. 2008; Fan et al. 2009; Danaher et al. 2014）。核心操作：最大化带 \(L_1\) / 非凹惩罚的对数似然。瓶颈：\(L_1\) 对大系数的偏差；非凹惩罚的局部极小；多网络联合惩罚的调参（如 JGL 的 \(\lambda_1, \lambda_2\) 网格搜索）在高维下极耗算力。 - 线索 B：贝叶斯 Laplace / Spike-and-Slab 方法（Wang 2012; Li et al. 2018; Yang et al. 2021）。核心操作：在精度矩阵元素上施加带 Spike-and-Slab 门控的 Laplace 先验，用 EM 或 Gibbs 求后验众数 / 均值。瓶颈：Laplace 局部先验对非零元素的过度收缩；多网络先验结构对异质边捕捉不足。 - 线索 C：贝叶斯全局-局部收缩方法（Li et al. 2019a; 本文）。核心操作：用 Horseshoe 等重尾局部先验保护信号边，用全局参数控制稀疏度。瓶颈：全 Gibbs 采样的计算不可扩展性（\(O(p^2)\) 次迭代采样）；单网络设定无法借用多群体信息。

这个方向在追问的核心问题： 1. 偏差-稀疏度权衡：如何在极度稀疏（近黑体）设定下，既把零元素彻底收缩到零，又让非零元素免受收缩偏差？Horseshoe 类先验在单网络理论上已给出后验收缩率与近乎无偏的答案，但多网络下尚无对应理论。 2. 跨群体信息借用与异质性保留的量化：多网络联合估计中，共享结构与特有结构的识别界限在哪？现有 JGL 与 GemBag 依赖惩罚参数网格搜索，缺乏自适应的贝叶斯多层先验来量化"边在多少个群体中活跃"这一离散稀疏度。 3. 计算可扩展性：当 \(p > 500\) 时，贝叶斯图模型的 \(O(p^2)\) 参数空间的 MCMC 采样是否还能在有限时间内给出可靠估计？能否用确定性算法（EM / ECM）逼近后验众数以绕开采样成本？

⚠️ 作者的 framing： - 作者把缺口 frame 成两个：① Graphical Horseshoe 的 Gibbs 采样在高维不可扩展；② 它只适用于单网络，而组学数据需要多网络联合分析。这让本文的 ECM 算法与联合 Horseshoe 成为"显然的下一步"。 - 被淡化的竞争路线：Wang (2015) 的连续 Spike-and-Slab 框架（线索 B）同样致力于可扩展的结构学习，且用了 EM，但作者仅在引用中提其"计算效率高"，未正面比较其与 ECM-Horseshoe 在偏差上的差异。此外，频率学派的非凹惩罚方法（SCAD / MCP）在偏差控制上也有进展，但 intro 完全未提及。 - 明显该引但未出现的文献：高维贝叶斯图模型的后验收缩率理论（如 Banerjee & Ghosal 2015 的 Wishart 先验收缩率结果，或 Bhadra et al. 2019 对 Horseshoe 在图模型中的理论深化）在 intro 中缺席——这暗示本文在理论收敛率上可能没有新结果，值得研究者去查证。

张力：未见明显对立引用。各线索在设定上互补（频率学派重计算与一致性，贝叶斯重无偏与不确定性量化），但在"多网络联合估计应采用何种局部先验"上存在隐性张力：Li et al. (2018) 与 Yang et al. (2021) 认为带 Spike-and-Slab 门控的 Laplace 已足够，本文则认为必须换为 Horseshoe 的重尾局部先验才能消除偏差——这一分歧在仿真中通过 F1-score 与 KL 散度对比呈现，但缺乏理论层面的正面论证。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(K\)：网络（子群体 / 条件）的数量，\(k \in \{1, \dots, K\}\)。
\(p\)：变量维度（如基因数），\(i, j \in \{1, \dots, p\}\)。
\(n_k\)：第 \(k\) 个网络的样本量，通常 \(n_k \ll p\)。
\(\mathbf{X}^{(k)}\)：第 \(k\) 个网络的可观测数据矩阵，\(n_k \times p\)，每行 \(\mathbf{x}_i^{(k)} \in \mathbb{R}^p\)。
\(\mathbf{\Sigma}^{(k)}\)：第 \(k\) 个网络的协方差矩阵（\(p \times p\)，未知，要估的对象）。
\(\mathbf{\Theta}^{(k)} = \mathbf{\Sigma}^{(k)}^{-1}\)：第 \(k\) 个网络的精度矩阵（\(p \times p\)，未知，核心 estimand）。\(\Theta_{ij}^{(k)} \neq 0\) 表示变量 \(i\) 与 \(j\) 在网络 \(k\) 中条件依赖（有边）。
\(\theta_{ij}^{(k)}\)：\(\mathbf{\Theta}^{(k)}\) 的第 \((i,j)\) 元素。
\(\tau\)：全局收缩参数，控制所有网络所有边的整体稀疏度。
\(\lambda_{ij}^{(k)}\)：局部收缩参数，特指网络 \(k\) 中边 \((i,j)\) 的局部尺度，防止强信号被过度收缩。
\(\pi_{ij}\)：边缘特异性参数，控制边 \((i,j)\) 在 \(K\) 个网络中的共享程度（\(\pi_{ij}\) 越大，该边在越多网络中倾向为非零）。
\(z_{ij}^{(k)}\)：潜在二值指示变量，\(z_{ij}^{(k)} = 1\) 表示网络 \(k\) 中边 \((i,j)\) 活跃（非零），\(z_{ij}^{(k)} = 0\) 表示被收缩至零。不可观测，需靠先验与数据推断。

模型（数据生成机制）：对每个网络 \(k\)，可观测数据 \(\mathbf{X}^{(k)}\) 的行独立同分布生成于 \(p\) 维高斯分布：\(\mathbf{x}_i^{(k)} \sim \mathcal{N}(\mathbf{0}, \mathbf{\Sigma}^{(k)})\)。精度矩阵 \(\mathbf{\Theta}^{(k)}\) 是稀疏的（大量 \(\theta_{ij}^{(k)} = 0\)）。多网络之间共享部分非零边结构，但各自保留特有边。

可观测数据：研究者实际观测到的是 \(K\) 个独立样本集 \(\{\mathbf{X}^{(k)}\}_{k=1}^K\)，每个是 \(n_k \times p\) 的矩阵。不可观测的是：每条边在每个网络中的真实状态（零或非零、具体数值），即 \(\theta_{ij}^{(k)}\) 与 \(z_{ij}^{(k)}\)；以及控制稀疏度与共享度的超参数 \(\tau, \pi_{ij}\)。识别这些不可观测量依赖贝叶斯先验层级结构与后验推断算法。

第二步：最小内核——单网络 ECM 算法的最简特例（\(K=1, p=2\)）

剥掉多网络联合结构与高维一般性，支撑本文的最小内核是：在马蹄先验下，如何用 ECM 算法求精度矩阵后验众数，绕开 Gibbs 采样的计算瓶颈。取 \(K=1\)（单网络）、\(p=2\)（最低维度使精度矩阵有非对角元素）。

此时 \(\mathbf{\Theta}\) 是 \(2 \times 2\) 矩阵，只有 1 个非对角元素 \(\theta_{12}\) 需要推断。马蹄先验层级为： \(\theta_{12} \sim \mathcal{N}(0, \tau^2 \lambda_{12}^2)\)，\(\lambda_{12} \sim \text{C}^+(0, 1)\)（半柯西），\(\tau\) 固定为经验贝叶斯估计值。

Gibbs 采样需要从 \(\theta_{12}, \lambda_{12}\) 的全条件后验中反复采样，当 \(p\) 大时对 \(O(p^2)\) 个参数采样极慢。ECM 的核心想法是：把 \(\lambda_{12}\) 当作潜在变量，在 E 步计算其条件期望，在 M 步对 \(\theta_{12}\) 最大化完整数据对数后验。

E 步：给定当前 \(\theta_{12}\) 与 \(\tau\)，计算 \(\mathbb{E}[\lambda_{12}^2 \mid \theta_{12}, \tau]\)。利用 Makalic and Schmidt (2015) 的关键观察——半柯西可表示为逆伽马混合：\(\lambda_{12}^2 \sim \text{IG}(1/2, 1/\nu_{12})\)，\(\nu_{12} \sim \text{IG}(1/2, 1)\)——该条件期望可解析算出（为逆伽马分布的均值），无需采样。
CM 步 1：用 E 步算出的 \(\mathbb{E}[\lambda_{12}^2]\) 替代真实 \(\lambda_{12}^2\)，对 \(\theta_{12}\) 最大化。此时 \(\theta_{12}\) 的条件后验是高斯，众数即均值，但受正定约束 \(\Theta_{11}\Theta_{22} - \theta_{12}^2 > 0\)。若无约束，众数为 \(\tilde{\theta}_{12} = S_{12} / (S_{11} + 1/(\tau^2 \mathbb{E}[\lambda_{12}^2]))\)（\(S\) 为样本协方差）；若有约束且越界，则取约束边界值。
CM 步 2：更新对角元素 \(\Theta_{11}, \Theta_{22}\)，其众数为 \(S_{ii}/n + 1/\tau^2\)（对角元素无局部参数，只有全局收缩）。

这个 \(p=2\) 特例揭示了整个算法的骨架：用逆伽马混合消解半柯西的采样困难，用条件期望替代采样，用带正定约束的解析众数更新替代随机游走。当 \(p\) 推广到任意维度，E 步对 \(O(p^2)\) 个 \(\lambda_{ij}\) 同时算条件期望，CM 步对 \(O(p^2)\) 个 \(\theta_{ij}\) 逐对更新（保持对称与正定），计算复杂度从 Gibbs 的 \(O(p^2 \times \text{迭代次数} \times \text{采样数})\) 降至 ECM 的 \(O(p^2 \times \text{迭代次数})\)，且每步是解析算术运算，无随机性。

三、这篇论文做了什么¶

三句话： ① 研究了高维单网络与多网络精度矩阵的贝叶斯推断问题，针对 Graphical Horseshoe 的计算瓶颈与单网络局限。 ② 核心工具是期望条件最大化（ECM）算法与引入边缘特异性参数的联合马蹄先验层级。 ③ 主要结论是：单网络 ECM 在保持与 Gibbs 同等准确度下显著提升可扩展性（\(p\) 可达数千）；联合网络方法在任意网络相似度下均优于 JGL 与 GemBag 等现有方法。

关键设定与假设： - 数据设定：\(K\) 个独立高斯样本集，\(\mathbf{X}^{(k)} \sim \mathcal{N}(\mathbf{0}, \mathbf{\Sigma}^{(k)})\)，\(n_k < p\)，各网络样本独立但精度矩阵结构相关。 - 单网络先验（公式 1）：对角元素 \(\Theta_{ii} \sim \text{Exp}(1/2\tau^2)\)（指数分布，保证正定）；非对角元素 \(\theta_{ij} \sim \mathcal{N}(0, \tau^2 \lambda_{ij}^2)\)，\(\lambda_{ij} \sim \text{C}^+(0,1)\)。相比 Li et al. (2019a) 的原始设定，本文在 ECM 中固定 \(\tau\)（不更新），理由引用 Scott and Berger (2010)：在极度稀疏设定下 \(\tau\) 的后验会坍缩至零，导致所有边被过度收缩。 - 联合网络先验（公式 3-4）：引入边缘特异性参数 \(\pi_{ij} \sim \text{Beta}(a, b)\)，控制边 \((i,j)\) 的跨网络共享度；潜在指示 \(z_{ij}^{(k)} \sim \text{Bern}(\pi_{ij})\)；给定 \(z_{ij}^{(k)}=1\)，\(\theta_{ij}^{(k)} \sim \mathcal{N}(0, \tau^2 \lambda_{ij}^{(k)2})\)，\(\lambda_{ij}^{(k)} \sim \text{C}^+(0,1)\)；给定 \(z_{ij}^{(k)}=0\)，\(\theta_{ij}^{(k)} \sim \mathcal{N}(0, \tau^2 \epsilon^2)\)（\(\epsilon\) 极小，近似尖峰）。相比 Li et al. (2018) 的 Spike-and-Slab Laplace 先验，本文用 Horseshoe 重尾局部先验替代 Laplace，以消除对非零元素的收缩偏差；相比 GemBag，本文用 \(\pi_{ij}\) 参数化边的共享概率，而非 GemBag 的组间共享尖峰尺度。 - 全局参数 \(\tau\) 的选择：采用经验贝叶斯，固定 \(\tau = 1/p\)（引用 Van Der Pas et al. 2014 在非图模型设定下的建议），并在附录中测试了 \(\tau = 1/\sqrt{p}\) 等替代值的稳健性。相比完全贝叶斯更新 \(\tau\)，这是为避免 ECM 中 \(\tau\) 坍缩至零的妥协。

主要结果： 1. 定理 1（ECM 收敛性）：在固定 \(\tau\) 与初始化正定的条件下，ECM 算法的迭代序列 \(\{\mathbf{\Theta}^{(t)}\}\) 保证每步增加完整数据对数后验的目标函数值，且收敛到稳定点。直觉：ECM 属于 Meng and Rubin (1993) 的广义 EM 框架，E 步计算条件期望不降低目标函数，CM 步对参数子集逐块最大化保证单调上升；正定约束通过投影到可行集维持。必要条件：\(\tau\) 固定（否则目标函数非单调）；初始化 \(\mathbf{\Theta}^{(0)}\) 正定（如取样本协方差逆加收缩对角）。解决的技术难点：Gibbs 采样无单调上升保证，且收敛诊断困难；ECM 提供了确定性收敛轨迹。 2. 仿真结果 1（单网络可扩展性）：在 \(p=100, 300, 500, 1000\) 的尺度无关图与带中心节点图上，ECM 与 Gibbs（Li et al. 2019a）在 F1-score、KL 散度、谢泼德误差上达到同等准确度，但 ECM 的运行时间在 \(p=500\) 时约为 Gibbs 的 1/10，在 \(p=1000\) 时 Gibbs 无法在合理时间完成而 ECM 仍可运行。对比 Graphical Lasso（Friedman et al. 2008），ECM 在 F1-score 上高出 10-20%（尤其在强信号边），因 Horseshoe 无偏收缩优势。 3. 仿真结果 2（联合网络优越性）：在 \(K=2, 3, 4\)，\(p=100\)，网络相似度从低（共享边 10%）到高（共享边 90%）的设定下，联合 Horseshoe 在 F1-score 与 KL 散度上全面优于 JGL（Danaher et al. 2014）与 GemBag（Yang et al. 2021）。关键量化：在中等相似度（共享边 50%）时，联合 Horseshoe 的 F1-score 比 JGL 高约 15%，比 GemBag 高约 8%；在低相似度时，联合 Horseshoe 仍优于单网络分别估计，因 \(\pi_{ij}\) 先验能自适应降低共享度，避免错误借用信息。

证明路线与技术技巧： - 整体路线（ECM 算法设计）： 1. 层级展开：将马蹄先验的半柯西局部参数 \(\lambda_{ij}\) 用逆伽马混合表示（Makalic and Schmidt 2015 的关键技巧），引入潜在逆伽马变量 \(\nu_{ij}\)，使完整数据对数后验对 \(\lambda_{ij}^2\) 为逆伽马分布，条件期望解析可算。 2. E 步：给定当前 \(\mathbf{\Theta}^{(t)}\) 与 \(\tau\)，计算所有 \(\lambda_{ij}^2\) 与 \(\nu_{ij}\) 的条件期望 \(\mathbb{E}[\lambda_{ij}^2 \mid \theta_{ij}^{(t)}, \tau]\) 与 \(\mathbb{E}[\nu_{ij} \mid \lambda_{ij}^{(t)}]\)，均为逆伽马分布均值，有闭式解。 3. CM 步 1（非对角元素）：用条件期望替代真实 \(\lambda_{ij}^2\)，对每个 \(\theta_{ij}\) 最大化条件后验。该后验是高斯，众数闭式可得，但需满足 \(\mathbf{\Theta}\) 正定约束（即 \(\theta_{ij}^2 < \Theta_{ii}\Theta_{jj}\)）。若闭式众数越界，投影到约束边界。 4. CM 步 2（对角元素）：对 \(\Theta_{ii}\) 最大化，众数为 \(S_{ii}/n + 1/\tau^2\)（无局部参数，只有全局收缩），自然为正。 5. 迭代至收敛：重复 E-CM 步，监控目标函数值单调上升至变化量小于阈值。 - 关键跳跃点：从半柯西后验的不可解析采样到逆伽马混合的条件期望解析计算。难点在于半柯西密度 \(\propto 1/(1+\lambda^2)\) 无标准分布的矩闭式解；Makalic and Schmidt (2015) 的表示 \(\text{C}^+(0,1) \equiv \text{IG}(1/2, 1/\nu) \cdot \text{IG}(1/2, 1)\) 把它拆成两层逆伽马，使条件期望退化为逆伽马均值 \(\beta/(\alpha-1)\)，彻底消除了采样需求。 - 联合网络的扩展：在联合 ECM 中，E 步额外计算 \(z_{ij}^{(k)}\) 的条件概率 \(\mathbb{E}[z_{ij}^{(k)} \mid \theta_{ij}^{(k)}, \pi_{ij}, \tau]\)（贝塔-伯努利后验，闭式为 \(\pi_{ij}\) 的更新值）与 \(\pi_{ij}\) 的条件期望（贝塔后验均值）。CM 步对 \(\theta_{ij}^{(k)}\) 的更新根据 \(\mathbb{E}[z_{ij}^{(k)}]\) 在尖峰（\(\epsilon\) 尺度）与 slab（\(\lambda_{ij}^{(k)}\) 尺度）之间加权插值，实现自适应的离散结构选择与连续收缩的融合。 - 技术技巧点名： - 逆伽马混合：用于半柯西局部参数的解析化，是整个 ECM 可行性的基石。 - 带正定约束的逐块坐标上升：CM 步对 \(\theta_{ij}\) 逐对更新，保证每步上升且维持正定；类似 Bayesian Graphical Lasso (Wang 2012) 的块更新，但用马蹄众数替代 Laplace 众数。 - 经验贝叶斯全局参数固定：\(\tau = 1/p\)，避免 ECM 中 \(\tau\) 坍缩至零（引用 Scott and Berger 2010 对多重性校正的观察），代价是丧失了 \(\tau\) 的完全贝叶斯不确定性量化。 - 尖峰-平板加权插值：联合 ECM 中用 \(\mathbb{E}[z_{ij}^{(k)}]\) 对尖峰与平板众数加权，实现连续型 Spike-and-Slab 的软阈值，避免了离散 Spike-and-Slab MCMC 的模型空间跳跃。

真实例子与应用： - 数据 / 场景：单核细胞基因表达数据，来自 Fairfax et al. (2014) 的 eQTL 研究。432 个欧洲健康个体的单核细胞，在 4 个条件下测量基因表达：未刺激、IFN-γ 刺激、LPS 2h 刺激、LPS 24h 刺激。选取与顶级热点遗传变异（rs6581889，染色体 12）关联的 100 个基因，构成 \(p=100, K=4\) 的多网络问题。 - 怎么用上去：对 4 个条件分别建精度矩阵图，用联合 Horseshoe ECM 估计，对比 JGL 与 GemBag。用 UpSetR (Conway et al. 2017) 可视化跨条件共享边。 - 得到什么结果：联合 Horseshoe 发现了跨所有 4 个条件共享的边（如 COX6A1 与其他基因的连接，与流感病毒复制功能相关，引用 Hao et al. 2008），且在刺激条件下识别出特有边（如氧化磷酸化通路与免疫系统过程基因的激活）。JGL 与 GemBag 虽也识别部分共享边，但对热点变异介导的跨条件枢纽节点捕捉不足（作者引用 Fairfax et al. 2012 与 Ruffieux et al. 2021 指出这一已知生物学事实被 GemBag 遗漏）。 - 想说明什么：验证联合 Horseshoe 在真实组学数据上能同时捕捉跨条件共享结构与条件特有异质性，且对已知生物学热点枢纽的识别优于现有方法，展示其应用价值。

🔎 结论是否比证明窄： - 定理 1 的严格证明仅保证 ECM 收敛到稳定点，不保证该稳定点是全局众数或甚至局部众数（因正定约束使目标函数非凸）。作者在文中泛泛 claim "ECM provides a deterministic route to the posterior mode"，但严格证明只覆盖"单调上升至稳定点"。全局众数性缺乏保证。 - 联合网络的优越性仅在仿真与单一真实数据上量化展示，缺乏理论层面的收敛率或后验收缩率定理。作者在 intro 中 claim "outperforming state-of-the-art methods at any level of network similarity"，但此结论的严格范围仅限于本文的仿真设定与单一 eQTL 数据集，未在一般理论条件下证明。 - \(\tau\) 的固定是经验贝叶斯妥协，作者承认"it collapses to zero in very sparse settings (Scott and Berger 2010)"，但未证明固定 \(\tau = 1/p\) 在图模型设定下的理论最优性或甚至一致性——Van Der Pas et al. (2014) 的结果是在非图模型的均值估计设定下，直接移植到精度矩阵估计缺乏理论支撑。

四、开放问题¶

联合 Graphical Horseshoe 的后验收缩率理论：本文未给出多网络马蹄先验下精度矩阵估计的后验收缩率或 minimax 率结果。要证什么：在 \(K\) 个网络、共享稀疏度 \(\pi_{ij}\) 先验下，\(\mathbf{\Theta}^{(k)}\) 的后验是否在 \(\ell_2\) 或 KL 散度下达到近黑体设定的 minimax 率（类似 Van Der Pas et al. 2014 对单网络均值的结果）？扎根点：intro 缺席的贝叶斯图模型收缩率理论文献，以及作者对 \(\tau = 1/p\) 的经验贝叶斯选择缺乏理论论证（第 3 节与附录 D）。
ECM 稳定点的众数性保证：定理 1 只证收敛到稳定点，未证其为局部或全局众数。要证什么：在正定约束下，ECM 的稳定点是否至少是局部众数？或给出条件（如初始化足够靠近众数）使稳定点为全局众数？扎根点：定理 1 的陈述与作者对 "posterior mode" 的泛泛 claim 之间的缝隙。
\(\tau\) 的完全贝叶斯更新与多重性校正：本文固定 \(\tau\) 以避免坍缩，但丧失了全局稀疏度的不确定性量化。要估什么：能否在 ECM 框架内引入 \(\tau\) 的更新步骤（如用边际后验众数或蒙特卡罗 EM），同时避免坍缩？扎根点：第 3 节对 Scott and Berger (2010) 的引用与 \(\tau\) 固定的妥协说明。
联合先验对极端异质网络的鲁棒性：仿真显示联合 Horseshoe 在低相似度时仍优于单网络估计，但 \(\pi_{ij} \sim \text{Beta}(a,b)\) 的先验假设可能对极端异质（共享边 < 5%）的网络产生负借用。要估什么：在 \(\pi_{ij}\) 先验设定错误时，联合估计的误差上界是什么？扎根点：仿真部分对低相似度设定的有限覆盖（仅到 10% 共享边）与 \(\pi_{ij}\) 先验的固定超参数 \(a,b\)。

Maintained by 陈星宇 · Homepage · Source on GitHub

Scalable multiple network inference with the joint graphical horseshoe¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论