What is your Prior Worth? Effective Sample Size and Sample Size Planning for Gaussian Graphical Models¶

作者: Giuseppe Arena, Lourens Waldorp, Maarten Marsman
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.22687

一、领域脉络与小综述¶

这个方向是什么：本文聚焦于贝叶斯高斯图模型（GGM）中先验分布的信息量量化与样本量规划问题。其根本问题是：在贝叶斯框架下，研究者为精度矩阵设定了一个信息性先验（Wishart 或 G-Wishart），这个先验“相当于多少观测数据”？（即有效样本量，ESS）。进一步，该先验信息如何影响新研究的样本量规划——需要多少新样本才能让数据主导先验，或者才能对条件独立关系（即图中的边）做出有足够证据的判断？该方向当前成熟度较低：ESS 的概念几乎完全在单变量共轭先验中发展，而矩阵变量先验（如 Wishart）因其内部元素依赖性与约束结构，从未被赋予可解释的观测等效单位。本文试图弥补这一缺口。
发展脉络（history）：ESS 概念起源于 Clarke (1996)，他将信息性先验视为从参考先验用假想数据集更新得到的后验。Clarke and Yuan (2006) 给出了闭合形式表达。Morita, Thall, Müller (MTM; 2008, 2010) 提出了基于 Fisher 信息曲率的方法，成为主导计算方法，广泛应用于临床试验设计。Neuenschwander et al. (2020) 系统化了五种预数据 ESS 估计量（VR, PR, MTM, PT, ELIR），并提出了预测一致性准则（predictive consistency），将 ESS 从共轭先验扩展到非共轭场景，但其应用仍停留在单变量设定。并行地，后数据 ESS 方法（Reimherr, Meng, Nicolae (2021), Wiesenfarth and Calderazzo (2019)）被开发用于诊断先验-数据冲突，但不适用于样本量规划。本文的位置在于：首次将预数据 ESS 框架正式应用于矩阵变量先验（Wishart & G-Wishart），填补了贝叶斯 GGM 中先验信息量化与样本量规划之间的空白。
子线索聚类：(1) ESS 方法开发：Clarke/Yuan（基础理论）→ MTM（信息曲率法）→ Neuenschwander et al. (2020)（多方法统一与预测一致性）。这条线索几乎只处理单变量或简单多参数设定。(2) 贝叶斯 GGM 推断：Giudici (1995)（Savag-Dickey 密度比）→ Roverato (2000, 2002)（G-Wishart 理论与 Cholesky 分解）→ Atay-Kayis and Massam (2005)（非可分解图的蒙特卡罗边缘似然）。这一簇的进步在于将贝叶斯图模型从可分解图扩展至一般图，但从未涉及先验信息量化。(3) 样本量规划：Schönbrodt and Wagenmakers (2017)（BFDA：基于贝叶斯因子的样本量规划）→ Stefan et al. (2019)（BFDA 教程）。BFDA 依赖先验预测分布，但在 GGM 中，若先验是信息性的，则其自身信息量未知，使得规划失去意义。本文把这三条线索合并。
该方向在追问的核心问题与瓶颈：(1) 如何将 ESS 从单变量推广到结构化的矩阵变量先验？(2) ESS 如何依赖于网络结构（密度、拓扑）与先验参数（ν, Ψ）？(3) 有了 ESS，如何设计样本量规划，使之与图上的边测试（BFDA）或信息主导（DPIR）相结合？(4) 规划策略对先验误设定的稳健性如何？当前主流方法（MTM, PT, ELIR）在 GGM 中退化为仅依赖于ν和p的线性函数（即 ESS = ν - 1 或 ν - p - 1），无法反映Ψ和G的影响，这是一个关键瓶颈——它们对网络结构完全不敏感，因此无法指导网络结构差异巨大时的规划。而 VR 和 PR 虽然敏感，但缺乏闭合形式，需要蒙特卡罗。
⚠️ 作者的 framing：作者将缺口 frame 为“没有一种方法能在观测等效单位中表达 GGM 先验的信息性，因此研究者无法进行有原则的样本量规划”。这使得本文成为“显然的下一步”：将单变量 ESS 文献与贝叶斯 GGM 文献结合。被淡化/回避的竞争路线：(1) 后数据 ESS（Reimherr 2021 等）被明确排除，理由是“不能用于计划”，但其在后验诊断中的价值未被充分讨论。(2) 矩阵-F 或混合先验（Mulder and Pericchi, 2018）被声明“需要不同处理”，未进一步发展。(3) 什么明显存在但未被提及：没有引用关于计算-统计权衡中 Monte Carlo 误差与 ESS 估计精度的理论（如在高维场景下的稳定性）。也没有引用关于图结构学习（而非边测试本身）的样本量规划，例如 Bem 《结构学习的力量分析》。引文集中在贝叶斯方法上，对频率学派并行方法（如 glasso 的样本量规则，或基于 BIC 的规划）完全没有涉及。
张力：未见明显对立引用。Neuenschwander et al. (2020) 的预测一致性准则与本文在 GGM 语境下的扩展自然吻合，不存在矛盾。MTM, PT, ELIR 在 GGM 下退化为简单线性函数，与 VR, PR 的结构敏感性形成对比，但作者将其归为不同方法学选择而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号	含义	类型
\(p\)	变量（节点）个数	维数指标 (integer)
\(G=(V,E)\)	无向图，\(V=\{1,\dots,p\}\)，\(E\) 为边集	已知/未知结构
\(\Theta = \Sigma^{-1}\)	\(p\times p\) 精度矩阵，\(\Theta_{ij}=0\) 当且仅当 \(i\!\perp\!\!\!\perp j \mid V\setminus\{i,j\}\)	要估计的参数
\(\rho_{ij} = -\theta_{ij} / \sqrt{\theta_{ii}\theta_{jj}}\)	偏相关系数	导出的因果量
\(X = (x_1,\dots,x_n)\), \(x_i \overset{iid}{\sim} \mathcal{N}_p(0,\Sigma)\)	样本观测值（已中心化）	可观测数据
\(S = \frac{1}{n} \sum_{k=1}^n x_k x_k^\top\)	样本协方差矩阵	充分统计量
\(n\)	样本量	标量
\(d = p(p+1)/2\)	对称矩阵 \(\Theta\) 的唯一元素个数	维度指标
\(\nu\)	Wishart / G-Wishart 自由度，\(\nu > p-1\)	先验超参数
\(\Psi\)	先验尺度矩阵，\(\mathbb{E}[\Theta] = \Psi\)	先验超参数；被苏宁描述
\(\Psi^* = \Psi / \nu\)	为先验幅值设定标准，通常从以往研究的估计得来	超参数
\(\mathbf{D}\)	\(p^2 \times d\) 非重复矩阵：\(\mathrm{vec}(\Theta) = \mathbf{D}\,\mathrm{vech}(\Theta)\)	辅助符号
\(\mathbf{D}^+ = (\mathbf{D}^\top\mathbf{D})^{-1}\mathbf{D}^\top\)	\(\mathbf{D}\) 的穆尔-彭罗斯伪逆	辅助符号
\(\mathbf{E}\)	\(d \times p^2\) 消除矩阵：\(\mathbf{E}\,\mathrm{vec}(\Theta) = \mathrm{vech}(\Theta)\)	辅助符号
\(\mathbf{K}\)	交换矩阵：\(\mathbf{K}\,\mathrm{vec}(\Theta) = \mathrm{vec}(\Theta^\top)\)	辅助符号
\(I(x_1;\Theta)\)	单次观测期望 Fisher 信息，\(=\frac12 \mathbf{D}^\top (\Theta^{-1}\otimes\Theta^{-1})\mathbf{D}\)	约简后 \(d\times d\)
\(I(\Theta)\)	先验的观测 Fisher 信息	同上

模型：
数据是高斯分布 \(x_i \overset{iid}{\sim} \mathcal{N}_p(0, \Theta^{-1})\)。先验是 Wishart \(\Theta \sim \mathcal{W}(\nu, \Psi^*)\)（完整图）或 G-Wishart \(\Theta \sim \mathcal{W}_G(\nu, \Psi^*)\)（稀疏图）。超参数从以往研究的样本量为 \(\nu\) 的估计中获得，设定 \(\Psi^* = \Psi / \nu\)，于是 \(\mathbb{E}[\Theta] = \Psi\)。

可观测 vs. 不可观测： - 可观测：\(X, S\)。 - 要估计的对象：\(\Theta\) 的所有非零元素及其图形结构 \(G\)。 - 先验信息：出自主观概率的超参数 \((\nu, \Psi)\)，它“等同于多少观测值”就是本文的 ESS。

第二步：最小内核——一个特例 (\(p=2\), 完整的 Wishart 先验)¶

设 \(p=2\)，节点数最少的情况；假设图是完全的（即 Wishart 先验）。那么 \(d = p(p+1)/2 = 3\)。\(\Theta\) 的三个唯一元素是 \(\theta_{11}, \theta_{12} (= \theta_{21}), \theta_{22}\)。

这个情况下的目标：解释 ESS 究竟是什么，以及 VR 和 PR 是如何计算的。

数据生成： \(x_1,\dots,x_n \overset{iid}{\sim} \mathcal{N}_2(0,\Theta^{-1})\)。

先验： \(\Theta \sim \mathcal{W}_2(\nu, \Psi^*=\Psi/\nu)\)。
这里的 \(\Psi\) 是预先给定的正定矩阵，比如 \(\Psi = \begin{pmatrix} 2 & 0.5 \\ 0.5 & 1 \end{pmatrix}\)。

ESS 的直观：先驱表明“\(\nu\) = 数据量”，但因为有依赖，\(\Theta\) 的三个元素其实每个得到的“等效观察数”可能不一样。然而在最简情况下，我们需要一个总体的度量。

VR (Variance Ratio)：
根据推导 (Appendix D)：

\[ESS_{VR} = \nu \cdot \frac{|A + B/\nu|^{1/d}}{|A|^{1/d}}\]

其中 \(A = \mathbf{E}(\mathbf{I}+\mathbf{K})(\Psi\otimes\Psi)\mathbf{E}^\top\)，\(B = 2\mathbf{D}^+\big(\mathrm{vec}(\Psi)\mathrm{vec}(\Psi)^\top + \mathbf{K}(\Psi\otimes\Psi)\big)\mathbf{D}^{+\top}\)。对于具体的 \(\Psi\) 和较小的 \(p\)，这些可以解析计算。但关键是，当 \(\nu \to \infty\)，\(ESS_{VR} \approx \nu\)，先验信息等于先验数据量。在有限 \(\nu\) 下，它略大于 \(\nu\)（比如表1的 1.046 倍）。

PR (Precision Ratio)：

\[ESS_{PR} = \frac{(\nu-p)(\nu-p-1)(\nu-p-3)}{\nu(\nu-p-2)} \cdot \left( \frac{|B|}{|B + C/(\nu-p-2)|} \right)^{1/d}\]

其中 \(B = \mathbf{D}^\top (\Psi^{-1}\otimes\Psi^{-1})\mathbf{D}\)，\(C = \mathbf{D}^\top [\mathrm{vec}(\Psi^{-1})\mathrm{vec}(\Psi^{-1})^\top + \mathbf{K}(\Psi^{-1}\otimes\Psi^{-1})]\mathbf{D}\)。同样，\(\nu \to \infty\) 时 \(ESS_{PR} \to \nu\)，但有限下它比 \(\nu\) 小（例如 \(p=2\)，\(\nu=100\) 时的 0.987 倍，见表1）。

为什么要区分两者：因为矩阵的逆与期望无法交换（Jensen 不等式），造成 \(ESS_{VR} > \nu > ESS_{PR}\)，差异 \(J = 1 - ESS_{PR}/ESS_{VR}\) 就是 Jensen gap。在 \(p=2\) 且 \(\nu\) 足够大时这个 gap 很小，但 \(p\) 大时它显著（比如 \(p=10, \nu=25\) 时 gap 可近乎 0.20 以上）。

所以，本文的核心问题退化为这样一个简单特例：
“在 \(p=2\) 的完整图上，Wishart 先验的值等于多少？”这个问题的答案就是式中的 \(ESS\)，但它不是简单的 \(\nu\)，而是通过行列式比调整后的值。

三、这篇论文做了什么¶

三句话：
1. 研究了贝叶斯高斯图模型（GGM）下 Wishart 和 G-Wishart 先验的有效样本量（ESS）计算与两种互补的样本量规划策略（DPIR 与 BFDA）。
2. 采用了行列式比（全局 ESS）和 Cholesky 分解（参数级 ESS）两种聚合方案，将五种预数据 ESS 估计量（VR、PR、MTM、PT、ELIR）适配到精度矩阵。
3. 主要结论：MTM/PT/ELIR 退化为仅依赖 ν 和 p 的线性函数（ESS = ν-1 或 ν-p-1），不反映网络结构；VR 和 PR 则敏感于 Ψ 与 G，但存在显著的 Jensen gap，且网络密度是主要驱动因素而非图拓扑。并据此提出 DPIR 和 BFDA 两种规划目标，两者差距可相差一至两个数量级。
关键设定与假设：
- 假设 1：变量已中心化，零均值。
- 假设 2：先验为 Wishart 或 G-Wishart，且超参数从以往的样本量为 ν 的同一研究中按 Ψ^* = Ψ/ν 设定。
- 假设 3：在 BFDA 中，图 \(G\) 在规划阶段被认为是固定已知的（不将不确定边缘当作随机变量）。在 DPIR 中这并非必需。
- 假设 4：对于 VR 和 PR 在 G-Wishart 下的计算，采用蒙特卡罗采样，因为含析最一般图的非可分解结构时没有闭合表达式。
- 相比已有文献：将 ESS 从单参数共轭推广到高维矩阵；另外在 G-Wishart 下处理非常普遍的非可分解图（而非仅限于分解图）。
主要结果：
- Theorem (隐含在推导)：在 Wishart 下，VR 和 PR 的先验 ESS 可以精确表达（式 1），并且随着 ν → ∞，ESS_{VR} ∼ ν，ESS_{PR} ∼ ν，从上下趋近。
- Jensen Gap：形式化为 \(J = 1 - ESS_{PR}/ESS_{VR}\)，随 ν 下降、随 p 上升。在 G-Wishart 下，J 非单调依赖于网络密度：首先随密度上升，在中等密度处达到最大值，然后再次下降（图 5）。
- DPIR vs. BFDA 的规模差异（图 8）：BFDA 给出的推荐样本量超出 ESS_{VR} 至少一个数量级（例如 ν=25 时 log10(n⋆/ESS_{VR}) 通常在 2 以上，即 n⋆ 比 ESS 大 100 倍），而 DPIR 仅为 1.1~2.5 倍。这是因为 BFDA 用严格的 Bayes 因子阈值（γ=10）作为证据标准，而 DPIR 只要信息主导即可。
- 敏感性分析（图 9、10）：先验误设定会方向性地改变规划样本量——低估边强度导致保守（过规划），高估边强度导致激进（欠规划）。DPIR 对误设定的敏感性比 BFDA 低。
证明路线与技术技巧（理论型必写，要具体）：
- 整体路线：
  1. 推导出精度矩阵在 Wishart 和 G-Wishart 先验下的一阶和二阶矩及 Fisher 信息（Appendix A, B, D）。
  2. 在每个先验下，计算 5 种 ESS 估计量的表达式（VR, PR 须用代入 Ψ^*=Ψ/ν 的解析公式（Appendix D）；MTM, PT, ELIR 直接得出线性关系）。
  3. 定义行列式比聚合为全局 ESS，Cholesky 分解得到参数级 ESS。
  4. 定义 DPIR 的关键量：\(\Lambda_n(\Theta, X) = \left( \frac{|\mathbf{I}(X; \hat\Theta(X))|}{|\mathbf{I}(\Theta)|} \right)^{1/d}\)。先验预测分布下的频率 Pr(Λ_n > ξ) 按照 Algorithm 1（双循环：先验采样 × 数据模拟）计算；样本量 n* 通过二分搜索满足 Pr(Λ_n > ξ) ≥ τ (默认 ξ=1, τ=0.99)。
  5. 定义 BFDA 规划：针对缺失的一对边 (i,j)，以最小可检测偏相关系数 ρ_min 作为规划边缘，利用 Savage-Dickey 密度比（完全图，式 3）或 Monte Carlo 估计的 G-Wishart 边缘似然（非完全图，式 4，Appendix K）产生效应曲线（图 2）；通过二分搜索找到使两项错误率（β_0, β_1）达到 0.8 的 n*。
- 关键跳跃点：从单变量 ESS 到矩阵变量的推广，关键在于正确使用 D 矩阵（半向量化）来处理 Fisher 信息和方差的维度缩减（Appendix C）。对于非分解图，边际似然的 Monte Carlo 估计（Atay-Kayis & Massam, 2005）是另一处硬功夫，因为后验和先验的正常化常数不再是闭合的。
- 技术技巧点名：
  - D 矩阵/ D^+ / E / K：用于处理对称矩阵的 Kronecker 积的维度缩减（Appendix C）。
  - Jensen 不等式：用于论证 ESS_PR ≤ ESS_VR（Appendix E）。
  - Savage-Dickey density ratio：在完全图下得到闭合的贝叶斯因子（式 3，引用 Giudici 1995）。
  - Atay-Kayis-Massam Monte Carlo：在非可分解图下估计 G-Wishart 边缘似然（Appendix K）。
  - Fisher z-变换：用于 BFDA 的二分搜索初始值。
  - Cholesky 分解：用于参数级 ESS（将全局的行列式比率分解为对角元的比值乘积）。
真实例子与应用：有。本文在章节 4 的“toy example”中应用了一个 \(p=10\)，包含 30 条边的稀疏图（密度 0.67），自由度为 \(\nu=100\)。该例子系统地展示了 DPIR（图 1）和 BFDA（图 2、3）的输出：全局 DPIR 最优样本大小 n_global = 128，参数级最坏边缘为 159；BFDA 规划边缘 (2,6) 的偏相关系数为 0.21，分别给出 n_H0 = 338，n_H1 = 183，最终推荐 n = 338。本文是一个纯模拟驱动的论文，没有真实实验数据；整个“真实例子”是通过 Algorithm 3 生成的模拟先验矩阵。
🔎 结论是否比证明窄：
- 是，有：作者在第 6 节承认“将网络结构 G 视为固定已知”，但在 BFDA 规划中实际上如此，且在图 6关于密度-依赖分析也在同一设定下进行。然而，推导出的 MTM, PT, ELIR 的线性表达式（Section 3.2）在一般非可分解图下同样是精确的（因为它们绕过了 G），这比“仅在已知 G 下”适用要更广。但 VR 和 PR 对 G 的依赖性（图 5）仅来自 Monte Carlo 模拟，并非解析结果，因此不能将这种行为模式作为定理规定。作者在结论部明确说“需要 Monte Carlo”，等于将 G 效应视为随机但不解析。
- 另一处窄结论：BFDA 中的“单调性”声明（式 6）被标记为“在频率表中精确，在贝叶斯表中仅近似”，作者在正文也承认。它们没有被证明为定理，而是通过 empirical 展示来支持的。
- 没有虚假的可推广声明；每处都贴上了假设。

四、开放问题¶

结构不确定性下的规划：作者将 G 视为固定已知，但一个研究者可能对 G 不完全确定。如何规划样本量以同时应对边存在与边不存在的双重不确定性？扎根点：第 6 节明确说了“Sample size planning that accounts for uncertainty in the structure itself is left open。”
多重比较控制：在 BFDA 中，γ=10 的阈值被直接用于每一条边的证据评估，但没有对 p(p-1)/2 次同时测试进行多重校正。制定多大 γ 才能控制 FWER 或 FDR？扎根点：第 6 节说“we did not formally control the error rate across the many edges tested simultaneously。”
Monte Carlo 计算成本的非可扩展性：仿真图在 p=40 时用于成本调节。对于大的 p（如 p=100+），目前的方法在 Monte Carlo 内各次更新 MCMC（Lenkoski 2013 采样器）下计算时间可能不可行。如何利用图的可分解性或谱分解（如作者最后提到的“clique–separator factorization”）来降低采样成本？扎根点：Section 6 “computational efficiency could be improved by exploiting graph decomposability”。
混合先验：本文明确排除了矩阵-F 类型的混合先验 (Mulder and Pericchi, 2018)。该先验结构如何获得自己的 ESS？这可能与你在高阶U-统计量/张量网络中的协方差分解工作有关。扎根点：Section 2.2 结尾：“We leave the generalization to mixture priors for future work。”

Maintained by 陈星宇 · Homepage · Source on GitHub