What is your Prior Worth? Effective Sample Size and Sample Size Planning for Gaussian Graphical Models¶
作者: Giuseppe Arena, Lourens Waldorp, Maarten Marsman
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.22687
一、领域脉络与小综述¶
-
这个方向是什么:本文聚焦于贝叶斯高斯图模型(GGM)中先验分布的信息量量化与样本量规划问题。其根本问题是:在贝叶斯框架下,研究者为精度矩阵设定了一个信息性先验(Wishart 或 G-Wishart),这个先验“相当于多少观测数据”?(即有效样本量,ESS)。进一步,该先验信息如何影响新研究的样本量规划——需要多少新样本才能让数据主导先验,或者才能对条件独立关系(即图中的边)做出有足够证据的判断?该方向当前成熟度较低:ESS 的概念几乎完全在单变量共轭先验中发展,而矩阵变量先验(如 Wishart)因其内部元素依赖性与约束结构,从未被赋予可解释的观测等效单位。本文试图弥补这一缺口。
-
发展脉络(history):ESS 概念起源于 Clarke (1996),他将信息性先验视为从参考先验用假想数据集更新得到的后验。Clarke and Yuan (2006) 给出了闭合形式表达。Morita, Thall, Müller (MTM; 2008, 2010) 提出了基于 Fisher 信息曲率的方法,成为主导计算方法,广泛应用于临床试验设计。Neuenschwander et al. (2020) 系统化了五种预数据 ESS 估计量(VR, PR, MTM, PT, ELIR),并提出了预测一致性准则(predictive consistency),将 ESS 从共轭先验扩展到非共轭场景,但其应用仍停留在单变量设定。并行地,后数据 ESS 方法(Reimherr, Meng, Nicolae (2021), Wiesenfarth and Calderazzo (2019))被开发用于诊断先验-数据冲突,但不适用于样本量规划。本文的位置在于:首次将预数据 ESS 框架正式应用于矩阵变量先验(Wishart & G-Wishart),填补了贝叶斯 GGM 中先验信息量化与样本量规划之间的空白。
-
子线索聚类:(1) ESS 方法开发:Clarke/Yuan(基础理论)→ MTM(信息曲率法)→ Neuenschwander et al. (2020)(多方法统一与预测一致性)。这条线索几乎只处理单变量或简单多参数设定。(2) 贝叶斯 GGM 推断:Giudici (1995)(Savag-Dickey 密度比)→ Roverato (2000, 2002)(G-Wishart 理论与 Cholesky 分解)→ Atay-Kayis and Massam (2005)(非可分解图的蒙特卡罗边缘似然)。这一簇的进步在于将贝叶斯图模型从可分解图扩展至一般图,但从未涉及先验信息量化。(3) 样本量规划:Schönbrodt and Wagenmakers (2017)(BFDA:基于贝叶斯因子的样本量规划)→ Stefan et al. (2019)(BFDA 教程)。BFDA 依赖先验预测分布,但在 GGM 中,若先验是信息性的,则其自身信息量未知,使得规划失去意义。本文把这三条线索合并。
-
该方向在追问的核心问题与瓶颈:(1) 如何将 ESS 从单变量推广到结构化的矩阵变量先验?(2) ESS 如何依赖于网络结构(密度、拓扑)与先验参数(ν, Ψ)?(3) 有了 ESS,如何设计样本量规划,使之与图上的边测试(BFDA)或信息主导(DPIR)相结合?(4) 规划策略对先验误设定的稳健性如何?当前主流方法(MTM, PT, ELIR)在 GGM 中退化为仅依赖于ν和p的线性函数(即 ESS = ν - 1 或 ν - p - 1),无法反映Ψ和G的影响,这是一个关键瓶颈——它们对网络结构完全不敏感,因此无法指导网络结构差异巨大时的规划。而 VR 和 PR 虽然敏感,但缺乏闭合形式,需要蒙特卡罗。
-
⚠️ 作者的 framing:作者将缺口 frame 为“没有一种方法能在观测等效单位中表达 GGM 先验的信息性,因此研究者无法进行有原则的样本量规划”。这使得本文成为“显然的下一步”:将单变量 ESS 文献与贝叶斯 GGM 文献结合。被淡化/回避的竞争路线:(1) 后数据 ESS(Reimherr 2021 等)被明确排除,理由是“不能用于计划”,但其在后验诊断中的价值未被充分讨论。(2) 矩阵-F 或混合先验(Mulder and Pericchi, 2018)被声明“需要不同处理”,未进一步发展。(3) 什么明显存在但未被提及:没有引用关于计算-统计权衡中 Monte Carlo 误差与 ESS 估计精度的理论(如在高维场景下的稳定性)。也没有引用关于图结构学习(而非边测试本身)的样本量规划,例如 Bem 《结构学习的力量分析》。引文集中在贝叶斯方法上,对频率学派并行方法(如 glasso 的样本量规则,或基于 BIC 的规划)完全没有涉及。
-
张力:未见明显对立引用。Neuenschwander et al. (2020) 的预测一致性准则与本文在 GGM 语境下的扩展自然吻合,不存在矛盾。MTM, PT, ELIR 在 GGM 下退化为简单线性函数,与 VR, PR 的结构敏感性形成对比,但作者将其归为不同方法学选择而非矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
| 符号 | 含义 | 类型 |
|---|---|---|
| \(p\) | 变量(节点)个数 | 维数指标 (integer) |
| \(G=(V,E)\) | 无向图,\(V=\{1,\dots,p\}\),\(E\) 为边集 | 已知/未知结构 |
| \(\Theta = \Sigma^{-1}\) | \(p\times p\) 精度矩阵,\(\Theta_{ij}=0\) 当且仅当 \(i\!\perp\!\!\!\perp j \mid V\setminus\{i,j\}\) | 要估计的参数 |
| \(\rho_{ij} = -\theta_{ij} / \sqrt{\theta_{ii}\theta_{jj}}\) | 偏相关系数 | 导出的因果量 |
| \(X = (x_1,\dots,x_n)\), \(x_i \overset{iid}{\sim} \mathcal{N}_p(0,\Sigma)\) | 样本观测值(已中心化) | 可观测数据 |
| \(S = \frac{1}{n} \sum_{k=1}^n x_k x_k^\top\) | 样本协方差矩阵 | 充分统计量 |
| \(n\) | 样本量 | 标量 |
| \(d = p(p+1)/2\) | 对称矩阵 \(\Theta\) 的唯一元素个数 | 维度指标 |
| \(\nu\) | Wishart / G-Wishart 自由度,\(\nu > p-1\) | 先验超参数 |
| \(\Psi\) | 先验尺度矩阵,\(\mathbb{E}[\Theta] = \Psi\) | 先验超参数;被苏宁描述 |
| \(\Psi^* = \Psi / \nu\) | 为先验幅值设定标准,通常从以往研究的估计得来 | 超参数 |
| \(\mathbf{D}\) | \(p^2 \times d\) 非重复矩阵:\(\mathrm{vec}(\Theta) = \mathbf{D}\,\mathrm{vech}(\Theta)\) | 辅助符号 |
| \(\mathbf{D}^+ = (\mathbf{D}^\top\mathbf{D})^{-1}\mathbf{D}^\top\) | \(\mathbf{D}\) 的穆尔-彭罗斯伪逆 | 辅助符号 |
| \(\mathbf{E}\) | \(d \times p^2\) 消除矩阵:\(\mathbf{E}\,\mathrm{vec}(\Theta) = \mathrm{vech}(\Theta)\) | 辅助符号 |
| \(\mathbf{K}\) | 交换矩阵:\(\mathbf{K}\,\mathrm{vec}(\Theta) = \mathrm{vec}(\Theta^\top)\) | 辅助符号 |
| \(I(x_1;\Theta)\) | 单次观测期望 Fisher 信息,\(=\frac12 \mathbf{D}^\top (\Theta^{-1}\otimes\Theta^{-1})\mathbf{D}\) | 约简后 \(d\times d\) |
| \(I(\Theta)\) | 先验的观测 Fisher 信息 | 同上 |
模型:
数据是高斯分布 \(x_i \overset{iid}{\sim} \mathcal{N}_p(0, \Theta^{-1})\)。先验是 Wishart \(\Theta \sim \mathcal{W}(\nu, \Psi^*)\)(完整图)或 G-Wishart \(\Theta \sim \mathcal{W}_G(\nu, \Psi^*)\)(稀疏图)。超参数从以往研究的样本量为 \(\nu\) 的估计中获得,设定 \(\Psi^* = \Psi / \nu\),于是 \(\mathbb{E}[\Theta] = \Psi\)。
可观测 vs. 不可观测: - 可观测:\(X, S\)。 - 要估计的对象:\(\Theta\) 的所有非零元素及其图形结构 \(G\)。 - 先验信息:出自主观概率的超参数 \((\nu, \Psi)\),它“等同于多少观测值”就是本文的 ESS。
第二步:最小内核——一个特例 (\(p=2\), 完整的 Wishart 先验)¶
设 \(p=2\),节点数最少的情况;假设图是完全的(即 Wishart 先验)。那么 \(d = p(p+1)/2 = 3\)。\(\Theta\) 的三个唯一元素是 \(\theta_{11}, \theta_{12} (= \theta_{21}), \theta_{22}\)。
这个情况下的目标:解释 ESS 究竟是什么,以及 VR 和 PR 是如何计算的。
数据生成: \(x_1,\dots,x_n \overset{iid}{\sim} \mathcal{N}_2(0,\Theta^{-1})\)。
先验:
\(\Theta \sim \mathcal{W}_2(\nu, \Psi^*=\Psi/\nu)\)。
这里的 \(\Psi\) 是预先给定的正定矩阵,比如 \(\Psi = \begin{pmatrix} 2 & 0.5 \\ 0.5 & 1 \end{pmatrix}\)。
ESS 的直观:先驱表明“\(\nu\) = 数据量”,但因为有依赖,\(\Theta\) 的三个元素其实每个得到的“等效观察数”可能不一样。然而在最简情况下,我们需要一个总体的度量。
VR (Variance Ratio):
根据推导 (Appendix D):
PR (Precision Ratio):
为什么要区分两者:因为矩阵的逆与期望无法交换(Jensen 不等式),造成 \(ESS_{VR} > \nu > ESS_{PR}\),差异 \(J = 1 - ESS_{PR}/ESS_{VR}\) 就是 Jensen gap。在 \(p=2\) 且 \(\nu\) 足够大时这个 gap 很小,但 \(p\) 大时它显著(比如 \(p=10, \nu=25\) 时 gap 可近乎 0.20 以上)。
所以,本文的核心问题退化为这样一个简单特例:
“在 \(p=2\) 的完整图上,Wishart 先验的值等于多少?”这个问题的答案就是式中的 \(ESS\),但它不是简单的 \(\nu\),而是通过行列式比调整后的值。
三、这篇论文做了什么¶
-
三句话:
- 研究了贝叶斯高斯图模型(GGM)下 Wishart 和 G-Wishart 先验的有效样本量(ESS)计算与两种互补的样本量规划策略(DPIR 与 BFDA)。
- 采用了行列式比(全局 ESS)和 Cholesky 分解(参数级 ESS)两种聚合方案,将五种预数据 ESS 估计量(VR、PR、MTM、PT、ELIR)适配到精度矩阵。
- 主要结论:MTM/PT/ELIR 退化为仅依赖 ν 和 p 的线性函数(ESS = ν-1 或 ν-p-1),不反映网络结构;VR 和 PR 则敏感于 Ψ 与 G,但存在显著的 Jensen gap,且网络密度是主要驱动因素而非图拓扑。并据此提出 DPIR 和 BFDA 两种规划目标,两者差距可相差一至两个数量级。
-
关键设定与假设:
- 假设 1:变量已中心化,零均值。
- 假设 2:先验为 Wishart 或 G-Wishart,且超参数从以往的样本量为 ν 的同一研究中按 Ψ^* = Ψ/ν 设定。
- 假设 3:在 BFDA 中,图 \(G\) 在规划阶段被认为是固定已知的(不将不确定边缘当作随机变量)。在 DPIR 中这并非必需。
- 假设 4:对于 VR 和 PR 在 G-Wishart 下的计算,采用蒙特卡罗采样,因为含析最一般图的非可分解结构时没有闭合表达式。
- 相比已有文献:将 ESS 从单参数共轭推广到高维矩阵;另外在 G-Wishart 下处理非常普遍的非可分解图(而非仅限于分解图)。
-
主要结果:
- Theorem (隐含在推导):在 Wishart 下,VR 和 PR 的先验 ESS 可以精确表达(式 1),并且随着 ν → ∞,ESS_{VR} ∼ ν,ESS_{PR} ∼ ν,从上下趋近。
- Jensen Gap:形式化为 \(J = 1 - ESS_{PR}/ESS_{VR}\),随 ν 下降、随 p 上升。在 G-Wishart 下,J 非单调依赖于网络密度:首先随密度上升,在中等密度处达到最大值,然后再次下降(图 5)。
- DPIR vs. BFDA 的规模差异(图 8):BFDA 给出的推荐样本量超出 ESS_{VR} 至少一个数量级(例如 ν=25 时 log10(n⋆/ESS_{VR}) 通常在 2 以上,即 n⋆ 比 ESS 大 100 倍),而 DPIR 仅为 1.1~2.5 倍。这是因为 BFDA 用严格的 Bayes 因子阈值(γ=10)作为证据标准,而 DPIR 只要信息主导即可。
- 敏感性分析(图 9、10):先验误设定会方向性地改变规划样本量——低估边强度导致保守(过规划),高估边强度导致激进(欠规划)。DPIR 对误设定的敏感性比 BFDA 低。
-
证明路线与技术技巧(理论型必写,要具体):
- 整体路线:
- 推导出精度矩阵在 Wishart 和 G-Wishart 先验下的一阶和二阶矩及 Fisher 信息(Appendix A, B, D)。
- 在每个先验下,计算 5 种 ESS 估计量的表达式(VR, PR 须用代入 Ψ^*=Ψ/ν 的解析公式(Appendix D);MTM, PT, ELIR 直接得出线性关系)。
- 定义行列式比聚合为全局 ESS,Cholesky 分解得到参数级 ESS。
- 定义 DPIR 的关键量:\(\Lambda_n(\Theta, X) = \left( \frac{|\mathbf{I}(X; \hat\Theta(X))|}{|\mathbf{I}(\Theta)|} \right)^{1/d}\)。先验预测分布下的频率 Pr(Λ_n > ξ) 按照 Algorithm 1(双循环:先验采样 × 数据模拟)计算;样本量 n* 通过二分搜索满足 Pr(Λ_n > ξ) ≥ τ (默认 ξ=1, τ=0.99)。
- 定义 BFDA 规划:针对缺失的一对边 (i,j),以最小可检测偏相关系数 ρ_min 作为规划边缘,利用 Savage-Dickey 密度比(完全图,式 3)或 Monte Carlo 估计的 G-Wishart 边缘似然(非完全图,式 4,Appendix K)产生效应曲线(图 2);通过二分搜索找到使两项错误率(β_0, β_1)达到 0.8 的 n*。
- 关键跳跃点:从单变量 ESS 到矩阵变量的推广,关键在于正确使用 D 矩阵(半向量化)来处理 Fisher 信息和方差的维度缩减(Appendix C)。对于非分解图,边际似然的 Monte Carlo 估计(Atay-Kayis & Massam, 2005)是另一处硬功夫,因为后验和先验的正常化常数不再是闭合的。
- 技术技巧点名:
- D 矩阵/ D^+ / E / K:用于处理对称矩阵的 Kronecker 积的维度缩减(Appendix C)。
- Jensen 不等式:用于论证 ESS_PR ≤ ESS_VR(Appendix E)。
- Savage-Dickey density ratio:在完全图下得到闭合的贝叶斯因子(式 3,引用 Giudici 1995)。
- Atay-Kayis-Massam Monte Carlo:在非可分解图下估计 G-Wishart 边缘似然(Appendix K)。
- Fisher z-变换:用于 BFDA 的二分搜索初始值。
- Cholesky 分解:用于参数级 ESS(将全局的行列式比率分解为对角元的比值乘积)。
- 整体路线:
-
真实例子与应用:有。本文在章节 4 的“toy example”中应用了一个 \(p=10\),包含 30 条边的稀疏图(密度 0.67),自由度为 \(\nu=100\)。该例子系统地展示了 DPIR(图 1)和 BFDA(图 2、3)的输出:全局 DPIR 最优样本大小 n_global = 128,参数级最坏边缘为 159;BFDA 规划边缘 (2,6) 的偏相关系数为 0.21,分别给出 n_H0 = 338,n_H1 = 183,最终推荐 n = 338。本文是一个纯模拟驱动的论文,没有真实实验数据;整个“真实例子”是通过 Algorithm 3 生成的模拟先验矩阵。
-
🔎 结论是否比证明窄:
- 是,有:作者在第 6 节承认“将网络结构 G 视为固定已知”,但在 BFDA 规划中实际上如此,且在图 6关于密度-依赖分析也在同一设定下进行。然而,推导出的 MTM, PT, ELIR 的线性表达式(Section 3.2)在一般非可分解图下同样是精确的(因为它们绕过了 G),这比“仅在已知 G 下”适用要更广。但 VR 和 PR 对 G 的依赖性(图 5)仅来自 Monte Carlo 模拟,并非解析结果,因此不能将这种行为模式作为定理规定。作者在结论部明确说“需要 Monte Carlo”,等于将 G 效应视为随机但不解析。
- 另一处窄结论:BFDA 中的“单调性”声明(式 6)被标记为“在频率表中精确,在贝叶斯表中仅近似”,作者在正文也承认。它们没有被证明为定理,而是通过 empirical 展示来支持的。
- 没有虚假的可推广声明;每处都贴上了假设。
四、开放问题¶
- 结构不确定性下的规划:作者将 G 视为固定已知,但一个研究者可能对 G 不完全确定。如何规划样本量以同时应对边存在与边不存在的双重不确定性?扎根点:第 6 节明确说了“Sample size planning that accounts for uncertainty in the structure itself is left open。”
- 多重比较控制:在 BFDA 中,γ=10 的阈值被直接用于每一条边的证据评估,但没有对 p(p-1)/2 次同时测试进行多重校正。制定多大 γ 才能控制 FWER 或 FDR?扎根点:第 6 节说“we did not formally control the error rate across the many edges tested simultaneously。”
- Monte Carlo 计算成本的非可扩展性:仿真图在 p=40 时用于成本调节。对于大的 p(如 p=100+),目前的方法在 Monte Carlo 内各次更新 MCMC(Lenkoski 2013 采样器)下计算时间可能不可行。如何利用图的可分解性或谱分解(如作者最后提到的“clique–separator factorization”)来降低采样成本?扎根点:Section 6 “computational efficiency could be improved by exploiting graph decomposability”。
- 混合先验:本文明确排除了矩阵-F 类型的混合先验 (Mulder and Pericchi, 2018)。该先验结构如何获得自己的 ESS?这可能与你在高阶U-统计量/张量网络中的协方差分解工作有关。扎根点:Section 2.2 结尾:“We leave the generalization to mixture priors for future work。”
Maintained by 陈星宇 · Homepage · Source on GitHub