跳转至

What is your Prior Worth? Effective Sample Size and Sample Size Planning for Gaussian Graphical Models

作者: Giuseppe Arena, Lourens Waldorp, Maarten Marsman
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.22687


一、领域脉络与小综述

  • 这个方向是什么:本文聚焦于贝叶斯高斯图模型(GGM)中先验分布的信息量量化与样本量规划问题。其根本问题是:在贝叶斯框架下,研究者为精度矩阵设定了一个信息性先验(Wishart 或 G-Wishart),这个先验“相当于多少观测数据”?(即有效样本量,ESS)。进一步,该先验信息如何影响新研究的样本量规划——需要多少新样本才能让数据主导先验,或者才能对条件独立关系(即图中的边)做出有足够证据的判断?该方向当前成熟度较低:ESS 的概念几乎完全在单变量共轭先验中发展,而矩阵变量先验(如 Wishart)因其内部元素依赖性与约束结构,从未被赋予可解释的观测等效单位。本文试图弥补这一缺口。

  • 发展脉络(history):ESS 概念起源于 Clarke (1996),他将信息性先验视为从参考先验用假想数据集更新得到的后验。Clarke and Yuan (2006) 给出了闭合形式表达。Morita, Thall, Müller (MTM; 2008, 2010) 提出了基于 Fisher 信息曲率的方法,成为主导计算方法,广泛应用于临床试验设计。Neuenschwander et al. (2020) 系统化了五种预数据 ESS 估计量(VR, PR, MTM, PT, ELIR),并提出了预测一致性准则(predictive consistency),将 ESS 从共轭先验扩展到非共轭场景,但其应用仍停留在单变量设定。并行地,后数据 ESS 方法(Reimherr, Meng, Nicolae (2021), Wiesenfarth and Calderazzo (2019))被开发用于诊断先验-数据冲突,但不适用于样本量规划。本文的位置在于:首次将预数据 ESS 框架正式应用于矩阵变量先验(Wishart & G-Wishart),填补了贝叶斯 GGM 中先验信息量化与样本量规划之间的空白。

  • 子线索聚类:(1) ESS 方法开发:Clarke/Yuan(基础理论)→ MTM(信息曲率法)→ Neuenschwander et al. (2020)(多方法统一与预测一致性)。这条线索几乎只处理单变量或简单多参数设定。(2) 贝叶斯 GGM 推断:Giudici (1995)(Savag-Dickey 密度比)→ Roverato (2000, 2002)(G-Wishart 理论与 Cholesky 分解)→ Atay-Kayis and Massam (2005)(非可分解图的蒙特卡罗边缘似然)。这一簇的进步在于将贝叶斯图模型从可分解图扩展至一般图,但从未涉及先验信息量化。(3) 样本量规划:Schönbrodt and Wagenmakers (2017)(BFDA:基于贝叶斯因子的样本量规划)→ Stefan et al. (2019)(BFDA 教程)。BFDA 依赖先验预测分布,但在 GGM 中,若先验是信息性的,则其自身信息量未知,使得规划失去意义。本文把这三条线索合并。

  • 该方向在追问的核心问题与瓶颈:(1) 如何将 ESS 从单变量推广到结构化的矩阵变量先验?(2) ESS 如何依赖于网络结构(密度、拓扑)与先验参数(ν, Ψ)?(3) 有了 ESS,如何设计样本量规划,使之与图上的边测试(BFDA)或信息主导(DPIR)相结合?(4) 规划策略对先验误设定的稳健性如何?当前主流方法(MTM, PT, ELIR)在 GGM 中退化为仅依赖于ν和p的线性函数(即 ESS = ν - 1 或 ν - p - 1),无法反映Ψ和G的影响,这是一个关键瓶颈——它们对网络结构完全不敏感,因此无法指导网络结构差异巨大时的规划。而 VR 和 PR 虽然敏感,但缺乏闭合形式,需要蒙特卡罗。

  • ⚠️ 作者的 framing:作者将缺口 frame 为“没有一种方法能在观测等效单位中表达 GGM 先验的信息性,因此研究者无法进行有原则的样本量规划”。这使得本文成为“显然的下一步”:将单变量 ESS 文献与贝叶斯 GGM 文献结合。被淡化/回避的竞争路线:(1) 后数据 ESS(Reimherr 2021 等)被明确排除,理由是“不能用于计划”,但其在后验诊断中的价值未被充分讨论。(2) 矩阵-F 或混合先验(Mulder and Pericchi, 2018)被声明“需要不同处理”,未进一步发展。(3) 什么明显存在但未被提及:没有引用关于计算-统计权衡中 Monte Carlo 误差与 ESS 估计精度的理论(如在高维场景下的稳定性)。也没有引用关于图结构学习(而非边测试本身)的样本量规划,例如 Bem 《结构学习的力量分析》。引文集中在贝叶斯方法上,对频率学派并行方法(如 glasso 的样本量规则,或基于 BIC 的规划)完全没有涉及。

  • 张力:未见明显对立引用。Neuenschwander et al. (2020) 的预测一致性准则与本文在 GGM 语境下的扩展自然吻合,不存在矛盾。MTM, PT, ELIR 在 GGM 下退化为简单线性函数,与 VR, PR 的结构敏感性形成对比,但作者将其归为不同方法学选择而非矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号 含义 类型
\(p\) 变量(节点)个数 维数指标 (integer)
\(G=(V,E)\) 无向图,\(V=\{1,\dots,p\}\)\(E\) 为边集 已知/未知结构
\(\Theta = \Sigma^{-1}\) \(p\times p\) 精度矩阵,\(\Theta_{ij}=0\) 当且仅当 \(i\!\perp\!\!\!\perp j \mid V\setminus\{i,j\}\) 要估计的参数
\(\rho_{ij} = -\theta_{ij} / \sqrt{\theta_{ii}\theta_{jj}}\) 偏相关系数 导出的因果量
\(X = (x_1,\dots,x_n)\), \(x_i \overset{iid}{\sim} \mathcal{N}_p(0,\Sigma)\) 样本观测值(已中心化) 可观测数据
\(S = \frac{1}{n} \sum_{k=1}^n x_k x_k^\top\) 样本协方差矩阵 充分统计量
\(n\) 样本量 标量
\(d = p(p+1)/2\) 对称矩阵 \(\Theta\) 的唯一元素个数 维度指标
\(\nu\) Wishart / G-Wishart 自由度,\(\nu > p-1\) 先验超参数
\(\Psi\) 先验尺度矩阵,\(\mathbb{E}[\Theta] = \Psi\) 先验超参数;被苏宁描述
\(\Psi^* = \Psi / \nu\) 为先验幅值设定标准,通常从以往研究的估计得来 超参数
\(\mathbf{D}\) \(p^2 \times d\) 非重复矩阵:\(\mathrm{vec}(\Theta) = \mathbf{D}\,\mathrm{vech}(\Theta)\) 辅助符号
\(\mathbf{D}^+ = (\mathbf{D}^\top\mathbf{D})^{-1}\mathbf{D}^\top\) \(\mathbf{D}\) 的穆尔-彭罗斯伪逆 辅助符号
\(\mathbf{E}\) \(d \times p^2\) 消除矩阵:\(\mathbf{E}\,\mathrm{vec}(\Theta) = \mathrm{vech}(\Theta)\) 辅助符号
\(\mathbf{K}\) 交换矩阵:\(\mathbf{K}\,\mathrm{vec}(\Theta) = \mathrm{vec}(\Theta^\top)\) 辅助符号
\(I(x_1;\Theta)\) 单次观测期望 Fisher 信息,\(=\frac12 \mathbf{D}^\top (\Theta^{-1}\otimes\Theta^{-1})\mathbf{D}\) 约简后 \(d\times d\)
\(I(\Theta)\) 先验的观测 Fisher 信息 同上

模型
数据是高斯分布 \(x_i \overset{iid}{\sim} \mathcal{N}_p(0, \Theta^{-1})\)。先验是 Wishart \(\Theta \sim \mathcal{W}(\nu, \Psi^*)\)(完整图)或 G-Wishart \(\Theta \sim \mathcal{W}_G(\nu, \Psi^*)\)(稀疏图)。超参数从以往研究的样本量为 \(\nu\) 的估计中获得,设定 \(\Psi^* = \Psi / \nu\),于是 \(\mathbb{E}[\Theta] = \Psi\)

可观测 vs. 不可观测: - 可观测\(X, S\)。 - 要估计的对象\(\Theta\) 的所有非零元素及其图形结构 \(G\)。 - 先验信息:出自主观概率的超参数 \((\nu, \Psi)\),它“等同于多少观测值”就是本文的 ESS。

第二步:最小内核——一个特例 (\(p=2\), 完整的 Wishart 先验)

\(p=2\),节点数最少的情况;假设图是完全的(即 Wishart 先验)。那么 \(d = p(p+1)/2 = 3\)\(\Theta\) 的三个唯一元素是 \(\theta_{11}, \theta_{12} (= \theta_{21}), \theta_{22}\)

这个情况下的目标:解释 ESS 究竟是什么,以及 VR 和 PR 是如何计算的。

数据生成\(x_1,\dots,x_n \overset{iid}{\sim} \mathcal{N}_2(0,\Theta^{-1})\)

先验\(\Theta \sim \mathcal{W}_2(\nu, \Psi^*=\Psi/\nu)\)
这里的 \(\Psi\) 是预先给定的正定矩阵,比如 \(\Psi = \begin{pmatrix} 2 & 0.5 \\ 0.5 & 1 \end{pmatrix}\)

ESS 的直观:先驱表明“\(\nu\) = 数据量”,但因为有依赖,\(\Theta\) 的三个元素其实每个得到的“等效观察数”可能不一样。然而在最简情况下,我们需要一个总体的度量。

VR (Variance Ratio)
根据推导 (Appendix D):

\[ESS_{VR} = \nu \cdot \frac{|A + B/\nu|^{1/d}}{|A|^{1/d}}\]
其中 \(A = \mathbf{E}(\mathbf{I}+\mathbf{K})(\Psi\otimes\Psi)\mathbf{E}^\top\)\(B = 2\mathbf{D}^+\big(\mathrm{vec}(\Psi)\mathrm{vec}(\Psi)^\top + \mathbf{K}(\Psi\otimes\Psi)\big)\mathbf{D}^{+\top}\)。对于具体的 \(\Psi\) 和较小的 \(p\),这些可以解析计算。但关键是,当 \(\nu \to \infty\)\(ESS_{VR} \approx \nu\),先验信息等于先验数据量。在有限 \(\nu\) 下,它略大于 \(\nu\)(比如表1的 1.046 倍)。

PR (Precision Ratio)

\[ESS_{PR} = \frac{(\nu-p)(\nu-p-1)(\nu-p-3)}{\nu(\nu-p-2)} \cdot \left( \frac{|B|}{|B + C/(\nu-p-2)|} \right)^{1/d}\]
其中 \(B = \mathbf{D}^\top (\Psi^{-1}\otimes\Psi^{-1})\mathbf{D}\)\(C = \mathbf{D}^\top [\mathrm{vec}(\Psi^{-1})\mathrm{vec}(\Psi^{-1})^\top + \mathbf{K}(\Psi^{-1}\otimes\Psi^{-1})]\mathbf{D}\)。同样,\(\nu \to \infty\)\(ESS_{PR} \to \nu\),但有限下它比 \(\nu\) 小(例如 \(p=2\)\(\nu=100\) 时的 0.987 倍,见表1)。

为什么要区分两者:因为矩阵的逆与期望无法交换(Jensen 不等式),造成 \(ESS_{VR} > \nu > ESS_{PR}\),差异 \(J = 1 - ESS_{PR}/ESS_{VR}\) 就是 Jensen gap。在 \(p=2\)\(\nu\) 足够大时这个 gap 很小,但 \(p\) 大时它显著(比如 \(p=10, \nu=25\) 时 gap 可近乎 0.20 以上)。

所以,本文的核心问题退化为这样一个简单特例
“在 \(p=2\) 的完整图上,Wishart 先验的值等于多少?”这个问题的答案就是式中的 \(ESS\),但它不是简单的 \(\nu\),而是通过行列式比调整后的值。

三、这篇论文做了什么

  • 三句话

    1. 研究了贝叶斯高斯图模型(GGM)下 Wishart 和 G-Wishart 先验的有效样本量(ESS)计算与两种互补的样本量规划策略(DPIR 与 BFDA)。
    2. 采用了行列式比(全局 ESS)和 Cholesky 分解(参数级 ESS)两种聚合方案,将五种预数据 ESS 估计量(VR、PR、MTM、PT、ELIR)适配到精度矩阵。
    3. 主要结论:MTM/PT/ELIR 退化为仅依赖 ν 和 p 的线性函数(ESS = ν-1 或 ν-p-1),不反映网络结构;VR 和 PR 则敏感于 Ψ 与 G,但存在显著的 Jensen gap,且网络密度是主要驱动因素而非图拓扑。并据此提出 DPIR 和 BFDA 两种规划目标,两者差距可相差一至两个数量级。
  • 关键设定与假设

    • 假设 1:变量已中心化,零均值。
    • 假设 2:先验为 Wishart 或 G-Wishart,且超参数从以往的样本量为 ν 的同一研究中按 Ψ^* = Ψ/ν 设定。
    • 假设 3:在 BFDA 中,图 \(G\) 在规划阶段被认为是固定已知的(不将不确定边缘当作随机变量)。在 DPIR 中这并非必需。
    • 假设 4:对于 VR 和 PR 在 G-Wishart 下的计算,采用蒙特卡罗采样,因为含析最一般图的非可分解结构时没有闭合表达式。
    • 相比已有文献:将 ESS 从单参数共轭推广到高维矩阵;另外在 G-Wishart 下处理非常普遍的非可分解图(而非仅限于分解图)。
  • 主要结果

    • Theorem (隐含在推导):在 Wishart 下,VR 和 PR 的先验 ESS 可以精确表达(式 1),并且随着 ν → ∞,ESS_{VR} ∼ ν,ESS_{PR} ∼ ν,从上下趋近。
    • Jensen Gap:形式化为 \(J = 1 - ESS_{PR}/ESS_{VR}\),随 ν 下降、随 p 上升。在 G-Wishart 下,J 非单调依赖于网络密度:首先随密度上升,在中等密度处达到最大值,然后再次下降(图 5)。
    • DPIR vs. BFDA 的规模差异(图 8):BFDA 给出的推荐样本量超出 ESS_{VR} 至少一个数量级(例如 ν=25 时 log10(n⋆/ESS_{VR}) 通常在 2 以上,即 n⋆ 比 ESS 大 100 倍),而 DPIR 仅为 1.1~2.5 倍。这是因为 BFDA 用严格的 Bayes 因子阈值(γ=10)作为证据标准,而 DPIR 只要信息主导即可。
    • 敏感性分析(图 9、10):先验误设定会方向性地改变规划样本量——低估边强度导致保守(过规划),高估边强度导致激进(欠规划)。DPIR 对误设定的敏感性比 BFDA 低。
  • 证明路线与技术技巧(理论型必写,要具体)

    • 整体路线
      1. 推导出精度矩阵在 Wishart 和 G-Wishart 先验下的一阶和二阶矩及 Fisher 信息(Appendix A, B, D)。
      2. 在每个先验下,计算 5 种 ESS 估计量的表达式(VR, PR 须用代入 Ψ^*=Ψ/ν 的解析公式(Appendix D);MTM, PT, ELIR 直接得出线性关系)。
      3. 定义行列式比聚合为全局 ESS,Cholesky 分解得到参数级 ESS。
      4. 定义 DPIR 的关键量:\(\Lambda_n(\Theta, X) = \left( \frac{|\mathbf{I}(X; \hat\Theta(X))|}{|\mathbf{I}(\Theta)|} \right)^{1/d}\)。先验预测分布下的频率 Pr(Λ_n > ξ) 按照 Algorithm 1(双循环:先验采样 × 数据模拟)计算;样本量 n* 通过二分搜索满足 Pr(Λ_n > ξ) ≥ τ (默认 ξ=1, τ=0.99)。
      5. 定义 BFDA 规划:针对缺失的一对边 (i,j),以最小可检测偏相关系数 ρ_min 作为规划边缘,利用 Savage-Dickey 密度比(完全图,式 3)或 Monte Carlo 估计的 G-Wishart 边缘似然(非完全图,式 4,Appendix K)产生效应曲线(图 2);通过二分搜索找到使两项错误率(β_0, β_1)达到 0.8 的 n*。
    • 关键跳跃点:从单变量 ESS 到矩阵变量的推广,关键在于正确使用 D 矩阵(半向量化)来处理 Fisher 信息和方差的维度缩减(Appendix C)。对于非分解图,边际似然的 Monte Carlo 估计(Atay-Kayis & Massam, 2005)是另一处硬功夫,因为后验和先验的正常化常数不再是闭合的。
    • 技术技巧点名
      • D 矩阵/ D^+ / E / K:用于处理对称矩阵的 Kronecker 积的维度缩减(Appendix C)。
      • Jensen 不等式:用于论证 ESS_PR ≤ ESS_VR(Appendix E)。
      • Savage-Dickey density ratio:在完全图下得到闭合的贝叶斯因子(式 3,引用 Giudici 1995)。
      • Atay-Kayis-Massam Monte Carlo:在非可分解图下估计 G-Wishart 边缘似然(Appendix K)。
      • Fisher z-变换:用于 BFDA 的二分搜索初始值。
      • Cholesky 分解:用于参数级 ESS(将全局的行列式比率分解为对角元的比值乘积)。
  • 真实例子与应用:有。本文在章节 4 的“toy example”中应用了一个 \(p=10\),包含 30 条边的稀疏图(密度 0.67),自由度为 \(\nu=100\)。该例子系统地展示了 DPIR(图 1)和 BFDA(图 2、3)的输出:全局 DPIR 最优样本大小 n_global = 128,参数级最坏边缘为 159;BFDA 规划边缘 (2,6) 的偏相关系数为 0.21,分别给出 n_H0 = 338,n_H1 = 183,最终推荐 n = 338。本文是一个纯模拟驱动的论文,没有真实实验数据;整个“真实例子”是通过 Algorithm 3 生成的模拟先验矩阵。

  • 🔎 结论是否比证明窄

    • 是,有:作者在第 6 节承认“将网络结构 G 视为固定已知”,但在 BFDA 规划中实际上如此,且在图 6关于密度-依赖分析也在同一设定下进行。然而,推导出的 MTM, PT, ELIR 的线性表达式(Section 3.2)在一般非可分解图下同样是精确的(因为它们绕过了 G),这比“仅在已知 G 下”适用要更广。但 VR 和 PR 对 G 的依赖性(图 5)仅来自 Monte Carlo 模拟,并非解析结果,因此不能将这种行为模式作为定理规定。作者在结论部明确说“需要 Monte Carlo”,等于将 G 效应视为随机但不解析。
    • 另一处窄结论:BFDA 中的“单调性”声明(式 6)被标记为“在频率表中精确,在贝叶斯表中仅近似”,作者在正文也承认。它们没有被证明为定理,而是通过 empirical 展示来支持的。
    • 没有虚假的可推广声明;每处都贴上了假设。

四、开放问题

  1. 结构不确定性下的规划:作者将 G 视为固定已知,但一个研究者可能对 G 不完全确定。如何规划样本量以同时应对边存在与边不存在的双重不确定性?扎根点:第 6 节明确说了“Sample size planning that accounts for uncertainty in the structure itself is left open。”
  2. 多重比较控制:在 BFDA 中,γ=10 的阈值被直接用于每一条边的证据评估,但没有对 p(p-1)/2 次同时测试进行多重校正。制定多大 γ 才能控制 FWER 或 FDR?扎根点:第 6 节说“we did not formally control the error rate across the many edges tested simultaneously。”
  3. Monte Carlo 计算成本的非可扩展性:仿真图在 p=40 时用于成本调节。对于大的 p(如 p=100+),目前的方法在 Monte Carlo 内各次更新 MCMC(Lenkoski 2013 采样器)下计算时间可能不可行。如何利用图的可分解性或谱分解(如作者最后提到的“clique–separator factorization”)来降低采样成本?扎根点:Section 6 “computational efficiency could be improved by exploiting graph decomposability”。
  4. 混合先验:本文明确排除了矩阵-F 类型的混合先验 (Mulder and Pericchi, 2018)。该先验结构如何获得自己的 ESS?这可能与你在高阶U-统计量/张量网络中的协方差分解工作有关。扎根点:Section 2.2 结尾:“We leave the generalization to mixture priors for future work。”

Maintained by 陈星宇 · Homepage · Source on GitHub

评论