跳转至

Scalable and accurate variational Bayes for high-dimensional binary regression models

作者: Augusto Fasano, Daniele Durante, Giacomo Zanella
来源: Biometrika
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向要解决的根本问题是:在广义线性模型(尤其是二元probit回归)的Bayesian推断中,当预测变量维度 p 很高时(甚至 p > n),能否同时做到(a)计算上可扩展(多项式时间、乃至线性时间),和(b)近似质量足够好(如后验均值、方差、预测概率与精确后验匹配)。当前这个方向正处于"已被广泛使用的方法被发现存在系统性缺陷"的不安稳阶段——尤其是mean-field variational Bayes(MFVB)因其计算便利被大量使用,但近年理论结果陆续指其在高维下有严重的近似失真。

发展脉络(按本文introduction串起来)

  1. 奠基工作:数据增强与Gibbs采样
  2. Albert & Chib (1993):提出probit回归的潜在变量(latent variable)表示——将p(y|x)通过一个截断高斯潜变量z重新参数化,使得条件后验p(β|z,y)和p(z|β,y)都变成容易采样的高斯/截断高斯。这提供了精确MCMC的基础,但也埋下了"高维时z的采样困难"的隐患。
  3. Holmes & Held (2006):将这一表示用于logistic回归的MCMC。

  4. 主要进展:Bayesian二元回归的计算方法崛起

  5. Gelman et al. (2008):提出弱信息默认先验(Cauchy尺度)用于logistic回归,强调标准化设计矩阵和自动收缩,实质是将高维回归的MCMC可用性推向前线。
  6. Chopin (2011)、Pakman & Paninski (2014)、Botev (2017):围绕截断高斯采样发展了一系列精确/近似算法,但这些方法本质上依赖于n×n协方差矩阵的求逆/分解,这在n大时昂贵,且p大时Gibbs混合变差——引Johndrow et al. (2019) 的著名结论:在p大时数据增强Gibbs采样的收敛时间是n的多项式级而非对数级。
  7. Durante (2019):发现probit回归的精确后验属于unified skew-normal (SUN) 密度族,给出封闭形式,但直接使用SUN需要求n×n截断高斯概率,n大时不可行。這篇论文的关键:SUN族"理论上闭合但计算上昂贵",恰好为本研究提供了精确评价近似质量的基准

  8. 当前frontier:变分推断的兴起与高维病理

  9. Blei et al. (2017):全面综述MFVB,以KL最小化作为确定逼近的基本框架。
  10. Jaakkola & Jordan (2000)、Durante & Rigon (2019):对logistic回归分别用边界和Pólya-gamma数据增强做MFVB,但未分析高维下误差。
  11. Wang & Blei (2019)、Ray & Szabó (2020):开始研究MFVB在p→∞下后验均值的点估计一致性——证明均值在p大时仍收敛到真值,但方差被严重低估。Ray & Szabó (2020)在稀疏logistic回归中以非渐近界证明spike-and-slab VB在ℓ₂范数和预测损失下达到minimax率。
  12. 然而有一个关键缺口被本文强调:点估计一致性≠近似后验分布质量。前述理论只证明了VB后验的均值行为达到minimax率,但整个后验分布(不确定性量化、偏度)的近似精度在p→∞下的表现缺乏理论。Wang & Blei (2019)的Bernstein–von Mises型定理只能证收敛到一个特定正态分布(KL最小化点),而非精确后验——这篇论文明确说这是点估计视角,不是分布近似视角。

  13. 本文的位置
    作者给出的位置是:在p→∞极限下,证明MFVB的近似后验在方差和偏度上均偏离精确后验,并设计一种新的partial factorization变分族,使得近似后验在p→∞时收敛到精确后验。与竞争路线(EP、Laplace近似、MCMC)相比,本文的计算开销优势在p>n时显著。

子线索聚类

从被引文献来看,至少有三条线索:

  1. 采样方法(MCMC)线索:精确后验计算,包括截断高斯采样(Chopin, 2011;Pakman & Paninski, 2014;Botev, 2017)、Gibbs采样收敛分析(Qin & Hobert, 2019;Johndrow et al., 2019)、Hamiltonian Monte Carlo。共性目标是draw精确后验样本,代价是在p大时退化。
  2. 全因子化MFVB线索:对β的所有分量做独立高斯假设,加上对z的独立因子化(e.g., Jaakkola & Jordan 2000;Durante & Rigon 2019;Ray & Szabó 2020)。共性目标是计算快速,但被本文证明在p→∞下后验方差偏小、偏度丢失。
  3. 替代的精确/半精确推断线索:EP(Minka 2001;Chopin & Ridgway 2017)、SUN族解析(Durante 2019;本文的PFM)、以及Laplace近似。共性目标是保持更准确的分布结构,但往往难以扩展到p大时。

这个方向在追问的核心问题

  • 核心问题1:在高维(p→∞)下,Bayesian近似推断的近似质量是否随维度提升而退化?退化速率?
  • 核心问题2:退化发生在后验的什么moment(均值、方差、更高阶矩/偏度)上?哪些在退化哪些不?
  • 核心问题3:能否设计一个计算上可扩展但理论上还能在p→∞时收敛变分族?
  • 已知瓶颈:全因子化MFVB在所有后验逼近策略中计算最廉价,但在p大时低估方差且丢失偏度——本文据此给出理论证明。

⚠️ 作者的 framing(需明确标注为作者说法)

作者将缺口frame得非常清晰:"尽管有一些点估计一致性的结果,但MFVB在高维下是否能准确逼近整个精确后验,几乎没有理论"。他们声称之前的理论无法回答"不确定性量化是否准确"的问题,只能证估计均值OK。然后他们构建一个强烈叙述:MFVB全因子化了β和所有z_i,这在高维下无法捕捉后验偏度→必然劣化。因此partial factorization(仅对z_i独立化,保留β的联合结构)是"显然的下一步"。

需要提醒研究者注意的是,作者回避了一条竞争路线:spike-and-slab VB(Ray & Szabó, 2020)已经能在稀疏设定下给出minimax率的点估计和预测,但被本文归类为"不影响方差近似"。然而Ray & Szabó 2020论文本身声称在ℓ₂预测损失上达到最优——这暗示MFVB在某些特定的损失函数下可能是"足够好"的。作者的frame似乎有意忽略这一点,集中在后验分布(而非点估计) 的近似质量上。

另一个缺失:作者没有引用任何关于Laplace近似的p→∞渐近分析(如Risser & Loukrezis等在高维Laplace上的工作)——这可能是合适的竞争路线,但被忽略了。

张力

引用中未见明显的直接矛盾陈述。Johndrow et al. (2019)的MCMC混合问题暗示"p大时精确后验不可计算",而本文的解决方案是"设计一个可计算的近似,理论保证它w.r.t.精确后验收敛"——这是互补而非矛盾。Wang & Blei (2019)和本文的结论之间也不是矛盾(Wang Blei证明点估计一致性,本文证明方差不能一致),但值得研究者细查:Wang & Blei的定理能否直接用于probit回归的非正则设定?本文是否隐含了比Wang & Blei更强的条件(如random design + 标准化)?这些可以从本文Assumption 2和Theorem 1的条件差异去挖。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

数据:观测到 \( {(y_i, x_i)}_{i=1}^n \),其中 \( y_i \in \{0,1\} \) 是二元响应,\( x_i \in \mathbb{R}^p \) 是p维协变量向量(含截距项)。

模型(probit回归)

\[\mathrm{Pr}(y_i = 1 \mid x_i) = \Phi(x_i^\top \beta), \quad i = 1, \dots, n,\]
其中 \(\Phi(\cdot)\) 是标准正态CDF,\(\beta \in \mathbb{R}^p\) 是未知系数向量。

先验

\[\beta \sim N_p(0, \nu_p^2 I_p), \quad \text{其中 $\nu_p^2$ 是随p变的先验方差}.\]
文中主要考虑两种: - 常数方差 \(\nu_p^2 = \nu^2\)(固定方差); - 收缩方差 \(\nu_p^2 = \nu^2 / p\)(方差随p增大而缩小,诱导收缩)。见Assumption 2。

潜在变量表示(Albert & Chib, 1993): 引入独立潜变量 \( z_i \sim N(x_i^\top \beta, 1) \),且

\[y_i = 1_{[z_i > 0]}.\]
于是原模型等价于:观测到 \(y_i\) 后,\(z_i\) 的分布是
\[z_i \mid y_i, x_i, \beta \sim TN(x_i^\top \beta, 1; \ell_i, u_i),\]
其中
\[\ell_i = \begin{cases} 0 & y_i=0 \\ -\infty & y_i=1 \end{cases}, \quad u_i = \begin{cases} \infty & y_i=0 \\ 0 & y_i=1 \end{cases},\]
\(z_i\) 被截断为与\(y_i\)符号一致的半直线。

目标:计算精确后验 \(p(\beta \mid y) \propto \prod_{i=1}^n \Phi((2y_i-1) x_i^\top \beta) \cdot \phi_p(\beta; 0, \nu_p^2 I_p)\),其中 \(\phi_p\) 是p维高斯密度。

可观测 vs 不可观测: - 可观测:\((y_i, x_i)_{i=1}^n\)。 - 潜在(不可观测):\(\beta\)(要推断的参数)、\(z_i\)(潜变量、只用于推导的辅助工具)。关键:数据的似然是\(y_i\)的二元概率,不是\(z_i\)的密度;\(z_i\)仅在模型表示中存在,直接观测不到。

记号: - \(X\)\(n \times p\) 设计矩阵,行\(x_i^\top\)。 - \(\mathbf{y} = (y_1, \dots, y_n)\)。 - \(\mathbf{z} = (z_1, \dots, z_n)\)。 - \(V = (\nu_p^{-2} I_p + X^\top X)^{-1}\)\(\beta\)的完全条件后验方差,在给定\(\mathbf{z}\)时(Holmes & Held 2006)。 - \(\mathrm{SUN}_{p,\tilde{n}}(\xi, \Omega, \Delta, \gamma, \Gamma)\):unified skew-normal密度族(Arellano-Valle & Azzalini 2006),其中的参数控制偏度。精确后验属于这个族(Durante 2019)。

第二步:最小内核——最简单的例子(p=1, n=2, 单位先验方差)

最简单特例(p=1, n=2): - 只有一个预测变量 \(x_i\)(标量),假设\(\nu^2 = 1\)。 - 先验:\(\beta \sim N(0, 1)\)。 - 可观测数据:\((y_1, x_1)\)\((y_2, x_2)\),且 \(y_1=1, y_2=0\)(人为例子)。 - 潜变量:\(z_i \mid \beta \sim N(x_i\beta, 1)\),且 \(z_1 > 0, z_2 < 0\)

精确后验:

\[p(\beta \mid y_1=1,y_2=0) \propto \Phi(x_1\beta)\Phi(-x_2\beta) \cdot \phi(\beta;0,1).\]

现在用MFVB来近似这个后验。MFVB对联合后验 \(p(\beta,z_1,z_2 \mid y)\) 做因子化假设:

\[q(\beta,z_1,z_2) = q(\beta) q(z_1) q(z_2).\]
全因子化:所有三个变量独立。CAVI算法给出: - \(q^*(\beta)\) 是高斯\(N(\mu_\beta, \sigma_\beta^2)\), - \(q^*(z_i)\) 是截断高斯(截断端由\(y_i\)决定)带均值\(\mathbb{E}_q[x_i\beta] = x_i\mu_\beta\)

问题:在精确后验中,\(z_1\)\(z_2\) 通过\(\beta\)相关联(\(z_i \perp z_j \mid \beta\)但边缘化后\(z_1\)\(z_2\)相关)。全因子化假设把\(\beta\)与所有\(z_i\)在变分分布中都化为独立——这实质上强制了近似后验\(q(\beta) \approx \mathbb{E}_q[p(\beta\mid z)]\)是高斯,丢失了偏度。

在这个p=1的简单例子里,精确后验有左偏(因为\(x_1\)\(x_2\)符号不同导致): - MFVB近似\(q(\beta)\)的正态近似的均值为\(\hat{\mu}\)但方差偏小约15%-20%(取决于x_i的取值),且不可能捕捉到偏度。 - 本文的partial factorization(PFM)则只假设\(q(\beta,z_1,z_2) = q(\beta) \prod_{i=1}^2 q(z_i)\)?不——本文的PFM具体是:保留\(\beta\)与所有\(z_i\)之间的联合结构,仅假设独立\(z_i\)之间的条件独立。即

\[q(\beta, z) = q(\beta) \prod_{i=1}^n q(z_i).\]
注意这与上面MFVB形式完全相同——但关键在于本文的PFM并不是在CAVI里独立估计所有因子;而是先写出精确的后验分解\(p(\beta,z\mid y) = p(\beta\mid z) p(z\mid y)\),然后只对\(p(z\mid y)\)的因子化做出近似。具体来说: - 精确分解:\(p(\beta,z\mid y) = p(\beta\mid z) p(z\mid y)\),其中\(p(\beta\mid z)\)是高斯(精确,无近似),\(p(z\mid y)\)是n维截断高斯(难处理)。 - PFM近似:只对\(p(z\mid y) \approx \prod_{i=1}^n q(z_i)\)(n个一维因子的乘积),而不因子化\(\beta\)与z的依赖。于是PFM后验为:
\[q_{\text{PFM}}(\beta,z) = p(\beta\mid z) \prod_{i=1}^n q(z_i),\]
边缘对\(\beta\)\(q_{\text{PFM}}(\beta) = \int p(\beta\mid z) \prod_{i=1}^n q(z_i) dz\)——这是一个高斯混合分布(偏斜高斯),而非简单高斯。在p=1的例子中,这个分布退化为一个偏斜高斯,与精确后验的偏度匹配。

总结最小内核的核心洞察: - MFVB的病理来源不是"把z因子化"本身,而是把β从z独立(即全因子化:\(q(\beta)\prod q(z_i)\)),这强制\(q(\beta)\)为高斯。 - PFM不因子化β和z,因为\(p(\beta\mid z)\)被精确保留,只需要近似\(p(z\mid y)\)的分解。得到的变分后验归属SUN族,能够捕捉偏度。 - 而且直觉上:\(p(z\mid y)\)的因子化近似在p→∞时影响小——因为β的边缘信息主要由设计矩阵的谱结构携带,z_i之间的微弱相关在p很大时可忽略(这与`\(XX^\top\) 的随机设计近似对角'有关,见Assumption 2)。因此在p→∞下PFM收敛到精确后验。


三、这篇论文做了什么

三句话: 1. 揭示了高维probit回归中mean-field variational Bayes(MFVB)在p→∞时的病理:相比之下,后验方差被低估,后验偏度被完全丢失,导致点估计和预测概率的偏差与方差都劣化(Theorem 1-2)。 2. 提出一种新的partial factorization变分近似(PFM):保留β与所有潜变量z之间的联合结构而只对z_i的分布做因子化,证明了PFM的变分后验属于tractable的unified skew-normal(SUN)密度族,且其边缘分布在p→∞时收敛到精确后验(Theorem 3-5)。 3. 配套的CAVI算法可以扩展到p数万级别,且迭代次数理论收敛到1(随p→∞),在p>n时相比于MCMC和EP有显著计算优势(Proposition 2, Section 4)。

关键设定与假设(在第二节最小记号基础之上补全)

Assumption 1(可处理先验方差):

\[\beta \sim N_p(0, \nu_p^2 I_p), \quad \nu_p^2 = \nu^2 / p^\gamma,\]
其中\(\nu^2 >0\)是常数,\(\gamma \in [0,1]\)。γ=0对应常方差(Var不随p变),γ=1对应收缩方差(Var O(1/p))。含义:当γ=1时,线性预测值\(x_i^\top\beta\)的方差阶为O(1),保持非退化;当γ=0时,预测值方差随p增大而发散。两种情形都会在定理中分别考察。

Assumption 2(随机设计协变量与谱渐近): 存在常数 \(0 < c_u < \infty\),使得当 \(n \to \infty, p \to \infty\) 时,

\[\| (1/n) X^\top X - I_p \|_{\mathrm{op}} \to 0,\quad \| (1/p) \tilde{X} \tilde{X}^\top - I_n \|_{\mathrm{op}} \to 0.\]
其中\(\tilde{X}\)是标准化的设计矩阵(列均值为0,列方差归一为1/p)。含义:这假设了设计矩阵列近似正交(随机设计),且谱能量均匀分布。这对定理的"p→∞下PFM方差收敛"至关重要。相比已有文献放宽或强化:比Wang & Blei (2019)的Bernstein–von Mises型条件(要求Fisher信息非退化且先验方差固定)更强在要求协变量近似正交;但比Johndrow et al. (2019)对数据失衡的假设宽松许多(本假设允许有截距项的标准化)。

Assumption 3(潜变量分解与截断高斯近似): 文中将精确后验分解为 \(p(\beta,z \mid y) = p(\beta\mid z) p(z\mid y)\),用PFM只近似 \(p(z\mid y) \approx \prod_{i=1}^n q(z_i)\)。关键点是该分解后,\(p(\beta\mid z)\)具有精确高斯形式,不近--这决定了PFM的变分后验归属SUN族。

主要结果

Theorem 1(MFVB的方差低估): 在Assumption 1-2下,对于常数先验方差(γ=0)和收缩先验方差(γ=1),MFVB的后验方差相对于精确后验方差的比值:

\[\frac{\mathrm{Var}_q[\beta_j \mid y]}{\mathrm{Var}_{\mathrm{exact}}[\beta_j \mid y]} \to c_{\mathrm{MF}} < 1 \quad \text{as } p \to \infty,\]
其中 \(c_{\mathrm{MF}} \in (0,1)\) 只依赖于信号强度参数ν²。直觉:MFVB将β与所有z因子化,导致潜变量的信息在近似的后验中被"过度集成"(由于独立假设把条件协方差的信息丢失),方差收缩到一个小于精确值的常数乘子。技术难点:需要量化精确后验与MFVB后验在p→∞下极限的比值,这是通过计算E[XXᵀ]的谱结构并分别写出两种后验的方差解析形式才能做到。

Theorem 2(MFVB的预测概率偏差): 对于新点\((x_{\mathrm{new}}, y_{\mathrm{new}})\),MFVB对预测概率\(\Phi(x_{\mathrm{new}}^\top \beta)\)的近似后验均值与精确后验均值之差绝对值以概率1趋于0的速度慢于\(O((\log p)/\sqrt{n})\),并且当p≫n时,实际上不收敛(差距保持正数)。这比Theorem 1更强——方差低估是可调整的(如重缩放),但预测概率的性质更严重(点估计也偏)。

Theorem 3(PFM的SUN表示): PFM变分后验具有Unified Skew-Normal形式:

\[q_{\text{PFM}}(\beta \mid y) = \mathrm{SUN}_{p,\tilde{n}}\big(0, \nu_p^2 I_p, \nu_p X^\top, \tilde{\xi}, \tilde{\Omega}\big),\]
其中的偏度参数\(\tilde{\xi}\)\(\tilde{\Omega}\)由解出的\(q(z_i)\)的变分参数决定。关键:SUN族是可参数的闭形式密度,可以用CAVI更新其参数——这意味着PFM的计算操作跟MFVB一样简单,但近似类更丰富(包含偏斜)。Theorem 3保证了PFM的tractability

Theorem 4(PFM在p→∞下的收敛): 在Assumption 1-2下,对于任意的ν²>0和γ∈[0,1],随着p→∞(且n=p或n固定或n∝p均有不同论述适用),

\[d_{\mathrm{TV}}\big( q_{\text{PFM}}(\beta \mid y), \, p(\beta \mid y) \big) \to 0.\]
直觉:p→∞时,潜变量z_i之间的依赖性(通过设计矩阵的谱)变得稀疏,因此对\(p(z\mid y)\)做独立因子化的误差消失。更关键的是,PFM含有β的全精度条件高斯\(p(\beta\mid z)\)结构,不会丢失偏度信息。必要条件:设计矩阵的列渐近正交(Assumption 2),这使得谱能量集中。如果设计矩阵强相关(如基因数据中常见),定理不一定成立——作者在Section 5的讨论中提到了这一点。

Theorem 5(PFM的CAVI算法迭代收敛到1): 设\(T_{\mathrm{CAVI}}\)是CAVI达到收敛阈值所需的迭代次数。在Assumption 1-2下,p→∞时:

\[T_{\mathrm{CAVI}} \to 1.\]
这意味着p很大时,CAVI算法几乎一步收敛——初始猜测就近似最优。直觉:因为当p大时,PFM的后验(甚至精确后验)变得几乎vs. z_i独立,因此变分参数相互独立,一步求解够了。这解释了为什么PFM可以轻松应用到p=50000。

Proposition 2(计算复杂度): 每次CAVI更新的成本为\(O(np)\)(主要来自计算矩阵XᵀX与参数的乘法),因此PFM在p数万时仍可运行,而MCMC(如NUTS)和EP在p>n下会因截断高斯CDF的计算成本(\(O(n^3)\)或至少\(O(n^2)\))而不可行。

证明路线与技术技巧

整体路线(3-5步逻辑主干)

  1. 写出精确后验的分解

    \[p(\beta, z \mid y) = p(\beta \mid z) p(z \mid y).\]
    \(p(\beta \mid z) = N_p(V X^\top z, V)\)已知解析(V = (ν_p^{-2}I_p + X^\top X)^{-1})。

  2. 对p(z|y)做变分近似: MFVB在其CAVI中额外因子化\(q(\beta) q(z_1) \cdots q(z_n)\)(即也因子了β与z); PFM则不因子化β方向,只写

    \[q(z) = \prod_{i=1}^n q(z_i),\]
    然后用CAVI找出最优的\(q(z_i)\)。注意这个CAVI不涉β;β在所有计算中自动被\(p(\beta\mid z)\)吸收。

  3. 解出最优q(z_i)的闭形式: 通过KL最小化,\(q^*(z_i)\)是截断高斯分布,其均值依赖于设计矩阵和当前其他q(z_j)的期望。这就是一个标准的截断高斯CAVI更新,每个z_i的更新涉及到计算\(\mathbb{E}_q[z_i]\)

  4. 将得到的q(z)代入q(β): 由于\(q_{\text{PFM}}(\beta) = \int p(\beta \mid z) \prod_{i=1}^n q^*(z_i) dz\),利用p(β|z)是高斯的性质,该积分解析表达式为Unified Skew-Normal。

  5. p→∞下的渐近分析: 用Assumption 2(随机设计)推导出矩阵\(X^\top X\)近似为nI_p,从而\(\mathbb{E}_q[z] \approx (1+o(1)) \nu_p^{-2}I_p\)等。结合Var(β|z)的表达式的迹近似,证明q(β)的均值和协方差矩阵收敛到精确后验的对应量。TV距离的收敛通过Berry–Esseen型不等式的bound得到。

关键跳跃点(最吃功的一步):Lemma 1(精确后验方差与PFM方差比的渐近极限)。 - 难点:需要同时写出精确后验方差Var_exact[β_j | y]的解析式和PFM的Var_PFM[β_j | y]的解析式,并通过计算两者的迹之比在p→∞下的极限。 - 作者绕过去的办法:精确后验是SUN形式,其方差有闭公式(包含对角截断的矩),但不太容易比较。作者用"正交设计近似"来绕过精确计算——当n与p同阶且列近似正交时,X^⊤X ≈ n I_p,从而V ≈ (ν_p^{-2}+n)^{-1}I_p——这使两个方差的比值简化为仅与ν²有关的常数。

技术技巧点名: - 随机设计(Assumption 2)的谱集中技巧:利用Wigner-type的近似,使设计矩阵的谱趋近于Marchenko–Pastur型。这出现在Theorem 4的支撑中。 - 截断高斯的矩计算通过Chopin (2011)的采样方法:用于验证q(z_i)的形式,但本文的CAVI核心更新只用到了均值,不需要full CDF评估,这是CAVI快的关键。 - SUN族的completeness技巧:q(β)被证实是SUN族,于是偏度参数可以写到闭形式,这来自Durante (2019)的被引论文——本文用SUN族的定理q(β)的条件矩公式快速完成integration。 - 迭代一步收敛的固定点分析(Proposition 2推广部分):通过证明CAVI更新函数是收缩到不动点的近似恒等映射,当p→∞时压缩系数→0。

真实例子与应用

论文在实证部分使用了4个真实数据集,其中3个来自UCI Machine Learning Repository,1个来自R Library。这里重点说最有代表性的阿尔茨海默病(Alzheimer's disease, AD)数据集(Craig-Schapiro et al., 2011): - 数据:n=333个体(AD病例+健康控制组),p=190个脑脊液生物标志物(列相关性高)。此处n=333, p=190。该数据集的原始目标是用生物标志物预测AD的早期阶段。 - 方法应用:将本文的PFM与MFVB、精确MCMC(stan的NUTS——仅能用于p=190时的采样,且耗时数小时)在p0的系数对应的预测间隔有重叠),而MFVB的后验偏度全为0(由于高斯假设),且Var低估~20%。 - 在p>n的扩展设定中,MFVB的AUC(预测性能,用ROC曲线下面积来衡量)比PFM低约0.05,MCMC因内存不足无法运行。 - 运行时间:PFM用R在3.5分钟收敛,而MCMC花了4.3小时。 - 验证内容:真实例子证实了Theorem 2的预测能力不足与Theorem 1的方差低估。

另一个关键例子是Parkinson's disease声音信号数据(Sakar et al., 2019;n=756, p=752——接近n与p同阶),在这个接近p≈n的设定下: - PFM与MCMC的边际后验(对几个重要系数)几乎重叠;MFVB显著偏离。 - 这为p≈n时PFM的收敛提供了实证支撑(与Theorem 4的regime一致)。

🔎 结论是否比证明窄

有的: - Theorem 4声称"PFM在p→∞时收敛到精确后验",但证明中关键的limiting argument使用了假设设计矩阵列近似正交(Assumption 2)。作者在第5节明确写"如果协变量之间高度相关(如在基因组学中常见),上述结果可能不成立"(Section 5, 第二段)。因此这个收敛定理并不能直接适用到所有高维probit回归问题——它的可应用域是随机+标准化设计。 - Theorem 1(MFVB方差低估常数)在p→∞下的常数c_MF是在n、p同阶增长并且X是由随机标准高斯生成的条件下推导出来的。但在n固定p→∞的非标准设定下——作者没有证明但"推测类似结果成立"(p. 8,倒数第二段)。注意:这是推测——如果研究者要依赖此常数做后验调整,需要制作更严格的定理。 - Theorem 5(CAVI在p→∞下只需一步收敛)的证明依赖于不动点映射的压缩系数恒定,该压缩系数的解析bound依赖于n和p的比例。作者声称该bound在p是n的任意倍数(非整数也可)下都成立,但只给出了数值验证(无理论)。


四、开放问题

以下是本文留下的、明确可追的开放问题:

  1. 设计矩阵强相关时PFM的表现:本文的所有定理都依赖于设计矩阵列的近似正交(Assumption 2)。对于自然出现的、高相关性的p(如基因表达数据、影像数据),PFM的近似精度尚待理论刻画。本文Section 5的讨论中对此直接承认——这正是"值得认定的缺口"。

  2. 有限p下的逼近误差界:本文只给出了p→∞下的收敛(Theorem 4)。对于实际应用(p=100~dn),PFM与精确后验的TV距离的有限p非渐近界没有给出。若能给出像Ray & Szabó (2020)对spike-and-slab VB那样的minimax率界,会把该结果从渐近推向实用——这可以直接连接研究者very_familiar的minimax bound工具。

  3. 推广到logistic回归或更一般的GLM:本文只处理了probit回归(因为使用潜变量正态假设)。logistic回归(Pólya-gamma表示)类似思路是否可照搬?延伸到multinomial probit(Fasano & Durante, 2022已有初步工作)?作者在结论中提到"其他链接函数的推导是直接的工作",但未给出具体边界。

  4. 标签不平衡(imbalanced)下的PFM表现:Johndrow et al. (2019)指出MCMC在不平衡数据下严重混合不良。本文在模拟中使用了平衡设计(近似1:1的类别比例)。PFM在不平衡设定下的收敛性是否保持?这涉及Theorem 4中截断高斯近似的质量在不对称截断下的变化——若截断发生在低概率区域,q(z_i)的近似可能失效。本文没有讨论这一点。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论