Scalable and accurate variational Bayes for high-dimensional binary regression models¶
作者: Augusto Fasano, Daniele Durante, Giacomo Zanella
来源: Biometrika
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向要解决的根本问题是:在广义线性模型(尤其是二元probit回归)的Bayesian推断中,当预测变量维度 p 很高时(甚至 p > n),能否同时做到(a)计算上可扩展(多项式时间、乃至线性时间),和(b)近似质量足够好(如后验均值、方差、预测概率与精确后验匹配)。当前这个方向正处于"已被广泛使用的方法被发现存在系统性缺陷"的不安稳阶段——尤其是mean-field variational Bayes(MFVB)因其计算便利被大量使用,但近年理论结果陆续指其在高维下有严重的近似失真。
发展脉络(按本文introduction串起来)¶
- 奠基工作:数据增强与Gibbs采样
- Albert & Chib (1993):提出probit回归的潜在变量(latent variable)表示——将p(y|x)通过一个截断高斯潜变量z重新参数化,使得条件后验p(β|z,y)和p(z|β,y)都变成容易采样的高斯/截断高斯。这提供了精确MCMC的基础,但也埋下了"高维时z的采样困难"的隐患。
-
Holmes & Held (2006):将这一表示用于logistic回归的MCMC。
-
主要进展:Bayesian二元回归的计算方法崛起
- Gelman et al. (2008):提出弱信息默认先验(Cauchy尺度)用于logistic回归,强调标准化设计矩阵和自动收缩,实质是将高维回归的MCMC可用性推向前线。
- Chopin (2011)、Pakman & Paninski (2014)、Botev (2017):围绕截断高斯采样发展了一系列精确/近似算法,但这些方法本质上依赖于n×n协方差矩阵的求逆/分解,这在n大时昂贵,且p大时Gibbs混合变差——引Johndrow et al. (2019) 的著名结论:在p大时数据增强Gibbs采样的收敛时间是n的多项式级而非对数级。
-
Durante (2019):发现probit回归的精确后验属于unified skew-normal (SUN) 密度族,给出封闭形式,但直接使用SUN需要求n×n截断高斯概率,n大时不可行。這篇论文的关键:SUN族"理论上闭合但计算上昂贵",恰好为本研究提供了精确评价近似质量的基准。
-
当前frontier:变分推断的兴起与高维病理
- Blei et al. (2017):全面综述MFVB,以KL最小化作为确定逼近的基本框架。
- Jaakkola & Jordan (2000)、Durante & Rigon (2019):对logistic回归分别用边界和Pólya-gamma数据增强做MFVB,但未分析高维下误差。
- Wang & Blei (2019)、Ray & Szabó (2020):开始研究MFVB在p→∞下后验均值的点估计一致性——证明均值在p大时仍收敛到真值,但方差被严重低估。Ray & Szabó (2020)在稀疏logistic回归中以非渐近界证明spike-and-slab VB在ℓ₂范数和预测损失下达到minimax率。
-
然而有一个关键缺口被本文强调:点估计一致性≠近似后验分布质量。前述理论只证明了VB后验的均值行为达到minimax率,但整个后验分布(不确定性量化、偏度)的近似精度在p→∞下的表现缺乏理论。Wang & Blei (2019)的Bernstein–von Mises型定理只能证收敛到一个特定正态分布(KL最小化点),而非精确后验——这篇论文明确说这是点估计视角,不是分布近似视角。
-
本文的位置
作者给出的位置是:在p→∞极限下,证明MFVB的近似后验在方差和偏度上均偏离精确后验,并设计一种新的partial factorization变分族,使得近似后验在p→∞时收敛到精确后验。与竞争路线(EP、Laplace近似、MCMC)相比,本文的计算开销优势在p>n时显著。
子线索聚类¶
从被引文献来看,至少有三条线索:
- 采样方法(MCMC)线索:精确后验计算,包括截断高斯采样(Chopin, 2011;Pakman & Paninski, 2014;Botev, 2017)、Gibbs采样收敛分析(Qin & Hobert, 2019;Johndrow et al., 2019)、Hamiltonian Monte Carlo。共性目标是draw精确后验样本,代价是在p大时退化。
- 全因子化MFVB线索:对β的所有分量做独立高斯假设,加上对z的独立因子化(e.g., Jaakkola & Jordan 2000;Durante & Rigon 2019;Ray & Szabó 2020)。共性目标是计算快速,但被本文证明在p→∞下后验方差偏小、偏度丢失。
- 替代的精确/半精确推断线索:EP(Minka 2001;Chopin & Ridgway 2017)、SUN族解析(Durante 2019;本文的PFM)、以及Laplace近似。共性目标是保持更准确的分布结构,但往往难以扩展到p大时。
这个方向在追问的核心问题¶
- 核心问题1:在高维(p→∞)下,Bayesian近似推断的近似质量是否随维度提升而退化?退化速率?
- 核心问题2:退化发生在后验的什么moment(均值、方差、更高阶矩/偏度)上?哪些在退化哪些不?
- 核心问题3:能否设计一个计算上可扩展但理论上还能在p→∞时收敛变分族?
- 已知瓶颈:全因子化MFVB在所有后验逼近策略中计算最廉价,但在p大时低估方差且丢失偏度——本文据此给出理论证明。
⚠️ 作者的 framing(需明确标注为作者说法)¶
作者将缺口frame得非常清晰:"尽管有一些点估计一致性的结果,但MFVB在高维下是否能准确逼近整个精确后验,几乎没有理论"。他们声称之前的理论无法回答"不确定性量化是否准确"的问题,只能证估计均值OK。然后他们构建一个强烈叙述:MFVB全因子化了β和所有z_i,这在高维下无法捕捉后验偏度→必然劣化。因此partial factorization(仅对z_i独立化,保留β的联合结构)是"显然的下一步"。
需要提醒研究者注意的是,作者回避了一条竞争路线:spike-and-slab VB(Ray & Szabó, 2020)已经能在稀疏设定下给出minimax率的点估计和预测,但被本文归类为"不影响方差近似"。然而Ray & Szabó 2020论文本身声称在ℓ₂预测损失上达到最优——这暗示MFVB在某些特定的损失函数下可能是"足够好"的。作者的frame似乎有意忽略这一点,集中在后验分布(而非点估计) 的近似质量上。
另一个缺失:作者没有引用任何关于Laplace近似的p→∞渐近分析(如Risser & Loukrezis等在高维Laplace上的工作)——这可能是合适的竞争路线,但被忽略了。
张力¶
引用中未见明显的直接矛盾陈述。Johndrow et al. (2019)的MCMC混合问题暗示"p大时精确后验不可计算",而本文的解决方案是"设计一个可计算的近似,理论保证它w.r.t.精确后验收敛"——这是互补而非矛盾。Wang & Blei (2019)和本文的结论之间也不是矛盾(Wang Blei证明点估计一致性,本文证明方差不能一致),但值得研究者细查:Wang & Blei的定理能否直接用于probit回归的非正则设定?本文是否隐含了比Wang & Blei更强的条件(如random design + 标准化)?这些可以从本文Assumption 2和Theorem 1的条件差异去挖。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
数据:观测到 \( {(y_i, x_i)}_{i=1}^n \),其中 \( y_i \in \{0,1\} \) 是二元响应,\( x_i \in \mathbb{R}^p \) 是p维协变量向量(含截距项)。
模型(probit回归):
先验:
潜在变量表示(Albert & Chib, 1993): 引入独立潜变量 \( z_i \sim N(x_i^\top \beta, 1) \),且
目标:计算精确后验 \(p(\beta \mid y) \propto \prod_{i=1}^n \Phi((2y_i-1) x_i^\top \beta) \cdot \phi_p(\beta; 0, \nu_p^2 I_p)\),其中 \(\phi_p\) 是p维高斯密度。
可观测 vs 不可观测: - 可观测:\((y_i, x_i)_{i=1}^n\)。 - 潜在(不可观测):\(\beta\)(要推断的参数)、\(z_i\)(潜变量、只用于推导的辅助工具)。关键:数据的似然是\(y_i\)的二元概率,不是\(z_i\)的密度;\(z_i\)仅在模型表示中存在,直接观测不到。
记号: - \(X\):\(n \times p\) 设计矩阵,行\(x_i^\top\)。 - \(\mathbf{y} = (y_1, \dots, y_n)\)。 - \(\mathbf{z} = (z_1, \dots, z_n)\)。 - \(V = (\nu_p^{-2} I_p + X^\top X)^{-1}\):\(\beta\)的完全条件后验方差,在给定\(\mathbf{z}\)时(Holmes & Held 2006)。 - \(\mathrm{SUN}_{p,\tilde{n}}(\xi, \Omega, \Delta, \gamma, \Gamma)\):unified skew-normal密度族(Arellano-Valle & Azzalini 2006),其中的参数控制偏度。精确后验属于这个族(Durante 2019)。
第二步:最小内核——最简单的例子(p=1, n=2, 单位先验方差)¶
最简单特例(p=1, n=2): - 只有一个预测变量 \(x_i\)(标量),假设\(\nu^2 = 1\)。 - 先验:\(\beta \sim N(0, 1)\)。 - 可观测数据:\((y_1, x_1)\) 和 \((y_2, x_2)\),且 \(y_1=1, y_2=0\)(人为例子)。 - 潜变量:\(z_i \mid \beta \sim N(x_i\beta, 1)\),且 \(z_1 > 0, z_2 < 0\)。
精确后验:
现在用MFVB来近似这个后验。MFVB对联合后验 \(p(\beta,z_1,z_2 \mid y)\) 做因子化假设:
问题:在精确后验中,\(z_1\) 和 \(z_2\) 通过\(\beta\)相关联(\(z_i \perp z_j \mid \beta\)但边缘化后\(z_1\)与\(z_2\)相关)。全因子化假设把\(\beta\)与所有\(z_i\)在变分分布中都化为独立——这实质上强制了近似后验\(q(\beta) \approx \mathbb{E}_q[p(\beta\mid z)]\)是高斯,丢失了偏度。
在这个p=1的简单例子里,精确后验有左偏(因为\(x_1\)和\(x_2\)符号不同导致): - MFVB近似\(q(\beta)\)的正态近似的均值为\(\hat{\mu}\)但方差偏小约15%-20%(取决于x_i的取值),且不可能捕捉到偏度。 - 本文的partial factorization(PFM)则只假设\(q(\beta,z_1,z_2) = q(\beta) \prod_{i=1}^2 q(z_i)\)?不——本文的PFM具体是:保留\(\beta\)与所有\(z_i\)之间的联合结构,仅假设独立\(z_i\)之间的条件独立。即
总结最小内核的核心洞察: - MFVB的病理来源不是"把z因子化"本身,而是把β从z独立(即全因子化:\(q(\beta)\prod q(z_i)\)),这强制\(q(\beta)\)为高斯。 - PFM不因子化β和z,因为\(p(\beta\mid z)\)被精确保留,只需要近似\(p(z\mid y)\)的分解。得到的变分后验归属SUN族,能够捕捉偏度。 - 而且直觉上:\(p(z\mid y)\)的因子化近似在p→∞时影响小——因为β的边缘信息主要由设计矩阵的谱结构携带,z_i之间的微弱相关在p很大时可忽略(这与`\(XX^\top\) 的随机设计近似对角'有关,见Assumption 2)。因此在p→∞下PFM收敛到精确后验。
三、这篇论文做了什么¶
三句话: 1. 揭示了高维probit回归中mean-field variational Bayes(MFVB)在p→∞时的病理:相比之下,后验方差被低估,后验偏度被完全丢失,导致点估计和预测概率的偏差与方差都劣化(Theorem 1-2)。 2. 提出一种新的partial factorization变分近似(PFM):保留β与所有潜变量z之间的联合结构而只对z_i的分布做因子化,证明了PFM的变分后验属于tractable的unified skew-normal(SUN)密度族,且其边缘分布在p→∞时收敛到精确后验(Theorem 3-5)。 3. 配套的CAVI算法可以扩展到p数万级别,且迭代次数理论收敛到1(随p→∞),在p>n时相比于MCMC和EP有显著计算优势(Proposition 2, Section 4)。
关键设定与假设(在第二节最小记号基础之上补全)¶
Assumption 1(可处理先验方差):
Assumption 2(随机设计协变量与谱渐近): 存在常数 \(0 < c_u < \infty\),使得当 \(n \to \infty, p \to \infty\) 时,
Assumption 3(潜变量分解与截断高斯近似): 文中将精确后验分解为 \(p(\beta,z \mid y) = p(\beta\mid z) p(z\mid y)\),用PFM只近似 \(p(z\mid y) \approx \prod_{i=1}^n q(z_i)\)。关键点是该分解后,\(p(\beta\mid z)\)具有精确高斯形式,不近--这决定了PFM的变分后验归属SUN族。
主要结果¶
Theorem 1(MFVB的方差低估): 在Assumption 1-2下,对于常数先验方差(γ=0)和收缩先验方差(γ=1),MFVB的后验方差相对于精确后验方差的比值:
Theorem 2(MFVB的预测概率偏差): 对于新点\((x_{\mathrm{new}}, y_{\mathrm{new}})\),MFVB对预测概率\(\Phi(x_{\mathrm{new}}^\top \beta)\)的近似后验均值与精确后验均值之差绝对值以概率1趋于0的速度慢于\(O((\log p)/\sqrt{n})\),并且当p≫n时,实际上不收敛(差距保持正数)。这比Theorem 1更强——方差低估是可调整的(如重缩放),但预测概率的性质更严重(点估计也偏)。
Theorem 3(PFM的SUN表示): PFM变分后验具有Unified Skew-Normal形式:
Theorem 4(PFM在p→∞下的收敛): 在Assumption 1-2下,对于任意的ν²>0和γ∈[0,1],随着p→∞(且n=p或n固定或n∝p均有不同论述适用),
Theorem 5(PFM的CAVI算法迭代收敛到1): 设\(T_{\mathrm{CAVI}}\)是CAVI达到收敛阈值所需的迭代次数。在Assumption 1-2下,p→∞时:
Proposition 2(计算复杂度): 每次CAVI更新的成本为\(O(np)\)(主要来自计算矩阵XᵀX与参数的乘法),因此PFM在p数万时仍可运行,而MCMC(如NUTS)和EP在p>n下会因截断高斯CDF的计算成本(\(O(n^3)\)或至少\(O(n^2)\))而不可行。
证明路线与技术技巧¶
整体路线(3-5步逻辑主干):
-
写出精确后验的分解:
\[p(\beta, z \mid y) = p(\beta \mid z) p(z \mid y).\]\(p(\beta \mid z) = N_p(V X^\top z, V)\)已知解析(V = (ν_p^{-2}I_p + X^\top X)^{-1})。 -
对p(z|y)做变分近似: MFVB在其CAVI中额外因子化\(q(\beta) q(z_1) \cdots q(z_n)\)(即也因子了β与z); PFM则不因子化β方向,只写
\[q(z) = \prod_{i=1}^n q(z_i),\]然后用CAVI找出最优的\(q(z_i)\)。注意这个CAVI不涉β;β在所有计算中自动被\(p(\beta\mid z)\)吸收。 -
解出最优q(z_i)的闭形式: 通过KL最小化,\(q^*(z_i)\)是截断高斯分布,其均值依赖于设计矩阵和当前其他q(z_j)的期望。这就是一个标准的截断高斯CAVI更新,每个z_i的更新涉及到计算\(\mathbb{E}_q[z_i]\)。
-
将得到的q(z)代入q(β): 由于\(q_{\text{PFM}}(\beta) = \int p(\beta \mid z) \prod_{i=1}^n q^*(z_i) dz\),利用p(β|z)是高斯的性质,该积分解析表达式为Unified Skew-Normal。
-
p→∞下的渐近分析: 用Assumption 2(随机设计)推导出矩阵\(X^\top X\)近似为nI_p,从而\(\mathbb{E}_q[z] \approx (1+o(1)) \nu_p^{-2}I_p\)等。结合Var(β|z)的表达式的迹近似,证明q(β)的均值和协方差矩阵收敛到精确后验的对应量。TV距离的收敛通过Berry–Esseen型不等式的bound得到。
关键跳跃点(最吃功的一步):Lemma 1(精确后验方差与PFM方差比的渐近极限)。 - 难点:需要同时写出精确后验方差Var_exact[β_j | y]的解析式和PFM的Var_PFM[β_j | y]的解析式,并通过计算两者的迹之比在p→∞下的极限。 - 作者绕过去的办法:精确后验是SUN形式,其方差有闭公式(包含对角截断的矩),但不太容易比较。作者用"正交设计近似"来绕过精确计算——当n与p同阶且列近似正交时,X^⊤X ≈ n I_p,从而V ≈ (ν_p^{-2}+n)^{-1}I_p——这使两个方差的比值简化为仅与ν²有关的常数。
技术技巧点名: - 随机设计(Assumption 2)的谱集中技巧:利用Wigner-type的近似,使设计矩阵的谱趋近于Marchenko–Pastur型。这出现在Theorem 4的支撑中。 - 截断高斯的矩计算通过Chopin (2011)的采样方法:用于验证q(z_i)的形式,但本文的CAVI核心更新只用到了均值,不需要full CDF评估,这是CAVI快的关键。 - SUN族的completeness技巧:q(β)被证实是SUN族,于是偏度参数可以写到闭形式,这来自Durante (2019)的被引论文——本文用SUN族的定理q(β)的条件矩公式快速完成integration。 - 迭代一步收敛的固定点分析(Proposition 2推广部分):通过证明CAVI更新函数是收缩到不动点的近似恒等映射,当p→∞时压缩系数→0。
真实例子与应用¶
论文在实证部分使用了4个真实数据集,其中3个来自UCI Machine Learning Repository,1个来自R Library。这里重点说最有代表性的阿尔茨海默病(Alzheimer's disease, AD)数据集(Craig-Schapiro et al., 2011):
- 数据:n=333个体(AD病例+健康控制组),p=190个脑脊液生物标志物(列相关性高)。此处n=333, p=190。该数据集的原始目标是用生物标志物预测AD的早期阶段。
- 方法应用:将本文的PFM与MFVB、精确MCMC(stan的NUTS——仅能用于p=190时的采样,且耗时数小时)在p
另一个关键例子是Parkinson's disease声音信号数据(Sakar et al., 2019;n=756, p=752——接近n与p同阶),在这个接近p≈n的设定下: - PFM与MCMC的边际后验(对几个重要系数)几乎重叠;MFVB显著偏离。 - 这为p≈n时PFM的收敛提供了实证支撑(与Theorem 4的regime一致)。
🔎 结论是否比证明窄¶
有的: - Theorem 4声称"PFM在p→∞时收敛到精确后验",但证明中关键的limiting argument使用了假设设计矩阵列近似正交(Assumption 2)。作者在第5节明确写"如果协变量之间高度相关(如在基因组学中常见),上述结果可能不成立"(Section 5, 第二段)。因此这个收敛定理并不能直接适用到所有高维probit回归问题——它的可应用域是随机+标准化设计。 - Theorem 1(MFVB方差低估常数)在p→∞下的常数c_MF是在n、p同阶增长并且X是由随机标准高斯生成的条件下推导出来的。但在n固定p→∞的非标准设定下——作者没有证明但"推测类似结果成立"(p. 8,倒数第二段)。注意:这是推测——如果研究者要依赖此常数做后验调整,需要制作更严格的定理。 - Theorem 5(CAVI在p→∞下只需一步收敛)的证明依赖于不动点映射的压缩系数恒定,该压缩系数的解析bound依赖于n和p的比例。作者声称该bound在p是n的任意倍数(非整数也可)下都成立,但只给出了数值验证(无理论)。
四、开放问题¶
以下是本文留下的、明确可追的开放问题:
-
设计矩阵强相关时PFM的表现:本文的所有定理都依赖于设计矩阵列的近似正交(Assumption 2)。对于自然出现的、高相关性的p(如基因表达数据、影像数据),PFM的近似精度尚待理论刻画。本文Section 5的讨论中对此直接承认——这正是"值得认定的缺口"。
-
有限p下的逼近误差界:本文只给出了p→∞下的收敛(Theorem 4)。对于实际应用(p=100~dn),PFM与精确后验的TV距离的有限p非渐近界没有给出。若能给出像Ray & Szabó (2020)对spike-and-slab VB那样的minimax率界,会把该结果从渐近推向实用——这可以直接连接研究者very_familiar的minimax bound工具。
-
推广到logistic回归或更一般的GLM:本文只处理了probit回归(因为使用潜变量正态假设)。logistic回归(Pólya-gamma表示)类似思路是否可照搬?延伸到multinomial probit(Fasano & Durante, 2022已有初步工作)?作者在结论中提到"其他链接函数的推导是直接的工作",但未给出具体边界。
-
标签不平衡(imbalanced)下的PFM表现:Johndrow et al. (2019)指出MCMC在不平衡数据下严重混合不良。本文在模拟中使用了平衡设计(近似1:1的类别比例)。PFM在不平衡设定下的收敛性是否保持?这涉及Theorem 4中截断高斯近似的质量在不对称截断下的变化——若截断发生在低概率区域,q(z_i)的近似可能失效。本文没有讨论这一点。
Maintained by 陈星宇 · Homepage · Source on GitHub