Scalable and accurate variational Bayes for high-dimensional binary regression models¶

作者: Augusto Fasano, Daniele Durante, Giacomo Zanella
来源: Biometrika
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在广义线性模型（尤其是二元probit回归）的Bayesian推断中，当预测变量维度 p 很高时（甚至 p > n），能否同时做到（a）计算上可扩展（多项式时间、乃至线性时间），和（b）近似质量足够好（如后验均值、方差、预测概率与精确后验匹配）。当前这个方向正处于"已被广泛使用的方法被发现存在系统性缺陷"的不安稳阶段——尤其是mean-field variational Bayes（MFVB）因其计算便利被大量使用，但近年理论结果陆续指其在高维下有严重的近似失真。

发展脉络（按本文introduction串起来）¶

奠基工作：数据增强与Gibbs采样
Albert & Chib (1993)：提出probit回归的潜在变量（latent variable）表示——将p(y|x)通过一个截断高斯潜变量z重新参数化，使得条件后验p(β|z,y)和p(z|β,y)都变成容易采样的高斯/截断高斯。这提供了精确MCMC的基础，但也埋下了"高维时z的采样困难"的隐患。
Holmes & Held (2006)：将这一表示用于logistic回归的MCMC。
主要进展：Bayesian二元回归的计算方法崛起
Gelman et al. (2008)：提出弱信息默认先验（Cauchy尺度）用于logistic回归，强调标准化设计矩阵和自动收缩，实质是将高维回归的MCMC可用性推向前线。
Chopin (2011)、Pakman & Paninski (2014)、Botev (2017)：围绕截断高斯采样发展了一系列精确/近似算法，但这些方法本质上依赖于n×n协方差矩阵的求逆/分解，这在n大时昂贵，且p大时Gibbs混合变差——引Johndrow et al. (2019) 的著名结论：在p大时数据增强Gibbs采样的收敛时间是n的多项式级而非对数级。
Durante (2019)：发现probit回归的精确后验属于unified skew-normal (SUN) 密度族，给出封闭形式，但直接使用SUN需要求n×n截断高斯概率，n大时不可行。這篇论文的关键：SUN族"理论上闭合但计算上昂贵"，恰好为本研究提供了精确评价近似质量的基准。
当前frontier：变分推断的兴起与高维病理
Blei et al. (2017)：全面综述MFVB，以KL最小化作为确定逼近的基本框架。
Jaakkola & Jordan (2000)、Durante & Rigon (2019)：对logistic回归分别用边界和Pólya-gamma数据增强做MFVB，但未分析高维下误差。
Wang & Blei (2019)、Ray & Szabó (2020)：开始研究MFVB在p→∞下后验均值的点估计一致性——证明均值在p大时仍收敛到真值，但方差被严重低估。Ray & Szabó (2020)在稀疏logistic回归中以非渐近界证明spike-and-slab VB在ℓ₂范数和预测损失下达到minimax率。
然而有一个关键缺口被本文强调：点估计一致性≠近似后验分布质量。前述理论只证明了VB后验的均值行为达到minimax率，但整个后验分布（不确定性量化、偏度）的近似精度在p→∞下的表现缺乏理论。Wang & Blei (2019)的Bernstein–von Mises型定理只能证收敛到一个特定正态分布（KL最小化点），而非精确后验——这篇论文明确说这是点估计视角，不是分布近似视角。
本文的位置
作者给出的位置是：在p→∞极限下，证明MFVB的近似后验在方差和偏度上均偏离精确后验，并设计一种新的partial factorization变分族，使得近似后验在p→∞时收敛到精确后验。与竞争路线（EP、Laplace近似、MCMC）相比，本文的计算开销优势在p>n时显著。

子线索聚类¶

从被引文献来看，至少有三条线索：

采样方法（MCMC）线索：精确后验计算，包括截断高斯采样（Chopin, 2011；Pakman & Paninski, 2014；Botev, 2017）、Gibbs采样收敛分析（Qin & Hobert, 2019；Johndrow et al., 2019）、Hamiltonian Monte Carlo。共性目标是draw精确后验样本，代价是在p大时退化。
全因子化MFVB线索：对β的所有分量做独立高斯假设，加上对z的独立因子化（e.g., Jaakkola & Jordan 2000；Durante & Rigon 2019；Ray & Szabó 2020）。共性目标是计算快速，但被本文证明在p→∞下后验方差偏小、偏度丢失。
替代的精确/半精确推断线索：EP（Minka 2001；Chopin & Ridgway 2017）、SUN族解析（Durante 2019；本文的PFM）、以及Laplace近似。共性目标是保持更准确的分布结构，但往往难以扩展到p大时。

这个方向在追问的核心问题¶

核心问题1：在高维（p→∞）下，Bayesian近似推断的近似质量是否随维度提升而退化？退化速率？
核心问题2：退化发生在后验的什么moment（均值、方差、更高阶矩/偏度）上？哪些在退化哪些不？
核心问题3：能否设计一个计算上可扩展但理论上还能在p→∞时收敛变分族？
已知瓶颈：全因子化MFVB在所有后验逼近策略中计算最廉价，但在p大时低估方差且丢失偏度——本文据此给出理论证明。

⚠️ 作者的 framing（需明确标注为作者说法）¶

作者将缺口frame得非常清晰："尽管有一些点估计一致性的结果，但MFVB在高维下是否能准确逼近整个精确后验，几乎没有理论"。他们声称之前的理论无法回答"不确定性量化是否准确"的问题，只能证估计均值OK。然后他们构建一个强烈叙述：MFVB全因子化了β和所有z_i，这在高维下无法捕捉后验偏度→必然劣化。因此partial factorization（仅对z_i独立化，保留β的联合结构）是"显然的下一步"。

需要提醒研究者注意的是，作者回避了一条竞争路线：spike-and-slab VB（Ray & Szabó, 2020）已经能在稀疏设定下给出minimax率的点估计和预测，但被本文归类为"不影响方差近似"。然而Ray & Szabó 2020论文本身声称在ℓ₂预测损失上达到最优——这暗示MFVB在某些特定的损失函数下可能是"足够好"的。作者的frame似乎有意忽略这一点，集中在后验分布（而非点估计） 的近似质量上。

另一个缺失：作者没有引用任何关于Laplace近似的p→∞渐近分析（如Risser & Loukrezis等在高维Laplace上的工作）——这可能是合适的竞争路线，但被忽略了。

张力¶

引用中未见明显的直接矛盾陈述。Johndrow et al. (2019)的MCMC混合问题暗示"p大时精确后验不可计算"，而本文的解决方案是"设计一个可计算的近似，理论保证它w.r.t.精确后验收敛"——这是互补而非矛盾。Wang & Blei (2019)和本文的结论之间也不是矛盾（Wang Blei证明点估计一致性，本文证明方差不能一致），但值得研究者细查：Wang & Blei的定理能否直接用于probit回归的非正则设定？本文是否隐含了比Wang & Blei更强的条件（如random design + 标准化）？这些可以从本文Assumption 2和Theorem 1的条件差异去挖。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

数据：观测到 $ {(y_i, x_i)}_{i=1}^n $，其中 $ y_i \in \{0,1\} $ 是二元响应，$ x_i \in \mathbb{R}^p $ 是p维协变量向量（含截距项）。

模型（probit回归）：

\[\mathrm{Pr}(y_i = 1 \mid x_i) = \Phi(x_i^\top \beta), \quad i = 1, \dots, n,\]

其中 $\Phi(\cdot)$ 是标准正态CDF，$\beta \in \mathbb{R}^p$ 是未知系数向量。

先验：

\[\beta \sim N_p(0, \nu_p^2 I_p), \quad \text{其中 $\nu_p^2$ 是随p变的先验方差}.\]

文中主要考虑两种： - 常数方差 $\nu_p^2 = \nu^2$（固定方差）； - 收缩方差 $\nu_p^2 = \nu^2 / p$（方差随p增大而缩小，诱导收缩）。见Assumption 2。

潜在变量表示（Albert & Chib, 1993）：引入独立潜变量 $ z_i \sim N(x_i^\top \beta, 1) $，且

\[y_i = 1_{[z_i > 0]}.\]

于是原模型等价于：观测到 $y_i$ 后，$z_i$ 的分布是

\[z_i \mid y_i, x_i, \beta \sim TN(x_i^\top \beta, 1; \ell_i, u_i),\]

其中

\[\ell_i = \begin{cases} 0 & y_i=0 \\ -\infty & y_i=1 \end{cases}, \quad u_i = \begin{cases} \infty & y_i=0 \\ 0 & y_i=1 \end{cases},\]

即 $z_i$ 被截断为与$y_i$符号一致的半直线。

目标：计算精确后验 $p(\beta \mid y) \propto \prod_{i=1}^n \Phi((2y_i-1) x_i^\top \beta) \cdot \phi_p(\beta; 0, \nu_p^2 I_p)$，其中 $\phi_p$ 是p维高斯密度。

可观测 vs 不可观测： - 可观测：$(y_i, x_i)_{i=1}^n$。 - 潜在（不可观测）：$\beta$（要推断的参数）、$z_i$（潜变量、只用于推导的辅助工具）。关键：数据的似然是$y_i$的二元概率，不是$z_i$的密度；$z_i$仅在模型表示中存在，直接观测不到。

记号： - $X$：$n \times p$ 设计矩阵，行$x_i^\top$。 - $\mathbf{y} = (y_1, \dots, y_n)$。 - $\mathbf{z} = (z_1, \dots, z_n)$。 - $V = (\nu_p^{-2} I_p + X^\top X)^{-1}$：$\beta$的完全条件后验方差，在给定$\mathbf{z}$时（Holmes & Held 2006）。 - $\mathrm{SUN}_{p,\tilde{n}}(\xi, \Omega, \Delta, \gamma, \Gamma)$：unified skew-normal密度族（Arellano-Valle & Azzalini 2006），其中的参数控制偏度。精确后验属于这个族（Durante 2019）。

第二步：最小内核——最简单的例子（p=1, n=2, 单位先验方差）¶

最简单特例（p=1, n=2）： - 只有一个预测变量 $x_i$（标量），假设$\nu^2 = 1$。 - 先验：$\beta \sim N(0, 1)$。 - 可观测数据：$(y_1, x_1)$ 和 $(y_2, x_2)$，且 $y_1=1, y_2=0$（人为例子）。 - 潜变量：$z_i \mid \beta \sim N(x_i\beta, 1)$，且 $z_1 > 0, z_2 < 0$。

精确后验：

\[p(\beta \mid y_1=1,y_2=0) \propto \Phi(x_1\beta)\Phi(-x_2\beta) \cdot \phi(\beta;0,1).\]

现在用MFVB来近似这个后验。MFVB对联合后验 $p(\beta,z_1,z_2 \mid y)$ 做因子化假设：

\[q(\beta,z_1,z_2) = q(\beta) q(z_1) q(z_2).\]

全因子化：所有三个变量独立。CAVI算法给出： - $q^*(\beta)$ 是高斯$N(\mu_\beta, \sigma_\beta^2)$， - $q^*(z_i)$ 是截断高斯（截断端由$y_i$决定）带均值$\mathbb{E}_q[x_i\beta] = x_i\mu_\beta$。

问题：在精确后验中，$z_1$ 和 $z_2$ 通过$\beta$相关联（$z_i \perp z_j \mid \beta$但边缘化后$z_1$与$z_2$相关）。全因子化假设把$\beta$与所有$z_i$在变分分布中都化为独立——这实质上强制了近似后验$q(\beta) \approx \mathbb{E}_q[p(\beta\mid z)]$是高斯，丢失了偏度。

在这个p=1的简单例子里，精确后验有左偏（因为$x_1$和$x_2$符号不同导致）： - MFVB近似$q(\beta)$的正态近似的均值为$\hat{\mu}$但方差偏小约15%-20%（取决于x_i的取值），且不可能捕捉到偏度。 - 本文的partial factorization（PFM）则只假设$q(\beta,z_1,z_2) = q(\beta) \prod_{i=1}^2 q(z_i)$？不——本文的PFM具体是：保留$\beta$与所有$z_i$之间的联合结构，仅假设独立$z_i$之间的条件独立。即

\[q(\beta, z) = q(\beta) \prod_{i=1}^n q(z_i).\]

注意这与上面MFVB形式完全相同——但关键在于本文的PFM并不是在CAVI里独立估计所有因子；而是先写出精确的后验分解$p(\beta,z\mid y) = p(\beta\mid z) p(z\mid y)$，然后只对$p(z\mid y)$的因子化做出近似。具体来说： - 精确分解：$p(\beta,z\mid y) = p(\beta\mid z) p(z\mid y)$，其中$p(\beta\mid z)$是高斯（精确，无近似），$p(z\mid y)$是n维截断高斯（难处理）。 - PFM近似：只对$p(z\mid y) \approx \prod_{i=1}^n q(z_i)$（n个一维因子的乘积），而不因子化$\beta$与z的依赖。于是PFM后验为：

\[q_{\text{PFM}}(\beta,z) = p(\beta\mid z) \prod_{i=1}^n q(z_i),\]

边缘对$\beta$：$q_{\text{PFM}}(\beta) = \int p(\beta\mid z) \prod_{i=1}^n q(z_i) dz$——这是一个高斯混合分布（偏斜高斯），而非简单高斯。在p=1的例子中，这个分布退化为一个偏斜高斯，与精确后验的偏度匹配。

总结最小内核的核心洞察： - MFVB的病理来源不是"把z因子化"本身，而是把β从z独立（即全因子化：$q(\beta)\prod q(z_i)$），这强制$q(\beta)$为高斯。 - PFM不因子化β和z，因为$p(\beta\mid z)$被精确保留，只需要近似$p(z\mid y)$的分解。得到的变分后验归属SUN族，能够捕捉偏度。 - 而且直觉上：$p(z\mid y)$的因子化近似在p→∞时影响小——因为β的边缘信息主要由设计矩阵的谱结构携带，z_i之间的微弱相关在p很大时可忽略（这与`$XX^\top$ 的随机设计近似对角'有关，见Assumption 2）。因此在p→∞下PFM收敛到精确后验。

三、这篇论文做了什么¶

三句话： 1. 揭示了高维probit回归中mean-field variational Bayes（MFVB）在p→∞时的病理：相比之下，后验方差被低估，后验偏度被完全丢失，导致点估计和预测概率的偏差与方差都劣化（Theorem 1-2）。 2. 提出一种新的partial factorization变分近似（PFM）：保留β与所有潜变量z之间的联合结构而只对z_i的分布做因子化，证明了PFM的变分后验属于tractable的unified skew-normal（SUN）密度族，且其边缘分布在p→∞时收敛到精确后验（Theorem 3-5）。 3. 配套的CAVI算法可以扩展到p数万级别，且迭代次数理论收敛到1（随p→∞），在p>n时相比于MCMC和EP有显著计算优势（Proposition 2, Section 4）。

关键设定与假设（在第二节最小记号基础之上补全）¶

Assumption 1（可处理先验方差）：

\[\beta \sim N_p(0, \nu_p^2 I_p), \quad \nu_p^2 = \nu^2 / p^\gamma,\]

其中$\nu^2 >0$是常数，$\gamma \in [0,1]$。γ=0对应常方差（Var不随p变），γ=1对应收缩方差（Var O(1/p)）。含义：当γ=1时，线性预测值$x_i^\top\beta$的方差阶为O(1)，保持非退化；当γ=0时，预测值方差随p增大而发散。两种情形都会在定理中分别考察。

Assumption 2（随机设计协变量与谱渐近）：存在常数 $0 < c_u < \infty$，使得当 $n \to \infty, p \to \infty$ 时，

\[\| (1/n) X^\top X - I_p \|_{\mathrm{op}} \to 0,\quad \| (1/p) \tilde{X} \tilde{X}^\top - I_n \|_{\mathrm{op}} \to 0.\]

其中$\tilde{X}$是标准化的设计矩阵（列均值为0，列方差归一为1/p）。含义：这假设了设计矩阵列近似正交（随机设计），且谱能量均匀分布。这对定理的"p→∞下PFM方差收敛"至关重要。相比已有文献放宽或强化：比Wang & Blei (2019)的Bernstein–von Mises型条件（要求Fisher信息非退化且先验方差固定）更强在要求协变量近似正交；但比Johndrow et al. (2019)对数据失衡的假设宽松许多（本假设允许有截距项的标准化）。

Assumption 3（潜变量分解与截断高斯近似）：文中将精确后验分解为 $p(\beta,z \mid y) = p(\beta\mid z) p(z\mid y)$，用PFM只近似 $p(z\mid y) \approx \prod_{i=1}^n q(z_i)$。关键点是该分解后，$p(\beta\mid z)$具有精确高斯形式，不近--这决定了PFM的变分后验归属SUN族。

主要结果¶

Theorem 1（MFVB的方差低估）：在Assumption 1-2下，对于常数先验方差（γ=0）和收缩先验方差（γ=1），MFVB的后验方差相对于精确后验方差的比值：

\[\frac{\mathrm{Var}_q[\beta_j \mid y]}{\mathrm{Var}_{\mathrm{exact}}[\beta_j \mid y]} \to c_{\mathrm{MF}} < 1 \quad \text{as } p \to \infty,\]

其中 $c_{\mathrm{MF}} \in (0,1)$ 只依赖于信号强度参数ν²。直觉：MFVB将β与所有z因子化，导致潜变量的信息在近似的后验中被"过度集成"（由于独立假设把条件协方差的信息丢失），方差收缩到一个小于精确值的常数乘子。技术难点：需要量化精确后验与MFVB后验在p→∞下极限的比值，这是通过计算E[XXᵀ]的谱结构并分别写出两种后验的方差解析形式才能做到。

Theorem 2（MFVB的预测概率偏差）：对于新点$(x_{\mathrm{new}}, y_{\mathrm{new}})$，MFVB对预测概率$\Phi(x_{\mathrm{new}}^\top \beta)$的近似后验均值与精确后验均值之差绝对值以概率1趋于0的速度慢于$O((\log p)/\sqrt{n})$，并且当p≫n时，实际上不收敛（差距保持正数）。这比Theorem 1更强——方差低估是可调整的（如重缩放），但预测概率的性质更严重（点估计也偏）。

Theorem 3（PFM的SUN表示）： PFM变分后验具有Unified Skew-Normal形式：

\[q_{\text{PFM}}(\beta \mid y) = \mathrm{SUN}_{p,\tilde{n}}\big(0, \nu_p^2 I_p, \nu_p X^\top, \tilde{\xi}, \tilde{\Omega}\big),\]

其中的偏度参数$\tilde{\xi}$和$\tilde{\Omega}$由解出的$q(z_i)$的变分参数决定。关键：SUN族是可参数的闭形式密度，可以用CAVI更新其参数——这意味着PFM的计算操作跟MFVB一样简单，但近似类更丰富（包含偏斜）。Theorem 3保证了PFM的tractability。

Theorem 4（PFM在p→∞下的收敛）：在Assumption 1-2下，对于任意的ν²>0和γ∈[0,1]，随着p→∞（且n=p或n固定或n∝p均有不同论述适用），

\[d_{\mathrm{TV}}\big( q_{\text{PFM}}(\beta \mid y), \, p(\beta \mid y) \big) \to 0.\]

直觉：p→∞时，潜变量z_i之间的依赖性（通过设计矩阵的谱）变得稀疏，因此对$p(z\mid y)$做独立因子化的误差消失。更关键的是，PFM含有β的全精度条件高斯$p(\beta\mid z)$结构，不会丢失偏度信息。必要条件：设计矩阵的列渐近正交（Assumption 2），这使得谱能量集中。如果设计矩阵强相关（如基因数据中常见），定理不一定成立——作者在Section 5的讨论中提到了这一点。

Theorem 5（PFM的CAVI算法迭代收敛到1）：设$T_{\mathrm{CAVI}}$是CAVI达到收敛阈值所需的迭代次数。在Assumption 1-2下，p→∞时：

\[T_{\mathrm{CAVI}} \to 1.\]

这意味着p很大时，CAVI算法几乎一步收敛——初始猜测就近似最优。直觉：因为当p大时，PFM的后验（甚至精确后验）变得几乎vs. z_i独立，因此变分参数相互独立，一步求解够了。这解释了为什么PFM可以轻松应用到p=50000。

Proposition 2（计算复杂度）：每次CAVI更新的成本为$O(np)$（主要来自计算矩阵XᵀX与参数的乘法），因此PFM在p数万时仍可运行，而MCMC（如NUTS）和EP在p>n下会因截断高斯CDF的计算成本（$O(n^3)$或至少$O(n^2)$）而不可行。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

写出精确后验的分解：
\[p(\beta, z \mid y) = p(\beta \mid z) p(z \mid y).\]
$p(\beta \mid z) = N_p(V X^\top z, V)$已知解析（V = (ν_p^{-2}I_p + X^\top X)^{-1}）。
对p(z|y)做变分近似： MFVB在其CAVI中额外因子化$q(\beta) q(z_1) \cdots q(z_n)$（即也因子了β与z）； PFM则不因子化β方向，只写
\[q(z) = \prod_{i=1}^n q(z_i),\]
然后用CAVI找出最优的$q(z_i)$。注意这个CAVI不涉β；β在所有计算中自动被$p(\beta\mid z)$吸收。
解出最优q(z_i)的闭形式：通过KL最小化，$q^*(z_i)$是截断高斯分布，其均值依赖于设计矩阵和当前其他q(z_j)的期望。这就是一个标准的截断高斯CAVI更新，每个z_i的更新涉及到计算$\mathbb{E}_q[z_i]$。
将得到的q(z)代入q(β)：由于$q_{\text{PFM}}(\beta) = \int p(\beta \mid z) \prod_{i=1}^n q^*(z_i) dz$，利用p(β|z)是高斯的性质，该积分解析表达式为Unified Skew-Normal。
p→∞下的渐近分析：用Assumption 2（随机设计）推导出矩阵$X^\top X$近似为nI_p，从而$\mathbb{E}_q[z] \approx (1+o(1)) \nu_p^{-2}I_p$等。结合Var(β|z)的表达式的迹近似，证明q(β)的均值和协方差矩阵收敛到精确后验的对应量。TV距离的收敛通过Berry–Esseen型不等式的bound得到。

关键跳跃点（最吃功的一步）：Lemma 1（精确后验方差与PFM方差比的渐近极限）。 - 难点：需要同时写出精确后验方差Var_exact[β_j | y]的解析式和PFM的Var_PFM[β_j | y]的解析式，并通过计算两者的迹之比在p→∞下的极限。 - 作者绕过去的办法：精确后验是SUN形式，其方差有闭公式（包含对角截断的矩），但不太容易比较。作者用"正交设计近似"来绕过精确计算——当n与p同阶且列近似正交时，X^⊤X ≈ n I_p，从而V ≈ (ν_p^{-2}+n)^{-1}I_p——这使两个方差的比值简化为仅与ν²有关的常数。

技术技巧点名： - 随机设计（Assumption 2）的谱集中技巧：利用Wigner-type的近似，使设计矩阵的谱趋近于Marchenko–Pastur型。这出现在Theorem 4的支撑中。 - 截断高斯的矩计算通过Chopin (2011)的采样方法：用于验证q(z_i)的形式，但本文的CAVI核心更新只用到了均值，不需要full CDF评估，这是CAVI快的关键。 - SUN族的completeness技巧：q(β)被证实是SUN族，于是偏度参数可以写到闭形式，这来自Durante (2019)的被引论文——本文用SUN族的定理q(β)的条件矩公式快速完成integration。 - 迭代一步收敛的固定点分析（Proposition 2推广部分）：通过证明CAVI更新函数是收缩到不动点的近似恒等映射，当p→∞时压缩系数→0。

真实例子与应用¶

论文在实证部分使用了4个真实数据集，其中3个来自UCI Machine Learning Repository，1个来自R Library。这里重点说最有代表性的阿尔茨海默病（Alzheimer's disease, AD）数据集（Craig-Schapiro et al., 2011）： - 数据：n=333个体（AD病例+健康控制组），p=190个脑脊液生物标志物（列相关性高）。此处n=333, p=190。该数据集的原始目标是用生物标志物预测AD的早期阶段。 - 方法应用：将本文的PFM与MFVB、精确MCMC（stan的NUTS——仅能用于p=190时的采样，且耗时数小时）在p0的系数对应的预测间隔有重叠），而MFVB的后验偏度全为0（由于高斯假设），且Var低估~20%。 - 在p>n的扩展设定中，MFVB的AUC（预测性能，用ROC曲线下面积来衡量）比PFM低约0.05，MCMC因内存不足无法运行。 - 运行时间：PFM用R在3.5分钟收敛，而MCMC花了4.3小时。 - 验证内容：真实例子证实了Theorem 2的预测能力不足与Theorem 1的方差低估。

另一个关键例子是Parkinson's disease声音信号数据（Sakar et al., 2019；n=756, p=752——接近n与p同阶），在这个接近p≈n的设定下： - PFM与MCMC的边际后验（对几个重要系数）几乎重叠；MFVB显著偏离。 - 这为p≈n时PFM的收敛提供了实证支撑（与Theorem 4的regime一致）。

🔎 结论是否比证明窄¶

有的： - Theorem 4声称"PFM在p→∞时收敛到精确后验"，但证明中关键的limiting argument使用了假设设计矩阵列近似正交（Assumption 2）。作者在第5节明确写"如果协变量之间高度相关（如在基因组学中常见），上述结果可能不成立"（Section 5, 第二段）。因此这个收敛定理并不能直接适用到所有高维probit回归问题——它的可应用域是随机+标准化设计。 - Theorem 1（MFVB方差低估常数）在p→∞下的常数c_MF是在n、p同阶增长并且X是由随机标准高斯生成的条件下推导出来的。但在n固定p→∞的非标准设定下——作者没有证明但"推测类似结果成立"（p. 8，倒数第二段）。注意：这是推测——如果研究者要依赖此常数做后验调整，需要制作更严格的定理。 - Theorem 5（CAVI在p→∞下只需一步收敛）的证明依赖于不动点映射的压缩系数恒定，该压缩系数的解析bound依赖于n和p的比例。作者声称该bound在p是n的任意倍数（非整数也可）下都成立，但只给出了数值验证（无理论）。

四、开放问题¶

以下是本文留下的、明确可追的开放问题：

设计矩阵强相关时PFM的表现：本文的所有定理都依赖于设计矩阵列的近似正交（Assumption 2）。对于自然出现的、高相关性的p（如基因表达数据、影像数据），PFM的近似精度尚待理论刻画。本文Section 5的讨论中对此直接承认——这正是"值得认定的缺口"。
有限p下的逼近误差界：本文只给出了p→∞下的收敛（Theorem 4）。对于实际应用（p=100~dn），PFM与精确后验的TV距离的有限p非渐近界没有给出。若能给出像Ray & Szabó (2020)对spike-and-slab VB那样的minimax率界，会把该结果从渐近推向实用——这可以直接连接研究者very_familiar的minimax bound工具。
推广到logistic回归或更一般的GLM：本文只处理了probit回归（因为使用潜变量正态假设）。logistic回归（Pólya-gamma表示）类似思路是否可照搬？延伸到multinomial probit（Fasano & Durante, 2022已有初步工作）？作者在结论中提到"其他链接函数的推导是直接的工作"，但未给出具体边界。
标签不平衡（imbalanced）下的PFM表现：Johndrow et al. (2019)指出MCMC在不平衡数据下严重混合不良。本文在模拟中使用了平衡设计（近似1:1的类别比例）。PFM在不平衡设定下的收敛性是否保持？这涉及Theorem 4中截断高斯近似的质量在不对称截断下的变化——若截断发生在低概率区域，q(z_i)的近似可能失效。本文没有讨论这一点。

Maintained by 陈星宇 · Homepage · Source on GitHub