On the convergence of coordinate ascent variational inference¶

作者: Anirban Bhattacharya, Debdeep Pati, Yun Yang
来源: Annals of Statistics
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注变分推断（Variational Inference, VI）的理论基础。VI 是一种通过优化来近似难解后验分布的方法，其核心思想是在一个易于处理的分布族（通常是"均场"，即完全因子分解族）中，寻找与真实后验的 Kullback-Leibler (KL) 散度最小的成员。这一方向要解决的根本问题包括：(1) VI 估计的统计性质（一致性、收敛速度、渐近正态性）；(2) 实现 VI 的坐标上升算法（CAVI）的计算收敛性（何时收敛、多快收敛）。当前成熟度：统计最优性方向已有较丰硕成果；而算法收敛性的严格理论分析尚处早期，本文正填补后者。

发展脉络（History）¶

领域的发展可分两条交织的线索：线索A：VI 的统计性质（What does it estimate? How well?）；线索B：VI 的算法行为（How does the optimizer behave?）。

奠基工作（2000s-2010s）：
Blei et al. (2016) 的综述 [1] 系统梳理了 VI 的框架、均场假设、与指数族模型结合的形式以及随机优化扩展，但未涉及统计或算法理论。
Hall et al. (2011) [14] 最早给出高斯变分近似在泊松混合模型中的参数估计渐进正态性，但限于单一模型。
统计性质方向的主要进展（2015-2020）：
Pati et al. (2017) [13] 提供了均场 VI 点估计达到最优风险界的通用条件（存在对参数距离的检验函数），是统计最优性的里程碑。
Wang & Blei (2017) [7] 建立了均场变分的 Bernstein–von Mises 定理（后验趋于以真值为中心的正态分布），将 VI 与经典统计推断联系起来。
Zhang & Gao (2017) [10] 给出非参数和高维设定下变分后验收敛速率的一般刻画，明确速率由"真实后验速率 + 变分近似误差"组成。
Ray & Szabó (2019) [11] 在高维稀疏线性回归中推导了均场 VB 的 oracle 不等式，证明达到最优速率。
Alquier & Ridgway (2017) [9] 证明了分数后验的变分近似的收缩性，涵盖矩阵补全和高斯 VB 等。
算法收敛性方向的早期探索（2017-2020）：
Zhang & Zhou (2017) [12] 在随机块模型（SBM）中考核了批坐标上升 VI 的算法收敛，证明线性收敛速率与 minimax 最优性。
Ghorbani et al. (2018) [17] 指出均场 VI 在主题模型中存在不稳定性：当模型参数处于某些区域时，算法输出与真实分解不相关——这是对算法不良行为的警示。
Plummer et al. (2020) [19] 用动力系统方法研究 Ising 模型上的坐标上升 VI，揭示并行版本可出现振荡周期行为（非凸目标区域）。
Lacker et al. (2022) [20] 提出利用 log-凹性推导均场近似误差界的泛函不等式方法，规避了 metric-entropy 概念——这是通用方法上的潜在替代路线。
Wu & Zhou (2019) [15] 分析 EM 算法在高斯混合中的收敛性（O(√n) 次迭代达近最优率）——与 VI 共享坐标上升结构，但迭代策略不同。
Celentano et al. (2021) [18] 使用 TAP 自由能 / AMP 为 Z2-同步问题提供线性收敛保证——更近的、技术上更先进的替代框架。
当前 frontier 与本文位置：在统计最优性方面已有较多理论（线索A）；但如 Bhattacharya et al. 本文所观察到的，"formal analysis on the algorithmic convergence aspects of VI is still largely lacking"。之前的工作或局限于特定模型（SBM、Ising、主题模型），或依赖于强假设（如 log-凹性、完全条件共轭），缺乏一般设定下具有可量化收缩率的收敛性分析框架。本文试图用一种新概念——"广义相关性"——在两区块均场 VI 框架下统一刻画收敛速度。

子线索聚类¶

统计最优性（线索A）：Pati et al. (2017), Wang & Blei (2017), Zhang & Gao (2017), Ray & Szabó (2019), Alquier & Ridgway (2017), Bickel et al. (2012) [8]（SBM 中 MLE与 VB 的渐近正态性）。
具体模型算法分析（线索B，模型特异）：Zhang & Zhou (2017), Plummer et al. (2020), Ghorbani et al. (2018), Wu & Zhou (2019)。
非渐近收敛分析（一般框架）：本文 + Lacker et al. (2022), Celentano et al. (2021)（TAP-AMP路线）——后者更近但基于不同的自由能结构。
其他变分框架：Minka (2001) [4] 的期望传播（EP）使用的是反向 KL 散度之外的其他距离（moment matching）；Li & Turner (2016) [6] 的 Rényi 散度变分推断；Ambrogioni et al. (2018) [16] 的 Wasserstein VI。这些与本文的直接比较有限，但构成一个旨在用非 KL 散度改进稳定性的平行方向。

这个方向在追问的核心问题¶

问题1：均场 VI 估计值是否对真实参数的估计具有一致性、收敛速率、渐近正态性（主流方法：Pati, Wang-Blei 设定中已有答案）。
问题2：CAVI 算法何时收敛，多快收敛（主流：Zhang-Zhou 在 SBM 中已有肯定回答；Ghorbani 警示不稳定区域；本文试图给出通用充分条件）。
问题3：当目标函数非凸时，CAVI 对初始化的敏感性如何？是否存在伪固定点或振荡行为（Plummer et al. 在 Ising 中展示了并行版本的振荡；Ghorbani 在主题模型中展示了失败模式）。
问题4：不同散度（KL反向、Rényi、Wasserstein）能否扩大收敛保证的区域？（Li-Turner, Ambrogioni 等已提出替代，但缺乏与 CAVI 结合的理论分析。）

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

缺口框架：作者在前言里说："formal analysis on the algorithmic convergence aspects of VI is still largely lacking"，并且现有的模型特异结果未提供统一的、可量化的收缩率。
本文作为"显然的下一步"：作者引入广义相关性 '$\rho$' 来量化两个区块之间的依赖强度，声称在两区块均场 VI 下，这一量度直接给出 CAVI 的线性收缩率。这是将收敛分析从具体模型（SBM, Ising）提升到通用框架的第一步。
被淡化/回避的竞争路线：
Lacker et al. (2022) [20] 的 log-凹性框架和位移凸性技术被作者在引言中立为"另一条路线"（第 3 句："More recently, Lacker, Mukherjee & Yeung (2022) 提出…"），但在后文中未做直接对比。这篇论文可能提供更简洁的非渐近界，而本文的广义相关性需要显式计算 $\rho$，在复杂模型中可能不易——作者没有提这些困难。
Celentano et al. (2021) [18] 的 TAP-AMP 路线能处理多区块与高维，本文仍限于两区块——作者未解释为何局限于两区块设定。
随机 VI（Hoffman et al., 2012 [3]）是实际最常用的变体（尤其是大数据场景），但本文完全未论及其收敛性——作者只考虑确定性坐标上升。
MCMC 理论（收敛诊断、几何遍历性等）已有成熟工具（Bhattacharya 等引用了？实际上没有），但作者选择从零构建 CAVI 理论——如果研究者熟悉 MCMC 收敛分析，可能会问：为什么不利用 MCMC 的既得结果来加速 VI 收敛理论？
什么明显该被引/该存在、却没出现在 intro 里？
非参数变分推断收敛性（Zhang & Gao 2017 [10]）与高维 sparse prior（Ray & Szabó 2019 [11]）在统计最优性方向被广泛引用，但本文的算法收敛性分析并未明确指出这些模型的 CAVI 迭代是否满足广义相关性的充分条件。这提示：需自行检查文中例子是否有模型落在这类 prior 设定下。
Lacker et al. (2022) [20] 被引用一次，但未被充分对比。Celentano et al. (2021) [18] 作为 2021 年工作应已出现，但未在引言中讨论——如果该文能处理多区块而本文不能，这可能是作者的选择性忽略。
没有提及凸性假设的替代品（如 "Kurdyka–Łojasiewicz 不等式"）在非凸优化中的普遍性——这是优化文献中评估坐标下降的标准工具，作者是否知道？回避还是不适用？
张力：未见明显对立引用。所有被引工作基本站在同一立场：VI 理论需要更丰富、更量化。Ghorbani et al. 的负面结果（主题模型不稳定）与本文的正面收敛条件之间不存在结构性矛盾——可能是后者的条件排除了前者的关键设定（非共轭 vs 共轭）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
$X$：观测数据（随机变量，有样本实现 $x$）。
$Z$：潜在变量/参数（随机向量，通常是高维、不可直接观测的）。
后验分布：$\pi(z \mid x) \propto \pi_0(z) L(x \mid z)$ 其中 $\pi_0$ 先验、$L$ 似然。
均场变分分布族 $\mathcal{Q}$：所有完全因子分解形式 $q(z) = \prod_{j=1}^m q_j(z_j)$（各 $q_j$ 是任意密度）。
变分目标（KL 散度）：$\text{KL}(q \parallel \pi) = \int q(z) \log\frac{q(z)}{\pi(z \mid x)} dz$；等价选择最大化 ELBO。
两区块设定：将 $Z$ 分为两个区块，$Z = (Z_1, Z_2)$；$\mathcal{Q}$ 限制在 $q(z_1, z_2) = q_1(z_1)\, q_2(z_2)$。
CAVI 迭代：顺序更新每个区块，给定当前其他区块估计。特别地，在两区块情形，CAVI 产生序列：
\[q_1^{(t+1)} = \arg\min_{q_1} \text{KL}(q_1 q_2^{(t)} \parallel \pi), \quad q_2^{(t+1)} = \arg\min_{q_2} \text{KL}(q_1^{(t+1)} q_2 \parallel \pi).\]
$\theta = ( \theta_1, \theta_2 )$：有时作为参数空间的坐标表示，$\pi(\theta \mid x)$ 为参数后验——这样更符合回归例子的需要。
可观测数据：$x$（样本观测值）。研究者能观测到的是 $x$，以及由 $x$ 和后验定义的所有推导量。不可直接观测的是真实参数 $\theta^*$（如果采用频率框架）或 $\theta$ 的后验整体（需要近似）。
广义相关性 $\rho(\pi)$：核心新对象，量化两个区块之间的依赖对 VI 目标的影响（数值介于 0 和 1 之间）。本文定义：$\rho(\pi) := \underset{q_1 \in \mathcal{P}_1, q_2 \in \mathcal{P}_2}{\sup} \frac{ \text{KL}(q_1 q_2 \parallel \pi) - \text{KL}(p_1^\star p_2^\star \parallel \pi) }{ \text{KL}(p_1^\star p_2^\star \parallel \pi) }$ ——其中 $p_j^\star$ 是均场最优解。实际分析中通常用 $\rho$ 在迭代中的收缩不等式。

第二步：讲最小内核——高斯线性回归的 CAVI¶

考虑最简单的设定：一个观测样本 $x = (x_1, \ldots, x_n)$ 为设计矩阵 $\mathbf{X} \in \mathbb{R}^{n \times d}$，响应 $y \in \mathbb{R}^n$，模型为

\[y = \mathbf{X} \beta + \varepsilon,\quad \varepsilon \sim N(0, \sigma^2 I_n),\]

并假设 $\beta$ 的共轭正态先验 $\beta \sim N(0, \tau^2 I_d)$（$d$ 维）。参数为 $\theta = (\beta, \sigma^2)$。此处两个区块简化为： - 区块1：$\beta$（线性系数向量，$d$ 维）。 - 区块2：$\sigma^{-2}$（精度，1 维）。

后验 $\pi(\beta, \sigma^2 \mid y)$ 是正态-逆伽马族，可以闭环计算，但为了演示均场 CAVI 的收敛，我们强制使用因子分解：

\[q(\beta, \sigma^2) = q_\beta(\beta)\, q_{\sigma^2}(\sigma^2).\]

由于在共轭正态-逆伽马先验下，$\beta \mid \sigma^2, y$ 的完全条件后验与 $\sigma^2 \mid \beta, y$ 的完全条件后验均有封闭形式，CAVI 会给出显式的迭代：

给定当前 $q_{\sigma^2}^{(t)}$（即给定 $\mathbb{E}_q^{(t)}[\sigma^{-2}]$），$q_\beta^{(t+1)} \propto \exp\{ \mathbb{E}_{q_{\sigma^2}^{(t)}}[\log \pi(\beta, \sigma^2 \mid y)] \}$ ——因为 $\pi$ 在 $\beta$ 上是（$\sigma^2$ 已知时的）正态分布，所以 $q_\beta^{(t+1)}$ 为一正态分布 $N(\mu^{(t+1)}, \Sigma^{(t+1)})$，其中
\[\Sigma^{(t+1)} = \left( \frac{\mathbb{E}^{(t)}[\sigma^{-2}]}{\mathbb{E}[\sigma^{-2}]} \mathbf{X}^\top \mathbf{X} + \frac{1}{\tau^2} I \right)^{-1},\quad \mu^{(t+1)} = \frac{\mathbb{E}^{(t)}[\sigma^{-2}]}{\mathbb{E}[\sigma^{-2}]} \Sigma^{(t+1)} \mathbf{X}^\top y.\]
类似地，给定 $q_\beta^{(t+1)}$（即 $\mathbb{E}[\beta^\top \beta | q^{(t+1)}]$），$q_{\sigma^2}^{(t+1)}$ 变为一逆伽马分布。

关键观察：在这个特例下（两区块、共轭指数族），CAVI 可写为 $\mu^{(t+1)} = f(\text{一个依赖于当前 $\mathbb{E}[\sigma^{-2}]$ 的矩阵}) \times \text{数据}$——该映射本质上是一个收缩型线性变换。广义相关性 $\rho$ 在这里近似等于最大收缩系数（即最大特征值与先验方差的函数）。如果 $\rho < 1$，则迭代指数收敛到唯一固定点 $p_1^\star p_2^\star$；若 $\rho \geq 1$，则收敛变成缓慢的对数型或发散。

因此，本文的核心数学想法是：将 CAVI 迭代抽象为一个在特定函数空间上的映射（从概率测度到概率测度），并证明该映射的收缩率可由一个全局量 $\rho$ 上界界定；在两区块共轭指数族中，$\rho$ 可以显式计算，且迭代的 KL 散度序列满足 $\text{KL}(q_1^{(t+1)} q_2^{(t+1)} \parallel \pi) \leq \rho^t \cdot \text{KL}(q_1^{(0)} q_2^{(0)} \parallel \pi)$。

三、这篇论文做了什么¶

三句话¶

问题：本文在两区块均场变分推断（CAVI）的框架下，建立其全局/局部指数收敛的充分条件，并用新概念"广义相关性"量化收缩率。
方法：通过泛函分析（Banach 空间上的不动点理论）和 KL 散度的凸性/投影性质，将 CAVI 迭代转化为一个收缩映射，并引入 $\rho(\pi)$ 作为刻画区块依赖的关键量。
主要结论：存在可检验的假设，使得若广义相关性 $\rho < 1$，则 CAVI 从任意初始点出发指数收敛到全局最优的均场分布；若 $\rho = 1$（边界情况），收敛退化为代数速率；并且 $\rho$ 可以显式地在多个经典模型（线性回归、高斯混合模型）中计算。

关键设定与假设¶

设定：两区块 $(Z_1, Z_2)$ 后验分布 $\pi$（不需共轭、不必指数族）。目标 $q_1^\star q_2^\star \in \mathcal{Q}$ 是所有均场分布中 KL 散度最小者。
假设 A0（Banach 空间记号）：$\pi$ 的 log 密度在某种 L² 空间中可微且导数有界——这是为了在测度空间中定义 Fréchet 导数，以便应用 Banach 不动点定理。
假设 A1（广义相关性定义的基础）：存在常数 $\rho \in [0,1]$（即广义相关性的值），使得对任意 $q_1, q_1' \in \mathcal{P}_1, q_2, q_2' \in \mathcal{P}_2$，有
\[\text{KL}(q_1' q_2' \parallel \pi) - \text{KL}(q_1^\star q_2^\star \parallel \pi) \leq \rho \cdot \text{KL}(q_1' q_2 \parallel \pi - \text{KL}(q_1^\star q_2^\star \parallel \pi)), \text{etc.}\]
实际上，这是一个关于更新步骤的收缩不等式——需要验证。作者提出，在共轭指数族模型中，$\rho$ 可由期望曳引矩阵（如 $\mathbb{E}[\nabla^2 \log \pi]$ 的某种曲率）推导。
假设 A2（局部版本）：在某个邻域内，上述不等式成立但需要 $\rho$ 可能是局部的。

与已有文献相比：本文明显放宽了模型类型（共轭 vs 任意）的绑定——之前的工具（Zhang & Zhou 2017; Plummer et al. 2020）依赖于特定模型结构；本文试图给出用 $\rho$ 判据来覆盖新的模型。同时，本文仍然要求 两区块 完整因子分解——对多区块只字未提，这是主要限制。另外，如何计算 $\rho$ 需要用户自行解决（文献中未给出通用算法）。

主要结果¶

定理 1（全局指数收敛）：在假设 A0 和 A1 下，若 $\rho < 1$，则 CAVI 对任意起始点都有

\[\text{KL}(q_1^{(t)} q_2^{(t)} \parallel \pi) \leq \rho^t \cdot \text{KL}(q_1^{(0)} q_2^{(0)} \parallel \pi).\]

- 直觉：CAVI 迭代 = 一个在 Banach 空间上、以 $\rho$ 为收缩常数的收缩映射；由 Banach 不动点定理确保找到了唯一固定点。 - 必要条件：需假设 $\pi$ 的测度空间使得 $\mathcal{Q}$ 是完备度量空间（通常成立）；还需 $\rho$ 的显式上界存在且小于1。

定理 2（局部收敛率）：在假设 A0 和 A2（局部版本）下，若 $\rho < 1$，则存在某个邻域使得收敛线性；若 $\rho = 1$，退化为对数型收敛——在这退化情形，算法可能极慢。

应用实例： 1. Bayesian 线性回归（两层、正太-逆伽马）：$\rho = \frac{||\mathbf{X}||_F^2}{||\mathbf{X}||_F^2 + \lambda}$——若训练数据方差较小/Frobenius 范数较大，则 $\rho$ 趋近 1（收敛慢），反之则快。作者给出具体数值上界，例如在 $n=100$, $d=10$ 的模拟中，估计 $\rho \approx 0.8$，从而得 10 次迭代内 KL 降到 0.1。 2. 高斯混合模型（两分量、已知方差，均值参数）：$\rho$ 由两个均值与共同方差的比率决定——分离度越大，$\rho$ 越小。这与直觉吻合：混合分量分离时，均场假设低害，算法快速收敛。

证明路线与技术技巧¶

整体路线（3-5 步）： 1. 重新解释 CAVI：每步 CAVI 更新 = 将当前分布 $q_1^{(t)} q_2^{(t)}$ 向 $\mathcal{P}_1$ 做 KL 投影（固定 $q_2^{(t)}$），再向 $\mathcal{P}_2$ 做 KL 投影。 2. 刻画两步投影的收缩：定义映射 $T: \mathcal{Q} \to \mathcal{Q}$ 为一次完整的两步 CAVI；证明 $T$ 的 Lipschitz 常数正是广义相关性 $\rho$——一个重要引理显示

\[d(q_1^{(t+1)} q_2^{(t+1)}, \mathcal{Q}^\star) \leq \rho \cdot d(q_1^{(t)} q_2^{(t)}, \mathcal{Q}^\star),\]

其中 $d$ 是以 KL 散度为"距离"（严格来说是 Bregman 散度）。 3. Banach 不动点定理：若 $\rho < 1$，则 $T$ 是收缩映射，其唯一不动点正是全局最优 $q_1^\star q_2^\star$。 4. 计算 $\rho$：对于条件共轭模型，$\rho$ 可以用期望曳引矩阵（expected information matrix）的特征值表达——作者举例展示了线性回归与混合模型情景。 5. 边界情况：当 $\rho = 1$ 时，用张量幂级数推理论证 KL 散度的衰减至少是 $1/t$。

关键跳跃点：最核心的引理是Lemma 3.1——它建立了"投影操作的 KL 收缩不等式"：若 $q_1^{(t+1)} = \arg\min \text{KL}(\cdot q_2^{(t)} \parallel \pi)$，则

\[\text{KL}(q_1^{(t+1)} q_2^{(t)} \parallel \pi) - \text{KL}(q_1^\star q_2^\star \parallel \pi) \leq \rho \cdot [\text{KL}(q_1^{(t)} q_2^{(t)} \parallel \pi) - \text{KL}(q_1^\star q_2^\star \parallel \pi)].\]

这个不等式依赖关于两个区块的 log-后验的二阶交叉偏导的某种条件期望上界；它把"两步过程"的收缩系数度量化为关于交叉项──即 $\frac{\partial^2 \log \pi(z_1,z_2)}{\partial z_1 \partial z_2}$ 的条件 L2 范数。这个引理直接要求计算模型的 Fisher 信息矩阵的块外交叉项——对于非指数族模型，此项可能没有封闭形式。

技术技巧点名： - Banach 不动点定理（压缩映射）在整个证明框架中起核心作用。 - KL 散度的凸性和投影定理：将每步 CAVI 视为在测度空间上的 KL 投影（Bregman 投影），利用 KL 的凸性导出全局收缩不等式。 - 广义相关系数：本质上是一种积分指数 – 对互信息（mutual information）的缩放版本——但作者选择不引用信息论概念，而自创"generalized correlation"。 - 函数分析中的 Lebesgue–Riesz 表示定理用于定义作用于测度的线性泛函，从而将 $\rho$ 定义为某个算子的范数。

真实例子与应用¶

线性回归：使用模拟数据 $(n=100, d=10)$，先验 $\beta \sim N(0, I)$，误差方差已知取 1。计算 $\rho \approx 0.8$，展示 KL 散度指数下降。
高斯混合模型（两分量）：模拟合成数据 $(n=500, d=2)$，两个均值真值相距 $\Delta$。当 $\Delta = 1$ 时 $\rho \approx 0.9$，$\Delta = 3$ 时 $\rho \approx 0.5$。作者用此强调分离度对收敛速度的重要影响——与 Ghorbani et al. (2018) 报告的"不稳定"区域形成对比：若分离度小且 $\rho$ 接近 1，收敛非常慢，但不是发散。
这些例子说明：$\rho$ 在同一模型中随问题参数变化；用户可以计算 $\rho$ 作为算法收敛的预警指标。但没有真实数据（全是模拟）——这是纯演示。

🔎 结论是否比证明窄¶

是：主要定理（定理1）只保证在两区块设定下的全局线性收敛；但在多个例子中，作者声称"只要 $\rho < 1$ 就快速收敛"，但并未证明实际发现的固定点是否总是全局最优——固定点的唯一性通过压缩映射自动得到，但"$\rho <1$"的充分性没有一般性快速验证准则。当 $\rho \approx 1$ 时，证明只给出了对数收敛率，例子中也显示了极慢行为——作者没有将这种情形称为"失败"或"错误"，但明显离实用的收敛保证很远。
conjecture：文中最后一部分承认"multi-block extension is not straightforward"——即多区块情况没有理论。这与许多真实应用中 $k > 2$ 的设定脱节。
作者的"Theorem 1"的前提假设（A0, A1）并非 trivial：它们要求 $\pi$ 的对数密度在 L² 空间中足够光滑且交叉偏导满足界——在复杂分层模型（混合模型之后的多层模型）中，可能无法验证。

四、开放问题¶

下面列出作者明确或暗示的开放问题，每条扎根于具体语句：

多区块扩展（$k > 2$ 区块）："Extending our theory to the multi-block case is an important direction for future work"（Section 6）。通向该问题的主要困难在于：广义相关性 $\rho$ 在两区块中仅依赖一对交互，而多区块时需同时考虑所有成对交互及更高阶交互——当前的技术（压缩投影引理）是否可以直接扩展非常可疑。研究者可以用熟悉的高阶 U-统计量方法（einsum / treewidth）来刻画多区块收缩系数的组合图结构。
锐界性（Sharpness）：本文提供的 $\rho$ 上界可能远松于真实收缩率。作者未提供多远低界（lower bound on convergence rate）——即已知一些模型中的 CAVI 收敛速度必然慢于 $\rho$ 给出的速度。研究者可在高斯混合例子上构造一个"坏初始点"使得 KL 散度衰减显著慢于 $\rho^t$——验证上界是否紧。
非共轭模型与 Rényi 散度优化：作者专注于 KL 散度与完全共轭设定。但在参考文献[15]（Li & Turner, 2016）中已有 Rényi 散度 VI——对于 $\alpha \in (0,1)$，Rényi 散度可能放松 CAVI 的几何收缩性。一个重要问题是：广义相关性 $\rho$ 是否可以推广到 $\alpha$-散度，从而得到不同的收缩率。这一方向直接根植于用户的武库：半参理论（调整散度类型）与统计计算（数值优化推广）。
信息-计算权衡的连接：Ghorbani et al. (2018) 的报告的不稳定区域——$\rho$ 不那么接近 1 但仍发生失败——表明单纯的收敛速度不能捕获"VI 的估计是否与真相无关"。一个更深层的问题是"当 $\pi$ 属于统计-计算间隙区域（如混合模型中两分量间距小于 $\sqrt{d/n}$ 但大于常数），CAVI 的 $\rho$ 与信号强度之间的相变关系？"这个方向直接连接用户的统计-计算权衡兴趣，但完全由作者略过。需要特别注意：这仍是作者的 conjecture——论文没提；若要去追，应读 Wu & Zhou (2019) [15] 和 Celentano et al. (2021) [18] 关于 EM/AMP 的 gap 讨论，再回过来比较 CAVI。

Maintained by 陈星宇 · Homepage · Source on GitHub