跳转至

Closed-form solutions to some generalized variational inference problems

作者: Hien Duy Nguyen, Jacob Westerhout
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.25492


一、领域脉络与小综述

这个方向是什么

本文研究的核心问题是广义变分推断(Generalized Variational Inference, GVI) 中的无约束测度级优化问题。具体来说,给定一个先验概率测度 \(P\)、一个损失函数 \(\ell\)、一个正则化强度 \(\alpha > 0\) 和一个散度 \(D\),目标是找到概率测度 \(Q\) 来最小化:

\[\arg\min_{Q \in \mathcal{P}(\mathcal{Z})} \left\{ \int_{\mathcal{Z}} \ell dQ + \alpha D(Q\|P) \right\}.\]
\(D\) 是 KL 散度时,该问题的解就是经典的贝叶斯后验(Gibbs 分布)。本文试图回答:对于哪些非 KL 的散度,这个无约束优化问题仍然存在闭式解(closed-form solution)? 该方向目前处于理论推导阶段,主要关注解的存在性、形式及其与经典贝叶斯推断的关系,而非算法实现或大规模应用。

发展脉络(history)

  1. 奠基工作:KL 散度与 Gibbs 公式

    • Walker (2006)Bissiri et al. (2016) 将贝叶斯推断重新表述为一个最小化问题,其中损失函数为负对数似然,正则化项为 KL 散度。这为 GVI 提供了优化视角。
    • Polyanskiy and Wu (2024) 系统阐述了 Donsker-Varadhan 变分公式,该公式将 KL 散度与指数积分联系起来,是 KL 正则化问题闭式解的理论基础。
    • Zhang (2006)Alquier (2024) 将 KL 正则化估计器与信息论和 PAC-Bayes 界联系起来,展示了其在学习理论中的重要性。
  2. 主要进展:f-散度与变分形式

    • Ali and Silvey (1966)Csiszár (1967) 奠定了 f-散度的理论基础。
    • Broniatowski and Keziou (2009)Nguyen et al. (2010) 利用 f-散度的变分形式进行散度估计和参数估计,展示了其通过凸风险最小化进行 M-估计的潜力。
    • Nowozin et al. (2016) 将 f-散度的变分形式用于训练生成对抗网络(f-GAN),将这一理论工具推广到深度学习领域。
    • Ruderman et al. (2012) 提出了更紧的 f-散度变分表示,并基于此推导了双样本散度估计器。
  3. 当前 Frontier:非 KL 散度的 GVI 与闭式解

    • Birrell et al. (2022) 提出了 \((f, \Gamma)\)-散度,并给出了一个广义的 Gibbs 公式,该公式在特定条件下可以导出 f-散度正则化问题的解。本文的 f-散度定理正是该公式在损失最小化框架下的具体化。
    • Knoblauch et al. (2022) 系统性地发展了 GVI 的优化中心视角,但主要关注计算限制和变分族,而非无约束测度级解。
    • Martins and Astudillo (2016)Martins et al. (2022) 在有限维单纯形上研究了由欧几里得或 Tsallis 型惩罚诱导的稀疏预测映射(如 sparsemax, entmax),这些是本文 Bregman 散度解在有限维情况下的类比。
    • Atar et al. (2015)Anantharam (2018)Birrell et al. (2021) 发展了 Rényi 散度的 Donsker-Varadhan 型变分理论,为本文的 Rényi 正则化问题提供了理论基础。
  4. 本文的位置:本文是上述脉络的直接延伸。它系统性地回答了“除了 KL 散度,还有哪些散度能产生闭式解?”这个问题。它统一并推广了 Birrell et al. (2022) 的 f-散度结果,将其与 Bregman 散度和 Rényi 散度的新结果并列,形成了一个完整的理论框架。它填补了从有限维单纯形(如 sparsemax)到无限维密度空间的空白,并提供了具体的例子和可视化。

子线索聚类

  1. f-散度正则化:这条线索关注使用 f-散度作为惩罚项。核心工具是 f-散度的变分表示和凸对偶。主要工作包括 Ali and Silvey (1966), Csiszár (1967), Broniatowski and Keziou (2009), Nguyen et al. (2010), Nowozin et al. (2016), Birrell et al. (2022)。本文的贡献在于给出了一个通用的逆梯度密度公式和一维对偶恒等式。

  2. Bregman 散度正则化:这条线索关注使用 Bregman 散度作为惩罚项。核心工具是 Legendre 函数、镜像下降和凸积分最小化。主要工作包括 Bregman (1967), Bauschke and Borwein (1997), Beck and Teboulle (2003), Csiszár (1995), Broniatowski and Keziou (2006)。本文的贡献在于给出了密度空间中的镜像下降步解和一个标量质量乘子。

  3. Rényi 散度正则化:这条线索关注使用 Rényi 散度作为惩罚项。核心工具是其独特的变分理论。主要工作包括 Rényi (1961), Atar et al. (2015), Anantharam (2018), Birrell et al. (2021)。本文的贡献在于推导出了归一化截断幂特征和全局最优解的阈值方程。

这个方向在追问的核心问题

  1. 解的存在性与唯一性:对于给定的散度 \(D\) 和损失 \(\ell\),无约束 GVI 问题 (1) 的解是否存在且唯一?本文为 f-散度(严格凸)和 Bregman 散度(严格凸)证明了唯一性,但 Rényi 散度部分只给出了特征刻画,不保证唯一性。
  2. 闭式解的形式:当解存在时,它是否具有一个简洁的解析形式?本文给出了三类散度的闭式解,形式包括逆梯度、镜像步和截断幂律。
  3. 与经典贝叶斯推断的关系:非 KL 散度的 GVI 解与经典贝叶斯后验有何不同?本文通过有限模型权重和共轭模型例子展示了它们在稀疏性、尾部行为等方面的差异。
  4. 计算可行性:虽然解是闭式的,但通常涉及一个一维的标量乘子(Lagrange 乘子)的求解。这个乘子的计算是否高效?本文指出可以通过一维求根过程求解,但未深入分析其数值性质。

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者将缺口 frame 为“无约束测度级 GVI 问题的闭式解”。他们强调,现有工作(如 Knoblauch et al. (2022))主要关注计算限制变分族(即限制解的形式),而忽略了无约束问题本身的解析解。因此,本文的贡献是“使非 KL 的 GVI 在分析上可处理”,为后续的渐近理论(如 Bernstein-von Mises 定理)提供输入。
  • 哪些竞争路线被他淡化或回避了
    • 计算视角:作者明确将本文与“主要研究计算限制或变分族”的工作区分开,暗示那些工作是在“近似”而非“精确”求解。这淡化了变分推断(VI)在实际应用中的巨大成功和重要性。
    • 非凸散度:本文假设 f-散度和 Bregman 散度的生成函数是严格凸的。对于非凸的散度(如某些鲁棒散度),本文的理论不适用。
    • 散度的定义域:Bregman 散度部分假设了一个共同的支配测度 \(\mu\),这限制了其应用范围。f-散度部分则没有这个限制,但要求 \(Q \ll P\)
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
    • 分布鲁棒优化(DRO):本文在例 3.2 的 Pearson \(\chi^2\) 例子中提到了 DRO(Namkoong and Duchi, 2016),但并未将其作为一条主要线索。DRO 领域大量使用 f-散度球进行鲁棒优化,其解的形式(如截断)与本文的 f-散度解高度相似。将 GVI 与 DRO 联系起来可能是一个有价值的讨论点。
    • 广义贝叶斯推断的渐近理论:作者在结论中提到了 Miller (2021) 和 Nguyen et al. (2026) 的工作,但未在引言中深入讨论。这些工作研究广义后验的渐近性质(如一致性、Bernstein-von Mises 极限),本文的闭式解恰好可以为这些理论提供精确的输入。这是一个明显的连接点。

张力

未见明显对立引用。所有被引工作都在各自的框架下发展,没有出现直接矛盾或相反结论的情况。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \(\mathcal{Z}\):一个可测空间,参数 \(\theta\) 或模型索引 \(i\) 所在的集合。
    • \(\mathcal{P}(\mathcal{Z})\)\(\mathcal{Z}\) 上所有概率测度的集合。
    • \(P\):先验概率测度,是已知的。
    • \(Q\):候选的后验概率测度,是我们要找的。
    • \(\ell: \mathcal{Z} \to (-\infty, \infty]\):损失函数,将参数 \(\theta\) 映射到其“不好”的程度。在贝叶斯推断中,通常 \(\ell(\theta) = -\log L(x|\theta)\)(负对数似然)。
    • \(\alpha > 0\):正则化强度,控制损失项和散度项之间的权衡。
    • \(D(Q\|P)\):从 \(Q\)\(P\) 的散度,衡量两个概率测度之间的“距离”。
    • \(u = dQ/dP\):Radon-Nikodym 导数,即 \(Q\) 相对于 \(P\) 的密度。
    • \(f\):f-散度的生成函数,是一个凸函数。
    • \(\psi\):Bregman 散度的生成函数,是一个凸函数。
    • \(r\):Rényi 散度的阶数,\(r > 1\)
    • \(\lambda\):拉格朗日乘子,用于满足概率测度的归一化约束 \(\int u dP = 1\)
    • \(f^*\)\(f\) 的 Fenchel 共轭。
    • \(f'\)\(f\) 的导数。
    • \((f')^{-1}\)\(f'\) 的反函数。
  • 模型:数据生成机制是隐含的。我们有一个先验 \(P\) 和一个损失函数 \(\ell\)。目标是找到一个后验 \(Q\),使得期望损失 \(\int \ell dQ\) 和与先验的“距离” \(\alpha D(Q\|P)\) 之和最小。这是一个优化问题,而不是一个概率模型。

  • 可观测数据

    • 可观测:先验 \(P\) 是已知的,损失函数 \(\ell\) 是已知的(它依赖于观测数据 \(x\),例如 \(\ell(\theta) = -\log L(x|\theta)\)),正则化强度 \(\alpha\) 是给定的。
    • 想要但观测不到:我们想要找到最优的后验 \(Q^*\)。它不是一个可以直接观测的量,而是需要通过求解优化问题来得到的。在无约束 GVI 中,\(Q^*\) 是一个概率测度,其形式由 \(P\)\(\ell\)\(\alpha\)\(D\) 决定。

第二步:讲最小内核

本文的核心思想是:对于一大类散度,无约束 GVI 问题的解可以通过“点态最小化”一个标量函数来获得,而这个标量函数的形式取决于散度的类型。

最简特例:KL 散度(Gibbs 公式)

这是最经典、最简单的例子。设 \(D(Q\|P) = KL(Q\|P) = \int \log(dQ/dP) dQ\)

  1. 问题:最小化 \(\int \ell dQ + \alpha \int \log(u) u dP\),其中 \(u = dQ/dP\)\(\int u dP = 1\)
  2. 核心想法:使用拉格朗日乘子法。引入乘子 \(\lambda\) 来处理归一化约束 \(\int u dP = 1\)。拉格朗日函数为:
    \[\mathcal{L}(u, \lambda) = \int \ell u dP + \alpha \int u \log u dP + \lambda \left( \int u dP - 1 \right).\]
  3. 点态最小化:由于被积函数是可分离的(只依赖于 \(u(z)\)\(z\)),我们可以对每个 \(z\) 独立地最小化被积函数。对于固定的 \(z\),我们需要最小化:
    \[\ell(z) u + \alpha u \log u + \lambda u.\]
    这是一个关于 \(u\) 的凸函数。对其求导并令导数为零:
    \[\ell(z) + \alpha (\log u + 1) + \lambda = 0.\]
    解得:
    \[u(z) = \exp\left( -\frac{\ell(z) + \lambda}{\alpha} - 1 \right).\]
  4. 归一化:将 \(\lambda\) 吸收进归一化常数,得到:
    \[u^*(z) = \frac{\exp(-\ell(z)/\alpha)}{\int \exp(-\ell(z')/\alpha) dP(z')}.\]
    这就是经典的 Gibbs 公式,也是贝叶斯后验(当 \(\ell = -\log L\)\(\alpha=1\) 时)。

推广到 f-散度

本文的核心推广是:对于一般的 f-散度 \(D_f(Q\|P) = \int f(u) dP\),上述点态最小化的思路仍然成立。我们需要最小化的标量函数变为:

\[\alpha f(t) + (\ell(z) + \lambda) t.\]
这个函数的最小值点可以通过求导得到(如果 \(f\) 可微且严格凸):
\[\alpha f'(t) + \ell(z) + \lambda = 0 \quad \Rightarrow \quad t = (f')^{-1}\left( -\frac{\ell(z) + \lambda}{\alpha} \right).\]
如果 \(f'\) 的值域有下界(例如 \(f'(0^+) > -\infty\)),那么当 \(-\frac{\ell(z) + \lambda}{\alpha}\) 小于这个下界时,最小值在边界 \(t=0\) 处取得。这就是公式 (5) 的来源。

总结:本文的数学内核就是将无限维的测度优化问题,通过拉格朗日乘子法和可分离结构,转化为一系列一维的标量优化问题。不同散度的区别仅在于这个标量优化问题的形式不同,从而导致了不同的闭式解。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:本文研究了广义变分推断(GVI)中,当惩罚项为 f-散度、Bregman 散度和 Rényi 散度时,无约束测度级优化问题的闭式解。
  2. 核心工具 / 方法:核心工具是拉格朗日乘子法可分离凸积分的最小化(Lemma 10)、Fenchel-Young 不等式以及各类散度的变分表示(如 Donsker-Varadhan 公式)。
  3. 主要结论:对于 f-散度,解由逆梯度密度公式给出;对于 Bregman 散度,解是密度空间中的镜像步;对于 Rényi 散度(\(r>1\)),解是归一化的截断幂律。所有解都涉及一个通过一维方程确定的标量乘子。

关键设定与假设

  • Condition 1 (可测空间假设)\(\ell\) 是可测的、属于 \(L^1(P)\)\(P\)-几乎处处有下界。这是保证目标函数良定义和有限的基本假设。
  • f-散度假设\(f\) 是 proper、LSC、凸的,在 \((0,\infty)\) 上可微且严格凸,\(f(1)=0\)\(f(t)\ge 0\)\(f'_+(0) \in [-\infty, \infty)\)\(f'_-(\infty) = \infty\)。这些假设保证了标量目标函数的 coercivity 和唯一最小化点的存在。
  • Bregman 散度假设 (Condition 2):存在一个 \(\sigma\)-有限支配测度 \(\mu\)\(P \ll \mu\)\(Q \ll \mu\)。生成函数 \(\psi\) 是 proper、LSC、严格凸、可微的,且 \(\psi'_-(\infty) = \infty\)。根据定义域 \(I\)\([0,\infty)\) 还是 \((0,\infty)\),对 \(\psi'_+(0)\) 有不同假设。这些假设保证了密度空间中的点态最小化问题有唯一解。
  • Rényi 散度假设 (Condition 3)\(r > 1\),且 \(0 < \int (u^*)^r dP < \infty\)。这个假设是证明过程中为了进行变分法推导而需要的,它保证了最优解 \(u^*\)\(L^r\) 范数有限且非零。

相比已有文献的放宽或强化: * 放宽:与 Knoblauch et al. (2022) 等主要研究参数化变分族的工作相比,本文放宽了对解空间的限制,允许解是任意概率测度。 * 强化:与 Birrell et al. (2022) 的广义 Gibbs 公式相比,本文的 f-散度定理是其在损失最小化框架下的一个具体化,并给出了更明确的解表达式。同时,本文对 Bregman 和 Rényi 散度的处理是新的

主要结果

  1. Theorem 1 (f-散度解):给出了 f-散度正则化问题的唯一解,其密度由公式 (5) 给出。该公式是逆梯度 \((f')^{-1}\) 作用于一个线性变换后的损失函数,并可能被截断在零。解的唯一性由 \(f\) 的严格凸性保证。
  2. Corollary 2 (f-散度对偶恒等式):给出了原问题的一个对偶表示 (7),其中对偶变量是拉格朗日乘子 \(\lambda\)。这个对偶形式在计算上可能更有优势。
  3. Theorem 3 (Bregman 散度解):给出了 Bregman 散度正则化问题的唯一解,其密度由公式 (18) 或 (19) 给出。该公式可以理解为密度空间中的镜像下降步\(\psi'(q^*) = \psi'(p) - (\ell + \lambda^*)/\alpha\)
  4. Theorem 7 (Rényi 散度解的特征刻画):给出了 Rényi 散度(\(r>1\))正则化问题全局最优解的必要条件。最优解的密度必须是归一化的截断幂律形式 (27),且阈值 \(\lambda^*\) 必须满足方程 (28)。注意:该定理是特征刻画而非存在性定理,且不保证唯一性。

证明路线与技术技巧

整体路线(以 f-散度为例): 1. 引入拉格朗日乘子:将带约束 \(\int u dP = 1\) 的优化问题转化为无约束的拉格朗日函数。 2. 点态最小化:利用被积函数的可分离性,将问题分解为对每个 \(z\) 独立地最小化一个关于 \(t\) 的标量函数 \(H_z(t) = \alpha f(t) + (\ell(z) + \lambda)t\)。 3. 求解标量问题:利用 \(f\) 的凸性和可微性,通过求导得到内点解,并通过边界条件处理截断情况,得到 \(u_\lambda(z)\) 的显式表达式 (5)。 4. 确定拉格朗日乘子:通过求解归一化方程 \(\int u_\lambda dP = 1\) 来确定唯一的 \(\lambda^*\)。Lemma 12 保证了该方程解的存在性和唯一性。 5. 验证最优性:利用 Fenchel-Young 不等式(Lemma 9)证明,对于任意可行的 \(u\),目标函数值不小于对偶函数在 \(\lambda^*\) 处的值,而 \(u_{\lambda^*}\) 恰好达到这个下界,因此是最优的。

关键跳跃点: * 从无限维到一维:将无限维的测度优化问题转化为一系列独立的一维标量优化问题。这一步依赖于目标函数的可分离结构拉格朗日乘子法。 * 处理截断:对于 f-散度和 Bregman 散度,当损失函数的值使得标量目标函数的最小值在边界 \(t=0\) 处取得时,解会出现截断(即密度为零的区域)。这要求仔细处理 \(f'_+(0)\)\(\psi'_+(0)\) 等边界条件。 * Rényi 散度的变分法:Rényi 散度不是可分离的积分形式,而是一个对数积分。因此,不能直接使用点态最小化。证明采用了变分法:考虑一个小的可行扰动,利用一阶最优性条件(Gateaux 导数)来推导最优解的必要形式。这是证明中最具技巧性的部分。

技术技巧点名: * Fenchel-Young 不等式:用于证明 f-散度和 Bregman 散度解的最优性,并推导对偶恒等式。 * 可分离凸积分最小化 (Lemma 10):将无限维优化问题分解为点态标量优化问题的理论基础。 * 拉格朗日乘子法 (Lemma 11):处理概率测度的归一化约束。 * 单调函数求逆 (Lemma 12):保证归一化方程 \(\int u_\lambda dP = 1\) 有唯一解。 * 变分法 / Gateaux 导数:用于处理 Rényi 散度这种非可分离的惩罚项。 * Lambert W 函数:用于求解混合方向 KL 散度问题中出现的超越方程。

真实例子与应用

本文包含两个真实例子:

  1. 有限模型权重 (Section 6)

    • 数据/场景:考虑一个有限模型列表 \(\{M_1, \dots, M_K\}\),每个模型有先验权重 \(p_i\) 和模型证据 \(m_i(x)\)。损失函数设为负对数模型证据 \(\ell_i = -\log m_i(x)\)
    • 方法应用:将无约束 GVI 问题退化到有限单纯形 \(\Delta_K\) 上,然后应用前文推导的各种散度的闭式解公式,得到不同散度下的广义后验模型权重,如公式 (30) 和 (31)。
    • 结果:以 Yao et al. (2018) 中的高斯模型列表为例(\(M_i = N(i, 1)\),观测值 \(x=3.4\)),展示了不同散度(KL, \(\chi^2\), Least Squares, Jeffreys, Burg, Rényi)产生的后验权重向量。结果显示,非 KL 散度可以产生更平坦(如 Burg)或更稀疏(如 Least Squares, Rényi)的权重分布。
    • 目的:这个例子旨在说明,闭式解可以很容易地应用于模型平均问题,并且不同的散度会导致不同的模型组合策略,为实践者提供了更多选择。
  2. 共轭贝叶斯模型 (Section 7)

    • 数据/场景:两个经典的共轭模型:正态-正态(\(\theta \sim N(0,1), Y|\theta \sim N(\theta,1)\),观测值 \(y=1.5\))和泊松-伽马(\(\theta \sim Gamma(2,1), Y|\theta \sim Poisson(\theta)\),观测值 \(y=6\))。
    • 方法应用:将损失函数设为负对数似然 \(\ell(\theta) = -\log p(y|\theta)\),然后应用各种散度的闭式解公式,得到不同散度下的广义后验密度。
    • 结果:通过图 1 和图 2 展示了不同散度(KL, Jeffreys, \(\chi^2\), Least Squares, Burg, Rényi)和不同 \(\alpha\) 值下的后验密度曲线。例如,KL 散度在 \(\alpha=1\) 时恢复经典后验;\(\chi^2\) 和 Least Squares 散度产生截断的密度;Jeffreys 和 Burg 散度则产生非截断但形状不同的密度。
    • 目的:这个例子旨在直观地展示不同散度对后验密度形状的影响,说明“改变散度不仅仅是改变有效温度”,而是从根本上改变了后验的数学形式(如是否稀疏、尾部行为等)。

🔎 结论是否比证明窄

  • Rényi 散度部分:Theorem 7 是一个特征刻画,它给出了全局最优解必须满足的条件,但没有证明存在性。作者在 Remark 8 中明确指出了这一点,并给出了一个存在多个候选解的例子。因此,结论(“最优解是截断幂律”)比证明(“如果存在最优解,它必须是截断幂律”)要窄。作者没有声称对所有情况都存在解。
  • Bregman 散度部分:Theorem 3 的结论依赖于一个条件:“如果常数 \(\alpha \int \{\psi'(p)p - \psi(p)\} d\mu\) 是有限的”。这个条件在证明中被提及,但在结论陈述中可能被读者忽略。实际上,如果这个常数是无穷大,那么原始 Bregman 正则化问题可能没有意义,或者解集与简化问题 (16) 的解集不同。这是一个需要检查的假设。
  • 一般性声明:作者在结论中说“Exact GVI solutions exist beyond the KL/Gibbs case”。这个声明是准确的,但需要结合前文的假设来理解。它并不意味着对所有散度都存在闭式解,而是指对于本文研究的三类特定散度,在相应的假设下,解是存在的且是闭式的。

四、开放问题

  1. Rényi 散度的存在性与唯一性:Theorem 7 只给出了最优解的必要条件,但未证明存在性,且不保证唯一性。扎根于:Remark 8 中给出的多解例子和“The theorem does not assert uniqueness”的陈述。一个开放问题是:在什么条件下(例如,对损失函数 \(\ell\) 和先验 \(P\) 的额外假设),Rényi 正则化问题存在唯一解?

  2. 非凸散度的 GVI:本文假设 f-散度和 Bregman 散度的生成函数是严格凸的。对于非凸的散度(例如某些用于鲁棒推断的散度),无约束 GVI 问题的解会是什么样?扎根于:Section 3 和 4 中关于 \(f\)\(\psi\) 严格凸的假设。

  3. 闭式解的数值计算与渐近性质:本文的闭式解都涉及一个一维标量乘子 \(\lambda^*\) 的求解。虽然作者提到可以用一维求根法,但未分析其数值稳定性、计算复杂度,以及当样本量 \(n \to \infty\) 时,\(\lambda^*\)\(Q^*\) 的渐近行为。扎根于:Section 8 的结论部分,作者提到“development of stochastic or deterministic solvers for the scalar multiplier, and analysis of their numerical and statistical properties”是未来工作。

  4. 与分布鲁棒优化(DRO)的深层联系:本文在 Pearson \(\chi^2\) 例子中提到了 DRO,但未深入探讨。DRO 中的 f-散度球优化问题与 GVI 问题在数学形式上非常相似。一个开放问题是:本文的闭式解能否为 DRO 提供新的理论见解或更高效的算法?扎根于:Section 3.2 中对 Namkoong and Duchi (2016) 的引用。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论