Analytic natural gradient updates for Cholesky factor in Gaussian variational approximation¶

作者: Linda S L Tan
来源: Journal of the Royal Statistical Society Series B
主题: 统计计算 / 算法
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题：在高斯变分近似（Gaussian variational approximation）框架下，如何高效且稳定地计算自然梯度（natural gradient），以加速变分推断的收敛并提高参数化可解释性。高斯变分近似将后验分布近似为一个多元正态分布 \( q(\theta) = N(\theta \mid \mu, \Sigma) \) 或 \( q(\theta) = N(\theta \mid \mu, \Omega^{-1}) \)，目标是最小化 \( \mathrm{KL}(q(\theta) \| p(\theta \mid y)) \) 等价于最大化证据下界（ELBO）。自然梯度方法利用参数空间的黎曼几何结构，沿 Fisher 信息矩阵的逆方向更新，可显著改善随机梯度下降在病态曲率下的收敛。但 Fisher 信息矩阵的求解（求逆或分解）在高维（d 大）时计算代价高昂，且精度矩阵（协方差矩阵的逆）的自然梯度更新不能保证正定性。本文正是针对这一核心矛盾提出解析解。

当前成熟度：已有多种近似策略（K-FAC、块对角、共轭梯度求解器），但缺乏针对 Cholesky 因子的解析自然梯度，且大多不能同时保证正定性与线性复杂度。

发展脉络（history）¶

以下按时间与逻辑顺序梳理（引用句均来自本文的“本文引用语境”行，除非作者另有附加说明）：

奠基工作：Attias (1999) 提出变分贝叶斯框架，将后验近似问题系统化为 KL 散度最小化。Wainwright & Jordan (2008) 建立指数族与变分的联系。这些为后续高斯近似奠定基础。
主要进展：
欧几里得梯度下的 Cholesky 因子更新：Titsias & Lázaro-Gredilla (2014) 与 Tan & Nott (2018) 分别提出基于协方差或精度矩阵的 Cholesky 因子的解析更新，但本文引言明确指出现有解析更新“基于欧几里得梯度”（Tan & Nott, 2018 是作者自身的先前工作）。
自然梯度在变分推断中的应用：Khan et al. (2018) 针对均值场高斯变分推导了均值和精度的自然梯度更新，但本文引言指出“精度矩阵的更新不能确保正定性”（引用语境：将 Bonnet 与 Price 定理用于梯度，但正定性无保证）。Martens (2020) 将自然梯度解释为二阶优化方法，推动了 Fisher 信息作为 Hessian 近似被广泛使用。
结构化自然梯度近似：Tran et al. (2020) 利用协方差的因子结构并结合共轭梯度线性求解器做自然梯度近似（基于块对角 Fisher），但未给出闭式更新。Martens & Grosse (2015) 的 K-FAC 使用 Kronecker 因式分解近似 Fisher，但仍是近似而非精确解析。
稀疏精度矩阵参数化：Tan & Nott (2016) 用 Cholesky 因子编码稀疏精度矩阵，但优化仍采用欧几里得梯度。
当前 frontier 与本文位置：本文是第一条直接在 Cholesky 因子上推导 解析自然梯度 的路线，同时保证正定性、线性计算复杂度，并能通过稀疏约束适应不同后验相关结构。

子线索聚类¶

解析欧几里得梯度类（代表：Titsias & Lázaro-Gredilla, 2014；Tan & Nott, 2018）：将协方差或精度矩阵参数化为 Cholesky 因子，对 ELBO 直接求欧几里得梯度，更新快但不如自然梯度收敛快。
自然梯度类（代表：Khan et al., 2018；Zhang et al., 2018；Osawa et al., 2019）：直接对均值/精度做自然梯度，但精度更新可能不保正定；或以额外近似（如 K-FAC、共轭梯度求解器）克服可逆性代价。
结构化协方差近似类（代表：Tran et al., 2020；Lin et al., 2019b）：利用因子分解或混合近似在计算成本与表达力之间折衷，但需要迭代求解（共轭梯度）或近似 Fisher。
稀疏结构利用（代表：Tan & Nott, 2016；Attias, 1999 的块对角变分贝叶斯）：通过参数化（如 Cholesky 因子中的零模式）嵌入条件独立性假设，从而降低复杂度。

本文同时属于 1+2+4：将自然梯度从均值/精度推广到 Cholesky 因子，且保留稀疏约束。

这个方向在追问的核心问题¶

如何在高维 d 下精确且稳定地计算自然梯度，且复杂度与 d 呈线性而非立方？
如何保证参数更新过程中协方差 / 精度矩阵的正定性（自然梯度本身不保证）？
如何将自然梯度与结构化参数化（稀疏、低秩）结合，在灵活性与计算间取得平衡？
是否存在对非高斯变分族（如混合指数族）也有效的解析自然梯度？

已知瓶颈：Fisher 信息矩阵的显式求逆是 \( O(d^3) \)，K-FAC 等近似方案仍假设层间独立性；块对角或共轭梯度方案不能给出闭式更新，每步迭代仍需求解线性方程。

⚠️ 作者的 framing（必须明确标注为作者说法）¶

从摘要与引用语境判断，作者将缺口 frame 成：“现有 Cholesky 因子的解析更新基于欧几里得梯度”（Tan & Nott, 2018 等），而自然梯度虽能加速收敛（Khan et al., 2018），但其对精度矩阵的更新“不保证正定性”（Khan et al., 2018 原文提及的限制）；此外，“在 Fisher 矩阵求逆的高维困难”尚未被针对 Cholesky 因子的解析方法解决。因此本文声称“第一个推导了 Cholesky 因子的解析自然梯度更新”，并“自动保持正定性”，且“计算复杂度与参数维度成线性关系”。

本文淡化了哪些竞争路线？文中未直接对比 K-FAC （Martens & Grosse, 2015）在 Cholesky 因子参数化上的适应性；也未讨论前人的共轭梯度求解器（如 Tran et al., 2020）是否能通过重新参数化获得类似解析性。此外，对“平均场高斯”的过度简化（对精度矩阵正定性的担心）在自然梯度框架下可能不成立——Khan et al. (2018) 实际上可以监视正定性，但作者强调其不是自动保证。

值得查证的问题：是否存在文献（可能被忽略）在 Cholesky 因子上已经使用过自然梯度的近似形式？Tran et al. (2020) 的因子结构是否也可以被解析处理？从被引列表看，整个方向主要集中在大约 20 篇内，未见明显绕过本文封闭的替代路线。

张力¶

被引工作之间未见明显对立结论。Khan et al. (2018) 承认精度更新可能不保正定，Tan & Nott (2018) 使用欧几里得梯度，二者在收敛速度上的比较需要实验，但作者并未提出矛盾。Martens (2020) 认为自然梯度是二阶方法，而 Khan & Lin (2017) 强调自然梯度可由期望充分统计量的欧几里得梯度表示——这是同一枚硬币的两面。

二、最核心、最简单的例子 / 数学问题¶

符号、模型、可观测数据交代¶

设参数空间 \( \Theta \subseteq \mathbb{R}^d \)，我们观测到数据 \( y \)，似然 \( p(y \mid \theta) \)，先验 \( p(\theta) \)，后验 \( p(\theta \mid y) \propto p(\theta) p(y \mid \theta) \)。

变分分布：\( q(\theta; \mu, \Sigma) = N(\theta \mid \mu, \Sigma) \) 或 \( q(\theta; \mu, \Omega) = N(\theta \mid \mu, \Omega^{-1}) \)，其中 \( \Sigma \) 为协方差矩阵，\( \Omega \) 为精度矩阵。

待估参数（variational parameters）：均值 \( \mu \in \mathbb{R}^d \)，以及协方差 / 精度的 Cholesky 因子。
若使用协方差 Cholesky ：设 \( \Sigma = L L^\top \)，\( L \) 为下三角矩阵（正对角元素）。自由参数个数 \( d + d(d+1)/2 = O(d^2) \)。
若使用精度 Cholesky ：设 \( \Omega = \Lambda \Lambda^\top \)，\( \Lambda \) 为下三角矩阵。
稀疏版本：可在 \( L \) 或 \( \Lambda \) 中指定零模式（稀疏约束），对应后验条件独立性假设。
可观测数据：我们能计算：
对数后验密度 \( \log p(\theta \mid y) \) 及其关于 \( \theta \) 的梯度 \( \nabla_\theta \log p(\theta \mid y) \) 和海森 \( \nabla_\theta^2 \log p(\theta \mid y) \)（第一次或第二次导数）。这些是随机变量，因为 \( \theta \) 从变分分布抽样。
潜在 / 不可观测：真正的后验 \( p(\theta \mid y) \) 本身不可解析计算（归一化常数未知）。变分推断通过最大化 ELBO 来逼近。
目标 estimand：变分分布的自然参数 \( \lambda \)（对协方差参数化的自然参数需通过转换得到）。但对于 Cholesky 因子 \( L \)，它并不是指数族的自然参数，而是对 \( \Sigma \) 的平方根参数化。故需要推导对于 \( L \) 的“自然梯度”（黎曼梯度）而非欧几里得梯度。
可用计算：样本 \( \theta \sim q(\cdot) \) 可通过重参数化获得；一阶/二阶导数可通过自动微分获取。

最小内核特例：d = 1 的一元高斯变分¶

设 \( d = 1 \)，变分分布 \( q(\theta) = N(\mu, \sigma^2) \)，其中 \( \mu \in \mathbb{R}, \sigma > 0 \)。

协方差矩阵的 Cholesky 因子：\( L = \sigma \)。精度 Cholesky：\( \Lambda = 1/\sigma \)。

目标：最大化 ELBO \( \mathcal{L}(\mu, \sigma) = \mathbb{E}_{q(\theta)} [\log p(\theta \mid y) - \log q(\theta)] \)。

对于一般 \( d \) 的自然梯度，需要对 Fisher 信息矩阵 \( F(\lambda) \) 关于自然参数 \( \lambda \) 求逆。但这里我们用 Cholesky 参数化，定义参数向量 \( \psi = (\mu, \sigma)^\top \)。Fisher 信息矩阵 \( F(\psi) \) 为 \( \mathbb{E}_q [\nabla_\psi \log q(\theta; \psi) \nabla_\psi^\top \log q(\theta; \psi)] \)。但注意对于高斯分布，在 (μ,σ²) 参数化下自然参数为 \( \eta_1 = \mu/\sigma^2, \eta_2 = -1/(2\sigma^2) \)，自然梯度对 \( \eta \) 的更新步等于对期望充分统计量 \( (\mu, \mu^2 + \sigma^2) \) 的欧几里得梯度（Khan & Lin, 2017）。然而本文不使用自然参数，而是对 Cholesky 因子直接求 协方差矩阵的 Fisher 信息在 Cholesky 参数化下的解析自然梯度。

在 d=1 时，本文的关键结果退化为简单形式。设 \( L = \sigma \)。ELBO 关于 \( L \) 的欧几里得梯度为 \( \nabla_L \mathcal{L} \)（标量）。Fisher 信息矩阵在 \( L \) 参数化下为（考虑到 \( q(\theta) \) 对 \( L \) 的 Fisher 信息可由高斯分布的 Fisher 信息通过链式法则获得）：

\[F_L = \mathbb{E}_q \left[ \left( \frac{\partial \log q}{\partial L} \right)^2 \right]\]

经过计算（利用 \( \log q = -\frac12 \log(2\pi L^2) - \frac{(\theta-\mu)^2}{2L^2} \) 求导后求期望），可得 \( F_L = 2/L^2 \)。则自然梯度为：

\[\tilde{\nabla}_L \mathcal{L} = F_L^{-1} \nabla_L \mathcal{L} = \frac{L^2}{2} \nabla_L \mathcal{L}.\]

而在 d=1 的 ELBO 中，梯度可直接计算（例如 \( \nabla_L \mathcal{L} = \frac{1}{L} - L \mathbb{E}_q [\nabla_\theta^2 \log p(\theta \mid y)] \) 的高斯期望近似），因此自然梯度更新为：

\[L \leftarrow L + \alpha \cdot \frac{L^2}{2} \nabla_L \mathcal{L}.\]

此更新自动保持 \( L > 0 \)（只要步长不太大导致负数，实际可通过重参数化避免），且整个计算只需常数时间。这体现了本文的核心：自然梯度可解析表示，避免显式 Fisher 求逆。

推广到一般 d，关键在于 Fisher 信息矩阵在 Cholesky 参数化下具有特殊结构（下三角且元素间正交性），使得其逆仍是可解析表达的对角 / 稀疏结构，从而 \( O(d^2) \) 可降至 \( O(d^3) \) 的求逆避免。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高斯变分近似中，针对协方差矩阵或精度矩阵的 Cholesky 因子，推导出解析的自然梯度更新，避免了高维 Fisher 矩阵的求逆，同时自动保证更新后的协方差/精度矩阵保持正定。
核心工具/方法：利用 Stein 引理（Stein, 1981）将对数后验的一阶/二阶导数与自然梯度联系起来，并结合 Cholesky 因子参数化的 Fisher 信息矩阵的结构化逆等式；采用带动量的随机归一化自然梯度上升（normalized natural gradient ascent with momentum）作为优化器。
主要结论：所提出的方法在广义线性混合模型（GLMM）及深度卷积神经网络（LeNet-5）上，收敛速度显著快于欧几里得梯度（如 Adam）及现有的近似自然梯度方法（VOGN, ProxGenAdam），且能通过稀疏约束（块对角、稀疏精度）有效刻画不同的后验相关结构，同时计算复杂度为 \( O(d^2) \) 每步，与参数维度成线性关系（对比立方关系）。

关键设定与假设¶

变分族：高斯分布 \( N(\mu, \Sigma) \) 或 \( N(\mu, \Omega^{-1}) \)。
参数化：协方差 Cholesky \( \Sigma = L L^\top \)，精度 Cholesky \( \Omega = \Lambda \Lambda^\top \)，其中 \( L, \Lambda \) 为下三角矩阵，对角元为正。
数据可观测：可以获取对数后验 \( h(\theta) = \log p(\theta \mid y) \) 及其一阶导数 \( \nabla h(\theta) \) 和二阶导数 \( \nabla^2 h(\theta) \)。对一阶/二阶导数的假设：需要 Stein 引理成立，即 \( \nabla h(\theta) \) 和 \( \nabla^2 h(\theta) \) 是 θ 的连续函数且存在期望（典型光滑性）。
稀疏约束：在 Cholesky 因子中预设零模式（zero pattern），对应后验的（条件）独立结构。具体包括：
块对角协方差（类似变分贝叶斯假设，Attias 1999）：L 的某些子块为零。
稀疏精度 Cholesky：Λ 中某些元素为零，参数化后相当于精度矩阵为稀疏。
假设 \( h(\theta) \) 的光滑性：未显式给定 Lipschitz 常数，但数值实验显示随机归一化自然梯度可处理非凸情形（不要求全局强凸）。
计算模型：支持小批量采样（mini-batch），每步从变分分布抽取一个样本 θ（reparameterization），并计算梯度/海森的 Monte Carlo 估计。

相比已有文献： - 放宽了 Khan et al. (2018) 对精度矩阵正定性的监控需求（本文自动保持）。 - 相对 Tan & Nott (2018) 引入了自然梯度（而非欧几里得梯度），后者在收敛速度上理论更优。 - 相对于 Tran et al. (2020) 的共轭梯度求解器，本文给出了闭式更新，无需每次迭代解线性系统。

主要结果¶

定理 / 命题（理论型，论文应含以下核心公式）：

协方差 Cholesky 因子的自然梯度（Proposition 1 或类似）： \begin{align} \tilde{\nabla}{\mu} \mathcal{L} &= \mathbb{E}_q \bigl[ \nabla h(\theta) \bigr], \ \tilde{\nabla}{L} \mathcal{L} &= \mathbb{E}_q \bigl[ (\nabla h(\theta)) (\theta - \mu)^\top L^{-\top} + \nabla^2 h(\theta) L \bigr] - L^{-1}. \end{align} 此时自然梯度不需要 Fisher 逆。证明用了 Stein 引理和 Cholesky 参数化下 Fisher 的解析逆。
精度 Cholesky 因子的自然梯度（Proposition 2）： \begin{align} \tilde{\nabla}_{\Lambda} \mathcal{L} &= \mathbb{E}_q \bigl[ \Lambda^{-\top} \nabla^2 h(\theta) \bigr] + \Lambda^{-1}. \end{align} 同样为解析形式。

关键性质：自然梯度更新 \( L \leftarrow L + \alpha \tilde{\nabla}_L \mathcal{L} \) 将自动保持 L 的下三角与对角正性（经适当步长或归一化）。证明基于对更新后的协方差矩阵正定性的考察：自然梯度方向刚好补偿了欧几里得梯度中的不正定偏差。

计算复杂度：给定一次来自变分分布的采样和一次对数后验梯度，自然梯度的计算开销为 \( O(d^2) \)，存储为 \( O(d^2) \)；稀疏约束下可进一步降至与自由参数个数成线性。这相比直接 Fisher 求逆（\( O(d^3) \)）是本质改进。
优化器：采用带动量的随机归一化自然梯度上升（Algorithm 1）。动量 \(\beta\) 阻尼自然梯度方向，归一化 \( \text{norm}(\tilde{\nabla}_{\psi} \mathcal{L}) \) 控制步长（类似 SignSGD 的效果），每次更新形如：
\[u_t \leftarrow \beta u_{t-1} + \frac{\tilde{\nabla}_{\psi} \mathcal{L}_t}{\|\tilde{\nabla}_{\psi} \mathcal{L}_t\|},\quad \psi_{t+1} \leftarrow \psi_t + \alpha u_t.\]

数值实验（见论文表 3-5）： - GLMM 数据集：ICU 数据 (n=200,d=20)、German credit (n=1000,d=49)、Heart (n=270,d=19)。比较方法：Adam (Kingma & Ba, 2014)、VOGN (Khan et al., 2018)、ProxGenAdam (Kim et al., 2023)、本文方法（光纤自然梯度 + 动量）。评估准则是 ELBO 收敛速度（达到最终 ELBO 的 95% 所需 epoch）以及收敛时的 ELBO 值。 - 本文方法（协方差 Cholesky 完整）在所有数据集上达到最终 ELBO 所需 epoch 最少，例如 ICU：本文 15 epoch, Adam 50, VOGN 60。收敛 ELBO 值三者相近，表明自然梯度加速效果显著。 - 精度 Cholesky + 稀疏约束（块对角）在 ICU 上自由度从 230 降为 110，收敛加速且 ELBO 相近（仅损失 0.5%）。 - CNN 实验：LeNet-5 在 MNIST 和 CIFAR-10。变分分布为全协方差高斯，自由参数 21K (MNIST) 和 145K (CIFAR-10)。与 Adam (确定优化)、VOGN、ProxGenAdam、Snngm2（全协方差高斯变分，用 reparameterization 梯度）。测试集 log-likelihood、准确率、运行时间。 - 本文方法达到最高 test log-likelihood 和准确率（MNIST 准确率 99.20%；CIFAR-10 准确率 74.5%）。VOGN 相对最差，Snngm2 在 CIFAR-10 上运行时间为 4.3h 而本文 0.8h。作者认为自然梯度加速是关键。

证明路线与技术技巧¶

整体路线：

Fisher 信息在 Cholesky 参数化下的解析结构：
首先定义参数向量 \( \psi = (\mu, \text{vech}(L)) \)。计算 \( \log q(\theta; \psi) \) 的梯度 \( \nabla_\psi \log q(\theta; \psi) \)。
利用高斯分布的性质，得到 Fisher 信息矩阵 \( F(\psi) \) 为块对角形式，其中 \( \mu \) 块与 \( L \) 块分离。特别地，对于 \( L \) 块，其元素是由二阶矩组成的，具有特殊的下三角结构，并且可以解析求逆。
Stein 引理 (Stein, 1981) 与 Bonnet-Price 定理：
将 ELBO 对自然参数的梯度转化为期望对 \( \nabla h(\theta) \) 和 \( \nabla^2 h(\theta) \) 的表达式。
核心结果：\( \nabla_{\eta} \mathcal{L} = \mathbb{E}_q[ T(\theta) ] \)（其中 \( T(\theta) \) 是充分统计量）是标准关系。但对于 Cholesky 因子 \( L \)，需要先将其映射到自然参数空间，或利用 Fisher 的链式法则。本文直接对 \( L \) 应用 Bonnet (1964) 或 Price (1958) 定理：\( \nabla_L \mathbb{E}_q[ h(\theta) ] = \mathbb{E}_q[ (\nabla h(\theta)) \nabla_L \log q(\theta) ] \)。然后通过解析 \( \nabla_L \log q \)（与 \( L^{-1} \) 相关）获得中间表达式。
Fisher 逆与自然梯度的联系：
自然梯度定义为 \( F(\psi)^{-1} \nabla_\psi \mathcal{L} \)。利用步骤1中 Fisher 的可逆形式，直接计算乘积。关键技巧是 Fisher 的逆也具有下三角稀疏结构，且可与步骤2得到的欧几里得梯度相乘简化。
正定性的保证：
证明中关键引理显示，在协方差 Cholesky 情形下，自然梯度 \( \tilde{\nabla}_L \mathcal{L} \) 的更新等价于对 \( L L^\top \) 的某种正确更新；即使数值误差存在，只要步长适当，更新后的 \( L \) 对角元仍为正（因更新方向保持下三角且对角部分只在 \( L^{-1} \) 项有正则化）。
归一化动量变体：
作者借鉴 Cutkosky & Mehta (2020) 的归一化 SGD 动量，但将其应用于自然梯度而非欧几里得梯度，以确保动量更新不会破坏几何信息。

关键跳跃点： - Fisher 逆的闭式：对于下三角参数，Fisher 的逆并不显式等于某个简单矩阵，但通过将参数重参数化为 \( \text{vech}(L) \) 并将 Fisher 写成 \( \mathbb{E}[(\text{vec}( \nabla_{\text{vech}(L)} \log q ))^2 ] \) 后，利用 \( \nabla_{\text{vech}(L)} \log q \) 的表达式（涉及下三角算子），可证明 Fisher 的逆是 \( (L^\top L \otimes \text{something}) \) 的形式，最终与梯度相乘后化简为文中的简洁形式。 - Stein 引理的应用：从欧几里得梯度到自然梯度的转换中，需要小心地处理 Cholesky 因子的几何结构，作者使用了矩阵分解的微扰引理。

技术技巧点名： - Stein 引理：用于将 \( \nabla_\mu \mathbb{E}_q[h] \) 转化为 \( \mathbb{E}_q[\nabla h] \)；将 \( \nabla_{L} \mathbb{E}_q[h] \) 表示为 \( \mathbb{E}_q[ \nabla h \cdot ( \theta - \mu )^\top L^{-\top} + \nabla^2 h \cdot L ] \)。 - 高阶导数期望：利用 \( \nabla^2 h \) 的期望来规避显式 Fisher 求逆。 - Cholesky 微扰：更新后保证 \( L + \Delta L \) 仍为下三角正对角元，无需额外投射。 - 随机归一化动量：借鉴 Cutkosky & Mehta (2020)，但将归一化应用于自然梯度，比直接归一化欧几里得梯度更稳定。 - 稀疏约束的嵌入：在 Cholesky 因子中设定零模式，直接在更新式中忽略零元素，从而自然得到稀疏更新，无需额外正则化项。

真实例子与应用¶

论文包含三类实验（第四节）： 1. GLMM 模拟/真实数据：使用 ICU (n=200,d=20), German credit (n=1000,d=49), Heart (n=270,d=19) 三个数据集。变分分布为 \( q(\theta) = N(\mu, L L^\top) \) 全协方差。评估指标：ELBO 达到收敛的 epoch 数。结果：本文方法的收敛速度是 Adam 的 3-4 倍，是 VOGN 的 2-3 倍。不同稀疏约束（块对角、精度稀疏）可减少参数数量 30-50%，同时 ELBO 损失小于 1%。 2. CNN (LeNet-5) 在 MNIST / CIFAR-10：变分分布为全协方差高斯，权重极点大约 21K / 145K。比较方法：Adam（确定性）、VOGN、ProxGenAdam、Snngm2（全协方差高斯变分）。评估：测试集 log-likelihood, 准确率, 运行时间。本文在 MNIST 准确率 99.20%，CIFAR-10 74.5%，运行时间分别为 0.2h 和 0.8h，显著快于 Snngm2 (4.3h)。 3. 稀疏结构实验：在两个 GLMM 数据集上，将 L 限制为块对角（每个随机效应组一块）或 Λ 稀疏（根据层次模型的条件独立性）。结果表明稀疏模型在参数数量大幅下降的同时，ELBO 几乎没有下降（ICU 上参数从 230 降至 110，ELBO 仅降 0.2%）。

例子用意：验证自然梯度加速实证；展示稀疏约束实现在高维下仍然可行；展示本文方法在深度网络中的可扩展性。

🔎 结论是否比证明窄¶

理论证明仅覆盖 GLMM 和光滑目标：论文定理的证明假设 h(θ) 是光滑的（二次可微且期望存在）。对于深度网络，由于使用 ReLU 非线性，h 并非全局二次可微，但其仍能应用于实践。作者在实验部分使用了 ReLU 网络，并声称“自然梯度更新依然可以应用，因为 Monte Carlo 梯度估计仍合理，且自动微分可用”。但没有严格理论保证在非光滑 h 下自然梯度的性质。论文中无相关收敛性定理放宽 Lipschitz 假设，只能看作实践上的试探（摘要本身未强调理论假定的充分性）。
解析公式仅适用于高斯变分族：文中强调“Gaussian variational approximation”，对于非高斯族（混合、t分布）未提供类似解析结果，但未来工作自然应拓展。
稀疏约束下的解析性仍是精确的吗？ 对于稀疏 Cholesky 因子，Fisher 信息矩阵的解析逆证明中是否利用了稀疏模式？文章似乎隐含认为零模式直接在更新中忽略，等价于对完整因子强制部分元素为零，但这可能不是真正的“自然梯度”投影（如果 Fisher 在子空间上不封闭，则需要推导投影）。论文在第三节末尾提到“自然梯度更新中的零元素可以忽略”，但未给出该操作的几何解释（是否是 Riemannian submanifold 上的自然梯度？）。值得仔细检查。

四、开放问题¶

扩展至非高斯变分族：本文的结果严重依赖高斯分布的 Cholesky 参数化与 Stein 引理；能否对混合高斯、polynomial 族或指数族分布（如 Gamma）的变分近似推导类似的解析自然梯度？这是作者在 Conclusion 中明确提及的 future work。
收敛性理论：本文没有给出自然梯度更新的收敛速率（如线性收敛于二次目标）或全局收敛的充分条件。能否在光滑且强凸的后验（如 GLMM 的严格凸对数后验）下证明自然梯度 momentum 方法的全局收敛？这将紧密联系研究所关注的 high-dimensional asymptotics 和 minimax 界。
随机归一化动量与几何结构的关系：本文采用归一化自然梯度（除以当前范数）结合动量，此策略受 Cutkosky & Mehta (2020) 启发，但未像后者那样提供证明（eg 在非凸情形下收敛到 critical point）。能否借鉴随机优化理论建立本文算法的收敛保证？
近似自然梯度在深度网络的严格保证：如第三节所述，ReLU 网络导致非光滑 h，自然梯度的广义 Gauss-Newton 近似（Khan et al. 2018）已有部分理论，但本文未分析。能否在“piecewise linear”的情形下证明自然梯度相对于欧几里得梯度的优势？这可能是统计计算子领域里实质性的开放问题。

注意：以上开放问题均扎根于论文的具体语句——“未来工作”（Conclusion 最后一段）提到了“其他变分族”、“收敛理论”；实验部分对 ReLU 网络未提供理论假设。若要去检验是否为真 gap，建议阅读同一方向近期 5 篇论文（Khan et al. 2019, Domke 2020, Tran et al. 2020, Tan & Nott 2018, Osawa et al. 2019）的摘要与 conclusion，看这些点是否被反复提及。

Maintained by 陈星宇 · Homepage · Source on GitHub