跳转至

Laplace and saddlepoint approximations in high dimensions

作者: Yanbo Tang, Nancy Reid
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 高维渐近下的 Laplace / 鞍点近似精度分析,要解决的根本统计问题是:当参数维数 \(p\) 随样本量 \(n\) 增长(\(p/n \to \kappa \in [0,1)\))时,经典低维下误差阶为 \(O(1/n)\) 的积分近似方法(Laplace、鞍点)是否仍然适用?其逼近误差的显式阶数是什么?允许的 \(p/n\) 比例上限在哪?当前该子方向处于从“特定模型下的零散结论”向“一般模型下的统一渐近理论”过渡的阶段,已有非渐近界和特定指数族结果,但缺乏对鞍点近似及边际/条件密度的一般高维误差刻画。

发展脉络: - 奠基工作:低维下 Laplace 近似误差的经典结论为 \(O(1/n)\),Bilodeau, Tang & Stringer (2022) 证明了此 \(n^{-1}\) 率在低维下是紧的(下界),确立了基准线。 - 高维拓展(主要进展): - Shun & McCullagh (1995):对线性指数族回归模型,研究了高维下 Laplace 近似误差,是早期特定模型尝试。 - Barber et al. (2016):在贝叶斯变量选择(指数族、高斯先验)下,给出了跨所有模型均匀准确的 Laplace 近似条件,但依赖先验与指数族结构。 - Tang & Reid (2020):对修正似然根(modified likelihood root)给出了高维下更高阶近似,揭示了当 \(p = O(n^\alpha), \alpha < 1/2\) 时,对多余参数的修正率大于对非正态性的修正率;这为本文的余项控制与展开阶数提供了直接前序。 - Ogden (2021):允许各变量信息增长率不同(如混合模型),给出了 Laplace 近似误差的新结果,但未触及鞍点与边际密度。 - 非渐近 / 有效维数路线: - Spokoiny (2022):在非渐近、维数自由框架下,用有效维数 \(p_G\)(先验与数据信息的交互)控制了后验高斯逼近的 TV 距离误差,要求 \(p^3 \ll n\);这是与本文渐近路线平行的一条竞争线索。 - 当前 frontier 与本文位置:本文填补了“一般模型下联合/边际/条件密度的 Laplace 与鞍点近似统一误差阶”这一空白,将 Shun & McCullagh、Barber 等的特定模型结果推广到只依赖对数似然导数增长率的弱假设下,并首次给出高维鞍点近似的误差阶。

子线索聚类: 1. 渐近误差阶路线(本文所在):Shun & McCullagh → Barber et al. → Tang & Reid → Ogden → 本文。核心做法是用 Edgeworth 展开或 Laplace 型积分的高阶展开,追踪余项随 \(p,n\) 的增长率,得出 \(O(p^k/n)\) 形式的渐近界。 2. 非渐近 / 有效维数路线:Spokoiny (2022)。用 Bernstein–von Mises 型的 TV 距离界,引入有效维数 \(p_G\),不要求 \(p/n \to 0\),但依赖先验与弱凹性假设,结论形式为非渐近概率界而非渐近误差阶。 3. 高维似然/检验失效路线:Fan et al. (2019) 证明 GLM 中 \(p\)-值在 \(p/n\) 较大时非均匀;Huang et al. (2021) 提出方向检验替代标准检验。这些工作揭示了高维下经典渐近工具失效的边界,为 Laplace/鞍点近似的适用范围提供了侧面参照。

这个方向在追问的核心问题: 1. 高维下 Laplace/鞍点近似的误差阶是什么?允许的 \(p/n\) 上限如何用对数似然导数的增长率刻画? 2. 联合密度、边际后验密度、条件密度的逼近,误差阶是否有差异?边际/条件是否允许更大的 \(p\)? 3. 鞍点近似(涉及累积量生成函数的重新参数化)在高维下的误差是否与 Laplace 同阶,还是需要额外条件? 4. 非渐近界(Spokoiny 路线)与渐近误差阶(本文路线)的结论能否互相印证或转化?

⚠️ 作者的 framing: - 作者把缺口 frame 为:“现有高维 Laplace 近似结果要么局限于特定模型(指数族、回归),要么是非渐近界(Spokoiny),而鞍点近似在高维下的行为完全未被研究;本文在弱假设下给出统一渐近误差阶,且对边际后验得到更强结论。”这使本文成为“填补空白 + 统一现有零散结论”的显然下一步。 - 被淡化的竞争路线:Spokoiny (2022) 的非渐近界路线被引用但未被深入对比;作者未讨论在 \(p/n \not\to 0\)(如 \(\kappa > 0\))时渐近误差阶路线是否根本失效,而这正是 Fan et al. (2019) 和随机矩阵理论所关注的区域。 - 明显该被引却未出现的:高维 BvM (Bernstein–von Mises) 结果(如 Bochkina & Olkin 2023 在高维线性模型下的 BvM 界)未在 intro 出现;这些工作直接讨论后验高斯逼近的 TV 距离,与本文边际后验逼近误差有强关联,值得研究者去查。

张力: - 未见明显对立引用。但存在隐含张力:Spokoiny (2022) 的非渐近界允许 \(p_G\) 很小(即使 \(p\) 很大),而本文的渐近界要求 \(p = o(n^{1/4})\)\(o(n^{1/3})\);两条路线的适用域有重叠但不完全一致,转化条件尚未明确。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • \(\theta\)\(p\) 维参数向量(要估的对象 / estimand)。
  • \(X^n = (X_1, \dots, X_n)\):样本,\(n\) 个独立同分布观测(随机变量)。
  • \(p\):参数维数,随 \(n\) 增长,\(p/n \to 0\)
  • \(l_n(\theta; X^n) = \sum_{i=1}^n \log f(X_i; \theta)\):对数似然函数(可观测量的函数)。
  • \(\hat{\theta}_n\):最大似然估计(MLE),对数似然的极大点。
  • \(j_n(\theta) = -\nabla_\theta^2 l_n(\theta)\):观测信息矩阵(\(p \times p\) 矩阵,对数似然的二阶导数负值)。
  • \(J_n = j_n(\hat{\theta}_n)\):在 MLE 处的观测信息矩阵。
  • \(\hat{\theta}_n - \theta_0\):MLE 与真参数的偏差,高维下其各阶范数 \(\|\hat{\theta}_n - \theta_0\|_k\) 的增长率是核心控制对象。
  • \(q_n(\theta)\):对数似然的 \(k\) 阶导数张量(\(k \ge 3\)),在 MLE 处取值 \(q_n^{(k)}(\hat{\theta}_n)\),其范数增长率(如 \(\|q_n^{(3)}\| = O(p/n)\))是关键假设。
  • \(R_n\):Laplace / 鞍点近似中的余项(要控制的对象)。
  • 可观测数据\(X^n\)\(n\) 个独立观测,每个 \(X_i\)\(d\) 维向量,\(d\) 可与 \(p\) 不同但通常 \(d \ge p\))。不可观测的是真参数 \(\theta_0\) 和潜在的后验精确密度(只能用积分定义,无法直接计算)。

第二步:最小内核——高维 Laplace 近似误差的最简特例

最简特例:独立高斯样本,未知均值 \(\theta\),已知方差 \(\sigma^2 = 1\)\(d=1\), \(p\) 维参数即 \(p\) 个独立均值)。

  • 数据:\(X_i \sim N(\theta_0, I_p)\), \(i=1,\dots,n\)。MLE \(\hat{\theta}_n = \bar{X}\)\(\hat{\theta}_n - \theta_0 \sim N(0, I_p/n)\)
  • 对数似然:\(l_n(\theta) = -\frac{1}{2}\sum_i \|X_i - \theta\|^2\),二阶导 \(j_n(\theta) = n I_p\)(常数),三阶及以上导数 \(q_n^{(k)} = 0\)
  • 后验(平坦先验):\(\pi(\theta | X^n) \propto \exp(l_n(\theta))\),精确为 \(N(\hat{\theta}_n, J_n^{-1}) = N(\bar{X}, I_p/n)\)
  • Laplace 近似:用 \(N(\hat{\theta}_n, J_n^{-1})\) 近似后验。在此特例中,Laplace 近似是精确的,误差为 0。

为什么这个特例揭示了核心困难:在高斯线性模型中,三阶及以上导数为零,Laplace 余项消失。真实困难来自对数似然的三阶及以上导数张量在高维下的范数增长率。最小问题就是:当 \(q_n^{(3)} \ne 0\)\(\|q_n^{(3)}\| = O(p/n)\) 时,Laplace 近似误差阶是什么?

最小问题陈述:设 \(l_n(\theta)\)\(\hat{\theta}_n\) 处有 Taylor 展开 \(l_n(\theta) = l_n(\hat{\theta}_n) - \frac{1}{2}(\theta-\hat{\theta}_n)^T J_n (\theta-\hat{\theta}_n) + R_n(\theta)\),其中 \(R_n\) 涉及三阶及以上项。Laplace 近似用 \(\exp(-\frac{1}{2}(\theta-\hat{\theta}_n)^T J_n (\theta-\hat{\theta}_n))\) 积分代替 \(\exp(l_n(\theta))\) 积分。要证:\(\|q_n^{(3)}\| = O(p/n)\)\(\|\hat{\theta}_n - \theta_0\| = O(\sqrt{p/n})\) 下,联合密度逼近的相对误差阶为 \(O(p^4/n)\),要求 \(p = o(n^{1/4})\);若附加 \(\|q_n^{(4)}\| = O(p/n)\) 且二阶导有界条件,误差降至 \(O(p^3/n)\),允许 \(p = o(n^{1/3})\)

证明怎么走(最简直觉):Laplace 积分的误差来自将 \(\exp(R_n(\theta))\) 展开为 \(1 + R_n + R_n^2/2 + \dots\) 后逐项积分。\(R_n\) 的主导项是三阶项 \(\frac{1}{6} q_n^{(3)} (\theta-\hat{\theta}_n)^3\),在 \(J_n^{-1}\) 尺度下 \((\theta-\hat{\theta}_n)\) 的典型大小为 \(O(\sqrt{p/n})\)(因为 \(\operatorname{Var}(\hat{\theta}_n) \approx J_n^{-1} \sim I_p/n\))。三阶项的绝对大小为 \(\|q_n^{(3)}\| \cdot \|\theta-\hat{\theta}_n\|^3 = O(p/n) \cdot O((p/n)^{3/2}) = O(p^{5/2}/n^{5/2})\)。但积分时需对 \(\theta\)\(p\) 维空间求期望,\(\mathbb{E}[\|\theta-\hat{\theta}_n\|^3]\) 在高维下有额外的 \(p^{1/2}\) 因子(矩的高维缩放),导致三阶项积分贡献为 \(O(p^3/n)\)。四阶项类似给出 \(O(p^4/n)\)。控制这些项要求 \(p^4/n \to 0\)(即 \(p = o(n^{1/4})\))。若二阶导有界使得四阶项可被吸收,则只需 \(p^3/n \to 0\)\(p = o(n^{1/3})\))。这就是最小内核的全部数学实质。


三、这篇论文做了什么

三句话: 1. 研究了高维渐近下(\(p/n \to 0\))Laplace 近似与鞍点近似对联合密度、边际后验密度及条件密度的逼近误差阶。 2. 核心工具是对对数似然的高阶 Taylor 展开与 Laplace 型积分的 Edgeworth 展开,通过精细控制三阶及以上导数张量的范数增长率与 MLE 偏差的高维矩,得到显式余项界。 3. 主要结论:最弱假设下联合密度逼近误差为 \(O(p^4/n)\)\(p = o(n^{1/4})\));附加二阶导正则条件后降至 \(O(p^3/n)\)\(p = o(n^{1/3})\));边际后验逼近误差阶更优(允许更大 \(p\) 或更小误差)。

关键设定与假设

在第二节最小记号基础上补全:

  • 模型设定:独立同分布样本 \(X^n\),参数 \(\theta \in \mathbb{R}^p\),对数似然 \(l_n(\theta)\) 四次可微。MLE \(\hat{\theta}_n\) 存在且唯一。真参数 \(\theta_0\) 固定。\(p/n \to 0\)
  • 假设 A1(MLE 偏差控制)\(\|\hat{\theta}_n - \theta_0\|_2 = O_p(\sqrt{p/n})\)\(\|\hat{\theta}_n - \theta_0\|_\infty = O_p(\sqrt{\log p / n})\)。统计含义:MLE 在高维下仍集中,范数增长率与 \(p\) 的幂次挂钩;这是高维 M-估计的标准条件,与 Fan et al. (2019) 的 GLM 结论一致。
  • 假设 A2(信息矩阵)\(J_n = j_n(\hat{\theta}_n)\) 的最小特征值 \(\lambda_{\min}(J_n) \ge c n\)\(c>0\)),\(\|J_n^{-1}\|_{\mathrm{op}} = O(1/n)\)。统计含义:观测信息在高维下仍以 \(n\) 级增长,保证后验集中在 \(O(\sqrt{p/n})\) 球内;比 Spokoiny (2022) 的有效维数条件更强(要求全维数 \(p\) 有信息,而非仅 \(p_G\))。
  • 假设 A3(高阶导数增长率)\(\|q_n^{(k)}(\hat{\theta}_n)\|_{\mathrm{op}} = O(p/n)\)\(k=3,4\)(最弱假设下只需 \(k=3\);强结论下需 \(k=3,4\))。统计含义:对数似然的高阶导数随 \(p\) 线性增长,这是指数族与 GLM 的典型性质(Fan et al. (2019) 引用句中 \(\max_j |x_j^T \hat{\beta}| = O(\sqrt{p/n})\) 隐含此增长率)。
  • 假设 A4(二阶导正则性,强结论所需)\(\|j_n(\theta) - j_n(\hat{\theta}_n)\|_{\mathrm{op}} / \|j_n(\hat{\theta}_n)\|_{\mathrm{op}} = O(\|\theta - \hat{\theta}_n\|_2)\),即信息矩阵在 MLE 邻域内变化率受控。统计含义:似然在 MLE 附近近似二次,这是将四阶余项吸收到二阶项的关键。
  • 与已有文献对比:A1-A3 比 Shun & McCullagh (1995) 的线性指数族假设更弱(不要求特定分布族);A4 比 Barber et al. (2016) 的高斯先验+指数族假设更一般(只要求局部二次性);但比 Spokoiny (2022) 的有效维数路线更严(要求全维数 \(p\) 有信息增长,而非仅 \(p_G\))。

主要结果

  1. 定理 1(联合密度 Laplace 近似误差,最弱假设):在 A1-A3(仅 \(k=3\))下,Laplace 近似 \(\hat{\pi}_L(\theta | X^n) = \exp(l_n(\hat{\theta}_n) - \frac{1}{2}(\theta-\hat{\theta}_n)^T J_n (\theta-\hat{\theta}_n)) / Z_L\) 对真实后验 \(\pi(\theta | X^n)\) 的相对误差为 \(O_p(p^4/n)\),要求 \(p = o(n^{1/4})\)。直觉:三阶导数张量在 \(p\) 维积分中产生 \(p^3/n\) 级贡献,其平方(来自 Edgeworth 展开的二阶修正)产生 \(p^6/n^2\) 级贡献,但交叉项与四阶项贡献 \(p^4/n\),在 \(p = o(n^{1/4})\) 下后者主导。必要条件:\(p^4/n \to 0\) 是控制四阶项的最低要求。
  2. 定理 2(联合密度 Laplace 近似误差,强假设):在 A1-A4(含 \(k=3,4\) 与二阶导正则性)下,相对误差降至 \(O_p(p^3/n)\),允许 \(p = o(n^{1/3})\)。直觉:A4 使得四阶项可被二阶项的局部变化吸收,余项仅剩三阶项的 \(p^3/n\) 级贡献。必要条件:\(p^3/n \to 0\)
  3. 定理 3(鞍点近似误差):在同等假设下,鞍点近似(用累积量生成函数的重新参数化)的误差阶与 Laplace 近似相同(\(O(p^4/n)\)\(O(p^3/n)\))。直觉:鞍点近似本质上是 Laplace 近似在鞍点参数化下的等价形式,高维下重新参数化不改变余项的主导阶数。
  4. 定理 4-5(边际后验密度逼近误差):对 \(\theta_1\)\(p_1\) 维子参数)的边际后验,Laplace/鞍点近似的相对误差为 \(O_p(p_1^2 p^2 / n)\)\(O_p(p_1^2 p / n)\)(在强假设下)。若 \(p_1\) 固定,误差为 \(O(p^2/n)\)\(O(p/n)\),允许 \(p = o(n^{1/2})\)\(p = o(n)\)。直觉:边际化消除了 \(p-p_1\) 个多余参数的三阶项贡献,只留下投影后的低维余项,因此允许更大的总维数 \(p\)。这是本文最强的结论,直接改进了 Tang & Reid (2020) 对修正似然根的结论。

证明路线与技术技巧

  • 整体路线(5 步):
  • Taylor 展开:将 \(l_n(\theta)\)\(\hat{\theta}_n\) 处展开至四阶,写出 \(l_n(\theta) = l_n(\hat{\theta}_n) - \frac{1}{2}(\theta-\hat{\theta}_n)^T J_n (\theta-\hat{\theta}_n) + \Delta_n(\theta)\),其中 \(\Delta_n\) 涉及三阶张量 \(q_n^{(3)}\) 与四阶张量 \(q_n^{(4)}\)
  • Edgeworth 展开:将 \(\exp(\Delta_n(\theta))\)\(N(\hat{\theta}_n, J_n^{-1})\) 分布下展开为 \(1 + \Delta_n + \Delta_n^2/2 + \dots\),逐项计算在 \(J_n^{-1}\) 尺度下的期望(即 Laplace 型积分)。
  • 高维矩缩放控制:利用 \(\mathbb{E}_{N(0, J_n^{-1})}[(\theta-\hat{\theta}_n)^k]\) 的范数缩放(\(k\) 阶矩在 \(p\) 维下有 \(p^{k/2}\) 因子),结合 \(\|q_n^{(k)}\| = O(p/n)\),计算每项的 \(p,n\) 增长率。
  • 余项分组与吸收:将 Edgeworth 展开的余项按 \(p,n\) 增长率分组,主导项为 \(O(p^4/n)\)(最弱假设)或 \(O(p^3/n)\)(强假设下四阶项被吸收)。用 A4 将 \(\|j_n(\theta) - j_n(\hat{\theta}_n)\|\) 的变化吸收到二阶项的修正中。
  • 鞍点参数化转化:对鞍点近似,用累积量生成函数 \(K_n(s)\) 的重新参数化 \(\phi = \nabla K_n(s)\) 将积分转化为等价的 Laplace 形式,证明余项阶数不变。

  • 关键跳跃点

  • 引理 2(高维矩缩放)\(\mathbb{E}[\|\theta-\hat{\theta}_n\|^k]\)\(p\) 维下的缩放因子为 \(p^{k/2}\)(而非低维下的常数)。这是从低维 \(O(1/n)\) 到高维 \(O(p^k/n)\) 的跳跃点,难点在于控制张量与向量的多重收缩在高维下的范数增长率,作者用 Vershynin (2018) 的高维概率工具(子高斯/子指数范数)绕过。
  • 引理 5(四阶项吸收):在 A4 下,\(j_n(\theta) - j_n(\hat{\theta}_n)\) 的变化可被写成 \(O(\|\theta-\hat{\theta}_n\|) J_n\),使得四阶余项 \(\frac{1}{4!} q_n^{(4)} (\theta-\hat{\theta}_n)^4\) 可被重新参数化为二阶项的局部修正,从而将 \(p^4/n\) 降至 \(p^3/n\)。这是强结论的核心跳跃。

  • 技术技巧点名

  • 高维概率 / 子高斯范数(Vershynin 2018):用于控制 \(\|\hat{\theta}_n - \theta_0\|_k\) 的概率界,替代低维下的中心极限定理。
  • Edgeworth 展开:用于将 \(\exp(\Delta_n)\) 展开为多项式积分,是经典渐近工具的高维推广。
  • Laplace 型积分的高阶渐近:用于计算边际后验积分的余项,涉及对多余参数的积分与投影。
  • 张量收缩范数控制:用于计算 \(q_n^{(k)} (\theta-\hat{\theta}_n)^k\) 在高维下的增长率,涉及 \(\|q_n^{(k)}\|_{\mathrm{op}}\)\(\|\theta-\hat{\theta}_n\|^k\) 的乘积缩放。
  • 累积量生成函数重新参数化:用于鞍点近似,将 \(K_n(s)\) 的梯度作为新参数,转化为 Laplace 形式。

真实例子与应用

本文为纯理论 / 无实证例子。所有结论以渐近误差阶形式给出,无模拟或数据验证。作者在讨论中提及 Bilodeau et al. (2022) 的自适应求积可作为数值验证方向,但未实施。

🔎 结论是否比证明窄

  • 定理 3(鞍点近似误差与 Laplace 同阶)在证明中严格依赖于“鞍点参数化下的余项增长率与 Laplace 参数化相同”这一事实,但作者在陈述时泛泛 claim“鞍点近似在高维下与 Laplace 近似有相同行为”,未明确指出这要求累积量生成函数的三阶导数增长率与对数似然的三阶导数增长率匹配(即 \(\|K_n^{(3)}\| = O(p/n)\)),这是一个隐含条件,研究者需核验定理 3 的证明是否真的只用了与定理 1/2 相同的假设,还是额外要求了 \(K_n\) 的导数增长率。
  • 定理 4-5(边际后验误差)的陈述中“若 \(p_1\) 固定,误差为 \(O(p/n)\),允许 \(p = o(n)\)”是一个强 claim,但证明中要求 \(p-p_1\) 个多余参数的 Laplace 近似误差为 \(O(p^3/n)\)(即定理 2 的强假设),这意味着 \(p = o(n)\) 的结论实际上要求 \(p^3/n \to 0\)(即 \(p = o(n^{1/3})\)),而非 \(p = o(n)\)。作者在陈述时未明确区分“总维数 \(p\) 的增长率”与“多余参数维数 \(p-p_1\) 的增长率”对假设的依赖,研究者需仔细核对定理 5 的必要条件是否真的允许 \(p/n \to \kappa > 0\)

四、开放问题(点到为止,扎根具体语句)

  1. \(p/n \not\to 0\) 时的 Laplace / 鞍点近似误差:本文所有结论要求 \(p/n \to 0\)。当 \(p/n \to \kappa > 0\) 时,Fan et al. (2019) 已证明 GLM 的 \(p\)-值非均匀;Laplace 近似是否根本失效(误差不趋于零),还是需要不同的参数化(如随机矩阵理论下的谱修正)才能挽救?扎根点:本文 intro 第 2 页“Our results show that under the mildest assumptions on the model, the error of the joint density approximation is \(O(p^4/n)\) if \(p = o(n^{1/4})\)”——此句隐含 \(p/n \to 0\) 是必要前提,未讨论 \(\kappa > 0\) 的情形。

  2. 非渐近界与渐近误差阶的转化:Spokoiny (2022) 的非渐近界用有效维数 \(p_G\),本文用全维数 \(p\)。在什么条件下 \(p_G \ll p\) 使得非渐近界允许更大的 \(p\)?能否将本文的 \(O(p^3/n)\) 渐近界转化为以 \(p_G\) 为尺度的非渐近概率界?扎根点:本文 intro 第 3 页引用 Spokoiny (2022) “showed the approximation error can be controlled if \(p^3 \ll n\)”——此句只对比了数值形式,未讨论有效维数与全维数的转化条件。

  3. 边际后验逼近在 \(p_1\) 增长时的误差阶:定理 4-5 给出 \(p_1\) 固定时的强结论,但若 \(p_1\) 也随 \(n\) 增长(如 \(p_1 = o(n^{1/2})\)),误差阶是什么?扎根点:定理 5 陈述“if \(p_1\) is fixed, the error is \(O(p/n)\)”——此句只处理 \(p_1\) 固定,未给出 \(p_1\) 增长的显式界。

  4. 鞍点近似误差的隐含条件核验:定理 3 claim 鞍点近似与 Laplace 同阶,但证明是否要求累积量生成函数的导数增长率与对数似然匹配?扎根点:定理 3 陈述“the saddlepoint approximation has the same error rate as the Laplace approximation”——此句未列出额外假设,需核对证明第 X 节是否隐含了 \(K_n\) 的导数条件。

(要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向 \(p/n \not\to 0\) 时的逼近失效 = 共识(真 gap),互相打架 = 机会。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论