跳转至

Bernstein-von Mises Theorem for Sparse Generalized Linear Model

作者: Hanqing Li, Xuewen Lu
主题: 非参数 / 半参数
相关性: 8/10
链接: https://arxiv.org/abs/2605.27137


一、核心问题与贡献

①研究了高维带分组稀疏性的广义线性模型(GLM)下,固定 spike-and-slab 先验的后验分布渐近理论问题。②核心工具是基于支撑集的稀疏局部渐近正态性(sparse LAN)展开、围绕 pseudo-true 中心的 Laplace 逼近,以及分数后验的 Rényi 分离技术。③主要结论是证明了分数后验的 oracle Bernstein–von Mises 定理:后验在实现精确支撑集恢复后,坍缩为以真实支撑集上的 score 为中心、以真实支撑集上的 Fisher 信息为协方差的 oracle Gaussian 律。

二、基础设定

  • 核心概念与符号
  • \(S_0, s_0\): 真实活跃分组支撑集及其大小;\(p_{S_0}\): 真实支撑集坐标总数。
  • \(\beta^\circ_S\): 支撑集 \(S\) 上的 pseudo-true 中心(期望受限对数似然的最大化点);\(\tilde{\beta}^\circ_S\): 其零填充嵌入。
  • \(F^\circ_S\): 支撑集 \(S\) 上以 \(\beta^\circ_S\) 为中心的局部信息矩阵;\(F^0_S\): 真实参数 \(\beta_0\) 下的 Fisher 信息块。
  • \(\epsilon_n = \sqrt{s_0 \log G / n}\): 目标收缩率;\(R_n(s) = M_n \sqrt{s \log G}\): 局部椭球半径。
  • \(\Pi_{n,\alpha}\): 温度参数为 \(\alpha \in (0,1]\) 的分数后验。
  • 关键假设
  • Assumption 1 (Sparse regime): 稀疏行包络 \(x_n(Cs_0) \preceq \sqrt{s_0 \log G}\);维度 \(s_0 \log G \prec n\)。限制了设计阵在稀疏支撑上的增长,比全行范数条件更弱。
  • Assumption 2 (Supportwise likelihood geometry): 包含有限窗口上的 score 亚高斯控制、局部信息矩阵在椭球 \(E_S(R_n)\) 上的均匀稳定性、Hellinger 距离与预测误差的等价性。核心突破:不要求全局亚高斯性,仅在 \(|λ| \le a_{mgf} g_n\) 的有限窗口内控制 score;对非规范链接,允许观测 Hessian 与期望 Hessian 存在偏差。
  • Assumption 3 (Prior regularity): 真实支撑集先验质量 \(\pi_G(s_0)\binom{G}{s_0} \ge \exp(-a_\pi s_0 \log G)\);活跃系数 slab 在真实参数附近的小球概率;slab 在 Fisher 椭球上的平坦度;严格超集惩罚 \(a_8 > 1 + K_{pr}\)
  • Assumption 4 (Recovery geometry & beta-min): 分组兼容性常数 \(\phi_1(s), \phi_2(s) \ge a_9 > 0\);分组 beta-min 条件 \(\min_{g \in S_0} \|\beta_{0,g}\|_2 \ge a_{11} \epsilon_n / \phi_2(s)\)注意:此 beta-min 阈值是由全局收缩导出的充分条件,非最优选择阈值。
  • 问题背景:已有高维 Bayesian 文献多针对 Gaussian 线性模型或使用数据依赖先验实现 BvM。对固定先验的稀疏 GLM,由于局部似然几何的复杂性与非规范链接下残差-Hessian 的存在,缺乏精确支撑集上的分布态极限理论。本文与 Castillo et al. (2015)(仅 Gaussian)、Lee et al. (2025)(数据依赖先验)形成对比,填补了固定先验稀疏 GLM 的理论空白。

三、主要定理 / 核心结果

Theorem 11 (Oracle BvM): 1. 原文陈述:在 Assumptions 1-4, 6 及超集惩罚条件下,分数后验与 oracle Gaussian 律的 TV 距离趋于 0:\(E_{\beta_0} \|\Pi_{n,\alpha}(\cdot|Y) - N(\hat{\beta}_{S_0}, (\alpha F^0_{S_0})^{-1}) \otimes \delta_{S_0^c}\|_{TV} \to 0\)。 2. 直观解释:后验分布最终不仅选出了真实模型 \(S_0\)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论