跳转至

Bayesian Variable Selection in Generalized Linear Models

作者: Lucia Filippozzi, Iñigo Urteaga, Claudio Agostinelli
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.24357


一、领域脉络与小综述

这个方向是什么

这个子方向是贝叶斯变量选择(Bayesian Variable Selection),其根本的统计问题是:在广义线性模型(GLM)中,如何从一组候选协变量中识别出真正影响响应变量的子集,并同时估计其效应。该问题的核心挑战在于,既要避免包含无关变量导致的过拟合与可解释性下降,又要防止遗漏重要变量导致的估计偏误。当前该领域的成熟度较高,已有大量频率学派(如LASSO及其变体)和贝叶斯学派的方法,但在GLM框架下同时实现全共轭性、后验一致性保证和高效计算仍是一个未完全解决的问题。

发展脉络(history)

  1. 奠基工作
  2. Mitchell and Beauchamp (1988)George and McCulloch (1993) 提出了“spike-and-slab”先验,将每个回归系数建模为一个点质量(spike)和一个扩散分布(slab)的混合。这是贝叶斯变量选择的奠基性框架。
  3. Kuo and Mallick (1998) 引入了一个二值包含指示变量直接进入回归模型,将变量选择与系数估计解耦。作者在引言中评价其“与我们共享在回归方程中使用二值包含指示变量的思路”。
  4. Chen and Ibrahim (2003) 系统性地发展了GLM的共轭先验理论,为本文提供了关键的数学工具。作者称其工作“通过利用Chen and Ibrahim (2003)的共轭先验结构,适用于指数族中的任意分布”。

  5. 主要进展

  6. 连续收缩先验:如Bayesian Lasso (Cai et al., 2011)、Horseshoe (Bhadra et al., 2019, 2021) 和 Zellner's g-priors (Liang et al., 2008) 通过全局-局部收缩机制将无关系数推向零,但不引入显式的包含指示变量。作者指出这些方法“缺乏显式的包含指示变量”。
  7. 非局部先验 (NLPs):Johnson and Rossell (2010, 2012) 提出了在参数等于零时密度恰好为零的先验,并扩展到GLM (Rossell et al., 2013; Shin et al., 2018; Cao and Lee, 2024)。作者认为这些方法“特别适用于高维设定”。
  8. 后验一致性理论:Narisetty and He (2014) 在收缩先验下建立了变量选择的后验一致性,Narisetty et al. (2019) 在“Skinny Gibbs”框架下为高斯线性模型建立了spike-and-slab先验的一致性。作者明确指出,这些理论结果“仅限于线性高斯回归模型”。

  9. 当前frontier与本文位置

  10. 作者将本文定位为“第一个具有贝叶斯后验一致性保证的GLM全共轭变量选择方法”。其核心创新在于:将Kuo and Mallick (1998)的指示变量思想、Chen and Ibrahim (2003)的共轭先验结构、以及Narisetty et al. (2019)的后验一致性证明技术(特别是将后验分解为活跃与非活跃成分的思路)统一到一个框架中,并推广到GLM。

子线索聚类

  1. Spike-and-Slab 及其变体:以George and McCulloch (1993)、Dellaportas et al. (2002)、Kuo and Mallick (1998)为代表。核心思路是使用混合先验,但通常缺乏全共轭性,且后验一致性证明局限于线性模型。
  2. 连续收缩先验:以Bayesian Lasso、Horseshoe、Zellner's g-priors为代表。通过连续分布实现收缩,不显式建模变量选择,但计算上通常更高效。
  3. 非局部先验 (NLPs):以Johnson and Rossell (2010, 2012)为代表。通过先验密度在零点为零的特性,在理论上对假阳性有更强的控制,但计算和理论分析更复杂。
  4. 共轭先验框架:以Chen and Ibrahim (2003)和Chen et al. (2008)为代表。专注于GLM的共轭先验推导,但Chen et al. (2008)主要用于模型比较(如贝叶斯因子),而非变量选择,且需要穷举所有\(2^p-1\)个子集。

这个方向在追问的核心问题

  1. 如何将后验一致性保证从线性模型推广到GLM? 这是本文直接回答的问题。Narisetty et al. (2019)的Skinny Gibbs方法在GLM下的推广是核心挑战。
  2. 如何在GLM中实现全共轭的变量选择框架? 共轭性保证了Gibbs采样中条件后验的闭式表达,但GLM的共轭先验通常没有标准形式,需要近似(如Laplace近似)。
  3. 如何在高维(p可能大于n)设定下保持变量选择的一致性? 本文的条件C4明确给出了p_n的增长速率(\(\log p_n = O(n^\phi)\)),并限制了活跃模型的大小\(m_n\)
  4. 如何平衡变量选择的不确定性与参数估计的不确定性? 本文通过同时建模z和β,并证明两者的后验一致性,试图整合这两种不确定性。

⚠️ 作者的 framing

  • 作者把缺口frame成什么:作者将缺口frame成“现有贝叶斯变量选择方法在GLM中缺乏全共轭性和后验一致性保证”。具体来说,他们声称:(i) spike-and-slab方法“基于非全共轭的公式”,(ii) 许多方法“局限于线性模型”,(iii) 已有的后验一致性结果“仅限于线性高斯回归模型”。因此,本文被呈现为“显然的下一步”:一个全共轭的、有后验一致性保证的、适用于任意指数族分布的GLM变量选择方法。
  • 哪些竞争路线被他淡化或回避了
  • 连续收缩先验(如Horseshoe):作者承认其在高维设定中的有效性,但将其归类为“缺乏显式包含指示变量”,从而淡化了其在变量选择中的实用性。实际上,Horseshoe等方法的变量选择通常通过后验置信区间或阈值化实现,并非没有变量选择能力。
  • 非局部先验 (NLPs):作者提到NLPs已扩展到GLM,但未深入讨论其与本文方法的理论或实证比较。NLPs在控制假阳性方面有理论优势,本文在实证中未与之对比。
  • 频率学派方法(如LASSO):仅在引言中提及,未作为主要比较基准。本文的实证对比主要限于MLE和全贝叶斯GLM(无变量选择),以及一个Oracle模型。
  • 什么明显该被引/该存在、却没出现在intro里?:未见明显缺失的关键引用。但值得注意的是,作者未引用任何关于计算-统计权衡(computational-statistical tradeoff)低度多项式障碍(low-degree polynomial barrier) 的文献,这与其声称的“高效Gibbs采样”形成对比——Gibbs采样在高维、强相关设定下的混合速度是一个已知的开放问题,但本文未从计算复杂度角度进行讨论。

张力

未见明显对立引用。所有被引工作基本沿着“从线性到GLM、从无一致性到有一致性”的渐进路径发展,彼此之间没有根本性的矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • \(n\): 样本量。
  • \(p\): 协变量总数。
  • \(X \in \mathbb{R}^{n \times p}\): 可观测的协变量矩阵。
  • \(Y \in \mathbb{R}^n\): 可观测的响应变量向量。
  • \(z \in \{0,1\}^p\): 二值包含指示变量向量,\(z_j = 1\) 表示第\(j\)个协变量被包含在模型中,\(z_j = 0\) 表示被排除。这是潜在变量,是我们要推断的对象。
  • \(\beta \in \mathbb{R}^p\): 回归系数向量。\(\beta_j\) 是第\(j\)个协变量的系数。这也是潜在变量
  • \(\beta \circ z\): 逐元素乘积,即 \((\beta_1 z_1, \ldots, \beta_p z_p)^\top\)。只有\(z_j=1\)对应的\(\beta_j\)才会影响线性预测器。
  • \(\eta_i = x_i^\top (\beta \circ z)\): 第\(i\)个观测的线性预测器。
  • \(\theta_i\): 指数族分布的自然参数。在典范链接函数下,\(\theta_i = \eta_i\)
  • \(\tau\): 尺度参数(仅在某些分布中出现,如线性模型中的方差)。
  • \(c \in [0,1]^p\): 包含指示变量的先验概率参数,\(c_j = P(z_j = 1)\)。这是超参数,也有先验分布。
  • \(\alpha\): \(c\)的先验超参数,\(c_j \sim \text{Beta}(\alpha/p, 1)\)
  • \(a_0, \xi_0\): \(\beta\)的共轭先验的超参数。
  • \(b(\cdot)\): 指数族分布的累积量生成函数。
  • \(A(\tau)\): 指数族分布的尺度函数。
  • \(\beta^{(1)}\): 活跃系数子向量,对应\(z_j=1\)\(\beta_j\)
  • \(\beta^{(0)}\): 非活跃系数子向量,对应\(z_j=0\)\(\beta_j\)
  • \(X^{(1)}\): 活跃协变量子矩阵,对应\(z_j=1\)的列。
  • \(X^{(0)}\): 非活跃协变量子矩阵,对应\(z_j=0\)的列。

  • 模型

  • 数据生成机制\(y_i\) 来自指数族分布,其自然参数\(\theta_i\)等于线性预测器\(\eta_i = x_i^\top (\beta \circ z)\)。即,\(y_i \sim f_Y(y_i | \theta_i = x_i^\top (\beta \circ z), \tau)\)
  • 先验结构
    • \(z_j | c_j \sim \text{Bernoulli}(c_j)\)
    • \(c_j | \alpha \sim \text{Beta}(\alpha/p, 1)\)
    • \(\beta | z, \tau \sim p(\beta | z, \tau)\),其中\(p(\beta | z, \tau)\)是Chen and Ibrahim (2003)提出的GLM共轭先验,且分解为\(p(\beta^{(1)}|z, \tau) p(\beta^{(0)}|z, \tau)\)
    • \(\tau \sim p(\tau)\),需保证共轭性。
  • 要估的对象\(z\)(变量选择)和\(\beta\)(系数估计)。核心是后验分布\(p(z, \beta | X, y)\)

  • 可观测数据

  • 可观测:协变量矩阵\(X\)和响应向量\(y\)
  • 潜在/不可观测:包含指示变量\(z\)、回归系数\(\beta\)、超参数\(c\)\(\tau\)。这些都需要通过后验推断来估计。关键识别假设:模型的可识别性依赖于\(X\)满列秩,且仅对活跃系数子向量\(\beta^{(1)}\)成立;非活跃系数\(\beta^{(0)}\)不可识别,其后验等于先验。

第二步:讲最小内核

本文的核心思路可以浓缩为一个最简特例线性回归模型(高斯GLM),且\(p=2\),只有一个真实活跃变量和一个噪声变量。

  • 设定
  • \(p=2\)\(z^* = (1, 0)^\top\),即第一个变量是真实的,第二个是噪声。
  • \(\beta^* = (\beta_1^*, 0)^\top\),其中\(\beta_1^* \neq 0\)
  • 模型:\(y_i = x_{i1} \beta_1 z_1 + x_{i2} \beta_2 z_2 + \epsilon_i\)\(\epsilon_i \sim N(0, \tau)\)
  • 先验:\(\beta_j \sim N(0, \sigma_0^2)\)(独立),\(z_j \sim \text{Bernoulli}(c_j)\)\(c_j \sim \text{Beta}(\alpha/2, 1)\)

  • 核心思路

  • 后验分解:由于先验的共轭性,\(\beta\)的后验可以分解为活跃部分和非活跃部分。对于\(z_j=0\)的系数,其后验等于先验(因为数据不提供信息)。对于\(z_j=1\)的系数,其后验是更新后的正态分布。
  • Gibbs采样:算法交替采样\(z\)\(\beta\)。采样\(z_j\)时,需要比较两个模型:包含\(j\)和不包含\(j\)。这个比较通过计算贝叶斯因子(即似然比乘以先验比)来完成。
  • 后验一致性:当\(n \to \infty\)时,后验概率\(P(z = z^* | X, y) \to 1\)。这意味着,随着数据量增加,Gibbs采样器会以概率1收敛到正确的稀疏模式。同时,活跃系数\(\beta_1\)的后验会集中在真实值\(\beta_1^*\)附近,并渐近正态。

  • 为什么这个特例抓住了核心

  • 它展示了变量选择与参数估计的耦合\(z\)决定了哪些\(\beta\)被更新,而\(\beta\)的值又影响\(z\)的后验概率。
  • 它展示了共轭性的威力\(\beta\)的条件后验是闭式的正态分布,使得Gibbs采样可行。
  • 它展示了后验一致性的逻辑:随着\(n\)增大,包含噪声变量的模型(\(z=(1,1)\))的似然相对于真实模型(\(z=(1,0)\))会趋于0,因为噪声变量的系数后验会收缩到先验(均值为0),而真实变量的系数后验会集中在非零值上。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:针对广义线性模型(GLM)中的协变量选择问题,提出了一种全贝叶斯分层共轭框架,该框架通过二值包含指示变量\(z\)直接编码协变量的包含关系,并同时进行变量选择和参数估计。
  2. 核心工具/方法:利用Chen and Ibrahim (2003)的GLM共轭先验,构建了一个全共轭的贝叶斯分层模型,并推导了高效的Gibbs采样算法(对于非标准共轭分布,使用Laplace within SIR近似)。
  3. 主要结论:证明了包含指示变量\(z\)的后验一致性(Theorem 1)和活跃回归系数\(\beta^{(1)}\)的后验一致性及渐近正态性(Theorem 2),并在合成和真实数据集上验证了其竞争性的预测和推断性能。

关键设定与假设

  • 模型设定:如第二节所述,模型由式(2)定义。关键设定是线性预测器为\(\eta = X(\beta \circ z)\),且\(\beta\)的先验是依赖于\(z\)的共轭先验。
  • 假设(Theorem 1的后验一致性)
  • C1(指数族正则性):(a) 对数凹性;(b) \(\varpi\)-次指数性(\(\varpi \in (1/2, 2]\));(c) MLE存在、唯一且连续。
  • C2(设计矩阵正则性):(a) 预测变量有界;(b) 对于任何大小不超过\(m\)的模型,\(n^{-1} X_k^\top X_k\)的特征值有界且远离0和无穷大;(c)-(d) 先验超参数\(\xi_0\)与真实均值\(\mu(\beta_0)\)的偏差有界。
  • C3(真实模型与信号强度):真实活跃系数的绝对值有下界,且该下界随\(n\)增长而衰减的速度不能太快(具体为\(O(\sqrt{ |t| \Lambda_{2|t|} (\log p_n)^\omega / n^\gamma })\))。
  • C4(维度增长速率):这是一组精细的条件,用于控制\(p_n\)(协变量总数)和\(m_n(候选模型最大大小)相对于\)n\(的增长速率。例如,\)\log p_n = O(n^\phi)\(,\)m_n = O(n^\gamma / (\log p_n)^\omega)\(,且\)\phi, \gamma, \omega$之间满足一系列不等式,以确保证明中的概率界成立。
  • 相比已有文献的放宽/强化
  • 放宽:将后验一致性从线性高斯模型(Narisetty et al., 2019)推广到GLM。
  • 强化:提供了全共轭框架,而Narisetty et al. (2019)的Skinny Gibbs并非全共轭。本文的共轭性使得后验分解(活跃/非活跃)自然发生,而非通过显式的稀疏性构造。

主要结果

  • Theorem 1(变量选择的后验一致性):在条件C1-C4下,后验概率\(P(z = z^* | X, y, \tau) \to 1\),几乎必然地,当\(n \to \infty\)直觉:随着样本量增加,真实模型(\(z^*\))的后验概率会压倒所有其他模型。证明通过将候选模型分为过拟合、欠拟合和大模型三类,并分别证明每一类与真实模型的后验概率比趋于0。
  • Theorem 2(活跃系数的后验一致性):在Theorem 1的基础上,进一步证明活跃系数\(\beta^{(1)}\)的后验分布会集中在真实值\(\beta^{*(1)}\)附近,并且渐近正态。直觉:由于\(z\)的后验集中在\(z^*\)上,\(\beta^{(1)}\)的边际后验渐近等价于在真实模型下的条件后验,而后者在GLM的正则条件下具有一致性和渐近正态性(引用Miller, 2021的定理)。

证明路线与技术技巧(理论型)

  • 整体路线(Theorem 1)
  • 模型分类:将所有候选模型(大小不超过\(m_n\))分为三类:过拟合模型(\(M_1\):包含所有真实变量及一些噪声)、大模型(\(M_2\):遗漏至少一个真实变量,但大小大于真实模型)、欠拟合模型(\(M_3\):遗漏至少一个真实变量,大小不超过真实模型)。
  • 后验概率比:定义\(PR(k, t) = P(z=k | X, y) / P(z=t | X, y)\)。目标是证明\(\sum_{k \in M_u} PR(k, t) \to 0\),对\(u=1,2,3\)
  • 过拟合模型(\(M_1\):这是证明的核心。关键引理(Lemma 11)证明,在共轭先验下,MLE \(\hat{\beta}(k; a_0)\)\(O(\sqrt{m \Lambda_m (\log p_n)^\omega / n^\gamma})\)的速率收敛到真实值。然后,利用Laplace近似将后验积分近似为\(\exp(\ell_n(\hat{\beta}(k))) \cdot \det(H_{\beta_0(k)})^{-1/2}\)。通过比较\(PR(k, t)\),并利用Lemma 12(似然比的上界),最终证明其趋于0。关键跳跃点:Lemma 11的证明中,需要处理共轭先验带来的“伪观测”效应,通过泰勒展开将带先验的似然与经典似然联系起来,并利用次指数随机变量的浓度不等式(Theorem 8,Hanson-Wright不等式的推广)来控制随机项。
  • 大模型(\(M_2\):通过构造\(k^* = k \cup t \in M_1\),将\(M_2\)中模型的后验概率比上界转化为\(M_1\)中模型的上界,从而直接利用\(M_1\)的结果。
  • 欠拟合模型(\(M_3\):利用信号强度条件C3,证明遗漏任何真实变量都会导致似然比以指数速度衰减,从而压倒先验惩罚。
  • 技术技巧点名
  • Laplace近似:用于近似GLM共轭先验/后验的归一化常数,将积分近似为高斯积分。
  • Hanson-Wright不等式(次指数版本):用于控制二次型\((y-\mu)^\top X_k^\top X_k (y-\mu)\)的浓度,这是证明MLE收敛速率和似然比上界的关键工具。
  • 泰勒展开与Lagrange余项:用于处理带先验的似然函数,将其展开为经典似然加上先验修正项。
  • 模型分类与并集界:将无穷多个候选模型分为有限类,对每一类使用并集界控制概率。
  • 后验分解:利用共轭性,将\(\beta\)的后验自然分解为活跃和非活跃部分,简化了分析。

真实例子与应用

本文包含三个真实数据例子,均在5.2节:

  1. Poisson回归(Crabs数据集)
  2. 数据:173只雌性鲎的野外测量数据,响应变量是雄性伴侣数量(Satellites)。
  3. 方法应用:使用本文的BayesVS-GLM方法,进行30折交叉验证。
  4. 结果:模型成功识别出两个随机添加的噪声变量(rep1, rep2)并将其排除(后验包含概率接近0)。预测误差(MAE, RMSE)与Bayes-GLM和MLE相当。
  5. 说明:验证了模型在真实数据中识别噪声变量的能力。

  6. Logistic回归(Heart Disease数据集)

  7. 数据:920条患者记录,14个属性,二值响应(是否患心脏病)。
  8. 方法应用:预处理后740条记录,13个变量,30折交叉验证。
  9. 结果:模型识别出cp(胸痛类型)、sex、thalch、exang、oldpeak为重要变量,而fbs、chol、restecg为低重要性变量,这与已知临床发现一致。Gibbs采样器仅探索了25个不同模型,其中前10个覆盖了93.2%的迭代。预测精度(Balanced Accuracy, F1)与baseline相当或略优。
  10. 说明:验证了模型在分类任务中的变量选择结果与领域知识的一致性,以及模型空间探索的效率。

  11. 线性回归(Pollution数据集)

  12. 数据:60个都市区的年龄调整死亡率数据,15个环境与社会经济协变量。
  13. 方法应用:30折交叉验证。
  14. 结果:模型识别出nonw(非白人比例)为最一致的变量,但对sox、educ、prec、jant等变量的包含存在较大不确定性。Gibbs采样器探索了3025个不同模型。预测精度(AdjR2, MAE, RMSE)与baseline相当。
  15. 说明:展示了模型在变量间存在复杂相关性时的不确定性量化能力,但也暴露了在强相关设定下变量选择的不稳定性。

🔎 结论是否比证明窄

  • Theorem 1的证明依赖于精细的维度增长条件C4,这些条件限制了\(p_n\)\(m_n\)相对于\(n\)的增长速率。作者在结论中声称“适用于高维设定”,但C4中的条件(如\(\log p_n = O(n^\phi)\)\(\phi < \gamma/\omega\))实际上限制了\(p_n\)只能以多项式速率增长(相对于\(n\)的某个幂次),而非指数速率。这与“高维”的常见理解(\(p \gg n\),如\(p = \exp(n^\alpha)\))有差距。作者在2.1节末尾提到“允许协变量总数\(p\)\(n\)增长,可能超过\(n\)”,但Theorem 1的证明并未覆盖\(p \gg n\)的典型高维场景(如\(p > n\)\(p\)指数增长)。
  • Theorem 2的证明依赖于Theorem 1,因此其有效性同样受限于C4。此外,Theorem 2的渐近正态性结论直接引用Miller (2021)的定理,而Miller的定理是在固定维数下成立的。本文将其应用于\(p_1\)(活跃变量数)可能随\(n\)增长的情况,但未明确讨论\(p_1\)增长时渐近正态性是否仍然成立。结论中“渐近正态”的表述可能比证明所覆盖的范围更宽。

四、开放问题

  1. 高维设定下的理论保证:Theorem 1的证明依赖于条件C4,该条件限制了\(p_n\)\(m_n\)的增长速率。一个开放问题是,能否在更宽松的条件下(如\(p_n\)指数增长,或\(p_n \gg n\))建立后验一致性?这需要更精细的浓度不等式或不同的证明策略。扎根点:条件C4(d)和C4(e)的具体形式,以及Remark 8中关于收敛速率的讨论。

  2. 计算复杂度与MCMC混合:本文的Gibbs采样器在Pollution数据集上探索了3025个模型,但在高维(如\(p=1000\))下,其混合速度是一个严重问题。开放问题是:能否设计更高效的采样策略(如基于Sobol序列的拟蒙特卡洛、或变分推断)?或者,能否从计算-统计权衡的角度,刻画该Gibbs采样器在多项式时间内能够达到的统计精度?扎根点:作者在结论中仅提到“R package is developed”,未讨论计算复杂度或MCMC收敛诊断。

  3. 强相关变量下的变量选择:附录F的实验表明,当协变量间相关性极高(如\(\gamma > 0.95\))时,变量选择的准确性急剧下降且变得不稳定。开放问题是:能否通过引入群组结构先验(如group spike-and-slab)或调整先验超参数来改善这一行为?扎根点:附录F.0.1中图54的结果,以及作者在Pollution数据集分析中提到的“marked uncertainty across many inclusion indicators”。

  4. 非典范链接函数:本文假设使用典范链接函数(\(\theta = \eta\))。对于非典范链接,共轭先验的形式会改变,后验一致性的证明也需要调整。开放问题是:本文的理论和算法能否推广到非典范链接的GLM?扎根点:模型定义式(2)中使用了典范链接,且Theorem 3的推导依赖于\(\theta = \eta\)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论