Bayesian Variable Selection in Generalized Linear Models¶

作者: Lucia Filippozzi, Iñigo Urteaga, Claudio Agostinelli
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.24357

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是贝叶斯变量选择（Bayesian Variable Selection），其根本的统计问题是：在广义线性模型（GLM）中，如何从一组候选协变量中识别出真正影响响应变量的子集，并同时估计其效应。该问题的核心挑战在于，既要避免包含无关变量导致的过拟合与可解释性下降，又要防止遗漏重要变量导致的估计偏误。当前该领域的成熟度较高，已有大量频率学派（如LASSO及其变体）和贝叶斯学派的方法，但在GLM框架下同时实现全共轭性、后验一致性保证和高效计算仍是一个未完全解决的问题。

发展脉络（history）¶

奠基工作：
Mitchell and Beauchamp (1988) 和 George and McCulloch (1993) 提出了“spike-and-slab”先验，将每个回归系数建模为一个点质量（spike）和一个扩散分布（slab）的混合。这是贝叶斯变量选择的奠基性框架。
Kuo and Mallick (1998) 引入了一个二值包含指示变量直接进入回归模型，将变量选择与系数估计解耦。作者在引言中评价其“与我们共享在回归方程中使用二值包含指示变量的思路”。
Chen and Ibrahim (2003) 系统性地发展了GLM的共轭先验理论，为本文提供了关键的数学工具。作者称其工作“通过利用Chen and Ibrahim (2003)的共轭先验结构，适用于指数族中的任意分布”。
主要进展：
连续收缩先验：如Bayesian Lasso (Cai et al., 2011)、Horseshoe (Bhadra et al., 2019, 2021) 和 Zellner's g-priors (Liang et al., 2008) 通过全局-局部收缩机制将无关系数推向零，但不引入显式的包含指示变量。作者指出这些方法“缺乏显式的包含指示变量”。
非局部先验 (NLPs)：Johnson and Rossell (2010, 2012) 提出了在参数等于零时密度恰好为零的先验，并扩展到GLM (Rossell et al., 2013; Shin et al., 2018; Cao and Lee, 2024)。作者认为这些方法“特别适用于高维设定”。
后验一致性理论：Narisetty and He (2014) 在收缩先验下建立了变量选择的后验一致性，Narisetty et al. (2019) 在“Skinny Gibbs”框架下为高斯线性模型建立了spike-and-slab先验的一致性。作者明确指出，这些理论结果“仅限于线性高斯回归模型”。
当前frontier与本文位置：
作者将本文定位为“第一个具有贝叶斯后验一致性保证的GLM全共轭变量选择方法”。其核心创新在于：将Kuo and Mallick (1998)的指示变量思想、Chen and Ibrahim (2003)的共轭先验结构、以及Narisetty et al. (2019)的后验一致性证明技术（特别是将后验分解为活跃与非活跃成分的思路）统一到一个框架中，并推广到GLM。

子线索聚类¶

Spike-and-Slab 及其变体：以George and McCulloch (1993)、Dellaportas et al. (2002)、Kuo and Mallick (1998)为代表。核心思路是使用混合先验，但通常缺乏全共轭性，且后验一致性证明局限于线性模型。
连续收缩先验：以Bayesian Lasso、Horseshoe、Zellner's g-priors为代表。通过连续分布实现收缩，不显式建模变量选择，但计算上通常更高效。
非局部先验 (NLPs)：以Johnson and Rossell (2010, 2012)为代表。通过先验密度在零点为零的特性，在理论上对假阳性有更强的控制，但计算和理论分析更复杂。
共轭先验框架：以Chen and Ibrahim (2003)和Chen et al. (2008)为代表。专注于GLM的共轭先验推导，但Chen et al. (2008)主要用于模型比较（如贝叶斯因子），而非变量选择，且需要穷举所有$2^p-1$个子集。

这个方向在追问的核心问题¶

如何将后验一致性保证从线性模型推广到GLM？ 这是本文直接回答的问题。Narisetty et al. (2019)的Skinny Gibbs方法在GLM下的推广是核心挑战。
如何在GLM中实现全共轭的变量选择框架？ 共轭性保证了Gibbs采样中条件后验的闭式表达，但GLM的共轭先验通常没有标准形式，需要近似（如Laplace近似）。
如何在高维（p可能大于n）设定下保持变量选择的一致性？ 本文的条件C4明确给出了p_n的增长速率（$\log p_n = O(n^\phi)$），并限制了活跃模型的大小$m_n$。
如何平衡变量选择的不确定性与参数估计的不确定性？ 本文通过同时建模z和β，并证明两者的后验一致性，试图整合这两种不确定性。

⚠️ 作者的 framing¶

作者把缺口frame成什么：作者将缺口frame成“现有贝叶斯变量选择方法在GLM中缺乏全共轭性和后验一致性保证”。具体来说，他们声称：(i) spike-and-slab方法“基于非全共轭的公式”，(ii) 许多方法“局限于线性模型”，(iii) 已有的后验一致性结果“仅限于线性高斯回归模型”。因此，本文被呈现为“显然的下一步”：一个全共轭的、有后验一致性保证的、适用于任意指数族分布的GLM变量选择方法。
哪些竞争路线被他淡化或回避了：
连续收缩先验（如Horseshoe）：作者承认其在高维设定中的有效性，但将其归类为“缺乏显式包含指示变量”，从而淡化了其在变量选择中的实用性。实际上，Horseshoe等方法的变量选择通常通过后验置信区间或阈值化实现，并非没有变量选择能力。
非局部先验 (NLPs)：作者提到NLPs已扩展到GLM，但未深入讨论其与本文方法的理论或实证比较。NLPs在控制假阳性方面有理论优势，本文在实证中未与之对比。
频率学派方法（如LASSO）：仅在引言中提及，未作为主要比较基准。本文的实证对比主要限于MLE和全贝叶斯GLM（无变量选择），以及一个Oracle模型。
什么明显该被引/该存在、却没出现在intro里？：未见明显缺失的关键引用。但值得注意的是，作者未引用任何关于计算-统计权衡（computational-statistical tradeoff） 或低度多项式障碍（low-degree polynomial barrier） 的文献，这与其声称的“高效Gibbs采样”形成对比——Gibbs采样在高维、强相关设定下的混合速度是一个已知的开放问题，但本文未从计算复杂度角度进行讨论。

张力¶

未见明显对立引用。所有被引工作基本沿着“从线性到GLM、从无一致性到有一致性”的渐进路径发展，彼此之间没有根本性的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
$n$: 样本量。
$p$: 协变量总数。
$X \in \mathbb{R}^{n \times p}$: 可观测的协变量矩阵。
$Y \in \mathbb{R}^n$: 可观测的响应变量向量。
$z \in \{0,1\}^p$: 二值包含指示变量向量，$z_j = 1$ 表示第$j$个协变量被包含在模型中，$z_j = 0$ 表示被排除。这是潜在变量，是我们要推断的对象。
$\beta \in \mathbb{R}^p$: 回归系数向量。$\beta_j$ 是第$j$个协变量的系数。这也是潜在变量。
$\beta \circ z$: 逐元素乘积，即 $(\beta_1 z_1, \ldots, \beta_p z_p)^\top$。只有$z_j=1$对应的$\beta_j$才会影响线性预测器。
$\eta_i = x_i^\top (\beta \circ z)$: 第$i$个观测的线性预测器。
$\theta_i$: 指数族分布的自然参数。在典范链接函数下，$\theta_i = \eta_i$。
$\tau$: 尺度参数（仅在某些分布中出现，如线性模型中的方差）。
$c \in [0,1]^p$: 包含指示变量的先验概率参数，$c_j = P(z_j = 1)$。这是超参数，也有先验分布。
$\alpha$: $c$的先验超参数，$c_j \sim \text{Beta}(\alpha/p, 1)$。
$a_0, \xi_0$: $\beta$的共轭先验的超参数。
$b(\cdot)$: 指数族分布的累积量生成函数。
$A(\tau)$: 指数族分布的尺度函数。
$\beta^{(1)}$: 活跃系数子向量，对应$z_j=1$的$\beta_j$。
$\beta^{(0)}$: 非活跃系数子向量，对应$z_j=0$的$\beta_j$。
$X^{(1)}$: 活跃协变量子矩阵，对应$z_j=1$的列。
$X^{(0)}$: 非活跃协变量子矩阵，对应$z_j=0$的列。
模型：
数据生成机制：$y_i$ 来自指数族分布，其自然参数$\theta_i$等于线性预测器$\eta_i = x_i^\top (\beta \circ z)$。即，$y_i \sim f_Y(y_i | \theta_i = x_i^\top (\beta \circ z), \tau)$。
先验结构：
- $z_j | c_j \sim \text{Bernoulli}(c_j)$
- $c_j | \alpha \sim \text{Beta}(\alpha/p, 1)$
- $\beta | z, \tau \sim p(\beta | z, \tau)$，其中$p(\beta | z, \tau)$是Chen and Ibrahim (2003)提出的GLM共轭先验，且分解为$p(\beta^{(1)}|z, \tau) p(\beta^{(0)}|z, \tau)$。
- $\tau \sim p(\tau)$，需保证共轭性。
要估的对象：$z$（变量选择）和$\beta$（系数估计）。核心是后验分布$p(z, \beta | X, y)$。
可观测数据：
可观测：协变量矩阵$X$和响应向量$y$。
潜在/不可观测：包含指示变量$z$、回归系数$\beta$、超参数$c$和$\tau$。这些都需要通过后验推断来估计。关键识别假设：模型的可识别性依赖于$X$满列秩，且仅对活跃系数子向量$\beta^{(1)}$成立；非活跃系数$\beta^{(0)}$不可识别，其后验等于先验。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：线性回归模型（高斯GLM），且$p=2$，只有一个真实活跃变量和一个噪声变量。

设定：
$p=2$，$z^* = (1, 0)^\top$，即第一个变量是真实的，第二个是噪声。
$\beta^* = (\beta_1^*, 0)^\top$，其中$\beta_1^* \neq 0$。
模型：$y_i = x_{i1} \beta_1 z_1 + x_{i2} \beta_2 z_2 + \epsilon_i$，$\epsilon_i \sim N(0, \tau)$。
先验：$\beta_j \sim N(0, \sigma_0^2)$（独立），$z_j \sim \text{Bernoulli}(c_j)$，$c_j \sim \text{Beta}(\alpha/2, 1)$。
核心思路：
后验分解：由于先验的共轭性，$\beta$的后验可以分解为活跃部分和非活跃部分。对于$z_j=0$的系数，其后验等于先验（因为数据不提供信息）。对于$z_j=1$的系数，其后验是更新后的正态分布。
Gibbs采样：算法交替采样$z$和$\beta$。采样$z_j$时，需要比较两个模型：包含$j$和不包含$j$。这个比较通过计算贝叶斯因子（即似然比乘以先验比）来完成。
后验一致性：当$n \to \infty$时，后验概率$P(z = z^* | X, y) \to 1$。这意味着，随着数据量增加，Gibbs采样器会以概率1收敛到正确的稀疏模式。同时，活跃系数$\beta_1$的后验会集中在真实值$\beta_1^*$附近，并渐近正态。
为什么这个特例抓住了核心：
它展示了变量选择与参数估计的耦合：$z$决定了哪些$\beta$被更新，而$\beta$的值又影响$z$的后验概率。
它展示了共轭性的威力：$\beta$的条件后验是闭式的正态分布，使得Gibbs采样可行。
它展示了后验一致性的逻辑：随着$n$增大，包含噪声变量的模型（$z=(1,1)$）的似然相对于真实模型（$z=(1,0)$）会趋于0，因为噪声变量的系数后验会收缩到先验（均值为0），而真实变量的系数后验会集中在非零值上。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对广义线性模型（GLM）中的协变量选择问题，提出了一种全贝叶斯分层共轭框架，该框架通过二值包含指示变量$z$直接编码协变量的包含关系，并同时进行变量选择和参数估计。
核心工具/方法：利用Chen and Ibrahim (2003)的GLM共轭先验，构建了一个全共轭的贝叶斯分层模型，并推导了高效的Gibbs采样算法（对于非标准共轭分布，使用Laplace within SIR近似）。
主要结论：证明了包含指示变量$z$的后验一致性（Theorem 1）和活跃回归系数$\beta^{(1)}$的后验一致性及渐近正态性（Theorem 2），并在合成和真实数据集上验证了其竞争性的预测和推断性能。

关键设定与假设¶

模型设定：如第二节所述，模型由式(2)定义。关键设定是线性预测器为$\eta = X(\beta \circ z)$，且$\beta$的先验是依赖于$z$的共轭先验。
假设（Theorem 1的后验一致性）：
C1（指数族正则性）：(a) 对数凹性；(b) $\varpi$-次指数性（$\varpi \in (1/2, 2]$）；(c) MLE存在、唯一且连续。
C2（设计矩阵正则性）：(a) 预测变量有界；(b) 对于任何大小不超过$m$的模型，$n^{-1} X_k^\top X_k$的特征值有界且远离0和无穷大；(c)-(d) 先验超参数$\xi_0$与真实均值$\mu(\beta_0)$的偏差有界。
C3（真实模型与信号强度）：真实活跃系数的绝对值有下界，且该下界随$n$增长而衰减的速度不能太快（具体为$O(\sqrt{ |t| \Lambda_{2|t|} (\log p_n)^\omega / n^\gamma })$）。
C4（维度增长速率）：这是一组精细的条件，用于控制$p_n$（协变量总数）和$m_n（候选模型最大大小）相对于$n$的增长速率。例如，$\log p_n = O(n^\phi)$，$m_n = O(n^\gamma / (\log p_n)^\omega)$，且$\phi, \gamma, \omega$之间满足一系列不等式，以确保证明中的概率界成立。
相比已有文献的放宽/强化：
放宽：将后验一致性从线性高斯模型（Narisetty et al., 2019）推广到GLM。
强化：提供了全共轭框架，而Narisetty et al. (2019)的Skinny Gibbs并非全共轭。本文的共轭性使得后验分解（活跃/非活跃）自然发生，而非通过显式的稀疏性构造。

主要结果¶

Theorem 1（变量选择的后验一致性）：在条件C1-C4下，后验概率$P(z = z^* | X, y, \tau) \to 1$，几乎必然地，当$n \to \infty$。直觉：随着样本量增加，真实模型（$z^*$）的后验概率会压倒所有其他模型。证明通过将候选模型分为过拟合、欠拟合和大模型三类，并分别证明每一类与真实模型的后验概率比趋于0。
Theorem 2（活跃系数的后验一致性）：在Theorem 1的基础上，进一步证明活跃系数$\beta^{(1)}$的后验分布会集中在真实值$\beta^{*(1)}$附近，并且渐近正态。直觉：由于$z$的后验集中在$z^*$上，$\beta^{(1)}$的边际后验渐近等价于在真实模型下的条件后验，而后者在GLM的正则条件下具有一致性和渐近正态性（引用Miller, 2021的定理）。

证明路线与技术技巧（理论型）¶

整体路线（Theorem 1）：
模型分类：将所有候选模型（大小不超过$m_n$）分为三类：过拟合模型（$M_1$：包含所有真实变量及一些噪声）、大模型（$M_2$：遗漏至少一个真实变量，但大小大于真实模型）、欠拟合模型（$M_3$：遗漏至少一个真实变量，大小不超过真实模型）。
后验概率比：定义$PR(k, t) = P(z=k | X, y) / P(z=t | X, y)$。目标是证明$\sum_{k \in M_u} PR(k, t) \to 0$，对$u=1,2,3$。
过拟合模型（$M_1$）：这是证明的核心。关键引理（Lemma 11）证明，在共轭先验下，MLE $\hat{\beta}(k; a_0)$以$O(\sqrt{m \Lambda_m (\log p_n)^\omega / n^\gamma})$的速率收敛到真实值。然后，利用Laplace近似将后验积分近似为$\exp(\ell_n(\hat{\beta}(k))) \cdot \det(H_{\beta_0(k)})^{-1/2}$。通过比较$PR(k, t)$，并利用Lemma 12（似然比的上界），最终证明其趋于0。关键跳跃点：Lemma 11的证明中，需要处理共轭先验带来的“伪观测”效应，通过泰勒展开将带先验的似然与经典似然联系起来，并利用次指数随机变量的浓度不等式（Theorem 8，Hanson-Wright不等式的推广）来控制随机项。
大模型（$M_2$）：通过构造$k^* = k \cup t \in M_1$，将$M_2$中模型的后验概率比上界转化为$M_1$中模型的上界，从而直接利用$M_1$的结果。
欠拟合模型（$M_3$）：利用信号强度条件C3，证明遗漏任何真实变量都会导致似然比以指数速度衰减，从而压倒先验惩罚。
技术技巧点名：
Laplace近似：用于近似GLM共轭先验/后验的归一化常数，将积分近似为高斯积分。
Hanson-Wright不等式（次指数版本）：用于控制二次型$(y-\mu)^\top X_k^\top X_k (y-\mu)$的浓度，这是证明MLE收敛速率和似然比上界的关键工具。
泰勒展开与Lagrange余项：用于处理带先验的似然函数，将其展开为经典似然加上先验修正项。
模型分类与并集界：将无穷多个候选模型分为有限类，对每一类使用并集界控制概率。
后验分解：利用共轭性，将$\beta$的后验自然分解为活跃和非活跃部分，简化了分析。

真实例子与应用¶

本文包含三个真实数据例子，均在5.2节：

Poisson回归（Crabs数据集）：
数据：173只雌性鲎的野外测量数据，响应变量是雄性伴侣数量（Satellites）。
方法应用：使用本文的BayesVS-GLM方法，进行30折交叉验证。
结果：模型成功识别出两个随机添加的噪声变量（rep1, rep2）并将其排除（后验包含概率接近0）。预测误差（MAE, RMSE）与Bayes-GLM和MLE相当。
说明：验证了模型在真实数据中识别噪声变量的能力。
Logistic回归（Heart Disease数据集）：
数据：920条患者记录，14个属性，二值响应（是否患心脏病）。
方法应用：预处理后740条记录，13个变量，30折交叉验证。
结果：模型识别出cp（胸痛类型）、sex、thalch、exang、oldpeak为重要变量，而fbs、chol、restecg为低重要性变量，这与已知临床发现一致。Gibbs采样器仅探索了25个不同模型，其中前10个覆盖了93.2%的迭代。预测精度（Balanced Accuracy, F1）与baseline相当或略优。
说明：验证了模型在分类任务中的变量选择结果与领域知识的一致性，以及模型空间探索的效率。
线性回归（Pollution数据集）：
数据：60个都市区的年龄调整死亡率数据，15个环境与社会经济协变量。
方法应用：30折交叉验证。
结果：模型识别出nonw（非白人比例）为最一致的变量，但对sox、educ、prec、jant等变量的包含存在较大不确定性。Gibbs采样器探索了3025个不同模型。预测精度（AdjR2, MAE, RMSE）与baseline相当。
说明：展示了模型在变量间存在复杂相关性时的不确定性量化能力，但也暴露了在强相关设定下变量选择的不稳定性。

🔎 结论是否比证明窄¶

Theorem 1的证明依赖于精细的维度增长条件C4，这些条件限制了$p_n$和$m_n$相对于$n$的增长速率。作者在结论中声称“适用于高维设定”，但C4中的条件（如$\log p_n = O(n^\phi)$且$\phi < \gamma/\omega$）实际上限制了$p_n$只能以多项式速率增长（相对于$n$的某个幂次），而非指数速率。这与“高维”的常见理解（$p \gg n$，如$p = \exp(n^\alpha)$）有差距。作者在2.1节末尾提到“允许协变量总数$p$随$n$增长，可能超过$n$”，但Theorem 1的证明并未覆盖$p \gg n$的典型高维场景（如$p > n$且$p$指数增长）。
Theorem 2的证明依赖于Theorem 1，因此其有效性同样受限于C4。此外，Theorem 2的渐近正态性结论直接引用Miller (2021)的定理，而Miller的定理是在固定维数下成立的。本文将其应用于$p_1$（活跃变量数）可能随$n$增长的情况，但未明确讨论$p_1$增长时渐近正态性是否仍然成立。结论中“渐近正态”的表述可能比证明所覆盖的范围更宽。

四、开放问题¶

高维设定下的理论保证：Theorem 1的证明依赖于条件C4，该条件限制了$p_n$和$m_n$的增长速率。一个开放问题是，能否在更宽松的条件下（如$p_n$指数增长，或$p_n \gg n$）建立后验一致性？这需要更精细的浓度不等式或不同的证明策略。扎根点：条件C4(d)和C4(e)的具体形式，以及Remark 8中关于收敛速率的讨论。
计算复杂度与MCMC混合：本文的Gibbs采样器在Pollution数据集上探索了3025个模型，但在高维（如$p=1000$）下，其混合速度是一个严重问题。开放问题是：能否设计更高效的采样策略（如基于Sobol序列的拟蒙特卡洛、或变分推断）？或者，能否从计算-统计权衡的角度，刻画该Gibbs采样器在多项式时间内能够达到的统计精度？扎根点：作者在结论中仅提到“R package is developed”，未讨论计算复杂度或MCMC收敛诊断。
强相关变量下的变量选择：附录F的实验表明，当协变量间相关性极高（如$\gamma > 0.95$）时，变量选择的准确性急剧下降且变得不稳定。开放问题是：能否通过引入群组结构先验（如group spike-and-slab）或调整先验超参数来改善这一行为？扎根点：附录F.0.1中图54的结果，以及作者在Pollution数据集分析中提到的“marked uncertainty across many inclusion indicators”。
非典范链接函数：本文假设使用典范链接函数（$\theta = \eta$）。对于非典范链接，共轭先验的形式会改变，后验一致性的证明也需要调整。开放问题是：本文的理论和算法能否推广到非典范链接的GLM？扎根点：模型定义式(2)中使用了典范链接，且Theorem 3的推导依赖于$\theta = \eta$。

Maintained by 陈星宇 · Homepage · Source on GitHub