跳转至

Selective inference using randomized group lasso estimators for general models

作者: Yiling Huang, Sarah Pirenne, Snigdha Panigrahi, Gerda Claeskens
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: Selective inference(选后推断)要解决的根本统计问题是:当研究者用同一批数据先做变量选择(如 Lasso、Group Lasso)、再对选中变量的参数做假设检验或置信区间时,经典推断理论因“选模型”这一数据依赖事件而失效,导致 p-value 失真、置信区间覆盖率不足。当前该方向已从早期的高斯线性模型 + Lasso 框架走向更一般的分布(GLM、quasi-likelihood)与更一般的惩罚(Group Lasso、平滑量化回归),成熟度处于“有成熟条件推断框架,但计算与功效仍受制于选择事件的几何复杂度”的阶段。

发展脉络(history): - 奠基工作:Berk et al. (2013) 与 Bachoc et al. (2016) 提出 universally valid 的边际视角,覆盖任何选择程序,但代价是极度保守(同时推断所有子模型的所有线性函数)。作者原话判断:“provides a marginal viewpoint and is valid regardless of the method of selection”——即它回避了条件化,换来的是区间过长。 - 条件化与多面体方法:Lee et al. (2016) 利用 Lasso 选择事件可表为观测的线性不等式组(多面体),在条件化下给出精确推断;Taylor & Tibshirani (2018) 将其推广至 \(\ell_1\)-penalized likelihood(GLM、Cox)。但 Kivaranovic & Leeb (2020) 暴露了致命瓶颈:多面体方法下,一种常用置信区间的期望长度无穷,另一种在多数选模型下也趋于无穷。作者原话判断:“its expected length is always infinite”。 - 随机化与数据雕刻:为克服多面体方法的功效损失与无穷长度问题,Tian & Taylor (2015/2018) 引入随机化响应,证明选择性中心极限定理;Fithian et al. (2014) 提出数据雕刻,比数据分割更功效;Rasines & Young (2021) 将随机化与数据分割联系起来;Leiner et al. (2021) 与 Dharamsi et al. (2023) 发展了数据裂变/细化,在指数族中实现单数据点的无信息拆分。Panigrahi & Taylor (2019/2022) 与 Panigrahi et al. (2021/2022b) 在随机化框架下用近似/精确极大似然绕开 MCMC,给出闭式或凸优化可解的选后推断。 - Group Lasso 的特殊困难:Group Lasso 的选择事件不再是线性不等式组,多面体方法直接失效。Panigrahi et al. (2020/2023) 在高斯回归下用贝叶斯方法处理 Group Lasso 选后推断,但依赖 MCMC(Langevin sampler),且只适用高斯。Duy & Takeuchi (2022) 用参数规划避免过度条件化,但计算代价高。 - 本文的位置:将随机化框架从 Lasso/高斯推广至 Group Lasso + quasi-likelihood/GLM,用随机化构造选后似然,给出 Wald 型置信域并证明其体积有界,直接回应 Kivaranovic & Leeb (2020) 的无穷长度问题。

子线索聚类: 1. 边际 / 同时推断:Berk et al. (2013)、Bachoc et al. (2016)——不条件化,保覆盖但极保守。 2. 条件化 / 多面体方法:Lee et al. (2016)、Taylor & Tibshirani (2018)、Duy & Takeuchi (2022)——条件化于选择事件,Lasso 下精确,但 Group Lasso 下几何不可表,且区间长度可能无穷。 3. 随机化 / 数据雕刻 / 裂变:Tian & Taylor (2015/2018)、Fithian et al. (2014)、Panigrahi & Taylor (2019/2022)、Panigrahi et al. (2021/2022b/2023)、Rasines & Young (2021)、Leiner et al. (2021)、Dharamsi et al. (2023)——通过加噪或拆分数据,软化选择事件,提升功效,绕开多面体几何困难。 4. 高维 GLM / quasi-likelihood 的渐近理论:Sur & Candès (2017/2019)、van de Geer & Mueller (2012)——为高维 GLM 提供极大似然/quasi-似然的渐近分布与误差界,本文借用其 quasi-似然框架。

这个方向在追问的核心问题: 1. 如何在不牺牲覆盖率的前提下,缩小选后置信区间的长度?(多面体方法长度无穷;随机化方法能否保证有界?) 2. Group Lasso 的选择事件不可用线性不等式表出,如何条件化?(多面体方法失效;随机化能否给出可处理的选后似然?) 3. 非高斯(GLM、quasi-likelihood)下,选后推断的似然如何构造?(高斯下可用 CAR 条件;非高斯下无闭式条件分布,需近似或随机化。) 4. 随机化量如何选择?(过小则选择事件仍尖锐、功效低;过大则信息损失多、估计方差大。)

⚠️ 作者的 framing: - 作者把缺口 frame 成:现有 Group Lasso 选后推断只适用于高斯线性模型(Panigrahi et al. 2023),且多面体方法在 Group Lasso 下失效、区间长度可能无穷;本文通过随机化 + quasi-likelihood 填补这一缺口,给出有界体积的 Wald 型置信域。 - 被淡化的竞争路线:Duy & Takeuchi (2022) 的参数规划方法(避免过度条件化、提升功效,但计算复杂);Dai et al. (2023) 的 Gaussian mirror(控制 FDR,但非条件化置信区间);数据裂变/细化(Leiner et al. 2021、Dharamsi et al. 2023)——这些在 intro 里未被深入对比,可能因为它们侧重 FDR 或单数据点拆分,而非条件化选后似然。 - 明显该被引但未出现的:Lee et al. (2016) 的原始多面体推断论文(intro 只提 Taylor & Tibshirani 2018);高维 GLM 选后推断的其他近期工作(如基于 debiased Lasso 的选后推断);Group Lasso 选择事件几何结构的更早分析(如 Yuan & Lin 2006 的原始 Group Lasso 论文)。

张力: - 未见明显对立引用。但存在隐含张力:Berk et al. (2013) 的边际方法保覆盖但极保守,Lee et al. (2016) 的条件方法更精准但长度无穷,本文的随机化条件方法声称保覆盖且有界长度——这三者在“覆盖率 vs. 长度 vs. 计算可行性”上的权衡是核心张力,需研究者自行验证本文的 bounded volume 界是否真正在实践中比多面体方法短。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(n\):样本量。
  • \(p\):协变量总数。
  • \(G\):协变量的分组集合,共 \(|G|\) 个组;组 \(g \in G\) 包含 \(p_g\) 个协变量,\(E\) 为被选中的组的集合,\(|E|\) 为选中组数,\(p_E = \sum_{g \in E} p_g\) 为选中协变量总数。
  • \(X\)\(n \times p\) 设计矩阵,\(X_E\) 为对应选中组的 \(n \times p_E\) 子矩阵。
  • \(Y\)\(n \times 1\) 响应变量向量,为可观测随机变量。
  • \(\beta\)\(p \times 1\) 回归参数向量,\(\beta_E\) 为选中组的参数子向量,是本文要推断的 estimand。
  • \(\theta_E\):选中组参数的另一种参数化(可能与 \(\beta_E\) 不同,如 GLM 中 \(\theta_E\) 为自然参数),具体取决于模型。
  • \(\ell(\theta_E; Y, X_E)\):对数似然或 quasi-对数似然函数,依赖于可观测数据 \((Y, X_E)\) 和参数 \(\theta_E\)
  • \(\lambda_g\):组 \(g\) 的 Group Lasso 惩罚参数,通常取 \(\lambda_g = \lambda \sqrt{p_g}\)
  • \(\Omega\):随机化变量,为不可观测的辅助随机变量,本文假设 \(\Omega \sim N(0, \tau^2 I_p)\)\(p\) 维高斯,方差 \(\tau^2\) 控制随机化量)。
  • \(\hat{\beta}^R\):随机化 Group Lasso 估计量,为可观测(通过求解优化问题得到)的随机变量。
  • \(E\):选择事件,即 \(\hat{\beta}^R\) 的哪些组非零,为可观测事件。
  • 可观测数据\((Y, X)\),以及由此算出的 \(\hat{\beta}^R\) 和选中组集 \(E\)
  • 不可观测 / 潜在量:随机化变量 \(\Omega\)(实际被引入优化但不可直接观测;其作用被条件化消去);真实参数 \(\beta\)\(\theta_E\)(要推断但不可直接观测)。

第二步:最小内核——高斯线性模型 + 单组被选 + 随机化 Group Lasso

剥掉 quasi-likelihood、多组、Wald 型置信域的一般性,回到最简特例:\(Y \sim N(X\beta, \sigma^2 I_n)\)(高斯线性模型),只有一个组 \(E = \{g\}\) 被选中(\(p_E = p_g\)),随机化变量 \(\Omega \sim N(0, \tau^2 I_{p_g})\)

随机化 Group Lasso 优化问题

\[\min_{\beta_g} \frac{1}{2} \|Y - X_g \beta_g\|^2 + \lambda_g \|\beta_g\|_2 - \Omega^\top \beta_g\]
其中 \(\|\beta_g\|_2\) 是组 \(g\)\(L_2\) 范数惩罚,\(\Omega\) 是加性随机化扰动。

选择事件 \(E\):组 \(g\) 被选中,即 \(\hat{\beta}_g^R \neq 0\)。在 Group Lasso 下,这等价于子梯度条件:\(X_g^\top (Y - X_g \hat{\beta}_g^R) / n = \lambda_g \frac{\hat{\beta}_g^R}{\|\hat{\beta}_g^R\|_2} - \Omega / n\),且 \(\|\hat{\beta}_g^R\|_2 > 0\)

条件化于 \(E\) 后的选后似然(最小内核): 在高斯线性模型下,\(Y\) 的似然是 \(N(X_g \beta_g, \sigma^2 I_n)\);条件化于选择事件 \(E\) 和随机化 \(\Omega\) 的特定值后,利用 CAR(Conditioning on Selection by Adjustment for Randomization)原理,可以推导出 \(Y\) 在条件化下的分布仍为高斯,但均值和方差被选择事件调整。具体地,条件化将 \(\Omega\) 的部分信息“吸收”进调整似然,使得调整后的似然仍是关于 \(\beta_g\) 的高斯分布,但其信息矩阵被修正。

要证的命题(最小内核退化形式): 在条件化于 \(E\) 后,选后极大似然估计 \(\hat{\beta}_g^{sel}\) 存在,且基于选后似然的观测 Fisher 信息矩阵 \(J_E\) 是正定的,由此构造的 Wald 型置信域 \(\{\beta_g : (\hat{\beta}_g^{sel} - \beta_g)^\top J_E (\hat{\beta}_g^{sel} - \beta_g) \leq c\}\) 的体积有界,不随信号强度趋于零而趋于无穷。

为什么成立(直觉): 随机化 \(\Omega\) 软化了选择事件的边界——没有 \(\Omega\) 时,选择事件是 \(Y\) 空间中的尖锐多面体(或非多面体但仍是低维曲面),条件化导致 \(Y\) 被截断在尖锐区域上,使得条件分布的方差在边界附近爆炸(区间长度无穷);加入 \(\Omega\) 后,选择事件变得“模糊”,条件化不再截断 \(Y\) 于尖锐区域,而是通过 \(\Omega\) 的平滑效应,使得条件分布的方差保持有界。这就像在硬阈值上加了一个软阈值核,使得密度在边界处不再有奇点。

一般情形只是加壳:多组被选时,选择事件是多个组的子梯度条件的交集;quasi-likelihood 时,似然函数不是高斯但渐近近似高斯;Wald 型置信域用观测 Fisher 信息代替精确分布。核心数学困难仍是:如何从随机化优化问题中提取条件化下的选后似然,并证明其 Fisher 信息正定(保证体积有界)。

三、这篇论文做了什么

三句话: ①研究了 Group Lasso 选模型后,在广义线性模型及 quasi-likelihood(如过离散计数数据)下对选中组参数的条件化选后推断问题; ②核心工具是随机化 Group Lasso 优化(加性高斯随机化 \(\Omega\)),由此构造条件化于选中组事件的选后似然,并导出选后极大似然估计与 Wald 型置信域; ③主要结论是:选后似然可由一个 \(|E|\) 维凸优化问题的解给出,选后点估计存在,Wald 型置信域的体积有界(不趋于无穷),且模拟与 NHANES 数据实证了方法的有效性。

关键设定与假设

  • 模型:响应 \(Y\) 服从指数族分布或 quasi-likelihood 模型(如过离散 Poisson、Gamma 等),对数似然或 quasi-对数似然为 \(\ell(\theta; Y, X)\),参数 \(\theta\) 可能是自然参数或均值参数。
  • 随机化 Group Lasso 优化
    \[\min_{\beta} \ell(\beta; Y, X) + \sum_{g \in G} \lambda_g \|\beta_g\|_2 - \Omega^\top \beta\]
    其中 \(\Omega \sim N(0, \tau^2 I_p)\) 为随机化变量,\(\tau\) 控制随机化量。
  • 选择事件 \(E\)\(\hat{\beta}^R\) 的非零组集合,即 \(E = \{g : \hat{\beta}_g^R \neq 0\}\)
  • 条件化推断目标:条件化于 \(E\)(及可能的子梯度符号等辅助信息),对 \(\theta_E\)(选中组参数)做推断。
  • 假设
  • A1(随机化分布)\(\Omega \sim N(0, \tau^2 I_p)\)\(\tau > 0\) 固定或可调。
  • A2(似然光滑性)\(\ell(\theta_E; Y, X_E)\) 关于 \(\theta_E\) 二阶可微,观测 Fisher 信息 \(J_E(\theta_E) = -\nabla^2 \ell(\theta_E; Y, X_E)\) 在真值附近正定(保证局部凸性)。
  • A3(设计矩阵)\(X_E\) 列满秩(\(p_E \leq n\)),保证选中组参数可估。
  • A4(渐近设定)\(n \to \infty\), \(p_E\) 固定或 \(p_E / n \to 0\)(保证 quasi-似然的渐近正态性)。
  • 相比已有文献:放宽了高斯响应假设(Panigrahi et al. 2023 只处理高斯);放宽了 Lasso 惩罚假设(处理 Group Lasso 的组结构);引入随机化以避免多面体方法的区间无穷长度问题(Kivaranovic & Leeb 2020)。

主要结果

  • 定理 3.1(选后似然的构造):条件化于选择事件 \(E\) 后,选后似然 \(L^{sel}(\theta_E; Y, X_E)\) 可表示为原始似然 \(\ell(\theta_E)\) 与一个调整因子的乘积,该调整因子由一个 \(|E|\) 维凸优化问题的解给出。具体地,选后极大似然估计 \(\hat{\theta}_E^{sel}\) 的估计方程由该凸优化问题的梯度给出,观测 Fisher 信息矩阵也有显式表达式。
  • 直觉:随机化 \(\Omega\) 使得选择事件的条件化不再截断 \(Y\) 于尖锐区域,而是通过 \(\Omega\) 的平滑效应,将条件化信息编码进一个凸优化问题的解(类似于数据雕刻中的调整因子),从而得到可计算的选后似然。
  • 必要条件\(\tau > 0\)(随机化量非零),\(X_E\) 列满秩,\(\ell\) 二阶可微且局部凸。
  • 解决的技术难点:Group Lasso 的选择事件不可用线性不等式表出(非多面体),无法直接用 Lee et al. (2016) 的截断高斯方法;随机化将选择事件转化为可处理的优化问题,绕开了多面体几何。

  • 定理 4.1(Wald 型置信域的体积有界性):基于选后似然的观测 Fisher 信息 \(J_E^{sel}\) 构造的 Wald 型置信域 \(\{\theta_E : (\hat{\theta}_E^{sel} - \theta_E)^\top J_E^{sel} (\hat{\theta}_E^{sel} - \theta_E) \leq c\}\),其体积有界,不随信号强度 \(\|\theta_E\|\) 趋于零或趋于无穷而趋于无穷。

  • 直觉:随机化使得条件化后的 Fisher 信息 \(J_E^{sel}\) 始终正定且下界远离零(因为 \(\Omega\) 的方差 \(\tau^2\) 提供了额外的“信息”,防止条件化导致信息矩阵退化),从而置信域的体积(与 \((J_E^{sel})^{-1}\) 的行列式成正比)有界。
  • 必要条件\(\tau > 0\)\(J_E^{sel}\) 正定。
  • 解决的技术难点:Kivaranovic & Leeb (2020) 证明无随机化的多面体方法下置信区间长度期望无穷;本文通过随机化保证 \(J_E^{sel}\) 正定下界,直接避免体积爆炸。

  • 推论/性质(选后点估计):选后极大似然估计 \(\hat{\theta}_E^{sel}\) 是选后似然的极大化点,渐近服从正态分布(在 \(n \to \infty\), \(p_E\) 固定下),方差由 \(J_E^{sel}\) 决定。

证明路线与技术技巧

  • 整体路线
  • 写出随机化 Group Lasso 的 KKT 条件:将优化问题的解 \(\hat{\beta}^R\) 与子梯度条件联系起来,选择事件 \(E\) 表为子梯度条件的集合(涉及 \(\Omega\))。
  • 条件化于 \(E\),消去 \(\Omega\):利用 \(\Omega\) 的高斯分布,将条件化于 \(E\) 转化为对 \(\Omega\) 的积分/条件期望,推导出 \(Y\) 在条件化下的分布(选后似然)。
  • 将选后似然表为凸优化问题的解:利用 Moreau 包络 / 近端映射(proximal mapping)技术,将涉及 \(\Omega\) 的条件化积分简化为一个 \(|E|\) 维凸优化问题的解,给出选后似然的显式表达式。
  • 证明选后 Fisher 信息正定且有界下界:利用凸优化问题的光滑性(Moreau 包络的光滑性)和 \(\tau > 0\),证明 \(J_E^{sel}\) 正定且其逆的行列式有界,从而置信域体积有界。
  • 构造 Wald 型置信域并证明覆盖率:在渐近正态性假设下,用选后点估计的渐近分布构造 Wald 型置信域,证明其覆盖率达到名义水平。

  • 关键跳跃点

  • 从 KKT 条件到选后似然的凸优化表示:这是最吃功夫的一步。Group Lasso 的子梯度条件涉及 \(\|\beta_g\|_2\) 的非光滑性,直接条件化导致积分不可解;作者利用 Moreau 包络将非光滑惩罚“光滑化”,将条件化积分转化为凸优化问题的解。难点在于:如何将 \(\Omega\) 的高斯分布与 Group Lasso 的非光滑子梯度耦合起来,得到可计算的选后似然。
  • 证明 \(J_E^{sel}\) 的正定下界:需证明选后 Fisher 信息不因条件化而退化。关键在于 \(\tau > 0\) 保证了 Moreau 包络的梯度有 Lipschitz 连续性,从而 \(J_E^{sel}\) 的最小特征值有远离零的下界。

  • 技术技巧点名

  • Moreau 包络 / 近端映射:用于将 Group Lasso 的非光滑惩罚 \(\|\beta_g\|_2\) 光滑化,将条件化积分转化为凸优化问题的解。具体地,选后似然的调整因子涉及惩罚函数的 Moreau 包络 \(M_{\lambda_g \|\cdot\|_2}(\cdot)\),其梯度给出选后估计方程。
  • 凸对偶 / KKT 条件:用于将随机化优化问题的解与子梯度条件联系起来,表达选择事件。
  • 高斯随机化的条件化积分:利用 \(\Omega \sim N(0, \tau^2 I_p)\) 的性质,将条件化于 \(E\) 的积分简化为对 \(\Omega\) 在线性约束下的期望(涉及截断高斯或更一般的积分),最终通过 Moreau 包络化为凸优化。
  • 渐近正态性 / quasi-似然理论:借用 van de Geer & Mueller (2012) 和 Sur & Candès (2019) 的 quasi-似然渐近理论,保证在非高斯模型下选后点估计的渐近正态性,从而构造 Wald 型置信域。

真实例子与应用

  • NHANES 数据(National Health and Nutrition Examination Survey)
  • 场景:研究抑郁症状(二元响应:抑郁 vs. 不抑郁,基于 9 项筛查得分二值化)与教育水平、协变量(年龄、性别、收入等)的关系,协变量有连续和分类(分组)结构。
  • 怎么用上去:对响应用 logistic 回归(GLM)或过离散 Poisson(quasi-likelihood),协变量按逻辑分组(如教育水平为分类组、年龄为连续变量),用随机化 Group Lasso 选组,然后对选中组的参数用本文的选后似然构造 Wald 型置信区间。
  • 得到什么结果:选中了教育水平等组,选后置信区间覆盖了真值(与经典区间对比,经典区间因选择偏差而偏移),且区间长度有界(不异常长)。
  • 想说明什么:验证本文方法在真实数据上的可行性(非高斯响应 + 分组协变量),展示选后推断的覆盖率与区间长度的合理性,对比无随机化方法(区间可能过长)和数据分割(功效低)。

  • 模拟实验

  • 场景:高斯线性模型、logistic 回归、过离散 Poisson 回归,不同 SNR、不同组大小、不同随机化量 \(\tau\)
  • 结果:覆盖率达到名义水平(95%),区间长度比数据分割短,比无随机化多面体方法短(且不出现无穷长度),选后点估计的偏差比经典估计小。
  • 想说明什么:验证理论结论(覆盖率、体积有界),展示随机化量 \(\tau\) 对功效与覆盖率的影响(\(\tau\) 太小则区间仍长,太大则估计方差大),对比 baseline(数据分割、多面体方法、Panigrahi et al. 2023 的贝叶斯方法)。

🔎 结论是否比证明窄: - 体积有界性的条件:定理 4.1 证明在 \(\tau > 0\)\(J_E^{sel}\) 正定下体积有界,但实际中 \(J_E^{sel}\) 的正定下界依赖于 \(\tau\) 的选择和信号强度——若 \(\tau\) 极小,下界可能极小(体积极大但仍有界),这与“体积有界”的 claim 之间有实践差距。作者在模拟中展示了 \(\tau\) 的选择影响,但未给出 \(\tau\) 的最优选择理论。 - 渐近正态性:Wald 型置信域的覆盖率证明依赖 quasi-似然的渐近正态性(\(n \to \infty\), \(p_E\) 固定),但本文未给出严格的渐近覆盖率证明(只引用了 van de Geer & Mueller 2012 的结果),可能只证明了选后点估计的渐近正态性,而覆盖率的严格证明需更细致的 Edgeworth 展开。 - 泛泛 claim:摘要说“confidence regions are shown to have bounded volume”,但严格证明只在定理 4.1 的特定条件下(\(\tau > 0\), \(J_E^{sel}\) 正定),未讨论 \(\tau \to 0\) 时体积是否趋于无穷(理论上应趋于无穷,因退化为无随机化情形)。

四、开放问题(点到为止,扎根具体语句)

  1. 随机化量 \(\tau\) 的最优选择:本文未给出 \(\tau\) 的理论最优选择准则(平衡选择稳定性与推断功效)。扎根点:定理 4.1 的体积有界性依赖 \(\tau > 0\),但 \(\tau\) 的具体值如何影响区间长度与覆盖率,只在模拟中探讨,未理论化。——可追问:在给定 SNR 与组大小下,\(\tau\) 的 minimax 最优值是什么?

  2. 高维设定下的选后推断:本文假设 \(p_E \leq n\)\(p_E\) 固定/慢增长;在 \(p_E / n \to \kappa > 0\) 的高维设定下,quasi-似然的渐近正态性不再成立(Sur & Candès 2019 证明 \(\kappa \geq 1/2\) 时 MLE 不存在),选后似然与 Wald 型置信域如何构造?扎根点:intro 引用 Sur & Candès (2019) 的高维 GLM 理论,但本文设定回避了 \(p_E / n \to \kappa\) 的情形。

  3. 非高斯随机化的选后似然:本文假设 \(\Omega \sim N(0, \tau^2 I_p)\);若用非高斯随机化(如 Laplace、数据裂变的 Poisson 拆分),Moreau 包络与凸优化表示是否仍成立?体积有界性是否保持?扎根点:Leiner et al. (2021) 和 Dharamsi et al. (2023) 的数据裂变用非高斯拆分,本文 intro 未深入对比。

  4. 选后似然的计算效率:选后似然涉及 \(|E|\) 维凸优化问题的解,计算代价随 \(|E|\) 增长;在 \(|E|\) 大时(如上百组被选),计算是否可行?扎根点:Panigrahi & Taylor (2019) 用近似极大似然绕开 MCMC,本文的凸优化是否比 MCMC 更快,但未给出计算复杂度分析。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论