Selective inference using randomized group lasso estimators for general models¶

作者: Yiling Huang, Sarah Pirenne, Snigdha Panigrahi, Gerda Claeskens
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么： Selective inference（选后推断）要解决的根本统计问题是：当研究者用同一批数据先做变量选择（如 Lasso、Group Lasso）、再对选中变量的参数做假设检验或置信区间时，经典推断理论因“选模型”这一数据依赖事件而失效，导致 p-value 失真、置信区间覆盖率不足。当前该方向已从早期的高斯线性模型 + Lasso 框架走向更一般的分布（GLM、quasi-likelihood）与更一般的惩罚（Group Lasso、平滑量化回归），成熟度处于“有成熟条件推断框架，但计算与功效仍受制于选择事件的几何复杂度”的阶段。

发展脉络（history）： - 奠基工作：Berk et al. (2013) 与 Bachoc et al. (2016) 提出 universally valid 的边际视角，覆盖任何选择程序，但代价是极度保守（同时推断所有子模型的所有线性函数）。作者原话判断：“provides a marginal viewpoint and is valid regardless of the method of selection”——即它回避了条件化，换来的是区间过长。 - 条件化与多面体方法：Lee et al. (2016) 利用 Lasso 选择事件可表为观测的线性不等式组（多面体），在条件化下给出精确推断；Taylor & Tibshirani (2018) 将其推广至 \(\ell_1\)-penalized likelihood（GLM、Cox）。但 Kivaranovic & Leeb (2020) 暴露了致命瓶颈：多面体方法下，一种常用置信区间的期望长度无穷，另一种在多数选模型下也趋于无穷。作者原话判断：“its expected length is always infinite”。 - 随机化与数据雕刻：为克服多面体方法的功效损失与无穷长度问题，Tian & Taylor (2015/2018) 引入随机化响应，证明选择性中心极限定理；Fithian et al. (2014) 提出数据雕刻，比数据分割更功效；Rasines & Young (2021) 将随机化与数据分割联系起来；Leiner et al. (2021) 与 Dharamsi et al. (2023) 发展了数据裂变/细化，在指数族中实现单数据点的无信息拆分。Panigrahi & Taylor (2019/2022) 与 Panigrahi et al. (2021/2022b) 在随机化框架下用近似/精确极大似然绕开 MCMC，给出闭式或凸优化可解的选后推断。 - Group Lasso 的特殊困难：Group Lasso 的选择事件不再是线性不等式组，多面体方法直接失效。Panigrahi et al. (2020/2023) 在高斯回归下用贝叶斯方法处理 Group Lasso 选后推断，但依赖 MCMC（Langevin sampler），且只适用高斯。Duy & Takeuchi (2022) 用参数规划避免过度条件化，但计算代价高。 - 本文的位置：将随机化框架从 Lasso/高斯推广至 Group Lasso + quasi-likelihood/GLM，用随机化构造选后似然，给出 Wald 型置信域并证明其体积有界，直接回应 Kivaranovic & Leeb (2020) 的无穷长度问题。

子线索聚类： 1. 边际 / 同时推断：Berk et al. (2013)、Bachoc et al. (2016)——不条件化，保覆盖但极保守。 2. 条件化 / 多面体方法：Lee et al. (2016)、Taylor & Tibshirani (2018)、Duy & Takeuchi (2022)——条件化于选择事件，Lasso 下精确，但 Group Lasso 下几何不可表，且区间长度可能无穷。 3. 随机化 / 数据雕刻 / 裂变：Tian & Taylor (2015/2018)、Fithian et al. (2014)、Panigrahi & Taylor (2019/2022)、Panigrahi et al. (2021/2022b/2023)、Rasines & Young (2021)、Leiner et al. (2021)、Dharamsi et al. (2023)——通过加噪或拆分数据，软化选择事件，提升功效，绕开多面体几何困难。 4. 高维 GLM / quasi-likelihood 的渐近理论：Sur & Candès (2017/2019)、van de Geer & Mueller (2012)——为高维 GLM 提供极大似然/quasi-似然的渐近分布与误差界，本文借用其 quasi-似然框架。

这个方向在追问的核心问题： 1. 如何在不牺牲覆盖率的前提下，缩小选后置信区间的长度？（多面体方法长度无穷；随机化方法能否保证有界？） 2. Group Lasso 的选择事件不可用线性不等式表出，如何条件化？（多面体方法失效；随机化能否给出可处理的选后似然？） 3. 非高斯（GLM、quasi-likelihood）下，选后推断的似然如何构造？（高斯下可用 CAR 条件；非高斯下无闭式条件分布，需近似或随机化。） 4. 随机化量如何选择？（过小则选择事件仍尖锐、功效低；过大则信息损失多、估计方差大。）

⚠️ 作者的 framing： - 作者把缺口 frame 成：现有 Group Lasso 选后推断只适用于高斯线性模型（Panigrahi et al. 2023），且多面体方法在 Group Lasso 下失效、区间长度可能无穷；本文通过随机化 + quasi-likelihood 填补这一缺口，给出有界体积的 Wald 型置信域。 - 被淡化的竞争路线：Duy & Takeuchi (2022) 的参数规划方法（避免过度条件化、提升功效，但计算复杂）；Dai et al. (2023) 的 Gaussian mirror（控制 FDR，但非条件化置信区间）；数据裂变/细化（Leiner et al. 2021、Dharamsi et al. 2023）——这些在 intro 里未被深入对比，可能因为它们侧重 FDR 或单数据点拆分，而非条件化选后似然。 - 明显该被引但未出现的：Lee et al. (2016) 的原始多面体推断论文（intro 只提 Taylor & Tibshirani 2018）；高维 GLM 选后推断的其他近期工作（如基于 debiased Lasso 的选后推断）；Group Lasso 选择事件几何结构的更早分析（如 Yuan & Lin 2006 的原始 Group Lasso 论文）。

张力： - 未见明显对立引用。但存在隐含张力：Berk et al. (2013) 的边际方法保覆盖但极保守，Lee et al. (2016) 的条件方法更精准但长度无穷，本文的随机化条件方法声称保覆盖且有界长度——这三者在“覆盖率 vs. 长度 vs. 计算可行性”上的权衡是核心张力，需研究者自行验证本文的 bounded volume 界是否真正在实践中比多面体方法短。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(n\)：样本量。
\(p\)：协变量总数。
\(G\)：协变量的分组集合，共 \(|G|\) 个组；组 \(g \in G\) 包含 \(p_g\) 个协变量，\(E\) 为被选中的组的集合，\(|E|\) 为选中组数，\(p_E = \sum_{g \in E} p_g\) 为选中协变量总数。
\(X\)：\(n \times p\) 设计矩阵，\(X_E\) 为对应选中组的 \(n \times p_E\) 子矩阵。
\(Y\)：\(n \times 1\) 响应变量向量，为可观测随机变量。
\(\beta\)：\(p \times 1\) 回归参数向量，\(\beta_E\) 为选中组的参数子向量，是本文要推断的 estimand。
\(\theta_E\)：选中组参数的另一种参数化（可能与 \(\beta_E\) 不同，如 GLM 中 \(\theta_E\) 为自然参数），具体取决于模型。
\(\ell(\theta_E; Y, X_E)\)：对数似然或 quasi-对数似然函数，依赖于可观测数据 \((Y, X_E)\) 和参数 \(\theta_E\)。
\(\lambda_g\)：组 \(g\) 的 Group Lasso 惩罚参数，通常取 \(\lambda_g = \lambda \sqrt{p_g}\)。
\(\Omega\)：随机化变量，为不可观测的辅助随机变量，本文假设 \(\Omega \sim N(0, \tau^2 I_p)\)（\(p\) 维高斯，方差 \(\tau^2\) 控制随机化量）。
\(\hat{\beta}^R\)：随机化 Group Lasso 估计量，为可观测（通过求解优化问题得到）的随机变量。
\(E\)：选择事件，即 \(\hat{\beta}^R\) 的哪些组非零，为可观测事件。
可观测数据：\((Y, X)\)，以及由此算出的 \(\hat{\beta}^R\) 和选中组集 \(E\)。
不可观测 / 潜在量：随机化变量 \(\Omega\)（实际被引入优化但不可直接观测；其作用被条件化消去）；真实参数 \(\beta\) 或 \(\theta_E\)（要推断但不可直接观测）。

第二步：最小内核——高斯线性模型 + 单组被选 + 随机化 Group Lasso

剥掉 quasi-likelihood、多组、Wald 型置信域的一般性，回到最简特例：\(Y \sim N(X\beta, \sigma^2 I_n)\)（高斯线性模型），只有一个组 \(E = \{g\}\) 被选中（\(p_E = p_g\)），随机化变量 \(\Omega \sim N(0, \tau^2 I_{p_g})\)。

随机化 Group Lasso 优化问题：

\[\min_{\beta_g} \frac{1}{2} \|Y - X_g \beta_g\|^2 + \lambda_g \|\beta_g\|_2 - \Omega^\top \beta_g\]

其中 \(\|\beta_g\|_2\) 是组 \(g\) 的 \(L_2\) 范数惩罚，\(\Omega\) 是加性随机化扰动。

选择事件 \(E\)：组 \(g\) 被选中，即 \(\hat{\beta}_g^R \neq 0\)。在 Group Lasso 下，这等价于子梯度条件：\(X_g^\top (Y - X_g \hat{\beta}_g^R) / n = \lambda_g \frac{\hat{\beta}_g^R}{\|\hat{\beta}_g^R\|_2} - \Omega / n\)，且 \(\|\hat{\beta}_g^R\|_2 > 0\)。

条件化于 \(E\) 后的选后似然（最小内核）：在高斯线性模型下，\(Y\) 的似然是 \(N(X_g \beta_g, \sigma^2 I_n)\)；条件化于选择事件 \(E\) 和随机化 \(\Omega\) 的特定值后，利用 CAR（Conditioning on Selection by Adjustment for Randomization）原理，可以推导出 \(Y\) 在条件化下的分布仍为高斯，但均值和方差被选择事件调整。具体地，条件化将 \(\Omega\) 的部分信息“吸收”进调整似然，使得调整后的似然仍是关于 \(\beta_g\) 的高斯分布，但其信息矩阵被修正。

要证的命题（最小内核退化形式）：在条件化于 \(E\) 后，选后极大似然估计 \(\hat{\beta}_g^{sel}\) 存在，且基于选后似然的观测 Fisher 信息矩阵 \(J_E\) 是正定的，由此构造的 Wald 型置信域 \(\{\beta_g : (\hat{\beta}_g^{sel} - \beta_g)^\top J_E (\hat{\beta}_g^{sel} - \beta_g) \leq c\}\) 的体积有界，不随信号强度趋于零而趋于无穷。

为什么成立（直觉）：随机化 \(\Omega\) 软化了选择事件的边界——没有 \(\Omega\) 时，选择事件是 \(Y\) 空间中的尖锐多面体（或非多面体但仍是低维曲面），条件化导致 \(Y\) 被截断在尖锐区域上，使得条件分布的方差在边界附近爆炸（区间长度无穷）；加入 \(\Omega\) 后，选择事件变得“模糊”，条件化不再截断 \(Y\) 于尖锐区域，而是通过 \(\Omega\) 的平滑效应，使得条件分布的方差保持有界。这就像在硬阈值上加了一个软阈值核，使得密度在边界处不再有奇点。

一般情形只是加壳：多组被选时，选择事件是多个组的子梯度条件的交集；quasi-likelihood 时，似然函数不是高斯但渐近近似高斯；Wald 型置信域用观测 Fisher 信息代替精确分布。核心数学困难仍是：如何从随机化优化问题中提取条件化下的选后似然，并证明其 Fisher 信息正定（保证体积有界）。

三、这篇论文做了什么¶

三句话： ①研究了 Group Lasso 选模型后，在广义线性模型及 quasi-likelihood（如过离散计数数据）下对选中组参数的条件化选后推断问题； ②核心工具是随机化 Group Lasso 优化（加性高斯随机化 \(\Omega\)），由此构造条件化于选中组事件的选后似然，并导出选后极大似然估计与 Wald 型置信域； ③主要结论是：选后似然可由一个 \(|E|\) 维凸优化问题的解给出，选后点估计存在，Wald 型置信域的体积有界（不趋于无穷），且模拟与 NHANES 数据实证了方法的有效性。

关键设定与假设：

模型：响应 \(Y\) 服从指数族分布或 quasi-likelihood 模型（如过离散 Poisson、Gamma 等），对数似然或 quasi-对数似然为 \(\ell(\theta; Y, X)\)，参数 \(\theta\) 可能是自然参数或均值参数。
随机化 Group Lasso 优化：
\[\min_{\beta} \ell(\beta; Y, X) + \sum_{g \in G} \lambda_g \|\beta_g\|_2 - \Omega^\top \beta\]
其中 \(\Omega \sim N(0, \tau^2 I_p)\) 为随机化变量，\(\tau\) 控制随机化量。
选择事件 \(E\)：\(\hat{\beta}^R\) 的非零组集合，即 \(E = \{g : \hat{\beta}_g^R \neq 0\}\)。
条件化推断目标：条件化于 \(E\)（及可能的子梯度符号等辅助信息），对 \(\theta_E\)（选中组参数）做推断。
假设：
A1（随机化分布）：\(\Omega \sim N(0, \tau^2 I_p)\)，\(\tau > 0\) 固定或可调。
A2（似然光滑性）：\(\ell(\theta_E; Y, X_E)\) 关于 \(\theta_E\) 二阶可微，观测 Fisher 信息 \(J_E(\theta_E) = -\nabla^2 \ell(\theta_E; Y, X_E)\) 在真值附近正定（保证局部凸性）。
A3（设计矩阵）：\(X_E\) 列满秩（\(p_E \leq n\)），保证选中组参数可估。
A4（渐近设定）：\(n \to \infty\), \(p_E\) 固定或 \(p_E / n \to 0\)（保证 quasi-似然的渐近正态性）。
相比已有文献：放宽了高斯响应假设（Panigrahi et al. 2023 只处理高斯）；放宽了 Lasso 惩罚假设（处理 Group Lasso 的组结构）；引入随机化以避免多面体方法的区间无穷长度问题（Kivaranovic & Leeb 2020）。

主要结果：

定理 3.1（选后似然的构造）：条件化于选择事件 \(E\) 后，选后似然 \(L^{sel}(\theta_E; Y, X_E)\) 可表示为原始似然 \(\ell(\theta_E)\) 与一个调整因子的乘积，该调整因子由一个 \(|E|\) 维凸优化问题的解给出。具体地，选后极大似然估计 \(\hat{\theta}_E^{sel}\) 的估计方程由该凸优化问题的梯度给出，观测 Fisher 信息矩阵也有显式表达式。
直觉：随机化 \(\Omega\) 使得选择事件的条件化不再截断 \(Y\) 于尖锐区域，而是通过 \(\Omega\) 的平滑效应，将条件化信息编码进一个凸优化问题的解（类似于数据雕刻中的调整因子），从而得到可计算的选后似然。
必要条件：\(\tau > 0\)（随机化量非零），\(X_E\) 列满秩，\(\ell\) 二阶可微且局部凸。
解决的技术难点：Group Lasso 的选择事件不可用线性不等式表出（非多面体），无法直接用 Lee et al. (2016) 的截断高斯方法；随机化将选择事件转化为可处理的优化问题，绕开了多面体几何。
定理 4.1（Wald 型置信域的体积有界性）：基于选后似然的观测 Fisher 信息 \(J_E^{sel}\) 构造的 Wald 型置信域 \(\{\theta_E : (\hat{\theta}_E^{sel} - \theta_E)^\top J_E^{sel} (\hat{\theta}_E^{sel} - \theta_E) \leq c\}\)，其体积有界，不随信号强度 \(\|\theta_E\|\) 趋于零或趋于无穷而趋于无穷。
直觉：随机化使得条件化后的 Fisher 信息 \(J_E^{sel}\) 始终正定且下界远离零（因为 \(\Omega\) 的方差 \(\tau^2\) 提供了额外的“信息”，防止条件化导致信息矩阵退化），从而置信域的体积（与 \((J_E^{sel})^{-1}\) 的行列式成正比）有界。
必要条件：\(\tau > 0\)，\(J_E^{sel}\) 正定。
解决的技术难点：Kivaranovic & Leeb (2020) 证明无随机化的多面体方法下置信区间长度期望无穷；本文通过随机化保证 \(J_E^{sel}\) 正定下界，直接避免体积爆炸。
推论/性质（选后点估计）：选后极大似然估计 \(\hat{\theta}_E^{sel}\) 是选后似然的极大化点，渐近服从正态分布（在 \(n \to \infty\), \(p_E\) 固定下），方差由 \(J_E^{sel}\) 决定。

证明路线与技术技巧：

整体路线：
写出随机化 Group Lasso 的 KKT 条件：将优化问题的解 \(\hat{\beta}^R\) 与子梯度条件联系起来，选择事件 \(E\) 表为子梯度条件的集合（涉及 \(\Omega\)）。
条件化于 \(E\)，消去 \(\Omega\)：利用 \(\Omega\) 的高斯分布，将条件化于 \(E\) 转化为对 \(\Omega\) 的积分/条件期望，推导出 \(Y\) 在条件化下的分布（选后似然）。
将选后似然表为凸优化问题的解：利用 Moreau 包络 / 近端映射（proximal mapping）技术，将涉及 \(\Omega\) 的条件化积分简化为一个 \(|E|\) 维凸优化问题的解，给出选后似然的显式表达式。
证明选后 Fisher 信息正定且有界下界：利用凸优化问题的光滑性（Moreau 包络的光滑性）和 \(\tau > 0\)，证明 \(J_E^{sel}\) 正定且其逆的行列式有界，从而置信域体积有界。
构造 Wald 型置信域并证明覆盖率：在渐近正态性假设下，用选后点估计的渐近分布构造 Wald 型置信域，证明其覆盖率达到名义水平。
关键跳跃点：
从 KKT 条件到选后似然的凸优化表示：这是最吃功夫的一步。Group Lasso 的子梯度条件涉及 \(\|\beta_g\|_2\) 的非光滑性，直接条件化导致积分不可解；作者利用 Moreau 包络将非光滑惩罚“光滑化”，将条件化积分转化为凸优化问题的解。难点在于：如何将 \(\Omega\) 的高斯分布与 Group Lasso 的非光滑子梯度耦合起来，得到可计算的选后似然。
证明 \(J_E^{sel}\) 的正定下界：需证明选后 Fisher 信息不因条件化而退化。关键在于 \(\tau > 0\) 保证了 Moreau 包络的梯度有 Lipschitz 连续性，从而 \(J_E^{sel}\) 的最小特征值有远离零的下界。
技术技巧点名：
Moreau 包络 / 近端映射：用于将 Group Lasso 的非光滑惩罚 \(\|\beta_g\|_2\) 光滑化，将条件化积分转化为凸优化问题的解。具体地，选后似然的调整因子涉及惩罚函数的 Moreau 包络 \(M_{\lambda_g \|\cdot\|_2}(\cdot)\)，其梯度给出选后估计方程。
凸对偶 / KKT 条件：用于将随机化优化问题的解与子梯度条件联系起来，表达选择事件。
高斯随机化的条件化积分：利用 \(\Omega \sim N(0, \tau^2 I_p)\) 的性质，将条件化于 \(E\) 的积分简化为对 \(\Omega\) 在线性约束下的期望（涉及截断高斯或更一般的积分），最终通过 Moreau 包络化为凸优化。
渐近正态性 / quasi-似然理论：借用 van de Geer & Mueller (2012) 和 Sur & Candès (2019) 的 quasi-似然渐近理论，保证在非高斯模型下选后点估计的渐近正态性，从而构造 Wald 型置信域。

真实例子与应用：

NHANES 数据（National Health and Nutrition Examination Survey）：
场景：研究抑郁症状（二元响应：抑郁 vs. 不抑郁，基于 9 项筛查得分二值化）与教育水平、协变量（年龄、性别、收入等）的关系，协变量有连续和分类（分组）结构。
怎么用上去：对响应用 logistic 回归（GLM）或过离散 Poisson（quasi-likelihood），协变量按逻辑分组（如教育水平为分类组、年龄为连续变量），用随机化 Group Lasso 选组，然后对选中组的参数用本文的选后似然构造 Wald 型置信区间。
得到什么结果：选中了教育水平等组，选后置信区间覆盖了真值（与经典区间对比，经典区间因选择偏差而偏移），且区间长度有界（不异常长）。
想说明什么：验证本文方法在真实数据上的可行性（非高斯响应 + 分组协变量），展示选后推断的覆盖率与区间长度的合理性，对比无随机化方法（区间可能过长）和数据分割（功效低）。
模拟实验：
场景：高斯线性模型、logistic 回归、过离散 Poisson 回归，不同 SNR、不同组大小、不同随机化量 \(\tau\)。
结果：覆盖率达到名义水平（95%），区间长度比数据分割短，比无随机化多面体方法短（且不出现无穷长度），选后点估计的偏差比经典估计小。
想说明什么：验证理论结论（覆盖率、体积有界），展示随机化量 \(\tau\) 对功效与覆盖率的影响（\(\tau\) 太小则区间仍长，太大则估计方差大），对比 baseline（数据分割、多面体方法、Panigrahi et al. 2023 的贝叶斯方法）。

🔎 结论是否比证明窄： - 体积有界性的条件：定理 4.1 证明在 \(\tau > 0\) 且 \(J_E^{sel}\) 正定下体积有界，但实际中 \(J_E^{sel}\) 的正定下界依赖于 \(\tau\) 的选择和信号强度——若 \(\tau\) 极小，下界可能极小（体积极大但仍有界），这与“体积有界”的 claim 之间有实践差距。作者在模拟中展示了 \(\tau\) 的选择影响，但未给出 \(\tau\) 的最优选择理论。 - 渐近正态性：Wald 型置信域的覆盖率证明依赖 quasi-似然的渐近正态性（\(n \to \infty\), \(p_E\) 固定），但本文未给出严格的渐近覆盖率证明（只引用了 van de Geer & Mueller 2012 的结果），可能只证明了选后点估计的渐近正态性，而覆盖率的严格证明需更细致的 Edgeworth 展开。 - 泛泛 claim：摘要说“confidence regions are shown to have bounded volume”，但严格证明只在定理 4.1 的特定条件下（\(\tau > 0\), \(J_E^{sel}\) 正定），未讨论 \(\tau \to 0\) 时体积是否趋于无穷（理论上应趋于无穷，因退化为无随机化情形）。

四、开放问题（点到为止，扎根具体语句）¶

随机化量 \(\tau\) 的最优选择：本文未给出 \(\tau\) 的理论最优选择准则（平衡选择稳定性与推断功效）。扎根点：定理 4.1 的体积有界性依赖 \(\tau > 0\)，但 \(\tau\) 的具体值如何影响区间长度与覆盖率，只在模拟中探讨，未理论化。——可追问：在给定 SNR 与组大小下，\(\tau\) 的 minimax 最优值是什么？
高维设定下的选后推断：本文假设 \(p_E \leq n\) 且 \(p_E\) 固定/慢增长；在 \(p_E / n \to \kappa > 0\) 的高维设定下，quasi-似然的渐近正态性不再成立（Sur & Candès 2019 证明 \(\kappa \geq 1/2\) 时 MLE 不存在），选后似然与 Wald 型置信域如何构造？扎根点：intro 引用 Sur & Candès (2019) 的高维 GLM 理论，但本文设定回避了 \(p_E / n \to \kappa\) 的情形。
非高斯随机化的选后似然：本文假设 \(\Omega \sim N(0, \tau^2 I_p)\)；若用非高斯随机化（如 Laplace、数据裂变的 Poisson 拆分），Moreau 包络与凸优化表示是否仍成立？体积有界性是否保持？扎根点：Leiner et al. (2021) 和 Dharamsi et al. (2023) 的数据裂变用非高斯拆分，本文 intro 未深入对比。
选后似然的计算效率：选后似然涉及 \(|E|\) 维凸优化问题的解，计算代价随 \(|E|\) 增长；在 \(|E|\) 大时（如上百组被选），计算是否可行？扎根点：Panigrahi & Taylor (2019) 用近似极大似然绕开 MCMC，本文的凸优化是否比 MCMC 更快，但未给出计算复杂度分析。

Maintained by 陈星宇 · Homepage · Source on GitHub

Selective inference using randomized group lasso estimators for general models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论