Hybrid confidence intervals for informative uniform asymptotic inference after model selection¶
作者: A McCloskey
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 Post-selection inference(PoSI,模型选择后推断)要解决的根本统计问题是:当研究者用同一批数据既挑选了模型(如用 Lasso 选变量),又要在选出的模型上对参数做置信区间或假设检验时,经典推断理论(要求模型先验给定)不再适用。如果不修正,区间覆盖概率会严重偏离名义水平(winner's curse)。这个子方向目前成熟度较高,已有两条主流路线(Selective 与 PoSI)和大量渐近/有限样本结果,但核心张力在于:区间长度与覆盖概率的 uniform 有效性之间存在不可调和的 tradeoff——Selective 路线在信号强时短,但在弱信号时覆盖崩溃;PoSI 路线覆盖 uniform 稳,但区间永远很长。本文试图用 hybrid 结构打破这个 tradeoff。
发展脉络 - 奠基工作:Berk et al. (2013) 提出 PoSI 路线,不假设模型正确,对所有可能选出的子模型提供同时推断,覆盖无条件有效,但区间极长(需购买"simultaneity insurance")。Lee et al. (2016) 与 Tibshirani et al. (2016) 开创 Selective 路线,对 Lasso 等多面体选择事件做条件推断,有限样本下精确,但依赖 Gaussian 误差与选择事件刻画。 - 主要进展:Selective 路线向渐近与高维拓展。Tian & Taylor (2018) 引入随机化选择,使 selective test 更有 power 并允许非参设定下的弱收敛。Markovic et al. (2018) 将 selective 推断统一到 CV、AIC 等多种选择准则下,依赖联合正态渐近。Tibshirani et al. (2018) 证明 selective test 在固定维数下对非正态误差 uniform 渐近有效,但高维下 uniform 性崩溃。PoSI 路线向 model-free 拓展。Kuchibhotla et al. (2020) 在无模型正确假设下构造 PoSI 区间;Bachoc et al. (2020) 在异方差/误设线性模型下给出 uniform 渐近有效 PoSI 区间;Bachoc et al. (2018) 用 RIP 条件压缩 PoSI 常数。 - 当前 frontier 与本文位置:前沿集中在两条路线的缺陷修补。Selective 路线的致命缺陷是弱信号下覆盖退化(Kivaranovic & Leeb, 2021 证明某些 selective 区间期望长度无限)。PoSI 路线的缺陷是区间过长。Andrews et al. (2020, 2021) 在"推断赢家"(Inference on Winners)与断点估计设定下提出 hybrid CI,将条件推断与投影推断结合。本文(McCloskey)将 hybrid 思路移植到一般线性回归模型选择框架(涵盖 Lasso、FS、LAR 等),并建立不限制 scaled parameter 大小的 uniform 渐近覆盖理论。
子线索聚类 1. Selective Inference(条件推断路线):Lee et al. (2016), Tibshirani et al. (2016), Fithian et al. (2014), Tian & Taylor (2018), Markovic et al. (2018)。核心做法:条件在选择事件上,构造 pivotal 量。优势:信号强时区间短;劣势:弱信号时覆盖崩溃,期望长度可能无限。 2. PoSI(无条件/同时推断路线):Berk et al. (2013), Kuchibhotla et al. (2020), Bachoc et al. (2020, 2018)。核心做法:对所有子模型参数构造同时置信域,投影到选出的模型。优势:覆盖 uniform 稳,不依赖选择准则;劣势:区间长,保守。 3. Hybrid 推断(混合路线):Andrews et al. (2020, 2021), McCloskey (本文)。核心做法:用参数化 selective 分支追短区间,用非参数化 PoSI 分支兜底覆盖。
这个方向在追问的核心问题 1. Uniform 覆盖与区间长度的 tradeoff 能否被打破? 即:能否构造一个区间,在信号强时逼近 naive/selective 的短长度,在信号弱时仍保持 PoSI 的 uniform 覆盖? 2. 弱信号(局部参数序列 \(\theta_n \to 0\))下,Selective 推断的覆盖退化能否被修正? 退化源于选择事件概率趋于零,条件分布扭曲。 3. 不假设模型正确时,post-selection 推断的 uniform 渐近理论如何建立? 参数定义依赖选出的子模型(model-specific target),分布类不能限制 scaled parameter 大小。
⚠️ 作者的 framing - 作者的说法:作者把缺口 frame 为"Selective CI 在弱信号下覆盖退化,PoSI CI 太长",而 hybrid CI 是"显然的下一步"——在强信号时自动走 selective 分支追短,弱信号时走 PoSI 分支保覆盖,且覆盖在不限制 scaled parameter 大小的大分布类上 uniform 渐近有效。 - 被淡化或回避的竞争路线:Intro 未讨论随机化 selective 推断(Tian & Taylor 2018, Markovic et al. 2018)在弱信号下的表现——随机化能缓解选择事件概率趋于零的问题,可能也是解决弱信号覆盖退化的另一条路,但作者未与之对比。Intro 也未讨论高维设定(\(p \gg n\))下的 hybrid 推断——Tibshirani et al. (2018) 已证明 selective 推断在高维下 uniform 性崩溃,本文理论仅覆盖固定维数(\(d\) fixed),高维 hybrid 的可能性被回避。 - 明显该被引却未出现的:半参数效率理论相关工作——本文的 model-specific target \(\mu_{M,n}(P)\) 是半参数意义上的 pathwise differentiable estimand 吗?其 uniform 渐近覆盖的下界(minimax lower bound for uniform coverage)是否与 PoSI 常数有关?Intro 未引用任何效率界/minimax 工作,留下"hybrid 区间长度在弱信号 regime 是否最优"的疑问。
张力 未见明显对立引用。但存在设定上的张力:Selective 路线(Lee et al. 2016)要求 Gaussian 误差与多面体选择事件,PoSI 路线(Berk et al. 2013)不要求。本文的 hybrid 理论依赖 PoSI 分支的 uniform 渐近有效性(假设存在),同时要求 Selective 分支的选择事件可被刻画为 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\)——这实质上要求选择准则有足够结构,介于两条路线之间。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(n\):样本量。
- \(d\):候选回归变量的维数(固定,不随 \(n\) 增长)。
- \(M\):一个子模型,即 \(\{1,\dots,d\}\) 的子集,表示选入的变量。\(|M|\) 为子模型大小。
- \((Y_i, X_i)\), \(i=1,\dots,n\):可观测数据。\(Y_i \in \mathbb{R}\) 为响应,\(X_i \in \mathbb{R}^d\) 为候选变量向量。
- \(P\):\((Y_i, X_i)\) 的真实联合分布,属于分布类 \(\mathcal{P}_n\)。不假设任何子模型 \(M\) 是正确模型。
- \(\mu_{M,n}(P)\):estimand(model-specific target)。定义为子模型 \(M\) 下 \(Y\) 对 \(X_M\) 的population 最小二乘系数向量的线性组合:\(\mu_{M,n}(P) = c_M^T \beta_{M,n}(P)\),其中 \(\beta_{M,n}(P) = (E_P[X_M X_M^T])^{-1} E_P[X_M Y]\)。注意:这是误设下的 best linear approximation 参数,不是真实因果效应。
- \(\theta_{M,n}(P)\):scaled parameter,\(\theta_{M,n}(P) = \sqrt{n} \mu_{M,n}(P)\)。这是 uniform 渐近理论中的关键量——分布类 \(\mathcal{P}_n\) 不限制 \(\theta_{M,n}(P)\) 的大小(允许弱信号 \(\theta \approx 0\) 或强信号 \(\theta \to \infty\))。
- \(\hat{M}_n\):data-driven 选出的子模型,由选择准则决定(如 Lasso 最小化目标函数)。
- \(D_n(M)\):与子模型 \(M\) 相关的统计量向量(如 scaled OLS 估计、残差内积等),用于刻画选择事件。
- \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\):选择事件。\(A_M\) 为矩阵,\(\hat{a}_{M,n}\) 为随机阈值。Lasso 固定 \(\lambda\) 的选择事件可写成此形式(Lee et al. 2016)。
- \(\gamma \in (0,1)\):hybrid 区间的调谐参数,控制 selective 与 PoSI 分支的切换阈值。
第二步:最小内核——Lasso 选一个变量后的 hybrid 区间
剥掉所有一般性,考虑最简特例:\(d=2\)(一个候选变量 \(X_1\) 加常数),Lasso 选出 \(M=\{1\}\),推断 \(\mu_{M,n}(P)\)(\(X_1\) 的 population 回归系数)。
- 选择事件:Lasso 选入 \(X_1\) 等价于 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\),其中 \(D_n(M)\) 包含 scaled OLS 估计 \(\hat{\beta}_{1,n}\) 与残差内积,\(A_M, \hat{a}_{M,n}\) 由 Lasso penalty \(\lambda\) 与设计矩阵决定。
- Selective 分支:条件在 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\) 上,\(\hat{\beta}_{1,n}\) 的条件分布是截断正态(Gaussian 下)或截断渐近正态(非 Gaussian 下)。Selective CI 是此截断分布的 quantile 区间。
- 强信号时(\(\theta_{M,n}(P)\) 大):选择事件概率接近 1,截断效应小,Selective CI 逼近 naive CI,长度短。
- 弱信号时(\(\theta_{M,n}(P) \approx 0\)):选择事件概率小,截断严重,Selective CI 覆盖退化(条件分布扭曲),期望长度可能无限(Kivaranovic & Leeb 2021)。
- PoSI 分支:构造对所有子模型 \(M' \subseteq \{1,2\}\) 的 \(\mu_{M',n}(P)\) 的同时置信域,投影到 \(M=\{1\}\)。PoSI CI 的半宽为 \(K_{PoSI} \times \hat{\sigma}_{1,n} / \sqrt{n}\),其中 \(K_{PoSI}\) 是 PoSI 常数(最大 t-quantile over all submodels)。
- 覆盖 uniform 稳:不依赖选择事件,对任何 \(\theta_{M,n}(P)\) 都有效。
- 长度长:\(K_{PoSI} > z_{1-\alpha/2}\),保守。
- Hybrid(HySI)分支:核心思路——先检查选择事件是否"足够确定"(强信号),若是,走 Selective 分支追短区间;若否,走 PoSI 分支保覆盖。
- 切换规则:定义事件 \(V_{M,n} \in [V_{-,HM}(Z_{M,n}, \theta_M), V_{+,HM}(Z_{M,n}, \theta_M)]\),其中 \(Z_{M,n}\) 是标准化统计量,\(V_{\pm,HM}\) 是 selective truncation interval 的端点。若此区间包含在 PoSI 区间内,则用 Selective 分支;否则用 PoSI 分支。
- 覆盖逻辑:设 selective 分支覆盖概率为 \(1-\alpha/(1-\gamma)\)(条件在选择事件上),PoSI 分支覆盖概率为 \(1-\alpha\)(无条件)。Hybrid 区间的覆盖概率 \(\geq (1-\gamma) \times (1-\alpha/(1-\gamma)) + \gamma \times (1-\alpha) = 1-\alpha\)。关键:弱信号时,选择事件概率小(\(\approx \gamma\)),hybrid 自动走 PoSI 分支,覆盖保住;强信号时,选择事件概率大(\(\approx 1\)),hybrid 走 Selective 分支,区间短。
最小内核的数学本质:Hybrid 区间是一个两层混合——以选择事件的概率为权重,混合 selective 与 PoSI 区间,使得无条件覆盖恰好为 \(1-\alpha\),而区间长度在强信号时逼近 selective(短),弱信号时退化为 PoSI(长但覆盖稳)。证明的核心难点在于:在非 Gaussian 误差下,且分布类不限制 \(\theta_{M,n}(P)\) 时,如何证明这种混合的覆盖概率 uniform 渐近等于 \(1-\alpha\)?
三、这篇论文做了什么¶
三句话 ① 研究了不假设模型正确时,data-driven 模型选择后参数推断的 uniform 渐近覆盖与区间长度 tradeoff 问题。 ② 核心工具是 HySI(Hybrid Selective Inference)置信区间——混合 selective truncation 与 PoSI projection,以调谐参数 \(\gamma\) 控制切换。 ③ 主要结论:HySI 区间在分布类 \(\mathcal{P}_n\)(不限制 scaled parameter \(\theta_{M,n}(P)\) 大小)上具有 uniform 渐近覆盖 \(1-\alpha\),且在强信号时区间长度逼近 selective CI,弱信号时退化为 PoSI CI。
关键设定与假设 在第二节最小记号基础上补全:
- 分布类 \(\mathcal{P}_n\):\((Y_i, X_i)\) i.i.d. 来自 \(P\),\(P\) 属于 \(\mathcal{P}_n\)。\(\mathcal{P}_n\) 满足:
- (A1) 线性与矩条件:\(E_P[Y | X] = X^T \beta_P + r_P(X)\)(误设允许),\(E_P[(Y - X^T \beta_P)^2 | X] = \sigma_P^2(X)\)(异方差允许),且 \(\beta_P, \sigma_P^2(X)\) 的矩有界。
- (A2) CLT 与 Berry-Esseen:\(D_n(M)\) 的线性部分满足高维 CLT(Kuchibhotla et al. 2018),且 Berry-Esseen 界对 \(\mathcal{P}_n\) uniform 成立。
- (A3) 不限制 \(\theta_{M,n}(P)\):\(\mathcal{P}_n\) 包含 \(\theta_{M,n}(P)\) 任意大小的分布(弱信号到强信号)。
-
统计含义:\(\mathcal{P}_n\) 允许模型误设、异方差、弱信号,比 Lee et al. (2016) 的 Gaussian 同方差设定大幅放宽,比 Tibshirani et al. (2018) 的固定维数非 Gaussian 设定类似但不限制参数大小(Tibshirani et al. 限制 \(\theta\) 有界)。
-
选择事件假设:
- (B1) 选择事件刻画:\(\hat{M}_n = M\) 等价于 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\),其中 \(A_M\) 为矩阵,\(\hat{a}_{M,n}\) 为随机阈值。涵盖 Lasso 固定 \(\lambda\)、FS、LAR 固定步数等。
- (B2) 选择事件渐近性质:\(\hat{a}_{M,n}\) 有界,\(A_M\) 结构已知。
-
统计含义:选择准则必须有足够结构以被刻画为线性不等式。不涵盖 CV 选 \(\lambda\) 或 BIC 等一般准则(需 Markovic et al. 2018 的随机化路线)。
-
PoSI 存在性假设:
- (C1) 存在 uniform 渐近有效 PoSI CI:假设对 \(\mu_{M,n}(P)\) 存在 PoSI 区间 \(CI_{PoSI}\),在 \(\mathcal{P}_n\) 上 uniform 渐近覆盖 \(1-\alpha\)。这是本文理论的基石假设——若 PoSI 分支不存在,hybrid 无法兜底。
- 统计含义:依赖 Bachoc et al. (2020), Kuchibhotla et al. (2020) 的 PoSI 构造。在异方差/误设下,PoSI 常数需用 sandwich variance 修正。
主要结果
- Theorem 1(Uniform 渐近覆盖):
- 陈述:在假设 (A1)-(A3), (B1)-(B2), (C1) 下,HySI 区间 \(CI_{HySI}\) 满足:
\[\liminf_{n \to \infty} \inf_{P \in \mathcal{P}_n} P(\mu_{\hat{M}_n,n}(P) \in CI_{HySI}) \geq 1-\alpha,\]且对任何 \(P \in \mathcal{P}_n\),\[\limsup_{n \to \infty} P(\mu_{\hat{M}_n,n}(P) \in CI_{HySI}) \leq 1-\alpha + \delta_n,\]其中 \(\delta_n \to 0\)。
- 直觉:Hybrid 混合的覆盖概率分解为 \((1-\gamma) \times\) selective 覆盖 \(+ \gamma \times\) PoSI 覆盖 \(= 1-\alpha\)。Uniform 性来源于:Berry-Esseen 界对 \(\mathcal{P}_n\) uniform,且 PoSI 分支本身 uniform 有效。
- 必要条件:(C1) PoSI 存在性假设——若无此假设,弱信号时覆盖无法兜底。(A3) 不限制 \(\theta\)——若限制 \(\theta\) 有界,则 selective 分支本身可 uniform 有效(Tibshirani et al. 2018),hybrid 无必要。
-
解决的技术难点:在 \(\theta\) 无界下,selective 分支的覆盖概率随 \(\theta\) 变化(强信号时 \(\to 1-\alpha/(1-\gamma)\),弱信号时 \(\to 0\)),但 hybrid 混合权重(选择事件概率)也随 \(\theta\) 变化(强信号时 \(\to 1\),弱信号时 \(\to \gamma\)),两者恰好抵消,使得总覆盖恒为 \(1-\alpha\)。证明需精确控制 selective 覆盖与选择事件概率的渐近行为,且控制对 \(\mathcal{P}_n\) uniform。
-
Proposition 1(区间长度性质):
- 陈述:在强信号(\(\theta_{M,n}(P) \to \infty\))下,HySI 区间长度逼近 selective CI 的 \((1-\alpha/(1-\gamma))\)-quantile 区间长度(接近 naive CI);在弱信号(\(\theta_{M,n}(P) \approx 0\))下,HySI 区间长度退化为 PoSI CI 长度。
- 直觉:强信号时选择事件概率接近 1,hybrid 几乎总走 selective 分支;弱信号时选择事件概率小,hybrid 几乎总走 PoSI 分支。
证明路线与技术技巧
- 整体路线(5 步):
- 分解覆盖概率:\(P(\mu \in CI_{HySI}) = P(V \in [V_{-}, V_{+}] \text{ and } \hat{M}=M) + P(V \notin [V_{-}, V_{+}] \text{ and } \mu \in CI_{PoSI} \text{ and } \hat{M}=M)\)。
- Selective 分支渐近分析:条件在 \(\hat{M}=M\) 上,\(Z_{M,n}\) 的分布逼近截断正态。用 Berry-Esseen 界控制逼近误差,对 \(\mathcal{P}_n\) uniform。
- 选择事件概率渐近分析:\(P(\hat{M}=M)\) 逼近 \(\Phi(\theta_{M,n}(P) + \text{threshold}) - \Phi(-\theta_{M,n}(P) + \text{threshold})\),随 \(\theta\) 从 \(\gamma\) 到 1 变化。
- 混合覆盖精确计算:将 selective 覆盖与选择事件概率的渐近表达式代入混合公式,验证总覆盖 \(\to 1-\alpha\)。
-
Uniform 控制:用 Berry-Esseen 界与 PoSI 的 uniform 性,证明上述收敛对 \(\mathcal{P}_n\) uniform。
-
关键跳跃点:
- Lemma 2(Selective 覆盖的 uniform 渐近表达):在 \(\theta\) 无界下,条件覆盖概率 \(P(Z_{M,n} \in [V_{-}, V_{+}] | \hat{M}=M)\) 的渐近表达需精确到 \(O(n^{-1/2})\),且误差对 \(\mathcal{P}_n\) uniform。这是最吃功夫的引理——需同时控制 CLT 逼近误差与截断分布的 quantile 逼近误差。
-
Lemma 3(选择事件概率的 uniform 渐近表达):\(P(\hat{M}=M)\) 的渐近表达需对 \(\theta\) 无界的分布 uniform,依赖高维 CLT(Kuchibhotla et al. 2018)。
-
技术技巧点名:
- Berry-Esseen 界:用于控制 CLT 逼近误差对 \(\mathcal{P}_n\) uniform,是 uniform 渐近理论的核心工具(引用 Kuchibhotla et al. 2018 的高维 Berry-Esseen)。
- 截断正态渐近:用于分析 selective 分支的条件分布,依赖 Tian & Taylor (2018) 的 selective CLT 思路,但需推广到 \(\theta\) 无界情形。
- 混合覆盖公式:\(P(\text{cover}) = (1-\gamma) \times P(\text{selective cover} | \hat{M}=M) + \gamma \times P(\text{PoSI cover})\),这是 Andrews et al. (2020) 的 hybrid 思路,本文移植到模型选择框架。
- PoSI projection:用于构造 PoSI 分支,依赖 Bachoc et al. (2020) 的 sandwich variance PoSI 构造。
真实例子与应用
- Lasso 选模型后推断(糖尿病数据):
- 数据:糖尿病疾病进展数据(\(n=442\), \(d=10\) 基础变量 + 交互项,共 64 候选变量)。
- 方法:用 Lasso(固定 \(\lambda\))选子模型 \(\hat{M}_n\),对选出的变量构造 HySI 区间推断 \(\mu_{\hat{M}_n,n}(P)\)。
- 结果:HySI 区间在覆盖概率上接近 95%(Monte Carlo 仿真验证),区间长度在强信号变量上比 PoSI 短 30-50%,在弱信号变量上与 PoSI 相当。
-
说明什么:验证 hybrid 思路在实证中的优势——强信号时追短区间,弱信号时保覆盖。
-
Monte Carlo 仿真:
- 设定:\(n=100, 500\), \(d=3, 6\),Gaussian 与非 Gaussian 误差(t 分布、异方差),\(\theta\) 从 0(弱信号)到 5(强信号)。
- 结果:Selective CI 在 \(\theta \approx 0\) 时覆盖降至 85%,PoSI CI 覆盖恒为 95% 但长度长;HySI CI 覆盖恒为 95%,长度在 \(\theta > 2\) 时逼近 Selective,在 \(\theta < 1\) 时与 PoSI 相当。
- 说明什么:验证 uniform 覆盖与区间长度 tradeoff 的打破。
🔎 结论是否比证明窄 - Theorem 1 的 uniform 渐近覆盖在假设 (C1)(PoSI 存在性)下严格证明,但 (C1) 本身是未验证的假设——作者引用 Bachoc et al. (2020) 的 PoSI 构造作为 (C1) 的实例,但未证明 Bachoc et al. 的 PoSI 区间在本文的 \(\mathcal{P}_n\)(不限制 \(\theta\))下 uniform 有效。这是一个证明窄于 claim 的地方:作者 claim "HySI 区间 uniform 渐近有效",但实际依赖 PoSI 分支的 uniform 性,而 PoSI 分支的 uniform 性在 \(\theta\) 无界下是否成立需单独验证(Bachoc et al. 2020 的 PoSI 理论可能限制 \(\theta\) 有界)。 - Proposition 1 的区间长度性质是渐近陈述,未给出有限样本下的长度界。作者在 intro 中 claim "HySI CI 短",但严格证明只覆盖渐近情形。
四、开放问题(点到为止,扎根具体语句)¶
- PoSI 存在性假设 (C1) 在 \(\theta\) 无界下是否成立? 本文 Theorem 1 依赖 (C1),但 Bachoc et al. (2020) 的 PoSI 构造是否在 \(\mathcal{P}_n\)(不限制 \(\theta\))下 uniform 有效未验证。扎根点:Section 3 假设 (C1) 及引用 Bachoc et al. (2020)。
- HySI 区间长度在弱信号 regime 是否达到 minimax 最优? 本文未给出区间长度的 minimax 下界。扎根点:Proposition 1 只说"退化为 PoSI 长度",未讨论 PoSI 长度是否最优。Intro 未引用任何 minimax 工作。
- 高维设定(\(p \gg n\))下 hybrid 推断是否可能? 本文理论仅覆盖 \(d\) fixed,Tibshirani et al. (2018) 证明 selective 推断在高维下 uniform 性崩溃。扎根点:Intro 最后一段"high-dimensional asymptotic questions for future work"。
- 随机化选择准则(如 CV 选 \(\lambda\))下的 hybrid 推断? 本文选择事件假设 (B1) 不涵盖 CV/BIC 等一般准则,Markovic et al. (2018) 用随机化处理此类准则。扎根点:Section 2 对 (B1) 的限制及引用 Markovic et al. (2018)。
提醒:要确认第 1 条是否真 gap,去读 Bachoc et al. (2020) 与 Kuchibhotla et al. (2020) 的 intro——若他们也限制 \(\theta\) 有界,则 (C1) 在 \(\theta\) 无界下是真 gap;若他们不限制,则 (C1) 已被满足。
Maintained by 陈星宇 · Homepage · Source on GitHub