Hybrid confidence intervals for informative uniform asymptotic inference after model selection¶

作者: A McCloskey
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 Post-selection inference（PoSI，模型选择后推断）要解决的根本统计问题是：当研究者用同一批数据既挑选了模型（如用 Lasso 选变量），又要在选出的模型上对参数做置信区间或假设检验时，经典推断理论（要求模型先验给定）不再适用。如果不修正，区间覆盖概率会严重偏离名义水平（winner's curse）。这个子方向目前成熟度较高，已有两条主流路线（Selective 与 PoSI）和大量渐近/有限样本结果，但核心张力在于：区间长度与覆盖概率的 uniform 有效性之间存在不可调和的 tradeoff——Selective 路线在信号强时短，但在弱信号时覆盖崩溃；PoSI 路线覆盖 uniform 稳，但区间永远很长。本文试图用 hybrid 结构打破这个 tradeoff。

发展脉络 - 奠基工作：Berk et al. (2013) 提出 PoSI 路线，不假设模型正确，对所有可能选出的子模型提供同时推断，覆盖无条件有效，但区间极长（需购买"simultaneity insurance"）。Lee et al. (2016) 与 Tibshirani et al. (2016) 开创 Selective 路线，对 Lasso 等多面体选择事件做条件推断，有限样本下精确，但依赖 Gaussian 误差与选择事件刻画。 - 主要进展：Selective 路线向渐近与高维拓展。Tian & Taylor (2018) 引入随机化选择，使 selective test 更有 power 并允许非参设定下的弱收敛。Markovic et al. (2018) 将 selective 推断统一到 CV、AIC 等多种选择准则下，依赖联合正态渐近。Tibshirani et al. (2018) 证明 selective test 在固定维数下对非正态误差 uniform 渐近有效，但高维下 uniform 性崩溃。PoSI 路线向 model-free 拓展。Kuchibhotla et al. (2020) 在无模型正确假设下构造 PoSI 区间；Bachoc et al. (2020) 在异方差/误设线性模型下给出 uniform 渐近有效 PoSI 区间；Bachoc et al. (2018) 用 RIP 条件压缩 PoSI 常数。 - 当前 frontier 与本文位置：前沿集中在两条路线的缺陷修补。Selective 路线的致命缺陷是弱信号下覆盖退化（Kivaranovic & Leeb, 2021 证明某些 selective 区间期望长度无限）。PoSI 路线的缺陷是区间过长。Andrews et al. (2020, 2021) 在"推断赢家"（Inference on Winners）与断点估计设定下提出 hybrid CI，将条件推断与投影推断结合。本文（McCloskey）将 hybrid 思路移植到一般线性回归模型选择框架（涵盖 Lasso、FS、LAR 等），并建立不限制 scaled parameter 大小的 uniform 渐近覆盖理论。

子线索聚类 1. Selective Inference（条件推断路线）：Lee et al. (2016), Tibshirani et al. (2016), Fithian et al. (2014), Tian & Taylor (2018), Markovic et al. (2018)。核心做法：条件在选择事件上，构造 pivotal 量。优势：信号强时区间短；劣势：弱信号时覆盖崩溃，期望长度可能无限。 2. PoSI（无条件/同时推断路线）：Berk et al. (2013), Kuchibhotla et al. (2020), Bachoc et al. (2020, 2018)。核心做法：对所有子模型参数构造同时置信域，投影到选出的模型。优势：覆盖 uniform 稳，不依赖选择准则；劣势：区间长，保守。 3. Hybrid 推断（混合路线）：Andrews et al. (2020, 2021), McCloskey (本文)。核心做法：用参数化 selective 分支追短区间，用非参数化 PoSI 分支兜底覆盖。

这个方向在追问的核心问题 1. Uniform 覆盖与区间长度的 tradeoff 能否被打破？ 即：能否构造一个区间，在信号强时逼近 naive/selective 的短长度，在信号弱时仍保持 PoSI 的 uniform 覆盖？ 2. 弱信号（局部参数序列 \(\theta_n \to 0\)）下，Selective 推断的覆盖退化能否被修正？ 退化源于选择事件概率趋于零，条件分布扭曲。 3. 不假设模型正确时，post-selection 推断的 uniform 渐近理论如何建立？ 参数定义依赖选出的子模型（model-specific target），分布类不能限制 scaled parameter 大小。

⚠️ 作者的 framing - 作者的说法：作者把缺口 frame 为"Selective CI 在弱信号下覆盖退化，PoSI CI 太长"，而 hybrid CI 是"显然的下一步"——在强信号时自动走 selective 分支追短，弱信号时走 PoSI 分支保覆盖，且覆盖在不限制 scaled parameter 大小的大分布类上 uniform 渐近有效。 - 被淡化或回避的竞争路线：Intro 未讨论随机化 selective 推断（Tian & Taylor 2018, Markovic et al. 2018）在弱信号下的表现——随机化能缓解选择事件概率趋于零的问题，可能也是解决弱信号覆盖退化的另一条路，但作者未与之对比。Intro 也未讨论高维设定（\(p \gg n\)）下的 hybrid 推断——Tibshirani et al. (2018) 已证明 selective 推断在高维下 uniform 性崩溃，本文理论仅覆盖固定维数（\(d\) fixed），高维 hybrid 的可能性被回避。 - 明显该被引却未出现的：半参数效率理论相关工作——本文的 model-specific target \(\mu_{M,n}(P)\) 是半参数意义上的 pathwise differentiable estimand 吗？其 uniform 渐近覆盖的下界（minimax lower bound for uniform coverage）是否与 PoSI 常数有关？Intro 未引用任何效率界/minimax 工作，留下"hybrid 区间长度在弱信号 regime 是否最优"的疑问。

张力未见明显对立引用。但存在设定上的张力：Selective 路线（Lee et al. 2016）要求 Gaussian 误差与多面体选择事件，PoSI 路线（Berk et al. 2013）不要求。本文的 hybrid 理论依赖 PoSI 分支的 uniform 渐近有效性（假设存在），同时要求 Selective 分支的选择事件可被刻画为 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\)——这实质上要求选择准则有足够结构，介于两条路线之间。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(n\)：样本量。
\(d\)：候选回归变量的维数（固定，不随 \(n\) 增长）。
\(M\)：一个子模型，即 \(\{1,\dots,d\}\) 的子集，表示选入的变量。\(|M|\) 为子模型大小。
\((Y_i, X_i)\), \(i=1,\dots,n\)：可观测数据。\(Y_i \in \mathbb{R}\) 为响应，\(X_i \in \mathbb{R}^d\) 为候选变量向量。
\(P\)：\((Y_i, X_i)\) 的真实联合分布，属于分布类 \(\mathcal{P}_n\)。不假设任何子模型 \(M\) 是正确模型。
\(\mu_{M,n}(P)\)：estimand（model-specific target）。定义为子模型 \(M\) 下 \(Y\) 对 \(X_M\) 的population 最小二乘系数向量的线性组合：\(\mu_{M,n}(P) = c_M^T \beta_{M,n}(P)\)，其中 \(\beta_{M,n}(P) = (E_P[X_M X_M^T])^{-1} E_P[X_M Y]\)。注意：这是误设下的 best linear approximation 参数，不是真实因果效应。
\(\theta_{M,n}(P)\)：scaled parameter，\(\theta_{M,n}(P) = \sqrt{n} \mu_{M,n}(P)\)。这是 uniform 渐近理论中的关键量——分布类 \(\mathcal{P}_n\) 不限制 \(\theta_{M,n}(P)\) 的大小（允许弱信号 \(\theta \approx 0\) 或强信号 \(\theta \to \infty\)）。
\(\hat{M}_n\)：data-driven 选出的子模型，由选择准则决定（如 Lasso 最小化目标函数）。
\(D_n(M)\)：与子模型 \(M\) 相关的统计量向量（如 scaled OLS 估计、残差内积等），用于刻画选择事件。
\(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\)：选择事件。\(A_M\) 为矩阵，\(\hat{a}_{M,n}\) 为随机阈值。Lasso 固定 \(\lambda\) 的选择事件可写成此形式（Lee et al. 2016）。
\(\gamma \in (0,1)\)：hybrid 区间的调谐参数，控制 selective 与 PoSI 分支的切换阈值。

第二步：最小内核——Lasso 选一个变量后的 hybrid 区间

剥掉所有一般性，考虑最简特例：\(d=2\)（一个候选变量 \(X_1\) 加常数），Lasso 选出 \(M=\{1\}\)，推断 \(\mu_{M,n}(P)\)（\(X_1\) 的 population 回归系数）。

选择事件：Lasso 选入 \(X_1\) 等价于 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\)，其中 \(D_n(M)\) 包含 scaled OLS 估计 \(\hat{\beta}_{1,n}\) 与残差内积，\(A_M, \hat{a}_{M,n}\) 由 Lasso penalty \(\lambda\) 与设计矩阵决定。
Selective 分支：条件在 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\) 上，\(\hat{\beta}_{1,n}\) 的条件分布是截断正态（Gaussian 下）或截断渐近正态（非 Gaussian 下）。Selective CI 是此截断分布的 quantile 区间。
强信号时（\(\theta_{M,n}(P)\) 大）：选择事件概率接近 1，截断效应小，Selective CI 逼近 naive CI，长度短。
弱信号时（\(\theta_{M,n}(P) \approx 0\)）：选择事件概率小，截断严重，Selective CI 覆盖退化（条件分布扭曲），期望长度可能无限（Kivaranovic & Leeb 2021）。
PoSI 分支：构造对所有子模型 \(M' \subseteq \{1,2\}\) 的 \(\mu_{M',n}(P)\) 的同时置信域，投影到 \(M=\{1\}\)。PoSI CI 的半宽为 \(K_{PoSI} \times \hat{\sigma}_{1,n} / \sqrt{n}\)，其中 \(K_{PoSI}\) 是 PoSI 常数（最大 t-quantile over all submodels）。
覆盖 uniform 稳：不依赖选择事件，对任何 \(\theta_{M,n}(P)\) 都有效。
长度长：\(K_{PoSI} > z_{1-\alpha/2}\)，保守。
Hybrid（HySI）分支：核心思路——先检查选择事件是否"足够确定"（强信号），若是，走 Selective 分支追短区间；若否，走 PoSI 分支保覆盖。
切换规则：定义事件 \(V_{M,n} \in [V_{-,HM}(Z_{M,n}, \theta_M), V_{+,HM}(Z_{M,n}, \theta_M)]\)，其中 \(Z_{M,n}\) 是标准化统计量，\(V_{\pm,HM}\) 是 selective truncation interval 的端点。若此区间包含在 PoSI 区间内，则用 Selective 分支；否则用 PoSI 分支。
覆盖逻辑：设 selective 分支覆盖概率为 \(1-\alpha/(1-\gamma)\)（条件在选择事件上），PoSI 分支覆盖概率为 \(1-\alpha\)（无条件）。Hybrid 区间的覆盖概率 \(\geq (1-\gamma) \times (1-\alpha/(1-\gamma)) + \gamma \times (1-\alpha) = 1-\alpha\)。关键：弱信号时，选择事件概率小（\(\approx \gamma\)），hybrid 自动走 PoSI 分支，覆盖保住；强信号时，选择事件概率大（\(\approx 1\)），hybrid 走 Selective 分支，区间短。

最小内核的数学本质：Hybrid 区间是一个两层混合——以选择事件的概率为权重，混合 selective 与 PoSI 区间，使得无条件覆盖恰好为 \(1-\alpha\)，而区间长度在强信号时逼近 selective（短），弱信号时退化为 PoSI（长但覆盖稳）。证明的核心难点在于：在非 Gaussian 误差下，且分布类不限制 \(\theta_{M,n}(P)\) 时，如何证明这种混合的覆盖概率 uniform 渐近等于 \(1-\alpha\)？

三、这篇论文做了什么¶

三句话 ① 研究了不假设模型正确时，data-driven 模型选择后参数推断的 uniform 渐近覆盖与区间长度 tradeoff 问题。 ② 核心工具是 HySI（Hybrid Selective Inference）置信区间——混合 selective truncation 与 PoSI projection，以调谐参数 \(\gamma\) 控制切换。 ③ 主要结论：HySI 区间在分布类 \(\mathcal{P}_n\)（不限制 scaled parameter \(\theta_{M,n}(P)\) 大小）上具有 uniform 渐近覆盖 \(1-\alpha\)，且在强信号时区间长度逼近 selective CI，弱信号时退化为 PoSI CI。

关键设定与假设 在第二节最小记号基础上补全：

分布类 \(\mathcal{P}_n\)：\((Y_i, X_i)\) i.i.d. 来自 \(P\)，\(P\) 属于 \(\mathcal{P}_n\)。\(\mathcal{P}_n\) 满足：
(A1) 线性与矩条件：\(E_P[Y | X] = X^T \beta_P + r_P(X)\)（误设允许），\(E_P[(Y - X^T \beta_P)^2 | X] = \sigma_P^2(X)\)（异方差允许），且 \(\beta_P, \sigma_P^2(X)\) 的矩有界。
(A2) CLT 与 Berry-Esseen：\(D_n(M)\) 的线性部分满足高维 CLT（Kuchibhotla et al. 2018），且 Berry-Esseen 界对 \(\mathcal{P}_n\) uniform 成立。
(A3) 不限制 \(\theta_{M,n}(P)\)：\(\mathcal{P}_n\) 包含 \(\theta_{M,n}(P)\) 任意大小的分布（弱信号到强信号）。
统计含义：\(\mathcal{P}_n\) 允许模型误设、异方差、弱信号，比 Lee et al. (2016) 的 Gaussian 同方差设定大幅放宽，比 Tibshirani et al. (2018) 的固定维数非 Gaussian 设定类似但不限制参数大小（Tibshirani et al. 限制 \(\theta\) 有界）。
选择事件假设：
(B1) 选择事件刻画：\(\hat{M}_n = M\) 等价于 \(\{A_M D_n(M) \leq \hat{a}_{M,n}\}\)，其中 \(A_M\) 为矩阵，\(\hat{a}_{M,n}\) 为随机阈值。涵盖 Lasso 固定 \(\lambda\)、FS、LAR 固定步数等。
(B2) 选择事件渐近性质：\(\hat{a}_{M,n}\) 有界，\(A_M\) 结构已知。
统计含义：选择准则必须有足够结构以被刻画为线性不等式。不涵盖 CV 选 \(\lambda\) 或 BIC 等一般准则（需 Markovic et al. 2018 的随机化路线）。
PoSI 存在性假设：
(C1) 存在 uniform 渐近有效 PoSI CI：假设对 \(\mu_{M,n}(P)\) 存在 PoSI 区间 \(CI_{PoSI}\)，在 \(\mathcal{P}_n\) 上 uniform 渐近覆盖 \(1-\alpha\)。这是本文理论的基石假设——若 PoSI 分支不存在，hybrid 无法兜底。
统计含义：依赖 Bachoc et al. (2020), Kuchibhotla et al. (2020) 的 PoSI 构造。在异方差/误设下，PoSI 常数需用 sandwich variance 修正。

主要结果

Theorem 1（Uniform 渐近覆盖）：
陈述：在假设 (A1)-(A3), (B1)-(B2), (C1) 下，HySI 区间 \(CI_{HySI}\) 满足：
\[\liminf_{n \to \infty} \inf_{P \in \mathcal{P}_n} P(\mu_{\hat{M}_n,n}(P) \in CI_{HySI}) \geq 1-\alpha,\]
且对任何 \(P \in \mathcal{P}_n\)，
\[\limsup_{n \to \infty} P(\mu_{\hat{M}_n,n}(P) \in CI_{HySI}) \leq 1-\alpha + \delta_n,\]
其中 \(\delta_n \to 0\)。
直觉：Hybrid 混合的覆盖概率分解为 \((1-\gamma) \times\) selective 覆盖 \(+ \gamma \times\) PoSI 覆盖 \(= 1-\alpha\)。Uniform 性来源于：Berry-Esseen 界对 \(\mathcal{P}_n\) uniform，且 PoSI 分支本身 uniform 有效。
必要条件：(C1) PoSI 存在性假设——若无此假设，弱信号时覆盖无法兜底。(A3) 不限制 \(\theta\)——若限制 \(\theta\) 有界，则 selective 分支本身可 uniform 有效（Tibshirani et al. 2018），hybrid 无必要。
解决的技术难点：在 \(\theta\) 无界下，selective 分支的覆盖概率随 \(\theta\) 变化（强信号时 \(\to 1-\alpha/(1-\gamma)\)，弱信号时 \(\to 0\)），但 hybrid 混合权重（选择事件概率）也随 \(\theta\) 变化（强信号时 \(\to 1\)，弱信号时 \(\to \gamma\)），两者恰好抵消，使得总覆盖恒为 \(1-\alpha\)。证明需精确控制 selective 覆盖与选择事件概率的渐近行为，且控制对 \(\mathcal{P}_n\) uniform。
Proposition 1（区间长度性质）：
陈述：在强信号（\(\theta_{M,n}(P) \to \infty\)）下，HySI 区间长度逼近 selective CI 的 \((1-\alpha/(1-\gamma))\)-quantile 区间长度（接近 naive CI）；在弱信号（\(\theta_{M,n}(P) \approx 0\)）下，HySI 区间长度退化为 PoSI CI 长度。
直觉：强信号时选择事件概率接近 1，hybrid 几乎总走 selective 分支；弱信号时选择事件概率小，hybrid 几乎总走 PoSI 分支。

证明路线与技术技巧

整体路线（5 步）：
分解覆盖概率：\(P(\mu \in CI_{HySI}) = P(V \in [V_{-}, V_{+}] \text{ and } \hat{M}=M) + P(V \notin [V_{-}, V_{+}] \text{ and } \mu \in CI_{PoSI} \text{ and } \hat{M}=M)\)。
Selective 分支渐近分析：条件在 \(\hat{M}=M\) 上，\(Z_{M,n}\) 的分布逼近截断正态。用 Berry-Esseen 界控制逼近误差，对 \(\mathcal{P}_n\) uniform。
选择事件概率渐近分析：\(P(\hat{M}=M)\) 逼近 \(\Phi(\theta_{M,n}(P) + \text{threshold}) - \Phi(-\theta_{M,n}(P) + \text{threshold})\)，随 \(\theta\) 从 \(\gamma\) 到 1 变化。
混合覆盖精确计算：将 selective 覆盖与选择事件概率的渐近表达式代入混合公式，验证总覆盖 \(\to 1-\alpha\)。
Uniform 控制：用 Berry-Esseen 界与 PoSI 的 uniform 性，证明上述收敛对 \(\mathcal{P}_n\) uniform。
关键跳跃点：
Lemma 2（Selective 覆盖的 uniform 渐近表达）：在 \(\theta\) 无界下，条件覆盖概率 \(P(Z_{M,n} \in [V_{-}, V_{+}] | \hat{M}=M)\) 的渐近表达需精确到 \(O(n^{-1/2})\)，且误差对 \(\mathcal{P}_n\) uniform。这是最吃功夫的引理——需同时控制 CLT 逼近误差与截断分布的 quantile 逼近误差。
Lemma 3（选择事件概率的 uniform 渐近表达）：\(P(\hat{M}=M)\) 的渐近表达需对 \(\theta\) 无界的分布 uniform，依赖高维 CLT（Kuchibhotla et al. 2018）。
技术技巧点名：
Berry-Esseen 界：用于控制 CLT 逼近误差对 \(\mathcal{P}_n\) uniform，是 uniform 渐近理论的核心工具（引用 Kuchibhotla et al. 2018 的高维 Berry-Esseen）。
截断正态渐近：用于分析 selective 分支的条件分布，依赖 Tian & Taylor (2018) 的 selective CLT 思路，但需推广到 \(\theta\) 无界情形。
混合覆盖公式：\(P(\text{cover}) = (1-\gamma) \times P(\text{selective cover} | \hat{M}=M) + \gamma \times P(\text{PoSI cover})\)，这是 Andrews et al. (2020) 的 hybrid 思路，本文移植到模型选择框架。
PoSI projection：用于构造 PoSI 分支，依赖 Bachoc et al. (2020) 的 sandwich variance PoSI 构造。

真实例子与应用

Lasso 选模型后推断（糖尿病数据）：
数据：糖尿病疾病进展数据（\(n=442\), \(d=10\) 基础变量 + 交互项，共 64 候选变量）。
方法：用 Lasso（固定 \(\lambda\)）选子模型 \(\hat{M}_n\)，对选出的变量构造 HySI 区间推断 \(\mu_{\hat{M}_n,n}(P)\)。
结果：HySI 区间在覆盖概率上接近 95%（Monte Carlo 仿真验证），区间长度在强信号变量上比 PoSI 短 30-50%，在弱信号变量上与 PoSI 相当。
说明什么：验证 hybrid 思路在实证中的优势——强信号时追短区间，弱信号时保覆盖。
Monte Carlo 仿真：
设定：\(n=100, 500\), \(d=3, 6\)，Gaussian 与非 Gaussian 误差（t 分布、异方差），\(\theta\) 从 0（弱信号）到 5（强信号）。
结果：Selective CI 在 \(\theta \approx 0\) 时覆盖降至 85%，PoSI CI 覆盖恒为 95% 但长度长；HySI CI 覆盖恒为 95%，长度在 \(\theta > 2\) 时逼近 Selective，在 \(\theta < 1\) 时与 PoSI 相当。
说明什么：验证 uniform 覆盖与区间长度 tradeoff 的打破。

🔎 结论是否比证明窄 - Theorem 1 的 uniform 渐近覆盖在假设 (C1)（PoSI 存在性）下严格证明，但 (C1) 本身是未验证的假设——作者引用 Bachoc et al. (2020) 的 PoSI 构造作为 (C1) 的实例，但未证明 Bachoc et al. 的 PoSI 区间在本文的 \(\mathcal{P}_n\)（不限制 \(\theta\)）下 uniform 有效。这是一个证明窄于 claim 的地方：作者 claim "HySI 区间 uniform 渐近有效"，但实际依赖 PoSI 分支的 uniform 性，而 PoSI 分支的 uniform 性在 \(\theta\) 无界下是否成立需单独验证（Bachoc et al. 2020 的 PoSI 理论可能限制 \(\theta\) 有界）。 - Proposition 1 的区间长度性质是渐近陈述，未给出有限样本下的长度界。作者在 intro 中 claim "HySI CI 短"，但严格证明只覆盖渐近情形。

四、开放问题（点到为止，扎根具体语句）¶

PoSI 存在性假设 (C1) 在 \(\theta\) 无界下是否成立？ 本文 Theorem 1 依赖 (C1)，但 Bachoc et al. (2020) 的 PoSI 构造是否在 \(\mathcal{P}_n\)（不限制 \(\theta\)）下 uniform 有效未验证。扎根点：Section 3 假设 (C1) 及引用 Bachoc et al. (2020)。
HySI 区间长度在弱信号 regime 是否达到 minimax 最优？ 本文未给出区间长度的 minimax 下界。扎根点：Proposition 1 只说"退化为 PoSI 长度"，未讨论 PoSI 长度是否最优。Intro 未引用任何 minimax 工作。
高维设定（\(p \gg n\)）下 hybrid 推断是否可能？ 本文理论仅覆盖 \(d\) fixed，Tibshirani et al. (2018) 证明 selective 推断在高维下 uniform 性崩溃。扎根点：Intro 最后一段"high-dimensional asymptotic questions for future work"。
随机化选择准则（如 CV 选 \(\lambda\)）下的 hybrid 推断？ 本文选择事件假设 (B1) 不涵盖 CV/BIC 等一般准则，Markovic et al. (2018) 用随机化处理此类准则。扎根点：Section 2 对 (B1) 的限制及引用 Markovic et al. (2018)。

提醒：要确认第 1 条是否真 gap，去读 Bachoc et al. (2020) 与 Kuchibhotla et al. (2020) 的 intro——若他们也限制 \(\theta\) 有界，则 (C1) 在 \(\theta\) 无界下是真 gap；若他们不限制，则 (C1) 已被满足。

Maintained by 陈星宇 · Homepage · Source on GitHub

Hybrid confidence intervals for informative uniform asymptotic inference after model selection¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论