Finite- and large sample inference for model and coefficients in high-dimensional linear regression with repro samples¶

作者: Peng Wang, Min-ge Xie, Linjun Zhang
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2591

一、核心问题与贡献¶

①本文研究了高维线性回归中对真实稀疏模型及回归系数的有限样本与大样本推断问题。②核心工具是基于repro samples框架与Fisher inversion技术，通过构造模型候选集来克服高维模型空间搜索的计算不可行性。③主要结论是在Gaussian与非Gaussian误差下均构造出具有有限样本覆盖保证的置信集，填补了高维回归中处理模型选择不确定性与有限样本推断的理论空白。

二、基础设定¶

核心概念与符号：
$Y = X\beta + \epsilon$：高维线性回归模型，$\beta \in \mathbb{R}^p$，$p \gg n$。
$M_ = \text{supp}(\beta)$：真实稀疏模型，$s = |M_|$为稀疏度。
Repro samples：通过模拟数据生成机制生成的人工样本，用于评估某参数下“再现”观测数据的合理性。
Fisher inversion：利用充分统计量的映射关系，将高维推断降维投影到候选模型空间的技术。
$\mathcal{M}$：模型候选集，以高概率包含真实模型$M_*$的子空间。
关键假设：
Restricted eigenvalue (RE) / Sparse eigenvalue condition：保证Lasso等初始筛选方法的相合性，与高维文献标准一致。
误差分布假设：有限样本精确覆盖依赖Gaussian误差（利用其正态分布的精确闭包性质）；大样本结果放宽至亚Gaussian或有限矩条件。
最小信号条件 (Beta-min condition)：$\min_{j \in M_*} |\beta_j| \gg \sqrt{\log p / n}$，保证初始筛选步骤不遗漏真实变量。
假设对比：相比Debiased Lasso依赖的渐近正态性假设，本文在Gaussian误差下无需渐近展开即获得有限样本保证；相比传统子集选择方法，放宽了对$p$的严苛计算限制。
问题背景：
现有高维推断（如Debiased ML、Bootstrap）主要提供大样本渐近保证，且通常假设模型选择为确定性的，忽略了模型选择不确定性。
与最相关文献的区别：①相比 Xie & Wang (2022) 提出的 repro samples 框架（主要针对低维/固定维），本文解决了高维下计算爆炸与参数空间发散的问题；②相比 Zhang & Zhang (2014) 等Debiased方法，本文提供有限样本覆盖和模型层面的推断。

三、主要定理 / 核心结果¶

模型候选集的覆盖保证
原文陈述：基于Fisher inversion构造的模型候选集 $\mathcal{M}$，满足 $P(M_* \in \mathcal{M}) \ge 1 - \alpha$（有限样本Gaussian下）或依概率趋近于 $1-\alpha$（非Gaussian下）。
直观解释：通过将观测数据映射到参数的充分统计量空间，筛选出那些能使观测数据处于“高概率再现区域”的模型，类似于似然比检验的置信域投影。
技术难点：高维下遍历 $2^p$ 个模型不可行，需证明初始筛选（如Lasso）能以压倒性概率将搜索空间缩减至多项式级别。
局限：高度依赖初始筛选步骤的相合性，若初始筛选漏掉真实变量，后续推断必然失效。
系数与联合置信集的有限样本覆盖
原文陈述：对任意子集 $S$，构造的系数置信集 $CS(S)$ 满足 $P(\beta_S \in CS(S)) \ge 1 - \alpha$；模型与系数联合置信集同样满足有限样本覆盖。
直观解释：在候选集 $\mathcal{M}$ 的每个模型下，利用残差分布构造系数的切片置信区间，最后对所有候选模型下的置信区间取并集，从而将模型不确定性纳入系数推断中。
技术难点：如何处理未选中变量的影响，通过条件推断（给定充分统计量）消除冗余参数的干扰。
局限：有限样本精确覆盖仅在Gaussian误差下严格成立；非Gaussian下退化为渐近覆盖。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法 + 蒙特卡洛近似 + 渐近展开。
关键逻辑步骤：
初始降维：利用Lasso/SLOPE等正则化方法获得超模型候选集 $\mathcal{M}^{init}$，证明 $M_* \in \mathcal{M}^{init}$ 的概率趋近于1。
Fisher inversion映射：对 $\mathcal{M}^{init}$ 中的每个模型 $M$，计算充分统计量，建立映射，评估该模型为真时“再现”观测数据的概率测度。
候选集截断：基于映射概率和水平 $\alpha$ 的阈值，剔除不满足条件的模型，得到最终模型候选集 $\mathcal{M}$。
投影与并集：在 $\mathcal{M}$ 的每个模型内，利用条件分布构造系数的精确置信区间，取并集得到最终系数置信集。
最关键的技巧性引理/跳跃点：Fisher inversion 在高维的降维应用。传统 Fisher inference 依赖完备统计量，在高维下不可行。本文通过将参数空间限制在候选集 $\mathcal{M}$ 上，将 $p$ 维推断问题转化为若干低维（$|M|$ 维）推断问题的并集，绕过了维数灾难，这是全文最核心的构造。
数学工具评价：经典推断工具（Fisher inversion, sufficient statistics）与现代高维筛选（Lasso, RE条件）的巧妙组合。并非全新分析框架，但在高维有限样本推断中极具构造性创新。

五、与研究者兴趣的关联¶

连接子方向：高维推断，特别是区别于 Debiased ML 的有限样本/精确推断路径，以及高维假设检验。
可借鉴的核心思路：Fisher inversion 技术将高维假设检验转化为候选模型上的低维检验并集，这一思路可迁移到高维 U 统计量或 RMT 设定下的特征值/向量推断中；模型候选集的构造为处理模型选择不确定性提供了严格的数学表达，可直接用于因果推断中处理混杂选择的不确定性。
值得精读的参考文献：
Xie & Wang (2022, JASA) "Repro samples method for inference"：repro samples 框架的奠基之作，理解其基本哲学必读。
Zhang & Zhang (2014, JASA) "Confidence intervals for low-dimensional parameters in high-dimensional linear models"：Debiased Lasso 的经典，对比其渐近路径与本文有限样本路径的差异必读。

六、延伸思考与练习¶

假设扰动：若误差项不满足 Gaussian 假设（如重尾分布），有限样本覆盖保证失效。技术上需要引入稳健估计量或 Subsampling 来恢复近似有限样本保证，或彻底放弃有限样本退守渐近理论，此时 Fisher inversion 的闭包性质不再成立，需重新设计映射测度。
开放问题：如何将 repro samples 框架推广到非参数/半参数模型（如部分线性模型或因果推断中的双重机器学习设定），其中没有明确的稀疏模型候选集？
理解检测题：假设真实模型 $M_*$ 的稀疏度 $s$ 未知且欠估计（即初始筛选集 $\mathcal{M}^{init}$ 的最大模型尺寸设定小于 $s$），Fisher inversion 构造的置信集的覆盖概率会如何变化？请从有限样本和渐近两个角度解释。

Maintained by 陈星宇 · Homepage · Source on GitHub