Finite- and large sample inference for model and coefficients in high-dimensional linear regression with repro samples¶

作者: Peng Wang, Min-ge Xie, Linjun Zhang
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2591

核心问题与动机¶

本文解决高维线性回归中模型选择不确定性与有限样本推断的联合推断问题。高维回归文献存在两大空白：（1）缺乏对真实稀疏模型（非零系数支撑集）的有效推断手段，现有方法多忽略模型选择不确定性；（2）现有推断方法（如去偏Lasso/Debiased ML、Bootstrap）多依赖大样本渐近保证，缺乏有限样本下的有效性保证。

主要贡献¶

提出基于再现样本框架的高维回归推断方法，同时实现有限样本和大样本下的有效推断。
构造了三类置信集：真实模型（支撑集）、单个/任意回归系数集合、模型与系数的联合置信集。
引入Fisher 反演技术构建“模型候选集”，以 $1-o(1)$ 的概率覆盖真实模型，克服了高维空间 $2^p$ 模型搜索的组合计算困难。
将方法适用性从高斯误差扩展至非高斯误差设定。

方法框架¶

模型设定：高维线性回归 $Y = X\beta^ + \epsilon$，其中 $\beta^$ 为稀疏向量，支撑集 $S^ = \text{supp}(\beta^)$。
关键假设：
再现样本机制：能够基于给定参数模拟生成与观测数据具有相同采样机制的人工样本。
误差分布设定：误差项 $\epsilon$ 服从已知形式（高斯或非高斯）的分布，以支撑有限样本推断。
方法步骤：
模型候选集构造：利用 Fisher 反演技术，基于数据 $(X, Y)$ 构造候选模型集合 $\mathcal{M}$，使得 $P(S^* \in \mathcal{M}) \ge 1-\alpha$，将搜索空间从 $2^p$ 缩减至有限子集。
系数推断：对 $\mathcal{M}$ 中的每个候选模型 $M$，利用再现样本机制构造系数 $\beta_M$ 的置信集。
聚合与联合推断：通过并集或交集操作，聚合各候选模型下的推断结果，形成单系数、任意系数集合或模型-系数联合置信集。

主要理论结果¶

有限样本保证：在误差分布已知（如高斯）下，所构造的模型置信集和系数置信集具有精确的有限样本覆盖概率（Finite-sample coverage guarantee），即 $P(S^* \in C_M) \ge 1-\alpha$。
大样本渐近：证明了在样本量 $n \to \infty$ 时方法的大样本有效性。
模型候选集性质：基于 Fisher 反演构造的候选集 $\mathcal{M}$ 以趋于 1 的概率包含真实模型 $S^*$，且其大小在适当条件下是多项式级可控的，避免了指数级计算灾难。

实验 / 数值仿真¶

实验设计：高维线性回归仿真，包含高斯与非高斯误差设定，维度 $p$ 大于或小于 $n$ 的情形。
评估指标：置信区间的覆盖概率、置信区间的平均长度/体积。
主要发现：与当前最先进的去偏方法（Debiasing）和 Bootstrap 方法相比，本文方法在保持名义覆盖率（尤其在有限样本下表现更稳健）的同时，能够产生更小/更紧的置信集。

与研究者兴趣的关联¶

高维统计与效率理论：本文直接处理高维参数的推断问题，且对比并超越了 Debiased ML 方法，为高维推断提供了不依赖 Neyman正交性的替代路径。
数理统计与假设检验：Fisher 反演技术在有限样本下的应用，为精确假设检验提供了新思路。
可借鉴技巧：通过“模型候选集”降维再进行 Fisher 反演的技巧，可潜在迁移至高维因果推断（如大量控制变量下的因果效应推断），解决工具变量或中介分析中的模型选择不确定性问题。

局限性与开放问题¶

误差分布依赖：有限样本推断的严格保证依赖于对误差分布（如高斯）的已知假设，若误差分布未知或误设，有限样本性质可能退化。
计算复杂度：尽管模型候选集缩小了搜索空间，但在超大规模 $p$ 下，对候选集中所有模型进行再现样本推断仍面临计算挑战。
开放问题：如何将再现样本框架与半参数/非参数模型结合，在误差分布未知时实现有限样本推断；如何将该框架推广至非线性模型（如广义线性模型）或复杂的因果推断结构（如 IV/纵向数据）。

Maintained by 陈星宇 · Homepage · Source on GitHub