The Distribution of Ridgeless Least Squares Interpolators¶

作者: Qiyang Han, Xiaocong Xu
来源: JMLR
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: https://www.jmlr.org/papers/v27/25-0458.html

核心问题与动机¶

本文旨在解决过参数化线性回归中，Ridgeless最小$\ell_2$范数插值器作为统计估计量的精确随机行为（分布刻画）问题。尽管已有研究通过随机矩阵理论（RMT）揭示了其范数最小化特性带来的“隐式正则化”能保证$\ell_2$预测风险的良好表现，但现有方法无法刻画该估计量的完整分布，且结论多局限于高斯设计矩阵或$q=2$的风险。理解其精确分布对于统计推断（如构造置信区间）和更广泛的风险评估至关重要。

主要贡献¶

分布等价映射：将高维Ridgeless插值器的分布，精确刻画为关联高斯序列模型中带正则化的Ridge估计量的分布，首次在最一般的分布意义上量化了“隐式正则化”。
非高斯设计与一致延拓：理论推导适用于一般非高斯随机设计矩阵，且分布刻画一致地延拓至带正则化的Ridge估计量（$\lambda \ge 0$）。
加权$\ell_q$风险的完整刻画：突破RMT仅能处理$q=2$的局限，给出一大类加权$\ell_q$风险（$q>0$）的完整特征，涵盖标准预测/估计误差及非标准的协变量偏移设定。
交叉验证与Debiased推断的最优性：证明通过广义交叉验证（GCV）或$k$折交叉验证调节$\ell_2$预测风险，可同时实现in-sample、prediction、estimation三种$\ell_2$风险的最优性，并给出debiased置信区间的最优长度。

方法框架¶

模型设定：过参数化线性模型 $y = X\beta_0 + \varepsilon$，其中 $p > n$。Ridgeless插值器为 $\hat{\beta} = \arg\min_{\beta} |\beta|_2 \quad \text{s.t.} \quad X\beta = y$。
关键假设：一般非高斯随机设计（需满足适当的矩条件），而非局限于RMT常用的正态分布假设。
核心步骤：通过巧妙的高斯穷尽技巧或等价分布替换，建立非高斯设计下Ridgeless估计量与高斯序列模型中Ridge估计量（带某正则化参数$\lambda^*>0$）的分布等价性，从而将无显式正则化的问题转化为有显式正则化的对偶问题进行解析。

主要理论结果¶

分布极限定理：Ridgeless插值器的分布渐近等价于一个高斯序列模型中的Ridge估计量，其正则化参数$\lambda^*$由样本协方差矩阵的极限谱分布决定，精确量化了隐式正则化效应。
加权$\ell_q$风险收敛：对任意$q>0$及一般权重矩阵，获得了加权$\ell_q$风险的精确渐近表达式，涵盖了协变量偏移下的风险。
Debiased CI的最优性：基于GCV/k-fold CV选出的正则化参数，构造的debiased置信区间长度达到渐近最优。

实验 / 数值仿真¶

（摘要未提及，跳过）

与研究者兴趣的关联¶

高维统计与随机矩阵理论：直接推进了高维RMT在非高斯设计下的分布刻画，突破了传统RMT仅处理$\ell_2$风险的局限。
效率理论与Debiased ML：文中关于“debiased置信区间最优长度”的结论，与半参数效率界和去偏机器学习的推断理论深度契合，为高维插值情形下的有效推断提供了理论支撑。
因果推断：对“协变量偏移”下加权$\ell_q$风险的刻画，直接关联到因果推断中外部有效性与泛化性问题的理论分析。

局限性与开放问题¶

模型局限：目前严格限于线性模型，对于非线性模型（如神经网络的NTK/随机特征 regime）的Ridgeless插值器，其精确分布刻画仍是开放问题。
假设条件：虽放宽了高斯假设，但仍需特定的矩条件或高维渐近框架（$p/n \to \gamma$），有限样本下的非渐近分布刻画仍有待探索。
因果机制的开放问题：在协变量偏移下，如何利用该分布等价性进行反事实预测的有效推断，是一个值得跟进的交叉方向。

Maintained by 陈星宇 · Homepage · Source on GitHub