Dimension free ridge regression¶
作者: Chen Cheng, Andrea Montanari
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的是 高维(乃至无穷维)ridge 回归(ℓ₂ 罚最小二乘)的统计性质,尤其是过剩风险(excess risk)的精细刻画。传统的高维分析依赖于随机矩阵理论中的比例渐近(proportional asymptotics, \(p/n \to \gamma \in (0,\infty)\)),能给出风险精确的极限表达式,但无法直接推广到 \(p\) 远大于 \(n\) 或 Hilbert 空间中的无穷维协变量场景。本文希望获得一个维度无关(dimension-free)的非渐近近似,将原 ridge 回归的偏差与方差同时表示为某个“等价序列模型”(对角设计矩阵)的偏差与方差乘以一个显式可控的乘法因子 \((1\pm\Delta)\),从而统一处理比例与非比例情形,并由此推导出良性过拟合 (benign overfitting) 的充分条件。
发展脉络(history)¶
奠基工作集中在比例渐近框架下对 ridge 回归的精确刻画:
- Hastie, Montanari, Rosset & Tibshirani (2019) 研究了最小 ℓ₂ 范数插值(ridgeless least squares)的“双重下降”现象,发现当 \(p/n\) 接近 1 时风险暴增,超过 1 后下降,并给出了精确的渐近风险表达式。这项工作确立了比例渐近为基准框架。
- Bartlett, Long, Lugosi & Tsigler (2020) 则从另一个角度——良性过拟合——出发,刻画最小范数插值预测精度的条件。他们引入有效秩概念,发现过参数化(\(p>n\))是良性过拟合的关键。
- Donoho & Montanari (2013) 利用近似消息传递(AMP)算法分析高维 M 估计,揭示了比例渐近下回归系数中的“额外高斯噪声”现象,为后续随机矩阵工具处理非线性模型铺路。
- Knowles & Yin (2014) 和 Bloemendal, Erdős, Knowles & Yau (2013) 发展了局部律(local law)技术,证明样本协方差矩阵的 resolvent 在最佳谱尺度下收敛到确定性等价。这一工具成为后来很多比例渐近工作的核心。
主要进展将比例渐近推向更一般的设定和更精细的统计推断:
- El Karoui (2018) 将高维稳健回归推广到椭圆分布和重尾误差,但仍在比例渐近下。
- Miolane & Montanari (2018) 和 Celentano, Montanari & Wei (2020) 通过 Gaussian comparison 不等式和 Gordon 定理,将 Lasso 和 ridge 的分布与一个简单“去噪模型”联系起来,证明了指数级浓度的非渐近界。这些工作朝非渐近、非比例方向迈出重要一步,但本质仍依赖设计矩阵的随机结构,且近似多为加法形式。
- Celentano & Montanari (2019) 进一步指出,对于凸罚方法,存在“算法障碍”:即使统计最优误差可低至 \(O(1/n)\),凸正则化器能达到的最佳误差有一个下限,该下限由信号分布的某种“结构性”决定。这暗示在比例渐近之外,研究更精细的逼近是必要的。
当前 frontier:超越比例渐近,在可分离 Hilbert 空间(即 \(p\) 可能无穷)中直接刻画 ridge 回归的非渐近行为,并且逼近要足够精确到能描绘风险向 0 收敛时的速率。已有的加法近似(如误差为 \(O(p/n)\) 或 \(O(1/\sqrt{n})\))在风险趋零时失效,因为主导项被加法误差淹没。本文的位置恰在这一缺口上:它提供了乘法近似,从而能从相对误差的角度分析风险趋零行为。
⚠️ 作者的 framing:作者在引言中强调“此前仅知加法近似(additive errors),无法刻画过剩风险趋零时的行为”。他们将“乘法误差”标榜为关键新元素,使得逼近即使在风险很小时也保持有效。被淡化的竞争路线包括:① 基于 AMP 的精确渐近(但需要设计矩阵为独立高斯且 \(p/n\) 固定);② 基于局部律的随机矩阵方法(通常要求 \(p,n\) 同阶且协方差矩阵有界条件数)。作者通过凸浓度性质(convex concentration property)来统一处理高斯、次高斯、log-concave 等多种随机设计,从而跳出了比例渐近的束缚。一个值得注意的缺失是:近期关于核 ridge 回归(kernel ridge regression)的非渐近分析——例如通过倒谱图(NTK)的方法——在本文的引用中未见重点提及,这可能暗示作者有意聚焦于线性模型,或将核方法视为后续推广目标。
子线索聚类¶
- 比例渐近下的精确刻画(Hastie et al., 2019; Donoho-Montanari, 2013; Celentano-Montanari-Wei, 2020; Miolane-Montanari, 2018):主要采用 AMP、Gaussian comparison 或随机矩阵局部律,获得风险或分布的极限表达式,适用范围限于 \(p/n \to \gamma\)。
- 良性过拟合 / 插值理论(Bartlett et al., 2020; Advani & Saxe, 2017):关注最小 ℓ₂ 范数插值的预测精度,刻画有效秩和过参数化程度对风险的影响。这些工作通常假设特征向量为次高斯或独立坐标。
- 高维 M 估计与稳健回归(El Karoui, 2018; Celentano-Montanari, 2019):研究凸损失函数下估计量的高维渐近性质,揭示了统计最优与凸方法可达误差之间的 gap。
- 随机矩阵局部律(Knowles & Yin, 2014; Bloemendal et al., 2013):为 resolvent 逼近提供通用工具,支持各向异性协方差矩阵,但通常要求比例渐近或谱支撑有界。
核心追问¶
- (Q1) 在 \(p\) 远大于 \(n\) 甚至无穷时,ridge 回归的风险如何随 \(\lambda\) 和谱结构变化?
- (Q2) 良性过拟合(过参数化下风险仍较小)的充分 / 必要条件是什么?这些条件如何在 Hilbert 空间中退化?
- (Q3) 能否建立一种与维度无关的非渐近逼近,其误差项是乘法而非常规的加法,从而适用于风险趋零的精细分析?
- (Q4) 当特征空间为无穷维(如函数数据)时,ridge 回归是否仍保持比例渐近中观察到的“双重下降”或其他相变行为?
张力¶
未见明显对立引用。各条线工作多在同一大方向下互为补充,分歧主要体现在条件强弱和逼近精度上。例如 Bartlett et al. 的良性过拟合刻画与 Hastie et al. 的比例渐近风险公式在极限情况下一致,且都被本文的新方法所涵盖。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
| 符号 | 含义 |
|---|---|
| \(n\) | 样本量 |
| \(p\) | 特征维度(可为 \(\infty\),此时特征在可分 Hilbert 空间 \(\mathcal{H}\) 中) |
| \((x_i, y_i) \in \mathcal{H} \times \mathbb{R}\), \(i=1,\dots,n\) | 可观测的独立同分布样本 |
| \(x_i\) | 特征向量,具有有限二阶矩,协方差算子 \(\Sigma = \mathbb{E}[x_i \otimes x_i] : \mathcal{H} \to \mathcal{H}\) |
| \(\beta \in \mathcal{H}\) | 真实参数,满足 \(y_i = \langle \beta, x_i \rangle + \varepsilon_i\),\(\varepsilon_i \sim (0,\sigma^2)\) 独立同分布 |
| \(\Sigma^{1/2}\) | \(\Sigma\) 的平方根算子(正定,假设可逆) |
| \(z_i := \Sigma^{-1/2} x_i\) | 白化设计向量,满足 \(\mathbb{E}[z_i z_i^\top] = I\)(在有限维下为单位矩阵) |
| \(\lambda > 0\) | ridge 正则化参数 |
| \(\widehat{\beta}(\lambda) = \arg\min_\beta \frac{1}{n}\sum_{i=1}^n (y_i - \langle\beta, x_i\rangle)^2 + \lambda\|\beta\|^2\) | ridge 估计 |
| \(\text{Bias}(\lambda) := \|\Sigma^{1/2}\,(\mathbb{E}[\widehat{\beta}(\lambda)] - \beta)\|^2\) | 偏差平方(在 \(\Sigma\) 范数下) |
| \(\text{Var}(\lambda) := \mathbb{E}\|\Sigma^{1/2}\,(\widehat{\beta}(\lambda) - \mathbb{E}[\widehat{\beta}(\lambda)])\|^2\) | 方差 |
| \(\mathcal{R}(\lambda) = \text{Bias}(\lambda) + \text{Var}(\lambda)\) | 过剩风险(excess risk) |
可观测数据:\(n\) 对 \((x_i, y_i)\) 可以直接测量。\(\Sigma\) 和 \(\beta\) 是未知的。噪声方差 \(\sigma^2\) 可估。白化向量 \(z_i\) 不是直接可观测的,但假设其满足某种结构:白化后设计向量的坐标要么独立同分布(i.i.d.),要么满足凸浓度性质(convex concentration property)。凸浓度性质是本文的核心假设之一:对于 \(z_i\) 的任何 1-Lipschitz 凸函数 \(f\),有 \(\mathbb{P}(|f(z_i) - \mathbb{E}f(z_i)| > t) \le c_1 e^{-c_2 t^2}\)。这能将许多高维集中不等式统一起来(例如高斯、均匀球面、log-concave 分布都满足)。
第二步:最小内核¶
剥离所有为一般性服务的假设,本文的核心思想可以用如下最简特例概括:
特例:假设 \(p < \infty\),且白化向量 \(z_i\) 的坐标是独立标准正态。设 \(\Sigma\) 有谱分解 \(\Sigma = U \Lambda U^\top\),其中 \(\Lambda = \text{diag}(\lambda_1,\dots,\lambda_p)\),\(U\) 正交。作旋转:\(\widetilde{x}_i = U^\top x_i = \Lambda^{1/2} z_i\),\(\widetilde{\beta} = U^\top \beta\)。旋转后的模型为 \(\widetilde{x}_i\) 各坐标独立(因为 \(z_i\) 坐标独立且方差由 \(\Lambda\) 调制)。此时 ridge 估计在旋转坐标系下为:
由于 \(\widetilde{x}_i\) 各坐标独立,上述矩阵本质上是一个“对角 + Wishart”结构:样本协方差矩阵 \(\widehat{\Sigma}_{\widetilde{x}} = \frac{1}{n} \sum_{i=1}^n \widetilde{x}_i \widetilde{x}_i^\top\) 的非对角元素由于独立性而集中于 0。事实上,对于标准正态 \(z_i\),可以证明:对于任意 \(j \neq k\),\((\widehat{\Sigma}_{\widetilde{x}})_{jk}\) 以高概率为 \(O_p(1/\sqrt{n})\)。因此,当 \(n\) 大时,\(\widehat{\Sigma}_{\widetilde{x}}\) 近似于对角矩阵 \(\widehat{\Lambda} = \text{diag}(\widehat{\lambda}_1,\dots,\widehat{\lambda}_p)\),其中 \(\widehat{\lambda}_j = \frac{1}{n} \sum_{i=1}^n \lambda_j z_{ij}^2\)。若将 \(\widehat{\Lambda}\) 精确视作对角,则 ridge 估计退化为坐标独立的估计:\(\widehat{\widetilde{\beta}}_j(\lambda) = \frac{ \frac{1}{n} \sum_i \widetilde{x}_{ij} y_i}{ \widehat{\lambda}_j + \lambda }\)。由此可计算偏差和方差的和式。
本文的关键洞察是:虽然 \(\widehat{\Sigma}_{\widetilde{x}}\) 不是严格对角,但可以用一个等价序列模型——其中设计矩阵为严格对角、元素由 \(\Lambda\) 和独立同分布正态噪声生成——来逼近原模型的偏差与方差。更精确地,存在一个常数 \(\Delta\)(显式依赖于 \(n\)、谱分布和凸浓度常数),使得
其中 \(\text{Bias}_{\text{seq}}, \text{Var}_{\text{seq}}\) 是等价序列模型的对应量。这个逼近是乘法的,因此即使 \(\text{Bias}, \text{Var}\) 本身很小(趋零时),逼近也不失效。
更简单直观地:在旋转坐标系下,原 ridge 的过剩风险几乎完全由 \(\Sigma\) 的特征值谱和样本量决定,与特征向量的方向无关——只要白化设计满足集中性。这个“维度无关”性使得无穷维的情况(特征值无穷序列)可以作类似处理,只需将求和改为积分(或迹)。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在高维乃至无穷维的 ridge 回归中,建立非渐近的偏差-方差分解,并用一个“等价序列模型”的相应量乘以显式可控的乘法因子 \((1\pm\Delta)\) 来逼近。
- 核心工具:随机矩阵理论的迹方法(trace method)与凸浓度性质(convex concentration property),绕过比例渐近限制,获得维度无关的误差界。
- 主要结论:(a) 非渐近乘法逼近界(定理 1);(b) 在正则衰减谱(regularly varying spectrum)下,过剩风险的完全显式刻画(定理 2);(c) 过参数化近插值(\(\lambda\to 0\))下的良性过拟合条件(定理 3)。
关键设定与假设¶
在第二节符号基础上,论文增加了以下形式化假设:
- (A1) 数据生成:\((x_i, y_i)\) i.i.d.,\(y_i = \langle\beta, x_i\rangle + \varepsilon_i\),\(\varepsilon_i\) 独立于 \(x_i\),\(\mathbb{E}[\varepsilon_i]=0\),\(\mathbb{E}[\varepsilon_i^2]=\sigma^2\)。
- (A2) 协方差算子:\(\Sigma\) 是 \(\mathcal{H}\) 上有界线性算子,正定且迹有限(\(\text{tr}(\Sigma) < \infty\))。对于无穷维情况,要求 \(\Sigma\) 为迹类算子(这保证 \(x_i\) 几乎必然在 \(\mathcal{H}\) 中)。
- (A3) 白化设计:设置 \(z_i = \Sigma^{-1/2}x_i\)。假设 \(z_i\) 满足 凸浓度性质:存在常数 \(c_1, c_2>0\),使得对于任意 1-Lipschitz 凸函数 \(f: \mathbb{R}^\infty \to \mathbb{R}\)(在有限维截断下),有 \(\mathbb{P}(|f(z_i) - \mathbb{E}f(z_i)| > t) \le c_1 e^{-c_2 t^2}\)。此外,\(\mathbb{E}[z_i]=0\),\(\mathbb{E}[z_i z_i^\top] = I\)。
- (A4) 谱正则性(用于非渐近界):存在 \(\tau > 0\),使得 \(\Sigma\) 的最小特征值 \(\lambda_{\min}(\Sigma) \ge \tau > 0\)。对于无穷维情形,这意味着 \(\Sigma\) 有正下界(否则平行空间退化);文章指出该条件可适当放松为对指定阈值以下的谱做截断。
相比已有文献(如 Hastie et al. 2019):(A3) 用凸浓度替代了独立正态 or 次高斯设计,极大地扩展了适用范围,且不要求设计矩阵的列数有限。相比比例渐近工作(如 El Karoui 2018),这里不再要求 \(p/n\to\gamma\),而是允许任意维度(包括 \(p=\infty\))。相比 Celentano-Montanari 2020 的 Lasso 分析,这里聚焦 ridge,且采用乘法逼近而非加法。
主要结果¶
定理 1(非渐近乘法逼近):在假设 (A1)-(A4) 下,存在依赖于 \(c_1,c_2,\tau\) 的常数 \(C>0\),使得对于任意 \(\lambda > 0\) 和任意 \(\delta \in (0,1)\),以至少 \(1-2e^{-c_2 n \delta^2/C}\) 的概率有
其中
而 \(\text{Bias}_{\text{seq}}(\lambda)\) 和 \(\text{Var}_{\text{seq}}(\lambda)\) 定义于一个“等价序列模型”:其协变量为独立同分布的标准正态标量,协方差结构由 \(\Sigma\) 的特征值复制而得。该界与维度 \(p\) 无关,仅取决于谱的迹和最小特征值。
直觉:当 \(n\) 增加时,\(\Delta \to 0\),逼近越来越精确。如果 \(\text{tr}(\Sigma^2)/\lambda_{\min}^2\) 很大(即谱分散),则需要更大 \(n\) 才能实现同样精度。这与直觉一致——设计矩阵的条件数越差,有限样本影响越大。
定理 2(正则衰减谱下的显式刻画):假设 \(\Sigma\) 的特征值满足 \(\lambda_j \asymp j^{-\alpha}\)(\(\alpha>1\)),即正则衰减谱。则定理 1 中的 \(\text{Bias}_{\text{seq}}\) 和 \(\text{Var}_{\text{seq}}\) 可以显式计算为关于 \(n\) 和 \(\lambda\) 的级数,进而过剩风险 \(\mathcal{R}(\lambda)\) 有显式阶:
这并直接应用于函数型数据分析中的 ridge 回归(如函数线性模型)。
定理 3(过参数化近插值的良性过拟合):令 \(\lambda = \lambda_n \to 0\),且 \(p_n \to \infty\)(或无穷维)。若
则过剩风险 \(\mathcal{R}(\lambda) \to 0\)。这两个条件直接来源于定理 1 中 \(\Delta\) 的表达式,并刻画了“有效秩”与样本量的关系——与 Bartlett et al. (2020) 的结论一致,但推导框架更统一且可处理无穷维。
证明路线与技术技巧¶
整体路线(3-5 步逻辑主干):
- 谱分解与旋转:将原始设计 \(x_i\) 旋转到 \(\Sigma\) 的特征基下,使问题转化为具有对角协方差矩阵 \(D = \text{diag}(\lambda_1,\dots)\) 的模型,但白化设计 \(z_i\) 不再保持坐标独立(仅满足凸浓度)。这一步不损失信息,因为风险在旋转下不变。
- 表述偏差与方差的算子形式:利用 ridge 估计的显式解,写出:
\[\mathbb{E}[\widehat{\beta}(\lambda)] - \beta = -\lambda (\widehat{\Sigma} + \lambda I)^{-1} \beta,\]\[\text{Cov}(\widehat{\beta}(\lambda)) = \sigma^2 (\widehat{\Sigma} + \lambda I)^{-1} \widehat{\Sigma} (\widehat{\Sigma} + \lambda I)^{-1}.\]故 Bias 和 Var 可写成关于样本协方差 \(\widehat{\Sigma}\) 的算子函数的迹:\(\text{Bias}(\lambda) = \lambda^2 \beta^\top \Sigma^{1/2} (\widehat{\Sigma} + \lambda I)^{-2} \Sigma^{1/2} \beta\),\(\text{Var}(\lambda) = \sigma^2 \text{tr} [\Sigma (\widehat{\Sigma} + \lambda I)^{-1} \widehat{\Sigma} (\widehat{\Sigma} + \lambda I)^{-1}]\)。
- 用 resolvent 逼近:引入样本协方差的 resolvent \(R(z) = (\widehat{\Sigma} - z I)^{-1}\),再通过迹形表达将上述量转化为关于 \(R(z)\) 的积分(沿适当 contour)。典型技巧:\(\frac{1}{(\widehat{\Sigma}+\lambda I)^2} = \int_{\gamma} (\widehat{\Sigma} - z I)^{-1} w(z) dz\)。
- 确定性等价 + 凸浓度控制:利用凸浓度性质和局部律方法,证明随机矩阵 \(R(z)\) 在迹的意义下以高概率接近一个确定性矩阵(由 \(\Sigma\) 和 \(z\) 的矩决定)。具体而言,对任意向量 \(u\),量 \(u^\top (R(z) - M(z)) u\) 以高概率小,其中 \(M(z)\) 是 Stieltjes 变换在谱分布下的解。本文的关键创新在于:由于只涉及迹而非单个方向的二次型,可以用更简单的集中不等式(而非复杂的局部律),从而得到维度无关的界。
- 序列模型替换:将确定性等价中的 \(\Sigma\) 替换为一个对角设计(保持特征值不变,将 \(z_i\) 的独立坐标替代为独立同分布正态),就得到序列模型的偏差和方差。上述卷积-积分运算在迹下乘性误差可控,最终得到 \((1\pm\Delta)\) 的界。
关键跳跃点:
- 从加法逼近跨越到乘法逼近:以往工作只证明 \(|\text{Bias}(\lambda) - \text{Bias}_{\text{seq}}(\lambda)| = O(\text{small})\),这在 \(\text{Bias}\) 很小时无法区分相对误差。本文巧妙地证明了比值的集中性,这要求同时控制分母的下界(即序列模型偏差和方差不能太小)。通过对谱分布下界的假设 (A4) 和正则项 \(\lambda\) 的正性,确保分母远离 0,从而比率可逆。
- 凸浓度性质在算子函数迹上的应用:传统局部律需要控制整个 resolvent 的矩阵元素。这里只需要控制 \(v^\top R(z) \Sigma R(z) v\) 等标量量,且 \(v\) 是 \(\beta\) 或单位向量。利用 Hanson-Wright 型不等式的泛函版本(对凸 Lipschitz 函数成立),可直接导出高概率界,无需对 \(p\) 固定。
技术技巧点名:
- 凸浓度不等式(Boucheron, Lugosi, Massart 的教科书约定):用于控制随机向量 \(z_i\) 的任意 Lipschitz 凸函数。
- 迹的积分表示与 Cauchy 积分:将有理函数转换为 resolvent 的积分,再交换积分与期望。
- leave-one-out / 八边形技巧(可能用于得到更紧的界,但本文主要使用凸浓度,所以该技巧可能是辅助的)。
- 容斥原理 / 奇偶分解(在序列模型计算中):将等价序列模型中的高阶矩展开为图论和式。
真实例子与应用¶
本文为纯理论,未包含真实数据例子。但作者在应用节(定理 2、3)中给出了两类理论例子:
- 正则衰减谱(函数型数据场景):证明过剩风险的收敛速度可以精确计算,并与核 ridge 回归的经典结果(如 Caponnetto & De Vito, 2007)取得一致。这验证了方法在无穷维下的适用性。
- 过参数化近插值:构造性地展示了当谱衰减足够快时,最小范数插值器(\(\lambda=0\))仍可达到良性过拟合。这统一解释了 Bartlett et al. (2020) 中有效秩条件与本文乘法逼近的等价性。
🔎 结论是否比证明窄¶
据摘要暗示,定理 1 的证明要求 \(\lambda_{\min}(\Sigma) \ge \tau > 0\)。但文中在良性过拟合讨论中(定理 3)允许 \(\lambda_k \to 0\) 但 \(\lambda_{\min}\) 可能为 0(无穷维)。这两个设定之间存在缺口:定理 1 的乘法界在有下界时成立,而定理 3 中的界主要通过 \(\Delta \to 0\) 时风险趋零的传播。原文可能处理了这种情况:先对正则化的 \(\Sigma + \eta I\) 使用定理 1,再让 \(\eta\to 0\) 极限,但需额外一致界条件。这是一个值得核验的技术细节——需要阅读原文的推理是否提供了这种统一性,还是定理 3 实际上使用了不同于定理 1 的技术。
四、开放问题¶
-
非正定协方差(复共轭)的推广:本文要求 \(\Sigma\) 正定。若 \(\Sigma\) 奇异(如特征映射导致半正定),乘法逼近的分母可能为零或任意小,比率失控。能否通过增加“惩罚参数 \(\lambda\) 相对于最小非零特征值”来获得类似乘法界?(扎根点:假设 (A4) \(\lambda_{\min}\ge\tau\) 在奇异时失效。)
-
惩罚项改为 ℓ₁ 或弹性网络:本文的技术高度依赖 ℓ₂ 罚的闭合解(resolvent 形式)。对于 Lasso 或 Elastic Net,能否得到类似的乘法逼近?Celentano-Montanari-Wei (2020) 对 Lasso 得到了加法分布近似,但乘法逼近需要新的确定性等价(可能涉及软阈值算子而非 resolvent)。(扎根点:文中仅处理 ridge,未提及其他罚,但引用了 Celentano-Montanari-Wei 2020 说明 Lasso 的加法结果。)
-
近似误差的高阶展开:文中 Δ 的显式阶主要来自第一项。能否推导出二阶项(如 \(1+\Delta + O(\Delta^2)\))并验证其精确性?这可能涉及对凸浓度性质的“离差”的更高阶矩控制。(扎根点:文中给出 Δ 的显式表达式但未提更高阶项是否消失。)
-
从线性模型到广义线性模型(GLM):本文的框架能否扩展到非平方损失(如 logistic 回归)?此时估计量无闭合形式,但可近似为 ℓ₂ 罚 M 估计。Karoui (2018) 在比例渐近下处理过类似问题,但维度无关的乘法逼近尚未出现。(扎根点:作者在 intro 可能提及此未完成项;若没有,则从文献张力中识别。)
-
相关与被淡化路线:文中未引用关于核 ridge 回归的近期非渐近工作(e.g., 通过倒频谱分析或用有效维数论证),这可能是一个 gap。核 ridge 回归等价于将特征映射到 RKHS 中,再施加 ℓ₂ 罚;本文的结果正好适用于该 RKHS 内的情况(特征值为核谱)。故直接对接即可,但论文未做。这为后续工作提供了明确入口。
Maintained by 陈星宇 · Homepage · Source on GitHub