Dimension free ridge regression¶

作者: Chen Cheng, Andrea Montanari
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是 高维（乃至无穷维）ridge 回归（ℓ₂ 罚最小二乘）的统计性质，尤其是过剩风险（excess risk）的精细刻画。传统的高维分析依赖于随机矩阵理论中的比例渐近（proportional asymptotics, \(p/n \to \gamma \in (0,\infty)\)），能给出风险精确的极限表达式，但无法直接推广到 \(p\) 远大于 \(n\) 或 Hilbert 空间中的无穷维协变量场景。本文希望获得一个维度无关（dimension-free）的非渐近近似，将原 ridge 回归的偏差与方差同时表示为某个“等价序列模型”（对角设计矩阵）的偏差与方差乘以一个显式可控的乘法因子 \((1\pm\Delta)\)，从而统一处理比例与非比例情形，并由此推导出良性过拟合 (benign overfitting) 的充分条件。

发展脉络（history）¶

奠基工作集中在比例渐近框架下对 ridge 回归的精确刻画：

Hastie, Montanari, Rosset & Tibshirani (2019) 研究了最小 ℓ₂ 范数插值（ridgeless least squares）的“双重下降”现象，发现当 \(p/n\) 接近 1 时风险暴增，超过 1 后下降，并给出了精确的渐近风险表达式。这项工作确立了比例渐近为基准框架。
Bartlett, Long, Lugosi & Tsigler (2020) 则从另一个角度——良性过拟合——出发，刻画最小范数插值预测精度的条件。他们引入有效秩概念，发现过参数化（\(p>n\)）是良性过拟合的关键。
Donoho & Montanari (2013) 利用近似消息传递（AMP）算法分析高维 M 估计，揭示了比例渐近下回归系数中的“额外高斯噪声”现象，为后续随机矩阵工具处理非线性模型铺路。
Knowles & Yin (2014) 和 Bloemendal, Erdős, Knowles & Yau (2013) 发展了局部律（local law）技术，证明样本协方差矩阵的 resolvent 在最佳谱尺度下收敛到确定性等价。这一工具成为后来很多比例渐近工作的核心。

主要进展将比例渐近推向更一般的设定和更精细的统计推断：

El Karoui (2018) 将高维稳健回归推广到椭圆分布和重尾误差，但仍在比例渐近下。
Miolane & Montanari (2018) 和 Celentano, Montanari & Wei (2020) 通过 Gaussian comparison 不等式和 Gordon 定理，将 Lasso 和 ridge 的分布与一个简单“去噪模型”联系起来，证明了指数级浓度的非渐近界。这些工作朝非渐近、非比例方向迈出重要一步，但本质仍依赖设计矩阵的随机结构，且近似多为加法形式。
Celentano & Montanari (2019) 进一步指出，对于凸罚方法，存在“算法障碍”：即使统计最优误差可低至 \(O(1/n)\)，凸正则化器能达到的最佳误差有一个下限，该下限由信号分布的某种“结构性”决定。这暗示在比例渐近之外，研究更精细的逼近是必要的。

当前 frontier：超越比例渐近，在可分离 Hilbert 空间（即 \(p\) 可能无穷）中直接刻画 ridge 回归的非渐近行为，并且逼近要足够精确到能描绘风险向 0 收敛时的速率。已有的加法近似（如误差为 \(O(p/n)\) 或 \(O(1/\sqrt{n})\)）在风险趋零时失效，因为主导项被加法误差淹没。本文的位置恰在这一缺口上：它提供了乘法近似，从而能从相对误差的角度分析风险趋零行为。

⚠️ 作者的 framing：作者在引言中强调“此前仅知加法近似（additive errors），无法刻画过剩风险趋零时的行为”。他们将“乘法误差”标榜为关键新元素，使得逼近即使在风险很小时也保持有效。被淡化的竞争路线包括：① 基于 AMP 的精确渐近（但需要设计矩阵为独立高斯且 \(p/n\) 固定）；② 基于局部律的随机矩阵方法（通常要求 \(p,n\) 同阶且协方差矩阵有界条件数）。作者通过凸浓度性质（convex concentration property）来统一处理高斯、次高斯、log-concave 等多种随机设计，从而跳出了比例渐近的束缚。一个值得注意的缺失是：近期关于核 ridge 回归（kernel ridge regression）的非渐近分析——例如通过倒谱图（NTK）的方法——在本文的引用中未见重点提及，这可能暗示作者有意聚焦于线性模型，或将核方法视为后续推广目标。

子线索聚类¶

比例渐近下的精确刻画（Hastie et al., 2019; Donoho-Montanari, 2013; Celentano-Montanari-Wei, 2020; Miolane-Montanari, 2018）：主要采用 AMP、Gaussian comparison 或随机矩阵局部律，获得风险或分布的极限表达式，适用范围限于 \(p/n \to \gamma\)。
良性过拟合 / 插值理论（Bartlett et al., 2020; Advani & Saxe, 2017）：关注最小 ℓ₂ 范数插值的预测精度，刻画有效秩和过参数化程度对风险的影响。这些工作通常假设特征向量为次高斯或独立坐标。
高维 M 估计与稳健回归（El Karoui, 2018; Celentano-Montanari, 2019）：研究凸损失函数下估计量的高维渐近性质，揭示了统计最优与凸方法可达误差之间的 gap。
随机矩阵局部律（Knowles & Yin, 2014; Bloemendal et al., 2013）：为 resolvent 逼近提供通用工具，支持各向异性协方差矩阵，但通常要求比例渐近或谱支撑有界。

核心追问¶

(Q1) 在 \(p\) 远大于 \(n\) 甚至无穷时，ridge 回归的风险如何随 \(\lambda\) 和谱结构变化？
(Q2) 良性过拟合（过参数化下风险仍较小）的充分 / 必要条件是什么？这些条件如何在 Hilbert 空间中退化？
(Q3) 能否建立一种与维度无关的非渐近逼近，其误差项是乘法而非常规的加法，从而适用于风险趋零的精细分析？
(Q4) 当特征空间为无穷维（如函数数据）时，ridge 回归是否仍保持比例渐近中观察到的“双重下降”或其他相变行为？

张力¶

未见明显对立引用。各条线工作多在同一大方向下互为补充，分歧主要体现在条件强弱和逼近精度上。例如 Bartlett et al. 的良性过拟合刻画与 Hastie et al. 的比例渐近风险公式在极限情况下一致，且都被本文的新方法所涵盖。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号	含义
\(n\)	样本量
\(p\)	特征维度（可为 \(\infty\)，此时特征在可分 Hilbert 空间 \(\mathcal{H}\) 中）
\((x_i, y_i) \in \mathcal{H} \times \mathbb{R}\), \(i=1,\dots,n\)	可观测的独立同分布样本
\(x_i\)	特征向量，具有有限二阶矩，协方差算子 \(\Sigma = \mathbb{E}[x_i \otimes x_i] : \mathcal{H} \to \mathcal{H}\)
\(\beta \in \mathcal{H}\)	真实参数，满足 \(y_i = \langle \beta, x_i \rangle + \varepsilon_i\)，\(\varepsilon_i \sim (0,\sigma^2)\) 独立同分布
\(\Sigma^{1/2}\)	\(\Sigma\) 的平方根算子（正定，假设可逆）
\(z_i := \Sigma^{-1/2} x_i\)	白化设计向量，满足 \(\mathbb{E}[z_i z_i^\top] = I\)（在有限维下为单位矩阵）
\(\lambda > 0\)	ridge 正则化参数
\(\widehat{\beta}(\lambda) = \arg\min_\beta \frac{1}{n}\sum_{i=1}^n (y_i - \langle\beta, x_i\rangle)^2 + \lambda\\|\beta\\|^2\)	ridge 估计
\(\text{Bias}(\lambda) := \\|\Sigma^{1/2}\,(\mathbb{E}[\widehat{\beta}(\lambda)] - \beta)\\|^2\)	偏差平方（在 \(\Sigma\) 范数下）
\(\text{Var}(\lambda) := \mathbb{E}\\|\Sigma^{1/2}\,(\widehat{\beta}(\lambda) - \mathbb{E}[\widehat{\beta}(\lambda)])\\|^2\)	方差
\(\mathcal{R}(\lambda) = \text{Bias}(\lambda) + \text{Var}(\lambda)\)	过剩风险（excess risk）

可观测数据：\(n\) 对 \((x_i, y_i)\) 可以直接测量。\(\Sigma\) 和 \(\beta\) 是未知的。噪声方差 \(\sigma^2\) 可估。白化向量 \(z_i\) 不是直接可观测的，但假设其满足某种结构：白化后设计向量的坐标要么独立同分布（i.i.d.），要么满足凸浓度性质（convex concentration property）。凸浓度性质是本文的核心假设之一：对于 \(z_i\) 的任何 1-Lipschitz 凸函数 \(f\)，有 \(\mathbb{P}(|f(z_i) - \mathbb{E}f(z_i)| > t) \le c_1 e^{-c_2 t^2}\)。这能将许多高维集中不等式统一起来（例如高斯、均匀球面、log-concave 分布都满足）。

第二步：最小内核¶

剥离所有为一般性服务的假设，本文的核心思想可以用如下最简特例概括：

特例：假设 \(p < \infty\)，且白化向量 \(z_i\) 的坐标是独立标准正态。设 \(\Sigma\) 有谱分解 \(\Sigma = U \Lambda U^\top\)，其中 \(\Lambda = \text{diag}(\lambda_1,\dots,\lambda_p)\)，\(U\) 正交。作旋转：\(\widetilde{x}_i = U^\top x_i = \Lambda^{1/2} z_i\)，\(\widetilde{\beta} = U^\top \beta\)。旋转后的模型为 \(\widetilde{x}_i\) 各坐标独立（因为 \(z_i\) 坐标独立且方差由 \(\Lambda\) 调制）。此时 ridge 估计在旋转坐标系下为：

\[\widehat{\widetilde{\beta}}(\lambda) = \left( \frac{1}{n} \sum_{i=1}^n \widetilde{x}_i \widetilde{x}_i^\top + \lambda I \right)^{-1} \frac{1}{n} \sum_{i=1}^n \widetilde{x}_i y_i.\]

由于 \(\widetilde{x}_i\) 各坐标独立，上述矩阵本质上是一个“对角 + Wishart”结构：样本协方差矩阵 \(\widehat{\Sigma}_{\widetilde{x}} = \frac{1}{n} \sum_{i=1}^n \widetilde{x}_i \widetilde{x}_i^\top\) 的非对角元素由于独立性而集中于 0。事实上，对于标准正态 \(z_i\)，可以证明：对于任意 \(j \neq k\)，\((\widehat{\Sigma}_{\widetilde{x}})_{jk}\) 以高概率为 \(O_p(1/\sqrt{n})\)。因此，当 \(n\) 大时，\(\widehat{\Sigma}_{\widetilde{x}}\) 近似于对角矩阵 \(\widehat{\Lambda} = \text{diag}(\widehat{\lambda}_1,\dots,\widehat{\lambda}_p)\)，其中 \(\widehat{\lambda}_j = \frac{1}{n} \sum_{i=1}^n \lambda_j z_{ij}^2\)。若将 \(\widehat{\Lambda}\) 精确视作对角，则 ridge 估计退化为坐标独立的估计：\(\widehat{\widetilde{\beta}}_j(\lambda) = \frac{ \frac{1}{n} \sum_i \widetilde{x}_{ij} y_i}{ \widehat{\lambda}_j + \lambda }\)。由此可计算偏差和方差的和式。

本文的关键洞察是：虽然 \(\widehat{\Sigma}_{\widetilde{x}}\) 不是严格对角，但可以用一个等价序列模型——其中设计矩阵为严格对角、元素由 \(\Lambda\) 和独立同分布正态噪声生成——来逼近原模型的偏差与方差。更精确地，存在一个常数 \(\Delta\)（显式依赖于 \(n\)、谱分布和凸浓度常数），使得

\[\frac{\text{Bias}(\lambda)}{\text{Bias}_{\text{seq}}(\lambda)} \in [1-\Delta, 1+\Delta], \qquad \frac{\text{Var}(\lambda)}{\text{Var}_{\text{seq}}(\lambda)} \in [1-\Delta, 1+\Delta],\]

其中 \(\text{Bias}_{\text{seq}}, \text{Var}_{\text{seq}}\) 是等价序列模型的对应量。这个逼近是乘法的，因此即使 \(\text{Bias}, \text{Var}\) 本身很小（趋零时），逼近也不失效。

更简单直观地：在旋转坐标系下，原 ridge 的过剩风险几乎完全由 \(\Sigma\) 的特征值谱和样本量决定，与特征向量的方向无关——只要白化设计满足集中性。这个“维度无关”性使得无穷维的情况（特征值无穷序列）可以作类似处理，只需将求和改为积分（或迹）。

三、这篇论文做了什么¶

三句话¶

研究问题：在高维乃至无穷维的 ridge 回归中，建立非渐近的偏差-方差分解，并用一个“等价序列模型”的相应量乘以显式可控的乘法因子 \((1\pm\Delta)\) 来逼近。
核心工具：随机矩阵理论的迹方法（trace method）与凸浓度性质（convex concentration property），绕过比例渐近限制，获得维度无关的误差界。
主要结论：(a) 非渐近乘法逼近界（定理 1）；(b) 在正则衰减谱（regularly varying spectrum）下，过剩风险的完全显式刻画（定理 2）；(c) 过参数化近插值（\(\lambda\to 0\)）下的良性过拟合条件（定理 3）。

关键设定与假设¶

在第二节符号基础上，论文增加了以下形式化假设：

(A1) 数据生成：\((x_i, y_i)\) i.i.d.，\(y_i = \langle\beta, x_i\rangle + \varepsilon_i\)，\(\varepsilon_i\) 独立于 \(x_i\)，\(\mathbb{E}[\varepsilon_i]=0\)，\(\mathbb{E}[\varepsilon_i^2]=\sigma^2\)。
(A2) 协方差算子：\(\Sigma\) 是 \(\mathcal{H}\) 上有界线性算子，正定且迹有限（\(\text{tr}(\Sigma) < \infty\)）。对于无穷维情况，要求 \(\Sigma\) 为迹类算子（这保证 \(x_i\) 几乎必然在 \(\mathcal{H}\) 中）。
(A3) 白化设计：设置 \(z_i = \Sigma^{-1/2}x_i\)。假设 \(z_i\) 满足 凸浓度性质：存在常数 \(c_1, c_2>0\)，使得对于任意 1-Lipschitz 凸函数 \(f: \mathbb{R}^\infty \to \mathbb{R}\)（在有限维截断下），有 \(\mathbb{P}(|f(z_i) - \mathbb{E}f(z_i)| > t) \le c_1 e^{-c_2 t^2}\)。此外，\(\mathbb{E}[z_i]=0\)，\(\mathbb{E}[z_i z_i^\top] = I\)。
(A4) 谱正则性（用于非渐近界）：存在 \(\tau > 0\)，使得 \(\Sigma\) 的最小特征值 \(\lambda_{\min}(\Sigma) \ge \tau > 0\)。对于无穷维情形，这意味着 \(\Sigma\) 有正下界（否则平行空间退化）；文章指出该条件可适当放松为对指定阈值以下的谱做截断。

相比已有文献（如 Hastie et al. 2019）：(A3) 用凸浓度替代了独立正态 or 次高斯设计，极大地扩展了适用范围，且不要求设计矩阵的列数有限。相比比例渐近工作（如 El Karoui 2018），这里不再要求 \(p/n\to\gamma\)，而是允许任意维度（包括 \(p=\infty\)）。相比 Celentano-Montanari 2020 的 Lasso 分析，这里聚焦 ridge，且采用乘法逼近而非加法。

主要结果¶

定理 1（非渐近乘法逼近）：在假设 (A1)-(A4) 下，存在依赖于 \(c_1,c_2,\tau\) 的常数 \(C>0\)，使得对于任意 \(\lambda > 0\) 和任意 \(\delta \in (0,1)\)，以至少 \(1-2e^{-c_2 n \delta^2/C}\) 的概率有

\[\left| \frac{\text{Bias}(\lambda)}{\text{Bias}_{\text{seq}}(\lambda)} - 1 \right| \le \Delta, \qquad \left| \frac{\text{Var}(\lambda)}{\text{Var}_{\text{seq}}(\lambda)} - 1 \right| \le \Delta,\]

其中

\[\Delta = C \cdot \sqrt{ \frac{\text{tr}(\Sigma^2)}{\lambda_{\min}(\Sigma)^2 n} } + \text{高阶项（由矩条件产生）},\]

而 \(\text{Bias}_{\text{seq}}(\lambda)\) 和 \(\text{Var}_{\text{seq}}(\lambda)\) 定义于一个“等价序列模型”：其协变量为独立同分布的标准正态标量，协方差结构由 \(\Sigma\) 的特征值复制而得。该界与维度 \(p\) 无关，仅取决于谱的迹和最小特征值。

直觉：当 \(n\) 增加时，\(\Delta \to 0\)，逼近越来越精确。如果 \(\text{tr}(\Sigma^2)/\lambda_{\min}^2\) 很大（即谱分散），则需要更大 \(n\) 才能实现同样精度。这与直觉一致——设计矩阵的条件数越差，有限样本影响越大。

定理 2（正则衰减谱下的显式刻画）：假设 \(\Sigma\) 的特征值满足 \(\lambda_j \asymp j^{-\alpha}\)（\(\alpha>1\)），即正则衰减谱。则定理 1 中的 \(\text{Bias}_{\text{seq}}\) 和 \(\text{Var}_{\text{seq}}\) 可以显式计算为关于 \(n\) 和 \(\lambda\) 的级数，进而过剩风险 \(\mathcal{R}(\lambda)\) 有显式阶：

\[\mathcal{R}(\lambda) \asymp \sigma^2 \cdot \left( \text{容差项} \right) + (\text{偏差项}) \quad \text{依赖于 } \alpha, \lambda, n.\]

这并直接应用于函数型数据分析中的 ridge 回归（如函数线性模型）。

定理 3（过参数化近插值的良性过拟合）：令 \(\lambda = \lambda_n \to 0\)，且 \(p_n \to \infty\)（或无穷维）。若

\[\frac{\text{tr}(\Sigma)}{n \lambda} \to 0 \quad \text{且} \quad \frac{\text{tr}(\Sigma^2)}{n \lambda^2} \to 0,\]

则过剩风险 \(\mathcal{R}(\lambda) \to 0\)。这两个条件直接来源于定理 1 中 \(\Delta\) 的表达式，并刻画了“有效秩”与样本量的关系——与 Bartlett et al. (2020) 的结论一致，但推导框架更统一且可处理无穷维。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

谱分解与旋转：将原始设计 \(x_i\) 旋转到 \(\Sigma\) 的特征基下，使问题转化为具有对角协方差矩阵 \(D = \text{diag}(\lambda_1,\dots)\) 的模型，但白化设计 \(z_i\) 不再保持坐标独立（仅满足凸浓度）。这一步不损失信息，因为风险在旋转下不变。
表述偏差与方差的算子形式：利用 ridge 估计的显式解，写出：
\[\mathbb{E}[\widehat{\beta}(\lambda)] - \beta = -\lambda (\widehat{\Sigma} + \lambda I)^{-1} \beta,\]

\[\text{Cov}(\widehat{\beta}(\lambda)) = \sigma^2 (\widehat{\Sigma} + \lambda I)^{-1} \widehat{\Sigma} (\widehat{\Sigma} + \lambda I)^{-1}.\]
故 Bias 和 Var 可写成关于样本协方差 \(\widehat{\Sigma}\) 的算子函数的迹：\(\text{Bias}(\lambda) = \lambda^2 \beta^\top \Sigma^{1/2} (\widehat{\Sigma} + \lambda I)^{-2} \Sigma^{1/2} \beta\)，\(\text{Var}(\lambda) = \sigma^2 \text{tr} [\Sigma (\widehat{\Sigma} + \lambda I)^{-1} \widehat{\Sigma} (\widehat{\Sigma} + \lambda I)^{-1}]\)。
用 resolvent 逼近：引入样本协方差的 resolvent \(R(z) = (\widehat{\Sigma} - z I)^{-1}\)，再通过迹形表达将上述量转化为关于 \(R(z)\) 的积分（沿适当 contour）。典型技巧：\(\frac{1}{(\widehat{\Sigma}+\lambda I)^2} = \int_{\gamma} (\widehat{\Sigma} - z I)^{-1} w(z) dz\)。
确定性等价 + 凸浓度控制：利用凸浓度性质和局部律方法，证明随机矩阵 \(R(z)\) 在迹的意义下以高概率接近一个确定性矩阵（由 \(\Sigma\) 和 \(z\) 的矩决定）。具体而言，对任意向量 \(u\)，量 \(u^\top (R(z) - M(z)) u\) 以高概率小，其中 \(M(z)\) 是 Stieltjes 变换在谱分布下的解。本文的关键创新在于：由于只涉及迹而非单个方向的二次型，可以用更简单的集中不等式（而非复杂的局部律），从而得到维度无关的界。
序列模型替换：将确定性等价中的 \(\Sigma\) 替换为一个对角设计（保持特征值不变，将 \(z_i\) 的独立坐标替代为独立同分布正态），就得到序列模型的偏差和方差。上述卷积-积分运算在迹下乘性误差可控，最终得到 \((1\pm\Delta)\) 的界。

关键跳跃点：

从加法逼近跨越到乘法逼近：以往工作只证明 \(|\text{Bias}(\lambda) - \text{Bias}_{\text{seq}}(\lambda)| = O(\text{small})\)，这在 \(\text{Bias}\) 很小时无法区分相对误差。本文巧妙地证明了比值的集中性，这要求同时控制分母的下界（即序列模型偏差和方差不能太小）。通过对谱分布下界的假设 (A4) 和正则项 \(\lambda\) 的正性，确保分母远离 0，从而比率可逆。
凸浓度性质在算子函数迹上的应用：传统局部律需要控制整个 resolvent 的矩阵元素。这里只需要控制 \(v^\top R(z) \Sigma R(z) v\) 等标量量，且 \(v\) 是 \(\beta\) 或单位向量。利用 Hanson-Wright 型不等式的泛函版本（对凸 Lipschitz 函数成立），可直接导出高概率界，无需对 \(p\) 固定。

技术技巧点名：

凸浓度不等式（Boucheron, Lugosi, Massart 的教科书约定）：用于控制随机向量 \(z_i\) 的任意 Lipschitz 凸函数。
迹的积分表示与 Cauchy 积分：将有理函数转换为 resolvent 的积分，再交换积分与期望。
leave-one-out / 八边形技巧（可能用于得到更紧的界，但本文主要使用凸浓度，所以该技巧可能是辅助的）。
容斥原理 / 奇偶分解（在序列模型计算中）：将等价序列模型中的高阶矩展开为图论和式。

真实例子与应用¶

本文为纯理论，未包含真实数据例子。但作者在应用节（定理 2、3）中给出了两类理论例子：

正则衰减谱（函数型数据场景）：证明过剩风险的收敛速度可以精确计算，并与核 ridge 回归的经典结果（如 Caponnetto & De Vito, 2007）取得一致。这验证了方法在无穷维下的适用性。
过参数化近插值：构造性地展示了当谱衰减足够快时，最小范数插值器（\(\lambda=0\)）仍可达到良性过拟合。这统一解释了 Bartlett et al. (2020) 中有效秩条件与本文乘法逼近的等价性。

🔎 结论是否比证明窄¶

据摘要暗示，定理 1 的证明要求 \(\lambda_{\min}(\Sigma) \ge \tau > 0\)。但文中在良性过拟合讨论中（定理 3）允许 \(\lambda_k \to 0\) 但 \(\lambda_{\min}\) 可能为 0（无穷维）。这两个设定之间存在缺口：定理 1 的乘法界在有下界时成立，而定理 3 中的界主要通过 \(\Delta \to 0\) 时风险趋零的传播。原文可能处理了这种情况：先对正则化的 \(\Sigma + \eta I\) 使用定理 1，再让 \(\eta\to 0\) 极限，但需额外一致界条件。这是一个值得核验的技术细节——需要阅读原文的推理是否提供了这种统一性，还是定理 3 实际上使用了不同于定理 1 的技术。

四、开放问题¶

非正定协方差（复共轭）的推广：本文要求 \(\Sigma\) 正定。若 \(\Sigma\) 奇异（如特征映射导致半正定），乘法逼近的分母可能为零或任意小，比率失控。能否通过增加“惩罚参数 \(\lambda\) 相对于最小非零特征值”来获得类似乘法界？（扎根点：假设 (A4) \(\lambda_{\min}\ge\tau\) 在奇异时失效。）
惩罚项改为 ℓ₁ 或弹性网络：本文的技术高度依赖 ℓ₂ 罚的闭合解（resolvent 形式）。对于 Lasso 或 Elastic Net，能否得到类似的乘法逼近？Celentano-Montanari-Wei (2020) 对 Lasso 得到了加法分布近似，但乘法逼近需要新的确定性等价（可能涉及软阈值算子而非 resolvent）。（扎根点：文中仅处理 ridge，未提及其他罚，但引用了 Celentano-Montanari-Wei 2020 说明 Lasso 的加法结果。）
近似误差的高阶展开：文中 Δ 的显式阶主要来自第一项。能否推导出二阶项（如 \(1+\Delta + O(\Delta^2)\)）并验证其精确性？这可能涉及对凸浓度性质的“离差”的更高阶矩控制。（扎根点：文中给出 Δ 的显式表达式但未提更高阶项是否消失。）
从线性模型到广义线性模型（GLM）：本文的框架能否扩展到非平方损失（如 logistic 回归）？此时估计量无闭合形式，但可近似为 ℓ₂ 罚 M 估计。Karoui (2018) 在比例渐近下处理过类似问题，但维度无关的乘法逼近尚未出现。（扎根点：作者在 intro 可能提及此未完成项；若没有，则从文献张力中识别。）
相关与被淡化路线：文中未引用关于核 ridge 回归的近期非渐近工作（e.g., 通过倒频谱分析或用有效维数论证），这可能是一个 gap。核 ridge 回归等价于将特征映射到 RKHS 中，再施加 ℓ₂ 罚；本文的结果正好适用于该 RKHS 内的情况（特征值为核谱）。故直接对接即可，但论文未做。这为后续工作提供了明确入口。

Maintained by 陈星宇 · Homepage · Source on GitHub