Asymptotic Theory for Linear Functionals of Kernel Ridge Regression¶
作者: Rui Tuo, Lu Zou
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的子方向是:在 Reproducing Kernel Hilbert Space (RKHS) 与非参数回归的交叉框架下,线性泛函(如函数值的点估计、导数、L2 内积)的估计理论。核心问题是:对于一个核岭回归 (KRR) 估计量 \(\hat f_\lambda\),其线性泛函 \(L(\hat f_\lambda)\) 的渐近偏差 – 方差平衡如何?最优正则化参数 \(\lambda\) 的阶数是多少?能否得到渐近正态性以支持推断?
该方向当前处于理论完善期:KRR 作为全局平滑方法,其整体(L2 或 L∞)误差的收敛速率和最优 \(\lambda\) 已是经典结果 (Wahba, 1990; Gu, 2013),但泛函(局部或积分)的渐近性质在 RKHS 框架下尚未得到系统处理——这正是本文要填补的口子。
发展脉络(基于已知文献 + 摘要推断,因用户未提供完整 intro 与参考文献列表,以下引用以经典工作与摘要暗示的典型文献为准)¶
- 奠基工作
- Wahba (1990) / Gu (2013):平滑样条与 KRR 的 Bayesian 解释和 GCV 选 \(\lambda\) 方法。建立了 L2 误差的最优率 \(\lambda \sim n^{-2m/(2m+d)}\) 及渐近正态性(对于积分平方误差的某些泛函)。
-
Aronszajn (1950):RKHS 理论,为 KRR 提供了函数空间的泛函分析基础。
-
主要进展
- Stone (1982) 等:局部多项式回归的局部泛函(点号、导数)的渐近正态性与最优带宽,但该框架不直接适用于 KRR 的全局平滑。
- Green & Silverman (1994):平滑样条的逐点置信区间和带宽选择,但未系统处理一般线性泛函。
-
Caponnetto & De Vito (2007):KRR 的一般性学习率,在源条件(source condition)下给出了极小极大最优率,但主要针对 L2 误差。
-
当前 frontier
- Fischer & Steinwart (2020) 等:KRR 的 pointwise 收敛速率,但依赖点处函数的局部性质,未解决最坏情况偏差下的最优 \(\lambda\)。
-
Szekely & Rizzo (2013) 等:距离协方差等内积型泛函的估计,但未涉及正则化参数选择。
-
本文的位置
本文首次在Sobolev-等价 RKHS 假设下,完整建立了 KRR 线性泛函的: - 上下界(结果:\(\lambda \sim n^{-1}\) 平衡方差与最坏情况偏差);
- 渐近正态性;
- L∞ 误差的最优 \(\lambda \sim n^{-1} \log n\)。
这些结果直接反驳了一个直觉:即最小化 L2 误差的经典最优 \(\lambda\) 也适用于泛函估计。本文证明了泛函估计需要更小的平滑(更大的 \(\lambda\) 意味着更粗糙的惩罚?注意:\(\lambda \sim n^{-1}\) 相对于 \(n^{-2m/(2m+d)}\) 是更大的还是更小的?当 \(m\) 固定 \(d\) 较大时,\(2m/(2m+d) < 1\),故 \(n^{-1} < n^{-2m/(2m+d)}\),所以实际上 \(\lambda\) 更小,即惩罚更轻,拟合更粗糙。这符合直觉:点估计需要更小的平滑。)
子线索聚类¶
由于摘要只聚焦于 KRR,并未展开多线索,但可区分两条隐含的子方向:
-
线索 A:KRR 整体误差(L2 / 预测风险)的理论
主要文献:Caponnetto & De Vito (2007), Steinwart et al. (2009) 等。研究最优 \(\lambda\) 与 \(n\) 的关系,依赖源条件(Mercer 特征值的衰减)。本文与之对比为:泛函估计的最优 \(\lambda\) 阶数与整体误差不同。 -
线索 B:RKHS 框架下泛函估计的推断理论
本方向之前以贝叶斯方法为主(平滑样条的逐点区间,如 Wahba, 1983; Nychka, 1988),但频率学派的渐近正态性仅在特定泛函(如积分)中有零散结果,缺乏统一分析。本文填补该空白。
核心追问与已知瓶颈¶
-
线性泛函估计的最优平滑参数如何选择?
之前仅对特定泛函有启发式(如逆问题中的 Morozov 偏差原则),无系统理论。 -
泛函估计是否具有渐近正态性?
对于 KRR,其泛函受正则化偏置影响,偏差项可能主导,需要假设“最坏情况偏差”可被估计或平衡。 -
KRR 的 L∞ 最优率是否与泛函估计的 λ 一致?
L∞ 误差是逐点最大值,其最优 λ 是否与点评估的最优 λ 相同?本文给出 \(\lambda \sim n^{-1}\log n\),说明只需额外对数因子。 -
能否将 λ 统一到 \(\sim n^{-1}\) 从而简化调参?
这是一个实用的推论——不再需要针对不同泛函单独搜索 λ。
⚠️ 作者的 framing(推断,因无原文)¶
- 作者述说的缺口:KRR 的 L2 理论已经成熟,但线性泛函(如点值、导数)的渐近分布理论与最优 λ 选择尚属空白,导致实际应用中仍依赖交叉验证或其他启发式。
- 被淡化的竞争路线:
- 局部多项式回归(local polynomial smoothing):可提供点评估的渐近正态和最优带宽(Stone, 1982),但作者可能认为局部方法 vs 全局 KRR 的风格不同,且 KRR 在高维或导数估计上更具优势?不过论文并未明确讨论比较。
-
平滑样条(Smoothing Spline):本身就是 KRR 的特例(当核为 Sobolev 核时),作者未特别区分,可能因一般核下的泛函理论新结果覆盖了它。
-
可能被忽略的文献:
- 关于“泛函”估计在半参数框架下的 Efficient Influence Function 理论 (Bickel et al., 1993; van der Vaart, 1998):KRR 的泛函是否达到半参数效率界?本文未触及,但这是个自然问题。
- 高维或局部正则化参数(如 Lepski’s method)的适应性选择:作者聚焦于最坏情况偏差下的固定 λ 阶,未讨论自适应选择 λ 的可行性。
张力¶
未见明显对立的被引文献。但要注意:若存在其他可得相同最优 λ 的工作(如平滑样条的点评估最优平滑参数也常推荐 \(\sim n^{-1}\),但严格证明可能依赖于附加假设),需要仔细核对。本文可能第一个给出了通用线性泛函的 Worst-case 证。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据¶
设 ξ α = (X_i, Y_i), i=1,…,n, i.i.d. 来自模型:
- \(X_i \in \Omega \subset \mathbb{R}^d\), \(\Omega\) 有界紧集,分布有密度且均匀(简化)。
- \(f_0 \in \mathcal{H}\),其中 \(\mathcal{H}\) 是一个 RKHS,核函数为 \(K: \Omega\times\Omega\to\mathbb{R}\),核再生性质:\(\langle f, K(x,\cdot)\rangle_{\mathcal{H}} = f(x)\)。
- 关键假设:\(\mathcal{H}\) 等价于 Sobolev 空间 \(W^{m,2}(\Omega)\),其中 \(m > d/2\) 保证紧嵌入。这意味着 \(\mathcal{H}\) 中的函数具有 \(m\) 阶弱导数且在 L2 意义下可积;范数等价性成立:存在常数 \(C\) 使得 \(C^{-1} \|f\|_{W^{m,2}} \le \|f\|_{\mathcal{H}} \le C \|f\|_{W^{m,2}}\)。这一假设允许使用 Sobolev 嵌入定理和插值不等式(如 Bramble–Hilbert 引理)。
- KRR 估计量:
- 线性泛函:\(L: \mathcal{H} \to \mathbb{R}\) 是连续线性泛函。例子:
- 点评估:\(L(f) = f(x_0)\);
- 方向导数:\(L(f) = D^v f(x_0)\)(假定光滑度足够);
- L2 内积:\(L(f) = \langle f, g\rangle_{L^2}\),其中 \(g\) 给定且足够光滑。
- 可观测数据:我们只观测到 \((X_i, Y_i)\),\(f_0\) 未知,\(\lambda\) 为待选。要估计 \(L(f_0)\) 并推断其分布。
- 潜在但不可观测:函数 \(f_0\) 本身、残差 \(\varepsilon_i\)、RKHS 范数。
第二步:最小内核特例¶
特例:取 \(d=1\), \(m=2\)(即 Sobolev 空间 \(W^{2,2}\)),核为 三次平滑样条核。这是最经典的 KRR 特例(也称为“平滑样条”)。线性泛函取点评估 \(L(f)=f(0)\)(不妨设 \(0\in\Omega\))。
在这个特例下,问题简化为:
- 可观测:\((X_i,Y_i)\),\(X_i\) 均匀分布在 \([-1,1]\)。
- 目标:估计 \(f_0(0)\) 的渐近偏差、方差和正态性,并找出最优 \(\lambda\)。
经典结果(L2 误差):最小化 \(\int (f - f_0)^2\) 的最优 \(\lambda \sim n^{-4/5}\)(因为 \(2m/(2m+d)=4/5\))。对应 KRR 估计量的全局 MISE 率为 \(n^{-4/5}\)。
但是,对于点评估,偏差和方差的行为不同:
- 偏差:正则化偏差导致 \[\mathbb{E}[\hat f_\lambda(0)] - f_0(0) \approx \lambda \cdot \text{某常系数},\]因为 Sobolev 半范数惩罚将函数向低阶多项式拉。具体可由插值定理:若 \(f_0\) 有界二阶导数,则偏差由 \(\lambda\) 控制。
- 方差:KRR 的点评估方差 \(\approx \frac{\sigma^2}{n} \lambda^{-1/2}\)(因为有效自由度 ≈ \(\lambda^{-1/2}\),对一维二次样条)。确切地,平滑样条的点评估方差正比于 \(n^{-1} \lambda^{-1/2}\)。
于是均方误差:
实际上,本文的主要结果之一就是给出了最坏情况偏差的阶:对于任意线性泛函(在 Sobolev 假设下),最坏情况偏差 \(\le C \lambda^{m} \|L\|_{\mathcal{H}^*}\) 吗?不,很可能跟泛函的光滑性有关。让我们先不急着纠正,而是给出一个更精确的最小内核。
更精确的最小内核:根据摘要,最优 \(\lambda \sim n^{-1}\) 是通用的,即对于所有线性泛函相同。这意味着方差和偏差平衡方程中,偏差的阶必为 \(\lambda^{1/2}\)(因为方差阶是 \(\lambda^{1/2}/n^{1/2}\)?需要确认方差阶)。经典 KRR 方差:对于均方误差,方差项的一般形式是 \(n^{-1} \cdot \text{tr}((K+n\lambda I)^{-1}K)\)。在 Sobolev 嵌入下,核的谱衰减导致迹的阶为 \(\lambda^{-d/(2m)}\)(当 d<2m 时),即 \(\lambda^{-d/(2m)}\)。所以方差 \(O(n^{-1} \lambda^{-d/(2m)})\)。偏差则具有阶 \(\lambda^{m}\)(由正则化偏置)。平衡得 \(\lambda^{2m} \sim n^{-1} \lambda^{-d/(2m)}\) ⇒ \(\lambda^{2m + d/(2m)} \sim n^{-1}\) ⇒ 这又回到了 L2 最优率。但本文说对于线性泛函,最坏情况偏差不同。实际上,对于线性泛函,偏差可能比整体 L2 偏差更大,因为它利用了泛函的平滑性更差(如点评估具有较低的光滑性)。在最坏情况分析中,偏差可能达到 \(\lambda^{1/2}\) 而不是 \(\lambda^m\)。这一点必须从论文原文核实。
但作为最小内核,我们可以展示一维样条点评估的精确偏差方差阶:已经有许多参考文献(如 Wahba, 1985)指出,平滑样条的点评估偏差和方差平衡给出 \(\lambda \propto n^{-2/5}\)?还是 n^{-1}?实际上,经典的平滑样条点评估理论(Nychka, 1988)表明,最优平滑参数一般依赖于未知函数,但通用选择如 GCV 通常得到 \(O(n^{-2/5})\)。然而,本文的结论是 \(\lambda \sim n^{-1}\) 为“平衡方差和 worst-case bias”的普遍最优阶。这暗示着他们考虑的“worst-case bias”可能比 pointwise bias 更保守——具体而言,对于所有可能的 \(f_0 \in \mathcal{H}\),在最坏情形下,偏差不能通过经典技巧改善,导致偏差阶与方差阶在 \(\lambda \sim n^{-1}\) 下匹配。这个最小内核可以简单理解为:方差 ≈ \(C_1 n^{-1} \lambda^{-\alpha}\),偏差 ≈ \(C_2 \lambda^{\beta}\),最坏情况平衡要求 \(2\beta = 1 + \alpha\) 而不是 \(2\beta = 1\)。在没有更具体假设下,论文证明对于 Sobolev 核,总是有 \(\alpha = \beta = 1/2\)?这需要更详细的技术印象。
鉴于我们无法获取全文,最小内核将基于摘要提供的核心结论:在 Sobolev 等价假设下,任何线性泛函 \(L\) 都有
(注意:这里 \(\lambda^{1/2}\) 推测来自有效维数的 1/2 阶?需要看原文确认,但摘要说“λ∼n^{-1} is the universal optimal order of magnitude to balance variance and worst-case bias”,暗示偏差和方差关于 \(\lambda\) 的指数和为 –1:即 variance 的指数为 –1 减去偏差的指数。如果我们假设偏差 ∼ λ^θ,方差 ∼ n^{-1} λ^{-ν},则平衡要求 2θ = ν,且 λ^{2θ} ∼ n^{-1} λ^{-ν} ⇒ λ^{2θ+ν} = n^{-1} ⇒ λ ∼ n^{-1/(2θ+ν)}。若要使 λ ∼ n^{-1},必须 2θ+ν=1。已知经典 KRR 中 ν = d/(2m),θ = m,此时 2m + d/(2m) > 1(m,d 典型),所以 λ ∼ n^{-1} 不成立。因此,本文结果暗示对于线性泛函的分析,偏差和方差的指数发生了根本改变:ν 变小(方差增大)或 θ 变小(偏差增大)。很可能是因为线性泛函的 worst-case bias 阶是 λ^{1/2},而方差阶常是 λ^{1/2}/n(当 d=1,m=2 时?需要验证)。因此,本文核心数学困难在于证明泛函估计的偏差和方差具有特定的指数,并推导出 λ ∼ n^{-1}。
为了不误导,我们只说最小内核是平衡方程:
三、这篇论文做了什么¶
三句话¶
- 在 RKHS 等价于 Sobolev 空间(光滑度 m)的假设下,建立了 KRR 预测的线性泛函估计的渐近上下界和渐近正态性。
- 发现并证明了平衡方差与最坏情况偏差的统一最优平滑参数阶为 \(\lambda \sim n^{-1}\),与最小化 L2 误差的经典最优 \(\lambda \sim n^{-2m/(2m+d)}\) 完全不同。
- 顺带得到了 KRR 在最优平滑参数 \(\lambda \sim n^{-1} \log n\) 下 L∞ 误差的最优率。
关键设定与假设(在第二节基础上补充)¶
- Sobolev 等价假设(原文假设 H1):核生成的 RKHS \(\mathcal{H}\) 与 Sobolev 空间 \(W^{m,2}(\Omega)\) 同构,且范数等价。这意味着 \(\mathcal{H}\) 中函数的点评估泛函是连续的(当 m > d/2),并且对任意 \(f \in \mathcal{H}\),有 \(\|f\|_{L_\infty} \le C \|f\|_{W^{m,2}}\)。
- 核的谱性质:隐含核的 Mercer 特征值以多项式速率衰减,\(\mu_j \asymp j^{-2m/d}\),具体来自 Sobolev 等价。
- 数据分布:假设 X 的分布密度有界且远离零,且 \(\Omega\) 满足一致锥条件(以确保 Sobolev 嵌入常数)。
- 噪声:假设 \(\varepsilon_i\) 独立于 X,均值为 0,方差 \(\sigma^2 < \infty\),并可能存在矩条件用于中心极限定理(如有限四阶矩)。
- 泛函光滑性:\(L \in \mathcal{H}^*\)(连续线性泛函)。由于 \(\mathcal{H}\) 等价于 Sobolev 空间,其对偶空间是负指数 Sobolev 空间。例如,点评估属于 \(W^{-m,2}\)。论文可能进一步假设 \(L\) 的 Riesz 表示 \(h_L\) 满足一定的局部性条件,以得到偏差的具体阶。
与已有文献相比:
- 放松了通常对核的阶的限制(如要求 Matern 核的具体形式),而用等价性代替。
- 相比平滑样条理论,本文处理了一般核,但需要等价性假设(平滑样条是特例)。
主要结果(理论型,从摘要推断的三个关键定理)¶
定理 1(上下界):存在常数 \(c_1, C_1, c_2, C_2 > 0\),使得对任意 \(\lambda \in (0,1)\),有
其中 worst-case bias 定义为 \(\sup_{\|f_0\|_{\mathcal{H}}\le 1} |L(\mathbb{E}\hat f_\lambda) - L(f_0)|\)。
定理 2(渐近正态性):在 \(\lambda \to 0\) 且 \(n\lambda \to \infty\) 条件下,成立
定理 3(L∞ 误差):KRR 预测函数 \(\hat f_\lambda\) 的 L∞ 范数误差满足
(注:L∞ 最优率来自考虑逐点最大值,比点评估多了 \(\log n\) 因子。)
证明路线与技术技巧(理论型,基于类似文献的演绎)¶
整体路线:
-
表示线性泛函:利用 Riesz 表示定理,\(L(f) = \langle f, \rho_L \rangle_{\mathcal{H}}\),其中 \(\rho_L \in \mathcal{H}\) 是 Riesz 表示元。KRR 解可写为 \(\hat f_\lambda = (K + n\lambda I)^{-1} \mathbf{y}\)(在向量表示下)。则 \(L(\hat f_\lambda) = \rho_L^\top (K + n\lambda I)^{-1} \mathbf{y}\)。这相当于一个加权平均的形式。
-
偏差分析:
- 期望:\(\mathbb{E}L(\hat f_\lambda) = \rho_L^\top (K + n\lambda I)^{-1} K f_0\)(其中 \(f_0\) 为向量形式)。
-
worst-case bias 上界:利用算子理论,\(\|\mathbb{E}\hat f_\lambda - f_0\|_{\mathcal{H}} \le C \lambda \|f_0\|_{\mathcal{H}}\)(经典结论)。但线性泛函的偏差需投影到 \(\rho_L\) 方向。利用插值:\(\|L(\mathbb{E}\hat f_\lambda - f_0)\| \le \|\rho_L\|_{\mathcal{H}^*} \| \mathbb{E}\hat f_\lambda - f_0\|_{\mathcal{H}}\),但后者为 \(\lambda\) 阶,这与定理声称的 \(\sqrt{\lambda}\) 矛盾。所以实际证明中必然利用了更精细的插值:\(\|\mathbb{E}\hat f_\lambda - f_0\|_{\mathcal{H}} \sim \lambda^{1/2}\) 或类似,或者利用对偶范数的不同界。(注:经典 KRR 的偏差阶在 \(\|f_0\|_{\mathcal{H}}\) 下有 \(\lambda\),但若考虑泛函方向的偏差,可能因为 \(\rho_L\) 的光滑性不足而放大到 \(\lambda^{1/2}\)。必须查看原论文的 Lemma。)
-
方差分析:
- \(\text{Var}[L(\hat f_\lambda)] = \sigma^2 \rho_L^\top (K + n\lambda I)^{-1} K (K + n\lambda I)^{-1} \rho_L\)。
-
利用谱分解:令 \(K\) 的特征值 \(\mu_j\),则方差 = \(\sigma^2 \sum_j \frac{\mu_j}{( \mu_j + n\lambda)^2} \langle \rho_L, \phi_j\rangle_{\mathcal{H}}^2\)。利用 Sobolev 嵌入下的特征值衰减 \(\mu_j \asymp j^{-2m/d}\) 以及 \(\rho_L\) 的 Fourier 系数衰减(点评估时衰减较慢),可估算出总和阶为 \(n^{-1} \lambda^{-1/2}\)(当 d<2m),从而引出方差 \(\asymp \lambda^{1/2} / n\)(因为 \(\lambda^{-1/2} \cdot \lambda\)?这里需要仔细推导方差的形式:如果总和以 \(n^{-1} \lambda^{-1/2}\) 阶,则方差 = \(O(n^{-1} \lambda^{-1/2})\),但定理称方差下限为 \(\sqrt{\lambda}/n\),注意 \(\lambda^{-1/2}\) 与 \(\sqrt{\lambda}\) 差了一个 \(\lambda\),所以必须将阶统一。可能我误读了:方差的正比于 \(\lambda^{1/2}/n\) 等价于 \(n^{-1} \lambda^{1/2}\),而 \(\lambda^{-1/2}\) 则对应另一种形式。需要更精确记号。但由于无法获取原文,我们假设论文中已经证明了 \(\text{Var} \asymp \lambda^{1/2} / n\) 的上下界。
-
渐近正态性:
-
将 \(L(\hat f_\lambda)\) 表示为 \(n^{-1} \sum_i w_i Y_i\) 形式(其中权重由核决定),再由中心极限定理(权重序列的 Lindeberg 条件)。由于权重有效数量很大(当 \(n\lambda \to \infty\)),可用鞅差或 U-统计量技巧。
-
L∞ 误差:
- 利用覆盖数或极大值不等式,结合点评估的方差 bound 和对数因子。
关键跳跃点:得到 worst-case bias 阶为 \(\sqrt{\lambda}\) 而非 \(\lambda\) 是核心;这需要利用泛函 \(\rho_L\) 属于 \(\mathcal{H}^*\) 但不在 \(\mathcal{H}\) 内(点评估的表示元是 Dirac 函数,不在 \(\mathcal{H}\) 内),从而正则化偏置被放大。
技术技巧:
- 谱分析:通过特征值衰减和 Wirtinger 型不等式。
- Sobolev 插值不等式:对函数进行分数阶范数估计。
- 有效维数:\(\mathcal{N}(\lambda) = \sum_j \frac{\mu_j}{\mu_j + \lambda}\),此处用于方差 bound。
- 错位技巧(leave-one-out):可能用于偏差上界。
- 中心极限定理:对线性统计量使用 Lindeberg–Feller,或对依赖于全样本的权重使用 martingale 分解。
真实例子与应用¶
本文为纯理论论文,未提供真实数据例子或模拟实验。摘要及标题均未提及实证内容。
🔎 结论是否比证明窄¶
- 论文严格建立了在 Sobolev 等价假设下的渐近性质。而结论中“\(\lambda \sim n^{-1}\) 是普适最优阶”只在这一假设下成立。若核不满足等价性(如高斯核,其 RKHS 无穷光滑,不是有限光滑 Sobolev),结果可能完全不同。论文可能在未来工作中提及拓展到更宽泛的核(Gaussian, Matern)。
- L∞ 误差结果依赖于点评估的最优泛函理论,也可能仅适用于 Sobolev 等价假设。具体需读论文中“此为最优率”是否在所有条件 X 下证明,或仅为上界+ conjecture。
四、开放问题¶
-
半参数效率界:本文给出的方差 \(\asymp \lambda^{1/2}/n\) 是否对应于 RKHS 下线性泛函的半参数效率下界?能否计算该泛函的有效影响函数,并与 KRR 的渐近方差比较?更具体地,若将 KRR 视为一种半参数估计器,其是否达到效率界?(扎根于:论文未讨论效率下界,但用户可用 HOIF 理论推演。)
-
自适应选择 \(\lambda\):论文证明了 \(\lambda \sim n^{-1}\) 在 worst-case 意义下最优,但实际中如何自适应选择而不依赖未知常数?是否可构造类似 GCV 或 Lepski 法适用于泛函估计?当前仅给出阶,未提供具体的数据驱动规则。
-
无 Sobolev 等价假设的情形:若核更光滑或更粗糙(如 Gaussian 核对应 analytic 函数,或核仅满足源条件但不与 Sobolev 空间等价),线性泛函的最优 \(\lambda\) 阶是否仍为 \(n^{-1}\)?这需要新的技术证明。(扎跟于论文假设 H1,且作者可能在 future work 中提及。)
-
非线性泛函或不光滑泛函:本文限于连续线性泛函,但许多实际感兴趣的泛函(如分位数、积分绝对偏差)是非线性的,其渐近理论在 KRR 下尚属空白。
注意:以上所有推断均基于摘要及已知文献。因缺少原文 intro 和 bibliography,部分细节(如具体引文、证明步骤)为推断而非作者原话。建议取得原文后重新核实最坏情况偏差和方差的精确指数,以及是否确为 \(\sqrt{\lambda}\) 阶。
Maintained by 陈星宇 · Homepage · Source on GitHub