Generalized nonparametric regression in reproducing kernel Hilbert spaces: Consistency and rates of convergence¶
作者: Ioannis Kalogridis
主题: 非参数 / 半参数
相关性: 8/10
链接: https://arxiv.org/abs/2606.22993
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的根本问题是:如何在再生核希尔伯特空间(RKHS)中,对广义的非参数M-估计(即正则化经验风险最小化,目标函数为 (1/n) Σ ρ(yi - f(xi)) + λ ||f||²_H)建立完整的收敛性理论。
当损失函数ρ为平方损失时,该问题退化为经典的核岭回归(KRR),其理论已非常成熟。然而,当ρ为分位数损失、Huber损失、expectile损失等更通用的凸(甚至非凸)损失时,理论分析面临重大障碍:广义M-估计没有封闭的解析解,因此无法使用基于积分算子谱分解的标准谱技术进行偏差-方差分解。这使得相关文献长期处于碎片化状态,仅覆盖了少数特定的(损失函数, 核函数)组合。
发展脉络(history)¶
本文的intro将前人工作串成一条清晰的线:
-
奠基工作(KRR 理论,核心突破是谱分析):
- Cucker & Zhou (2005), Caponnetto & De Vito (2007): 这是KRR理论的经典奠基。他们利用积分算子的谱分解,给出了正则化最小二乘估计量的最优收敛速率。这是后续所有工作的基准。
- Steinwart & Scovel (2012): 将Mercer定理推广到一般域和一般测度,并提出了源条件(source condition)
f0 ∈ [H]^β来描述目标函数相对于RKHS的光滑性。这成为处理模型误设 (misspecification) 的标准工具,即f0不完全在RKHS中。
-
主要进展 → 当前的碎片化状态(沿着具体组合试探):
- Li, Liu & Zhu (2007): 首次在RKHS中研究分位数回归,但在较强假设(响应变量和RKHS有界)下得到了收敛速率。
- Eberts & Steinwart (2013): 研究了高斯核RKHS下的最小二乘和分位数回归,目标函数假设为Besov光滑。
- Farooq & Steinwart (2019): 研究了高斯核RKHS下的expectile回归,并改进了Eberts & Steinwart (2013)的速率。
-
当前frontier与本文位置:
-
作者明确指出:“To the best of our knowledge, no unifying framework has emerged and the literature remains fragmented...”(引言第二段末尾)。因此,本文的定位是填补这个框架性空白。
-
关键对比(被回避的竞争路线):
- van de Geer (2000) 的经验过程理论:这是处理一般M-估计的经典统计方法(如第12章)。作者在第三段承认了这一路线,并指出了其与本文的核心区别:
- “We do not require that ρ should be Lipschitz.” 经典经验过程理论常利用Lipschitz条件通过缩并原理来估计Rademacher复杂度,但这排除了expectile和
L_p (p>1)损失。 - “secondly, our approach leads to an informative error decomposition as opposed to a single rate n^{-s} one typically obtains through empirical process theory alone.” 经典经验过程理论通常给出一个整体速率,而本文给出了显式的偏差-方差分解。
- “We do not require that ρ should be Lipschitz.” 经典经验过程理论常利用Lipschitz条件通过缩并原理来估计Rademacher复杂度,但这排除了expectile和
- van de Geer (2000) 的经验过程理论:这是处理一般M-估计的经典统计方法(如第12章)。作者在第三段承认了这一路线,并指出了其与本文的核心区别:
-
子线索聚类¶
这些被引文献大致落在两条子线索上:
-
基于“最小二乘 + 谱分析”的精确计算路线(Cucker & Zhou, 2005; Caponnetto & De Vito, 2007; Fischer & Steinwart, 2020; Zhang et al., 2023)。这簇工作通过积分算子谱分解直接得到闭式解,从而实现极精细的偏差-方差分析。但核心技术(谱技术)无法处理无闭式解的损失函数。
-
基于“具体损失函数 + 核函数”的探索路线(Li et al., 2007; Eberts & Steinwart, 2013; Farooq & Steinwart, 2019)。这簇工作逐个攻克特定组合,其结果无法自动推广到其他损失,理论结果碎片化。
这个方向在追问的核心问题(2-4个)及已知瓶颈¶
- 存在性与可测性:对于非凸或有界损失,正则化M-估计量是否唯一且可测?(解决:论文命题1,通过弱下半连续和有限维表示定理。)
- 收敛速率:对于一般的损失和核,能否给出显式且尖锐的收敛速率?(瓶颈:缺乏解析解,无法有效分离偏差和方差。论文通过引入谱复杂度
N_∞(λ)解决。) - 维数诅咒:能否通过特定的核结构(如张量积核)来缓解或规避维数诅咒?(瓶颈:传统Sobolev空间H^m(R^d)的速率通常为 n^{-2m/(2m+d)}。论文通过揭示张量积空间与“主导混合光滑度”空间的内在联系来解释规避现象。)
⚠️ 作者的 framing(必须明确标注成"这是作者的说法")¶
这是作者的说法:作者把缺口 frame 成“需要一个统一的理论框架来覆盖所有常用的凸绝对连续损失和所有RKHS(包括非欧几里得域)”,并将自己的论文定位为这个“显然的下一步”。
被淡化或回避的竞争路线:
* 回避了对更一般罚函数的讨论:如对 ||f||_H 使用 L_1 罚(稀疏性)或弹性网。作者明确指出研究对象为 λ||f||²_H,未讨论其他罚函数。
* 回避了变分推断/贝叶斯方法:非参数贝叶斯(如高斯过程)的收敛性理论是一个巨大且相关的领域,本文未与之比较。
* 回避了Boosting或随机森林等非核方法:这些方法同样能逼近复杂函数,但本文未将其作为竞争基线。
什么明显该被引/该存在、却没出现在 intro 里?——值得研究者去查的问题
1. 关于张量积核的最新理论进展:作者引用了Lin (2000) 关于张量积ANOVA模型的经典工作。但自2000年以来,在近似理论中关于稀疏网格(sparse grids)和超立方交叉(hyperbolic cross) 近似的研究有很大进展。论文(主要是引用了Sickel & Ullrich 2009)通过将其与“主导混合光滑度”联系起来,实质上回答了这个问题。可以检查一下是否有更近期的关于张量积核最优性(如minimax下界)的统计文献。
2. 实证过程在全非参数M-估计中的更新应用:作者批评van de Geer (2000) 的方法无法给出偏差-方差分解。需查证近20年(2000-2020)间,是否有工作通过更精细的局部化经验过程工具(如局部Rademacher复杂度,local Rademacher complexities)为广义M-估计提供了类似渐近线性化的结果。(从作者的论述看,可能没有,或者没有给出显式分解。)
3. 关于谱复杂度 N_∞(λ) 与有效维度 N(λ) 的精确关系:作者指出 N(λ) 提供 L²_v 控制,而 N_∞(λ) 提供一致控制。当核的特征函数有无界时(如通用Sobolev核),二阶矩控制(有效维度)和一阶矩控制(谱复杂度)可能会有本质差异。是否存在一个更精细的框架,统一处理两者?
4. 具体引文缺失:哪些该被引?例如,关于 LOO CV(留一交叉验证) 的理论选择。作者在第5节提出了一个稳健的LOO CV准则,但引文只有Maronna et al. (2019)的一个建模章节。是否有专门的关于广义交叉验证(GCV) 在非最小二乘、非参数情形下的理论验证论文?
张力¶
未见明显对立引用。现有工作主要是在不同的假设和设定下(不同损失、不同核、不同光滑性假设)得出特定结论,它们之间不存在直接矛盾的结论,只是方法上通用性不同。本文的目标正是消除这种“碎片化”。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号:
* (x_i, y_i) : 可观测的第i个独立样本。x_i ∈ X ⊂ ℝ^d 是预测变量,y_i ∈ ℝ 是响应变量。
* f0: 未知的真实回归函数,y_i = f0(x_i) + ε_i。
* ε_i: 独立同分布的加性误差,与x_i独立。
* H: 一个再生核希尔伯特空间。它是一个函数空间,其函数具有与核 K 相关的光滑性。
* ρ: 损失函数,如平方损失 (y-f(x))²,或Huber损失。
* λ > 0: 正则化参数,平衡数据拟合(1/n Σ ρ(...))与光滑性(||f||²_H)。
* f̂_n: 正则化M-估计量,定义为最小化目标函数:f̂_n = argmin_{f∈H} [1/n Σ ρ(y_i - f(x_i)) + λ||f||²_H]。
* f_λ: 抽象正则化插值(abstract regularized interpolant),即 f0 的“总体”正则化版本,定义在附录中:f_λ = (C_K + λI)^{-1} S_K(f0)。它是用无穷数据(总体分布)做同样正则化得到的结果,是证明中的一个重要中间量。
* N_∞(λ): 谱复杂度(spectral complexity),定义为 sup_{f∈H, f≠0} ||f||²_∞ / ||f||²_{H,λ}。它衡量了H在||·||_{H,λ}范数下单位球的一致范数。它是本文的核心创新。
* ||·||_{H,λ}: 惩罚加权范数,定义为 ||f||²_{H,λ} = ||f||²_{L²_v(X)} + λ||f||²_H。这个范数天然结合了近似误差(L²)和惩罚项(H)。
* β ∈ (0,1]: 源条件参数。f0 ∈ [H]^β 表示目标函数比L²_v光滑,但可能比H粗糙。β=1 时 f0 ∈ H(正确指定);β<1 时 f0 ∉ H(模型误设)。
* v: x_i 的分布,被假定为全支撑(即对所有非空开集O,v(O) > 0)。这是为了确保Mercer定理成立。
模型:
* 数据生成机制是经典的加性噪声模型:y_i = f0(x_i) + ε_i。
* 在此,f0 是未知的、非参数的目标函数。
* H 和 ρ 由用户指定。H 通过核 K 隐式定义其光滑性。
* λ 是待选的超参数。
* 我们假设 f0 属于一个中间空间 [H]^β,这比完全不在 H 中(如最小二乘中假设f0在L²空间)更精确,但比假设 f0 ∈ H 更宽松。
可观测数据:
* 研究者能观测到:(x_i, y_i) 成对样本。
* 研究者无法观测到:真正的误差 ε_i,真实函数 f0,以及误差的具体分布。
* 研究者通过假设(如 E[ψ(ε_i)] = 0,其中 ψ 是 ρ 的次梯度)来识别目标 f0。
第二步:讲最小内核——把核心思路剥出来¶
最小特例(首选):考虑最简单的情形:一个简单的RKHS H(如一维Sobolev空间 H^m([0,1])),使用Huber损失 ρ_k,且目标函数恰好属于** H(即 β=1,没有模型误设)。
- 在这个特例下:我们要估计
f0 ∈ H。M-估计量f̂_n由最小化一个非二次的目标函数(1/n) Σ ρ_k(y_i - f(x_i)) + λ||f||²_H得到。 - 核心困难:
ρ_k在|x| ≤ k是二次的,但在|x| > k是线性的。因此,f̂_n没有闭式解。你不能像KRR那样,简单地写成一个核矩阵的线性方程。 - 本文的核心想法(剥掉所有技术假设后):
- 引入一个巧妙的中间量:不直接处理
f̂_n,而是研究抽象正则化插值f_λ。f_λ是使用总体版本的目标函数(用无穷多数据的期望代替有限样本平均)得到的最优解。因为它是总体的,可以证明f_λ“近似于”f0,且对f_λ的分析可以通过谱分解完成(虽然没用到闭式解,但其性质已知)。 - 证明“在
f_λ的一个小邻域内”存在f̂_n:作者在证明中(定理1的证明),构造了一个以f_λ为中心、半径为D * sqrt(N_∞(λ)/n + λ^β)的球。他们证明了这个球的边界上,目标函数L_n的值严格大于球心L_n(f_λ)的值(即凸函数的“谷底”在球内)。因此,唯一的极小值点f̂_n必然位于球内。 - 用“谱复杂度”
N_∞(λ)控制方差:那么,f̂_n和f_λ的距离(即方差部分,O_P(sqrt(N_∞(λ)/n)))由什么决定?关键在于证明中的几个引理(Lemmas 2-5)。这些引理对f_λ附近的函数f进行渐近线性化。比如,L_n(f_λ + h) - L_n(f_λ)可以分解为:- 主导项:一个关于
h的二次型,其系数由谱复杂度决定。 - 小量:一个关于
h的线性项(经验过程),其方差也被谱复杂度控制。 - 作者利用经验过程理论(Symmetrization, Contraction),但没有要求 ρ 全局 Lipschitz,而是利用了 Huber损失的局部行为(其导数在局部有界) 和控制了球半径的
N_∞(λ)来证明这些小量可以被主导项压制。
- 主导项:一个关于
- 引入一个巧妙的中间量:不直接处理
一句话总结最小内核:本文通过引入一个新的复杂度度量 N_∞(λ),在一个构造的球内对M-估计的目标函数进行线性化,使得即使没有解析解,也能将方差项和偏差项完全分离,并分别用 N_∞(λ)/n 和 λ^β 来控制。
三、这篇论文做了什么¶
三句话:
1. 研究了什么问题:在RKHS框架下,为广义的、非平方损失的M-型正则化回归估计量(覆盖分位数、Huber、expectile等)建立了统一的存在性、可测性和显式的收敛速率理论。
2. 核心工具/方法:引入了一个新的复杂度指标——谱复杂度 N_∞(λ),并结合函数分析和经验过程理论,对目标函数进行了渐近线性化处理,从而实现了显式的偏差-方差分解。
3. 主要结论:证明了在温和条件下,L^2 误差 ||f̂_n - f0||²_{L²_v(X)} = O_P(N_∞(λ)/n) + O_P(λ^β),其中方差项由谱复杂度主导且与模型误设无关,偏差项由源条件参数 β 主导。对于张量积Sobolev空间,得到了接近参数速率的 O_P([log(1/λ)]^{d-1} / (n λ^{1/(2m)}) ),并通过与主导混合光滑度(dominating mixed smoothness) 空间的联系,解释了其规避维数诅咒的机理。
关键设定与假设¶
在第二节的记号基础上,补充完整设定和关键假设(这决定了结果的适用范围):
- (A1) 紧致性与全支撑:
X是紧致的,v是全支撑的。保证Mercer定理,确保H可以嵌入L²_v。 - (A2) 损失函数凸且绝对连续:
ρ是凸的,且几乎处处存在导数ψ。覆盖所有常见损失,保证了次梯度和基本微积分定理可用。 - (A3) 局部有界增量:
ψ在局部一致有界。覆盖非线性Huber和分位数损失,这是比“全局Lipschitz”更弱的条件,也是技术处理的关键。 - (A4) Fisher一致性:
E[ψ(ε)] = 0且E[ψ(ε + t)] = γ t + o(t),γ > 0。这是保证f0是总体M-估计的唯一解的常规条件,确保问题可识别。 - (A5) 源条件:
f0 ∈ [H]^β,β ∈ (0,1]。描述模型误设程度。相比已有文献,这是标准设定,但本文将其应用到更广的损失上。 - (A6) 嵌入条件:存在
α ∈ (0, β)使得[H]^α连续嵌入L^∞_v(X)。这是为了确保f_λ与f0的 一致(uniform)误差 可被控制(引理1中的||fλ - f0||^2_∞ ≤ c0 λ^{β-α}),从而在处理线性化的边界项时,能处理f_λ在点的取值。相比已有文献(如Fischer & Steinwart 2020),要求α < β是一个细微但重要的放松。
主要结果¶
定理1(General RKHS):
* 陈述:假设 (A1)-(A6) 成立,且 λ→0 使得 N_∞²(λ)/n → 0 且 λ^β N_∞(λ) → 0。那么,
||f̂_n - f0||²_{L²_v(X)} = O_P( N_∞(λ)/n ) + O_P( λ^β )。
* 直觉:
* 方差项 O_P(N_∞(λ)/n): 由谱复杂度控制。核越“复杂”(特征值衰减慢,如高斯核),N_∞(λ) 越小,方差越小。这与直觉相反,但适用于规律性强的函数逼近。它独立于 f0 的光滑性(β)。
* 偏差项 O_P(λ^β): 由源条件参数 β 控制。函数越不光滑(β越小),偏差越大。这正是正则化引入的代价。
* 速度条件 N_∞²(λ)/n → 0 和 λ^β N_∞(λ) → 0:确保线性化中的二次项主导误差项,是进行渐近展开的前提。
* 必要条件:正确选择了 λ 与 n 的依赖关系。定理本身给出了误差对 λ 的依赖形式。最优 λ 可通过平衡方差和偏差得到 λ* ≍...,从而得到具体的收敛速率。
定理2(Tensor Product Sobolev RKHS):
* 陈述:在 H = H^m([0,1])^{⊗d} 下,若假设成立,且 λ → 0 使得条件满足,则:
||f̂_n - f0||²_{L²([0,1]^d)} = O_P( [log(1/λ)]^{d-1} / (n λ^{1/(2m)}) ) + O_P( λ^β )
* 直觉:方差项从一般的 n^{-1} λ^{-d/(2m)}(对应各向同性Sobolev空间)下降为 n^{-1} λ^{-1/(2m)} [log(1/λ)]^{d-1}。维度d退化为对数因子。这是“规避维数诅咒”的具体体现。
* 解释:作者通过将张量积空间与主导混合光滑度(dominating mixed smoothness) 空间(在近似理论中,其函数拥有偏导 ∂^{md}/(∂x_1^m ... ∂x_d^m) 的惊人光滑性)等同起来,揭示了这一现象。并非任何函数都可在该空间中有效逼近,只有那些具有极高混合光滑性的函数才适用。
证明路线与技术技巧¶
整体路线(定理1证明):
1. 定义中间量:引入抽象正则化插值 f_λ。
2. 证明目标函数在f_λ附近有唯一的极小点:构造一个球 B = {f: ||f - f_λ||_{H,λ} ≤ R_n},证明在 B 的边界上,L_n(f) > L_n(f_λ),从而 f̂_n 在 B 内。
3. 在球内对目标函数进行线性化展开:将 L_n(f) - L_n(f_λ) 分解为:
* I_1(主导二次项 + 边界):包含 (1/n) Σ ∫ ... {ψ(ε+t) - ψ(ε)} dt 和 λ||h||²_H。
* I_2(经验过程项):(C_n^{1/2}/n) Σ ψ(ε_i) h(x_i)。
* I_3(交叉项):2 λ C_n^{1/2} ⟨h, f_λ⟩_H。
4. 分别控制每一项(Lemmas 2-5):
* Lemma 2 (控制 I_1 的期望):利用 (A3) 和 (A4),证明 E[I_1] 有下界 c D^2 C_n。
* Lemma 3 (控制 I_1 的波动):使用对称化(Symmetrization) 和缩并不等式(Contraction Inequality)。关键是用 M_1 C_n^{1/2} 作为 Lipschitz 常数,不依赖全局 Lipschitz。
* Lemma 4 (控制 I_2):对经验过程 (1/n)Σ ψ(ε_i)K_λ(x_i,·) 使用希尔伯特空间上的中心极限定理(或 Markov 不等式 + 方差计算),其方差由 N_∞(λ)/n 控制。
* Lemma 5 (控制 I_3):通过 Schwarz 不等式和引理1(||f_λ||_H = O(λ^{-(1-β)/2}))直接控制。
5. 汇总:证明在球的边界上,线性化后的杂项(Lemmas 3,4)可以被主导的二次项(Lemma 2)压制,从而确认极小点在球内。
关键跳跃点:
* 无闭式解下的线性化:最吃功夫的地方是引理2。作者将 ρ 的积分形式代入,将对 h 的二次项从积分中“提取”出来,然后再利用 E[ψ(ε + t)] = γ t + o(t) 这个Fisher一致性条件将其转化为 h 的L²范数的二次型。这需要非常精细的计算和边界处理。
* 谱复杂度 N_∞(λ) 的作用:它不仅出现在项 I_1 的方差计算中,也出现在顶 I_2(经验过程)和 I_1 的波动控制中。它代替了传统经验过程中的Rademacher复杂度,是整个证明能进行下去的支柱。
技术技巧点名:
* 对称化 + 缩并:在引理3中,为了控制 I_1 的波动,使用了 Rademacher 对称化,并使用缩并不等式处理 U_i 的 Lipschitz 性质。这是处理非平滑损失的关键。
* 经验过程 / 希尔伯特空间计算:引理4计算 I_2 时,直接利用了 K_λ 的谱分解。||(1/n) Σ ξ_i K_λ(x_i, ·)||_{H,λ}^2 的期望等于 (1/n^2) Σ E[K_λ(x_i, x_i)],而这又通过谱复杂度和核迹(trace)计算出来。
* 变系数 LOO CV:文中第5节提出的稳健留一交叉验证(RCV)公式是一个经验技术贡献,用于选择超参数 λ。
真实例子与应用¶
有,且非常重要。第6节的数值实验是论文不可或缺的一部分,用于验证理论。
- 使用的数据/场景:
- 一维模拟:
y_i = Σ_{j=1}^{50} j^{-2β-2/3} √2 cos(2π(j-1)x_i) + ε_i,x_i ~ Unif[0,1]。ε_i为高斯或学生t_2分布。 - 二维模拟:类似地,用张量积傅里叶基构建
y_i,使用张量积Matérn核估计。
- 一维模拟:
- 怎么把本文方法用上去:实现了三种估计器:LS(最小二乘)、LAD(最小绝对偏差)、Huber(k=1.345)。对于LAD,由于损失在0点不可微,用局部二次近似(Nyckha et al. 1995)代替。所有方法用C++后端实现,通过R接口调用。参数
λ用稳健LOO CV选择。 - 得到什么结果:表格1给出了在500次重复下的MSE及其标准误。
- 这个例子想说明什么:
- 验证理论预测:
β越大(目标越光滑),MSE越小,与理论一致。但在高维(d=2)时,β的影响减弱,因为方差主导。 - 展示鲁棒性的优势:在重尾误差 (t_2) 下,LAD和Huber的MSE远优于LS(LS的MSE恶化近10倍),直观验证了“广义损失”在实际问题中的价值。
- 展示张量积核规避维数诅咒:一维中,各方法表现尚可;二维中,LS在重尾下完全崩溃(MSE>3),而鲁棒方法表现稳健,且Huber效率略微优于LAD,这证实了张量积核确实能处理中等维度数据。
- 验证理论预测:
🔎 结论是否比证明窄¶
- 是的,存在具体语句。
- 定理2的保证:它严格依赖于假设“
v具有有界且远离零的 Lebesgue 密度”(即v在 Lebesgue 测度和||·||_{L²(X)}等价)。如果v是更奇异的分布(例如集中在低维流形上),则结论的适用性风险升高。作者在第6节的模拟中使用了均匀分布,符合该假设。 - 对数项:定理2中方差项的
[log(1/λ)]^{d-1}项是积分近似得到的。这虽然比λ^{d/(2m)}好得多(对数幂 vs 多项式幂),但作者在例K1中已指出,当特征函数有界时,这可能是log项,但未证明其最优性。可能对某些特定设置,这可以被一个更小的替代(比如常数)。 - “规避维数诅咒”的条件:作者非常严谨地指出,这并非魔法。它仅适用于那些“具有极大混合光滑性”的函数
f0。对于一般的通用函数,它无法规避。论文的结论是“为什么这些估计器规避了维数诅咒”,而非“该工作规避了维数诅咒”。这是一个重要的语义区分。
- 定理2的保证:它严格依赖于假设“
四、开放问题¶
- 扩展到条件正定核:作者在第7节“Discussion”中明确指出:“immediately... can be extended to conditionally positive definite kernels, such as Duchon’s thin-plate splines”。该工作能立即推广到薄板样条。这是定位明确的开放问题。
- 应用到函数型/纵向数据:论文第7节也指出:“Another natural avenue is the application to functional and longitudinal data analysis”。虽然作者在 (Kalogridis & Van Aelst, 2023) 已有相关工作,但将其与本文的广义M-估计框架和谱复杂度理论结合,是一个开放且具体的方向。
- 更一般非凸损失的全局收敛性:理论结果(定理1)依赖于 (A2) 的凸性和 (1) 正则化的严格凸性。对于有界、非凸的鲁棒损失(如Tukey双权函数),命题1保证了存在性和可测性,但收敛速率是否能从本框架推广?证明中对整体二次凸函数的依赖非常强,这可能限制了其适用范围。需查验引理2中用到的
γ(导数)是否对非凸损失存在。 - 谱复杂度与更细粒度复杂度指标的关系:谱复杂度
N_∞(λ)是对||·||_{H,λ}单位球的一致范数进行控制。这是否是必要的保守?是否存在用L²_v与一致范数之间的插值度量(例如用局部Rademacher复杂度)进行更精细分析的可能性,从而获得可能更紧的收敛界?作者在第3节已经指出,N(λ)(L²控制)无法用于广义损失,但这是否为最优,是理论上的一个开放问题。
Maintained by 陈星宇 · Homepage · Source on GitHub