How do noise tails impact on deep ReLU networks?¶

作者: Jianqing Fan, Yihong Gu, Wen-Xin Zhou
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究的是非参数回归在重尾噪声与深度神经网络逼近下的收敛率与 minimax 理论。根本的统计问题是：当回归模型的误差分布不再具有轻尾（如亚高斯或有限指数矩）保证，而仅存在有限 \(p\) 阶矩（\(p \geq 2\) 甚至 \(1 < p < 2\)）时，基于深度 ReLU 网络的非参数估计量能否达到、以及如何达到依赖于光滑度、内在维度与矩参数 \(p\) 的最优收敛率。当前该方向已从早期的逼近论与形状约束鲁棒性，走向了针对深度网络复合结构的精确 minimax 上下界刻画，成熟度处于"精确率已出、下界构造路线正在更替"的阶段。

发展脉络： 1. 奠基工作（逼近论与形状约束下的 LSE 鲁棒性）：Cybenko (1989) 与 Hornik (1991) 建立了单隐层网络的万能逼近定理，但未给出非渐近逼近率；Yarotsky (2017) 首次为 ReLU 网络给出了 Lipschitz 函数的近最优逼近率（基于多项式逼近与 tooth function）；Telgarsky (2016) 证明了深度带来的表达力优势（\(\Omega(2^k)\) 节点浅网络才能模拟 \(\Theta(k^3)\) 层深网络）。在统计率方面，Han & Wellner (2019) 在一般非参数模型（满足熵条件 \(\alpha\)）下，给出了 LSE 在误差仅有 \(p\) 阶矩时的精确率 \(O_P(n^{-1/(2+\alpha)} \vee n^{-1/2(1-1/p)})\)，并指出当 \(p < 1+2/\alpha\) 时 LSE 率严格慢于鲁棒估计量；Han & Wellner (2018) 进一步从几何包络视角刻画了形状约束 LSE 的鲁棒性。 2. 主要进展（深度网络逼近与 minimax 率的对接）：Schmidt-Hieber (2020) 证明了针对层次复合 Hölder 函数类，稀疏深度 ReLU 网络的 LSE 可达 minimax 率（至多 \(\log n\) 因子），首次将深度与内在维度 \(t\) 挂钩；Bauer & Kohler (2019) 与 Kohler & Langer (2021) 分别在层次复合模型与全连接网络上给出了 LSE 的收敛率，但均未处理重尾噪声；Lu et al. (2020) 与 Shen et al. (2022) 给出了宽度与深度同时调节下的 ReLU 网络最优逼近率 \(O(N^{-2s/d}L^{-2s/d})\)，为统计率中的逼近误差项提供了精确非渐近控制。 3. 当前 frontier（重尾 + 深度网络的鲁棒 M-估计）：Catoni (2012) 引入了 PAC-Bayes 视角的鲁棒 M-估计；Sun et al. (2020) 提出了 adaptive Huber regression，指出鲁棒参数 \(\tau\) 应随样本量、维数与矩参数适配，并在高维线性模型中给出了相变界；Shen et al. (2021b) 首次将 adaptive Huber 与深度 ReLU 网络结合，给出了 excess risk 的上界，但未给出匹配的下界，且其率表达式中逼近误差与统计误差的耦合未达最优；Lederer (2020) 与 Madrid Padilla et al. (2020) 分别用 Lipschitz 损失与 check loss 给出了深度网络的 excess risk 界，但均停留在上界。 4. 本文的位置：本文填补了"重尾噪声下深度 ReLU 网络估计的精确 minimax 率"这一缺口——不仅给出了 adaptive Huber + ReLU 网络的上界，还构造了匹配的下界，显式写出了率对 \((p, \alpha, t)\) 的依赖，并证明了 LSE 在此设定下无法达到该最优率。

子线索聚类： - 线索 A：深度 ReLU 网络逼近论（Yarotsky 2017; Telgarsky 2016; Lu et al. 2020; Shen et al. 2022; Kohler & Langer 2021）：研究 ReLU 网络在宽度 \(N\) 与深度 \(L\) 同时变化下对 Hölder / Besov / 连续函数类的逼近率，核心输出是逼近误差 \(\omega_f((N^2 L^2)^{-1/d})\) 或 \(O(N^{-2s/d}L^{-2s/d})\) 的非渐近界。 - 线索 B：重尾噪声下的非参数 LSE 率与鲁棒替代（Han & Wellner 2019, 2018; Catoni 2012; Sun et al. 2020; Fan et al. 2021）：研究仅有 \(p\) 阶矩误差下 LSE 的相变率 \(n^{-1/2(1-1/p)}\) 与鲁棒 M-估计（adaptive Huber / 截断）如何恢复至亚高斯率，核心输出是偏差-鲁棒性权衡与 \(\tau\) 的适配公式。 - 线索 C：深度网络的鲁棒回归 excess risk 界（Shen et al. 2021b; Lederer 2020; Madrid Padilla et al. 2020; Shen et al. 2021a）：将 Lipschitz / Huber / check 损失与 ReLU 网络结合，给出 excess risk 上界，但未触及 minimax 下界或 LSE 失败的精确刻画。

核心追问： 1. 在误差仅有 \(p\) 阶矩时，非参数 minimax 率如何显式依赖于 \((p, \alpha, t)\)（矩阶、光滑度、内在维度）？ 2. LSE 在此设定下是否必然失去最优率，其率与 minimax 率的差距有多大？ 3. 鲁棒损失（如 adaptive Huber）的参数 \(\tau\) 应如何随 \((n, \alpha, t, p)\) 适配，才能在偏差与鲁棒性间达到精确权衡并恢复最优率？ 4. 在深度网络估计类中，如何构造一个与上界匹配的 minimax 下界？

⚠️ 作者的 framing：作者将缺口 frame 为"已有工作（Shen et al. 2021b; Lederer 2020）只给了 excess risk 上界，且未显式刻画 \(p\) 对率的影响；LSE 在重尾下的失败仅在一般非参数模型（Han & Wellner 2019）中已知，在深度网络复合结构下未明；下界缺失"。这让本文成为"给出精确 minimax 率 + 证明 LSE 失败 + 构造匹配下界"的显然下一步。被淡化的竞争路线是：分位数回归（quantile regression）——Madrid Padilla et al. (2020) 与 Shen et al. (2021a) 已用 check loss 在重尾下给出了 minimax 率（针对条件分位数），但作者只将其列为"鲁棒回归的 Lipschitz 损失例子"，未讨论条件均值与条件分位数在重尾下的率差异。明显该引但未引的：高维重尾下的 debiased / cross-fitting 鲁棒估计（如 Farrell et al. 2021 的半参数推断、Zhong et al. 2022 的部分线性 Cox 模型）——这些工作将深度网络用于半参数第一步估计，本文的 minimax 率可直接为它们的非参数第一步提供重尾下的率保证，但 intro 未提及此连接。

张力：未见明显对立引用。Han & Wellner (2019) 给出 LSE 在熵条件 \(\alpha\) 下的率 \(n^{-1/(2+\alpha)} \vee n^{-1/2(1-1/p)}\)，而 Schmidt-Hieber (2020) 给出深度网络 LSE 在复合结构下的率 \(n^{-2\alpha/(2\alpha+t)}\)（轻尾）；本文将两者统一，指出在复合结构下 LSE 的率退化为 \(n^{-2\alpha/(2\alpha+t)(1-1/p)}\)（当 \(p < 2+2\alpha/t\)），而 adaptive Huber 可恢复至 \(n^{-2\alpha/(2\alpha+t)}\)——这是相变结论，不是矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(X \in \mathbb{R}^d\)：协变量（随机变量），分布 \(P_X\) 未知，内在维度为 \(t \leq d\)（层次复合结构中的最大输入维度）。
\(Y \in \mathbb{R}\)：响应变量（随机变量），可观测。
\(\varepsilon = Y - f^*(X)\)：噪声（随机变量），不可直接观测，仅知 \(E[\varepsilon | X] = 0\) 且 \(E[|\varepsilon|^p] < v_p\) 对某个 \(p \geq 2\) 成立（\(v_p\) 为已知常数）。
\(f^*\)：目标 estimand（回归函数），属于层次复合 Hölder 类 \(\mathcal{H}^\alpha_{com}\)（光滑度 \(\alpha > 0\)，内在维度 \(t\)）。
\(n\)：样本量。
\(\mathcal{D} = \{(X_i, Y_i)\}_{i=1}^n\)：可观测数据（iid 来自 \((X, Y)\) 的联合分布）。
\(\mathcal{F}_{N,L}\)：深度 ReLU 网络类（宽度 \(N\)，深度 \(L\)，稀疏度 \(S\)，权重界 \(B\)），为估计量的函数空间。
\(\ell_\tau(y - f(x))\)：adaptive Huber 损失：\(\ell_\tau(u) = u^2/2\) 若 \(|u| \leq \tau\)，否则 \(\ell_\tau(u) = \tau|u| - \tau^2/2\)。参数 \(\tau > 0\) 需适配。
\(\hat{f}\)：估计量，定义为 \(\hat{f} = \arg\min_{f \in \mathcal{F}_{N,L}} \frac{1}{n} \sum_{i=1}^n \ell_\tau(Y_i - f(X_i))\)（允许优化误差 \(\delta\)）。
\(\|\hat{f} - f^*\|_{L_2(P_X)}^2\)：核心风险度量（\(L_2\) 收敛率）。

第二步：最小内核

剥掉所有层次复合、内在维度 \(t\) 与网络架构 \((N,L,S,B)\) 的复杂性，取最简特例：\(d=1\)，\(f^*\) 为 \(\alpha\)-Hölder 连续（\(\alpha \leq 1\)），\(p \geq 2\)，网络为单隐层 ReLU（宽度 \(N \sim n^{1/(2\alpha+1)}\)）。

在此特例下，经典 minimax 率（轻尾）为 \(n^{-2\alpha/(2\alpha+1)}\)。本文的核心数学命题退化为：

LSE 失败：若用 LSE（\(\ell_\tau\) 退化为平方损失，即 \(\tau \to \infty\)），则 \(\|\hat{f}_{LSE} - f^*\|_{L_2}^2\) 的率退化为 \(n^{-2\alpha/(2\alpha+1) \cdot (1-1/p)}\)（当 \(p < 2+2\alpha\)），严格慢于 minimax 率。
Adaptive Huber 恢复：取 \(\tau \asymp n^{\alpha/(2\alpha+1)} v_p^{1/p}\)（适配样本量、光滑度与矩参数），则 \(\|\hat{f}_{Huber} - f^*\|_{L_2}^2\) 的率恢复至 \(n^{-2\alpha/(2\alpha+1)}\)（至多 \(\log n\) 因子）。
下界构造：存在 \(f_1, f_2 \in \mathcal{H}^\alpha\) 与 ReLU 网络 \(\tilde{f} \in \mathcal{F}_{N,L}\)，使得 \(\frac{1}{n}\sum_{i=1}^n \ell_\tau(Y_i - \tilde{f}(X_i)) < \frac{1}{n}\sum_{i=1}^n \ell_\tau(Y_i - f^*(X_i))\)（经验 Huber 损失更优），但 \(\|\tilde{f} - f^*\|_{L_2} \geq c \cdot n^{-\alpha/(2\alpha+1)}\)——这直接给出下界，无需传统的 Le Cam / Fano / Assouad。

为什么成立：LSE 失败的原因是重尾噪声的 \(p\) 阶矩导致经验平方损失的尾部过厚，估计量被少数大误差样本拉偏，率损失因子 \((1-1/p)\)；Adaptive Huber 通过截断 \(\tau\) 将大误差样本的贡献从 \(u^2\) 降为 \(\tau|u|\)，控制了经验过程的尾部，同时截断引入的偏差为 \(O(\tau^{-p})\)（由矩条件保证），当 \(\tau \asymp n^{\alpha/(2\alpha+1)}\) 时偏差与统计误差恰好平衡。下界构造的关键跳跃是：利用 ReLU 网络的逼近能力，构造一个 \(\tilde{f}\) 使得 \(\tilde{f} - f^*\) 在 \(L_2\) 上有下界但在经验 Huber 损失上更优——这依赖 Huberization bias（\(\tilde{f}\) 在大误差点上的截断损失比 \(f^*\) 更小）与 ReLU 网络的局部逼近灵活性。

三、这篇论文做了什么¶

三句话： ①研究了重尾噪声（仅有 \(p\) 阶矩）下，层次复合 Hölder 回归函数的深度 ReLU 网络估计的 minimax 收敛率； ②核心工具是 adaptive Huber 损失（参数 \(\tau\) 适配 \((n, \alpha, t, p)\)）与深度 ReLU 网络逼近论； ③主要结论是：LSE 无法达到最优率 \(n^{-2\alpha/(2\alpha+t)}\)（退化为 \(n^{-2\alpha/(2\alpha+t)(1-1/p)}\)），而 adaptive Huber ReLU 网络估计量可达该最优率（至多 \(\log n\) 因子），且给出了匹配的下界与允许优化误差的 concentration inequality。

关键设定与假设：

层次复合 Hölder 类 \(\mathcal{H}^\alpha_{com}\)（定义 2.1）：\(f^*\) 是 \(q\) 层复合函数 \(f^* = h_q \circ h_{q-1} \circ \cdots \circ h_1\)，每层 \(h_l\) 从 \(\mathbb{R}^{d_l}\) 到 \(\mathbb{R}^{d_{l+1}}\)，每个坐标函数为 \(\alpha_l\)-Hölder 连续，内在维度 \(t = \max_l d_l\)。统计含义：回归函数具有多尺度低维结构，深度网络可利用此结构绕过维数灾难。
矩条件：\(E[|\varepsilon|^p | X] \leq v_p\) 对所有 \(X\) 成立，\(p \geq 2\)。相比已有文献（Shen et al. 2021b 要求 \(p > 1\)），本文聚焦 \(p \geq 2\) 以刻画 LSE 与 Huber 的相变。
网络架构 \(\mathcal{F}_{N,L,S,B}\)：宽度 \(N\)，深度 \(L\)，稀疏度 \(S \leq c N^2 L\)，权重界 \(B\)。相比 Schmidt-Hieber (2020) 的稀疏网络，本文采用更一般的架构（允许全连接与稀疏混合），逼近误差使用 Lu et al. (2020) 与 Shen et al. (2022) 的结果。
优化误差 \(\delta\)：估计量 \(\hat{f}\) 不要求精确最小化经验 Huber 损失，只要求 \(R_{n,\tau}(\hat{f}) \leq \inf_{f \in \mathcal{F}_{N,L}} R_{n,\tau}(f) + \delta\)，其中 \(\delta\) 为允许的优化误差。这在实际训练中必要（SGD 只能达近似最小）。

主要结果：

定理 3.1（上界：Adaptive Huber ReLU 网络的收敛率）：
取 \(\tau \asymp n^{\alpha/(2\alpha+t)} v_p^{1/p}\)，\(N \asymp n^{t/(2\alpha+t)} \log n\)，\(L \asymp \log n\)，则
\[\|\hat{f} - f^*\|_{L_2}^2 = O_P\left( n^{-2\alpha/(2\alpha+t)} \log^2 n + \delta \right).\]
直觉：逼近误差 \(O((N^2 L^2)^{-2\alpha/t})\) 与统计误差 \(O(n^{-1} \tau^{2-p} v_p)\) 在 \(\tau\) 适配下平衡为 \(n^{-2\alpha/(2\alpha+t)}\)；优化误差 \(\delta\) 直接加在率上。
必要条件：\(p \geq 2\)，\(\tau\) 必须精确适配（过大则失去鲁棒性，过小则偏差过大）。
定理 3.2（LSE 的次优率）：
在相同架构下，LSE（\(\tau \to \infty\)）的率为
\[\|\hat{f}_{LSE} - f^*\|_{L_2}^2 = O_P\left( n^{-2\alpha/(2\alpha+t)(1-1/p)} \right),\]
当 \(p < 2+2\alpha/t\) 时严格慢于 minimax 率。
直觉：重尾噪声导致经验平方损失的局部行为退化为 \(p\) 阶矩控制，率损失因子 \((1-1/p)\)。
定理 4.1（下界：Huber 损失下的 minimax 率）：
对任何 Huber 损失参数 \(\tau > 0\) 与 ReLU 网络估计量 \(\hat{f}\)，存在 \(f^* \in \mathcal{H}^\alpha_{com}\) 使得
\[\|\hat{f} - f^*\|_{L_2}^2 \geq c \cdot n^{-2\alpha/(2\alpha+t)},\]
至多 \(\log n\) 因子。
直觉：构造一个 ReLU 网络 \(\tilde{f}\) 使得其经验 Huber 损失优于 \(f^*\)，但 \(\|\tilde{f} - f^*\|_{L_2}\) 有下界——这绕过了传统下界方法（Le Cam / Fano 需要构造多个远离的假设并控制 KL 距离，在 Huber 损失下 KL 距离难以计算）。
定理 5.1（Concentration inequality 允许优化误差）：
对任何 \(\delta > 0\)，以高概率
\[\|\hat{f} - f^*\|_{L_2}^2 \leq C \left( n^{-2\alpha/(2\alpha+t)} \log^2 n + \delta \right),\]
其中 \(\hat{f}\) 只需满足 \(R_{n,\tau}(\hat{f}) \leq \inf_{f \in \mathcal{F}} R_{n,\tau}(f) + \delta\)。
直觉：将优化误差 \(\delta\) 与统计误差解耦，\(\delta\) 不影响浓度不等式的高概率界，只作为加性项出现。

证明路线与技术技巧：

整体路线（上界）：
逼近误差控制：利用 Lu et al. (2020) / Shen et al. (2022) 的逼近定理，将 \(f^*\) 用 ReLU 网络 \(f_0 \in \mathcal{F}_{N,L}\) 逼近，逼近误差 \(\|f_0 - f^*\|_{L_2}^2 \leq c (N^2 L^2)^{-2\alpha/t}\)。
经验过程控制：对 Huber 损失的经验过程 \(\sup_{f \in \mathcal{F}} |R_{n,\tau}(f) - R_\tau(f)|\)，利用 pseudo-dimension界与 moment 控制，给出其尾部概率界——关键是将 Huber 损失的 Lipschitz 性（在 \(|u| > \tau\) 时斜率为 \(\tau\)）与 \(p\) 阶矩结合，得到亚高斯型浓度（当 \(\tau\) 适配时）。
偏差-鲁棒性权衡：Huberization bias \(E[\ell_\tau(\varepsilon) - \varepsilon^2]\) 由 \(\tau^{-p} v_p\) 控制（引理 A.3），当 \(\tau \asymp n^{\alpha/(2\alpha+t)}\) 时偏差为 \(O(n^{-2\alpha/(2\alpha+t)})\)，与统计误差同阶。
优化误差解耦：将 \(\hat{f}\) 的优化误差 \(\delta\) 直接加在风险界上，不参与经验过程控制。
整体路线（下界）：
构造竞争网络 \(\tilde{f}\)：利用 ReLU 网络的逼近能力，构造 \(\tilde{f} \in \mathcal{F}_{N,L}\) 使得 \(\tilde{f} - f^*\) 在某个局部区域（大小约 \(n^{-t/(2\alpha+t)}\)）上有固定振幅 \(c n^{-\alpha/(2\alpha+t)}\)，但在其他区域逼近 \(f^*\)。
经验 Huber 损失更优：证明 \(\frac{1}{n}\sum_{i=1}^n \ell_\tau(Y_i - \tilde{f}(X_i)) < \frac{1}{n}\sum_{i=1}^n \ell_\tau(Y_i - f^*(X_i))\)——关键是在大误差点（\(|Y_i - f^*(X_i)| > \tau\)）上，\(\tilde{f}\) 的截断损失比 \(f^*\) 更小（因为 \(\tilde{f}\) 在这些点上更靠近 \(Y_i\)，Huber 损失的线性部分更小）。
\(L_2\) 差异给出下界：由 \(\|\tilde{f} - f^*\|_{L_2} \geq c n^{-\alpha/(2\alpha+t)}\) 直接给出任何最小化经验 Huber 损失的估计量 \(\hat{f}\) 的 \(L_2\) 误差下界（因为 \(\hat{f}\) 的经验损失至少不比 \(\tilde{f}\) 差，但 \(\tilde{f}\) 已与 \(f^*\) 有固定 \(L_2\) 差异）。
关键跳跃点：
下界构造中的 Huberization bias 利用：传统下界（Le Cam / Fano）依赖 KL 距离，在 Huber 损失下难以计算（因为 Huber 损失不是负对数似然）。本文的跳跃是：不计算 KL，而是直接构造一个"经验损失更优但 \(L_2\) 远离"的网络 \(\tilde{f}\)——这依赖 ReLU 网络的局部逼近灵活性（可在小区域上自由调节函数值）与 Huber 损失的截断性质（大误差点上线性部分对函数值的敏感度低于平方部分）。
逼近误差与统计误差的精确平衡：上界中 \(\tau\) 的适配公式 \(\tau \asymp n^{\alpha/(2\alpha+t)} v_p^{1/p}\) 是精确的——偏大则统计误差失控（重尾贡献），偏小则偏差失控（Huberization bias）。本文首次将 \(\tau\) 的适配与内在维度 \(t\) 挂钩（而非仅与 \(n\) 和 \(p\)），这是层次复合结构带来的新约束。
技术技巧点名：
Pseudo-dimension 界（Bartlett et al. 2019）：用于控制 ReLU 网络类的复杂度，\(Pdim(\mathcal{F}_{N,L}) \leq c N^2 L \log(NL)\)，替代传统的 VC 维。
Moment-truncated concentration（Catoni 2012; Sun et al. 2020）：利用 \(p\) 阶矩与 Huber 截断，给出经验过程的亚高斯型浓度界，关键公式是 \(E[\ell_\tau(\varepsilon) - \varepsilon^2] \leq c \tau^{-p} v_p\)。
Hierarchical composition approximation（Schmidt-Hieber 2020; Lu et al. 2020）：利用层次复合结构，将逼近误差从 \(O(n^{-2\alpha/d})\) 改进至 \(O(n^{-2\alpha/t})\)，这是深度网络绕过维数灾难的核心。
Optimization error decoupling：将 \(\delta\) 作为加性项直接放入风险界，不参与经验过程控制——这在深度网络训练中必要，因为 SGD 只能达近似最小。
Chernozhukov et al. (2014) 的极大不等式（Lemma A.6）：用于控制经验过程的极大值，在 concentration inequality 的证明中起关键作用。

真实例子与应用：本文为纯理论 / 无实证例子。所有结论均在定理与引理中严格证明，未包含模拟实验或真实数据分析。

🔎 结论是否比证明窄： - 定理 3.1 的率 \(O_P(n^{-2\alpha/(2\alpha+t)} \log^2 n + \delta)\) 在条件 \(p \geq 2\)、\(\tau \asymp n^{\alpha/(2\alpha+t)} v_p^{1/p}\)、\(N \asymp n^{t/(2\alpha+t)} \log n\)、\(L \asymp \log n\) 下严格证明，但作者在 abstract 与 intro 中泛泛 claim "optimal rate of convergence cannot be obtained by ordinary least squares but can be achieved by Huber loss"——这隐含了"任何 LSE 都无法达到最优率"，但定理 3.2 只证明了特定架构下 LSE 的率退化，未排除可能存在某种特殊架构（如非稀疏、权重无界）使 LSE 达更优率的可能性（尽管极不可能）。 - 下界定理 4.1 的构造依赖 ReLU 网络的逼近能力与 Huber 损失的截断性质，严格证明了"在 Huber 损失 + ReLU 网络估计类中，minimax 率为 \(n^{-2\alpha/(2\alpha+t)}\)"，但未证明"在所有估计量中"的 minimax 率——作者在 intro 中未明确区分这两个类，可能被误读为全局 minimax 率。

四、开放问题（点到为止）¶

全局 minimax 下界：本文的下界只在"Huber 损失 + ReLU 网络估计类"中成立（定理 4.1），在所有非参数估计量中的 minimax 率是否仍为 \(n^{-2\alpha/(2\alpha+t)}\)？——扎根在定理 4.1 的陈述与 intro 第 2 页"matching lower bound within the class of neural network estimators using the Huber loss"。
\(1 < p < 2\) 的情形：本文聚焦 \(p \geq 2\)，对 \(1 < p < 2\)（噪声甚至无有限方差）只提到"可类似处理"但未给出定理——扎根在 intro 第 2 页"finite p-th moment"与定理 3.1 的条件 \(p \geq 2\)。
半参数第一步的鲁棒率保证：本文的 minimax 率可直接为深度网络在半参数推断（如 Farrell et al. 2021 的因果效应估计）中的第一步非参数估计提供重尾下的率保证，但 intro 未提及此连接——扎根在 intro 缺失的引用（Farrell et al. 2021; Zhong et al. 2022）与定理 3.1 的率表达式。
优化误差 \(\delta\) 的可达性：定理 5.1 允许 \(\delta\) 作为加性项，但未给出 SGD / Adam 在 Huber 损失下可达的 \(\delta\) 的阶——扎根在定理 5.1 的条件"allowable optimization errors"与 intro 第 3 页"concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors"。

Maintained by 陈星宇 · Homepage · Source on GitHub

How do noise tails impact on deep ReLU networks?¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论