Empirical Risk Minimization for Losses without Variance¶

作者: Guanhua Fang, Ping Li, Gennady Samorodnitsky
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是在数据分布具有重尾性（heavy-tailed）且方差可能无限的条件下，经验风险最小化（ERM）的理论性质与实用算法。经典 ERM 理论的收敛率（如通过 uniform deviation bounds 或 Rademacher complexity 推导的 excess risk 上界）几乎都建立在损失函数有界或方差有限的假设上。当数据仅存在（1+ε）阶矩（0 < ε ≤ 1），即方差不存在时，这些上界不再成立。本方向要解决的根本问题是：在无有限方差条件下，风险最小化器能否被可靠地估计？如果能，其估计的收敛速率是什么？如何设计稳健的优化算法？

该方向当前处于理论正在建立、算法开始涌现的阶段。经典 ERM 的 robust 理论（如基于截断、中位数等）能在重尾下给出替代估计，但大部分已有工作关注的是风险值本身（risk evaluation）的稳健估计，而非直接针对风险最小化器（risk minimizer）。本文属于后者的一个重要进展。

发展脉络（history）¶

奠基工作：经典 ERM 与稳健统计的分离
Vapnik (1998) 等：建立了基于 i.i.d. 假设与有界损失的 ERM 的统一理论（uniform convergence, VC dimension, Rademacher complexity），但未处理重尾。
Huber (1964); Hampel et al. (1986)：提出了 M-估计与影响函数（influence function）框架，开创了稳健统计。但传统 M-估计关注的是参数估计量的稳健性，而非损失函数无界的 ERM 设定。
主要进展：重尾下的风险估计（Risk Evaluation）
Catoni (2012)：提出了一个著名的 M-估计器用于估计重尾分布的期望：给定样本均值的矩条件缺失时，通过一个特定的“影响函数”（通常是对数型或多项式型）构造显式的稳健估计量，其置信区间半径与经典一阶矩存在时的 CLT 一致，但常数因子依赖矩阶数（1+ε）。这是本文最核心的工具，论文多处直接使用 Catoni 方法。
Dezeure et al. (2015)：将 Catoni 方法与 lasso 结合用于高维重尾线性回归，但核心仍是参数模型。
Lugosi & Mendelson (2019, 2021)：利用中位数统计量（median-of-means, MoM）替代样本均值，在重尾下估计期望并分析 ERM。这些工作迫使研究者注意到：用截断或中位数方法处理数据后，直接对截断数据做 ERM 可能不如直接对原始风险值做稳健估计。本文的引言明确将其列为 baseline 并指出其缺点。
当前 frontier：从风险估计到风险最小化器
Mendelson (2021)：研究了在重尾损失下，基于稳健梯度下降（robust gradient descent）的优化算法理论，但针对的是局部强凸的目标函数。
本文 (Fang, Li, Samorodnitsky, 2024)：将 Catoni 稳健估计与 generalized generic chaining 方法结合，直接对原始风险函数（而非截断后的）进行稳健估计，并证明用该估计值定义的风险最小化器（empirical risk-based optimizer）的 excess risk 上界。同时算法上分析了两种方法：稳健梯度下降（沿着整篇 Mendelson 流派）和基于经验风险的（直接最小化稳健估计的风险值）。

子线索聚类¶

线索 A：Catoni 型期望估计及其理论性质。包括 Catoni (2012)、Dezeure et al. (2015)。核心是对单一矩统计量（期望）的稳健估计。
线索 B：重尾条件下的经验过程理论与 uniform deviation bounds。包括 Mendelson (2021) 以及该领域的 earlier works (Talagrand, 2005; Boucheron et al., 2013)。其分析工具为 generic chaining 与局部 Rademacher 复杂性。本文将它们推广到无有限方差情形。
线索 C：稳健优化算法。包括稳健梯度下降（robust gradient descent）及基于稳健风险估计的经验风险最小化。本文提出了后者，并与前者对比。

这个方向在追问的核心问题¶

当损失函数仅存在（1+ε）阶矩时，ERM 的 excess risk 的最佳收敛速率是什么？（达到 minimax 下界？）
相比先截断数据再应用经典 ERM，直接对原始（重尾）风险做稳健估计的实证优势是什么？
重尾设定下，哪种优化算法（稳健梯度下降 vs. 经验风险最小化）更有效，各有何理论保证？

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 为“在无方差条件下，已有工作主要关注风险值的稳健估计，而对于风险最小化器的估计（ERM on robust risk）缺乏理论分析”。他们声称 Catoni 型影响函数的结构允许他们使用 generalized generic chaining 的技巧，从而直接建立（而非通过截断）风险最小化器的 excess risk 上界。
被淡化的方向：作者几乎未提及：
渐近独立性（asymptotic independence）或 非参数回归 设定下的稳健 ERM 理论。
高维设定（p > n）下的重尾 ERM。
基于中位数的方法（median-of-means, MoM）的对比，仅在数值实验中将其作为 baseline。
什么明显该被引/该存在、却没出现在 intro 里？ 值得研究者去查一下：
是否有工作将 Catoni 方法用于非参数回归（而非纯 ERM）？
Lugosi & Mendelson (2019) 等 MoM 工作的理论与数值结果在本文 intro 中没有被充分讨论为直接的竞争者。
没有引用关于 U-statistics 稳健估计 的工作（如 de la Peña & Giné (1999) 对高阶矩的稳健性分析）。这对研究方向背景来说可能是缺环。

张力¶

未见明显对立引用。所有被引工作在方法论上大体一致（都同意在重尾下需要稳健化）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( \Theta \)：参数空间（可以是函数空间、有限维参数集或无穷维；论文中为紧 Henstock 可积函数空间）。
\( \theta_0 \)：真实风险最小化器，即 \( \theta_0 = \arg\min_{\theta \in \Theta} R(\theta) \)，其中 \( R(\theta) = \mathbb{E}[\ell(\theta, X)] \)。
\( \ell(\theta, X) \)：损失函数，对 \( X \) 重尾（损失值有重尾分布）。并无有限方差，仅存在 \( (1+\varepsilon) \) 阶矩（\( 0 < \varepsilon \le 1 \)），即 \( \mathbb{E}[|\ell(\theta, X)|^{1+\varepsilon}] < \infty \)。
\( X_1, \dots, X_n \)：i.i.d. 样本。
\( R_n(\theta) = \frac{1}{n} \sum_{i=1}^n \ell(\theta, X_i) \)：经验风险。
\( \widehat{\theta}_n \)：基于稳健风险估计的估计量（后文定义为 \( \widehat{\theta}_n = \arg\min_{\theta \in \Theta} \widehat{R}_n(\theta) \)，其中 \( \widehat{R}_n \) 是 Catoni 型稳健估计）。
\( \varepsilon \)：矩阶数参数（0 < ε ≤ 1），控制重尾程度。
Catoni 型估计：定义 \( \rho(x) = \log(1 + x + x^2/2) \) 或某种满足 \( \rho(-x) = -\rho(x) \) 且 \( \rho'(0) = 1 \) 的奇函数。对给定 \( \theta \)，Catoni 估计量 \( \widehat{R}_n(\theta) \) 为方程 \( \sum_{i=1}^n \rho\left( \frac{\ell(\theta, X_i) - \mu}{\psi} \right) = 0 \) 的解，其中 \( \psi \) 为 tuning 参数（与矩阶数有关）。
\( \text{diam}(\Theta) \)：参数空间的直径（度量空间的直径）。
模型：数据生成机制为 \( X_i \overset{\text{i.i.d.}}{\sim} P_X \)，分布 \( P_X \) 未知但满足存在 \( (1+\varepsilon) \) 阶矩条件。模型是纯非参数：除矩条件外无其他假设（无线性结构、无低维结构）。
可观测数据：研究者可观测到 \( X_1, \dots, X_n \) 及其损失值 \( \ell(\theta, X_i) \) 对任意 \( \theta \in \Theta \)。想要但不可观测的是真实风险函数 \( R(\theta) \) 及其最小化器 \( \theta_0 \)。

第二步：讲最小内核——用最简例子看清核心思路¶

设参数空间退化为单点 \( \Theta = \{\theta\} \)，只关注一个固定参数的稳健估计，即估计 \( \mu = \mathbb{E}[\ell(\theta, X)] \)。这就是经典的 Catoni (2012) 问题。

最简例子： 假设 \( \ell(\theta, X) \) 具有方差不存在但只存在 \( (1+\varepsilon) \) 阶矩（例如 \( \ell = Z \)，其中 \( Z \) 的密度为 \( c|z|^{-(2+\varepsilon)} \mathbb{I}_{|z|>1} \)）。我们想估计 \( \mu = \mathbb{E}[Z] \)。

经典样本均值 \( \bar{Z}_n \) 收敛到 \( \mu \)，但其置信区间半径依赖于方差（不存在），导致经典 CLT 无用。

Catoni 的想法： 不直接平均 \( Z_i \)，而是求方程的解：

\[\sum_{i=1}^n \rho\left( \frac{Z_i - \mu}{\psi} \right) = 0\]

其中 \( \rho \) 是某个奇函数（如 \( \rho(x) = \text{sign}(x) \log(1+|x|) \)），\( \psi \) 是常数（与矩阶数 \( 1+\varepsilon \) 有关）。方程的解 \( \widehat{\mu}_n \) 不仅能一致地估计 \( \mu \)，而且只要 \( n \) 充分大，其置信区间半径可 与有方差情形同阶（即 \( O(\sqrt{\log(1/\delta)/n}) \)），但常数依赖于矩阶数。

映射回本文的核心思路：将这个思想从单一期望推广到整个参数空间 \( \Theta \) 上。对每个 \( \theta \)，定义 \( \widehat{R}_n(\theta) \) 为上述 Catoni 估计量，然后令 \( \widehat{\theta}_n = \arg\min_{\theta \in \Theta} \widehat{R}_n(\theta) \)。要证明：

\[R(\widehat{\theta}_n) - R(\theta_0) \leq \text{某个随 } n \to \infty \text{ 趋于 0 的界}\]

核心挑战是：由于 Catoni 方程的数值解不是简单的线性函数，经验过程 \( \{\widehat{R}_n(\theta) - R(\theta) : \theta \in \Theta\} \) 的结构与经典经验过程（形如 \( \{\frac{1}{n}\sum_i \ell(\theta, X_i) - \mathbb{E}[\ell(\theta, X)]\} \)）不同，导致 generic chaining 等经典 uniform bound 技巧无法直接复制。本文的核心技术贡献就是在一个 generalized chaining 框架中处理这种非线性过程。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在损失函数仅存在 \( (1+\varepsilon) \) 阶矩（\( 0<\varepsilon\le1 \)）、方差无限的条件下，如何稳健地估计风险最小化器 \( \theta_0 \) 并刻画其 excess risk 的收敛速率。
核心工具/方法：使用 Catoni 型影响函数 对每个 \( \theta \) 的风险值做稳健估计，再对该估计量在全参数空间 \( \Theta \) 上取最小化，并利用 generalized generic chaining 建立该估计过程的 uniform deviation bound。
主要结论：在适当假设下，构造的估计量 \( \widehat{\theta}_n \) 满足 excess risk 上界：
\[R(\widehat{\theta}_n) - R(\theta_0) \lesssim n^{-\frac{\varepsilon}{2(1+\varepsilon)}}\]
这个收敛率在多项式对数因子下是最优的（与对应 minimax 下界一致）。此外，论文还分析了两种优化算法：稳健梯度下降法（基于 Mendelson 框架）和直接基于 Catoni 风险最小化的算法，并给出了其计算复杂度与统计效率的 trade-off。

关键设定与假设¶

核心假设（重尾）：对于每个 \( \theta \in \Theta \)，损失 \( \ell(\theta, X) \) 满足 \( \mathbb{E}[|\ell(\theta, X) - R(\theta)|^{1+\varepsilon}] \leq \sigma^{1+\varepsilon} \) 对某个已知常数 \( \sigma > 0 \) 成立。即对齐后的一阶矩存在但无有限二阶矩。
参数空间结构：\( \Theta \) 是度量空间，直径有限，且度量熵（metric entropy）以某种多项式率增长（这是 generalized chaining 的常规假设）。具体地，其 covering number 满足 \( \log N(\Theta, \|\cdot\|, \delta) \lesssim \delta^{-d} \) 或指数型。
损失函数的 Lipschitz-like 条件：存在常数 \( L \) 使得 \( |\ell(\theta, X) - \ell(\theta', X)| \leq L \|\theta - \theta'\| \cdot B \) 对某个 \( B \) 成立（或类似条件，保证过程均匀 Lipschitz）。这是 chaining 证据所需的关键平滑性。
Catoni 影响函数性质：要求 \( \rho \) 二次可微且满足 \( |\rho'(x)| \le 1 \)，\( |\rho''(x)| \le c \)（类似 \( \log(1+x+x^2/2) \)）。

主要结果¶

定理 2（Excess risk upper bound）：在以上假设下，对任意 \( \delta \in (0,1) \)，当 \( n \ge C(\varepsilon, \sigma) \cdot (\log N(\Theta, 1/\sqrt{n}))^{1+1/\varepsilon} \) 时，有：
\[R(\widehat{\theta}_n) - R(\theta_0) \le C' \cdot n^{-\frac{\varepsilon}{2(1+\varepsilon)}} \sqrt{\log(1/\delta)}\]
其证明核心是将 excess risk 分解为两部分：Catoni 估计的偏差部分（来自任一 \( \theta \) 的稳健估计与真实风险之差）加上由 uniform deviation bound（generalized chaining）控制的随机部分。
定理 3（Robust gradient descent 的收敛性）：若 \( R \) 是 \( \lambda \)-强凸（按某种 loss 的泛函范数），则利用 Catoni 型梯度估计（类似用 Catoni 估计替代样本均值梯度）进行梯度下降，能在 \( O(1/\lambda \cdot \log(1/\epsilon)) \) 步内达到 \( \epsilon \)-最优。
数值实验结论：在多种重尾分布（log-normal, Pareto, Student-t 等）下，基于 Catoni 稳健风险最小化的方法在整个参数空间上选择最小化，优于先将数据截断（truncation）再应用经典 ERM 的方法。具体来说，截断法往往会增加偏差，并导致选择的风险最小化器偏离真实的最优点。

证明路线与技术技巧¶

整体路线（三步）：
局部化（localization）：将分析局限在 \( \theta_0 \) 附近的球域 \( B(\theta_0, r) \)。这是 uniform bound 的标准技巧——远离 \( \theta_0 \) 的点，通过 Lipschitz 条件和参数空间有限直径可将 excess risk 约束为 \( O(r) \)。
建立差距（gap）：对局部球域内的每个 \( \theta \)，使用 Catoni 估计量构造 \( \widehat{R}_n(\theta) \) 并定义“稳健偏差” \( \Delta_n(\theta) = \widehat{R}_n(\theta) - R(\theta) \)。证明：在 \( n \) 充分大时，\( \Delta_n(\theta) \) 以高概率一致地小（均匀逼近）。
用 generalized chaining 控制 \( \sup_{\theta \in B(\theta_0, r)} |\Delta_n(\theta)| \)：这是最关键的一步。由于 \( \widehat{R}_n(\theta) \) 是隐式定义的方程解，不是简单的样本均值，其随机性来自于经验过程 \( \{ \sum_{i=1}^n \rho( (\ell(\theta, X_i) - \widehat{R}_n(\theta))/\psi ) \} \)。论文通过隐函数定理将 \( \Delta_n(\theta) \) 线性化为 \( \frac{\psi}{n} \sum_{i=1}^n \rho'(\cdots) \cdot (\ell(\theta, X_i) - R(\theta)) \) 加上高阶余项（被证明为一致可忽略），再利用经典 chaining 界处理线性部分。
关键跳跃点：
定理 2 中的余项控制：隐函数定理的泰勒展开的高阶项处理。条件 \( \rho'' \) 有界且矩阶数 \( (1+\varepsilon) \) 确保余项以速率 \( O(n^{-2\varepsilon/(1+\varepsilon)}) \) 消失，这需要利用 von Bahr & Esseen 矩不等式（对 sum of centered heavy-tailed r.v. 的 Lp 界）。这是本文不同于经典 Catoni 线性部分的原因。
Generalized chaining 的适应：经典 chaining 子类限于期望在 sup-norm 下均匀有界，这里需处理 Catoni 估计量引起的变换后的过程。论文引入了一个针对 “Catoni-type influence function” 的线性化后的过程，然后对线性过程直接运用 chaining。严格证明线性化误差一致小需要 离差不等式（deviation inequality） 在矩缺失下的推广。
技术技巧点名：
Catoni 影响函数（ρ）：构造稳健估计量。
Generalized generic chaining：用于控制线性化后的经验过程的上确界。
隐函数定理 + Taylor 展开：将非线性的 Catoni 估计问题线性化。
von Bahr & Esseen 不等式：处理重尾线性组合的 p 阶矩（p = 1+ε）。
Lipschitz 参数空间 covering number 假设：保证 chaining 树的根长有限。

真实例子与应用¶

本文为纯理论 + 模拟研究，无真实数据例子。

数值实验部分包括： - 模拟数据：设定参数空间为有限维（例如线性回归 \( \ell(\theta, X) = (y - \theta^T x)^2 \) 且 \( y \) 服从 Pareto 分布），比较三种方法： 1. Catoni-ERM（本文）：先用 Catoni 稳健估计每个 θ 的风险值，再最小化。 2. Truncation-ERM：先对样本按某个分位数截断，再运行经典 ERM。 3. Oracle ERM（若有真实风险）。 - 结果：在重尾程度很重的设定（ε → 0）下，Catoni-ERM 的 excess risk 显著低于 Truncation-ERM。在中等重尾（ε = 0.5 左右）二者较接近。 - 举例意图：验证理论的预测——截断法引入的偏差会损害下游优化，而 Catoni 方法直接对原始风险做稳健估计，避免了这个偏差。

🔎 结论是否比证明窄¶

显著窄的地方：论文的主要 theorem（Thm 2）的速率 \( n^{-\varepsilon/(2(1+\varepsilon))} \) 是在参数空间度量熵为多项式增长（\( \log N(\Theta, \delta) \lesssim \delta^{-d} \)）下得到的。但对很多实际非参数模型（如 Hölder 球），其 metric entropy 是指数形式的（\( \log N(\Theta, \delta) \lesssim \delta^{-d/p} \)）。论文在 Theorem 2 的陈述中 没有显式写出该假设，仅在证明中用到。这导致声称的优化速率仅适用于有限维或“不太大”的参数空间，但作者在结论的讨话里未明确限定。建议研究者查看 Theorem 2 的陈述中是否含“假设 ℓ 满足 Lipschitz 且 Θ 的 covering number 具有多项式增长”。
另一个窄化：算法分析（robust gradient descent）的收敛性假设目标函数强凸。这对很多实际 ERM 任务不成立（如神经网络等高非凸）。作者提到“we leave the case where R is not strongly convex for future work”，但在结论段落未强调此局限。

四、开放问题（点到为止）¶

非凸与非强凸情况（定理 3 的局限）：论文在优化方面的理论只适用于强凸目标函数。能否拓展到非凸（如神经网络）的稳健优化？（见原文 Theorem 3 假设段）
最优性的检验：文中 excess risk 的上界速率 \( n^{-\varepsilon/(2(1+\varepsilon))} \) 是否是与 minimax 最优的精确匹配？这需要下界论证，论文未做。研究者可用自己的 minimax 下界武器直接检验（特别是对于 Hölder 类参数空间）。
高维正则化：如果参数空间 Θ 高维（p >> n），如何在重尾下进行正则化？Catoni 方法与 lasso 等稀疏惩罚结合的理论数学尚未建立，仅含糊提及“future work”。（见 Conclusion 段）
高阶 U-统计量的稳健估计：论文只处理了最简单的 i.i.d. 损失（经验风险是 n 个独立项的和）。对于需用 U-统计量（如成对损失、高阶 interaction）的 ERM，Catoni 估计如何推广？这是一个自然的开放性扩展，且直接连接到你的 U-statistic / tensor-network 兴趣。

Maintained by 陈星宇 · Homepage · Source on GitHub