Minimax Limits of k-Fold Cross-Validation via Majority¶

作者: Ido Nachum, R\"udiger Urbanke, Thomas Weinberger
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2605.25859

一、核心问题与贡献¶

①研究了 \(k\) 折交叉验证（CV）作为风险估计器时，其均方误差（MSE）如何随折数 \(k\) 变化这一长期悬而未决的问题。②核心工具是对最简非平凡 ERM（Majority 算法）的精细组合与渐近分析，并由此建立 minimax 框架。③主要结论是：当折数 \(k\) 随样本量 \(n\) 增长时，没有任何 ERM 算法能达到 \(O(1/n)\) 的 minimax MSE，下界为 \(\Omega(\sqrt{k}/n)\)；且现有基于稳定性的理论在此简单算法上即失效或 vacuous。

二、基础设定¶

核心概念与符号：
\(S_n\): 样本量 \(n\) 的 i.i.d. 数据集；\(S_i, S_{-i}\): 第 \(i\) 折验证集与训练集。
\(\hat{L}^{(k)}_{CV}(A, S_n)\): \(k\) 折 CV 风险估计器；\(L(A(S_n))\): 全样本算法的真实风险。
\(\text{MSE}^{(k)}_{CV}(A, D) := \mathbb{E}[(\hat{L}^{(k)}_{CV} - L)^2]\): CV 风险估计的均方误差。
\(\Re_{CV}(A) := \min_{k|n} \max_{D} \text{MSE}^{(k)}_{CV}(A, D)\): 算法 \(A\) 的 minimax CV 风险。
Majority 算法 \(A_{maj}\): 输出常数假设 \(h_0\) 或 \(h_1\)，取决于样本中标签 1 的计数是否过半。
关键假设：
ERM 算法假设：算法为经验风险最小化器（非平凡，\(|\mathcal{H}| \ge 2\)）。含义：排除了常数算法（其 CV MSE 可达 \(O(1/n)\)），聚焦于有学习行为的算法；与已有文献相比，这是标准假设，但本文首次证明其在此假设下必然无法达到 \(1/n\) 最优率。
随机标签模型：\(y_i \sim \text{Ber}(1/2)\) 且与 \(x_i\) 独立。含义：构造最坏分布，使得算法处于决策边界最不稳定的状态；强化了特定设定以获取精确闭式解，但 minimax 下界通过归约证明其对所有分布成立。
对称性假设：算法对样本置换不变。含义：标准统计假设，保证折间估计的对称性。
问题背景：现有 CV 理论（如 Kearns & Ron 1997, Kumar et al. 2013）基于算法稳定性给出的 MSE 上界，随 \(k\) 减小反而变松，甚至与真实行为相反。本文指出这些上界在 Majority 算法上相差 \(\Theta(\sqrt{n})\) 或 \(\Theta(n)\) 倍，且发现 Kearns & Ron 1997 和 Kale et al. 2011 存在数学错误。最相关文献区别：Kumar et al. 2013 基于损失稳定性，本文证明该概念对 MSE 不必要且上界 vacuous；Bengio & Grandvalet 2004 证明 CV 方差无偏估计不存在，本文则直接给出 MSE 的精确量级与 minimax 下界。

三、主要定理 / 核心结果¶

定理 9 (Majority Asymptotics) 1. 原文陈述：在随机标签模型下，Majority 算法的 \(k\) 折 CV 协方差 \(\text{Cov}(n, m) = \Theta(\sqrt{k}/n)\)，且 MSE 在 \(k=2\) 时最小，为 \(\text{MSE}^{(2)}_{CV} = 1/(4n) + 1/(2\pi n) + o(n^{-1})\)。 2. 直观解释：数据复用导致折间估计强正相关，且这种相关性随折数 \(k\) 增大而恶化（因为训练集重叠增加）。折数越少，训练集差异越大，反而削弱了正相关，降低了 MSE。这解释了为何 \(k=2\)（最不重叠）是最优的。 3. 解决了什么技术难点：精确量化了折间相依结构。以往工作只能给出粗略的稳定性参数界，本文通过 "Factorization" 将协方差计算归

Maintained by 陈星宇 · Homepage · Source on GitHub

Minimax Limits of k-Fold Cross-Validation via Majority¶

一、核心问题与贡献¶

二、基础设定¶

三、主要定理 / 核心结果¶

评论