Concentration inequalities for classical and smoothed empirical processes of independent and dependent random variables¶

作者: Eric Beutner, Henryk Zähle
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.3150/25-bej1868

一、领域脉络与小综述¶

这个方向是什么：经验过程的浓度不等式是非参数统计的理论地基——它回答的根本问题是：给定一个函数类 \(\mathcal{F}\)，经验测度与真实测度之间的最大偏差 \(\sup_{f \in \mathcal{F}} |P_n(f) - P(f)|\) 以多快的指数速率衰减？这个速率直接决定了非参数估计的 sup-范数收敛速度、同时置信带的宽度、以及假设检验临界值的控制。当前该子方向在 i.i.d. 设定下已有相当成熟的界（如 DKW、Talagrand），但在（1）更一般的函数类（如有界变差函数）能否达到 DKW 的最优常数、（2）平滑经验过程（核密度估计的理论载体）的浓度界、（3）相依数据下的对应界这三个前沿上，仍有明确的缺口。

发展脉络： - 奠基工作：Dvoretzky-Kiefer-Wolfowitz (1956) 给出了经验分布函数的指数界；Massart (1990) 在 P(1990) 的基础上补上了最优常数 \(c=2\)，即 \(P(\sup_x |F_n(x)-F(x)| > t) \leq 2\exp(-2nt^2)\)，这构成了本文要推广的"原点"。 - 主要进展：Talagrand (1996) 给出了针对一般函数类的经验过程浓度不等式（著名的 Talagrand 不等式），界的形式为 \(\exp(-C nt^2 / \sigma^2)\)，其中 \(\sigma^2\) 是函数类在 \(P\) 下的方差上界。这是当前最广泛使用的通用工具。 - 当前 frontier 与缺口： 1. 函数类的推广：DKW/Massart 只针对半直线上的指示函数类 \(\{I_{(-\infty, x]}\}\)。对更宽的函数类（如一致有界变差函数 BV），能否保持 \(\exp(-2nt^2)\) 这种不含 \(\sigma^2\) 的最优形式？作者在 intro 中点明：Talagrand 不等式因依赖 \(\sigma^2\)，无法直接推出不含 \(\sigma^2\) 的 Massart 型界——这就是本文要绕过的技术障碍。 2. 平滑经验过程：核密度估计的理论分析依赖平滑经验过程 \(\sup_x |P_n(K_h(\cdot - x)) - P(K_h(\cdot - x))|\)。作者指出，现有文献（如 Giné & Nickl 的工作）多关注渐近正态性与 Berry-Esseen 界，而指数型浓度界在平滑情形下缺乏与 Massart 对应的精确结果。 3. 相依数据：对线性过程等相依序列，经典经验过程的浓度界近年才有突破（作者引用了 Merlevède, Peligrad, Rio 等人的工作），但平滑经验过程的浓度界在相依设定下完全空白——本文首次填补。

子线索聚类： 1. 经典经验过程在 BV 函数类上的浓度：从 Massart (1990) 的指示函数类 → 本文的 BV 函数类。核心张力：Talagrand 不等式在此处"过宽"（引入 \(\sigma^2\)），需要更精细的结构性工具。 2. 平滑经验过程的浓度：从 i.i.d. 下的渐近分布理论 → 本文的指数型浓度界。子线索内部：Giné & Nickl 关注 Bootstrap 与渐近，本文关注有限样本指数衰减。 3. 相依数据下的经验过程浓度：从 i.i.d. 的 DKW/Massart → 线性过程下的对应界。子线索内部：Merlevède 等人给出了经典过程的界，本文将其延伸到平滑过程。

这个方向在追问的核心问题： 1. 对 BV 函数类，Massart 的 \(\exp(-2nt^2)\) 界能否保持？常数 \(2\) 是否仍最优？ 2. 平滑经验过程的浓度界，其指数衰减率是否与经典过程一致？核宽 \(h\) 如何影响界？ 3. 相依（线性过程）设定下，平滑经验过程的浓度界形式是什么？相依结构如何体现在常数或指数中？

⚠️ 作者的 framing： - 作者把缺口 frame 为：Talagrand 不等式虽是通用工具，但在 BV 函数类上无法给出不含 \(\sigma^2\) 的最优界，因此需要一条绕过 Talagrand 的证明路线来恢复 Massart 型的精确常数。这让本文的推广成为"显然的下一步"。 - 被淡化的竞争路线：Giné & Nickl 等人的 Berry-Esseen / Bootstrap 路线在渐近推断上极强，但作者只提其渐近性质、不提其有限样本界——这可能是因为 Berry-Esseen 界的速率是 \(O(n^{-1/2})\) 而非指数型，两者服务不同目的（推断 vs. 浓度），但作者未明确讨论这一分工。 - 明显该引但未出现的文献：高维经验过程的浓度界（如 sparse 设定下的 Talagrand 变体、或 Chernoff/Hoeffding 在高维的推广）未出现在 intro——这可能是因为本文严格限定在实值随机变量的一维函数类，但若研究者想查"BV 函数类浓度界在高维的对应"，这是一个值得去检索的缺口。

张力：未见明显对立引用。Talagrand 与 Massart 的"矛盾"是技术性的（Talagrand 界过宽而非错误），不是结论对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(X_1, \dots, X_n\)：可观测的实值随机变量（样本）。i.i.d. 情形下同分布于 \(P\)；相依情形下为线性过程的实现。
\(P\)：真实概率测度（分布函数 \(F\)），未知，是要推断的对象。
\(P_n\)：经验测度，定义为 \(P_n = \frac{1}{n}\sum_{i=1}^n \delta_{X_i}\)，其中 \(\delta_{X_i}\) 是 Dirac 测度。这是可观测的随机测度。
\(\mathcal{F}\)：函数类，本文核心关注两类：
\(\mathcal{F}_{BV} = \{f: \mathbb{R} \to \mathbb{R}, \|f\|_{TV} \leq V, \|f\|_\infty \leq M\}\)：一致有界变差函数类（总变差 \(\leq V\)，范数 \(\leq M\)）。
\(\mathcal{F}_{ind} = \{I_{(-\infty, x]} : x \in \mathbb{R}\}\)：指示函数类（经典 DKW/Massart 的设定）。
\(K_h(\cdot - x)\)：核函数 \(K\) 平移到 \(x\)、带宽 \(h\)，定义为 \(K_h(u) = \frac{1}{h}K(\frac{u}{h})\)。这是平滑经验过程的载体函数。
\(\mathcal{G}_h = \{K_h(\cdot - x) : x \in \mathbb{R}\}\)：平滑函数类（核密度估计的函数类）。
经典经验过程：\(Z_n(f) = P_n(f) - P(f) = \frac{1}{n}\sum_{i=1}^n f(X_i) - \mathbb{E}[f(X)]\)，对 \(f \in \mathcal{F}\)。
平滑经验过程：\(Z_n^s(g) = P_n(g) - P(g)\)，对 \(g \in \mathcal{G}_h\)。
要估的量 / 目标：不是估某个参数，而是控制 \(\sup_{f \in \mathcal{F}} |Z_n(f)|\) 或 \(\sup_{g \in \mathcal{G}_h} |Z_n^s(g)|\) 的尾部概率 \(P(\sup |Z_n| > t)\) 的指数衰减率。

第二步：最小内核——Massart 界在 BV 函数类上的推广

整篇论文的数学内核可以浓缩为：把 Massart (1990) 对指示函数类的 \(\exp(-2nt^2)\) 界，推广到一致有界变差函数类，且不依赖方差 \(\sigma^2\)。

最简特例：\(\mathcal{F}_{BV}\) 上的浓度界

考虑 i.i.d. 实值随机变量 \(X_1, \dots, X_n \sim P\)，函数类 \(\mathcal{F}_{BV}\)（总变差 \(\leq V\)，范数 \(\leq M\)）。要证的命题是：

\[P\left(\sup_{f \in \mathcal{F}_{BV}} |P_n(f) - P(f)| > t\right) \leq C \exp(-2nt^2 / V^2)\]

（常数 \(C\) 与 \(V, M\) 有关，但指数部分不含 \(\sigma^2\)。）

为什么这不容易？ Talagrand 不等式给出的界是 \(\exp(-cnt^2 / \sigma^2)\)，其中 \(\sigma^2 = \sup_{f \in \mathcal{F}} \text{Var}(f(X))\)。对 BV 函数类，\(\sigma^2\) 可以很小（例如 \(f\) 接近常数时 \(\sigma^2 \approx 0\)），此时 Talagrand 界的分母 \(\sigma^2\) 使得界变得无用（\(\exp(-cnt^2 / \sigma^2)\) 在 \(\sigma^2 \to 0\) 时反而变大，无法反映真正的浓度）。Massart 的原始证明利用了指示函数类的单调性（\(I_{(-\infty, x]}\) 随 \(x\) 单调递增），通过分箱（binning）+ 直接计数得到 \(\exp(-2nt^2)\)。BV 函数类不再单调，但可以分解为两个单调函数的差（Jordan 分解：\(f = f_1 - f_2\)，\(f_1, f_2\) 单调递增，\(\|f_1\|_{TV} + \|f_2\|_{TV} = \|f\|_{TV}\)）。本文的核心想法是：利用 Jordan 分解，把 BV 函数类上的 sup 拆解为两个单调函数类上的 sup 之差，然后对每个单调类应用 Massart 型界，再合并。这绕过了 Talagrand，直接恢复了 \(\exp(-2nt^2 / V^2)\) 的形式。

平滑经验过程的最简内核：对 \(\mathcal{G}_h = \{K_h(\cdot - x)\}\)，核 \(K\) 本身是 BV 函数（若 \(K\) 有界变差），因此 \(\mathcal{G}_h \subset \mathcal{F}_{BV}\)（适当缩放后），上述 BV 界直接给出平滑经验过程的浓度界。这是本文第二组结果的逻辑支点。

三、这篇论文做了什么¶

三句话： ①研究了 i.i.d. 和线性过程下，经典与平滑经验过程在 BV 函数类上的浓度不等式； ②核心工具是 BV 函数的 Jordan 分解 + Massart 型分箱论证，绕过了 Talagrand 不等式对 \(\sigma^2\) 的依赖； ③主要结论：对 i.i.d. BV 函数类，得到了 \(\exp(-2nt^2 / V^2)\) 型界（不含 \(\sigma^2\)）；对 i.i.d. 平滑经验过程，得到了类似界；对线性过程下的平滑经验过程，首次给出了浓度界。

关键设定与假设：

i.i.d. 设定：\(X_1, \dots, X_n\) 独立同分布于 \(\mathbb{R}\) 上的概率测度 \(P\)。
BV 函数类假设：\(\mathcal{F}_{BV} = \{f: \mathbb{R} \to \mathbb{R}, \|f\|_{TV} \leq V, \|f\|_\infty \leq M\}\)。统计含义：允许函数波动（变差 \(\leq V\)），但限制振幅（\(\leq M\)），这覆盖了密度函数、回归函数、核函数等常见非参数对象。
核函数假设：核 \(K\) 满足 \(\int K = 1\)，\(K\) 有界变差（\(\|K\|_{TV} < \infty\)），\(K\) 有界支撑或有界。统计含义：标准的非参数核密度/回归估计条件。
线性过程设定：\(X_t = \sum_{j=0}^\infty \psi_j \epsilon_{t-j}\)，其中 \(\epsilon_t\) i.i.d.，系数 \(\psi_j\) 满足 \(\sum |\psi_j| < \infty\)（短记忆相依）。统计含义：覆盖 ARMA 等常见时间序列模型，排除长记忆过程。

相比已有文献：Massart (1990) 只针对指示函数类（\(V=1, M=1\) 的特例）；Talagrand (1996) 针对一般函数类但依赖 \(\sigma^2\)；Merlevède 等人对相依经典过程给出了界但未涉及平滑过程。本文在函数类上从指示推广到 BV，在过程类型上从经典推广到平滑，在数据结构上从 i.i.d. 推广到线性过程。

主要结果：

定理 1（i.i.d. BV 函数类上的 Massart 型界）：

\[P\left(\sup_{f \in \mathcal{F}_{BV}} |P_n(f) - P(f)| > t\right) \leq C(V, M) \exp(-2nt^2 / V^2)\]

- 直觉：BV 函数可 Jordan 分解为两个单调函数之差，每个单调函数类上的 sup 可用 Massart 型界控制，合并后总变差 \(V\) 出现在指数分母（因为两个单调分量各带 \(\leq V/2\) 的变差）。 - 必要条件：\(t > 0\)，\(n\) 足够大使得界非平凡；\(V, M\) 有限。 - 解决的技术难点：绕过 Talagrand 的 \(\sigma^2\) 依赖，利用 Jordan 分解的结构性信息直接得到 \(\exp(-2n t^2 / V^2)\)。

定理 2（i.i.d. 平滑经验过程的浓度界）：

\[P\left(\sup_{x \in \mathbb{R}} |P_n(K_h(\cdot - x)) - P(K_h(\cdot - x))| > t\right) \leq C' \exp(-2nt^2 / \|K\|_{TV}^2)\]

- 直觉：\(K_h(\cdot - x)\) 作为 \(x\) 的函数属于 BV 类（总变差 \(\|K\|_{TV} / h\)，但经过适当缩放后 \(\|K_h\|_{TV} = \|K\|_{TV}\)），直接套用定理 1。 - 必要条件：核 \(K\) 有界变差。 - 解决的技术难点：将核密度估计的 sup-范数偏差控制从渐近 Berry-Esseen 界提升到有限样本指数型界。

定理 3（线性过程下平滑经验过程的浓度界）：对线性过程 \(X_t = \sum \psi_j \epsilon_{t-j}\)，存在常数 \(C_{dep}\)（依赖于 \(\psi_j\) 的衰减率），使得：

\[P\left(\sup_{x} |P_n(K_h(\cdot - x)) - P(K_h(\cdot - x))| > t\right) \leq C_{dep} \exp(-c_{dep} nt^2)\]

- 直觉：利用 Merlevède 等人对相依经典经验过程的浓度界，结合核函数的 BV 性质，将相依性吸收到常数 \(C_{dep}, c_{dep}\) 中。 - 必要条件：线性过程、短记忆（\(\sum |\psi_j| < \infty\)）。 - 解决的技术难点：首次将相依设定下的经典经验过程界迁移到平滑经验过程，需要控制相依性在核平滑下的累积效应。

证明路线与技术技巧：

整体路线（定理 1）： 1. Jordan 分解：任意 \(f \in \mathcal{F}_{BV}\) 写为 \(f = f^+ - f^-\)，其中 \(f^+, f^-\) 单调递增，\(\|f^+\|_{TV} + \|f^-\|_{TV} = \|f\|_{TV} \leq V\)。 2. 单调函数类的分箱：对单调递增函数类 \(\mathcal{M}^+ = \{f^+: \text{单调递增}, \|f^+\|_{TV} \leq V/2, \|f^+\|_\infty \leq M\}\)，利用 Massart 的分箱论证（将 \(\mathbb{R}\) 分成有限个区间，单调函数在每个区间上的值被端点值控制），把 \(\sup_{f^+ \in \mathcal{M}^+} |P_n(f^+) - P(f^+)|\) 约化为有限个端点上的偏差之 sup。 3. 应用 Massart 界：对约化后的有限维 sup，应用 Massart (1990) 的 \(\exp(-2nt^2)\) 界（适当缩放以吸收 \(V/2\)）。 4. 合并两个单调分量：\(\sup_{f \in \mathcal{F}_{BV}} |Z_n(f)| \leq \sup_{f^+ \in \mathcal{M}^+} |Z_n(f^+)| + \sup_{f^- \in \mathcal{M}^-} |Z_n(f^-)|\)，对两个分量分别用 Massart 界，通过 union bound 合并，得到 \(\exp(-2nt^2 / V^2)\) 型界。

关键跳跃点： - Jordan 分解后单调类的分箱控制：这是最吃功夫的一步。单调函数类虽比指示函数类宽，但仍有"单调性"这一强结构。作者需要证明：分箱后，单调函数在箱内的偏差可以被端点偏差 + 变差控制，且分箱的粒度与 \(n, t\) 的选择使得误差不破坏 \(\exp(-2nt^2 / V^2)\) 的指数率。这里的技巧是：分箱数 \(k\) 选为 \(O(n t^2 / V)\)，使得 union bound 引入的因子 \(k\) 被指数中的 \(n t^2\) 吸收。

技术技巧点名： - Jordan 分解：用于将 BV 函数拆为两个单调函数，是绕过 Talagrand 的结构性关键。 - Massart 的分箱论证：用于将单调函数类上的 sup 约化为有限维 sup，是证明的核心计算步骤。 - Union bound + 指数吸收：分箱引入有限个事件，union bound 的代价被指数中的 \(nt^2\) 吸收（因为分箱数 \(k = O(nt^2/V)\)，\(\log k = O(\log n)\)，可被 \(\exp(-cnt^2)\) 的主导项压过）。 - 线性过程的协方差衰减控制：在定理 3 中，利用 \(\sum |\psi_j| < \infty\) 控制相依性对经验过程偏差的累积贡献，将相依效应吸收到常数中。

真实例子与应用：本文为纯理论论文，无实证数据例子。所有结果以定理形式给出，未包含模拟或数据分析。

🔎 结论是否比证明窄： - 定理 1 的界中常数 \(C(V, M)\) 的具体形式在证明中可追踪（依赖于分箱数与 Jordan 分解的参数），但定理陈述中只给出 \(C(V, M)\) 的存在性，未显式写出最优常数——这是比证明更窄的陈述（证明实际上给出了一个可计算的 \(C\)，但定理只 claim 存在性）。 - 定理 3 对线性过程的常数 \(C_{dep}, c_{dep}\) 同样只给出存在性，未显式表达为 \(\psi_j\) 的函数——研究者若需具体常数，需回溯证明中的构造。 - 论文在 intro 中 claim "Talagrand 不等式不能给出类似结果"，这是一个定性判断而非严格定理——文中给出了技术性解释（Talagrand 界含 \(\sigma^2\)，对 BV 类 \(\sigma^2\) 可趋于 0），但未以定理形式证明"不存在 Talagrand 的任何变体能给出 \(\exp(-2nt^2/V^2)\) 型界"。这值得研究者注意：这是一个合理的观察，但不是数学命题。

四、开放问题（点到为止，扎根具体语句）¶

常数 \(C(V, M)\) 的最优性：定理 1 给出了 \(\exp(-2nt^2 / V^2)\) 型界，但常数 \(C(V, M)\) 是否最优？Massart (1990) 对指示函数类给出了最优常数 \(2\)；对 BV 函数类，\(C(V, M)\) 的下界是什么？扎根点：定理 1 陈述中 \(C(V, M)\) 未显式给出，intro 第 2 段提到 Massart 的常数 \(2\) 是最优的，但未讨论 BV 类的常数最优性。
长记忆过程的平滑经验过程浓度界：定理 3 要求 \(\sum |\psi_j| < \infty\)（短记忆），排除了长记忆过程（如 \(\psi_j \sim j^{-\alpha}, \alpha \leq 1\)）。长记忆下平滑经验过程的浓度界形式是什么？扎根点：定理 3 的假设明确要求短记忆，intro 末段提到"线性过程"但未讨论长记忆的缺口。
高维推广：本文严格限定在实值随机变量（\(d=1\)）。对 \(\mathbb{R}^d\) 上的 BV 函数类（或多维核密度估计），Jordan 分解不再可用（多维单调性定义复杂），是否存在替代的结构性工具给出类似界？扎根点：全文设定为 \(\mathbb{R}\)，intro 与定理均未涉及 \(d>1\)；研究者可检索高维 BV 函数类经验过程的现有文献确认此缺口是否为共识。
Talagrand 不等式在 BV 类上的不可改进性：文中 claim Talagrand 不能给出不含 \(\sigma^2\) 的界，但未严格证明"任何 Talagrand 变体在 BV 类上必含 \(\sigma^2\)"。这是否可以形式化为一个反例或下界？扎根点：intro 第 2 段的定性判断，以及定理 1 证明路线刻意绕过 Talagrand 的设计。

Maintained by 陈星宇 · Homepage · Source on GitHub

Concentration inequalities for classical and smoothed empirical processes of independent and dependent random variables¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论