A Donsker and Glivenko‐Cantelli theorem for random measures linked to extreme value theory¶
作者: B. Bobbia, C. Dombry, D. Varron
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.1111/sjos.70007
一、领域脉络与小综述¶
这个方向是什么: 这个子方向研究的是条件随机点测度的经验过程理论。根本的统计问题是:当我们面对一类并非由独立同分布样本直接生成的经典经验测度,而是由某个外生随机现象驱动的、具有条件独立结构的随机点测度时,经典经验过程的收敛律(如 Glivenko-Cantelli 一致收敛、Donsker 渐近正态性)是否依然成立?在什么函数类上成立?Bootstrap 是否有效?该方向目前已有针对特定测度(如极值理论中的点过程)的局部结果,但缺乏一个统一处理“条件经验过程”的通用 Donsker/GC 框架,本文正是试图填补这一空白。
发展脉络(history): - 奠基工作:经典经验过程理论由 van der Vaart & Wellner (1996) 系统建立,其核心是通过函数类的 uniform entropy number 或 bracketing number 给出 GC 与 Donsker 定理的充分条件。这构成了本文所有结论的“基准线”与假设来源。 - 主要进展(极值理论分支):在极值理论中,对极端事件的点过程收敛研究由来已久。Leadbetter et al. (1983) 与 Resnick (1987) 建立了平稳序列极值的点过程收敛;近年来,Dombry et al. (2015, 2017) 证明了极值点过程在 Skorokhod 空间中的条件收敛,但这类结果局限于极值理论的特定函数类与特定测度结构,未提炼出通用的经验过程条件。 - 主要进展(最近邻规则分支):Devroye et al. (1996) 与 Biau & Devroye (2015) 研究了最近邻规则的渐近性质,其中涉及对随机点测度积分的收敛,但同样缺乏对底层测度经验过程 Donsker 性的系统性刻画。 - 当前 frontier 与本文位置:前述工作在各自领域内处理了条件测度的收敛,但都依赖特定模型的结构,未能回答一个一般性问题:如果随机点测度在给定外生变量下具有类似经验测度的性质,van der Vaart & Wellner 的 entropy 条件是否足以直接保证其 GC 与 Donsker 收敛? 本文(Bobbia, Dombry, Varron 2024)将极值点过程与最近邻测度统一抽象为“条件随机点测度”,证明经典 entropy 条件不仅是必要的,也是充分的,并补上了 Bootstrap 有效性这一缺失环节。
子线索聚类: 1. 经典经验过程与 entropy 理论:以 van der Vaart & Wellner (1996) 为核心,研究 i.i.d. 经验测度在函数类上的收敛,依赖 uniform entropy number 与 bracketing number。本文直接沿用其定义与框架。 2. 极值理论中的条件点过程:以 Resnick (1987)、Dombry et al. (2015, 2017) 为代表,研究平稳序列极端观测形成的点过程在给定外生气候变量下的条件收敛。本文将此作为核心应用场景之一,其抽象模型直接脱胎于此。 3. 最近邻规则中的随机测度:以 Biau & Devroye (2015) 为代表,最近邻预测器的渐近分析涉及对随机划分下随机测度的积分。本文将此作为第二个应用场景,展示其框架的覆盖面。
这个方向在追问的核心问题: 1. 对于非 i.i.d. 结构的条件随机点测度,经典 GC/Donsker 定理的充分条件(如 uniform entropy integrability)是否依然适用? 2. 当测度本身是随机的(而非固定分布的样本均值),经验过程的渐近方差与协方差结构如何刻画?是否仍能收敛至某个 Gaussian 过程? 3. 对此类条件经验过程,Bootstrap 重采样方法是否能在数学上被证明有效(即 Bootstrap 经验过程收敛至同一 Gaussian 过程)?
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“极值理论与最近邻规则中存在大量条件点过程收敛的孤立结果,但缺乏一个基于经典 entropy 条件的统一 Donsker/GC 框架”,从而让本文的抽象化成为“显然的下一步”。 - 被淡化或回避的竞争路线:作者完全依赖 uniform entropy number 路线,回避了基于 bracketing number 的路线(后者在处理非有界函数类时往往更灵活,如 van der Vaart & Wellner 书中两套并行条件)。此外,对于更一般的依赖结构(如不满足条件独立性的测度),作者未讨论其框架的局限。 - 明显该被引却未出现的文献:半参数效率理论中大量使用条件经验过程的工作(如 Robins, Rotnitzky, van der Vaart 关于 higher-order influence function 的系列论文,以及 Ai & Chen (2003) 的条件矩约束估计),这些文献同样在处理条件分布/条件均值函数类的收敛,但未在 intro 中出现。这是一个值得研究者去查的张力点:本文的框架能否直接嵌入 semiparametric influence function 的推断?
张力: 未见明显对立引用。极值理论文献与最近邻文献在测度结构上差异很大,但本文通过“条件独立+条件同分布”的抽象假设将两者统一,未引发理论冲突。潜在的张力在于:本文假设条件测度具有“条件 i.i.d. 性质”,而极值理论中的点过程往往只满足混合条件而非严格条件 i.i.d.,作者在应用部分通过引用 Dombry et al. (2017) 的具体结构来绕过这一差异,但未在一般理论中讨论放宽条件 i.i.d. 的可能性。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(E\):一个可测的 Polish 空间(状态空间),带有度量 \(d_E\) 和 Borel \(\sigma\)-代数 \(\mathcal{E}\)。这是点测度落点的空间。
- \(S\):另一个 Polish 空间(外生随机现象的空间),带有 Borel \(\sigma\)-代数 \(\mathcal{S}\)。
- \(Y\):定义在 \(E\) 上的随机变量,代表点测度中的单个落点。
- \(X\):定义在 \(S\) 上的随机变量,代表外生驱动变量。
- \(\mathcal{F}\):定义在 \(E\) 上的实值函数类,是我们要对经验过程进行检验的函数类。
- \(N\):一个取值在 \(\mathbb{N}\) 的随机变量,代表点测度中的点数。
- \(Y_1, \ldots, Y_N\):给定 \(X\) 与 \(N\) 时,条件独立且条件同分布的随机变量,其条件分布为 \(K(X, \cdot)\),即 \(Y_i | (X, N) \sim K(X, \cdot)\)。
- \(K(x, \cdot)\):从 \(S \times \mathcal{E}\) 到 \([0,1]\) 的概率转移核(Markov kernel),代表给定外生变量 \(X=x\) 时,落点 \(Y\) 的条件分布。
- \(\mu_X\):由 \(X\) 决定的条件测度,定义为 \(\mu_X = \sum_{i=1}^N \delta_{Y_i}\)。这是一个随机点测度(random point measure),其随机性来源于 \(X, N\) 与 \(Y_i\)。
- \(\bar{\mu}_X\):\(\mu_X\) 的中心化版本,定义为 \(\bar{\mu}_X = \mu_X - \mathbb{E}[\mu_X | X]\)。这是条件经验过程的核心对象。
- \(Z_n(f)\):条件经验过程,定义为 \(Z_n(f) = \sqrt{n} (\bar{\mu}_X(f) / n)\),其中 \(n\) 是一个趋于无穷的渐近参数序列(用于标度测度的强度)。
- 可观测数据:研究者实际观测到的是外生变量 \(X\) 以及点测度 \(\mu_X\) 的落点集合 \(\{Y_1, \ldots, Y_N\}\)(注意 \(N\) 本身也是随机的)。不可观测的是底层转移核 \(K\) 的真实形式以及 \(N\) 的无条件分布律,只能靠假设与观测去识别。
第二步:最小内核——支撑整篇论文的最简特例
整篇论文的证明本质上是经典 i.i.d. 经验过程 Donsker 定理在“条件独立+条件同分布”结构下的推广。最简特例是:\(N\) 固定为 \(n\)(非随机),且 \(X\) 为单点(即无条件结构,退化回 i.i.d. 情形)。
在这个最简特例下: - \(\mu_X = \sum_{i=1}^n \delta_{Y_i}\) 就是标准的 i.i.d. 经验测度。 - \(\bar{\mu}_X = \sum_{i=1}^n (\delta_{Y_i} - P)\),其中 \(P\) 是 \(Y_i\) 的共同分布。 - \(Z_n(f) = \frac{1}{\sqrt{n}} \sum_{i=1}^n (f(Y_i) - P(f))\) 就是标准的经验过程。
此时,论文要证的命题退化成经典的 van der Vaart & Wellner Donsker 定理:若 \(\mathcal{F}\) 的 uniform entropy number 满足 \(\int_0^\infty \sqrt{\log N(\epsilon, \mathcal{F}, L_2(P))} d\epsilon < \infty\),且 \(\mathcal{F}\) 是 \(P\)-Donsker 类,则 \(Z_n\) 在 \(\ell^\infty(\mathcal{F})\) 中弱收敛至一个 Brownian bridge 过程 \(G_P\)。
论文的一般情形只是在这个特例上“加壳”:允许 \(N\) 随 \(n\) 随机增长(\(N/n \to \theta\) 依概率),并允许 \(Y_i\) 的分布由外生 \(X\) 驱动(\(Y_i | X \sim K(X,\cdot)\))。核心数学困难在于:当 \(X\) 引入后,\(Z_n\) 的协方差结构不再是固定的 \(P(fg)-P(f)P(g)\),而是变成了对 \(X\) 的期望 \(\mathbb{E}[K(X,f)K(X,g)] - \mathbb{E}[K(X,f)]\mathbb{E}[K(X,g)]\) 加上条件方差项。证明的关键想法是:利用条件独立性,将 \(Z_n\) 分解为“条件内波动”与“条件间波动”,前者在给定 \(X\) 时退化为经典 i.i.d. 经验过程(可用经典 entropy 条件控制),后者是对 \(X\) 的积分(由 \(X\) 的分布控制)。只要 \(\mathcal{F}\) 对几乎所有 \(K(X,\cdot)\) 都满足经典 entropy 条件,整个条件经验过程就能像经典情形一样收敛至 Gaussian 过程。
三、这篇论文做了什么¶
三句话: ①研究了条件随机点测度(给定外生变量下具有条件 i.i.d. 结构的点测度)在函数类上的 Glivenko-Cantelli 与 Donsker 收敛问题。 ②核心工具是沿用 van der Vaart & Wellner 的 uniform entropy number 条件,结合条件独立分解与 Markov kernel 的可测性假设。 ③主要结论是:经典 uniform entropy 条件足以保证此类条件随机测度的 GC、Donsker 收敛及 Bootstrap 有效性,并将极值点过程与最近邻测度纳入该框架。
关键设定与假设: 在第二节最小记号的基础上,完整设定补全如下: - 模型设定:\(N\) 是与 \(X\) 相关的随机变量,满足 \(N/n \to \theta\) 依概率收敛(\(\theta>0\))。\(\mu_X = \sum_{i=1}^N \delta_{Y_i}\),其中 \(Y_i | (X, N)\) 条件独立同分布 \(\sim K(X, \cdot)\)。 - 假设 H1(Markov kernel 可测性):\(K: S \times \mathcal{E} \to [0,1]\) 是一个可测的概率转移核。这是保证条件分布 \(K(X, \cdot)\) 作为随机测度有良好数学结构的底线。 - 假设 H2(Entropy 条件):函数类 \(\mathcal{F}\) 满足 uniform entropy number 条件,即 \(\sup_Q \int_0^1 \sqrt{\log N(\epsilon, \mathcal{F}, L_2(Q))} d\epsilon < \infty\),其中 \(Q\) 遍历所有离散概率测度。这直接沿用 van der Vaart & Wellner (1996) 的经典条件,相比已有文献(极值理论中往往只验证特定函数类的 bracketing 覆盖数),本文将其确立为一般框架的充分条件。 - 假设 H3(包络函数条件):\(\mathcal{F}\) 存在可测的包络函数 \(F\),满足 \(\mathbb{E}[K(X, F^2)] < \infty\) 且 \(\mathbb{E}[K(X, F)]^2 < \infty\)。这是控制尾部的必要条件,对应经典理论中的 \(P(F^2)<\infty\)。 - 假设 H4(测度可测性):映射 \(x \mapsto K(x, f)\) 对每个 \(f \in \mathcal{F}\) 是可测的。这是保证条件期望 \(\mathbb{E}[K(X,f)]\) 有定义的技术条件。
主要结果: 1. Theorem 3.1(Glivenko-Cantelli 定理):在假设 H1-H4 下,若 \(\mathcal{F}\) 满足 uniform entropy integrability 且包络条件成立,则 \(\sup_{f \in \mathcal{F}} | \frac{\mu_X(f)}{n} - \mathbb{E}[\frac{\mu_X(f)}{n}] | \to 0\) 依外生概率几乎必然收敛。直觉:条件 i.i.d. 结构使得给定 \(X\) 时,\(\mu_X\) 退化为经典经验测度,经典 GC 定理条件直接套用;对 \(X\) 取期望后,由包络函数与 entropy 条件控制余项。 2. Theorem 3.2(Donsker 定理):在更强包络条件 \(\mathbb{E}[K(X, F^2)] < \infty\) 与 entropy 条件下,条件经验过程 \(Z_n(f) = \sqrt{n}(\frac{\mu_X(f)}{n} - \mathbb{E}[\frac{\mu_X(f)}{n}])\) 在 \(\ell^\infty(\mathcal{F})\) 中弱收敛至 Gaussian 过程 \(G_K\),其协方差为 \(\mathbb{E}[K(X,f)K(X,g)] - \mathbb{E}[K(X,f)]\mathbb{E}[K(X,g)] + \mathbb{E}[K(X, fg) - K(X,f)K(X,g)]\)。直觉:协方差结构的前半部分是“条件间波动”(外生 \(X\) 引起的分布漂移),后半部分是“条件内波动”(给定 \(X\) 下的经典 Brownian bridge 协方差)。 3. Theorem 4.1(Bootstrap Donsker 定理):对条件随机点测度进行 Bootstrap 重采样(在给定 \(X\) 与原样本 \(\{Y_1,...,Y_N\}\) 下,以多项分布抽取 \(N^*\) 个点形成 \(\mu_X^*\)),Bootstrap 经验过程 \(Z_n^*\) 收敛至同一 Gaussian 过程 \(G_K\)。这为基于 Bootstrap 的置信区间与假设检验提供了理论背书。
证明路线与技术技巧: - 整体路线: 1. 条件化分解:将 \(Z_n\) 分解为 \(Z_n = Z_n^{(1)} + Z_n^{(2)}\),其中 \(Z_n^{(1)}\) 是给定 \(X\) 下的条件经验过程(经典 i.i.d. 结构),\(Z_n^{(2)}\) 是由 \(X\) 随机性引起的漂移项。 2. 条件内收敛:对 \(Z_n^{(1)}\),在给定 \(X\) 下,由于 \(Y_i\) 条件 i.i.d.,直接套用 van der Vaart & Wellner 的经典 Donsker 定理,得到条件弱收敛至条件 Gaussian bridge \(G_{K(X)}\)。 3. 条件间积分:对 \(Z_n^{(2)}\) 与条件 Gaussian bridge,利用 \(X\) 的分布与 \(K\) 的可测性,通过 Fubini 定理与可测性选择,将条件收敛提升为无条件收敛。 4. 协方差计算:通过展开 \(\mathbb{E}[Z_n(f)Z_n(g)]\),分离条件期望与条件方差,得到极限 Gaussian 过程的协方差结构。 5. Bootstrap 验证:在给定原样本下,Bootstrap 重采样本质上是条件 i.i.d. 经验过程的再实现,重复步骤 1-4 即得 Bootstrap 有效性。 - 关键跳跃点: - 从条件收敛到无条件收敛的可测性选择:这是最吃功夫的引理。在经典经验过程理论中,从条件收敛提升到无条件收敛需要证明极限过程作为 \(X\) 的函数是可测的(否则弱收敛定义失效)。作者通过构造 \(K(x, \cdot)\) 的可测版本与 \(\mathcal{F}\) 的可测性假设,绕过了这一拓扑障碍。 - 随机 \(N\) 的处理:\(N\) 的随机性使得点测度的总测度值 \(\mu_X(E)\) 也是随机的。作者通过假设 \(N/n \to \theta\) 依概率收敛,将 \(N\) 的波动控制在 \(o_P(\sqrt{n})\) 量级,从而不影响 \(\sqrt{n}\)-标度的经验过程收敛。 - 技术技巧点名: 1. Uniform entropy number:直接沿用 van der Vaart & Wellner 的定义与覆盖数积分条件,用于控制函数类 \(\mathcal{F}\) 在条件测度 \(K(X,\cdot)\) 下的复杂度。 2. Conditional empirical process decomposition:将经验过程拆解为条件内与条件间两部分,这是处理混合随机性(外生+内生)的标准手法,类似于时间序列中的白噪声分解。 3. Measurable selection / measurable version:用于解决从条件弱收敛到无条件弱收敛时的可测性问题,确保极限 Gaussian 过程 \(G_K\) 是良定义的随机元。 4. Multinomial Bootstrap:在条件随机点测度下,Bootstrap 通过多项分布重采样实现,其有效性依赖于条件 i.i.d. 结构下经典 Bootstrap 定理的迁移。
真实例子与应用: 本文包含两个真实理论应用场景(无实证数据例子,属于纯理论应用): 1. 极值理论中的条件点过程:在平稳时间序列的极值分析中,给定气候指标 \(X\)(如温度),极端事件的发生点形成条件点过程。作者引用 Dombry et al. (2017) 的模型,指出该点过程在给定 \(X\) 下满足条件 i.i.d. 性质(即极端事件的出现条件独立),从而直接落入本文框架。本文的 Donsker 定理为极值点过程的函数积分(如极端事件频率的估计)提供了渐近正态性,Bootstrap 定理为极值分位数的置信区间提供了理论依据。 2. 最近邻规则中的随机测度:在最近邻分类中,数据空间的随机划分形成随机测度。作者引用 Biau & Devroye (2015),指出最近邻预测器可表示为对某条件随机测度的积分。本文的 GC 定理保证了最近邻预测器的一致性,Donsker 定理为其渐近分布提供了刻画。
🔎 结论是否比证明窄: 本文的 Theorem 3.2(Donsker 定理)在假设 H1-H4 下严格证明,但作者在 Section 3 的注释中提到,entropy 条件可能可以放宽为 bracketing entropy 条件(这在 van der Vaart & Wellner 的书中是另一套并行理论),但本文未给出证明,仅作为 conjecture 提出。此外,\(N/n \to \theta\) 的依概率收敛假设在极值理论中可能偏强(某些极值点过程的强度可能只有几乎必然收敛或更弱的收敛),作者未讨论放宽此假设的后果。
四、开放问题(点到为止,扎根具体语句)¶
- Bracketing entropy 条件的适用性:本文 Theorem 3.2 仅证明了 uniform entropy number 条件的充分性,作者在文中 conjecture bracketing entropy 条件也可能足够。要证的是:在 bracketing entropy integrability 下,条件经验过程是否依然 Donsker?扎根于作者对 Theorem 3.2 假设的注释。
- 放宽条件 i.i.d. 假设:本文框架依赖 \(Y_i | X\) 条件独立同分布,但在极值理论的更一般设定中(如长程依赖的平稳序列),条件独立性可能不成立。要估的是:在仅满足某种混合条件而非条件 i.i.d. 时,GC/Donsker 定理的收敛率与极限分布如何变化?扎根于 intro 中对 Dombry et al. (2017) 模型的引用与本文假设 H1 的局限。
- 与半参数效率理论的对接:本文未引用任何 semiparametric efficiency 或 influence function 的文献,但其条件经验过程 \(Z_n\) 的协方差结构(条件间+条件内方差)与 semiparametric one-step estimator 中条件均值函数的 influence function 结构高度相似。要查的是:本文的 Donsker 定理能否直接用于证明 conditional ATE 或 missing data 模型中 higher-order influence function 的渐近有效性?扎根于 intro 中缺失的 semiparametric 文献引用(如 Robins et al.)。
- \(N/n\) 收敛假设的放宽:本文假设 \(N/n \to \theta\) 依概率收敛,但在某些稀疏点过程(如极值理论中阈值极高时)中,\(N\) 可能服从 Poisson 分布且 \(N/n \to 0\)。要证的是:在 \(N/n \to 0\) 或 \(N\) 有重尾分布时,条件经验过程的标度与极限如何调整?扎根于 Theorem 3.2 对 \(N\) 的假设。
(要确认某条是不是真 gap,建议去读同子领域近期约 5 篇的 intro——若都指向 bracketing 条件或条件独立性放宽,则为共识真 gap;若互相打架,则为机会。)
Maintained by 陈星宇 · Homepage · Source on GitHub