On adaptive confidence sets for the Wasserstein distances¶

作者: Neil Deo, Thibault Randrianarisoa
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向处理的是 非参数自适应置信集 问题。在密度估计模型中，研究者不仅希望给出一个点估计，还希望构造一个（渐近）置信集（如置信球），其半径既能适应未知的密度正则性（smoothness），又能达到最优的收敛速度，且保证覆盖概率的“诚实性”（honesty，即对几乎所有被考虑的参数真实值，覆盖概率不低于预设水平）。本文的特例是：用 Wasserstein 距离 \(W_p\) 测量置信集的半径，而目标是在 Besov 尺度 上自适应未知正则性。这是一个经典的非参数推断+不确定性量化的核心问题，但此前只在 \(L_p\)、Sobolev 或点态距离上有系统结果；Wasserstein 距离的几何特有性质（测地线距离、对平移与扭曲的敏感性）给了这个问题全新的维度依赖结构。

发展脉络（history）¶

奠基工作——自适应置信集的框架与“适应窗口”的发现 (90s–00s)
Lepski (1991) 和 Lepski & Spokoiny (1997) 首次在 Gaussian 白噪声模型中建立了自适应置信集的框架，并发现一个根本限制：对于 \(L_p\) 范数下的置信球，自适应只能在 固定宽度 的正则性区间内发生（与维度无关）。这个“宽固定的小窗口”是后续讨论的基准。
Li (1989) 、Brown & Low (1996) 使密度估计与 Gaussian 白噪声模型之间的渐近等价变得严格，为后续跨模型转移结果提供了桥梁。
主要进展——向更一般损失和更高维度的扩展 (00s–10s)
Giné & Nickl (2010) 在非参数回归中构造了基于极大似然估计的自适应置信集，并用 Gaussian 逼近方法（Kolmogorov–Smirnov 型统计量）证明覆盖概率。但这种方法依赖于损失函数的 强拓扑（sup-norm 或 \(L_\infty\)），不直接适用于 Wasserstein 距离这样的弱拓扑。
Nickl (2013) 和 Szabo et al. (2015) 进一步表明，对于 \(L_p\) 范数，自适应窗口的大小 与维度无关（始终需要正则性介于 \(s_0\) 与 \(s_0 + 1/2\) 之间），使得高维下的自适应极为受限。本文则是第一批挑战这一观察的工作：换用 Wasserstein 距离后，维数不仅 改变了窗口大小（从固定宽度变为 \(d/(d-4)\)），而且低维时完全取消了窗口限制。
当前 frontier——Wasserstein 距离下的统计推断 (10s–20s)
Weed & Bach (2019) 给出了经验Wasserstein 距离的收敛率，证明了依赖于信号正则性的rate。
Panaretos & Zemel (2019) 综述了Wasserstein距离在统计中的使用，但主要关注中心极限定理和bootstrap近似（在无正则性假设下）。将 Wasserstein 损失整合入 决策论框架（minimax率、置信集的诚实适应）是本文的贡献。
本文的位置：将自适应置信集理论从 \(L_p\) 损失迁移到 \(W_p\) 损失，并把维度 \(d\) 的角色从“无关”变为“决定窗口宽度的关键”。这是自适应不确定性量化的概念性新篇章。

子线索聚类¶

线索 A：Lp/Sup-norm 缩放下的自适应置信集（Lepski, Spokoiny, Giné & Nickl, Nickl, Szabo et al.）。核心问题：窗口固定且小，维度不改变结论。
线索 B：Wasserstein 距离的统计性质（Weed & Bach, Panaretos & Zemel）。关注 convergence rates 和 CLT，无自适应推断。
线索 C：弱拓扑下的置信集（本文）。使用 风险估计方法、将（次优）自适应估计器通过再估计风险来校准半径。这是本文的核心贡献。

核心问题与主流方法瓶颈¶

本方向追问的核心问题： 1. 自适应窗口： 给定损失函数 \(\rho\)，存在自适应诚实置信集的充分必要条件是什么？宽度要求与维度的关系？ 2. 构造方法： 如何实际构造出这个置信集？（主流为 替换法、分块正则化、波普置信域） 3. 诚实性验证： 能否验证名义覆盖概率下对几乎所有密度都成立？

本文的突破在于对 Wasserstein 损失回答了 Q1：与 \(L_p\) 相反，维数一旦超过 4，窗口中位数（minimal length required for adaptation）开始随 \(d\) 增长，这意味着高维下几乎无法实现完全自适应。

⚠️ 作者的 framing¶

这是作者的说法：作者把缺口框架为：在Wasserstein距离下的自适应置信集“维数至关重要”——与经典理论定论的“维数无影响”针锋相对。他们将结果归因为 Wasserstein 距离“兼具弱拓扑与几何敏感性”。竞争路线（如核密度估计 + 基于次采样方差估计的置信带）在文中被淡化，理由是它们不产生可适应的 Wasserstein 半径。
值得查的缺失文献：文中没有明显讨论与 Vasiliev (2020) 、Chernozhukov et al. (2013) 的 coupling/bootstrap 方法在这些弱拓扑下的表现；Lp 弱化版（如 \(H^{-s}\) Sobolev 范数）的结果也被忽略。研究者可自行确认这些是真实缺口还是竞争不相关。

张力¶

未见明显对立引用。所有现有结果均未假设 Wasserstein 作为损失来构造置信集，因此本文不推翻任何具体反例，而是开启一个新分支。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\(f\): 未知密度，定义在 \(d\)-维环面 \(\mathbb{T}^d\) 或 \(\mathbb{R}^d\) 上。
\(\mathbf{X}_1, \ldots, \mathbf{X}_n \stackrel{i.i.d.}{\sim} f\)：可观测的样本。
\( \mathcal{F} \subseteq L_1\): 密度函数空间。具体的光滑性假设用 Besov 空间 \(B_{pq}^s\) 刻画（参数 \(s>0\) 为正则性，\(p,q\) 通常为 2, \(\infty\) 等）。
\(W_p\): \(p \geq 1\) 阶 Wasserstein 距离。对概率测度 \(\mu,\nu\)：\(W_p(\mu,\nu)^p = \inf_{\pi \in \Pi(\mu,\nu)} \int \|x-y\|^p d\pi(x,y)\)。
adaptivity: 置信集 \(C_n\) 被称为 自适应 到正则性 \(s\) 当：对每个 \(s\)，对所有密度 \(f\) 满足 \(\|f\|_{B_{pq}^s} \leq L\) 有覆盖概率 \(\geq 1-\alpha\)，且直径正比于 minimax 率 \(\psi_{n,s} = n^{-s/(2s+d)}\)（注：这里 \(W_p\) 的 minimax 率 \(R_{n,s} = n^{-s/(2s+d)}\) 与 \(L_2\) 的 minimax 率数量级相同，但常数与适用范围受 \(p\) 影响）。
honest coverage: \(\liminf_{n\to\infty} \mathbb{P}_f( C_n \ni f ) \geq 1-\alpha\)，对所有可能的 \(f\) 都成立（uniformly over a class of densities）。
统计模型： 密度估计模型。数据 \(\mathbf{X}_i\) 来自未知密度 \(f\)，将其以 Radon-Nikodym 导数表示；没有协变量，没有潜在结构。全部推断基于样本的经验分布。
可观测 vs 不可观测：
可观测： i.i.d. 样本 \(\{\mathbf{X}_i\}_{i=1}^n\).
潜在/不可观测: 真正的密度 \(f\), 其正则性 \(s\)（以及 Besov 类参数），\(W_p(f, \hat{f}_n)\) 的真实值（即误差量）。这正是需要推断的。

第二步：最小内核——二维 (\(d=1\)) 且 \(p=1\) 的特例¶

我们去掉所有维度切割（换言之，设 \(d=1\)），并取 Wasserstein 距离 \(W_1\)（此时 \(W_1\) 等于 L1-Wasserstein，且因一维有封闭形式：\(W_1(F,G) = \int |F^{-1} - G^{-1}| = \int |F(x)-G(x)| dx \)）。在这种情况下，定理 2.1 的作用是：对任意正则性 \(s>0\)，存在自适应诚实置信集。即低维没有限制。

为什么容易？
- 对 \(d=1\)，密度的Wasserstein minimax 率是 \(n^{-s/(2s+1)}\)（已知）。
- 构造：用小波基将 \(f\) 展开；取一个自适应估计器 \(\hat{f}\)（如通过 Lepski 阈值选择带宽）；再用 风险估计 方法：用另一个独立子样本估计 \(W_1(\hat{f}, f)\) 的风险（以其期望值），从而形成一个校准半径 \(\hat{r}_n\) 使得 \(C_n = \{ g: W_1(\hat{f}, g) \leq \hat{r}_n \}\)。因为风险估计可以做到一致（uniformly over Besov balls of unknown \(s\)），半径能够恰好等于 minimax 率的常数倍，致使置信集诚实。 - 关键：一维下，Wasserstein 距离对密度的 重尾与峰 的敏感性与维数1没有复杂的高维运输问题，从而风险估计能完美校准。

这个最小例子揭示了论文的核心操作：风险估计 + 自适应估计 + 半径校准。而高维（\(d>4\)）时，风险估计的一致性要求正则性在一个区间内（宽度至少 \(d/(d-4)\)），因为运输成本在高维下更容易受“不可能在很光滑和很粗糙之间同时控制”的制约。

三、这篇论文做了什么¶

三句话¶

研究问题：在密度估计模型下，用Wasserstein距离度量半径，构造可适应未知Bespov正则性且诚实覆盖的自适应置信集。
核心工具：风险估计方法（risk estimation），基于另一个独立数据子集估计自适应估计器的Wasserstein误差的期望，从而校准置信域半径。
主要结论：刻画了存在自适应诚实置信集的充要条件——维度 \(d \leq 4\) 时对任意正则性可行，\(d > 4\) 时正则性区间宽度 \(\geq d/(d-4)\) 才可行；这与经典 \(L_p\) 理论（固定宽度窗口）形成重大区别。

关键设定与假设¶

假设 D（密度）： \(f \geq 0\), \(\int f = 1\)。为技术方便，主要结果在环面 \(\mathbb{T}^d\) 上给出，然后拓展至 \(\mathbb{R}^d\)（需假设带紧支集或截断）。
Besov 球： 定义 \(\Theta(s,L) = \{ f: \|f\|_{B_{2,\infty}^s} \leq L \}\), \(s > d/p\) (保证嵌入到有界函数) 。标准假设：密度属于某个 Besov 球但正则性 \(s\) 未知。
信噪比假设（用于下界）：不存在附加假设——下界在构造的反例中已经隐含。
对比已有文献：本文假设范围与 Lp/自适应置信集相同，不添特殊条件；但相比Lp理论，它额外利用了 Wasserstein 距离的 弱拓扑性质 与小波系数的 对数尾概率 相结合。

主要结果¶

定理 2.1（环面，\(1 \leq p \leq d/(d-1)\)（包括 \(p=1\) 可用于所有 \(d\)），此处简化）： 存在密度 \(f\) 的置信集 \(C_n\)，满足： - 诚实性：对任意 \(f \in \bigcup_{s>0} \Theta(s,L)\)，\(\liminf_{n\to\infty} \mathbb{P}_f(f \in C_n) \geq 1-\alpha\)。 - 适应直径：\(\mathrm{diam}_{W_p}(C_n) \leq C \cdot n^{-s/(2s+d)}\) 对所有 \(f \in \Theta(s,L)\) 以高概率成立（即直径恰好与 minimax 率同阶）。

该定理在充分条件 上成立当且仅当： - \(d \leq 4\)：任何 \(s>0\) 都行； - \(d > 4\)：需要 \(s' \geq s + \frac{d}{d-4}\) 时才能适应——即正则性区间宽度至少 \(d/(d-4)\)。必要条件也由定理 2.2 给出：若区间宽度小于该值，则不存在任何自适应诚实置信集。

定理 2.2（不可能性）： 对 \(d>4\)，设正则性区间窗口小于 \(d/(d-4)\)（如 \(s\) 到 \(s+\delta\) 且 \(\delta < d/(d-4)\)），则不存在一个诚实置信集可以同时适应这区间的两端——至少其中之一被扩大直径或放弃覆盖。

技术直觉： 在 \(W_p\) 距离下，两个Besov球（正则性 \(s\) 和 \(s+\delta\)）之间的“分离率”随维度增长变慢，导致自适应校准必须牺牲窗口宽度来换取覆盖的诚实性。

证明路线与技术技巧¶

整体路线： 1. 构造上界（充分性）： 将估计问题换成小波级数展开 → 用小波阈值估计 (hard thresholding) 作为自适应估计器 → 利用 风险估计 思想（Gine & Nickl, 2010 中使用的方式）：分裂样本为两部分，第一部分用于构造自适应估计 \(\hat{f}\)；第二部分用于估计 \(E[W_p(\hat{f},f)]\) 的上界（以概率 1-δ 成立）。用此构造半径\(\hat{r}_n\)。 2. 关键上界估计： 利用 Weibull tail 积分控制小波的高频系数，将 Wasserstein 距离分解为光滑部分 + 波动部分，从中得到全局最小最大率上的自适应。 3. 下界（必要性）： 为证明窗口需求，建造一对密度 \(f_1\)（低正则性）, \(f_2\)（高正则性）使 \(W_p(f_1,f_2)\) 远小于 minimax 率且两者的平滑度全在该区间内内的一个窄区间，从而导致任何自适应置信集要么覆盖其中一个的概率过低，要么直径过大。

关键跳跃点： 高维时，需要证明小波高幅系数对 Wasserstein 距离的贡献随维数增大而累积得更慢，使置信集必须用更大的半径去补偿。这通过 Besov 嵌入 和 Wiener 维数 的 Gevrey 类分析来具体化。

技术技巧点名： - 小波阈值与 Besov 分析和制（Daubechies 小波 — 提供 Besov 等价范数）； - 风险估计（用于校准半径，始于 Golubev & Levit 1996，用于非参自适应置信集由 Nickl 2013完善）； - Weibull-tail 积分/超大偏差用于小波系数（下文中用的大偏差）； - 高斯比较族的镜像构造（f1 与 f2 为近距离光滑的密度对）用于下界。

真实例子与应用¶

本文为 纯理论，无任何真实数据模拟或应用例子。唯一应用的“例子”是对实数直线上构造性的环面例子用于证明定理 2.1 的构造性部分。说明：没有任何实证验证。

🔎 结论是否比证明窄¶

文中比较坦诚：充分性定理（Thm 2.1）只对环面严格证明，延拓到 \(\mathbb{R}^d\) 则需要额外假设（紧支集或截断处理）并作为推论给出。然而在引言和结论中，作者常使用“一般域”的措辞。有意引述为需要读者注意。一个具体点：对 \(p>1\)（高p），当\(d\)很大时，Wasserstein 下界依赖于构造某些“bump”函数，这在一般欧氏空间上比环面更复杂（第4.2节明确指出这种困难）, 所以完全的多参数多边形通解并未在所有 \(p\) 上完全关闭。

四、开放问题（扎根具体语句）¶

p>1 的更完整理论： 本文对 \(p>1\)（尤其在高维）的充分性构造主要限于环面，对一般欧氏空间 \(R^d\) 只有部分结果（引言末尾的“我们部分处理了欧氏情形”）。紧致支持是否必要？能否用截断方法推广？ —— 扎根于定理2.1的“注意”段落。
更弱自适应窗口的可能性： 定理2.2证明宽窗口是必要的，但当 \(d>4\) 时，是否存在一个统计上更弱的适应概念（如Bayes自适应或置信集直径随新snr变化几乎最优但非完全rate-adaptive）？ —— 扎根于结论（Section 5）的“perspective”段。
到一般流形上的推广： 本文的环面可看作紧致流形的特例。对无界或曲率非零流形，Wasserstein 距离的几何更复杂，可能导致不同的临界维数。 —— Section 5, “future work可能的延伸”。
应用到假设检验： 基于这些置信集，是否可构建Wasserstein距离下分布相等的自适应测试（如两组间分布比较）并刻画功效？作者的框架虽只涉及置信集，但显然可转化为检验问题——文本未提及这一点。 —— 潜伏于第1节的最后一个段落；确认是否真gap需查看近期 about Wass-testing 文章。

Maintained by 陈星宇 · Homepage · Source on GitHub