A scalable Nyström-based kernel two-sample test with permutations¶
作者: Antoine Chatalic, Marco Letizia, Nicolas Schreuder, Lorenzo Rosasco
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1214/26-ejs2537
一、领域脉络与小综述¶
这个方向是什么 非参数两样本检验的核心统计问题是:给定两组样本,判断它们是否来自同一分布 \(P\) 与 \(Q\),而不对 \(P, Q\) 施加任何参数化假设(如高斯、线性等)。Maximum Mean Discrepancy (MMD) 是该方向当前最主流的检验统计量之一,它将分布差异映射到再生核希尔伯特空间 (RKHS) 中的范数距离。当前该方向的成熟度体现为:MMD 的渐近分布、minimax 最优分离速率、无偏估计量等理论已基本完备;但计算瓶颈(\(O(n^2)\) 复杂度)与有限样本下 permutation 检验的严格 power 保证,仍是尚未完全闭合的缺口。
发展脉络 - 奠基工作:Gretton et al. (2012) 提出了基于 MMD 的两样本检验及其渐近分布理论,确立了 MMD 作为非参数检验标准工具的地位,但留下了计算复杂度 \(O(n^2)\) 与有限样本校准的口子。 - 主要进展(计算加速):为了突破 \(O(n^2)\) 瓶颈,出现了几条路线:子采样如 subsampling MMD (Zareba et al.)、随机特征如 random Fourier features (Rahimi & Recht, 2007; Zhao & Meng, 2015)、以及线性时间 MMD (Gretton et al., 2012a)。这些方法虽然将计算降至 \(O(n)\) 或 \(O(n \log n)\),但作者在文中明确指出它们"往往牺牲了统计功效"。 - 主要进展(minimax 理论):从理论端,Balasubramanian et al. (2021) 与 Reddi et al. (2015) 等工作确立了 MMD 检验在特定核下的 minimax 最优分离速率(\(n^{-1/2}\) 量级),但理论分析多基于渐近正态近似,未覆盖 permutation 检验这种更实用但更难解析的校准方式。 - 当前 frontier 与本文位置:近期的 Nyström MMD 估计 (Chatalic et al., 2022; Rudi et al., 2015) 与 Random Fourier Features MMD (Sriperumbudur et al., 2015) 开始尝试在保持 RKHS 结构的前提下引入低秩近似。本文正是站在这一前沿:将 Nyström 近似从"估计量"推进到"检验统计量 + permutation 校准"的完整闭环,并首次给出匹配 minimax 最优速率的有限样本 power bound。
子线索聚类 被引文献大致落在三条子线索上: 1. MMD 理论与检验设计:聚焦于 MMD 的定义、渐近分布、minimax 速率(Gretton et al. 2012; Balasubramanian et al. 2021; Reddi et al. 2015)。这一簇确立了"什么是好检验"的理论基准。 2. 大规模核方法计算加速:聚焦于 Nyström 方法、随机特征等低秩近似技术(Rudi et al. 2015; Rahimi & Recht 2007; Chatalic et al. 2022)。这一簇提供了"如何算得快"的工具。 3. Permutation 检验与有限样本保证:聚焦于非参数校准与 power 分析(Romano & Wolf 2005; Kim et al. 2022)。这一簇处理"如何在有限样本下严格控制 Type I error 并分析 power"。
这个方向在追问的核心问题 1. 计算-统计权衡:能否在将计算复杂度从 \(O(n^2)\) 降至 \(O(n m)\)(\(m \ll n\))的同时,不损失统计功效(即保持 minimax 最优分离速率)? 2. 有限样本下的 Type I error 与 power 控制:渐近正态近似在有限样本下常因分布偏倚而失效;permutation 检验能精确控制 Type I error,但其 power 的有限样本界如何推导? 3. 分离速率的紧性:在 RKHS 框架下,两样本检验的 minimax 最优分离速率是 \(n^{-1/2}\)(对特征核),计算近似后的检验能否达到同一速率?
⚠️ 作者的 framing - 作者的 framing:作者将缺口 frame 为"现有加速方法(subsampling, random features)牺牲了统计功效,而 Nyström 近似因为保留了核的 RKHS 结构,能在降计算的同时保持功效",从而使"Nyström MMD + permutation"成为显然的下一步。 - 被淡化或回避的竞争路线:作者对 Random Fourier Features (RFF) 的讨论仅停留在"它不保持 RKHS 结构"的定性判断,未在相同设定下与 RFF MMD 检验做同台理论对比(如 RFF 是否也能在某种设定下达到 \(n^{-1/2}\) 速率)。此外,作者未讨论基于子采样的 U-统计量高阶投影方法(如你熟悉的 higher-order U-statistics 路线),这可能是一条能保持功效且降计算的平行路线。 - 明显该被引却未出现的:基于 higher-order U-statistics / incomplete U-statistics 的两样本检验工作(如 Blom, 1976; Janson, 1984; 近期的 HOIF 路线),这些工作同样在处理 \(O(n^2)\) 计算瓶颈与功效保持,且与本文的 Nyström 子采样在结构上有深层对称性。这是值得研究者去查的方向。
张力 未见明显对立引用。现有文献在"渐近正态近似下的 minimax 速率"上结论一致;本文的张力主要体现在"渐近理论"与"有限样本 permutation 实践"之间的鸿沟——前者好算但有限样本偏,后者难解析但实用,本文试图用 Nyström 桥接二者。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(P, Q\):待检验的两个分布(未知),定义在可测空间 \(\mathcal{X}\) 上。这是我们要推断的对象。
- \(\mathcal{H}, k\):再生核希尔伯特空间 (RKHS) 及其对应的正定核函数 \(k: \mathcal{X} \times \mathcal{X} \to \mathbb{R}\)。MMD 在此空间中度量 \(P, Q\) 的差异。
- \(\text{MMD}(P, Q)\):目标参数 / estimand,定义为 \(\| \mu_P - \mu_Q \|_{\mathcal{H}}\),其中 \(\mu_P = \mathbb{E}_{X \sim P}[k(X, \cdot)]\) 是核均值嵌入。
- \(X_1, \dots, X_n\):来自 \(P\) 的 i.i.d. 随机变量(可观测样本)。
- \(Y_1, \dots, Y_n\):来自 \(Q\) 的 i.i.d. 随机变量(可观测样本),假设两组样本量相等为 \(n\)。
- \(m\):Nyström 子采样点数(算法参数,\(m \ll n\)),决定计算复杂度。
- \(I_1, I_2\):划分 \(\{1, \dots, n\}\) 的随机子集,\(|I_1| = m\),\(|I_2| = n - m\)。\(I_1\) 用于构造 Nyström 基底,\(I_2\) 用于计算近似统计量。
- \(\hat{K}_{I_1 I_1}\):由子样本 \(I_1\) 构成的 \(m \times m\) 核矩阵。
- \(\hat{\mu}_{P, I_1}, \hat{\mu}_{Q, I_1}\):基于 \(I_1\) 的 Nyström 核均值嵌入近似估计。
- \(\text{MMD}^2_{I_1, I_2}(P, Q)\):本文的核心检验统计量,基于 Nyström 近似与样本划分构造的 MMD 估计量。
- \(B\):Permutation 检验的置换次数(算法参数)。
- \(\alpha\):检验的显著性水平(如 0.05)。
模型与数据生成机制: 数据生成机制极为简单:\(X_i \sim P\), \(Y_i \sim Q\),彼此独立。统计模型是 \((P, Q) \in \mathcal{P} \times \mathcal{P}\),其中 \(\mathcal{P}\) 是 \(\mathcal{X}\) 上的所有 Borel 概率测度集合(非参数模型)。核 \(k\) 视为已知且固定的(如 Gaussian 核),不参与估计。
可观测数据: 研究者实际能观测到的是 \(\{X_i\}_{i=1}^n\) 与 \(\{Y_i\}_{i=1}^n\) 的样本值,以及核函数在任意两点上的取值 \(k(x, y)\)。不可观测的是分布 \(P, Q\) 本身及其核均值嵌入 \(\mu_P, \mu_Q\),只能通过样本均值去估计。Permutation 检验中,样本的合并与重排是算法操作,不引入新的不可观测量。
第二步:最小内核——最简特例(特征核 + 单次划分)
剥掉一般核的复杂投影与多次划分的方差缩减技巧,支撑整篇论文的最小内核是:在特征核(characteristic kernel,如 Gaussian 核)下,用 \(m\) 个锚点构造 Nyström 近似 MMD,其检验的分离速率仍能达到 \(n^{-1/2}\),与全量 MMD 一致。
最简特例下的命题退化与直觉: 在全量 MMD 下,标准 U-统计量 \(\text{MMD}^2_u(P, Q) = \frac{1}{n(n-1)} \sum_{i \neq j} h(X_i, Y_j)\) 的方差为 \(O(1/n)\),因此检测 \(\text{MMD}(P, Q) \geq \Delta\) 的分离速率是 \(\Delta \asymp n^{-1/2}\)(即当 \(\Delta \gg n^{-1/2}\) 时 power 趋于 1)。
在 Nyström 近似下,核心想法是:将 \(n\) 个样本的核矩阵投影到 \(m\) 个锚点生成的子空间上,相当于把 \(O(n^2)\) 的 U-统计量降维为 \(O(nm)\) 的线性统计量与低秩修正的组合。 具体地: 1. 选定 \(m\) 个锚点(子样本 \(I_1\)),计算核矩阵 \(\hat{K}_{I_1 I_1}\) 及其伪逆。 2. 对剩余 \(n-m\) 个样本(\(I_2\)),计算它们到锚点的核向量,通过伪逆投影回 RKHS 子空间。 3. 在此子空间中,MMD 估计量退化为:基于投影后样本均值的欧氏距离。这本质上是一个 \(m\) 维的参数化均值检验,计算复杂度 \(O(nm)\)。
为什么成立(证明直觉): 关键在于 Nyström 投影虽然丢弃了核矩阵的高频成分(小特征值),但只要核是特征的,且 \(P \neq Q\),\(\mu_P - \mu_Q\) 的主要信号必然落在核矩阵的大特征值方向上。当 \(m\) 足够大(\(m \gtrsim \sqrt{n}\),这是本文的一个隐性条件),Nyström 子空间能捕获 \(\mu_P - \mu_Q\) 的绝大部分能量,投影误差被控制。因此,近似统计量的方差仍为 \(O(1/n)\),偏差为 \(O(1/m)\),当 \(m \gg \sqrt{n}\) 时偏差可忽略,分离速率保持 \(n^{-1/2}\)。
三、这篇论文做了什么¶
三句话 ① 研究了非参数两样本检验中 MMD 的 \(O(n^2)\) 计算瓶颈与有限样本 power 保证缺失的问题。 ② 核心方法是引入 Nyström 低秩近似构造 MMD 估计量,并结合 permutation 检验流程进行校准。 ③ 主要结论是给出了该检验在 MMD 范数分离度下的有限样本 power bound,且证明其分离速率达到 \(n^{-1/2}\) 的 minimax 最优速率,计算复杂度降至 \(O(nm)\)。
关键设定与假设 在第二节最小记号基础上,补全完整设定: - Nyström MMD 估计量定义:采用两阶段划分(two-stage split),将样本分为锚点集 \(I_1\)(大小 \(m\))与计算集 \(I_2\)(大小 \(n-m\))。近似统计量为:
主要结果 - 定理 1(有限样本 Power Bound):在显著性水平 \(\alpha\) 下,若 \(P, Q\) 的分离度满足 \(\text{MMD}(P, Q) \geq C n^{-1/2}\)(\(C\) 为依赖于核与 \(\alpha\) 的常数),则 Nyström MMD permutation 检验的 power 满足:
证明路线与技术技巧 - 整体路线: 1. Nyström 投影误差分解:将 \(\text{MMD}^2_{I_1, I_2}\) 分解为真实 MMD 的平方 + 投影偏差 + 采样方差 + 交叉项。 2. 偏差控制:利用 RKHS 投影的性质,证明 Nyström 子空间上的均值嵌入偏差以 \(O(\| \mu_P - \mu_Q \|_{\mathcal{H}} / m)\) 速率衰减(依赖于核矩阵的谱衰减)。 3. 方差控制:由于划分 \(I_1, I_2\) 的引入,\(\text{MMD}^2_{I_1, I_2}\) 在 \(I_2\) 上是线性统计量,其方差以 \(O(1/n)\) 衰减,可用 Bernstein/Hoeffding 型 concentration 直接控制。 4. Permutation 临界值分析:利用 Kim et al. (2022) 的 permutation 检验 concentration 结果,证明置换分布的临界值在 \(H_0\) 下集中在真实分布的临界值附近,从而将 power 分析转化为对统计量在 \(H_1\) 下偏离临界值的控制。 5. 整合:将偏差、方差、临界值波动合并,得到 power \(\geq 1 - \delta\) 的条件,解出分离度 \(\Delta\) 的下界,即为 \(n^{-1/2}\)。 - 关键跳跃点: - 从 U-统计量到线性统计量:全量 MMD 是二阶 U-统计量,方差与 concentration 分析复杂;Nyström + 划分将其降阶为线性统计量,这是证明能走通的核心跳跃。难点在于:降阶后偏差如何控制?作者通过 RKHS 投影的谱分析绕过。 - Permutation 分布的 concentration:Permutation 检验的临界值是随机的(依赖于样本),其 concentration 比渐近正态临界值难得多。作者直接引用了近期文献(Kim et al. 2022)的 permutation concentration bound,这是证明链条中外部依赖最强的一环。 - 技术技巧点名: 1. Nyström 低秩近似 / RKHS 投影:用于将 \(O(n^2)\) 核矩阵投影到 \(O(nm)\) 子空间,控制偏差。 2. 样本划分:用于消除 U-统计量的自依赖,将方差分析降阶。 3. Permutation concentration bounds:用于控制置换分布临界值的随机波动,替代渐近正态近似。 4. Bernstein-type inequality:用于控制线性统计量的尾部概率。
真实例子与应用 - 数据 / 场景:论文包含模拟实验与真实数据实验。真实数据使用了 Higgs 数据集(高能物理,区分信号与背景分布)与 MNIST 数据集(图像,区分不同数字的分布)。 - 如何用上去:将两组数据(如 Higgs 的信号 vs 背景)视为 \(P\) 与 \(Q\),计算 Nyström MMD 统计量,通过 permutation 校准判断是否能拒绝 \(H_0\)。对比全量 MMD、subsampling MMD、random features MMD 的 power 与计算时间。 - 得到什么结果:在 Higgs 数据集上,Nyström MMD 在 \(m = \sqrt{n}\) 量级下,计算时间比全量 MMD 快数十倍,而 power 几乎无损(与全量 MMD 持平),显著优于 random features MMD(在相同计算预算下 power 更低)。在 MNIST 上,Nyström MMD 同样在计算效率与 power 之间取得了最优权衡。 - 想说明什么:验证理论预测的 \(m \gtrsim \sqrt{n}\) 阈值——在此阈值下,Nyström MMD 确实能保住 minimax 功效且计算可缩放;同时展示 Nyström 相对 random features 的优势(保留 RKHS 结构带来的功效增益)。
🔎 结论是否比证明窄 - 本文的核心 claim 是"Nyström MMD permutation 检验达到 minimax 最优分离速率",但定理的严格证明依赖于 \(m \gtrsim \sqrt{n}\) 的条件。在 \(m\) 更小的设定下(如 \(m = O(1)\)),结论是否仍成立(或退化到什么速率)未被严格证明,仅在实验中有所展示。 - Permutation concentration 的引用(Kim et al. 2022)本身有较强的矩条件假设,本文是否在所有核设定下都满足这些矩条件,未做逐条核验,属于泛泛 claim 的区域。
四、开放问题(点到为止,扎根具体语句)¶
- Nyström 与 incomplete U-统计量的统一框架:本文的 Nyström + 划分本质上是一种 incomplete U-统计量设计,但未与 higher-order U-statistics / incomplete U-统计量的 minimax 理论对接。要证什么:Nyström 投影的偏差-方差结构与 incomplete U-统计量的高阶投影结构是否等价?扎根点:第二节最小内核中"线性统计量 + 低秩修正"的分解,与 Janson (1984) 的 incomplete U-统计量方差公式。
- \(m \gtrsim \sqrt{n}\) 阈值下的统计-计算权衡下界:本文证明了 \(m \gtrsim \sqrt{n}\) 时可达 minimax 最优,但未证明 \(m < \sqrt{n}\) 时速率必然退化。要估什么:在计算预算 \(O(nm)\) 约束下,两样本检验的 minimax 分离速率的下界是什么?扎根点:定理 1 中偏差项 \(O(1/m)\) 的主导条件。
- Permutation concentration 的矩条件紧性:本文依赖 Kim et al. (2022) 的 permutation concentration,该结果要求核的有界性或高阶矩。要证什么:在重尾核 / 无界核下,Nyström MMD permutation 检验的 power bound 是否仍成立?扎根点:定理 1 证明中引用 permutation concentration 的那一步。
- Random Features vs Nyström 的同台 minimax 对比:作者定性声称 Nyström 优于 RFF,但未在相同 \(m\) 预算下给出 RFF 的 minimax 分离速率。要估什么:RFF MMD 检验在 \(m \gtrsim \sqrt{n}\) 下的分离速率是否也是 \(n^{-1/2}\)?扎根点:Introduction 中"RFF 不保持 RKHS 结构"的判断,缺乏定量速率对比。
Maintained by 陈星宇 · Homepage · Source on GitHub