Kernel two-sample tests in high dimensions: interplay between moment discrepancy and dimension-and-sample orders¶

作者: Jian Yan, Xianyang Zhang
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：高维两样本检验旨在判断两个高维分布 \(P_X\) 与 \(P_Y\) 是否相同（\(H_0: P_X = P_Y\)）。当维度 \(p\) 远大于或随样本量 \(n\) 趋于无穷时，经典参数检验（如 Hotelling's \(T^2\)）因协方差矩阵奇异或逆矩阵估计发散而失效。基于核函数与距离的积分概率度量（IPM，如最大均值差异 MMD 与能量距离 Energy distance）作为非参数替代方案被广泛采用。本子方向的核心统计问题是：当 \(p, n \to \infty\) 时，这些非参数度量到底能“看见”分布差异的哪个部分（矩差异的阶数）？检验的功效在何种 \((p, n)\) 渐近阶下会坍缩为 0 或保持非平凡？

发展脉络： 1. 奠基与高维均值检验：高维两样本检验的早期突破在于绕开协方差矩阵求逆。Chen and Qin (2010) 提出了基于 \(\text{tr}(\Sigma^2)\) 的高维均值检验，不要求 \(p < n\)，为后续非参数检验的 studentization 提供了范式。 2. 非参数度度的引入与低维理论：MMD 与 Energy distance 在机器学习与统计学中流行（Sriperumbudur et al., 2012; Gretton 等），其在固定 \(p\) 下的 U-统计量渐近理论已成熟。 3. 高维诅咒：功效坍缩与“盲区”发现：Ramdas et al. (2015b) 首次明确指出，在“公平备择假设”（KL 散度恒定）下，MMD 与距离检验的功效随维度 \(p\) 多项式衰减。进一步，Zhu and Shao (2019) 与 Chakraborty and Zhang (2021b) 证明，在 HDLSS（\(p \to \infty, n\) 固定）设定下，Energy distance 与 MMD 仅能检测均值差异与协方差矩阵迹的差异，对边际分布的其他差异（如非线性相依结构）完全失明。 4. 高维下的补救与线性化现象：为克服“仅检均值与迹”的缺陷，Chakraborty and Zhang (2019) 提出了基于边际聚合的新度量；Zhu et al. (2020) 与 Han and Shen (2021) 在独立性检验中发现了高维下距离协方差近似等于线性协方差之和的“线性化/普适性”现象。同时，El Karoui (2010) 与 Liang and Rakhlin (2020) 从随机矩阵视角指出，非线性核在高维下会退化为线性核。 5. 当前 frontier 与本文位置：Gao and Shao (2021) 首次在 \(p, n \to \infty\) 下为 studentized MMD 建立了原假设与备择假设下的 CLT，并指出正态逼近精度随 \(p\) 提升（“维度的祝福”）。然而，Gao and Shao (2021) 的功效分析未精确刻画“MMD 能检测几阶矩差异”与“\((p, n)\) 相对阶数”的临界门槛。本文正是填补这一缺口：在 \(p, n \to \infty\) 下，推导 MMD 的渐近展开与非原假设 CLT，精确给出“功效非平凡”所需的矩差异阶数与 \((p, n)\) 阶数的等式/不等式条件。

子线索聚类： - 线索 A：高维均值/迹检验（Chen and Qin 2010; Bai and Saranadasa 1996）：只盯一阶/二阶矩，避开协方差逆，计算快，但对高阶差异无力。 - 线索 B：核/距离度量的高维盲区与补救（Ramdas et al. 2015; Zhu and Shao 2019; Chakraborty and Zhang 2019）：揭示 MMD/Energy 在 HDLSS 下的失明现象，并提出基于边际的聚合度量作为补救。 - 线索 C：高维核/距离度量的渐近分布与线性化（Gao and Shao 2021; Han and Shen 2021; El Karoui 2010）：在 \(p, n \to \infty\) 下建立 CLT，发现核度量的“线性化/普适性”现象及“维度的祝福”。

这个方向在追问的核心问题： 1. 识别能力边界：给定特定的 \((p, n)\) 渐近阶，MMD/Energy distance 能检测分布差异的最低阶矩是多少？（例如，仅均值、均值+方差、还是三阶矩？） 2. 功效临界点：在局部备择假设下，分布差异的信号强度（矩差异量级）与噪声量级（\((p, n)\) 阶数）满足何种不等式时，检验功效趋于 1（非平凡）；反之何时趋于 \(\alpha\)（平凡）？ 3. 核的线性化：高维下非线性核是否必然退化为仅捕捉二阶统计量的线性核？此线性化对检验功效是致命缺陷还是可接受的“维度的祝福”？

⚠️ 作者的 framing： - 作者的说法：作者将本文 frame 为对 Gao and Shao (2021) 的“深化与精确化”——Gao and Shao 建立了 CLT，但“未揭示矩差异与维度-样本量阶数的微妙相互作用”；本文通过渐近展开与非原假设 CLT，首次给出了“功效非平凡”的精确临界公式。 - 淡化/回避的竞争路线：Introduction 完全未讨论基于边际聚合的度量（Chakraborty and Zhang 2019 的 aggregated energy distance），这条路线正是为了克服 MMD 的“高维盲区”而设计的，且在 HDLSS 下能检测非线性相依。作者回避了“在极高维下，MMD 是否根本上不如聚合度量”这一比较。 - 缺失的关键引用：Introduction 未引用 Muandet et al. (2017) 的 MMD 统计学习综述，也未引用 Gretton et al. (2012) 的原始 MMD 两样本检验文章（仅引用了其应用场景），对于一篇聚焦 MMD 渐近理论的文章，缺失奠基性统计检验文献显得不自然。此外，未引用最近关于 高维独立性检验中距离协方差普适性（Han and Shen 2021）的详细讨论，而本文的“各向同性核退化为二阶矩”实质上是该普适性现象在两样本检验中的镜像。

张力：未见明显对立引用。但存在隐含的理论张力：Ramdas et al. (2015) 与 Zhu and Shao (2019) 断言 MMD 在高维下功效多项式衰减且仅检均值/迹；而 Gao and Shao (2021) 与本文证明在 \(p, n \to \infty\) 且 \(p/n \to c\) 时，MMD 有非平凡功效且正态逼近精度随 \(p\) 提升。这两派结论并不矛盾，但条件截然不同（HDLSS vs HDMSS），这暗示样本量与维度的相对阶数是决定 MMD 命运的生死线——本文的核心贡献正是量化这条生死线。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚 - 参数 / estimand： - \(P_X, P_Y\)：\(\mathbb{R}^p\) 上的两个分布，为研究对象。 - \(\mu_X, \mu_Y\)：均值向量；\(\Sigma_X, \Sigma_Y\)：协方差矩阵。 - \(\Delta_k\)：第 \(k\) 阶累积量差异，如 \(\Delta_1 = \mu_X - \mu_Y\)，\(\Delta_2 = \Sigma_X - \Sigma_Y\)。 - 随机变量 / 样本： - \(X_1, \ldots, X_n \in \mathbb{R}^p\)：来自 \(P_X\) 的 iid 样本；\(Y_1, \ldots, Y_m \in \mathbb{R}^p\)：来自 \(P_Y\) 的 iid 样本。 - \(N = n + m\)：总样本量；假定 \(n/N \to \rho \in (0,1)\)。 - 维数 / 样本量等指标： - \(p\)：数据维度，\(p \to \infty\)。 - \(n, m, N\)：样本量，\(N \to \infty\)。 - \(p\) 与 \(N\) 的相对阶数是核心：\(p/N^\tau \to c\)（\(\tau\) 决定检验能检测几阶矩差异）。 - 潜在量： - \(h(x, y) = k(x, x) + k(y, y) - 2k(x, y)\)：由核 \(k\) 生成的距离函数（MMD 的核心）。 - \(\mathbb{E}[h(X, Y)]\)：总体 MMD 距离，\(H_0\) 下为 0，备择假设下为待估信号。 - 模型： - 核函数 \(k(x, y)\) 为各向同性核（Isotropic kernel），即 \(k(x, y) = \kappa(\|x-y\|^2)\)，其中 \(\kappa\) 在 0 处无穷次可微。典型例子：高斯核 \(\kappa(t) = e^{-t/2\gamma}\)，拉普拉斯核 \(\kappa(t) = e^{-\sqrt{t}/\gamma}\)，Energy distance 对应 \(\kappa(t) = -\sqrt{t}\)（非无穷次可微，作为特例处理）。 - 数据生成：\(X_i\) 与 \(Y_j\) 分别从 \(P_X\) 与 \(P_Y\) 独立生成，\(P_X, P_Y\) 的前 \(K\) 阶矩存在，且满足特定有界条件（如 \(\|\Delta_k\| / p^{1/2}\) 有界）。 - 可观测数据： - 研究者实际观测到的是矩阵 \(X \in \mathbb{R}^{n \times p}\) 与 \(Y \in \mathbb{R}^{m \times p}\)。 - 检验统计量为 U-统计量 \(\widehat{\text{MMD}}_u\) 或 V-统计量 \(\widehat{\text{MMD}}_v\) 的 studentized 版本 \(T_n\)。 - 不可观测但需识别：\(P_X\) 与 \(P_Y\) 的各阶累积量差异 \(\Delta_k\)（特别是 \(\Delta_1, \Delta_2\)），以及核函数在 0 处的 Taylor 展开系数 \(\kappa^{(k)}(0)/k!\)，这些决定了检验的信号强度。

第二步：最小内核——高斯核下的均值与协方差差异检测 剥掉所有一般性假设（非高斯、高阶矩、拉普拉斯核），考虑最简特例： - 特例设定：\(k(x,y) = e^{-\|x-y\|^2/2\gamma}\)（高斯核），\(P_X, P_Y\) 仅在前两阶矩有差异（\(\Delta_1 \neq 0\) 或 \(\Delta_2 \neq 0\)），更高阶矩相同。 - 最小数学问题：当 \(p, N \to \infty\) 时，studentized MMD 检验统计量 \(T_n\) 在局部备择假设（\(\Delta_1, \Delta_2\) 随 \(p, N\) 缩放）下的渐近分布是什么？功效趋于 1 的临界条件是什么？

核心思路一看就懂：高斯核 \(\kappa(t) = e^{-t/2\gamma}\) 在 \(t=0\) 处 Taylor 展开： \(\kappa(\|X-Y\|^2) = \kappa(0) + \kappa'(0)\|X-Y\|^2 + \frac{1}{2}\kappa''(0)\|X-Y\|^4 + \ldots\) 因为 \(\kappa'(0) = -1/2\gamma \neq 0\)，一阶项非零！这意味着 \(\|X-Y\|^2\) 的期望差异（即均值差异 \(\Delta_1\) 与协方差差异 \(\Delta_2\) 的线性组合）会直接进入 MMD 的信号中。 - 信号分解：\(\mathbb{E}[h(X,Y)] \approx \kappa'(0) \mathbb{E}[\|X-Y\|^2 - \|X-X'\|^2] = \kappa'(0) (\|\Delta_1\|^2 + \text{tr}(\Delta_2))\)。 - 噪声量级：studentized 统计量的方差在 \(H_0\) 下量级为 \(O(p/N)\)。 - 功效临界公式：要使功效非平凡，信号必须与噪声同阶或更大： \(\frac{\|\Delta_1\|^2 + \text{tr}(\Delta_2)}{\sqrt{p/N}} \to \infty \iff \frac{N(\|\Delta_1\|^2 + \text{tr}(\Delta_2))^2}{p} \to \infty\)。这就是最小内核：高斯核因为 \(\kappa'(0) \neq 0\)，其 MMD 在高维下退化为只看 \(\|\Delta_1\|^2 + \text{tr}(\Delta_2)\) 的线性检验，功效临界点由 \(N \cdot \text{signal}^2 / p\) 决定。论文的一般理论只是将此 Taylor 展开推至 \(k\) 阶，并讨论当 \(\kappa'(0)=0\)（如某些带宽选择）或前 \(K-1\) 阶矩相同时，第 \(K\) 阶项如何接管信号。

三、这篇论文做了什么¶

三句话： ① 研究了高维下（\(p, N \to \infty\)）各向同性核 MMD 两样本检验的渐近性质与功效分析。 ② 核心工具是核函数在 0 处的 Taylor 展开（Hoeffding 分解 + 矩张量缩并）与高维 CLT（studentization + 随机矩阵迹估计）。 ③ 主要结论是给出了非原假设下的 CLT，并精确推导出“功效非平凡”的临界条件：MMD 能检测的第 \(K\) 阶矩差异，其信号强度必须满足 \(N \cdot \|\Delta_K\|_F^2 / p^K \to \infty\)，揭示了矩差异阶数与 \(p, N\) 相对阶数的相互作用。

关键设定与假设：在第二节最小记号基础上补全： - Assumption 1（数据矩条件）：\(P_X, P_Y\) 的前 \(K\) 阶累积量存在，且 \(\|\Delta_k\| / p^{1/2}\) 对 \(k \leq K\) 有界。统计含义：限制了高维下矩差异的增长速度，确保 Taylor 展开余项可控。相比 Gao and Shao (2021) 的子高斯假设，本文允许更重的尾部（仅要求矩有界）。 - Assumption 2（核条件）：\(\kappa\) 在 0 处 \(K\) 次可微，且 \(\kappa^{(k)}(0)\) 满足特定非零或为零的模式。统计含义：决定了核函数“放大”哪一阶矩差异。例如，若 \(\kappa'(0) \neq 0\)，则一阶矩差异（均值）被检测；若 \(\kappa'(0)=0\) 但 \(\kappa''(0) \neq 0\)，则均值相同时二阶矩差异（协方差）被检测。 - Assumption 3（协方差结构）：\(\text{tr}(\Sigma_i^k) / p\) 有界，且 \(\text{tr}((\Sigma_i \Sigma_j)^k) / p\) 有界。统计含义：这是高维 CLT 的经典条件（Chen and Qin 2010; Gao and Shao 2021），确保样本协方差矩阵的迹估计是 ratio-consistent 的，避免协方差矩阵谱发散导致的方差估计失效。

主要结果： - Theorem 3.1（渐近展开）：在 \(H_0\) 与局部/固定备择假设下，将 \(\widehat{\text{MMD}}_v\) 展开为： \(\widehat{\text{MMD}}_v = \sum_{k=1}^K \frac{\kappa^{(k)}(0)}{k!} U_k + R_K\)，其中 \(U_k\) 是基于第 \(k\) 阶矩差异的 U-统计量，\(R_K\) 是余项。证明了 \(R_K = o_P(\sqrt{\text{Var}(U_1)})\)。直觉：高维下，非线性核 MMD 被拆解为一系列“线性/多项式核 MMD”的叠加，高阶项是低阶项的微扰。 - Theorem 3.2（非原假设 CLT）：在局部备择假设下，studentized 统计量 \(T_n \xrightarrow{d} N(\mu, 1)\)，其中 \(\mu\) 是由主导阶矩差异决定的漂移项。必要条件：主导项的方差估计是 ratio-consistent 的（依赖 Assumption 3）。解决了的技术难点：在备择假设下，U-统计量的 Hoeffding 分解中交叉项的方差估计极其复杂，本文通过迹恒等式将交叉项方差化简为 \(\text{tr}(\Sigma^k)\) 的组合，并证明了其 ratio consistency。 - Corollary 3.1（功效临界公式）：这是本文最核心的量化结论。假设前 \(K-1\) 阶矩相同，第 \(K\) 阶矩有差异 \(\Delta_K\)。检验功效非平凡（趋于 \(> \alpha\)）的充要条件是： \(\frac{N \|\Delta_K\|_F^2}{p^K} \to \infty\)。直觉：第 \(K\) 阶矩差异的信号强度是 \(\|\Delta_K\|_F^2\)（Frobenius 范数），但噪声量级随矩阶数 \(K\) 以 \(p^K\) 指数增长！因此，检测高阶矩差异需要的样本量 \(N\) 必须至少是 \(p^K\) 的量级。这精确量化了 Ramdas et al. (2015) 的“功效多项式衰减”现象：若 \(N\) 仅随 \(p\) 线性增长，则 \(K>1\) 时功效必然坍缩。

证明路线与技术技巧： - 整体路线： 1. Taylor 展开：将核函数 \(\kappa(\|X-Y\|^2)\) 在 \(\mathbb{E}[\|X-Y\|^2]\) 处展开，得到多项式核序列。 2. Hoeffding 分解：对每个多项式核 U-统计量 \(U_k\) 进行 Hoeffding 分解，分离出中心化项（信号）与退化项（噪声）。 3. 方差缩并：利用矩张量的缩并恒等式，将 \(U_k\) 的方差表示为 \(\text{tr}(\Sigma^k)\) 与 \(\|\Delta_k\|_F^2\) 的组合。 4. Studentization：构造 \(T_n = \widehat{\text{MMD}}_v / \widehat{\text{Var}}(\Delta_1)\)，证明 \(\widehat{\text{Var}}\) 在局部备择下是 ratio-consistent 的。 5. CLT 组装：证明主导项 \(U_K\) 满足 CLT（依赖高维 CLT 经典条件），余项 \(R_K\) 与交叉项是 \(o_P(1)\)。 - 关键跳跃点： - Lemma B.2（备择假设下的方差 ratio consistency）：在 \(H_1\) 下，\(\widehat{\text{Var}}(\Delta_1)\) 的估计涉及 \(\text{tr}(\Sigma_X \Sigma_Y)\) 等交叉项，传统方法（如 Chen and Qin 2010）仅在 \(H_0\) 下有效。本文通过构造无偏的 U-统计量估计器，并利用 \(\|\Delta_1\|^2 / p \to 0\) 的局部备择条件，证明交叉项的贡献可被忽略。 - 余项控制：Taylor 展开的余项 \(R_K\) 包含 \(\|X-Y\|^2 - \mathbb{E}[\|X-Y\|^2]\) 的高阶幂次。控制 \(R_K\) 需要证明 \(\mathbb{E}[(\|X-Y\|^2 - \mathbb{E}[\|X-Y\|^2])^{K+1}] / \text{Var}(U_1)^{(K+1)/2} \to 0\)，这依赖 Assumption 1 的矩有界条件与 \(p\) 的缩放。 - 技术技巧点名： - Hoeffding decomposition：用于将 U-统计量拆解为信号与噪声，是整个展开的地基。 - Trace identities / Moment tensor contraction：将高维随机向量的高阶矩期望化简为协方差矩阵迹的线性组合（如 \(\mathbb{E}[(X^T Y)^4] = \text{tr}(\Sigma_X \Sigma_Y)^2 + \ldots\)），这是高维 CLT 的标准操作（Bai and Saranadasa 1996）。 - Ratio consistency under alternatives：在局部备择下证明方差估计的一致性，是本文区别于 Gao and Shao (2021)（仅原假设下证明）的关键。 - Stein's method / Leave-one-out：未显式使用，高维 CLT 的证明依赖经典的矩方法与 Lindeberg 替换。

真实例子与应用： - 模拟实验： - 场景：生成高维数据 \(X \sim N(0, I_p)\)，\(Y \sim N(\mu, I_p + \Delta)\)，控制 \(\mu\)（一阶差异）与 \(\Delta\)（二阶差异）的量级，以及 \(p, N\) 的相对阶数。 - 应用方法：计算 studentized MMD（高斯核与拉普拉斯核），与 Chen and Qin (2010) 的均值检验、Energy distance 检验对比。 - 结果： 1. 当仅存在均值差异 \(\mu\) 时，MMD 与 Chen-Qin 检验功效相近，验证了 \(\kappa'(0) \neq 0\) 时 MMD 退化为均值检验。 2. 当仅存在协方差差异 \(\Delta\) 且 \(\mu=0\) 时，若 \(N \sim p\)，MMD 功效趋于 \(\alpha\)（平凡）；若 \(N \sim p^2\)，MMD 功效趋于 1。精确验证了 Corollary 3.1 的临界公式 \(N \|\Delta\|_F^2 / p^2 \to \infty\)。 3. 拉普拉斯核在检测均值差异时与高斯核功效相同（因为 \(\kappa'(0) \neq 0\)），但在检测协方差差异时表现不同（因为 \(\kappa''(0)\) 的符号与量级不同）。 - 说明什么：模拟旨在验证理论推导的临界公式，并展示“核的线性化”现象（高维下 MMD 功效完全由前两阶矩决定，与核的非线性性质无关）。 - 真实数据：本文为纯理论文章，无真实数据例子。模拟实验是唯一的实证支撑。

🔎 结论是否比证明窄： - Energy distance 的特例处理：Introduction 与 Abstract 声称 Energy distance 是本文框架的特例，但 Energy distance 对应的核 \(\kappa(t) = -\sqrt{t}\) 在 \(t=0\) 处不可微（\(\kappa'(0)\) 不存在），破坏了 Taylor 展开的核心假设（Assumption 2）。作者在 Section 4.2 单独为 Energy distance 写了一段论证，利用 \(\sqrt{t}\) 的凹性与特定矩恒等式绕过了可微性要求，但这部分论证未给出严格的定理陈述，仅以“类似可证”带过。这是一个典型的“结论宽于证明”的缺口：框架声称覆盖 Energy distance，但严格证明仅覆盖无穷次可微核，Energy distance 的非原假设 CLT 缺乏独立定理支撑。 - 拉普拉斯核的 Taylor 展开：拉普拉斯核 \(\kappa(t) = e^{-\sqrt{t}/\gamma}\) 在 \(t=0\) 处同样不可微（存在奇点），作者通过变量替换 \(t = s^2\) 将其转化为可微函数处理，但此替换改变了矩缩并的缩放阶数，Corollary 3.1 的临界公式是否严格适用于拉普拉斯核，证明细节中未完全显式验证。

四、开放问题（点到为止，扎根具体语句）¶

Energy distance 与不可微核的严格非原假设 CLT：要证什么？证明在 \(\kappa\) 仅满足 \(\alpha\)-阶 Holder 连续（不可微）时，studentized 统计量的渐近分布与功效临界公式。扎根点：Section 4.2 最后一段“The proof is similar and thus omitted”，以及 Assumption 2 明确要求 \(K\) 次可微。
各向异性核的高维渐近：要估什么？估计使用方向性核（如 Mahalanobis 距离核 \(k(x,y) = \kappa((x-y)^T A (x-y))\)，\(A \neq I_p\)）的 MMD 在高维下的信号分解与功效临界点。扎根点：Introduction 明确声明“we focus on the maximum mean discrepancy using an isotropic kernel”，各向异性核被完全排除。
与聚合度量的功效比较：要证什么？在 \(N \sim p\)（HDMSS）且仅存在高阶矩差异时，证明 Aggregated Energy distance（Chakraborty and Zhang 2019）的功效是否严格优于各向同性 MMD。扎根点：Introduction 回避了对 Chakraborty and Zhang (2019) 聚合方法的比较，而 Corollary 3.1 暗示 MMD 在 \(N \sim p\) 时对高阶差异无力。
核化 Stein 差异的高维行为：要估什么？估计 Kernelized Stein Discrepancy (Liu et al. 2016; Chwialkowski et al. 2016) 在 \(p, N \to \infty\) 下的信号降阶与功效坍缩临界点。扎根点：Section 5 Discussion 第二句“it would be very interesting to study the high-dimensional behaviors of other popular discrepancy measures... such as the kernelized Stein discrepancy”。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Kernel two-sample tests in high dimensions: interplay between moment discrepancy and dimension-and-sample orders¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论