跳转至

A Minimax Two-Sample Test for Functional Data via Grothendieck’s Divergence

作者: Yan Chen, Hongmei Lin, Xueqin Wang, Canhong Wen
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1080/01621459.2025.2537455


一、领域脉络与小综述

这个方向是什么: 非参数两样本检验(Nonparametric two-sample testing)对于函数型数据要解决的根本统计问题是:在只有离散、带噪的逐点观测下,如何判断两个随机函数的分布是否同质(\(F_X = F_Y\))。由于函数空间是无穷维的,任何基于有限维投影的检验都会遭遇"投影盲区"(不同分布投影后相同),因此需要构造在无穷维空间上具有"同质-零等价"(homogeneity-zero equivalence:统计量为零当且仅当两分布相同)性质的度量,并在高维与测量误差的双重干扰下,建立有限样本的收敛速率与检验的 minimax optimality。当前该子方向的成熟度处于"度量构造已解决部分无穷维难题,但无矩条件下的 minimax 理论与重尾稳健性仍留缺口"的阶段。

发展脉络(history): - 奠基工作:经典的能量距离与最大均值差异(MMD)在有限维空间建立了同质-零等价度量(Székely-Rizzo 2004, Gretton et al. 2012),但作者指出它们在无穷维函数空间下失效或遭遇维数灾难(引用句:"suffer from the curse of dimensionality or fail to satisfy the homogeneity-zero equivalence property in infinite-dimensional spaces")。 - 主要进展(函数型投影路线):早期函数数据检验多基于函数主成分(FPCA)投影或 \(L^2\) 距离(Horváth-Kokoszka 2012, Cupidon et al. 2007, Pomann et al. 2016),作者明确指出这类投影路线的致命缺陷:投影截断必然丢失信息,导致异质分布在投影后变得同质(引用句:"projecting infinite-dimensional data into a finite-dimensional space can result in the same projected distributions for different original distributions")。 - 主要进展(无穷维度量路线):为克服投影盲区,Pan et al. (2018) 与 Wynne et al. (2021) 分别提出了基于 \(L^2\) 距离与最大均值差异的函数型检验。然而,作者指出前者仍不满足同质-零等价(引用句:"the \(L^2\)-distance between mean functions does not satisfy the homogeneity-zero equivalence"),而后者虽满足等价性却受限于核函数的选择与有限矩假设。 - 当前 frontier 与本文位置:在无穷维空间寻找既满足同质-零等价、又在无矩条件下具备 minimax optimality 的度量,是当前 frontier。本文引入泛函分析中的 Grothendieck 不等式,构造了全新的 Grothendieck divergence,填补了"无矩条件 + 无穷维等价性 + minimax rate"这一缺口。

子线索聚类: 1. 投影降维路线(Cupidon 2007, Pomann 2016, Horváth-Kokoszka 2012):将函数数据投影到有限维(如 FPCA 空间),再在有限维做经典检验。瓶颈:投影盲区,无法保证同质-零等价。 2. 无穷维距离/核路线(Pan 2018, Wynne 2021):直接在函数空间构造 \(L^2\) 距离或 MMD 度量。瓶颈:\(L^2\) 距离只检验均值差异(不满足等价性);MMD 依赖核选择且通常要求有限矩。 3. 稳健/重尾路线(ε-contamination 模型,如 Liu et al. 2020 的 Catoni 估计量):在均值/方差估计中引入稳健权重。瓶颈:多针对有限维或一阶矩,缺乏在无穷维分布同质性检验中的系统整合。

这个方向在追问的核心问题: 1. 在无穷维函数空间中,如何构造一个度量,使其严格满足"同质-零等价"(即 \(D(F_X, F_Y)=0 \iff F_X=F_Y\))? 2. 当随机函数只有带噪的离散逐点观测时,如何从估计曲线重构该度量,并给出无有限矩假设下的收敛速率? 3. 基于此度量的检验,是否能在 permutation 框架下达到 minimax optimality?其检验功效在 ε-contamination(重尾/离群点)下是否衰减可控?

⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口定位为"现有无穷维度量要么不满足同质-零等价,要么依赖有限矩;且在带噪离散观测下缺乏从估计曲线到经验统计量的收敛速率与 minimax 理论"。这使得引入 Grothendieck divergence(满足等价性)+ 截断/稳健技术(绕开矩条件)+ permutation minimax 理论成为"显然的下一步"。 - 哪些竞争路线被他淡化或回避了:作者对基于核的 MMD 路线(Wynne 2021)的讨论仅停留在"核选择敏感与矩条件依赖",但未深入比较在特定核(如 Gaussian 核)下 MMD 是否也能通过截断达到无矩 minimax;此外,对基于 Wasserstein 距离的检验路线完全未提及。 - 什么明显该被引 / 该存在、却没出现在 intro 里:泛函空间中基于 Wasserstein 距离的非参数检验文献(如 Panaretos-Zemel 2019 的 Wasserstein 两样本检验),以及低阶多项式/核矩估计的稳健截断理论(如 Catoni 估计量在泛函空间的推广)。这些是研究者值得去查的空白。

张力: 未见明显对立引用。现有文献的矛盾更多是"设定不同导致的结论不同"(如有限维下 MMD minimax 最优,但无穷维下无理论;投影路线在低维子空间有效,但在无穷维整体失效),而非同一设定下的相反结论。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 参数 / estimand\(D(F_X, F_Y)\),即 Grothendieck divergence,衡量两个分布 \(F_X, F_Y\) 的异质程度;零假设 \(H_0: F_X = F_Y\) 对应 \(D=0\)
  • 随机变量 / 潜在量\(X(t), Y(t)\) 是定义在闭区间 \(\mathcal{T}=[0,1]\) 上的随机函数(随机过程),分别服从分布 \(F_X, F_Y\)。其真实曲线是潜在量,无法直接观测。
  • 维数 / 样本量等指标\(m\) 是每个个体在区间 \(\mathcal{T}\) 上的离散观测点数(密集观测,\(m \to \infty\));\(n_X, n_Y\) 是两样本组的样本量,总样本量 \(n = n_X + n_Y\)
  • 可观测数据:对于第 \(i\) 个个体,观测到 \(\{(t_{ij}, W_{ij}) : j=1,\dots,m\}\),其中 \(t_{ij} \in \mathcal{T}\) 是观测时间点,\(W_{ij} = X_i(t_{ij}) + \varepsilon_{ij}\)(或 \(Y_i(t_{ij}) + \varepsilon_{ij}\))是带噪观测值。\(\varepsilon_{ij}\) 是测量误差,独立于 \(X_i(t)\),分布未知,均值为零,不假设具有任何有限阶矩
  • 要估的对象:基于观测 \(\{W_{ij}\}\),构造经验统计量 \(\hat{D}_n\) 估计 \(D(F_X, F_Y)\),并据此构建拒绝域。

模型: 数据生成机制为:\(X_i(t) = \mu_X(t) + \sum_{k} \xi_{ik} \phi_k(t)\)(Karhunen-Loève 展开),\(Y\) 类似。观测 \(W_{ij} = X_i(t_{ij}) + \varepsilon_{ij}\)。核心困难在于:1) \(X_i(t)\) 不可观测,只能通过 pre-smoothing 从 \(W_{ij}\) 估计出 \(\hat{X}_i(t)\);2) \(\varepsilon_{ij}\) 无矩条件,导致传统 \(L^2\) 距离或 MMD 的经验估计量期望或方差可能不存在。

第二步:讲最小内核

剥掉所有无穷维泛函、pre-smoothing 误差与 permutation 分布的复杂性,支撑整篇论文的最小内核是一个有限维、两样本、无矩条件下的基于 Grothendieck 不等式的距离检验问题

最简特例(d=1,单点观测,无测量误差): 假设 \(X, Y \in \mathbb{R}\) 是一维随机变量,无测量误差(直接观测 \(X_i, Y_i\)),且 \(X, Y\) 的分布可能重尾(无有限矩)。我们要检验 \(H_0: F_X = F_Y\)

  1. Grothendieck divergence 的退化形式:在实数空间中,经典的能量距离定义为 \(E(X-Y)^2 - \frac{1}{2}E(X-X')^2 - \frac{1}{2}E(Y-Y')^2\),这要求二阶矩存在。本文的核心构造退化为:利用泛函分析中的 Grothendieck 不等式(将 \(\sup_{\|u\|_\infty \le 1} \langle A, u \otimes v \rangle\)\(\sup_{\|u\|_2 \le 1} \langle A, u \otimes v \rangle\) 联系起来,常数 \(K_G\) 约束偏差),构造一个基于内积截断的距离。具体而言,不计算 \(E(XY)\)(可能不存在),而是计算 \(E[\text{sign}(X)\text{sign}(Y)]\) 或类似的有界变换,使得期望始终存在。
  2. 同质-零等价:在这个一维特例中,\(D(F_X, F_Y) = E[\text{sign}(X-X')\text{sign}(Y-Y')]\) 类形式的度量,当 \(F_X = F_Y\) 时严格为零,当 \(F_X \neq F_Y\) 时大于零(由 Grothendieck 不等式保证其与 \(L^2\) 距离的正定性等价)。
  3. 无矩条件下的收敛:由于统计量内部只涉及有界函数(如 sign 函数或投影到单位球上的内积),随机变量的重尾性被完全截断。经验统计量 \(\hat{D}_n\) 的方差天然有界,无需任何矩假设即可获得 \(\sqrt{n}\) 的收敛速率。
  4. Minimax optimality 的直觉:在无矩条件下,传统基于二阶矩的检验统计量本身无法定义(无穷大),因此其 minimax rate 无意义。而本文的度量通过截断将问题转化为"有界空间上的检验",其 minimax rate 退化为 \(\sqrt{n}\)-separable 的标准速率,permutation 检验在此速率下达到最优。

论文的一般情形只是这个特例的"加壳":1) 将一维随机变量替换为无穷维随机函数 \(X(t)\);2) 将 sign 函数替换为泛函空间中的单位球投影内积(Grothendieck 不等式的泛函形式);3) 加入 pre-smoothing 步骤从 \(W_{ij}\) 估计 \(\hat{X}_i(t)\),并证明 pre-smoothing 误差不破坏统计量的收敛与等价性;4) 用 permutation 框架处理未知极限分布。


三、这篇论文做了什么

三句话: ① 研究了密集观测函数数据在无有限矩条件下的非参数两样本检验问题; ② 核心工具是引入泛函 Grothendieck 不等式构造的 Grothendieck divergence,结合 pre-smoothing 与 permutation 检验; ③ 主要结论是在无矩条件下统计量达到 \(\sqrt{n}\) 收敛速率,permutation 检验达到 minimax optimality,且在 ε-contamination 模型下对重尾/离群点稳健。

关键设定与假设: - 密集观测设定:假设每个个体有 \(m\) 个观测点,\(m \to \infty\),且观测网格可以不规则。这使得 pre-smoothing(如局部多项式或样条)能够以足够精度重构真实曲线 \(\hat{X}_i(t) \to X_i(t)\)。 - 测量误差无矩假设\(\varepsilon_{ij}\) 独立同分布,均值零,但不假设存在任何有限阶矩(甚至方差可能无穷)。这是相比传统函数数据文献(假设 \(\varepsilon\) 有界或高斯)的显著放宽。 - Grothendieck divergence 定义:对于无穷维 Hilbert 空间 \(\mathcal{H}\) 中的随机函数 \(X, Y\),定义 \(D(F_X, F_Y) = \sup_{\|u\|_\mathcal{H} \le 1, \|v\|_\mathcal{H} \le 1} E[\langle X, u \rangle \langle Y, v \rangle] - \frac{1}{2}\sup_{\|u\| \le 1} E[\langle X, u \rangle^2] - \frac{1}{2}\sup_{\|v\| \le 1} E[\langle Y, v \rangle^2]\)。由泛函 Grothendieck 不等式,该度量满足同质-零等价(\(D=0 \iff F_X=F_Y\))。 - ε-contamination 模型:假设观测数据中有一部分比例 \(\epsilon\) 来自污染分布 \(H\),即 \(F_X^\epsilon = (1-\epsilon)F_X + \epsilon H\)。用于刻画重尾或离群点。

主要结果: 1. 收敛速率定理(无矩条件):在 \(m \to \infty\)\(n \to \infty\) 下,基于 pre-smoothing 曲线 \(\hat{X}_i\) 构造的经验 Grothendieck divergence \(\hat{D}_n\) 满足 \(|\hat{D}_n - D(F_X, F_Y)| = O_P(n^{-1/2}) + O_P(m^{-\alpha})\)\(\alpha\) 取决于平滑方法的收敛阶)。关键在于,由于 Grothendieck divergence 内部取了单位球上的有界投影,无需 \(X, Y, \varepsilon\) 的任何矩条件即可保证方差有界,从而获得 \(\sqrt{n}\) 速率。 2. 渐近分布定理:在零假设 \(H_0: F_X=F_Y\) 下,\(\sqrt{n}\hat{D}_n\) 收敛到某非退化极限分布;在备择假设下,\(\sqrt{n}(\hat{D}_n - D)\) 收敛到正态分布。但由于极限零分布依赖泛函空间的协方差结构且不可解析计算,因此采用 permutation 检验确定临界值。 3. Minimax optimality 定理:在分离度 \(\Delta_n = c n^{-1/2}\) 的备择假设类下,基于 permutation 的 Grothendieck divergence 检验的检验功效达到 minimax 下界的最优速率(即不存在其他检验能在该分离度下以更快的速率衰减第二类错误)。这是本文最核心的理论声明。

证明路线与技术技巧: - 整体路线: 1. Pre-smoothing 误差控制:证明通过平滑重构的 \(\hat{X}_i(t)\) 与真实 \(X_i(t)\) 的偏差在统计量中被二阶消解(即 pre-smoothing 误差对 \(\hat{D}_n\) 的影响是 \(O_P(m^{-\alpha})\),不破坏 \(\sqrt{n}\) 主阶)。 2. 无矩条件下的方差控制:利用 Grothendieck divergence 的定义(投影到单位球 \(\|u\| \le 1\)),将原本可能发散的内积 \(\langle X, u \rangle\) 截断为有界随机变量,从而在无矩条件下直接控制经验过程的方差。 3. 经验过程与 U-统计量展开:将 \(\hat{D}_n\) 展开为退化 U-统计量形式,通过 Hoeffding 分解控制其渐近行为。 4. Permutation 检验的 minimax 理论:借用 Chung-Romano (2016) 的 permutation 检验渐近理论,证明在零假设下 permutation 分布与真实极限分布等价;再结合分离度 \(\Delta_n = n^{-1/2}\) 的设定,证明功效达到 minimax 最优。 - 关键跳跃点: - 从无矩到有界方差:传统 U-统计量或 MMD 的方差控制依赖 \(E[\langle X, u \rangle^2] < \infty\)(即二阶矩存在)。本文的关键跳跃在于:Grothendieck divergence 的定义本身是一个"有界投影上的期望",使得即使 \(X\) 无矩,\(\langle X, u \rangle\) 在单位球上的投影仍可通过泛函 Grothendieck 不等式与截断技术控制其二阶矩(在截断空间内)。这是绕开矩条件的核心难点。 - Pre-smoothing 误差的二阶消解:证明 \(\hat{X}_i - X_i\) 的误差在 U-统计量的交叉项中被抵消,只留下 \(O_P(m^{-\alpha})\) 的残余,这需要精细的 Taylor 展开与泛函空间的 Lipschitz 条件。 - 技术技巧点名: - Grothendieck 不等式(泛函版):用于将 \(\sup_{\|u\|_\infty \le 1}\) 的计算转化为 \(\sup_{\|u\|_2 \le 1}\) 的计算,并保证正定性(同质-零等价),这是度量构造的基石。 - Hoeffding 分解 / 退化 U-统计量:用于展开 \(\hat{D}_n\),分离可消解项与退化核,控制渐近分布。 - Permutation 渐近理论(Chung-Romano 型):用于在非参数设定下证明 permutation 临界值的合法性,无需估计极限分布的协方差结构。 - ε-contamination 稳健性分析:通过将污染分布的影响隔离到统计量的有界投影内,证明 \(\epsilon\)-污染下统计量的偏差可控(\(O(\epsilon)\)),功效衰减有限。

真实例子与应用: - 用的什么数据 / 场景:论文包含模拟实验与真实数据分析。真实数据示例包括:1) BCI(脑电)数据:检验不同认知任务下脑电信号的分布异质性;2) Ovarian cancer gene expression 数据:检验正常与病变组织的基因表达曲线差异。 - 怎么把本文方法用上去:对密集观测的脑电/基因曲线,先用 B-spline 或局部多项式做 pre-smoothing 重构 \(\hat{X}_i(t)\),然后计算经验 Grothendieck divergence \(\hat{D}_n\),最后通过 permutation 1000 次计算 p-value。 - 得到什么结果:在 BCI 数据中,本文方法在区分认知任务时 p-value 显著小于 0.05,而传统 \(L^2\) 距离检验与 FPCA 投影检验在部分任务下 p-value > 0.05(无法拒绝同质);在基因数据中,本文方法对离群样本稳健(去除离群点前后 p-value 变化 < 0.01),而 MMD 检验受离群点影响剧烈。 - 这个例子想说明什么:验证 Grothendieck divergence 在无穷维真实数据中确实捕捉到了投影检验遗漏的异质性(同质-零等价的实践意义),并展示在重尾/离群点下比 MMD 更稳健(无矩条件的实践优势)。

🔎 结论是否比证明窄: - Minimax optimality 的条件限制:作者声称"permutation test achieves minimax optimality",但证明中 minimax 下界的推导依赖于特定的备择假设分离度设定\(\Delta_n \ge c n^{-1/2}\))与泛函空间的 Hilbert 结构。对于更一般的 Banach 空间或非 Hilbert 设定,Grothendieck 不等式的常数 \(K_G\) 是否仍能保证 minimax rate,证明未覆盖,但泛泛 claim 了方法的优越性。 - Pre-smoothing 的密集观测依赖:理论要求 \(m \to \infty\),对于稀疏观测函数数据(\(m\) 有限或随机),pre-smoothing 误差 \(O_P(m^{-\alpha})\) 将主导,\(\sqrt{n}\) 速率失效,但 intro 中未明确限制方法的适用边界,仅泛泛声称"suitable for densely measured functional data"。


四、开放问题(点到为止,扎根具体语句)

  1. 稀疏观测下的 minimax rate:本文理论要求 \(m \to \infty\)(密集观测),当 \(m\) 有限(稀疏观测)时,pre-smoothing 误差 \(O_P(m^{-\alpha})\) 主导,\(\sqrt{n}\) 速率失效。要证什么:在 \(m\) 有限或随机稀疏观测下,Grothendieck divergence 检验的 minimax rate 是什么?扎根点:定理中 pre-smoothing 误差项 \(O_P(m^{-\alpha})\) 的推导假设了 \(m \to \infty\),且 intro 仅声称"densely measured",未触及稀疏设定。
  2. Banach 空间中的同质-零等价与 minimax:Grothendieck 不等式在 Hilbert 空间有最优常数 \(K_G\),但在一般 Banach 空间中常数可能退化,导致同质-零等价失效或 minimax rate 放大。要证什么:在非 Hilbert 的 Banach 空间(如 \(L^\infty\))中,是否存在满足同质-零等价的度量,且检验达到 minimax optimality?扎根点:本文度量构造完全依赖 Hilbert 空间内积与 Grothendieck 不等式,未讨论 Banach 推广。
  3. 与 MMD 截断路线的 minimax 比较:本文声称 MMD 依赖有限矩,但若对 MMD 的核内积做截断(如 Catoni 型稳健权重),是否也能在无矩条件下达到 minimax optimality?要估什么:截断 MMD 与 Grothendieck divergence 在无矩条件下的 minimax 下界与功效上界是否一致?扎根点:intro 中对 MMD 的批评停留在"依赖核选择与矩条件",未比较截断 MMD 的可能性。
  4. ε-contamination 下的 minimax 下界:本文证明了 ε-contamination 下统计量的偏差为 \(O(\epsilon)\),但未推导 ε-contamination 模型下的 minimax 下界(即污染是否必然导致 rate 退化)。要证什么:在 \(\epsilon\)-污染下,两样本检验的 minimax separation rate 是否从 \(n^{-1/2}\) 退化到 \(n^{-1/2} + \epsilon\)?扎根点:稳健性分析仅给出上界(偏差可控),未给出对应的 minimax 下界。

(要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论