Two-sample test with Wasserstein distance on Gaussian samples based on a log-normal approximation¶
作者: Johann Clément-Cottuz, Maxime Bérar, Gilles Gasso
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.25521
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向是基于Wasserstein距离的两样本检验。根本的统计问题是:给定两组独立样本,如何判断它们是否来自同一分布?Wasserstein距离(最优传输理论中的一种度量)天然地提供了一个衡量分布差异的标量,因此被用作检验统计量。当前成熟度:方法学上已有大量工作,但精确的零分布(null distribution)推导仍是核心瓶颈,尤其是在有限样本下。大多数实用方法依赖置换检验或渐近近似,而本文试图为一种特定设定(第一样本为高斯)提供一种新的、计算上更简单的近似。
发展脉络(history)¶
奠基工作:Wasserstein距离本身的理论基础由Villani (2003) 和 Peyré & Cuturi (2020) 的专著系统化。Peyré & Cuturi (2020) 的《Computational Optimal Transport》一书将OT从纯数学推向数据科学应用,提供了可扩展的算法框架。
主要进展(两样本检验方向): - Ramdas, Trillos & Cuturi (2017) 在《On Wasserstein Two-Sample Testing and Related Families of Nonparametric Tests》中,系统性地将Wasserstein检验与Kolmogorov-Smirnov检验、能量统计(energy statistics)、最大均值差异(MMD)等经典非参数检验联系起来,揭示了它们之间的深层结构关系。他们指出,Wasserstein检验可以看作是一系列非参数检验的“中心对象”。 - Matsui et al. (2016) 在《D3M: Detection of differential distributions of methylation levels》中,将Wasserstein距离用于生物信息学中的差异分布检测,并采用置换检验计算p值。 - Schefzik, Flesch & Goncalves (2021) 在《Fast identification of differential distributions in single-cell RNA-sequencing data with waddR》中,将2-Wasserstein距离用于单细胞RNA-seq数据的差异分布检测,并开发了R包waddR,同样依赖置换检验。 - Wang, Gao & Xie (2022) 在《Two-Sample Test with Kernel Projected Wasserstein Distance》中,提出了核投影Wasserstein距离,旨在缓解高维下的维数灾难,并提供了非渐近的不确定性量化。
当前frontier与本文位置: - Rippl, Munk & Sturm (2016) 在《Limit laws of the empirical Wasserstein distance: Gaussian distributions》中,尝试为高斯样本的Wasserstein距离推导极限分布。他们通过Bures距离近似Wasserstein距离,并导出了渐近分布。然而,本文作者指出,这个极限分布“在实践中与真实分布相差甚远,即使在大样本下也是如此”(原文:“the derived two-sample test is not valid as the limit distribution advocated in Rippl et al. (2016) appears to be far from the true one in practice, even for large sample size”)。这是本文的直接动机。 - Hallin, Mordant & Segers (2020) 在《Multivariate goodness-of-fit tests based on Wasserstein distance》中,提出了基于经验Wasserstein距离的多元拟合优度检验,并指出推导Wasserstein距离极限分布是一个“困难的开问题”(原文:“difficult open problem”)。本文引用了这一判断,作为其采用近似而非精确推导的理由。
本文的位置:本文放弃了精确的极限分布推导,转而采用对数正态近似来拟合Wasserstein距离的零分布。这是一种参数化近似方法,类似于Mardia (1970) 的多元偏度和峰度检验(在零假设下拟合一个参数分布)。本文的贡献在于:为“第一样本为高斯”这一特定设定,提供了一个计算上简单(只需查表µn和τn)、且经验上误差可控(约10^-3)的近似p值方法。
子线索聚类¶
-
Wasserstein距离的渐近理论:关注Wasserstein距离(尤其是经验分布与真实分布之间)的收敛速率和极限分布。代表工作:Fournier & Guillin (2015)(一般分布的收敛速率)、Bobkov & Ledoux (2019)(一维经验测度的收敛速率)、Ledoux & Zhu (2019)(高斯样本的最优匹配)、Berthet & Fort (2020)(高斯样本W2距离的精确收敛速率)、del Barrio & Loubes (2019)(一般维度的CLT)、Berthet, Fort & Klein (2020)(两个不同一维分布的CLT)。这些工作为理解Wasserstein距离的随机行为提供了理论基础,但往往不直接给出可用于检验的、有限样本下易处理的零分布。
-
基于Wasserstein距离的检验方法:关注如何将Wasserstein距离用作检验统计量,并解决p值计算问题。代表工作:Ramdas et al. (2017)(理论连接)、Matsui et al. (2016)(置换检验)、Schefzik et al. (2021)(置换检验)、Wang et al. (2022)(核投影+自举)、Hu & Lin (2025)(最大切片Wasserstein距离+自举)。这些工作主要依赖计算密集型的置换或自举方法。
-
Wasserstein距离的分解与解释:关注如何将Wasserstein距离分解为有意义的成分(如均值、方差、形状)。代表工作:Irpino & Verde (2015)(将W2距离分解为mean, size, shape三项)。本文直接引用了这一分解,并指出Rippl et al. (2016)的Bures近似忽略了“shape”项,从而无法区分具有相同均值和方差但分布形状不同的情况。
这个方向在追问的核心问题¶
- 零分布的精确或近似形式是什么? 对于给定的Wasserstein距离统计量,能否得到其有限样本或渐近的零分布?这是所有基于Wasserstein距离的检验的核心瓶颈。
- 如何在高维下克服维数灾难? 经验Wasserstein距离的收敛速率随维度d指数级下降(Fournier & Guillin, 2015),使得直接使用在高维下功效极低。投影方法(如Wang et al., 2022; Hu & Lin, 2025)是主流应对策略。
- 检验功效如何? 与经典检验(如t检验、F检验、KS检验)相比,基于Wasserstein距离的检验在检测何种类型的分布差异(均值偏移、方差变化、形状变化)时更具优势?
- 计算可行性:如何在不依赖计算昂贵的置换/自举的情况下,快速获得p值?
已知瓶颈:精确零分布推导的数学困难(Hallin et al., 2020称之为“difficult open problem”);高维下的维数灾难;置换/自举方法在大样本下的计算成本。
⚠️ 作者的framing¶
作者将缺口frame成:Rippl et al. (2016) 的Bures近似方法在实践中失效,而精确分布推导又过于困难。因此,一个“实用的”替代方案是:在“第一样本为高斯”这一先验知识下,通过蒙特卡洛模拟拟合一个参数分布(对数正态)来近似Wasserstein距离的零分布。这使得本文成为“显然的下一步”:既然精确解不可得,就提供一个经验上有效的近似解。
被淡化或回避的竞争路线: - 置换检验:作者在引言中提及了置换检验(Matsui et al., 2016; Hu & Lin, 2025; Wang et al., 2022; Schefzik et al., 2021),但将其定位为计算成本高(“often with permutation tests”),从而为自己的参数近似方法让路。作者没有讨论置换检验在计算上是否真的构成瓶颈(对于n=50的样本,置换检验是可行的),也没有比较两种方法的计算时间。 - 自举方法:Hu & Lin (2025) 和 Wang et al. (2022) 使用的自举方法被提及,但同样被淡化。作者没有讨论自举方法在理论上更严谨(无需假设分布形式)的优势。
什么明显该被引/该存在、却没出现在intro里? - 更系统的Wasserstein检验综述:除了Ramdas et al. (2017),没有引用其他更近期的、专门针对Wasserstein两样本检验的综述或比较研究。这可能是由于该领域发展迅速,但值得研究者去查证。 - 关于“对数正态近似”的统计文献:作者直接提出了对数正态近似的猜想,但没有引用任何关于“用对数正态分布近似其他统计量分布”的已有文献或理论依据(如为什么选择对数正态而非Gamma或Weibull?)。这是一个值得研究者去查的问题:是否有理论(如极值理论)支持这种近似? - 关于“第一样本为高斯”这一假设的合理性讨论:作者没有讨论在什么实际场景下,研究者会“知道”第一样本是高斯分布。这在变点检测中可能成立(已知稳态分布),但在一般的两样本检验中很少见。这限制了方法的适用范围。
张力¶
未见明显对立引用。所有被引工作基本在各自的理论或应用框架内自洽。唯一的张力是Rippl et al. (2016) 的渐近分布与本文作者观察到的经验分布之间的差异,但这被作者归因于Bures近似的不足,而非理论上的矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
µ,ν:两个未知的概率分布(在R上)。{X_i}_{i=1}^n,{Y_i}_{i=1}^n:两组独立同分布(i.i.d.)的样本,分别来自µ和ν。样本量均为n。ˆµ^(n),ˆν^(n):对应于{X_i}和{Y_i}的经验测度。例如,ˆµ^(n) = (1/n) Σ_{i=1}^n δ_{X_i}。W_2(·,·):2-Wasserstein距离。对于一维分布,W_2^2(µ, ν) = ∫_0^1 (F^{-1}(t) - G^{-1}(t))^2 dt,其中F, G是累积分布函数。W_2^2(ˆµ^(n), ˆν^(n)):两个经验测度之间的平方2-Wasserstein距离。这是本文的检验统计量。N(θ, σ^2):均值为θ、方差为σ^2的正态分布。H0: µ = ν:零假设,即两个样本来自同一分布。H1: µ ≠ ν:备择假设。LN(µ_n, τ_n):对数正态分布,其对数服从均值为µ_n、标准差为τ_n的正态分布。µ_n和τ_n是依赖于样本量n的参数,通过蒙特卡洛模拟估计得到。α:显著性水平(第一类错误概率)。z_{1-α}:标准正态分布的(1-α)分位数。t_{n,α}:检验的临界值。
-
模型:
- 零假设下:
µ = ν = N(θ, σ^2)。即两组样本均来自同一个正态分布,其均值和方差未知。 - 备择假设下:
µ = N(θ, σ^2)(第一样本保持高斯),而ν可以是任意分布(高斯或非高斯)。 - 关键假设:第一样本
{X_i}已知来自高斯分布。这是本文方法的核心前提。
- 零假设下:
-
可观测数据:
- 可观测:两组样本
{X_i}_{i=1}^n和{Y_i}_{i=1}^n。研究者可以计算它们的经验分布、均值、方差、以及它们之间的经验Wasserstein距离W_2^2(ˆµ^(n), ˆν^(n))。 - 想要但观测不到:
W_2^2(ˆµ^(n), ˆν^(n))在零假设下的精确分布。这是检验问题的核心,也是本文试图近似的对象。由于W_2^2(ˆµ^(n), ˆν^(n))的计算涉及排序(order statistics),其分布的理论推导极其困难。
- 可观测:两组样本
第二步:讲最小内核¶
本文的最小内核是:当两个样本均来自标准正态分布N(0,1)且样本量n足够大(如n≥20)时,统计量W_2^2(ˆµ^(n), ˆν^(n))的分布可以用一个对数正态分布LN(µ_n, τ_n)来近似。
最简特例:设µ = ν = N(0,1),n=50。
-
问题:我们想检验
{Y_i}是否也来自N(0,1)。我们计算W_2^2(ˆµ^(50), ˆν^(50))。如果这个值很大,我们就拒绝H0。但多大算大?我们需要知道在H0下,这个统计量的分布。 -
核心思路:作者通过蒙特卡洛模拟(107次)发现,
W_2^2(ˆµ^(50), ˆν^(50))的分布非常像一个对数正态分布。于是,他们用模拟数据估计出这个对数正态分布的两个参数:µ_50和τ_50。 -
如何操作:
- 查表(或通过作者提供的公式)得到
µ_50和τ_50。 - 对于给定的显著性水平
α=0.05,计算临界值:t_{50, 0.05} = exp(τ_50 * z_{0.95} + µ_50),其中z_{0.95} ≈ 1.645。 - 如果计算出的
W_2^2(ˆµ^(50), ˆν^(50)) > t_{50, 0.05},则拒绝H0。
- 查表(或通过作者提供的公式)得到
-
为什么成立(直觉):
W_2^2(ˆµ^(n), ˆν^(n))是一个非负的随机变量。对数正态分布是建模非负、右偏数据的常见选择。作者通过数值实验验证了这种近似的误差很小(约10^-3),从而为这种近似提供了经验上的合理性。本文的数学贡献不在于推导,而在于发现并验证了这一近似关系。
总结:本文在数学上干了一件非常具体的事:通过大规模模拟,为“两个独立标准正态样本的平方2-Wasserstein距离”这一统计量,拟合了一个对数正态分布作为其零分布的近似,并验证了该近似的精度。然后,利用Wasserstein距离的缩放性质(W_σ^2 = σ^2 * W_1^2),将这个结果推广到任意方差σ^2的正态分布。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在“第一样本已知来自高斯分布”的设定下,提出了一个基于2-Wasserstein距离的两样本检验(gw test),用于判断第二样本是否也来自同一高斯分布。
- 核心工具/方法:通过蒙特卡洛模拟,发现并验证了在零假设下,两个高斯样本的平方2-Wasserstein距离
W_2^2的分布可以用一个对数正态分布来近似。利用这一近似,可以无需置换或自举,直接计算p值或临界值。 - 主要结论:该检验在检测方差增大时特别有效;与Fisher的p值组合检验(ftfish)和Tippett的p值最小检验(ftmin)相比,在方差增大的区域有更高的统计功效;该检验与Shapiro-Wilk正态性检验有深刻的数学联系,并能为后者提供一种新的阈值计算方法。
关键设定与假设¶
- 核心假设:第一样本
{X_i}来自一个高斯分布N(θ, σ^2)。这是整个方法的前提。作者没有讨论这个假设被违反时的后果。 - 样本量:
n ≥ 20。作者通过数值实验表明,对于n在20到500之间,对数正态近似的误差在临界值附近(95%分位数)小于3 × 10^{-3}。对于n < 20,该近似可能不准确。 - 独立同分布:两个样本内部及之间都是独立的,且每个样本内的观测是独立同分布的。
- 一维设定:核心方法针对一维数据。多维扩展(gpw test)是通过投影到协方差矩阵的特征向量上,进行多次一维检验并做多重假设校正(Bonferroni-like)来实现的。
- 方差已知或可估计:在gw test中,
σ可以是已知的,也可以从第一样本中估计(使用Gurland & Tripathi (1971) 的无偏估计方法)。当σ被估计时,检验的实际显著性水平会偏离名义水平α,因此作者引入了调整后的显著性水平k^{gw}_{α,n}。
主要结果¶
-
对数正态近似的数值验证:
- Figure 1:展示了对于
n ∈ {25, 50, 100, 500},经验累积分布函数(ECDF)与拟合的对数正态累积分布函数(CDF)之间的差异。差异量级约为10^{-3}。 - Figure 2:展示了在95%分位数处的近似误差
ε_n([F^{(n)}_{LN}]^{-1}(0.95))随n的变化。对于20 ≤ n ≤ 500,误差始终小于3 × 10^{-3}。这是本文最核心的数值证据。
- Figure 1:展示了对于
-
gw test与经典检验的比较(一维):
- Figure 3 & 4:在
n=40,第一样本为N(0,1),第二样本为N(ξ, τ^2)的设定下,比较了gw test与ftfish和ftmin的统计功效。结果表明,当τ ≥ σ(即第二样本方差增大)时,gw test具有更高的功效。当τ < σ(方差减小)时,gw test的功效低于α,表现不佳。 - Table 1:在
n=50,第一样本为N(0,1),第二样本来自多种非高斯分布(t分布、混合分布、指数分布、逻辑分布)的设定下,比较了gw test与wft(gw+F+t的组合)、ftfish、KS、Kuiper、cross-match等检验。结果显示,在大多数测试案例中,gw test获得了更高的检验功效(power),尤其是在检测t分布和逻辑分布时。作者还报告了gw test的Type-I error为0.048,接近名义水平0.05。
- Figure 3 & 4:在
-
与Shapiro-Wilk检验的联系:
- Property 4:严格证明了,基于Wasserstein距离的正态性检验(wn test)与Shapiro-Wilk检验在数学上是等价的。具体地,
s_α ≤ W_2^2(a, ˜y) ⇔ (1 - n/2 * s_α)^2 ≥ SW_n,其中SW_n是Shapiro-Wilk统计量。这意味着,wn test的决策规则可以转化为Shapiro-Wilk检验的决策规则。 - Table 2:展示了利用wn test的近似(即对数正态近似)计算出的Shapiro-Wilk检验阈值,与文献中(Shapiro & Wilk, 1965; Hanusz & Tarasinska, 2011)给出的阈值非常接近。这验证了wn test近似的有效性,并为计算Shapiro-Wilk检验的阈值提供了一种新方法。
- Property 4:严格证明了,基于Wasserstein距离的正态性检验(wn test)与Shapiro-Wilk检验在数学上是等价的。具体地,
-
多维扩展(gpw test):
- Property 5:证明了如果两个多元正态分布的迹相等(
tr(Σ) = tr(Ξ)),那么第二样本在至少一个第一样本协方差矩阵的特征向量方向上的投影方差,会大于或等于第一样本在该方向上的方差。这保证了gw test在检测方差增大时的优势可以推广到多维。 - Figure 8:在
R^8的变点检测模拟中,比较了gpw test与ftfish、eagg、ediv等方法。结果显示,gpw test在平均RandIndex和超过0.9的比例上,优于ftfish,且计算时间远小于eagg和ediv。这表明gpw test在特定变点检测场景下具有实用价值。
- Property 5:证明了如果两个多元正态分布的迹相等(
证明路线与技术技巧¶
本文不是一篇理论证明型论文,而是一篇应用/方法型论文。其“证明”主要是数值验证和性质推导。
-
整体路线:
- 提出猜想:基于数值观察,提出
W_2^2的零分布可被对数正态分布近似。 - 数值验证:通过大规模蒙特卡洛模拟(10^7次),估计经验分布,并与拟合的对数正态分布进行比较,量化近似误差。
- 性质推导:利用Wasserstein距离的缩放性质(Property 1 & 2),将对数正态近似从标准正态推广到一般正态分布。
- 构建检验:基于近似分布,构建gw test的决策规则。
- 应对未知参数:当
σ未知时,引入调整后的显著性水平k^{gw}_{α,n},并通过数值实验确定其值。 - 建立联系:通过代数推导(Property 4),证明gw test与Shapiro-Wilk检验的等价性。
- 多维扩展:通过投影到特征向量方向,将一维检验推广到多维,并利用多重假设校正控制整体第一类错误。
- 提出猜想:基于数值观察,提出
-
关键跳跃点:
- 从“无法推导精确分布”到“提出对数正态近似”:这是本文最大的跳跃。作者没有提供任何理论依据(如极值理论、Edgeworth展开等)来解释为什么选择对数正态分布。这个跳跃完全基于经验观察和数值验证。这是本文最薄弱但也最核心的“创新点”。
- 从“已知σ”到“估计σ”:当
σ被估计时,检验的零分布会发生变化。作者没有尝试推导估计σ后的分布,而是通过数值模拟来校准显著性水平(k^{gw}_{α,n})。这是一种工程化的解决方案,缺乏理论严谨性。
-
技术技巧点名:
- 蒙特卡洛模拟:用于估计
W_2^2的经验分布和拟合对数正态参数。 - 对数正态分布拟合:使用矩估计或最大似然估计来拟合
µ_n和τ_n。 - Wasserstein距离的缩放性质:
W_σ^2 = σ^2 * W_1^2,这是将标准正态结果推广到一般正态的关键。 - Wasserstein距离的分解:
W_2^2 = (mean)^2 + (size)^2 + (shape),用于解释gw test与Bures近似的区别。 - 多重假设校正:
β = 1 - (1 - α)^{1/d},用于控制多维检验的整体第一类错误。 - Fisher's method for combining p-values:用于构建wft test,组合gw、F-test和t-test的p值。
- 蒙特卡洛模拟:用于估计
真实例子与应用¶
- 合成数据实验(一维):这是本文最主要的实证部分。作者系统地生成了第一样本为
N(0,1),第二样本为N(ξ, τ^2)或各种非高斯分布的数据,并计算了gw test及其他对比检验的统计功效。这些实验旨在展示gw test在不同类型分布差异下的表现,特别是其在检测方差增大时的优势。 - 变点检测模拟(多维):作者将gpw test嵌入到一个滑动窗口变点检测框架中,用于检测一个8维时间序列中的均值变化。数据生成过程为:前半段来自
N(0, diag(1,...,8)),后半段来自一个均值偏移、协方差矩阵被随机置换的分布。这个例子旨在展示gpw test在“已知稳态分布”的变点检测场景下的应用价值,并与其他变点检测方法(eagg, ediv)进行比较。
本文为纯方法/应用型,无真实世界数据例子。 所有实验均基于合成数据。
🔎 结论是否比证明窄¶
- “Conjecture. Distribution of W(n)”:作者明确将其核心假设称为“猜想”(Conjecture),而非定理。这表明作者承认其缺乏严格的数学证明。结论(对数正态近似有效)的适用范围被限制在
n ≥ 20,且通过数值实验验证了在n ≤ 500时的精度。对于n > 500或n < 20的情况,结论的有效性未被证明。 - “the derived two-sample test is not valid as the limit distribution advocated in Rippl et al. (2016) appears to be far from the true one in practice”:作者对Rippl et al. (2016)的批评是基于“in practice”的观察,而非理论证明。同样,作者对自己方法的有效性论证也主要基于“in practice”的数值实验。
- “When testing the projection on vector v_j, we reject H0 if an inequality of the form W_j > z_{j,β} is observed... As the projections ... can be seen as coordinates in the basis (v_j), the events W_j > z_{j,α} are independent with respect to j.”:这个独立性假设是不严谨的。虽然投影到正交基上,但
W_j统计量是基于排序的,其独立性并不由坐标的正交性保证。作者在此做了一个简化假设,使得多重假设校正变得简单,但这一假设的正确性未被验证。这是多维扩展中的一个潜在弱点。 - “We also show that this test is closely related to the Shapiro–Wilk normality test.”:Property 4 证明的是等价性(equivalence),而非“密切相关”。这是一个很强的结论,但作者在摘要和引言中使用了较弱的措辞。
四、开放问题¶
-
对数正态近似的理论证明:本文的核心猜想(
W_2^2的零分布可被对数正态近似)完全基于数值实验。能否从理论上证明或反驳这一猜想?例如,能否证明log(W_2^2)在某种意义下渐近正态?或者,是否存在其他分布(如Gamma、Weibull)能提供更好的近似?扎根点:Section 2.2的“Conjecture”。 -
当第一样本非高斯时的表现:本文方法的核心假设是第一样本为高斯。当这一假设被违反时,检验的Type-I error会如何变化?能否将类似的“拟合参数分布”思路推广到其他已知分布(如指数分布,作者在结论中提及)?扎根点:Section 4的“Among the natural extensions of this work, we could approximate the Wasserstein distance between samples drawn from other distributions... A natural first choice would be the exponential distribution.”
-
多维扩展中独立性假设的严谨性:gpw test中假设投影到不同特征向量上的
W_j统计量是独立的,这一假设是否成立?如果不成立,如何正确控制整体第一类错误?能否使用更严谨的多重假设校正方法(如Bonferroni-Holm)或基于自举的方法?扎根点:Section 3中“As the projections ... the events W_j > z_{j,α} are independent with respect to j.”这一未经验证的假设。 -
检验功效的渐近最优性:本文仅通过数值实验比较了gw test与几种经典检验的功效。能否从理论上分析gw test的渐近相对效率(ARE)?例如,在检测局部备择假设(如
ξ = δ/√n)时,gw test是否是最优的或接近最优的?扎根点:本文缺乏任何理论上的功效分析,所有结论均基于有限样本的数值模拟。
Maintained by 陈星宇 · Homepage · Source on GitHub