Distribution-free tests of multivariate independence based on center-outward quadrant, Spearman, Kendall, and van der Waerden statistics¶
作者: Hongjian Shi, Mathias Drton, Marc Hallin, Fang Han
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 9/10
机构绿灯: Technical University of Munich(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:如何对两个随机向量进行独立性检验,且使得检验在有限样本下完全分布自由,同时在渐近下保持统计效率。在一元情形下,基于秩的检验(如Spearman's rho, Kendall's tau)天然分布自由且具备已知的渐近相对效率(ARE);但在 \(d>1\) 的多元情形下,由于 \(\mathbb{R}^d\) 缺乏自然序,传统秩概念失效,导致长达半个多世纪的空白:要么放弃分布自由性(如Wilks的伪高斯检验依赖协方差阵的渐近分布),要么放弃效率与渐近分布的解析性(如基于距离协方差或图方法的检验,虽对任意连续分布一致,但临界值常需置换重抽样计算)。当前该方向正因最优传输理论引入多元秩而迅速成熟,从“定义与一致性”阶段跨入“渐近分布与效率界”阶段。
发展脉络: - 奠基工作:Chernozhukov, Galichon, Hallin & Henry (2017) 与 Hallin et al. (2021) 提出了基于最优传输的 center-outward 分布与分位函数,首次在 \(\mathbb{R}^d\) 上定义了具备一元秩所有核心性质(分布自由、与符号独立等)的多元秩与符号。Hallin (2021) 综述了这一框架在回归、MANOVA、VARMA等模型中的推断潜力。 - 主要进展(多元秩的推断实现):Deb & Sen (2019) 与 Ghosal & Sen (2019) 基于最优传输多元秩构造了两样本与独立性检验,证明了经验秩映射的Glivenko-Cantelli定理与收敛速率,但未给出检验统计量的精确渐近分布;Shi, Drton, Han (2022)(即文献[2])结合距离协方差与 center-outward 秩,首次给出了分布自由且一致的独立性检验,并推导了极限分布(基于组合非中心极限定理),但未触及效率分析(ARE)。 - 当前 frontier 与本文位置:本文(Shi, Drton, Hallin, Han)填补了上述进展中缺失的效率理论一环:它不满足于“分布自由+一致+有渐近分布”,而是将一元秩检验的经典效率结论(Chernoff-Savage性质、Hodges-Lehmann ARE下界)完整推广到多元,证明基于最优传输秩的 van der Waerden 与 Spearman 检验相对于 Wilks 伪高斯检验的 ARE 分别 \(\geq 1\) 与 \(\geq 0.878\)。
子线索聚类: 1. 最优传输与多元秩定义线:Chernozhukov et al. (2017) → Hallin et al. (2021) → Figalli (2018) & del Barrio et al. (2020)(解决映射连续性与正则性)。这一簇在建立多元秩的数学基础与Glivenko-Cantelli性质。 2. 距离/图/投影独立性检验线:Székely, Rizzo & Bakirov (2007)(距离协方差)→ Heller et al. (2012)(基于图的分布自由检验)→ Zhu et al. (2017)(投影相关)→ Deb & Sen (2019)(多元秩版距离协方差)。这一簇追求对所有依赖形式的一致性,但渐近分布常需置换法,且未讨论ARE。 3. 半参数效率与Le Cam推断线:Oja et al. (2016)(独立成分模型下的仿射不变秩检验)→ Hallin et al. (2020, 2022)(VARMA R-估计与MANOVA秩检验,达到参数效率)。这一簇在特定参数结构下追求局部最优,但常依赖模型对称性假设。
这个方向在追问的核心问题: 1. 如何定义多元秩使其既分布自由又保留一元秩的推断威力?(已由最优传输框架解决,但经验秩映射的收敛速率与正则性仍是技术焦点)。 2. 基于多元秩的检验统计量,其渐近分布能否有解析表达式,从而避免置换计算?(Shi et al. 2022 已解决距离协方差版,本文进一步解决象限/Spearman/Kendall/vdW版)。 3. 这些分布自由检验相对于经典参数/伪参数检验(如Wilks LR),效率损失有多大?能否达到Pitman效率 \(\geq 1\)?(本文核心贡献,给出Chernoff-Savage性质的多元推广)。
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“Practitioners, therefore, may prefer simpler, more familiar and easily interpretable extensions of the classical bivariate quadrant, Spearman, Kendall, and van der Waerden tests”——即现有基于距离协方差或图的方法虽一致,但不够“经典/直观”,且缺乏效率分析;本文则提供既直观又具备Chernoff-Savage效率保证的方案。 - 淡化或回避的竞争路线:作者淡化了纯计算/算法路线(如Heller et al. 2012的图方法在有限样本下通过置换可精确控制I类错误,虽无解析渐近分布但实用性强),也未深入讨论Chatterjee (2021) 型基于最近邻的秩相关(Lin & Han 2021 指出其局部效率不足,但本文未将其作为主要对比基准)。 - 明显该被引却未出现的:Bergsma-Dassios sign covariance 的多元推广(Weihs, Drton & Meinshausen 2017 在文献[14]中给出了包含它在内的 Symmetric Rank Covariances 统一框架,且它是 \(d=2\) 时唯一既分布自由又一致的符号协方差)。本文未引用此文献,可能是因为其依赖一元排序的对称性难以直接嵌入最优传输框架,但这正是一个值得研究者去查的缺口:最优传输秩能否重构Bergsma-Dassios的多元推广并给出效率界?
张力: 未见明显对立引用。各路线(距离协方差、图、最优传输秩)在不同设定下互补:距离/图路线对所有依赖一致但缺解析效率;最优传输秩路线在广义Konijn模型下有解析ARE但需绝对连续假设。两者目前未在相同设定下得出相反结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- 参数 / estimand:
- \(\Sigma_{12}\):随机向量 \(\mathbf{X}_1\) 与 \(\mathbf{X}_2\) 的交叉协方差矩阵(\(d_1 \times d_2\)),独立性等价于 \(\Sigma_{12} = 0\)。
- \(\rho_{S}, \tau_{K}, \rho_{vdW}\):本文定义的多元 Spearman's rho, Kendall's tau, van der Waerden 协方差(均为 \(\Sigma_{12}\) 的某种秩化版本)。
- \(\Delta\):局部替代参数(Pitman drift),在功效分析中驱动 \(\Sigma_{12}\) 偏离零矩阵的速率。
- 随机变量 / 样本:
- \((\mathbf{X}_{1i}, \mathbf{X}_{2i})_{i=1}^n\):来自联合分布 \(P\) 的 i.i.d. 样本,\(\mathbf{X}_1 \in \mathbb{R}^{d_1}, \mathbf{X}_2 \in \mathbb{R}^{d_2}\)。
- \(\mathbf{Z}_i = (\mathbf{X}_{1i}^\top, \mathbf{X}_{2i}^\top)^\top \in \mathbb{R}^d\)(\(d = d_1 + d_2\))。
- 维数 / 样本量等指标:
- \(n\):样本量;\(d_1, d_2\):两向量维数;\(d = d_1 + d_2\);\(n_r\):参考网格点数(\(n_r = n - r\),\(r\) 为调整量,通常 \(r=0\) 或小常数)。
- 潜在 / 不可观测量(依赖假设识别):
- \(T^+\):center-outward 分布映射(从 \(P\) 到参考测度 \(U\) 的最优传输映射),不可观测,其经验版本 \(\hat{T}^+\) 由样本到网格的离散传输计算。
- \(F_i^+\):\(\mathbf{Z}_i\) 的 center-outward 秩(\(\hat{T}^+(\mathbf{Z}_i)\) 在网格中的位置/坐标),\(\mathbf{S}_i\):center-outward 符号(秩的方向/单位向量)。
模型: 数据生成机制为 \(P\),具有绝对连续密度 \(f\)。在功效分析中,采用广义Konijn模型(椭球对称分布下的局部替代):\(\mathbf{Z} \sim \mathcal{E}(\mathbf{0}, \Sigma, f_\epsilon)\),其中 \(\Sigma\) 为 \(d \times d\) 协方差阵,\(\Sigma_{12} \neq 0\) 刻画依赖,\(f_\epsilon\) 为椭球生成密度。Pitman drift 设为 \(\Sigma_{12} = \Delta / \sqrt{n}\)。
可观测数据: 研究者实际观测到的是 i.i.d. 样本 \((\mathbf{X}_{1i}, \mathbf{X}_{2i})\)。不可观测的是连续映射 \(T^+\) 与理论秩 \(F_i^+\),只能通过离散最优传输(将样本点映射到均匀网格 \(\mathfrak{G}_{n_r}\) 上)计算经验秩 \(\hat{F}_i^+\) 与符号 \(\hat{\mathbf{S}}_i\)。关键在于:这些经验秩是离散置换(取值于网格),而非连续均匀变量,这构成了渐近分析的核心技术难点。
第二步:最小内核——多元象限统计量与 Chernoff-Savage 性质(\(d_1=1, d_2=1\) 特例)
剥掉所有多维与一般分数函数的复杂性,论文的核心数学本质在 \(d_1=1, d_2=1\) 的象限统计量 特例中完全暴露:
-
最简特例设定:观测 \((X_{1i}, X_{2i})_{i=1}^n \in \mathbb{R}^2\)。计算 center-outward 秩 \(\hat{F}_{1i}^+, \hat{F}_{2i}^+\)(通过将 \(X_1, X_2\) 分别映射到 \(\mathbb{R}\) 上的均匀网格获得——在 \(d=1\) 时,最优传输秩退化为经典一元秩的对称化版本:\(\hat{F}^+ = 2F_n - 1\),其中 \(F_n\) 是经验CDF)。象限统计量定义为:
\[Q_n = \frac{1}{n} \sum_{i=1}^n \text{sign}(\hat{F}_{1i}^+) \text{sign}(\hat{F}_{2i}^+)\]这正是经典一元 quadrant statistic 的多元秩推广。 -
要证的命题(Chernoff-Savage 性质退化形式):在正态局部替代下,基于 \(\text{sign}(\hat{F}^+)\) 的象限检验相对于 Student \(t\) 检验的 ARE \(\geq 1\)(仅在正态下取等)。更一般地,对 van der Waerden 分数(\(\Phi^{-1}((\hat{F}^+ + 1)/2)\)),ARE 相对于 Wilks LR 恒 \(\geq 1\)。
-
证明怎么走、为什么成立:
- Hájek 投影:将离散秩统计量 \(Q_n\) 投影到线性空间,得到其渐近表示 \(\sqrt{n} Q_n = \sqrt{n} \frac{1}{n} \sum_{i=1}^n J(F_{1i}^+) J(F_{2i}^+) + o_P(1)\),其中 \(J\) 是分数函数(象限情形 \(J(u)=\text{sign}(u)\),vdW情形 \(J(u)=\Phi^{-1}((u+1)/2)\))。
- 离散秩的渐近替代:关键难点在于 \(\hat{F}^+\) 是离散网格值而非连续均匀变量。本文通过经验过程 / Chibisov-Oja 换元证明:\(\sqrt{n}(J(\hat{F}^+) - J(F^+))\) 的偏差可被 \(O_P(n^{-1/2})\) 控制,从而离散秩可被连续理论秩替代而不损失渐近效率。
-
Pitman ARE 计算:在广义Konijn模型下,局部替代 \(\Delta/\sqrt{n}\) 使得 \(\sqrt{n} Q_n\) 的均值偏离速率与 Wilks 统计量的偏离速率可比。通过计算两统计量的非中心参数与渐近方差之比,得到 ARE。vdW 分数因匹配正态分位函数,在正态下达到参数效率(ARE=1),且因 Chernoff-Savage 单调性,在任何椭球分布下 ARE \(\geq 1\)。
-
一般情形的“加壳”:\(d_1, d_2 > 1\) 时,\(\text{sign}(\hat{F}^+)\) 变为向量符号 \(\hat{\mathbf{S}}_i \in \mathbb{R}^{d_k}\),\(J(\hat{F}^+)\) 变为矩阵分数函数,统计量变为迹/二次型(如 \(\text{tr}(\hat{\Sigma}_{S})\)),但核心仍是“Hájek投影 + 离散秩连续化替代 + Pitman漂移下的非中心参数比较”。多元壳增加了符号向量的协方差阵收敛与二次型渐近分布的技术复杂度,但不改变 Chernoff-Savage 性质的数学内核。
三、这篇论文做了什么¶
三句话: ① 研究了基于最优传输 center-outward 秩的多元独立性检验(象限、Spearman、Kendall、vdW)的渐近分布与效率问题; ② 核心工具是 Hájek 投影与离散秩的连续化替代(Chibisov-Oja 换元),结合广义Konijn模型下的Pitman漂移分析; ③ 主要结论是所有统计量完全分布自由且有解析渐近分布,且 vdW 检验相对于 Wilks 伪高斯检验满足多元 Chernoff-Savage 性质(ARE \(\geq 1\)),Spearman 检验的 ARE 下界为 \(0.878\)。
关键设定与假设: - 假设 A1(绝对连续):\(P\) 具有绝对连续密度 \(f\)。统计含义:保证最优传输映射 \(T^+\) 存在且唯一(McCann定理),且 center-outward 秩分布自由。相比 Ghosal & Sen (2019) 的矩假设,本文沿用 Hallin et al. (2021) 无矩条件设定,更宽松。 - 假设 A2(参考测度):采用单位球上的均匀测度 \(U\) 作为参考测度。统计含义:诱导 center-outward 符号与秩的独立性(符号均匀分布于球面,秩独立于符号),这是分布自由性与Hájek投影的基础。作者在引用句中明确指出:传输到 Lebesgue 均匀立方(Chernozhukov et al. 2017)或球面高斯(Deb et al. 2021)会给出相同渐近结论,但球面均匀在有限样本下更自然。 - 假设 A3(广义Konijn模型):功效分析在椭球对称分布 \(\mathcal{E}(\mathbf{0}, \Sigma, f_\epsilon)\) 下进行,局部替代 \(\Sigma_{12} = \Delta/\sqrt{n}\)。统计含义:这是 Wilks LR 检验的经典功效设定,本文在此设定下计算 ARE 以保证与经典基准可比。相比 Oja et al. (2016) 的独立成分模型,广义Konijn模型更宽(不要求独立成分),但椭球对称仍是一个限制。
主要结果: - 定理 3.1(渐近分布):在独立性下,\(\sqrt{n} \hat{\Sigma}_{J,S}\)(分数-符号交叉协方差阵)收敛到正态 \(N(0, \Lambda_J)\),其中 \(\Lambda_J\) 仅依赖分数函数 \(J\) 与维数 \(d_1, d_2\),不依赖 \(P\)。直觉:center-outward 秩的分布自由性使得协方差阵的渐近方差参数化;技术难点在于离散秩 \(\hat{F}^+\) 的连续化替代(见证明路线)。 - 定理 4.1(Chernoff-Savage 性质):在广义Konijn模型下,vdW 检验相对于 Wilks 检验的 ARE 恒 \(\geq 1\),等号仅在正态分布下成立。直觉:vdW 分数 \(\Phi^{-1}((F^+ + 1)/2)\) 匹配正态分位函数,在正态下达到参数效率;在非正态椭球分布下,vdW 分数因“过度惩罚尾部”而比伪高斯检验更敏感。必要条件:椭球对称与绝对连续。 - 推论 4.2(Spearman ARE 下界):Spearman 检验相对于 Wilks 检验的 ARE \(\geq 0.878\)(一元 Wilcoxon 相对 Student \(t\) 的经典下界)。直觉:Spearman 分数 \(J(u)=u\) 是 vdW 分数的线性近似,其效率下界由凸性保证。
证明路线与技术技巧: 1. 整体路线: - Step 1(离散秩的连续化):证明经验 center-outward 秩 \(\hat{F}^+\) 在 \(L_2\) 与经验过程意义下收敛到理论连续秩 \(F^+\),且 \(\sqrt{n}(J(\hat{F}^+) - J(F^+))\) 的偏差可被 \(o_P(1)\) 控制(关键跳跃点,见下)。 - Step 2(Hájek 投影):将秩统计量 \(\sqrt{n} \hat{\Sigma}_{J,S}\) 投影到线性空间,得到渐近线性表示 \(\sqrt{n} \frac{1}{n} \sum_{i=1}^n J(F_{1i}^+) \mathbf{S}_{1i} J(F_{2i}^+) \mathbf{S}_{2i}^\top + o_P(1)\)。 - Step 3(零假设下的渐近分布):在独立性下,\(F_{1i}^+\) 与 \(F_{2i}^+\) 独立均匀,\(\mathbf{S}_{1i}\) 与 \(\mathbf{S}_{2i}\) 独立球面均匀,通过计算线性项的方差得到 \(\Lambda_J\)。 - Step 4(局部替代下的功效):在 \(\Sigma_{12} = \Delta/\sqrt{n}\) 下,计算线性项的均值漂移(非中心参数),与 Wilks 统计量的非中心参数比较,通过 Chernoff-Savage 单调性(\(J\) 函数的凸性)得到 ARE \(\geq 1\)。
- 关键跳跃点:
- 引理 S.3(Chibisov-Oja 换元的多元推广):这是最吃功夫的引理。难点在于:\(\hat{F}^+\) 是离散网格值(取值于 \(\{1/n_r, 2/n_r, \ldots\}\)),而 \(J\) 是连续函数(如 \(\Phi^{-1}\)),直接代入 \(J(\hat{F}^+)\) 会产生离散化误差。经典一元秩检验中,Chibisov (1965) 与 Oja (1970) 通过经验过程理论证明此误差为 \(o_P(n^{-1/2})\);本文需在多元最优传输秩下重建此结论,而多元秩映射 \(\hat{T}^+\) 是一个向量值离散传输,其收敛性质远比一元经验 CDF 复杂(涉及 Hallin et al. 2021 的 Glivenko-Cantelli 定理与 Figalli 2018 的连续性)。
-
绕过办法:作者利用 center-outward 秩的组合性质(秩是网格点的置换,满足离散均匀分布),结合经验过程的分块耦合(将网格点分块以模拟连续均匀变量),证明 \(J(\hat{F}^+)\) 与 \(J(F^+)\) 的 \(L_2\) 距离为 \(O_P(n^{-1/2})\),从而在 Hájek 投影中可安全替换。
-
技术技巧点名:
- Empirical process / Chibisov-Oja 换元:用于控制离散秩代入连续分数函数的误差(引理 S.3),是渐近分布与效率证明的基石。
- Hájek 投影:将非线性秩统计量线性化,提取渐近正态的核心项。
- 最优传输的 Glivenko-Cantelli 定理(Hallin et al. 2021):保证 \(\hat{T}^+\) 一致收敛到 \(T^+\),为秩的连续化提供前提。
- Pitman 漂移 / Le Cam 第三定理:在局部替代 \(\Delta/\sqrt{n}\) 下计算非中心参数与 ARE。
- Chernoff-Savage 单调性:利用分数函数 \(J\) 相对于标准正态分位函数的凸性,证明 ARE \(\geq 1\)。
真实例子与应用: 本文为纯理论论文,无真实数据例子或模拟实验。所有结论均为渐近定理与解析 ARE 计算。作者在 Supplement 中提供了 ARE 下界 \(\Omega_{d_1, d_2}\) 的数值表(对 \(d_1, d_2 \leq 10\)),供实践者参考选择检验。
🔎 结论是否比证明窄: - Chernoff-Savage 性质(定理 4.1):严格证明仅在椭球对称的广义Konijn模型下成立,但作者在 introduction 中泛泛 claim 其为“multivariate Chernoff-Savage property”,未明确强调椭球对称的必要条件。若分布非椭球对称(如重尾或偏态依赖),ARE \(\geq 1\) 是否仍成立是未证明的。 - 渐近分布(定理 3.1):严格证明要求 \(P\) 绝对连续且参考测度为球面均匀,但作者在引用句中提及“transports to the Lebesgue uniform over the unit cube... would yield the same results”,此陈述未在正文中给出严格证明,仅作为直觉延伸。
四、开放问题(点到为止)¶
- 非椭球对称下的 ARE 界:定理 4.1 的 Chernoff-Savage 性质依赖广义Konijn模型的椭球对称假设。若 \(P\) 为一般绝对连续分布(非椭球),vdW 检验相对于 Wilks 检验的 ARE 是否仍有下界 \(\geq 1\)?扎根在定理 4.1 的假设 A3 与 introduction 中“under elliptical generalized Konijn models”的限定语。
- Bergsma-Dassios 符号协方差的多元最优传输推广:本文未触及 Weihs, Drton & Meinshausen (2017) 的 Symmetric Rank Covariances 框架(特别是 Bergsma-Dassios 统计量),而它是 \(d=2\) 时唯一既一致又分布自由的符号协方差。能否用 center-outward 秩重构其多元推广并给出渐近分布与 ARE?扎根在 introduction 中对“sophisticated measures of multivariate dependence proposed by Székely, Rizzo and Bakirov (2007)... and Kim, Balakrishnan and Wasserman (2020)”的引用,而刻意遗漏了文献[14]。
- 有限样本下的临界值计算:定理 3.1 给出渐近正态近似,但有限样本下(特别是 \(d_1, d_2\) 较大时),离散秩的分布自由性是否足以保证 I 类错误精确控制?是否仍需置换法校准?扎根在 introduction 中“asymptotic approximations to critical values”的陈述,未讨论有限样本校准的实操问题。
- 参考测度选择的有限样本影响:作者 claim 球面均匀与立方均匀给出相同渐近结论,但有限样本下网格构造(球面网格 vs. 立方网格)对检验功效与 I 类错误的影响未理论分析。扎根在引用句“transports to the Lebesgue uniform over the unit cube... would yield the same results”的无证明延伸。
Maintained by 陈星宇 · Homepage · Source on GitHub