跳转至

Testing independence between high‐dimensional random vectors using rank‐based max‐sum tests

作者: Hongfei Wang, Binghui Liu, Long Feng
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本子方向解决的根本问题是:在不假设数据分布形式的情况下,判断两个高维随机向量是否独立。 它的统计设定是:可观测到来自联合分布 \(F_{XY}\) 的 i.i.d. 样本 \(\{(\mathbf{X}_i, \mathbf{Y}_i)\}_{i=1}^n\),其中 \(\mathbf{X} \in \mathbb{R}^p\)\(\mathbf{Y} \in \mathbb{R}^q\),且两向量的维度 \(p,q\) 可以随样本量 \(n\) 一起增长(高维)。目标是在原假设 \(H_0: \mathbf{X} \perp\!\!\!\perp \mathbf{Y}\) 下构建检验,并在各类备择(稀疏、密集、非线性依赖)下保持良好功效。该方向目前的成熟度属于活跃方法论领域;大量方法已被提出,但在无分布假设与高维场景的结合点上,仍在快速发展。

发展脉络(history)

按本文引言中的引用线索,该方向的推进可以串成如下脉络:

  1. 奠基工作:基于“两两相关”的经典检验
  2. Székely et al. (2007) – distance correlation (dCor):将两随机向量的依赖度刻画为距离协方差,在不假设具体分布下检验独立性,是第一个适用于“向量对向量”的通用方法。留下的口子:dCor 的非零备择截面较广,但在非线性依赖虽强但仅集中在少量分量对的情形下,功效会下降。
  3. Gretton et al. (2007) – Hilbert-Schmidt Independence Criterion (HSIC):利用核方法将分布嵌入RKHS,在特征空间中度量独立性。留下的口子:核的选择显著影响检验力,且HSIC的计算复杂度为 \(O(n^2)\) 级,在高维大样本下负担重。

  4. 主要进展:“max-type”与“sum-type”在高维下的分化

  5. Cai, Liu & Xia (2013) – two-sample test and independence test for high-dimensional means:在维数 \(p\) 远大于 \(n\) 时,提出将“逐分量检验统计量取max”与“取sum”两种思路加以综合的框架。留下的口子:该方法假设各分量的协方差结构被较好估计,且依赖对线性相关(Pearson相关系数),一旦依赖是高度非线性的,检验功效急剧下降。
  6. Chang, Zhou, Shao & Li (2022) – max-sum tests for high-dimensional covariance matrices:进一步将max与sum思想推广到协方差阵的假设检验中,提出一种在稀疏与密集备择之间自适应地平衡功效的框架。留下的口子:同样基于线性相关系数,且对分布有矩条件要求。

  7. 当前Frontier:秩相关 + max-sum框架 = 对分布几乎无假设的检验

  8. 本工作直接接续的线索:作者认为,上述高维检验虽然已在协方差阵/均值向量上取得成功,但依赖线性相关度量(Pearson \(\rho\)),迫使检验只能在(广义)线性依赖下有效。同时,大量经典秩相关(Kendall's \(\tau\), Spearman's \(\rho\), Hoeffding's D)在高维非参数检验中的表现尚未被系统研究。
  9. 本文的位置:将 max-sum 框架从 Pearson 相关系数推广到三类秩相关度量,使检验在非线性依赖下仍保持功效,且仍然不要求椭圆对称等分布假设。

子线索聚类

被引文献大致落入四条子线索

子线索 代表工作 核心做法 留下的缺口
基于距离/核的独立度量 Székely(2007); Gretton(2007); Sejdinovic(2013) 距离协方差 / HSIC / 核嵌入 计算成本高;备择非线性强但对稀疏分量集无效
高维下“两两相关”构造的检验 Cai-Liu-Xia(2013); Chang-Zhou-Shao-Li(2022) max-sum框架 仅适用线性相关;对非线性依赖失灵
秩相关的经典应用与推广 Kendall(1938); Hoeffding(1948); Blum-Kiefer-Rosenblatt(1961); Bergsma-Dassios(2014); Yanagimoto(2017) Spearman's \(\rho\), Kendall's \(\tau\), Hoeffding's D, Blum-Kiefer-Rosenblatt's R, \(\tau^*\) 一般用于双变量或低维情形;在高维假设检验中未被系统整合到max-sum框架下
高维U-统计量中心极限定理 Hoeffding(1948); Lee(1990); Jing(2008); Shao(2010); Chen-Shao(2007) U-统计量投影、大数律、CLT 已建立起充分强的理论基础,但如何直接应用到多个高阶U-统计量同时构成的max/sum检验统计量上,尚未被细化

这个方向在追问的核心问题

  1. 如何在高维下保持检验在稀疏备择与密集备择之间的适应性?——max 适合稀疏(少数强信号),sum 适合密集(多数弱信号),但两者在未知备择下如何融合?
  2. 如何放宽对分布的假设(椭圆对称、矩条件)而不牺牲检验的形误控制?——秩相关自然无分布假设,但其极限分布在高维下是否稳定?
  3. 如何构造一个能捕捉超越线性相关的依赖结构的检验统计量?——即检验力不能因依赖非线性而崩塌。
  4. 当前主流方法的瓶颈:绝大多数高维独立性检验依赖 Pearson 相关系数或协方差阵;一旦依赖结构是封闭的、高维的、非线性的(如多元函数及复合函数关系),Pearson 类检验的检验力急剧下降。同时,HSIC/dCor 计算量高、阈值时常依赖重抽样。

⚠️ 作者的 framing

  • 作者的说法:作者将缺口 frame 为“现有高维独立性检验多依赖线性相关(Pearson),不能处理非线性依赖;而经典秩相关这种高度非参数的工具在高维max-sum框架下未被系统整合”。因此本文工作成为“显然的下一步”:将三类秩相关(双变量尺度、平方尺度、联合尺度)的统计量与 max-sum 框架结合。
  • 哪些竞争路线被作者淡化或回避了?
  • 深度/置换检验:基于深度函数(depth functions)的多元独立性检验在高维下也有一定研究,但作者未提及。置换检验(permutation-based)计算量上一个量级被用得少。
  • 什么明显该被引/该存在、却没出现在intro里?
  • M-estimation based tests:如基于分位数协方差或互信息的检验,可能比秩相关更适合捕捉更复杂的依赖模式,但未被对比。
  • 基于 graph-based 的高维独立性检验:如基于最小生成树的Friedman-Rafsky检验在高维下的表现可能优于某些秩度量的sum-type。这些未被提及。

张力

  • 未见明显对立引用。在被引文献中,Székely(2007)的dCor与Gretton(2007)的HSIC之间无明显矛盾,只是适用场景和计算方式不同。所有工作都基于对同一核心问题的:如何在无分布假设下稳健检验高维独立性。结论是互补贡献,而非对立—修正关系。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚(必做)

  • 符号
  • \(\mathbf{X} = (X_1, \dots, X_p)^\top \in \mathbb{R}^p\):第一个随机向量(\(p\) 维)。
  • \(\mathbf{Y} = (Y_1, \dots, Y_q)^\top \in \mathbb{R}^q\):第二个随机向量(\(q\) 维)。
  • \((\mathbf{X}_i, \mathbf{Y}_i)\):第 \(i\) 个 i.i.d. 观测。
  • \(n\):样本量。
  • \(F_{XY}\)\(F_X, F_Y\):联合与边缘分布。
  • \(\rho_{jk}\)\(\tau_{jk}\)\(D_{jk}\)\(R_{jk}\)\(\tau_{jk}^*\):分别代表第 \(j\) 个分量 \(X_j\) 与第 \(k\) 个分量 \(Y_k\) 之间的 Spearman's \(\rho\)、Kendall's \(\tau\)、Hoeffding's D、Blum-Kiefer-Rosenblatt's R 和 Bergsma-Dassios-Yanagimoto's \(\tau^*\)
  • \(\widehat{\rho}_{jk}, \widehat{\tau}_{jk}, \dots\):基于样本计算的对应秩相关估计。
  • 命题:所有秩相关度量的“总体版本”在原假设 \(H_0\) 下等于 0。
  • \(\widehat{T}_{\text{max}}\)\(\widehat{T}_{\text{sum}}\):对某一特定秩度量,取所有分量对的 \(\max\)\(\sum\) 标准化后的检验统计量。
  • 潜在(不可观测)量:无——秩相关直接基于可观测数据的秩,无法观测切面/近似潜在变量。

  • 模型

  • 无具体分布形式假设。可观测数据来自某未知联合分布 \(F_{XY}\)。边缘分布都连续(以便秩统计量定义一致)。
  • 待检对象:\(H_0: F_{XY}=F_X F_Y\) 相对于 \(H_1: F_{XY} \ne F_X F_Y\)
  • 可观测数据
  • 观测到的是 \(n\) 个独立观测对 \(\{(X_{i1}, \dots, X_{ip}, Y_{i1}, \dots, Y_{iq})\}_{i=1}^n\)
  • 可计算所有分量对的秩。秩本身是充分统计量,但联合分布是未知的。
  • “想要但观测不到”:无其他潜在构造,区分点只是联合分布是否可分解。

第二步:讲最小内核

最小内核:检验 \(p=1, q=1\)(单变量对单变量)时独立性检验的核心结构。

在这个特例下,本文提供的三类秩相关及其对应的检验统计量很容易说明: - 第一类 – 两两秩相关(双变量尺度):如 Kendall's \(\tau\) 和 Spearman's \(\rho\)。基于原始数据 \((X_1,Y_1),\dots,(X_n,Y_n)\),计算其秩 \(\text{Rank}_{X,i}\)\(\text{Rank}_{Y,i}\),然后套用相关系数公式。它在 \(H_0\) 下期望为0。检验统计量 \(\widehat{\tau}/\sqrt{\widehat{\text{Var}}(\widehat{\tau})}\) 渐近 \(N(0,1)\)。 - 第二类 – 平方尺度:如 Hoeffding's D 和 Blum-Kiefer-Rosenblatt's R。它们基于观测“经验分布函数”在每个点处偏离乘法类型的程度,可以视为一种“U-统计量的U-统计量”,能在检测非单调依赖(如U型或S型关系)时更敏感。 - 第三类 – 联合尺度:如 Bergsma-Dassios-Yanagimoto 的 \(\tau^*\)(Tau-star)。它是一个完全无向依赖的度量,对更多依赖形式(如对称依赖)敏感,本质上是一个四阶U-统计量。

在这个最简单的特例下,要检验的命题退化成什么? - \(H_0: X\)\(Y\) 独立。 - 三种检验都在说:如果 \(\widehat{\tau}\)\(\widehat{D}\)\(\widehat{\tau}^*\) 绝对值离0足够远(超过一个由估计方差的平方根决定的阈值),就拒绝独立性。

为什么这样设计? - 推广到高维\(p>1,q>1\)时,需要对所有 \(pq\) 个分量对 \((j,k)\) 计算该秩相关,并对 \(pq\) 个值做max/sum处理。 - max检验:检测“是否存在至少一个分量对高度依赖”(稀疏备择)→ 适合于信号只集中在少量“变量配对”的情形。 - sum检验:检测“所有分量对的依赖弱但累积平均强”(密集备择)→ 适用于依赖广泛分布在各分量对的情形。

因此,本文的论文核心就是: 在多个秩相关候选度量中选择一个,在\(p,q\)高维时构造它们的max与sum型的非参数检验,推导它们各自在原假设下的渐近极值分布(用于阈值确定)。整篇论文的一般性在于:“从双变量U-统计量的构造出发,扩展到多变量U-统计量的最大求和形式”,这恰好是经典高维假设检验(如Cai-Liu-Xia, 2013)在非线性依赖下的“加壳”。


三、这篇论文做了什么(重心,务必讲透)

三句话

研究了什么问题:在无分布假设的情形下检验高维随机向量 \(\mathbf{X}\)\(\mathbf{Y}\) 之间的独立性,备择可稀疏可密集。
核心工具/方法:将 max-sum 检验统计量分别建立在三类秩相关(两两尺度双变量相关、平方相关、联合相关)的样本估计上。
主要结论:对于这三类秩度量的 max 与 sum 统计量,分别推导了在原假设与局部球化备择下的渐近收敛分布(极值分布与正态分布),并在模拟与真实数据(RNA微阵列)上验证了该检验稳定控制第一类错误且在稀疏/密集备择下均优于Pearson相关类检验与dCor。

关键设定与假设

  • 设定
  • 随机向量 \((\mathbf{X}_i,\mathbf{Y}_i) \in \mathbb{R}^{p+q}\) i.i.d. 来自连续分布。
  • \(p,q\) 都可以发大,但假定 \(p,q\)\(n\) 的关系满足 \(\log(pq) = o(n^\theta)\) 其中 \(\theta\) 由该秩相关的核阶数决定的相合性条件。
  • 假设
  • Assumption 1(连续性):各分量的边际分布是连续的(确保秩统计量无结)。
  • Assumption 2(分布矩/混合条件的松弛):对于每一类秩相关,为保证 U-统计量能建立渐近正态性,需要该秩相关的高度可积性假设(相当于该U-统计量核的方差有限)。对 Kendall's \(\tau\) 等双变量秩相关,只需要二阶矩存在;对四阶U-统计量核(如 \(\tau^*\)),需要四阶矩存在。
  • Assumption 3(高维条件)\(p,q\)\(n\) 满足 \(\sqrt{(\log p)/n} \rightarrow 0\) 以及 \(\sqrt{(\log q)/n} \rightarrow 0\)(或更宽松但类似的条件)。这保证在多重心点同时构造检验时,极值型收敛仍成立。
  • 与现有文献的对比:相比 Cai-Liu-Xia(2013) 等方法,省去了“有限四阶矩且协方差阵稀疏”的假设;比 HSIC 更放松了核函数选择。

主要结果

  • 命题 1(任一秩相关的极限零分布):在 \(H_0\) 下,对任何秩相关度量(如Kendall's \(\tau\)), 其样本版本 \(\widehat{\rho}_{jk}\) 的分量对之间在标准化下有独立或近乎独立的结构,使得 \(\max_{jk} \widehat{\rho}_{jk}/\sqrt{\text{Var}}\) 依分布收敛到 \(\text{Gumbel}\) 双指数分布;而 \(\sum_{jk} (\widehat{\rho}_{jk})^2\) 标准化后收敛到正态(当 \(pq \rightarrow \infty\) 不慢)。
  • 命题 2(功效分析——局部备择):针对局部备择(即依赖强度以 \(\delta/\sqrt{n}\) 衰减的场景),max检验确定能捕捉至少一个分量对强依赖所需的信号强度至少为 \(\sqrt{(\log(pq))/n}\);sum检验则需要总依赖能量超过 \(pq/\sqrt{n}\)

  • 这些结论均是在三类秩相关的框架内统一表述。对应的数字条件见定理1-3(原文公式(8)-(11))。

证明路线与技术技巧(理论型必写)

  • 整体路线:3-5 步逻辑主干
  • 第一步:将样本 \(\widehat{\rho}_{jk}\)(以Kendall's \(\tau\) 为例)展开为完整的 U-统计量形式。对于四阶版本(如 \(\tau^*\)),同样写出其作为四阶核的 U-统计量表示。计算其渐近方差为 \(1/n\) 阶,且所有分量对两两间的协方差严格已知(可通过U-统计量投影理论计算)。
  • 第二步:利用U-统计量投影理论(Hoeffding 分解)得到 \(\sqrt{n}(\widehat{\rho}_{jk} - \rho_{jk})\) 近似为独立同分布随机变量之和,从而可以由 Berry-Esseen 型定理在 \((p,q)\) 增长条件下建立高维 CLT。
  • 第三步:对于 max 型统计量,将每个 \(\widehat{\rho}_{jk}\) 标准化后,证明其迈向量可以经标准化后变为“近似独立的高斯变量”的max向量,快速收敛到 Gumbel 分布——利用经典的极值收敛引理(Leadbetter 等)。
  • 第四步:对于 sum 型统计量,将 \(\sum (\widehat{\rho}_{jk})^2\) 表达为二次型,其中核是协方差/相关系数矩阵的向量化。在 \(pq \rightarrow \infty\) 时,通过 Markov 型大数律和 CLT 证明其收敛到正态分布。
  • 第五步:在局部备择下,采用“contiguity”路线(Le Cam 的痕迹/紧邻替代思想):证明备择族是原假设按下述局部漂移 \({\delta}n^{-1/2}\) 的紧邻族,因此检验统计量的分布渐近由原假设下的极值/正态分布偏移一个已知的漂移项所获得→功效可直接计算。

  • 关键跳跃点

  • 难点 1\(n \rightarrow \infty\)\(pq\) 以 “\(\log(pq) = o(n)\)”随样本量增长,但各分量对之间的依赖结构既不完全独立、也非强相关,需要使用“mixing or independence of \(\sqrt{n}\)-consistent projections”来保证经典极值理论有效。作者使用 U-统计量投影的“渐近独立性”性质两点中心极限定理(CLT for triangular arrays of weakly dependent variables) 绕过直接处理大相关矩阵这道难关。
  • 难点 2:对于 \(\tau^*\) 这种四阶U-统计量,它的渐近方差不是 \(O(1/n)\) 级下的最高项简单形式;需要推导一种类似于可分离核的闭合形式,以便构造标准化统计量。作者通过计算该U-统计量的一阶投影函数,证明其标准化方差与Kendall's \(\tau\) 共享相同标度(均为 \(\frac{2(2n+5)}{9n(n-1)}\) 级别的形式),从而仍可以用简单缩放构造max/sum公式。

  • 技术技巧点名

  • U-统计量投影:用于导出秩相关的渐近方差及分量对之间的协方差结构。
  • Hoeffding 分解:用于建立单分量秩相关的归一化后的近似正态性。
  • 极值理论中的 Gumbel 收敛定理:证明 max 型统计量在 \(H_0\) 下的渐近分布。
  • 高维 CLT 与 Stein 方法(或 Berry-Esseen):用于证明 sum 所做的二次型收敛到正态。
  • 平方秩相关的有界矩与切诺夫不等式:用于建立 sum 型统计量方差界的精确上限,完成形误控制。

真实例子与应用

  • 用到的数据/场景:本文使用 RNA 微阵列数据(数据集来自 a study of alcohol abuse in brain gene expression),目标是检验一组基因(某通路)的表达一组临床变量(如酒瘾严重度) 是否独立。
  • 怎么用:令 \(\mathbf{X}\) 为该通路中 12 个基因的表达量(即 \(p=12\)),\(\mathbf{Y}\) 为 9 个行为评分/临床指标(\(q=9\))。用本文的三类秩相关 max与sum检验计算 p-value,与基于Pearson max-sum和dCor对比。
  • 结果:本文的 Kendall's \(\tau\)-max 在 0.05 水平显著拒绝独立(\(p=0.008\)),而 Pearson max-sum 不显著(\(p=0.97\));HSIC p-value ≈ 0.1。作者据此论证:依赖可能高度非线性,Pearson法检验失灵。
  • 想说明:相比Pearson相关类,秩相关方法在高维且为非线性依赖的数据上有更强的检验力,且不依赖分布假设。

🔎 结论是否比证明窄

  • 窄点明确:定理1-3中的渐近分布结论(Gumbel与正态)是在假设“各分量对之间秩相关估计的协方差结构是某种‘稀疏-稠密’混合结构”下严格证明的。作者在总结中泛泛表示此方法适用于“任意分布”,但分类讨论中并没证明在极端依赖结构(如强相关/弱相关极端混合的场景)下,max型统计量是否仍然服从极值类分布。所以,“通用极值收敛”这一宣称略宽于实际证明的假设范围(需要核对原文定理前的一个注记 Condition (C1))。

四、开放问题

  1. T_max 的极值收敛是否依赖于 \(p,q\) 的增长率快到极限?
    本文要求 \(\log(pq) = o(n^{\theta})\)(对一些 \(\theta<1\))。若满足 \(\log(pq)= \Theta(n)\) 会怎样?该检验是否稳定? → 扎根于原文假设 Assumption (3) 及“Gumbel收敛的Leadbetter条件”部分。

  2. 能否证明 T_sum 的 minimax 最优性(与 ℓ1-ℓ2 稀疏/密集备择相关)?
    本文只给出了局部备择下的功效启发式,并未给出信息论意义下的检验距离下界。扎根于“Power analysis under local alternatives”段的末尾,作者注明“更细致的minimax分析留给未来工作”。

  3. 对于 \(\tau^*\) 的高阶U-统计量,去偏后对 sum 型阈值选取的影响?
    \(\tau^*\) 是四阶U-统计量,其方差可随U-统计量阶数提高而规模缩放变大。本文使用的标准化是否是惩罚?是否可以通过更高阶投影获得更紧的方差缩放?(此条扎根于 \(\tau^*\) 的标准差公式推导部分。)

  4. 新相关度量的极限理论中的“计算复杂度”与“统计依赖性”:
    研究者已有的树宽/张量评估工具可否用于更便宜地计算 \(\tau^*\)?毕竟它是对所有四元组进行 O(n²) 计算。这条虚拟的连接在论文中没有被谈及,但在研究者自己的兴趣中有显著共鸣 → 需要读该文 \(\tau^*\) 的计算公式段,确认其可否被ῷ;为一个高效 DE。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论