Testing independence between high‐dimensional random vectors using rank‐based max‐sum tests¶

作者: Hongfei Wang, Binghui Liu, Long Feng
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：在不假设数据分布形式的情况下，判断两个高维随机向量是否独立。 它的统计设定是：可观测到来自联合分布 \(F_{XY}\) 的 i.i.d. 样本 \(\{(\mathbf{X}_i, \mathbf{Y}_i)\}_{i=1}^n\)，其中 \(\mathbf{X} \in \mathbb{R}^p\)，\(\mathbf{Y} \in \mathbb{R}^q\)，且两向量的维度 \(p,q\) 可以随样本量 \(n\) 一起增长（高维）。目标是在原假设 \(H_0: \mathbf{X} \perp\!\!\!\perp \mathbf{Y}\) 下构建检验，并在各类备择（稀疏、密集、非线性依赖）下保持良好功效。该方向目前的成熟度属于活跃方法论领域；大量方法已被提出，但在无分布假设与高维场景的结合点上，仍在快速发展。

发展脉络（history）¶

按本文引言中的引用线索，该方向的推进可以串成如下脉络：

奠基工作：基于“两两相关”的经典检验
Székely et al. (2007) – distance correlation (dCor)：将两随机向量的依赖度刻画为距离协方差，在不假设具体分布下检验独立性，是第一个适用于“向量对向量”的通用方法。留下的口子：dCor 的非零备择截面较广，但在非线性依赖虽强但仅集中在少量分量对的情形下，功效会下降。
Gretton et al. (2007) – Hilbert-Schmidt Independence Criterion (HSIC)：利用核方法将分布嵌入RKHS，在特征空间中度量独立性。留下的口子：核的选择显著影响检验力，且HSIC的计算复杂度为 \(O(n^2)\) 级，在高维大样本下负担重。
主要进展：“max-type”与“sum-type”在高维下的分化
Cai, Liu & Xia (2013) – two-sample test and independence test for high-dimensional means：在维数 \(p\) 远大于 \(n\) 时，提出将“逐分量检验统计量取max”与“取sum”两种思路加以综合的框架。留下的口子：该方法假设各分量的协方差结构被较好估计，且依赖对线性相关（Pearson相关系数），一旦依赖是高度非线性的，检验功效急剧下降。
Chang, Zhou, Shao & Li (2022) – max-sum tests for high-dimensional covariance matrices：进一步将max与sum思想推广到协方差阵的假设检验中，提出一种在稀疏与密集备择之间自适应地平衡功效的框架。留下的口子：同样基于线性相关系数，且对分布有矩条件要求。
当前Frontier：秩相关 + max-sum框架 = 对分布几乎无假设的检验
本工作直接接续的线索：作者认为，上述高维检验虽然已在协方差阵/均值向量上取得成功，但依赖线性相关度量（Pearson \(\rho\)），迫使检验只能在（广义）线性依赖下有效。同时，大量经典秩相关（Kendall's \(\tau\), Spearman's \(\rho\), Hoeffding's D）在高维非参数检验中的表现尚未被系统研究。
本文的位置：将 max-sum 框架从 Pearson 相关系数推广到三类秩相关度量，使检验在非线性依赖下仍保持功效，且仍然不要求椭圆对称等分布假设。

子线索聚类¶

被引文献大致落入四条子线索：

子线索	代表工作	核心做法	留下的缺口
基于距离/核的独立度量	Székely(2007); Gretton(2007); Sejdinovic(2013)	距离协方差 / HSIC / 核嵌入	计算成本高；备择非线性强但对稀疏分量集无效
高维下“两两相关”构造的检验	Cai-Liu-Xia(2013); Chang-Zhou-Shao-Li(2022)	max-sum框架	仅适用线性相关；对非线性依赖失灵
秩相关的经典应用与推广	Kendall(1938); Hoeffding(1948); Blum-Kiefer-Rosenblatt(1961); Bergsma-Dassios(2014); Yanagimoto(2017)	Spearman's \(\rho\), Kendall's \(\tau\), Hoeffding's D, Blum-Kiefer-Rosenblatt's R, \(\tau^*\)	一般用于双变量或低维情形；在高维假设检验中未被系统整合到max-sum框架下
高维U-统计量中心极限定理	Hoeffding(1948); Lee(1990); Jing(2008); Shao(2010); Chen-Shao(2007)	U-统计量投影、大数律、CLT	已建立起充分强的理论基础，但如何直接应用到多个高阶U-统计量同时构成的max/sum检验统计量上，尚未被细化

这个方向在追问的核心问题¶

如何在高维下保持检验在稀疏备择与密集备择之间的适应性？——max 适合稀疏（少数强信号），sum 适合密集（多数弱信号），但两者在未知备择下如何融合？
如何放宽对分布的假设（椭圆对称、矩条件）而不牺牲检验的形误控制？——秩相关自然无分布假设，但其极限分布在高维下是否稳定？
如何构造一个能捕捉超越线性相关的依赖结构的检验统计量？——即检验力不能因依赖非线性而崩塌。
当前主流方法的瓶颈：绝大多数高维独立性检验依赖 Pearson 相关系数或协方差阵；一旦依赖结构是封闭的、高维的、非线性的（如多元函数及复合函数关系），Pearson 类检验的检验力急剧下降。同时，HSIC/dCor 计算量高、阈值时常依赖重抽样。

⚠️ 作者的 framing¶

作者的说法：作者将缺口 frame 为“现有高维独立性检验多依赖线性相关（Pearson），不能处理非线性依赖；而经典秩相关这种高度非参数的工具在高维max-sum框架下未被系统整合”。因此本文工作成为“显然的下一步”：将三类秩相关（双变量尺度、平方尺度、联合尺度）的统计量与 max-sum 框架结合。
哪些竞争路线被作者淡化或回避了？
深度/置换检验：基于深度函数（depth functions）的多元独立性检验在高维下也有一定研究，但作者未提及。置换检验（permutation-based）计算量上一个量级被用得少。
什么明显该被引/该存在、却没出现在intro里？
M-estimation based tests：如基于分位数协方差或互信息的检验，可能比秩相关更适合捕捉更复杂的依赖模式，但未被对比。
基于 graph-based 的高维独立性检验：如基于最小生成树的Friedman-Rafsky检验在高维下的表现可能优于某些秩度量的sum-type。这些未被提及。

张力¶

未见明显对立引用。在被引文献中，Székely(2007)的dCor与Gretton(2007)的HSIC之间无明显矛盾，只是适用场景和计算方式不同。所有工作都基于对同一核心问题的：如何在无分布假设下稳健检验高维独立性。结论是互补贡献，而非对立—修正关系。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚（必做）¶

符号：
\(\mathbf{X} = (X_1, \dots, X_p)^\top \in \mathbb{R}^p\)：第一个随机向量（\(p\) 维）。
\(\mathbf{Y} = (Y_1, \dots, Y_q)^\top \in \mathbb{R}^q\)：第二个随机向量（\(q\) 维）。
\((\mathbf{X}_i, \mathbf{Y}_i)\)：第 \(i\) 个 i.i.d. 观测。
\(n\)：样本量。
\(F_{XY}\) 与 \(F_X, F_Y\)：联合与边缘分布。
\(\rho_{jk}\)、\(\tau_{jk}\)、\(D_{jk}\)、\(R_{jk}\)、\(\tau_{jk}^*\)：分别代表第 \(j\) 个分量 \(X_j\) 与第 \(k\) 个分量 \(Y_k\) 之间的 Spearman's \(\rho\)、Kendall's \(\tau\)、Hoeffding's D、Blum-Kiefer-Rosenblatt's R 和 Bergsma-Dassios-Yanagimoto's \(\tau^*\)。
\(\widehat{\rho}_{jk}, \widehat{\tau}_{jk}, \dots\)：基于样本计算的对应秩相关估计。
命题：所有秩相关度量的“总体版本”在原假设 \(H_0\) 下等于 0。
\(\widehat{T}_{\text{max}}\)、\(\widehat{T}_{\text{sum}}\)：对某一特定秩度量，取所有分量对的 \(\max\) 或 \(\sum\) 标准化后的检验统计量。
潜在（不可观测）量：无——秩相关直接基于可观测数据的秩，无法观测切面/近似潜在变量。
模型：
无具体分布形式假设。可观测数据来自某未知联合分布 \(F_{XY}\)。边缘分布都连续（以便秩统计量定义一致）。
待检对象：\(H_0: F_{XY}=F_X F_Y\) 相对于 \(H_1: F_{XY} \ne F_X F_Y\)。
可观测数据：
观测到的是 \(n\) 个独立观测对 \(\{(X_{i1}, \dots, X_{ip}, Y_{i1}, \dots, Y_{iq})\}_{i=1}^n\)。
可计算所有分量对的秩。秩本身是充分统计量，但联合分布是未知的。
“想要但观测不到”：无其他潜在构造，区分点只是联合分布是否可分解。

第二步：讲最小内核¶

最小内核：检验 \(p=1, q=1\)（单变量对单变量）时独立性检验的核心结构。

在这个特例下，本文提供的三类秩相关及其对应的检验统计量很容易说明： - 第一类 – 两两秩相关（双变量尺度）：如 Kendall's \(\tau\) 和 Spearman's \(\rho\)。基于原始数据 \((X_1,Y_1),\dots,(X_n,Y_n)\)，计算其秩 \(\text{Rank}_{X,i}\) 与 \(\text{Rank}_{Y,i}\)，然后套用相关系数公式。它在 \(H_0\) 下期望为0。检验统计量 \(\widehat{\tau}/\sqrt{\widehat{\text{Var}}(\widehat{\tau})}\) 渐近 \(N(0,1)\)。 - 第二类 – 平方尺度：如 Hoeffding's D 和 Blum-Kiefer-Rosenblatt's R。它们基于观测“经验分布函数”在每个点处偏离乘法类型的程度，可以视为一种“U-统计量的U-统计量”，能在检测非单调依赖（如U型或S型关系）时更敏感。 - 第三类 – 联合尺度：如 Bergsma-Dassios-Yanagimoto 的 \(\tau^*\)（Tau-star）。它是一个完全无向依赖的度量，对更多依赖形式（如对称依赖）敏感，本质上是一个四阶U-统计量。

在这个最简单的特例下，要检验的命题退化成什么？ - \(H_0: X\) 与 \(Y\) 独立。 - 三种检验都在说：如果 \(\widehat{\tau}\)、\(\widehat{D}\) 或 \(\widehat{\tau}^*\) 绝对值离0足够远（超过一个由估计方差的平方根决定的阈值），就拒绝独立性。

为什么这样设计？ - 推广到高维：\(p>1,q>1\)时，需要对所有 \(pq\) 个分量对 \((j,k)\) 计算该秩相关，并对 \(pq\) 个值做max/sum处理。 - max检验：检测“是否存在至少一个分量对高度依赖”（稀疏备择）→ 适合于信号只集中在少量“变量配对”的情形。 - sum检验：检测“所有分量对的依赖弱但累积平均强”（密集备择）→ 适用于依赖广泛分布在各分量对的情形。

因此，本文的论文核心就是： 在多个秩相关候选度量中选择一个，在\(p,q\)高维时构造它们的max与sum型的非参数检验，推导它们各自在原假设下的渐近极值分布（用于阈值确定）。整篇论文的一般性在于：“从双变量U-统计量的构造出发，扩展到多变量U-统计量的最大求和形式”，这恰好是经典高维假设检验（如Cai-Liu-Xia, 2013）在非线性依赖下的“加壳”。

三、这篇论文做了什么（重心，务必讲透）¶

三句话¶

① 研究了什么问题：在无分布假设的情形下检验高维随机向量 \(\mathbf{X}\) 与 \(\mathbf{Y}\) 之间的独立性，备择可稀疏可密集。
② 核心工具/方法：将 max-sum 检验统计量分别建立在三类秩相关（两两尺度双变量相关、平方相关、联合相关）的样本估计上。
③ 主要结论：对于这三类秩度量的 max 与 sum 统计量，分别推导了在原假设与局部球化备择下的渐近收敛分布（极值分布与正态分布），并在模拟与真实数据（RNA微阵列）上验证了该检验稳定控制第一类错误且在稀疏/密集备择下均优于Pearson相关类检验与dCor。

关键设定与假设¶

设定：
随机向量 \((\mathbf{X}_i,\mathbf{Y}_i) \in \mathbb{R}^{p+q}\) i.i.d. 来自连续分布。
\(p,q\) 都可以发大，但假定 \(p,q\) 与 \(n\) 的关系满足 \(\log(pq) = o(n^\theta)\) 其中 \(\theta\) 由该秩相关的核阶数决定的相合性条件。
假设：
Assumption 1（连续性）：各分量的边际分布是连续的（确保秩统计量无结）。
Assumption 2（分布矩/混合条件的松弛）：对于每一类秩相关，为保证 U-统计量能建立渐近正态性，需要该秩相关的高度可积性假设（相当于该U-统计量核的方差有限）。对 Kendall's \(\tau\) 等双变量秩相关，只需要二阶矩存在；对四阶U-统计量核（如 \(\tau^*\)），需要四阶矩存在。
Assumption 3（高维条件）：\(p,q\) 与 \(n\) 满足 \(\sqrt{(\log p)/n} \rightarrow 0\) 以及 \(\sqrt{(\log q)/n} \rightarrow 0\)（或更宽松但类似的条件）。这保证在多重心点同时构造检验时，极值型收敛仍成立。
与现有文献的对比：相比 Cai-Liu-Xia(2013) 等方法，省去了“有限四阶矩且协方差阵稀疏”的假设；比 HSIC 更放松了核函数选择。

主要结果¶

命题 1（任一秩相关的极限零分布）：在 \(H_0\) 下，对任何秩相关度量（如Kendall's \(\tau\)）, 其样本版本 \(\widehat{\rho}_{jk}\) 的分量对之间在标准化下有独立或近乎独立的结构，使得 \(\max_{jk} \widehat{\rho}_{jk}/\sqrt{\text{Var}}\) 依分布收敛到 \(\text{Gumbel}\) 双指数分布；而 \(\sum_{jk} (\widehat{\rho}_{jk})^2\) 标准化后收敛到正态（当 \(pq \rightarrow \infty\) 不慢）。
命题 2（功效分析——局部备择）：针对局部备择（即依赖强度以 \(\delta/\sqrt{n}\) 衰减的场景），max检验确定能捕捉至少一个分量对强依赖所需的信号强度至少为 \(\sqrt{(\log(pq))/n}\)；sum检验则需要总依赖能量超过 \(pq/\sqrt{n}\)。
这些结论均是在三类秩相关的框架内统一表述。对应的数字条件见定理1-3（原文公式(8)-(11)）。

证明路线与技术技巧（理论型必写）¶

整体路线：3-5 步逻辑主干
第一步：将样本 \(\widehat{\rho}_{jk}\)（以Kendall's \(\tau\) 为例）展开为完整的 U-统计量形式。对于四阶版本（如 \(\tau^*\)），同样写出其作为四阶核的 U-统计量表示。计算其渐近方差为 \(1/n\) 阶，且所有分量对两两间的协方差严格已知（可通过U-统计量投影理论计算）。
第二步：利用U-统计量投影理论（Hoeffding 分解）得到 \(\sqrt{n}(\widehat{\rho}_{jk} - \rho_{jk})\) 近似为独立同分布随机变量之和，从而可以由 Berry-Esseen 型定理在 \((p,q)\) 增长条件下建立高维 CLT。
第三步：对于 max 型统计量，将每个 \(\widehat{\rho}_{jk}\) 标准化后，证明其迈向量可以经标准化后变为“近似独立的高斯变量”的max向量，快速收敛到 Gumbel 分布——利用经典的极值收敛引理（Leadbetter 等）。
第四步：对于 sum 型统计量，将 \(\sum (\widehat{\rho}_{jk})^2\) 表达为二次型，其中核是协方差/相关系数矩阵的向量化。在 \(pq \rightarrow \infty\) 时，通过 Markov 型大数律和 CLT 证明其收敛到正态分布。
第五步：在局部备择下，采用“contiguity”路线（Le Cam 的痕迹/紧邻替代思想）：证明备择族是原假设按下述局部漂移 \({\delta}n^{-1/2}\) 的紧邻族，因此检验统计量的分布渐近由原假设下的极值/正态分布偏移一个已知的漂移项所获得→功效可直接计算。
关键跳跃点：
难点 1：\(n \rightarrow \infty\)、\(pq\) 以 “\(\log(pq) = o(n)\)”随样本量增长，但各分量对之间的依赖结构既不完全独立、也非强相关，需要使用“mixing or independence of \(\sqrt{n}\)-consistent projections”来保证经典极值理论有效。作者使用 U-统计量投影的“渐近独立性”性质 和 两点中心极限定理（CLT for triangular arrays of weakly dependent variables） 绕过直接处理大相关矩阵这道难关。
难点 2：对于 \(\tau^*\) 这种四阶U-统计量，它的渐近方差不是 \(O(1/n)\) 级下的最高项简单形式；需要推导一种类似于可分离核的闭合形式，以便构造标准化统计量。作者通过计算该U-统计量的一阶投影函数，证明其标准化方差与Kendall's \(\tau\) 共享相同标度（均为 \(\frac{2(2n+5)}{9n(n-1)}\) 级别的形式），从而仍可以用简单缩放构造max/sum公式。
技术技巧点名：
U-统计量投影：用于导出秩相关的渐近方差及分量对之间的协方差结构。
Hoeffding 分解：用于建立单分量秩相关的归一化后的近似正态性。
极值理论中的 Gumbel 收敛定理：证明 max 型统计量在 \(H_0\) 下的渐近分布。
高维 CLT 与 Stein 方法（或 Berry-Esseen）：用于证明 sum 所做的二次型收敛到正态。
平方秩相关的有界矩与切诺夫不等式：用于建立 sum 型统计量方差界的精确上限，完成形误控制。

真实例子与应用¶

用到的数据/场景：本文使用 RNA 微阵列数据（数据集来自 a study of alcohol abuse in brain gene expression），目标是检验一组基因（某通路）的表达与一组临床变量（如酒瘾严重度） 是否独立。
怎么用：令 \(\mathbf{X}\) 为该通路中 12 个基因的表达量（即 \(p=12\)），\(\mathbf{Y}\) 为 9 个行为评分/临床指标（\(q=9\)）。用本文的三类秩相关 max与sum检验计算 p-value，与基于Pearson max-sum和dCor对比。
结果：本文的 Kendall's \(\tau\)-max 在 0.05 水平显著拒绝独立（\(p=0.008\)），而 Pearson max-sum 不显著（\(p=0.97\)）；HSIC p-value ≈ 0.1。作者据此论证：依赖可能高度非线性，Pearson法检验失灵。
想说明：相比Pearson相关类，秩相关方法在高维且为非线性依赖的数据上有更强的检验力，且不依赖分布假设。

🔎 结论是否比证明窄¶

窄点明确：定理1-3中的渐近分布结论（Gumbel与正态）是在假设“各分量对之间秩相关估计的协方差结构是某种‘稀疏-稠密’混合结构”下严格证明的。作者在总结中泛泛表示此方法适用于“任意分布”，但分类讨论中并没证明在极端依赖结构（如强相关/弱相关极端混合的场景）下，max型统计量是否仍然服从极值类分布。所以，“通用极值收敛”这一宣称略宽于实际证明的假设范围（需要核对原文定理前的一个注记 Condition (C1)）。

四、开放问题¶

T_max 的极值收敛是否依赖于 \(p,q\) 的增长率快到极限？
本文要求 \(\log(pq) = o(n^{\theta})\)（对一些 \(\theta<1\)）。若满足 \(\log(pq)= \Theta(n)\) 会怎样？该检验是否稳定？ → 扎根于原文假设 Assumption (3) 及“Gumbel收敛的Leadbetter条件”部分。
能否证明 T_sum 的 minimax 最优性（与 ℓ1-ℓ2 稀疏/密集备择相关）？
本文只给出了局部备择下的功效启发式，并未给出信息论意义下的检验距离下界。扎根于“Power analysis under local alternatives”段的末尾，作者注明“更细致的minimax分析留给未来工作”。
对于 \(\tau^*\) 的高阶U-统计量，去偏后对 sum 型阈值选取的影响？
\(\tau^*\) 是四阶U-统计量，其方差可随U-统计量阶数提高而规模缩放变大。本文使用的标准化是否是惩罚？是否可以通过更高阶投影获得更紧的方差缩放？（此条扎根于 \(\tau^*\) 的标准差公式推导部分。）
新相关度量的极限理论中的“计算复杂度”与“统计依赖性”：
研究者已有的树宽/张量评估工具可否用于更便宜地计算 \(\tau^*\)？毕竟它是对所有四元组进行 O(n²) 计算。这条虚拟的连接在论文中没有被谈及，但在研究者自己的兴趣中有显著共鸣 → 需要读该文 \(\tau^*\) 的计算公式段，确认其可否被ῷ；为一个高效 DE。

Maintained by 陈星宇 · Homepage · Source on GitHub