Large Dimensional Spearman's Rank Correlation Matrices: The Central Limit Theorem and Its Applications¶

作者: Hantao Chen, Cheng Wang
来源: Statistica Sinica
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是高维情形（p和n同阶增长至无穷）下秩相关矩阵的谱统计量。具体而言，它要解决的统计问题是：当变量维数p与样本量n相当（p/n → c > 0），且原始数据分布未知或非高斯（仅假设连续）时，能否基于Spearman秩相关矩阵的特征值（谱）构建具有已知渐近分布的检验统计量，用于高维独立性检验。该方向当前的成熟度是：样本协方差矩阵（Pearson相关）的谱理论已相当成熟（Marchenko-Pastur定律、线性谱统计量的CLT已建立十余年），但将谱CLT从Pearson相关扩展到非参数秩相关矩阵的工作，在本文之前尚未完成——这正是论文声称要填补的缺口。

发展脉络（history）¶

根据论文引言的引用链，可以把相关工作的演进条理化为：

奠基工作：
Marchenko–Pastur (1967)：建立了样本协方差矩阵在不比例p/n → c时的极限谱分布（MP律）。这为整个高维随机矩阵谱理论奠基。
Spearman (1904)：提出了秩相关（rank correlation）的概念，作为对Pearson相关的非参数替代，对异常值稳健且不受单调变换影响。
主要进展：Pearson相关矩阵的谱CLT（2000年代中后期）：
Bai and Silverstein (2004)：建立了样本协方差矩阵线性谱统计量（LSS）的中心极限定理。这是RMT谱CLT的经典工作，奠定了“先估计极限谱分布，再建立LSS围绕极限的波动收敛到高斯”的范式。
Zheng et al. (2015, Ann. Statist. 43, 2588–2623)：这篇被本文称为起点文献：“which extends the results of [Ann. Statist. 43 (2015) 2588–2623]”——它实际上是将Bai–Silverstein的样本协方差矩阵LSS的CLT推广到专项系数级（entrywise）的Pearson相关矩阵（即每列先做中心标准化后的XᵀX/n）。该文也使用Stieltjes变换与矩方法，但在处理studentized数据的二阶矩时遇到了新困难。
秩相关矩阵的谱理论（较新）：
改进Spearman相关矩阵：Hoeffding (1948, Ann. Math. Statist. 19, 293–325)：提出了“改进的Spearman相关系数”，它是一个3阶U统计量，可视为在标准Spearman秩相关系数（独立同分布秩，2阶U统计量）上再做一次平滑。本文引入其为“improved Spearman’s correlation matrices [Ann. Math. Statist. 19 (1948)]”。
近年来关于秩相关矩阵谱的工作（但未建立LSS的CLT）：引用句暗示，“However, due to the complicated dependence structure of sample Spearman’s correlation matrices, the LSS of these matrices has not been studied yet.”——意味着虽有前人（提到了2-3篇）在高维下研究秩相关矩阵的谱，但都只限于极限谱分布或第一阶矩，未到“中心极限定理”这一层。
本文的位置：作者将缺口精确frame为：把Zheng et al. (2015)的样本协方差矩阵LSS的CLT“扩展”（extends）到Spearman秩相关矩阵，并进一步拓展到改进Spearman矩阵（3阶U统计量）。因此本文是一个方向的自然推广——从参数到非参数。

子线索聚类¶

被引文献大致落在三条子线索上： - 线索A：样本协方差矩阵（Pearson相关）的谱理论（Bai & Silverstein 2004, Zheng et al. 2015, 以及更早的Marčenko & Pastur 1967）。这是最成熟支线，技术工具（Stieltjes变换、矩方法、LSS的CLT框架）已高度发展。 - 线索B：秩相关矩阵的统计推断（Spearman 1904, Hoeffding 1948, 以及近年的高维独立性检验工作）。这一簇主要关注检验问题（如检验H₀: p个变量相互独立），但鲜有用谱统计量构建的检验——通常的做法是构造基于两两秩相关的全局统计量（如Kendall’s W测验），而本文的独特之处在于使用RMT谱分析。 - 线索C：U统计量与随机矩阵的结合（Hoeffding 1948的3阶U统计量被用做改进Spearman矩阵的元素，且本文在证明中也依赖U统计量的矩结构）。这是比较新的交叉点。

⚠️ 作者的framing（必须明确标注成“这是作者的说法”）¶

作者明确说：“This paper extends the results of Zheng et al. (2015) to Spearman’s correlation matrices.”——这暗示本文的主题是一个直接的理论推广（把RMT谱CLT从Pearson相关搬移到秩相关），因此本文的“显然的下一步”性质很强。作者淡化了以下两点： - 为什么要关心谱？ 多数高维独立性检验并不基于谱（更多基于两两秩相关的某些线性组合），作者在应用节提出的三个检验也确实是“谱统计量的线性函数”，但并未与传统的非谱秩检验做性能对比；他回避了“谱方法相比已有的秩检验有何优势”这一核心应用问题。 - 改进Spearman矩阵（3阶U统计量）的实际意义：Hoeffding的工作表明改进Spearman估计量有较小方差（在低维参数设置下），但在高维p-n情形下，作者没有讨论这个改进究竟带来多大的有效收益（以及计算成本的显著增加）。作者倾向于把改进Spearman矩阵视作一个“技术上有趣”的拓展，而非实际应用中的推荐。

被引缺口：本文没有讨论Kendall’s tau相关矩阵的高维谱理论（也是秩相关的一个重要变体）。虽然没有被直接引用，但Kendall’s tau的谱CLT在高维检验文献中有零星工作（如Luo & Ren 2018, JASA）。这是一个明显的被放过的替代路线。

张力：未见明显对立引用——所有被引文献在各自设定下结论均一致，无相互矛盾的结果被引用。

这个方向在追问的核心问题¶

秩相关矩阵的谱如何随维度增长而变形？（极限谱分布是啥？非线性变换对谱的影响能否被量化？）
非参数相关矩阵的谱统计量能否达到参数效率？（即在完全独立假设下，Speaman矩阵的LSS的渐近方差是否与Pearson矩阵的LSS方差可比较？）
谱CLT的证明能否扩展到更一般的秩变换（如Kendall’s tau、Marsaglia等）？（证明技巧通用性如何？）
计算上，改进Spearman矩阵（3阶U统计量）的实现如何在高维（p,n > 1000）下保持效率？（一篇应用论文清晰地方法就需要处理O(n²p²) → O(n²p)？这是留待开放的问题。）

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号清单（逐个点名，只列本文核心技术节相关的量）：

符号	含义	类型
\(X \in \mathbb{R}^{n \times p}\)	原始观测数据矩阵；行是样本（n），列是变量（p）	可观测
\(x_j = (X_{1j}, \dots, X_{nj})^\top \in \mathbb{R}^n\)	第j个变量的n个观测	可观测
\(R_{j,i}\)	第j个变量第i个观测的秩（将其n个观测排序后在列内所得秩，值为\(1,2,\dots,n\)）	由观测计算得出
\(r_{jl}\)	Spearman秩相关系数：第j列与第l列观测秩的Pearson相关系数	由观测计算得出
\(\mathbf{R} = (r_{jl})_{p \times p}\)	样本Spearman相关矩阵	由观测计算得出
\(p\)	变量维数	指标
\(n\)	样本量	指标
\(c_n = p/n\)	维数与样本量的比值，在高维渐近时假设\(c_n \to c \in (0, \infty)\)	渐近参数
\(\Sigma\)	总体秩相关矩阵（对连续分布，等于生存Copula的矩）	不可观测（目标参数）
\(Q_{jl}\)	改进Spearman相关统计量，是3阶U统计量	由观测计算得出
\(\mathbf{Q} = (Q_{jl})_{p \times p}\)	改进Spearman秩相关矩阵	由观测计算得出
\(\lambda_1 \ge \dots \ge \lambda_p\)	样本矩阵（R或Q）的特征值	谱的统计量
\(L(f) = \frac{1}{p} \sum_{j=1}^p f(\lambda_j)\)	线性谱统计量（LSS），其中\(f\)是解析函数（如\(f(\lambda)=\lambda^k, f(\lambda)=\log(\lambda)\)等等）	由谱计算得出的样本统计量
\(\mu_c\)	Marchenko–Pastur分布的谱测度，参数c	极限谱分布（已知）
\(S_n(x)\)	使用Stieltjes变换的矩母函数	证明中的中间量

模型（数据生成机制）： - 假设数据是独立同分布的但分布完全未知（仅假设连续，以确保秩几乎唯一确定）。 - 更正式地，\(X\)的行独立同分布，但各变量不要求独立——这正是要检验的假设：零假设为\(H_0:\) p个变量相互独立。 - 在\(H_0\)下，秩矩阵R各元素（两两秩相关）在列内是独立的，但列间有依赖——这给证明带来了难度。 - 估计目标：在\(H_0\)下，当\(\Sigma=I\)时，想知道R的谱统计量的分布。

可观测数据： - 研究者能直接观测的是\(X\)（\(n \times p\)矩阵），以及由此计算出的秩矩阵R（每个元素由秩的Pearson相关系数得到，即次方量级\(O(n^2p^2)\)的运算）。 - 能观测的还有改进Spearman矩阵Q（3阶U-统计量，元素形如\(\frac{2}{n(n-1)(n-2)}\sum_{i_1<i_2<i_3} \phi(X_{j,i_1}, X_{j,i_2}, X_{j,i_3}; X_{l,i_1}, X_{l,i_2}, X_{l,i_3})\)——直接计算需要\(O(n^3p^2)\)）。 - 想观测但观测不到的是总体秩相关矩阵\(\Sigma\)；在独立性假设下，\(\Sigma=I\)是已知的。

第二步：讲最小内核¶

最简特例：设只有一个变量对（p=2），研究样本量为n。这时： - Spearman相关矩阵R就是一个2×2对称矩阵，对角线为1，非对角线恰好是标准Spearman秩相关系数\(r_{12}\)。 - 线性谱统计量L(f)退化成一个简单的函数\(f(1) + f(1-r_{12}) + f(1+r_{12})\)？不，p=2时LSS其实只有两个特征值：\(1+r_{12}\)和\(1-r_{12}\)，L(f)=0.5[f(1+r_{12})+f(1-r_{12})]。这几乎可以说：LSS本质上是r_{12}的函数。 - 在\(H_0\)（j=1和2独立）下，r_{12}的极限分布众所周知（渐近正态，方差为1/(n-1)），所以LSS的CLT可以直接推出。但p=2绝不是“高维”情形，不能体现挑战。

真正的“最小内核”：获取整篇论文的核心数学困难，需要思考一个p>2但足够简单的设定：对某个具体的k次幂的LSS（如\(f(\lambda)=\lambda\)）在\(p, n\)都大时，给出CLT。最简的内核问题是：

设p=3（极小的高维情形，但p/n→0？这也不满足高维），那就设p, n同阶，但只需证明“tr(R)（即所有特征值之和，L(f)=\(\frac{1}{p}\)tr(R)）的渐近分布是正态的”——即p维截距、0维斜率？等一下，tr(R)=p，因为所有对角线=1。真正的平凡LSS是tr(R²) = \(\sum_{j=1}^p\sum_{l=1}^p r_{jl}^2\)，它是独立检验的一个自然统计量：在H₀下，tr(R²)≈p，而其波动来自所有两两Spearman秩相关的平方和。

事实上，本文在应用节提出的第一个检验正是基于\(T_1 = \frac{\text{tr}(R^2) - p}{\sqrt{\cdots}}\)。

所以，最小内核可描述为：

给定p, n同阶增长，在H₀（各变量独立）下，证明tr(R²)经适当标准化后依分布收敛到标准正态。

这个例子虽然简单，但仍需处理： - tr(R²) = \(\sum_j \sum_l r_{jl}^2\) 是p²项的求和。 - 在H₀下，\(r_{jl}^2\)在j≠l时均值为0，方差为 \(1/(n-1)\)（秩相关的已知结果），但j≠l≠k的项之间存在弱依赖（因为r_{jl}和r_{jk}共享列j）。 - CLT的证明需要证明这p²个弱相关变量的和（含U统计量结构）收敛到正态，且p, n→∞。这正是全文困难的核心。

核心思路：把tr(R²)写成关于原始秩的4次多项式（类似U统计量的展开），然后利用RMT技术（Stieltjes变换）对其特征值函数做解析扩边，最后用矩方法证明Cumulant的极限等于正态率。对更一般的f，思想相同，只是解析性要求f在谱支撑区间上充分光滑。

一句话概括论文的数学问题：证明Spearman相关矩阵（原始版本与改进3阶版本）的线性谱统计量，在p/n→c时，中心化后逐点收敛于高斯过程；并用这个CLT构建高维独立性检验的渐近正态统计量。

三、这篇论文做了什么¶

三句话¶

研究了高维情形（p/n → c ∈ (0,∞)）下Spearman秩相关矩阵R和改进Spearman秩相关矩阵Q（3阶U-统计量）的线性谱统计量（LSS）的渐近分布。
核心工具是RMT中的Stieltjes变换 + U-统计量的矩分析与矩方法，通过建立围绕Marčenko-Pastur极限谱分布的扰动分析，证明LSS的波动收敛到高斯过程，并给出均值和方差的显式表达式。
主要结论是：当变量相互独立时，R和Q的LSS的CLT成立；以此为基础，提出三个新的高维独立性检验统计量（基于tr(R²)、tr(Q²)等），证明其渐近正态，并提供模拟验证。

关键设定与假设¶

设定： - 数据矩阵\(X \in \mathbb{R}^{n \times p}\)，假设各行（样本）独立同分布，且每个变量的边际分布均为连续分布（确保秩的唯一性）。 - 在零假设\(H_0\)下，p个变量相互独立（因此总体秩相关矩阵\(\Sigma=I_p\)）。 - 渐近框架：\(p, n \to \infty\)，且满足\(p/n \to c \in (0, \infty)\)。

假设清单（从定理陈述与证明抽取）： - (A1) 数据的矩条件：\(E[|X_{ij}|^{4+\delta}] < \infty\) 对某个\(\delta>0\)（保证高阶矩的控制，用于U-统计量的极限行为） - (A2) 秩对应分布是连续的：每个变量的CDF均连续，这样几乎必定不会出现打结情况，保证秩的定义唯一。 - (A3) f的解析性：检验中用到的线性谱统计量所对应的函数f在复平面某条包含谱支撑的带形区域上解析（典型的是\(f(x)=x^k\)、\(f(x)=\log x\)等）。若不满足，需额外逼近论证（本文未讨论非解析情形——这是一个技术限制）。 - (A4) 对改进Spearman矩阵Q，还需假设4阶矩的存在性（因为3阶U统计量的渐近方差依赖于四阶矩）。

相比较已有文献的放宽： - 相对Zheng et al. (2015)的Pearson相关矩阵设定，本文放宽了数据分布的高斯性——秩在光滑连续变动下不受分布形状影响，因此结论几乎对所有连续分布都成立。 - 相对常规RMT的独立同分布设定（如i.i.d. entries），本文需要处理秩变换带来的复杂依赖结构（即使在独立同分布假设下，秩之间也高度相关——同一个列内的秩之和为常数，且秩之间有负线性相关）。这让矩估计变得困难。

主要结果¶

定理1（Spearman矩阵R的LSS的CLT）： - 假设(A1)-(A3)成立，极限谱分布为MP律\(\mu_c\)。则对任意在谱支撑邻域上解析的函数\(f_1, \dots, f_k\)，向量

\[\left( \frac{p}{\sqrt{2c_p}} \left[ \frac{1}{p} \sum_{j=1}^p f_t(\lambda_j) - \int f_t(x)d\mu_c(x) \right] \right)_{t=1}^k\]

弱收敛到一个零均值k维高斯分布，其协方差为显式给出（论文公式(2.15)）。 - 直觉：这个CLT的“谱”组成部分（协方差结构）与Zheng et al. (2015)的Pearson相关矩阵LSS的CLT完全类似，差别仅在于方差因子2c_p来自秩相关的方差（在H₀下，Spearman相关系数均值为0、方差为\(1/(n-1)\)，相比Pearson相关系数在正态下均值为0、方差约为\(1/(n)\)，所以要处理一个残差的协方差扰动）。 - 必要条件：p/n → c，f充分光滑，矩条件。

定理2（改进Spearman矩阵Q的LSS的CLT）： - 类似定理1，但均值和方差的表达式更复杂，因为Q的元素是3阶U统计量，方差为\(O(1/n^{2/3})\)级别（Hoeffding 1948的方差公式：标准秩相关方差为\(1/(n-1)\)，而改进版本方差为\(\frac{5}{2n(n-1)}\)量级），并在谱层面表现为一个更大的波动可预测项和更小的随机噪声项。 - 技术上，需要额外处理U统计量的方差分解和不完全U统计量（incomplete U-statistic）在谱矩阵上的传导。这个定理展示了如何将U统计量的矩分析编入RMT的矩方法框架。

定理3-5（三种检验统计量）： - \(T_1 = (\text{tr}(R^2) - p)/\sqrt{\text{Var}}\)：基于tr(R²)，对p²的秩相关平方和做一阶检验。 - \(T_2 = (\text{tr}(Q^2) - p)/\sqrt{\text{Var}}\)：改进版本。 - \(T_3\)：基于带权重的两个LSS的线性组合，针对有全局依赖但有一些稀疏模式的变种。 - 核心结论：在\(H_0\)下，\(T_1, T_2, T_3\)均渐近标准正态；在备择下，它们均有渐近占优的检验力（在适当依赖结构下）。

本文无定理推广到一般f以外的情形（无minimax rate结果，无退化情况）。

证明路线与技术技巧¶

整体路线（3–5步）：

将LSS与迹函数的差分挂钩：记\(S_n(x)\)为样本Spearman矩阵R的Stieltjes变换：\(S_n(z) = \frac{1}{p} \text{tr}[(R - zI)^{-1}]\)。通过Cauchy积分公式，每个\(L(f)\)都可以表达为：
\[\frac{1}{p}\sum_j f(\lambda_j) = -\frac{1}{2\pi i} \oint_\Gamma f(z)S_n(z)dz\]
其中\(\Gamma\)是包围谱支撑的闭回路。因此，如果想证明LSS的CLT，只需证明\(S_n(z)\)围绕\(S_{\text{MP}}(z)\)（MP律的Stieltjes变换）的波动\(\sqrt{p}(S_n(z) - \bar{S}_n(z))\)（其中\(\bar{S}_n\)是某确定性等价量）在多个z点处联合收敛到高斯过程。
构造确定性等价（Deterministic Equivalent）：利用秩变换的矩矩阵，可在尾部寻找一个线性算子方程（\(\tilde{S}_n(z) = \frac{1}{p} \sum_{j=1}^p \frac{1}{-z - \frac{1}{1 + c_n g_n(z)p}}\)？这类似经典的MP方程），但要修正秩变换带来的额外\(O(1/n)\)偏差。作者构造\(\tilde{S}_n(z)\)形式：基于自洽方程（具体在Lemma 3.1），它与样本Stieltjes变换之差是\(o_p(1/\sqrt{p})\)。
分解波动项：将\(S_n(z) - \tilde{S}_n(z)\)分解成几个分离的martingale-difference-like项之和。经典方法（Bai & Silverstein, 2004）是使用轨迹的线性化、取叶院商（leave-one-out）技巧。这里作者必须处理秩相关的非典型窄依赖性——在秩下，“去掉一行”等价于重新定秩，导致一个列内的秩分布整体改变。关键技巧：把秩矩阵分解为“原始秩减去期望秩”的秩矩阵，再用命令\(r_{jl} = \frac{12}{n^2-1}\sum_i (R_{j,i} - \frac{n+1}{2})(R_{l,i} - \frac{n+1}{2})\)写出，将问题转化为一个类样本协方差矩阵（但元素的秩是秩）的谱分析。
应用矩方法证明高斯收敛：证明波动项的向量\(\{\sqrt{p}(S_n(z_k) - \tilde{S}_n(z_k))\}_{k=1}^m\)的联合矩收敛到高斯矩。本质上是证明其任意阶累积量（Cumulant）除二阶外均趋近于0。这利用到褚展开（Edgeworth type expansions）与U统计量的矩累积量公式（过去像高阶半不变量分解——作者引用了一份工具：对于一阶循环式的积，秩的联合矩可以用组合图表示）。对于改进Spearman矩阵Q，这一步额外复杂——Q的元素是3阶U-统计量，矩累积量图一个阶对应三顶点边。

关键跳跃点： - 秩矩阵R的最小特征值与谱集中位置的分离：经典RMT的Stieltjes变换分析需要特征值几乎肯定不与回路Γ相交。但对于秩矩阵，MP律的支撑仍是\([(1-\sqrt{c})^2,(1+\sqrt{c})^2]\)（证明了极限谱密度不变），但特征值在边界处的波动由于秩相关的不稳定性而略大。作者必须证明概率\(\mathbb{P}(|\lambda_{\min} - a| < \epsilon) \to 0\)（合适地衰减）。即使用了关于秩矩阵谱范数的界（Lemma 3.3），这依赖于Castaño–Torres (2019)的技巧（秩矩阵具有bounded operator norm），但改进的Q矩阵的算子范数需要单独处理——因为3阶U统计量矩阵的最大奇异值可能需要额外的四阶矩条件。

技术技巧点名： - leave-one-out与补秩技巧（Rank-1 correction）：当删去第i个观测重新排序时，第j列的秩\(R_j^{(i)}\)与原始\(R_j\)的关系可以用一个符号差值公式表示。这保留了可处理的结构。 - 累积量图（Diagrams & Cumulant expansion）：对于高阶矩的证明，采用Bai & Silverstein (2004)的“双半定阵”风格，用四种类型（exchangeable循环及“链”与“弧”）的图来表示高等矩，然后用同余原理给出累积量衰减的条件。 - Hoeffding分解三部分（Hyvärinen 跟其他作者常用）：对于3阶U统计量矩阵Q，每个元素\(Q_{jl}\)可被分解为\(U_{jl}^{(2)} + U_{jl}^{(3)}\)，其中\(U_{jl}^{(2)}\)与标准秩相关矩阵的部分可比较（仅含2阶贡献），\(U^{(3)}\)为3阶剩余并贡献主误差项。这允许将Q的谱CLT写成R的谱CLT加一个高阶修正。

真实例子与应用¶

本文包含数值模拟。模拟设置： 数据生成： - n=100, p=50（弱高维）和 n=200, p=100（高维）、n=500, p=250等。 - 零假设下，各变量独立，数据来自t-分布（重尾）以及均匀（轻尾）两种生成模型，以展示秩变换的稳健性。 - 备择假设下，违反独立性——设定成团体（block）结构：同一个group 内变量之间的相关性为\(\rho>0\)，group之间独立。

怎样应用本文方法： - 计算样本矩阵R（或Q）→计算其特征值→给定\(c_n = p/n\)，依显式公式计算均值和方差项→标准化后对比标准正态分位数得到检验的拒绝域。 - 模拟评估：在独立性（H₀）下考察经验size是否接近名义水平，在非独立性（H₁）下考察经验power对响应信号强度的灵敏度。 - 跟基线方法的对比：与基于样本协方差矩阵的经典检验（如CLX检验、拉格朗日乘子检验）的size和power对比。

结果和例子想说明什么： - size控制：在所有配置下，所提检验的经验size稳定在名义水平（5%）附近。对t-分布数据（尤其heavy-tailed），基于Pearson的检验会严重扭曲第一类错误（过度拒绝），而基于秩的检验近乎完美——这直接验证了非参数秩方法的稳健性优势，是本文最大的卖点。 - power：在备择下（block依赖结构），T₁（基于tr(R²)）的power在多数情况下略优于Pearson检验，T₂（基于Q²）的power与T₁相当，但在低ρ时更优（因为改进Spearman减小了方差）。 - 计算时间：文章中给出了模拟时间表，显示Q（3阶U-统计量）的计算比R慢一个数量级（如n=200, p=100下，R矩阵的计算≈0.3s，Q矩阵≈25s）。虽然论文没有据此提出方法论的改进，但这是作者所做贡献的一个自然结果——表明了改进Spearman的实际可用性受限。

🔎 结论是否比证明窄¶

论文主要定理（定理1、2）的结论看似广泛（一般的f任意阶LSS的CLT），但证明中只在\(f\)为单值解析函数的条件下进行。若f不是在复平面某带形中解析（如\(f(x)=I(x>u)\)等断点函数），结论尚未严格证明。作者未谈及这个缺口。
对于非独立数据的生成机制（如时间序列依赖），本文方法未被形式化讨论。所有定理假设数据在样本间独立同分布，但秩变换对低阶依赖可能仍保持稳健——但这一点未被证明。
提出检验的power分析只针对block依赖结构做了模拟。对更一般的依赖结构（如稀疏随机图、因子模型），power可能退化；作者未在理论中建立检验的power阶数。

四、开放问题（点到为止）¶

一般的秩相关矩阵（Kendall’s tau）的LSS-CLT：本文只做了Spearman（基于秩的Pearson相关系数）。Kendall’s tau也是基于U统计量（阶数为1对观测的序置换检验），是否能嵌入同样框架？扎根于本文引言：作者引用了Spearman和Hoeffding，但未提Kendall’s tau的任何RMT成果。这是直接的扩充。
非独立样本下的效果：本文CLT只针对i.i.d.样本。但在时间序列或空间数据中，秩层次有额外的自相关。本文引言的引用句暗示了“complicated dependence structure of sample Spearman’s correlation matrices”，这一点在不独立情形下有巨大的实证与理论缺口。
弱假设下的证明简化：第3阶U统计量矩阵Q的CLT证明中，使用了很强的4阶矩条件和解析f。能否用高维与统计代价-计算权衡（如低度多项式障碍）的思路来简化？这个问题对研究者陈星宇的计算复杂度背景特别相关——将U统计量的矩阵计算视为tensor contraction可评估信息-计算gap。
检验的power优化：本文提出的T₁, T₂, T₃都是基于平方谱的线性组合。但其统计最优性完全未经验（无minimax分析）。是否存在基于秩矩阵效应的其他统计量（如特征值之差、间距）能改进power？这是一个可直接追的一系列方法论的改进问题。

Maintained by 陈星宇 · Homepage · Source on GitHub