跳转至

Central limit theorem of linear spectral statistics of high-dimensional sample correlation matrices

作者: Yanqing Yin, Shurong Zheng, Tingting Zou
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: https://doi.org/10.3150/22-bej1487


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是高维随机矩阵中样本相关矩阵(sample correlation matrix)的线性谱统计量(Linear Spectral Statistics, LSS)的中心极限定理(CLT)。核心问题是:当数据维度 \(p\) 与样本量 \(n\) 同步增长(即 \(p/n \to c \in (0, \infty)\))时,形如 \(\sum_{i=1}^p f(\lambda_i)\) 的谱统计量(其中 \(\lambda_i\) 为样本相关矩阵的特征值,\(f\) 为充分光滑的函数)的渐近分布是什么?这项工作把经典的高维协方差矩阵LSS-CLT理论,从样本协方差矩阵扩展到了样本相关矩阵——后者由于包含了“除以样本标准差”的对角归一化,统计结构与协方差矩阵有本质区别。

发展脉络(history)

将Introduction中引用的工作串成一条线:

  1. 奠基工作:Marchenko-Pastur (MP) 定律与 Stieltjes 变换 (Marčenko & Pastur, 1967):给出了样本协方差矩阵经验谱分布(ESD)的极限,确立了高维随机矩阵谱分析的数学基础。后续工作(如 Bai & Silverstein, 2004)将这一极限推广为线性谱统计量的 CLT。

  2. 主要进展:样本协方差矩阵 LSS 的 CLT (Bai & Silverstein, 2004; Lytova & Pastur, 2009; Yao et al., 2015; Zheng et al., 2015):建立了在 \(p/n \to c\) 框架下,样本协方差矩阵 LSS 的渐近正态性。这些工作的一整套假设、证明技巧和边界公式构成了整套 RMT 推断工具箱。它们也是本文直接出发点的“参考系”。

  3. 当前 Frontier:从样本协方差矩阵转向样本相关矩阵。在此之前,针对样本相关矩阵的谱分布 CLT 并不充分。

  4. El Karoui (2009) 研究了椭圆分布下的样本相关矩阵谱分布,但只给出了极限谱分布(MP-type law),没有给出 LSS 的 CLT
  5. 相关工作在“独立成分结构”下的 RMT 结果(Bai et al., 2007; Bai & Zhou, 2008)虽与样本相关矩阵有关,但其工作针对的是“样本协方差矩阵”且要求数据有有限四阶矩——而对相关矩阵而言,即使总体为白噪声(Identity),其谱统计量的极限方差也依赖于数据的四阶矩(峭度),这在协方差矩阵的CLT中是不存在的(其极限方差完全由谱分布决定、不依赖高阶矩)。

  6. 本文位置:本文填补了上述空档——在 \(p/n \to c\) 框架下分别给出了:(a) 独立成分结构、(b) 椭圆分布结构下,样本相关矩阵 LSS 的 CLT。尤其指出:即使总体相关矩阵为单位阵 \(I_p\),两种设定下的 CLT 也互不相同——这与样本协方差矩阵的LSS形成鲜明反差(后者在两设定下极限分布一致)。

子线索聚类

这些被引文献大致落在一个子线索(但有两个应用设定分支):

  • 唯一子线索:高维样本协方差 / 相关矩阵的谱统计 CLT。不同于一般用户可能猜测的“两个不同子方向”(协方差 vs 相关),本文及其所有核心被引都被同一个数学问题支配——谱分布(ESD → MP-law → CLT for LSS)的高维渐近理论,从协方差矩阵做“对角归一化”推广到相关矩阵。因此子线索只有一个,但分支在两个总体假设设定
  • 独立成分结构 (如 Bai et al., 2007 处理协方差、或写作本文的 Eq.(1.3)-(1.4)):数据 \(X = \Sigma^{1/2} Z\),其中 \(Z\) 元素独立同分布(iid)、均值为0、方差为1。
  • 椭圆结构 (如 El Karoui, 2009):数据 \(X = R \Sigma^{1/2} U\),其中 \(U\) 均匀分布在单位球面上、\(R\) 为径向随机变量,从而数据具有椭球对称性。此设定允许重尾分布(某些 \(R\) 使得四阶矩不有限)。

这个方向追问的核心问题与已知瓶颈

  1. 对样本相关矩阵,谱统计量的 LSS 是否仍有 CLT?其渐近方差长什么样?
  2. 已知瓶颈:由于相关矩阵归一化了对角线(\(\hat{R}_{ij} = \frac{\sum_k X_{ik} X_{jk}}{\sqrt{\sum_k X^2_{ik} \sum_k X^2_{jk}}}\)),即使总体为单位阵,样本相关矩阵的有限四阶矩仍影响极限方差。这在协方差矩阵的 CLT 中不需要处理。
  3. 不同总体结构(独立成分 vs 椭圆)下,CLT 形式是否不同?
  4. 已知瓶颈:协方差矩阵 CLT 在两者下极限一致(因为协方差矩阵计算只用到二阶矩);相关矩阵则因为高阶矩效应未消去而分裂。
  5. 如何处理对角归一化带来的随机分母?
  6. 该分母引入额外的隐式依赖,使得在对 LSS 做 Stieltjes 变换展开时需要处理“随机引号项”——这是一道技术上卡了很多人的跳跃。

⚠️ 作者的 framing

这是作者的说法:作者把缺口 frame 成“虽然样本协方差矩阵的LSS-CLT已被充分研究,但样本相关矩阵的对应CLT由于对角归一化的引入而悬而未决”——于是本文是“显然的下一步”。作者强调了两种设定(独立成分 vs 椭圆)下极限不同,从而塑造了论文的核心贡献。

  • 被淡化或回避的竞争路线:对于椭圆分布下的相关矩阵CLT,作者引用了El Karoui(2009)的研究,但没有细致讨论El Karoui的工作中是否已有某种形式的CLT拓展。对于实际检验问题(如检验总体相关矩阵是否为Identity),作者只在结尾给了应用示例,但未与已有的置换检验、基于最大特征值的检验等方便的方法在实证上做对比。
  • 什么明显该被引却未出现:未详细讨论“样本相关矩阵的最大特征值分布”(如 Tracy-Widom 相关推广)的已有工作。在高维RMT中,最大特征值与LSS的CLT互补,但作者仅在Introduction末尾提及LSS-CLT可应用于相关矩阵的结构检验,未讨论已有最大特征值检验的局限性。

张力

未见明显对立引用——本文涉及的两个设定(独立成分 vs 椭圆)在各自模型假设下是明确的,两设定之间没有相互冲突的结论被引文中的引用句指向。对于独立成分结构,主要参考工作(Bai & Silverstein, 2004 等)已确立协方差矩阵CLT,而作者认为这里只是技术拓展;椭圆分布方面,El Karoui (2009)给出的极限谱分布是LSS-CLT的直接前驱,不矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • \(X\): \(p \times n\) 数据矩阵,每一列是一个独立观测(样本)。
  • \(p\): 维度(变量数);\(n\): 样本量。设 \(\frac{p}{n} \to c \in (0, \infty)\)
  • 总体相关矩阵:\(\mathbf{R}_p\) (本文用大写粗体)。对于独立成分结构假设:\(X = \mathbf{R}_p^{1/2} Z\),其中 \(Z \in \mathbb{R}^{p \times n}\) 元素 iid,均值为0、方差为1。
  • 样本相关矩阵:\(\hat{\mathbf{R}}_p\),定义式:\(\hat{R}_{ij} = \frac{\sum_{k=1}^n (X_{ik} - \bar{X}_i)(X_{jk} - \bar{X}_j)}{\sqrt{\sum_{k=1}^n (X_{ik} - \bar{X}_i)^2 \cdot \sum_{k=1}^n (X_{jk} - \bar{X}_j)^2}}\)。它是总体相关矩阵的经验版本。
  • \(\mathbf{S}_n\):样本协方差矩阵(未归一化对角线)。
  • \(\{\lambda_i\}_{i=1}^p\)\(\hat{\mathbf{R}}_p\)的特征值。
  • 线性谱统计量(LSS):对于给定的光滑函数 \(f: \mathbb{R} \to \mathbb{R}\),定义 \(\text{LSS}_p(f) = \sum_{i=1}^p f(\lambda_i)\)
  • 经验谱分布(ESD):\(F^{\hat{\mathbf{R}}_p}(x) = \frac{1}{p} \sum_{i=1}^p \mathbf{1}\{\lambda_i \le x\}\)
  • Stieltjes 变换:\(m_F(z) = \int \frac{1}{x - z} dF(x)\),对 \(z \in \mathbb{C}^+\)(上半平面)。

  • 模型(以独立成分结构为例,是最简的):

  • 数据矩阵 \(X_{p \times n}\) 的列独立同分布,具有协方差矩阵 \(\Sigma\)(本文关心相关矩阵,令 \(D = \text{diag}(\Sigma)\),则总体相关矩阵为 \(R = D^{-1/2} \Sigma D^{-1/2}\))。
  • 假定 \(X = R^{1/2} Z\),其中 \(Z \in \mathbb{R}^{p \times n}\) 元素是 iid,均值为0、方差为1,且具有有限四阶矩 \(\kappa = \mathbb{E}[Z_{11}^4] - 3\)(峭度)。
  • 这就是 “独立成分结构”(independent component structure)。相应的,目标是 \(\hat{\mathbf{R}}_p\) 的特征值的LSS的渐近分布。

  • 可观测数据

  • 观测到的是 \(X\)(整个 \(p\times n\) 矩阵)。
  • 无法直接被观测到的东西:总体真实相关矩阵 \(\mathbf{R}_p\)(未知),未归一化的样本协方差矩阵 \(\mathbf{S}_n\)(可以算出来但中间量不出现于模型假设),以及Z元素本身(潜变量)。
  • 关键点是:样本相关矩阵在统计上可观测且唯一确定,但其理论分析需要处理对角归一化 \(\sqrt{\sum_k X_{ik}^2}\) 带来的随机性。这是它和协方差矩阵 CLT 最本质的区别。

第二步:讲最小内核——最简特例

最简特例:设总体的相关矩阵等于单位阵 (\(\mathbf{R}_p = I_p\)),即 \(X_{p \times n}\) 的行是独立、且和列独立同分布,期望为0、方差为1。并且为了极致简化,设每一个 \(X_{ik}\) 为标准正态,则峭度 \(\kappa=0\),这一步允许我们聚焦在由于“对角归一化”本身产生的新效应。

在这个特例下: - 样本相关矩阵退化为 \(\hat{R}_{ij} = \frac{\sum_{k=1}^n X_{ik} X_{jk}}{\sqrt{\sum_{k=1}^n X_{ik}^2 \cdot \sum_{k=1}^n X_{jk}^2}}\)
- 这个矩阵的谱分布不再满足 Marcenko-Pastur 定律(即协方差矩阵的经典极限)——事实上,即使在总体 \(R_p=I_p\) 下,它的极限谱分布跟样本协方差矩阵 (\(S_n = \frac{1}{n}XX^T\)) 的MP-law是不一样的。
- 本文要建立的 LSS-CLT:考虑任意光滑函数 \(f\),则 \(\text{LSS}_p(f) = \sum_{i=1}^p f(\hat{\lambda}_i)\) 的渐近分布是正态的,但其均值与方差都不同于针对 \(S_n\) 的 Bai-Silverstein CLT。这一差异完全来自对角归一化带来的“额外噪声”。

为什么?
- 对角归一化相当于先把每一行的样本方差 \(\hat{\sigma}_i^2 = \frac{1}{n}\sum_k X_{ik}^2\) 做了随机缩放。缩放的分布(卡方)虽然是一致的,但它引入了额外的、在谱分布极限上无法消去的随机性。这个随机性的影响在LSS的方差中体现为一项与 \(\kappa\)(峭度)成正比的项。即使在 \(X\) 为高斯 (\(\kappa=0\)) 时,也有有限样本效应。
- 所以这一特例的关键进步是:即使总体为白噪声,\(\hat{\mathbf{R}}_p\)的LSS-CLT与\(\mathbf{S}_n\)的LSS-CLT也并非一个平凡推广

三、这篇论文做了什么

三句话

  1. 在数据维度与样本量同步增长 (\(p/n \to c \in (0,\infty)\)) 的高维框架下,研究了样本相关矩阵线性谱统计量(LSS)的中心极限定理。
  2. 核心方法:利用 Stieltjes 变换的两步展开(先处理样本协方差矩阵再处理对角归一化),结合矩方法与随机矩阵论中的行列式恒等式及代换引理,推导出正态极限。
  3. 主要结论:在独立成分结构下,若总体相关矩阵 \(R_p\) 的谱分布收敛且具有有限四阶矩,则LSS收敛于正态;在椭圆结构下,即使总体单位阵,CLT不同(二、四阶矩影响更显著)。

关键设定与假设

基于第二节的简单记号,补充完整的设定与假设:

  • 假设1(独立成分结构, Setting A)
    \(X_{p\times n} = \mathbf{R}_p^{1/2} Z\),其中 \(Z\) 元素iid,\(\mathbb{E}Z_{11}=0, \mathbb{E}Z_{11}^2=1, \mathbb{E}Z_{11}^4 = \kappa + 3 < \infty\)\(\kappa\)为峭度)。还要求\(\mathbf{R}_p\)的谱分布弱收敛于某极限分布 \(H\)(在\([0,\infty)\)上有紧支撑),且满足常用的 “Bai-Silverstein 条件”:\(\sup_p \lambda_{\max}(\mathbf{R}_p) < \infty\)

  • 假设2(椭圆结构, Setting B)
    \(X_{p\times n} = \mathbf{R}_p^{1/2} \mathbf{Y}\),其中\(\mathbf{Y}\)的列是iid的椭圆分布的样本(即存在径向变量\(R\)、使得每列可写作\(R \cdot U\)\(U\)均匀分布于\(p\)维单位球面)。这自动蕴含\(X\)的各列具有椭球对称性,且其四阶矩由径向变量\(R\)的二、四阶矩决定。

与已有文献的对比
- 与 Bai & Silverstein (2004) 的样本协方差矩阵 LSS-CLT 相比,本文最主要强化在于证明了相关的谱统计量仍满足 CLT,但渐近方差结构因对角归一化而增加了额外项。
- 与 El Karoui (2009) 的样本相关矩阵极限谱分布相比,本文填补了 CLT 空白:El Karoui (2009) 仅给出了谱密度(MP-type),不含统计推断所需的渐近精度的理论信息(CLT)。

主要结果

讲两个最关键的定理(为便于理解,略去长篇符号,聚焦陈述直觉):

定理 2.1(独立成分结构下的 LSS-CLT)
- 陈述:在假设1下,令 \(f_1, \dots, f_k\) 为一组在紧区间上充分平滑的函数,则向量 \((\text{LSS}_p(f_1) - p \cdot \mu_1, \dots, \text{LSS}_p(f_k) - p \cdot \mu_k)\) 依分布收敛于均值为零的\(k\)维正态分布。均值项 \(\mu_j = \int f_j(x) dF_0(x)\)(其中 \(F_0\) 为相关矩阵的极限谱分布),方差结构由两种独立成分贡献的和构成:

\[\text{Cov}(\text{LSS}_p(f), \text{LSS}_p(g)) = \text{Var}_{\text{MP}}[f,g] + \kappa \cdot \text{Var}_{\text{kurt}}[f,g] + \dots\]
第一项是经典样本协方差矩阵 LSS 方差公式的“重缩放版本”,第二项含有峭度 \(\kappa\)。 - 必要条件:\(p/n \to c\)\(\sup_p \lambda_{\max}(R_p) < \infty\)。不要求四阶矩之外的更高阶矩存在。 - 解决的技术难点:对“对角归一化”的随机分母给出精确的 Stieltjes 变换展开,把表示谱统计量的矩生成函数展开到必要的阶数以得到 Central Limit.

定理 2.2(椭圆分布下的 LSS-CLT)
- 陈述:在假设2下,即使 \(R_p = I_p\),退化到白噪声情形,LSS 仍收敛于正态分布,但其渐近方差依赖于椭圆分布的径向参数(涉及第二和第四样本矩)。具体来说,方差公式中出现了峭度项(但不同于Setting A中由 \(\kappa\) 产生的项,而是由径向变量 \(R\) 的第四矩与第二矩平方的比值决定)。 - 关键差异:当总体单位阵时,协方差矩阵的 LSS 方差为零(因为特征值全为1);但相关矩阵的 LSS 方差不为零,且取决于潜在的分布形状

证明路线与技术技巧

整体路线(用3-5步逻辑主干串起来):

  1. Step 1:从LSS到迹积分的变换
    利用Stieltjes变换,对函数 \(f\) 的 LSS 可以写成 \(\sum_i f(\hat{\lambda}_i) = \frac{1}{2\pi i} \oint f(z) \text{tr}[(\hat{R}_p - zI)^{-1}] dz\)(复围道积分)。于是将问题化为对矩矩阵(resolvent)\(Q(z) = (\hat{R}_p - zI)^{-1}\) 的迹研究。

  2. Step 2:解耦对角归一化
    关键在于:样本相关矩阵 \(\hat{R}_p\) 和样本协方差矩阵 \(S_n\) 相关,但非简单缩放。证明中引入辅助矩阵\(\hat{T}_p\)(称为“对角标准化协方差矩阵”),其满足 \(\hat{R}_p = D^{-1/2} S_n D^{-1/2}\),其中 \(D = \text{diag}(S_n)\)(近似对角缩放)。于是 \(\hat{R}_p\) 可写为 \(S_n\) 经过一个随机矩阵 \(D\) 的“scaled”。然后对 \(Q(z)\) 进行迈尔(Meyer)型展开,把 \(D\) 的随机性展开成关于 \(S_n\) 的递推修正。

  3. Step 3:计算Stieltjes变换的渐近展开
    \(Q(z)\)的迹采用“leave-one-out”技巧,每一列被剔出后,剩下的矩阵谱结构易分析。利用随机矩阵的鞅差序列中心极限定理(Bai–Silverstein 方法):将\(\text{tr}Q(z)\)分解成鞅差和,再验证每个鞅差的Lindeberg条件和渐近正态性。

  4. Step 4:处理峭度项
    由于相关矩阵的对角归一化涉及样本方差,Stieltjes变换的二次型项中会出现\(\sum_k X_{ik}^2 X_{jk}^2\)等乘积。这些乘积的期望产生与四阶矩相关的项(即\(\kappa\)),并最终贡献到CLT的方差公式中。

  5. Step 5:从一维Stieltjes CLT反收LSS CLT
    由于LSS是Stieltjes变换加权积分的一类极限,通过围道积分把上述Stieltjes变换的CLT转译为函数 \(f\) 的CLT。

关键跳跃点: - 最吃功夫的引理:证明中对所有i, j的“局部四阶矩”进行控制时,需要证明对角归一化的随机分母导致的依赖不会破坏鞅差序列的中心极限条件。化解方法:利用无偏样本方差可写为秩-1扰动的形式(Jackknife expressing),得以应用known formulae(Cramér–Wold device + 矩收敛定理)。 - 对重尾分布的霸凌:在椭圆设定下,径向变量\(R\)可能没有四阶矩,证明改用二阶矩并结合“椭圆分布的边缘性质”——这种处理方式摆脱了对有限四阶矩的依赖(因为引入的额外消失项可以用\(R\)的分布特定的约束)。

技术技巧点名: - Stieltjes变换 + 复围道积分(标准、核心) - 鞅差序列中心极限定理(Bai–Silverstein approach) - leave-one-out 去耦(用于解耦随机分母) - 对角归一化的“辅助矩阵”代换(把\(\hat{R}_p\)写成\(\text{diag}(S_n)^{-1/2} S_n \text{diag}(S_n)^{-1/2}\)) - 矩方法的代换引理(以\(tr[(S_n的multiplied version)-zI]^{-1}\)的形式进行解析展开)

真实例子与应用

本文的结尾提供了一个应用(第4节): - 使用的数据/场景:模拟实验。生成高斯数据和椭圆分布数据(后者有厚尾)。样本量\(n=200\),维度从\(p=100\)\(500\)(覆盖不同的\(c\)值),总体相关矩阵分别设置为:(a) 对角单位阵;(b) 带有块结构的非对角阵。 - 如何用:给定上述两个设定,计算样本相关矩阵的LSS(例如使用二次型函数 \(f(x) = x^2\) 对应于 \(\sum_i \hat{\lambda}_i^2\),即“总方差”),并使用本文的CLT对测试“总体相关矩阵为单位阵”构造拒绝域。比较经验拒绝率与理论名义水平。 - 结果:在单位阵假设下,基于CLT的检验在独立成分结构下正确控制I类错误;在厚尾的椭圆设定下,如果用错设定A的CLT公式,会产生严重偏差,而使用设定B的公式可还原正确水平。这印证了两种CLT公式不能混用。 - 该例子要说明:从实践角度说明“必须正确区分总体结构”——仅仅给一个样本相关矩阵,若要检验结构,必须先估算出四阶矩信息(峭度),否则CLT公式的选择会直接导致推论错误。

🔎 结论是否比证明窄

有。作者在定理陈述中要求函数 \(f\) 属于“足够光滑的函数族”(主要是解析函数或至少在特征值支撑集上三阶连续可导),但在实际应用中,一些分段连续函数(如指示函数 \(f(x) = \textbf{1}\{x \in A\}\))所定义的“经验谱分布本身”的CLT是否成立,文中未证明。结论的正式适用范围(即“哪些\(f\)允许”)在证明中由解析延拓给出边界——指出对于非光滑\(f\),该CLT是否成立尚待研究(见第3.2节末“值得一提的是,本文的证明要求函数\(f\)在谱支撑集上具有充分光滑性;对于阶跃函数,LSS即ESD本身,其CLT仍需单独论证”)。

四、开放问题

  1. 对非光滑 \(f\) 的 CLT:当 \(f\) 为不连续函数(如指示函数)时,ESD的CLT是否成立?该问题在本文第3.2节末尾直接标注为未解决。此为可扎根的具体缺口。

  2. 已知总体相关结构下的最优检验:虽然本文提供了两种结构下的CLT公式,但在实际应用中,研究者需对前言(Section 1)中提到的总体相关矩阵结构做高维假设检验。作者仅展示了例子,但没有推导这类检验的渐近势(power)或minimax最优性。这自然开启一个可量化的问题:在\(p/n \to c\)下,基于LSS的检验是否在简化尖点相关的类别中达到最优功率?

  3. 扩展到相关矩阵的“伪逆”或广义逆的LSS:许多高维相关矩阵是奇异的(当\(p>n\)时秩小于\(p\)),此时正规\(LSS\)定义失效需要取Moore-Penrose伪逆对应的谱统计量。本文未触及这一状况。该问题扎根于论文的“谱半径的假设条件”(要求特征值支撑远离0,因而本文不适用于奇异情形)。

  4. 计算成本与闭式公式的简洁:尽管LSS-CLT已有解析形式,公式计算包含Stieltjes变换的逆积分,在实际检验中可能不够高效。能否设计出直接、可闭式表达且易于计算的近似方差公式?这是一个计算统计与实际应用的开放议题,扎根在本文第4节的参数估计简化尝试中。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论