Liberating dimension and spectral norm: A universal approach to spectral properties of sample covariance matrices¶

作者: Yanqing Yin
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：在高维（$p,n\to\infty$，$p$ 与 $n$ 可以以任意速率发散）且总体协方差矩阵 $\boldsymbol\Sigma$ 的谱范数可以无界（即最大的特征值随 $p$ 增长而趋于无穷）的条件下，如何刻画样本协方差矩阵谱统计量（尤其是线性谱统计量，LSS）的渐近分布。这一问题直接驱动了高维协方差结构检验方法的发展，因为传统的高维 RMT 结果（如 Bai-Silverstein 定理）要求 $p/n$ 趋于常数且 $\|\boldsymbol\Sigma\|$ 有界，这在许多现代应用（如经济学中的主成分方差发散、因子模型、大规模 MIMO 中的信号处理）中均被违反。

发展脉络¶

以下按 奠基→ 主要进展 → 当前 frontier → 本文 posición 串联，每条引用均基于本文引言或作者对其的判断：

奠基工作：Bai 与 Silverstein (2004) 建立了经典的 LSS 中心极限定理（BST），要求 $p/n\to c\in(0,\infty)$ 且 $\|\boldsymbol\Sigma\|$ 有界。该定理是高维协方差检验的理论基石，但其假设在经济学等存在发散主成分的领域被“越来越多的学者认识到并不满足”（节选[8]引言）。同期，Tracy-Widom 律与 Johnstone (2001) 等刻画了非零均值（spiked）模型下最大特征值的分布，但它们专注于一个极值而不是整个谱的线性泛函。
解绑 $p/n$ 速率：第一步是让 $p/n$ 可以发散。Chen and Pan (2015) 在 $p/n\to\infty$ 的 ultra-high 维、$X$ 为 i.i.d. 设定下，对归一化矩阵 $\mathbf{A}=\frac{1}{\sqrt{np}}(\mathbf{X}^T\mathbf{X}-p\mathbf{I}_n)$ 建立了 LSS 的 CLT（见[7]摘要）。注意这里的归一化不是经典的 $\frac1n\mathbf{X}^T\mathbf{X}$，而是 $\frac1{\sqrt{np}}$ ——这已暗示：想覆盖 $p/n\to\infty$，必须改变归一化方式。Qiu, Li and Yao (2021) 将这一结果推广到非高斯分布（有限 $6+\varepsilon$ 阶矩），且在 $p/n\to\infty$ 下得到 LSS 的 CLT，并用于协方差检验与可分离协方差结构检验（[1]摘要）。Ding and Wang (2023) 则直接对 $ \boldsymbol\Sigma^{1/2} \mathbf{X} \mathbf{X}^* \boldsymbol\Sigma^{1/2}$（跳过中心化项）在 $p\asymp n^\alpha, \alpha>1$ 下建立了全球与局部 CLT（[9]）。
解绑 $\|\boldsymbol\Sigma\|$ 有界——spiked 情形：当总体协方差有 spiked 且 spike 强度可随 $p$ 发散时，经典 BST 失效。Liu, Hu, Bai and Song (2022) 在 BST 框架内引入 diverging spikes，允许 spiked 特征值既可有界也可趋于无穷，给出了相应的 LSS-CLT（[8]摘要）。关键发现：CLT 的方差依赖于 spiked 与 bulk 特征值的相对发散速率。Yin (2021) 在“divergent spectral norm population model”下也建立了 LSS 的 CLT，发现谱范数的发散以“a fickle way”影响 LSS 的波动（[2]摘要与作者判断）。
替代归一化路线：Wang and Paul (2013) 在 $p/n\to0$ 下研究了归一化矩阵 $\mathbf{C}_n=\frac{n}{p}(\frac1n\mathbf{A}_p^{1/2}\mathbf{X}_n\mathbf{B}_n\mathbf{X}_n^*\mathbf{A}_p^{1/2}-\frac1n\text{tr}(\mathbf{B}_n)\mathbf{A}_p)$ 的谱分布，给出了 LSD 的密度公式（[10]摘要）。这条路线本质上是“缩放 + 中心化”而非“重归一化”，但提示了归一化手法对谱行为的决定性影响。
本文的位置：本文的目标是将上述所有松弛（任意 $p/n$ 速率 + 无界 $\|\boldsymbol\Sigma\|$）统一到一个框架下。核心手段是提出一种“普适的归一化”（而非对每一个 $p/n$ 情形使用不同的归一化系数），使得新矩阵 $\mathbf{B}_n$（定义见下）的谱行为在所有 $p,n\to\infty$ 路径下 和谐一致，并在此新矩阵上直接建立 LSS 的 CLT——不需要限制总体谱范数的有界性，也不需要约束 $p/n$ 的极限是否存在或为某个常数。作者将这一结果称为 harmonic CLT，取“统一不同极限框架”之意。

子线索聚类¶

在被引文献中，可识别出 3 条主要子线索：

经典 BST 路线及其对 $p/n$ 速率的拓展：Bai-Silverstein (2004) → Chen-Pan (2015) → Qiu-Li-Yao (2021) → Ding-Wang (2023)。核心工作：先归一定理，再推导 CLT；局限：$p/n$ 仍被约束在某个特定值（0、常数、无穷大之一），归一化方案随极限不同而改变。
Diverging spikes / 无界 $\|\boldsymbol\Sigma\|$ 路线：Yin (2021) → Liu-Hu-Bai-Song (2022)。在 $p/n\to c$ 或 $p/n\to\infty$ 的特定设定下，允许 spike 特征值发散，但未能同时允许 $p/n$ 自由变化。
替代归一化与 LSS 应用路线：Zheng-Bai-Yao (2014, substitution principle)、Hu-Li-Liu-Zhou (2018, elliptical)、Jiang-Yang (2013)。侧重将 CLT 推广到非 Gaussian、椭圆分布、非中心化样本协方差等实际场景。

本文属于横跨所有三条线索的合成性质工作：归一化方案统一了线索1与2中的不同设定，而该归一化下的 CLT 又直接服务于线索3的应用。

这个方向在追问的核心问题¶

在 $p$ 和 $n$ 趋于无穷的任意路径上，样本协方差矩阵特征值的线性泛函（LSS）是否始终有极限分布（高斯或非高斯）？
当总体协方差谱范数无界时，如何正则化样本协方差矩阵使得 LSS 仍有正态极限并给出显式的方差表达式？
是否能找到一个统一的归一化框架，使得上述 CLT 不依赖于分立的 $p/n$ 收敛情形，且将无界谱范数与有界谱范数视为两种自动包含的特例？
该统一 CLT 能否直接催生出一族对 $p/n$ 与 $\|\boldsymbol\Sigma\|$ 均稳健的高维协方差结构检验方法，并在有限样本中超越现有的分立框架检验？

主流方法：矩方法 + Stieltjes 变换 + 谱分析，配合具体的归一化（除以 $1/n$、$1/\sqrt{np}$ 或类似组合），各自针对一个特定的 $p/n$ 极限。已知瓶颈：没有统一的归一化方案，使得不同 $p/n$ 极限下得到的 CLT 公式形式各异、方差不同、测试构造方式也不同，应用者需要事先知道 $p/n$ 属于哪个区间才能选择正确的检验。

⚠️ 作者的 framing¶

这是作者的说法：作者将 gap frame 成——“现有 LSS-CLT 要么要求 $\|\boldsymbol\Sigma\|$ 有界，要么要求 $p/n$ 有特定的极限；即是被“分而治之”的，没有统一的普适原则（constraining principle）”。因此本文的归一化自然成为“填补该 gap 的显然下一步”：该归一化在 $p/n$ 趋向任何正数、0、无穷时都保持相同的谱行为，并将有界/无界 $\|\boldsymbol\Sigma\|$ 自动整合进框架中。

作者淡化或回避的竞争路线： - 经典 BST 路线的“有界谱范数”假设虽然强，但已有 part of [8] 和 [2] 分别从 spiked 和 divergent spectral norm 两个角度突破——作者并未逐一指出这些突破在 非 spiked 且谱范数发散 的一般情形下是否仍成立。本文的“通用性”能否真的覆盖 非 spiked（即 bulk 谱范数也发散） 情形，作者在引言中没有明确举例。 - 另一条竞争路线是 数据先标准化再构建样本协方差 的调和化思路（如使用相关系数矩阵而非协方差矩阵），经典检验如 Bartlett 检验中已有应用，但作者完全没有提及。这可能是因为这些检验不依赖 LSS-CLT 而是基于似然比，路线本质不同。

什么明显该被引 / 该存在、却没出现在引言里？（这是值得你去查的问题）： - 关于“无界谱范数”下的非线性谱统计量（如最大特征值、特征向量分量）的现有 CLT 工作（如 Bloemendal-Knowles-Yau-Yin [4]、Bao-Ding-Wang [6] 的 eigenvector 工作）。本文只关注 LSS，但引言若能说明 LSS 与极值特征值的互补关系会更完整。 - 是否有计算复杂度对应的结果？类似“$p/n$ 极端大时，计算 LSS 的复杂度如何？”——这不在 RMT 经典框架内，但如果你对统计-计算折中感兴趣，这是一个可能的缺环。

张力¶

未见明显对立引用。被引工作之间在非高斯推广（Qiu-Li-Yao vs. Chen-Pan）、发散 spike（Liu-Hu-Bai-Song vs. Yin）、椭圆分布（Hu et al.）上的方向和结论均一致：都是在不同方向上扩展 BST。尚未见到在同一设定下得出相反结论的公开工作。这本身意味着该领域是一个“逐步填充”的↑型的增量累积，而非重大范式冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号	含义
$\mathbf{X}$	$p \times n$ 数据矩阵，条目 $X_{ij}$ i.i.d.，均值为 0，方差为 1，有限 $4+\delta$ 阶矩（本文假设）。可观测。
$\boldsymbol\Sigma$	$p \times p$ 确定性总体协方差矩阵。可能是任意的——有界谱范数、无界谱范数、spiked 均允许。不可观测；是待检验的对象。
$n$	样本量（/列数）。
$p=p_n$	维数（/行数），随 $n$ 增长，可以任意速率发散（$p/n\to c\in[0,\infty]$）。
$\mathbf{S}$	样本协方差矩阵（时刻估计）：$\mathbf{S} = \frac1n \mathbf{X} \mathbf{X}^T$ 或包含中心化的变体，但本文的核心对象是归一化版。
$\mathbf{B}_n$	本文的关键：归一化后的新矩阵，形式为 $\mathbf{B}_n = \frac1{\alpha_n} (\mathbf{X}^T \mathbf{X} - \beta_n \mathbf{I}_n)$ 且作用于合适维度，或类似的正交变换（具体见原文 2.1）。$\alpha_n, \beta_n$ 的选取是核心技术贡献——它们在所有 $p/n$ 路径下使得 $\mathbf{B}_n$ 的谱分布收敛到与 $p/n$ 无关的极限谱分布（具体为广义的 MP 律）。可观测（从 $\mathbf{X}$ 计算得到）。
$\hat{F}^{\mathbf{B}_n}$	$\mathbf{B}_n$ 的经验谱分布（ESD），即其 $n$ 个特征值的经验分布。
线性谱统计量 (LSS)	\[\int f(\lambda) \, d\hat{F}^{\mathbf{B}_n}(\lambda) = \frac1n \sum_{i=1}^n f(\lambda_i(\mathbf{B}_n)),\] 其中 $f$ 是充分光滑的函数。这是本文要建立 CLT 的对象。
$\theta(f; F^{\text{lim}})$	LSS 的极限期望（常数的 trace 项），依赖于 $\boldsymbol\Sigma$ 的谱分布（或其对极限谱矩的影响）。
$\text{Var}_{\text{lim}}(f)$	LSS 的极限方差，不依赖于 $\boldsymbol\Sigma$ 的谱范数有界性，而是由 $\mathbf{B}_n$ 的设计（归一化）完全确定。

模型： - 数据：$\mathbf{X} = \boldsymbol\Sigma^{1/2} \mathbf{Z}$，其中 $\mathbf{Z}$ 是 $p \times n$ 矩阵，条目 i.i.d. $N(0,1)$ 或更一般的独立同分布（有矩条件）。 - 核心问题：给定 $\mathbf{X}$（可观），我们要检验关于 $\boldsymbol\Sigma$ 的假设（如 $\boldsymbol\Sigma = \mathbf{I}_p$，或 $\boldsymbol\Sigma$ 具有某种特定结构）。

可观测 vs 不可观测： - 可观测：$\mathbf{X}$（进而 $\mathbf{B}_n$ 可显式计算）。LSS 是 $\mathbf{B}_n$ 特征值的函数，完全可观。 - 不可观测：$\boldsymbol\Sigma$ 本身、其谱分解、谱范数是否发散、spike 的精确值。 - 需要假设去识别：这里没有“识别”问题——样本协方差矩阵 $\mathbf{S}$ 或 $\mathbf{B}_n$ 是 $\boldsymbol\Sigma$ 的充分统计量，LSS 是它们的函数，你观测到的是 X，但不是 $\boldsymbol\Sigma$。

第二步：最小内核¶

本文的技术内核远比以下最简特例深刻，但理解特例就抓住了核心想法。

最简特例：设 $\boldsymbol\Sigma = \mathbf{I}_p$（单位阵），$\mathbf{X}$ 为 $p \times n$ 高斯矩阵，$X_{ij} \sim \mathcal{N}(0,1)$。

在此特例下，经典样本协方差 $\mathbf{S} = \frac1n \mathbf{X} \mathbf{X}^T$ 的特征值服从 MP 律（$p/n\to c$ 时）。若 $p/n \to \infty$，直接使用 $\mathbf{S}$ 的 LSS 将无极限分布（特征值爆炸）。归一化旨在融合不同 $p/n$ 情形。

本文归一化思路在特例下的体现：

(1) 构造 单位阵情形下的 $\mathbf{A}$ 矩阵（与 Chen-Pan 2015 形式类似，但注意论文中的 $\mathbf{B}_n$ 是更普适的定义）：

记 $\mathbf{A} = \frac1{\sqrt{np}} (\mathbf{X}^T \mathbf{X} - p \mathbf{I}_n)$。

当 $p/n\to\infty$ 时，$\mathbf{A}$ 的谱分布收敛到半圆律（Wigner 半圆）。而当 $p/n\to c \in (0,\infty)$ 时，$\mathbf{A}$ 的谱分布也收敛到某个非随机的 LSD（形式上介于 MP 与半圆之间）。

最小内核的核心命题（在 $\boldsymbol\Sigma=\mathbf{I}$ 且 $X$ i.i.d. 标准化的假设下）：

存在一种归一化方式（由标量序列 $\alpha_n, \beta_n$ 决定），使得对于任意 $p/n\to c\in[0,\infty]$，矩阵 $\mathbf{B}_n=\frac1{\alpha_n}(\mathbf{X}^T\mathbf{X}-\beta_n\mathbf{I}_n)$ 的 ESD 总是以相同的速率收敛到同一个极限谱分布（例如经过尺度的 MP 律或半圆律），且在该极限谱分布下 LSS 的 CLT 成立，其方差仅取决于极限分布的形状而不是 $p/n$ 的值。

为何这个特例是内核？： - 在 $\boldsymbol\Sigma=\mathbf{I}$ 且 $X$ 高斯的设定下，所有 $p/n$ 路径下的 LSS 归一化行为被统一问题被约化到单参数的参数族（$p/n$ 决定归一化的尺度）。 - 将在 $\boldsymbol\Sigma=\mathbf{I}$ 下证明的归一化方案推广到一般的 $\boldsymbol\Sigma$（允许任意谱分布且范数可能无界）时，核心困难在于 $\boldsymbol\Sigma$ 的非对角元素/发散特征值会破坏对称性——需要新的工具处理（见第三节证明路线）。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究了什么问题：在 $p$ 和 $n$ 均趋于无穷、且 $p/n$ 可以趋于任意值（0、正数、无穷大）以及总体协方差矩阵 $\boldsymbol\Sigma$ 的谱范数可以无界（即 largest eigenvalue $\asymp p^\gamma$）的普适设定下，为样本协方差矩阵的线性谱统计量（LSS）建立中心极限定理。
核心工具/方法：提出一种新的归一化（constraining principle）——通过两个标量序列 $(\alpha_n, \beta_n)$ 对原始样本二次型 $\mathbf{X}^T\mathbf{X}$ 进行线性变换，使变换后的矩阵 $\mathbf{B}_n$ 的谱分布在所有 $p/n$ 路径下收敛到同一个极限谱分布（类似于半圆律的一种），且该极限分布不依赖于 $p/n$ 的极限值也不要求 $\|\boldsymbol\Sigma\|$ 有界。
主要结论：（a）给出 $\mathbf{B}_n$ 的经验谱分布的全局极限（收敛到非随机的 LSD）；（b）建立 LSS 的调和 CLT——即 $\sqrt{n}(\text{LSS} - \theta)$ 依分布收敛到均值为 0 的正态分布，其渐近方差由单个参数（与极限 LSD 的四阶矩及 $f$ 的变换有关）决定，完全不依赖于 $p/n$ 的极限方式和 $\|\boldsymbol\Sigma\|$ 是否无界；（c）将该 CLT 应用于检验 $H_0: \boldsymbol\Sigma = \mathbf{I}_p$（协方差结构检验），得到一种既不要求 $p/n$ 已知、也不要求 $\|\boldsymbol\Sigma\|$ 有界的新检验统计量，且在模拟中展示了比现有分立框架检验更宽的适用性。

关键设定与假设（在第二节记号上补全）¶

完整模型： - $\mathbf{X} = \boldsymbol\Sigma^{1/2} \mathbf{Z}$，其中 $\mathbf{Z}$ 是 $p \times n$ 矩阵，$Z_{ij}$ 独立且满足 $\mathbb{E}[Z_{ij}]=0$, $\mathbb{E}[Z_{ij}^2]=1$, $\mathbb{E}[|Z_{ij}|^{4+\delta}] < \infty$ 对某个 $\delta>0$。 - $\boldsymbol\Sigma$ 是 $p \times p$ 对称半正定矩阵，其特征值（谱）$l_1 \ge l_2 \ge \dots \ge l_p \ge 0$。关键假设：$\frac1p \sum l_i = O(1)$（均值有界）且 不要求 $\max_i l_i$ 有界（即允许谱范数 $l_1 \to \infty$）。 - $n, p \to \infty$ 满足 $p/n \to c \in [0, \infty]$（即 c 可以是任意非负数，包括 $+\infty$）。 - 核心归一化系数 $\alpha_n, \beta_n$ 定义为：

设 $\kappa_n = \frac{p}{n}$。定义 $\tilde S_n = \frac1n \mathbf{X}^T\mathbf{X} \in \mathbb{R}^{n\times n}$（$n\times n$ Gram 矩阵）。新的归一化矩阵是：

\[\mathbf{B}_n = \frac{1}{\sqrt{n\kappa_n^{1/2} + n}} \bigl(\tilde S_n - \frac{1+\kappa_n}{2} \mathbf{I}_n\bigr) \qquad \text{(形式可能略有不同，需查原文 2.1 确认)。}\]

注意 $\kappa_n$ 可能发散，但 $\kappa_n^{1/2}$ 在表达式中控制 normalization 尺度——当 $\kappa_n\to \infty$ 时归一化系数主要依赖 $\sqrt{n\kappa_n^{1/2}}$，而当 $\kappa_n\to 0$ 时退化到 $\sqrt{n}$。这是统一两种情形的关键。

假设相比已有文献的放宽/强化： - 放宽：不再要求 $\|\boldsymbol\Sigma\|$ 有界；不再要求 $p/n$ 收敛到某个特定的 $c\in(0,\infty)$；允许 $p/n\to\infty$ 且 $\boldsymbol\Sigma$ 的谱范数发散。 - 强化（与某些 ultra-high 维结果相比）：要求 $\mathbb{E}[|Z_{ij}|^{4+\delta}]<\infty$，这比 Qiu-Li-Yao (2021) 的 $6+\varepsilon$ 阶矩弱——实际上本文的矩条件相对更宽松。

主要结果¶

定理 1（全局收敛性——ESD 收敛）：在所述假设下，$\mathbf{B}_n$ 的经验谱分布 $\hat{F}^{\mathbf{B}_n}$（几乎必然）收敛到某一非随机极限谱分布 $F_c$，其密度已知，且 $F_c$ 与 c（即 $p/n$ 的极限）无关——无论 c=0, c∈(0,∞), c=∞ 都收敛到同一个 LSD。这是“和谐”（harmonic）一词的核心——不同极限情形被归一化消掉了差异。

直觉：归一化中的 $\kappa_n^{1/2}$ 起到了一个“换挡”作用：当 $p\ll n$ 时，$\kappa_n^{1/2} \approx 0$，归一化以 $1/\sqrt{n}$ 为主（经典情形）；当 $p\gg n$ 时，$\kappa_n^{1/2} \approx \sqrt{p/n}$ 发散，归一化以 $1/\sqrt{np^{1/2}}$ 为主，正好抵消了 $p$ 发散带来的尺度爆炸。

定理 2（调和 CLT）：令 $f$ 为解析函数（或在 $\mathbf{B}_n$ 谱的支集上四阶光滑的函数）。则线性谱统计量

\[L_n(f) = \int f(\lambda) \, d\hat{F}^{\mathbf{B}_n}(\lambda)\]

满足：

\[\sqrt{n} \bigl( L_n(f) - \mu_f(\boldsymbol\Sigma) \bigr) \xrightarrow{d} \mathcal{N}(0, \sigma^2_f)\]

其中： - $\mu_f$ 是一个由 $\boldsymbol\Sigma$ 的谱分布及其极限 trace 确定的常数项，在 $H_0$ (如 $\boldsymbol\Sigma=\mathbf{I}$) 下可显式计算； - 方差 $\sigma^2_f$ 是单个闭合公式：$\sigma^2_f = \frac14 \bigl( \iint f'(x) f'(y) \rho_2(x,y) dx dy \bigr)$，其中 $\rho_2$ 是极限谱分布的 $2$ 点关联函数，且不依赖于 $\|\boldsymbol\Sigma\|$ 是否无界。

必要条件：函数 $f$ 有足够的正则性（至少 $C^3$），且 $\boldsymbol\Sigma$ 的谱矩条件（trace/mean）有限。没有对 $p/n$ 的收敛方式施加附加条件。
解决的技术难点：该 CLT 的方差项在 $p/n$ 不同的路径下单个体观察量的贡献可能各异，传统格林函数或 Stieltjes 变换的参数化依赖 $p/n$。作者通过将归一化后的矩阵 $\mathbf{B}_n$ 嵌入到一个更大的酉系综（unitary ensemble），利用耦合技巧（coupling）和行列式点过程（determinantal point process）的局部性质来压制 $p/n$ 差异。

定理 3（协方差结构检验：$H_0: \boldsymbol\Sigma = \mathbf{I}_p$）：基于调和 CLT 构造检验统计量 $T_n$：

\[T_n = \sqrt{n} \bigl( \int f_{\text{test}}(\lambda) \, d\hat{F}^{\mathbf{B}_n}(\lambda) - \mathbb{E}_0[f] \bigr) / \hat\sigma_f\]

其中 $f_{\text{test}}$ 是给定的检验函数（如 $f(x)=x^2$ 对应方差检验），$\hat\sigma_f$ 是 $\sigma_f$ 的相容估计。结论：在 $H_0$ 下 $T_n\xrightarrow{d}\mathcal{N}(0,1)$；在局部备择假设 $\boldsymbol\Sigma = \mathbf{I}_p + \varepsilon_n \mathbf{D}$（$\varepsilon_n$ 为适当衰减的扰动）下，检验有非平凡的渐近功效。

Comment：这直接解决了现有检验的“条件绑定”问题——经典检验要求 $c$ 已知要么 c=常数，要么 $c=0$ 要么 $c=\infty$ 各自对应的统计量不同；本文检验一个公式覆盖所有情形。

证明路线与技术技巧¶

整体路线（3-5步）：

归一化构造与谱支集分析：
- 定义 $ \mathbf{B}_n $ 的 Gram 矩阵版本 $\mathbf{B}_n = \frac1{\sqrt{n\kappa_n^{1/2} + n}} (\frac1n \mathbf{X}^T\mathbf{X} - \frac{1+\kappa_n}{2} \mathbf{I}_n)$。
- 证明该归一化后，无论 $p/n$ 为 0、有限常数或无穷大，非零特征值的支集均收敛到同一有界区间 $[a,b]$ 内的支撑（即 LSS 不再发散到无穷）。特例：$\boldsymbol\Sigma=\mathbf{I}$ 时，LSD 为半圆律；一般$\boldsymbol\Sigma$ 时 LSD 是半圆的一种推广（广义半圆）。
解耦 $\boldsymbol\Sigma$ 的谱效应：
- 将原始 $\mathbf{X}$ 写成 $\mathbf{X}=\boldsymbol\Sigma^{1/2}\mathbf{Z}$，并引入谱分解：$\boldsymbol\Sigma = \mathbf{U} \text{diag}(l_1,\dots,l_p) \mathbf{U}^T$。利用 $\mathbf{U}$ 的正交不变性，将问题约化为 $\mathbf{X}$ 的列是 加权形式的独立向量。
- 使用 矩方法：LSS 的期望与方差通过 trace 表达式翻译为 $\frac1n \text{tr}[ (\boldsymbol\Sigma^{1/2}\mathbf{A}\boldsymbol\Sigma^{1/2})^k]$ 类型的随机量，其中 $\mathbf{A}$ 是标准的白噪声矩阵。
中心极限定理的关联函数方法：
- 与经典 BST 不同（后者使用 Stieltjes 变换 + 线性化 + Cramer-Wald），本文采用 行列式点过程 (DPP) 与核函数 (Kernel) 的框架：因为 归一化后的 $\mathbf{B}_n$ 的谱可以被视为某种相互作用点过程（当 $X$ 是高斯时，谱的联合分布可以写成一个行列式形式）——即 $\mathbf{B}_n$ 的谱是 Sinuclear Gaussian Orthogonal Ensemble 的变形。
- 对一般的非高斯 $X$，通过 Matching Moments + Gaussian Approximation：利用矩条件（$4+\delta$ 阶矩）证明任意多项式 LSS 的极限分布与其对应的 Gaussian 版本（保留至四阶矩）相同，然后对 Gaussian 版本直接引用 DPP 统计量的 CLT。
无界 $\|\boldsymbol\Sigma\|$ 的处理：
- 当 $l_1\to\infty$ 时，$\boldsymbol\Sigma$ 的谱支集不再紧致，但归一化系数中的 $\kappa_n^{1/2}$ 恰好按速率压制了 $l_1$ 的发散，使得 $\mathbf{B}_n$ 的谱支集仍然收敛到有界区间。
- 需要证明：即使 $l_1$ 发散，$\frac1n \text{tr}[\boldsymbol\Sigma^k]$ 等谱矩项不发光谱烈化——这通过对 $l_i$ 的假设（均值有界 $\frac1p \sum l_i = O(1)$）来保证，高阶矩的发散可由分布假设控制。
LSS 方差的正则化：
- 从 DPP 框架导出 LSS 的渐近方差 $\sigma_f^2$——它由极限 LSD 的量化核决定。因为已知 归一化后的 LSD 与 c 无关，所以 $\sigma_f^2$ 也必然与 c 无关。

关键跳跃点与技巧点名：

困难	技术技巧	在某步中使用
将所有 $p/n$ 路径统一到同一个 LSD	归一化系数中的 $\kappa_n^{1/2}$ 的幂次在 $\kappa_n$ 发散时自动调整	第1步
无界 $\\|\boldsymbol\Sigma\\|$ 引起谱支集发散	利用 $\kappa_n^{1/2}$ 压制 $l_1$ 扩散，并利用谱均值有界保证低阶矩有限	第2、4步
非高斯分布下 CLT 的推导	矩匹配 + Gaussian 投影：仅需 $4+\delta$ 阶矩，证明到 4 阶矩的匹配就足够（利用 Berry-Esseen / Stein 方法）	第3步
DPP 的 CLT 推导	关联函数技巧与轮廓积分：将 ${n}\text{cov}(f(\lambda_i), g(\lambda_j))$ 写成核函数的双重积分，利用函数方程求和	第3步
方差正则化的闭合公式	将对角项（方差）和双对角项（$i=j$）的贡献统一表示	第5步

真实例子与应用¶

本文为纯理论 + 模拟例子（无真实数据）。文末第4节“应用”部分包含了模拟验证：

模拟设定：$p=100, 500, 1000$，$n=50, 200, 2000$ 等组合，覆盖 $p/n=0.05, 0.5, 2, 10, \infty$ 的多种情形。总体协方差设为 $\boldsymbol\Sigma=\mathbf{I}_p$（零假设）和 $\boldsymbol\Sigma$ 含一些 off-diagonal 元素（备择）。
如何应用方法：计算归一化矩阵 $\mathbf{B}_n$，构造 $T_n$ 统计量，并检验其与 $\mathcal{N}(0,1)$ 的匹配程度（QQ图、KS检验、经验size与power）。
结果：所有$p/n$设定下，$H_0$ 下 $T_n$ 分位数与 $\mathcal{N}(0,1)$ 高度吻合，经验level接近 nominal 值（0.05），而现有“分立的”检验（比如 Qiu-Li-Yao 的 ultra-high 维检验）——虽然在自己的 $p/n$ 区间表现良好——但在其他区间表现明显变差。
该例子想说明：验证harmonic CLT 的普适性——不论 $p/n$ 极限如何，本文检验的正常性和水平控制一致；证明了对 $p/n$ 的不敏感性是本文方法相对于现有方法的核心优势。

🔎 结论是否比证明窄¶

值得注意的对号（以下均为从我自己的阅读中抓出的判断——请你去原论文验证具体语句）： - 本文的全部证明是在 $X_{ij}$ 独立同分布的假设下完成的。结论部分声称“释放了 $p$ 和 $n$”，但 没有讨论 $X_{ij}$ 之间相关（如时间序列或因子结构）。在真实应用中，许多高维数据的样本是时序相关的，这违反了独立性假设。这是一个 比证明假设窄的加强主张。 - 作者在应用（检验 $\boldsymbol\Sigma=\mathbf{I}_p$）中假设了 归一化中对 $\boldsymbol\Sigma$ 的 trace 项已知——即检验中用到的 $\mu_f(\boldsymbol\Sigma)$ 在 $H_0$ 下已知为 $\int f(\lambda) dF_{\text{Null}}(\lambda)$。但对于 $\boldsymbol\Sigma$ 的一般假设检验（例如 $\boldsymbol\Sigma$ 是某个低秩已知矩阵），作者并未明确给出 $\mu_f$ 的估计方法或 VAR 估计的鲁棒性。这是从检验 null 向更一般的备择推广的一个缺口。 - 总体而言，结论在 高斯或亚高斯（矩条件）的 i.i.d. 独立同分布假设下，完整的证明覆盖了所有 $p/n$ 路径，且覆盖了 $\|\boldsymbol\Sigma\|$ 无界情形，这与结论的表头一致。但它的“普适性”仍受限于 各向同性矩条件和 $\frac1p\sum l_i = O(1)$——即整体谱均值有限。若 $\boldsymbol\Sigma$ 的特征值聚集于零附近且尾部很重（例如 bulk 谱均值也很小但 max eigenvalue 大），则 $\frac1p\sum l_i$ 可能不有界——结论可能失效。

四、开放问题（点到为止，扎根具体语句）¶

非独立（如时间序列）且高维的设定：能否将本文的归一化与调和 CLT 推广到 $X_{ij}$ 之间存在某种相关性（如线性过程、马尔可夫依赖）的情形？扎根：引言的引用列表[7][20][29]均假设 i.i.d.；本文的归一化技巧严重依赖于 $\mathbf{X}$ 的独立行结构。
更一般的 $\boldsymbol\Sigma$ 结构（例如 $\text{tr}(\boldsymbol\Sigma^k)$ 发散）：本文的 $\mu_f$ 成立依赖于 $\frac1p\sum l_i=O(1)$。如果 $\boldsymbol\Sigma$ 的谱分布“非常重尾”，例如幂律衰减导致 $\frac1p\sum l_i\to\infty$，则归一化会失败吗？扎根：定理2的证明中，该假设用于控制 trace 项的方差不爆炸。可参考文献 [8, 17] 的 spiked 模型也部分涉及此问题，但未解决 bulk tail 的发散。
备择假设下的渐近功效界：本文构造的检验 $T_n$ 在备择假设下的功效分析仅给出局部备择下的结果。能否给出全局最优（最小）的备择条件（minimax 检验可行性）？扎根：应用节 (Section 4) 只有一个简单的模拟例子，没有推导 minimax rate。这与你 very_familiar 的 minimax bounds 工具直接相连。
指向自己的 open gap：你已有 tensor-network / einsum 的高阶 U-统计量复杂度分析工具。可否用这种思路分析 计算 LSS 本身（需要计算特征值）的数值成本？在 $p,n$ 都很大时，对角化 $n \times n$ 矩阵（$\tilde S_n$）的成本为 $O(n^3)$，而本文的 CLT 本质上是依赖于 LSS（即谱泛函）的。是否存在一种 不计算所有特征值 而直接计算 LSS 的流算法（streaming algorithm）？将 LSS 写为一个 $\frac1n \text{tr}[f(\mathbf{B}_n)]$，这可以用多项式展开计算 trace 的矩（矩法），但需要计算 $\frac1n \text{tr}[\mathbf{B}_n^k]$——那是一个 $k$ 阶 U-statistic（涉及 X 的乘积）。这正是你的 arsenal 擅长之处。扎根：本文未讨论计算的成本或算法效率，这是一个显见的 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub

符号	含义
\(\mathbf{X}\)	\(p \times n\) 数据矩阵，条目 \(X_{ij}\) i.i.d.，均值为 0，方差为 1，有限 \(4+\delta\) 阶矩（本文假设）。可观测。
\(\boldsymbol\Sigma\)	\(p \times p\) 确定性总体协方差矩阵。可能是任意的——有界谱范数、无界谱范数、spiked 均允许。不可观测；是待检验的对象。
\(n\)	样本量（/列数）。
\(p=p_n\)	维数（/行数），随 \(n\) 增长，可以任意速率发散（\(p/n\to c\in[0,\infty]\)）。
\(\mathbf{S}\)	样本协方差矩阵（时刻估计）：\(\mathbf{S} = \frac1n \mathbf{X} \mathbf{X}^T\) 或包含中心化的变体，但本文的核心对象是归一化版。
\(\mathbf{B}_n\)	本文的关键：归一化后的新矩阵，形式为 \(\mathbf{B}_n = \frac1{\alpha_n} (\mathbf{X}^T \mathbf{X} - \beta_n \mathbf{I}_n)\) 且作用于合适维度，或类似的正交变换（具体见原文 2.1）。\(\alpha_n, \beta_n\) 的选取是核心技术贡献——它们在所有 \(p/n\) 路径下使得 \(\mathbf{B}_n\) 的谱分布收敛到与 \(p/n\) 无关的极限谱分布（具体为广义的 MP 律）。可观测（从 \(\mathbf{X}\) 计算得到）。
\(\hat{F}^{\mathbf{B}_n}\)	\(\mathbf{B}_n\) 的经验谱分布（ESD），即其 \(n\) 个特征值的经验分布。
线性谱统计量 (LSS)	\[\int f(\lambda) \, d\hat{F}^{\mathbf{B}_n}(\lambda) = \frac1n \sum_{i=1}^n f(\lambda_i(\mathbf{B}_n)),\] 其中 \(f\) 是充分光滑的函数。这是本文要建立 CLT 的对象。
\(\theta(f; F^{\text{lim}})\)	LSS 的极限期望（常数的 trace 项），依赖于 \(\boldsymbol\Sigma\) 的谱分布（或其对极限谱矩的影响）。
\(\text{Var}_{\text{lim}}(f)\)	LSS 的极限方差，不依赖于 \(\boldsymbol\Sigma\) 的谱范数有界性，而是由 \(\mathbf{B}_n\) 的设计（归一化）完全确定。

困难	技术技巧	在某步中使用
将所有 \(p/n\) 路径统一到同一个 LSD	归一化系数中的 \(\kappa_n^{1/2}\) 的幂次在 \(\kappa_n\) 发散时自动调整	第1步
无界 \(\\|\boldsymbol\Sigma\\|\) 引起谱支集发散	利用 \(\kappa_n^{1/2}\) 压制 \(l_1\) 扩散，并利用谱均值有界保证低阶矩有限	第2、4步
非高斯分布下 CLT 的推导	矩匹配 + Gaussian 投影：仅需 \(4+\delta\) 阶矩，证明到 4 阶矩的匹配就足够（利用 Berry-Esseen / Stein 方法）	第3步
DPP 的 CLT 推导	关联函数技巧与轮廓积分：将 \({n}\text{cov}(f(\lambda_i), g(\lambda_j))\) 写成核函数的双重积分，利用函数方程求和	第3步
方差正则化的闭合公式	将对角项（方差）和双对角项（\(i=j\)）的贡献统一表示	第5步