Spiked eigenvalues of noncentral Fisher matrix with applications¶

作者: Zhiqiang Hou, Xiaozhuo Zhang, Zhidong Bai, Jiang Hu
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向是高维随机矩阵理论(RMT)中的“尖峰模型”（spiked model）。它要解决的根本问题是：当一个高维协方差（或相关）矩阵的谱主要在某个背景（bulk）之上，只有少数几个“尖峰”特征值远大于（或远小于）其余时，我们能在多大程度上从有限样本中推断出这些尖峰“真实”的强度与结构？具体包括：尖峰对应的样本特征值是否会发生相变（phase transition，即存在一个阈值，超过它才可检测）？它的极限是多少？其波动的渐近分布是什么？该方向在信号处理、主成分分析(PCA)、典型相关分析(CCA)、因子模型等应用中有核心地位。当前成熟度：高——关于中心化样本协方差矩阵和中心Fisher矩阵的尖峰理论已相当完整；本文将其推广到非中心Fisher矩阵，是该方向的一个自然且重要的拓展。
发展脉络（history）
- 奠基工作：Johnstone (2001, [11] of paper) 提出了尖峰人口模型（spiked population model），并指出在经典低维极限下不存在的效应会在高维下出现。Baik, Arous, Péché (2004, [3] in your list) 对复高斯样本协方差矩阵首次建立了尖峰特征值的相变现象与极限分布（Tracy-Widom 到 Gauss 的转变）——这是整个领域的基石。
- 主要进展（样本协方差矩阵）：Bai & Yao (2008, [4] & [5] in your list) 将上述结果推广到实数据，建立了尖峰样本特征值的中心极限定理（CLT）和对更一般“广义尖峰模型”的几乎必然极限。Cai, Han & Pan (2017, [6] in your list) 进一步将理论推广到发散尖峰与大致的背景谱情形，证明了一个关键的随机二次型CLT。
- 主要进展（Fisher矩阵）：Wang & Yao (2015, [17] in your list) 研究了“中心”尖峰Fisher矩阵（即 \(\mathbf S_2^{-1}\mathbf S_1\) ，其中两个样本协方差均基于中心化数据），建立了其尖峰特征值的相变与CLT。Jiang, Hou, Bai (2019, [21] in your list) 通过广义四矩定理(G4MT)将其推广到更一般的协方差结构。
- 当前 frontier（非中心 Fisher 矩阵）：更贴近现实应用（如CCA中的非零均值、因子模型中的非零载荷、信号检测中的非零信号）。Bodnar, Dette & Parolya (2017, [10] in your list) 研究了高维非中心 Fisher 矩阵的线性谱统计量(LSS)的 CLT，用于检验两个高维向量的独立性。Johnstone & Nadler (2013, [9] in your list) 在 rank-1 备择下给出了 Roy's 最大根检验的近似。本文 (Hou et al., Bernoulli) 首次在非中心 Fisher 矩阵上建立尖峰特征值（而非LSS）的相变与CLT，并将结果应用于样本典型相关系数(CCC)。
- ⚠️ 本文的位置：本文将自己定位为对上述两条并行线索（中心 Fisher 尖峰 vs 非中心 Fisher 的 LSS 尖峰）的汇合与深化：它把尖峰理论从“中心 Fisher”推广到了“非中心 Fisher”，同时在李群方法之外又提供了一种新的基于留一法(leave-one-out)的分析框架。
子线索聚类：这些被引文献可大致归为三条子线索：
1. 尖峰样本协方差矩阵 (Spiked Sample Covariance Matrix)：这是最成熟的体。核心问题是：给定 \(\Sigma = \Sigma_b + \text{(low-rank spikes)}\)，样本尖峰特征值的相变、极限、CLT。代表：BAP (2004), Bai-Yao (2008, 2012), Cai-Han-Pan (2017), Jiang-Bai (2018), Ding-Yang (2019)。
2. 中心尖峰 Fisher 矩阵 (Central Spiked Fisher Matrix)：拟合两个中心化样本协方差矩阵的比率。核心问题：相变、G4MT、CLT。代表：Wang-Yao (2015), Jiang-Hou-Bai-Zhang (2019), Jiang-Hou-Bai (2019)。
3. 非中心 Fisher 矩阵 / 非中心样本协方差矩阵 (Noncentral Fisher / Noncentral Sample Covariance)：包含均值漂移。核心问题：LSS的CLT、Roy's检验。代表：Bodnar-Dette-Parolya (2017), Johnstone-Nadler (2013)。本文提出尖峰特征值理论，填补了这条线索的空白。
这个方向在追问的核心问题：
- 相变阈值：对于一个给定的尖峰强度（信号大小），它需要大于某个显式函数（由 p/n, 噪声参数等决定）才能在样本中被“看见”？这个函数是什么形式？
- 渐近分布：一旦“看见”，样本尖峰特征值的波动（如 \(\sqrt{n}(\hat{\lambda} - \mu)\) ）是否趋近于正态？其均值与方差如何表达？
- 估计问题：如何从可观测的样本尖峰特征值反推出总体尖峰（信号）的真实强度？估计量是否一致？
- 通用性 (Universality)：上述结果是否只依赖分布的协方差结构（一、二阶矩），还是也依赖高阶矩或具体分布？G4MT（如 [16]、[21] ）是解决这个问题的关键工具。
⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）：
- 缺口声明：作者将缺口 frame 成“已有的尖峰理论仅覆盖中心Fisher矩阵，而非中心Fisher矩阵的尖峰特征值行为未被研究。” 作者声称，这个缺口是显然的,”Therefore, it is necessary and meaningful to study the spiked eigenvalues of the noncentral Fisher matrix. ”
- 淡化竞争：
  - 作者淡化了 Bodnar et al. (2017, [10]) 的工作。Bodnar 等人已经研究了非中心Fisher矩阵的LSS，并由此推导了高维独立检验。作者选择不沿着LSS框架走，而是专门聚焦在尖峰特征值（而非整个谱的线性统计）。可以对比：LSS给出的是一个整体检验，而尖峰理论能给出每个可检测信号的具体强度和置信区间。
  - 作者回避了一个潜在更直接的方法：非中心Fisher可以直接写成 \((\Xi+X)(\Xi+X)^*[YY^*]^{-1}\)。为什么不直接把它视为一个“加性噪声”下的“信息加噪声”(Information-plus-Noise)模型（如 [11], [12]）？作者只提到 “Compared with [15] and [10], our assumptions about \(\Xi\) is more general.” ——这值得研究者去细读：[12] 中的AIC矩阵是什么？[11]中的模型能直接cover非中心Fisher吗？不能的话，gap在哪？
- 缺失的引用（值得研究者去查）
  - Yang, F. 的系列工作：[18], [19], [20] 全部是关于样本典型相关系数（CCC）在有限秩相关下的高维理论的。这篇论文的第三部分专门将结果应用于CCA，却只引用了这些论文中最新的一份([18])。作者应该全面回顾 Yang 的系列工作，并明确点出本文的贡献与他们相比在哪里：他们用点不用的模型（hidden covariate 模型 vs 均值漂移模型？），还是本文能得到更紧的收敛速度、更具体的估计量？这是一个具体的待查问题。
  - Banna, Najim & Yao (2020, [12])：这篇给出了信息加噪声矩阵（更通用的非零均值设定）的LSS的CLT。本文作者声称“作为证明的副产品”研究了非中心样本协方差矩阵 \(\mathbf C_n\) 的尖峰特征值波动，并指其“具有独立意义”。这个结果是否可以从 [12] 中更一般的框架中直接推出？或者需要不同的证明技巧？值得对比。
  - 由于作者主要用的是 Gaussian 假设，因此对 universality（如[21], [16]）的讨论并非本文核心。但若存在 future work 将非Gaussian case作为开放问题，则需要引用 G4MT。
张力：
- 未见明显对立引用。大多数工作是正向推进：放宽假设（从对角到一般协方差，从有限到发散尖峰，从 i.i.d. 到有界矩）。一个略有张力的点是：对于非中心Fisher，[9] 发现一个显式的近似但非精确的分布；[10] 用LSS的工作找到一个精确渐近但依赖于所有特征值的检验；而本文则提出了一个对每单个强尖峰的精确渐近。三个方法各有所长，但在特定条件下谁更优是开放问题。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：将符号、模型、可观测数据交代清楚¶

符号：
- \(\mathbf X\): \(p \times n\) 高斯随机矩阵，i.i.d. 条目均值为 0，方差为 1。
- \(\mathbf Y\): \(p \times N\) 高斯随机矩阵，i.i.d. 条目均值为 0，方差为 1。
- \(\mathbf \Xi\): \(p \times n\) 非随机矩阵，代表均值漂移（noncentrality / signal matrix）。
- \(\mathbf C_n = (\mathbf \Xi + \mathbf X)(\mathbf \Xi + \mathbf X)^*/n\): \(p \times p\) 非中心样本协方差矩阵。这是我们的“数据来源 1”，含有信号的畸变。
- \(\mathbf S_N = \mathbf Y \mathbf Y^* / N\): \(p \times p\) 中心样本协方差矩阵。这是“数据来源 2”（纯粹噪声）。
- \(\mathbf F_p = \mathbf C_n (\mathbf S_N)^{-1}\): \(p \times p\) 非中心 Fisher 矩阵。这是我们的核心对象。我们希望研究它的特征值，特别是最大的一些特征值。
- \(p, n, N\): 维度与样本量，满足 \(p/n \to c_1 \in (0, 1)\) 且 \(p/N \to c_2 \in (0, 1)\)。
- \(K\): 非中心矩阵 \(\mathbf \Xi\) 的秩。记号“\(r\)”在本文中用于代表尖峰权重，但论文中未定义一个统一的符号，我们沿用该意。设 \(\mathbf \Xi \mathbf \Xi^* / n\) 的非零特征值为 \(\theta_1 \ge \theta_2 \ge \dots \ge \theta_K > 0\)。这些是总体尖峰强度（参数）。
- \(\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_p \ge 0\): \(\mathbf F_p\) 的样本特征值。如果 \(K\) 个尖峰强度足够（超过阈值），则 \(\lambda_1, \dots, \lambda_K\) 将偏离主体谱，成为“样本尖峰特征值”。
模型：
- 基本假设：高斯性。\(\mathbf X\) 和 \(\mathbf Y\) 的条目是独立同分布的标准正态变量（均值为 0，方差 1）。
- 关键结构：\(\mathbf \Xi\) 是任意的、秩为 \(K\) 的常数矩阵。它不假定有特定的结构（如对角、稀疏等），只需它的奇异值满足“尖峰”假设（即 \(\theta_1 > \dots > \theta_K > 0\) 与其他噪声谱明显分开）。
- 样本关系：\(p/n \to c_1\) 和 \(p/N \to c_2\)。这是“高维”设定。
可观测数据： 研究者实际能观测到的分别是:
- 观测值 1：一组 n 个 \(p\) 维观测向量，记为 \(\mathbf z_i = \boldsymbol{\xi}_i + \mathbf x_i\)，其中 \(\boldsymbol{\xi}_i\) 是 \(\mathbf \Xi\) 的第 \(i\) 列（非随机，未知），\(\mathbf x_i\) 是高斯噪声（不可观测）。将这些向量堆叠成矩阵 \(\mathbf Z = \mathbf \Xi + \mathbf X\)。我们可以计算 \(\mathbf C_n = \mathbf Z \mathbf Z^*/n\)。
- 观测值 2：另一组独立的 N 个 \(p\) 维 纯噪声 观测向量，记为 \(\mathbf y_j\) (i.i.d. 标准高斯)。我们可以计算 \(\mathbf S_N = \mathbf Y \mathbf Y^*/N\)。
- 组合：我们可以计算 \(\mathbf F_p = \mathbf C_n \mathbf S_N^{-1}\)，并计算其特征值 \(\lambda_i\)。
不可观测/潜在量： - \(\mathbf \Xi\) 本身（尤其是它的奇异值 \(\sqrt{\theta_i}\)）—— 这是我们想估计的总体量。 - 噪声矩阵 \(\mathbf X\) 和 \(\mathbf Y\) —— 我们只能观测到它们经过协方差矩阵变换后的整体效应。

第二步：讲最小内核¶

最简特例（首选）：去掉所有为一般性服务的幕布，论文的核心可以装进一个rank-1、匹配维度、简单方差的核里。

假设： - \(K = 1\) （只有一个尖峰）。 \(\mathbf \Xi = \sqrt{\theta} \cdot \mathbf u \mathbf v^*\)，其中 \(\mathbf u \in \mathbb R^p\), \(\mathbf v \in \mathbb R^n\) 是单位向量。那么 \(\mathbf \Xi \mathbf \Xi^* / n = \theta \cdot \mathbf u \mathbf u^*\)。 \(\theta > 0\) 是唯一的总体尖峰强度（spike）。 - \(p/n \to c_1 \in (0,1)\), \(p/N \to c_2 \in (0,1)\)。为简化理解和计算，不妨假设 \(p/n = c_1\), \(p/N = c_2\) 不随样本变化，或假设随机矩阵的谱分布退化为Marchenko-Pastur（MP）分布。 - \((\mathbf S_N)^{-1}\) 的谱分布是经典的 MP 逆分布（即 Inverse Marchenko-Pastur law）。

在此特例下，论文要回答的核心问题是：

在多大程度上，我们可以通过 最大样本特征值 \(\lambda_1\) 推断出 \(\theta\)？\(\lambda_1\) 什么时候会“失真”，什么时候会揭示真相？

核心定理退化为： 1. 相变：存在一个显式的阈值 \(\theta_c = c_1 + c_2 > 0\)（这是从 [17] 等理论推广来的，论文最终给出的是一个更复杂的阈值函数）。当且仅当 \(\sqrt{\theta} > \sqrt{\theta_c}\) ，或者说 \(\theta > \theta_c\) 时，样本最大特征值 \(\lambda_1\) 会从噪声 bulk 中脱离，收敛到一个非平凡极限 \(\phi(\theta) > 1\) （大于整个 bulk 的上确界）。如果 \(\theta < \theta_c\)，则 \(\lambda_1\) 与作为噪声的样本最小特征值无异，被 bulk “吸收”，无法被探测。 2. 中心极限定理 (CLT) 在简单尖峰（\(K=1\)，\(\theta\) 简单）的情形下：如果 \(\theta > \theta_c\)，我们有

\[\sqrt{n} \left( \lambda_1 - \phi(\theta) \right) \xrightarrow{d} \mathcal{N}(0, \sigma^2(\theta))\]

其中 \(\phi(\theta)\) 和 \(\sigma^2(\theta)\) 都是由 \(\theta\), \(c_1\), \(c_2\) 构成的显式函数。这是统计推断的基础：你知道了 \(\lambda_1\) 的波动尺度（方差 \(\sigma^2(\theta)/n\)），就可以进行假设检验，或者构建 \(\theta\) 的置信区间。

核心思路（为什么成立）——这篇论文干的事：在最简特例下，证明的思路可以粗线条“看懂”： - 识别为信号+噪声： \(\mathbf F_p = \frac{(\sqrt{\theta}\mathbf u \mathbf v^* + \mathbf X)(\cdots)^*}{n} \cdot \mathbf S_N^{-1}\)。它可以被看作是一个“加性”信号叠加在“噪声”Fisher矩阵（即\(\mathbf X \mathbf X^*/n \cdot \mathbf S_N^{-1}\)）上，但这里的“噪声”Fisher矩阵在\(S_N^{-1}\)中又含有额外的噪声。 - 关键技巧：留一法 (Leave-one-out)：作者将矩阵 \(\mathbf F_p\) 简化为一个“秩-1”的扰动。关键的证明技巧在于，分析 \(\mathbf F_p\) 的特征方程（characteristic equation），利用留一法技巧（即 \((\mathbf S_N)^{-1}\) 的极限谱与 \(\mathbf S_N\) 的特征矢量和“去掉一行”的新矩阵有关）将这个大扰动转化为一个可以解的标量方程。这种技巧使得即使 \(\mathbf \Xi\) 是任意的，也可以将大问题“约化”为对秩为 \(K\) 的矩阵的谱分析。 - 计算相位阈值：通过解这个标量方程，可以得到尖峰 \(\theta\) 被“发现”的阈值：\(\theta_c\) = (c1 + c2)/(abs(some factor))（这里给的是最简单 case 的直观近似，论文给出的是显式准确形式）。 - CLT 推导：证明了方差项不像估计量本身那样是经典 Wigner 半圆律，而是可以被一个特定的高斯正交系综 (GOE) 或高斯酉系综 (GUE) 矩阵的元素波动所近似。然后通过推广的 Skorokhod 表示定理（[14] in your list）将这种收敛转换到"几乎必然"版本，从而获得 CLT。

一句话总结：证明了非中心 Fisher 矩阵的尖峰特征值经历一个相变，并在可检测区域的正态性，且通过留一法将难以处理的高维非线性问题转化为可解的标量问题。

三、这篇论文做了什么¶

三句话：
1. 研究问题：在高斯高维设定下，研究了非中心 Fisher 矩阵（\(\mathbf F_p = \mathbf C_n \mathbf S_N^{-1}\)）的尖峰特征值的极限行为（相变）与渐近波动（CLT）。
2. 核心工具/方法：利用留一法 (leave-one-out) 技巧将尖峰结构分解为扰动，并结合 Skorokhod 强表示定理和经典RMT谱收敛结果，通过严格分析一个随机二次型的特征函数方程，导出了相变阈值与正态分布。
3. 主要结论：建立了当 \(\mathbf \Xi\) 的尖峰强度超过一个显式阈值 \((c_1, c_2)\) 时，对应的 \(\mathbf F_p\) 样本尖峰特征值收敛到非平凡极限，并呈现渐近正态性。作为副产品，得到了非中心样本协方差矩阵 \(\mathbf C_n\) 尖峰特征值的CLT。并将所有结果应用于，给出样本典型相关系数(CCC)的极限与CLT及其一揽子一致性估计。
关键设定与假设：
- 设定：高维比例极限：\(p/n \to c_1 \in (0, 1)\), \(p/N \to c_2 \in (0, 1)\)。
- 假设 1: 高斯性。\(\mathbf X\) 和 \(\mathbf Y\) 的元素 i.i.d. 标准正态。这使得可观测矩阵 \(\mathbf C_n\) 和 \(\mathbf S_N\) 均服从Wishart分布或非中心Wishart分布，极大地方便了对奇异值分解的矩结构分析。相比已有文献：[17] 研究了中心 Fisher，也是 Gaussian，但额外要求 \(\Sigma_1\) 和 \(\Sigma_2\) 简单。本文放宽了对 \(\Sigma\) 的结构性假设（不再要求对角或块对角），因为 \(\mathbf \Xi\) 只是任意一个全矩阵。
- 假设 2: 尖峰有限秩。 \(\mathbf \Xi\) 的秩固定为 \(K\)（不随 \(p, n\) 增长）。相比已有文献：[17] 要求“spikes are simple”（即不含重根）。本文允许简单尖峰和重数大于1的尖峰，但CLT的方差表达式会不同（重根时 CLT 变成更复杂的形式，即 \(\chi^2\) 分布）。
- 假设 3（隐含）：尖峰强度非退化。 \(\theta_i > 0\)，且与其他“噪声”特征值存在谱 gap。
主要结果：
- 定理 1 (相变 + 几乎必然极限)：
  - 直觉：定义了非中心 Fisher 矩阵 \(\mathbf F_p\) 的 支持集边界。对每个尖峰 \(\theta_i\)，存在一个阈值 \(\lambda_+\)（取决于总体极限谱的上界），当且仅当 \(\theta_i > \lambda_+\)（一个显式的条件）时，对应的样本尖峰特征值 \(\lambda_i\) 会跳出。跳出后，它收敛到一个实解析函数 \(m(\theta_i)\)。
  - 量化结论：给出了 \(\lambda_+\) 和 \(m(\theta_i)\) 的显式表达式，形如 \(m(\theta_i) = f(\theta_i, c_1, c_2)\)。当 \(\theta_i \leq \lambda_+\)，\(\lambda_i\) 被吸收。
- 定理 2 & 3 (CLT)：
  - 陈述：对于简单（代数重数为1）且可检测（\(\theta_i > \lambda_+\)）的尖峰，\(n^{1/2}(\lambda_i - m(\theta_i)) \xrightarrow{d} \mathcal{N}(0, \sigma_i^2)\)。其中方差 \(\sigma_i^2\) 也是由 \(\theta_i\), \(c_1\), \(c_2\) 以及背景特征向量的方向决定的显式函数。
  - 关键：方差可能依赖于非中心矩阵 \(\mathbf \Xi\) 的左、右奇异向量，而不是仅依赖于 \(\theta_i\)。这是非中心 Fisher 与中心 Fisher 的区别：后者背景是各向同性的，方差是通用的，但非中心 Fisher 的背景特征向量会影响方差。
  - 作为副产品：得到了 \(\mathbf C_n\) （非中心样本协方差）的尖峰特征值的 CLT（定理 3.2），这本身也是对 Ding (2017, [8]) 工作的一个推广/补充。
- 定理 4 & 5 (CCA应用)：
  - 结论：得到了样本典型相关系数(CCC)的相变阈值与 CLT。三个一致性估计量：①总体系数 \(\theta_i\) 的；②总体 CCC 平方 \(r_i^2\) 的；③显著性上界（控制正在研究的信号的样本外表现）。
  - 意义：CCA 中的直接推测——即使用非中心 Fisher 矩阵框架。它给出了在什么条件下，高维数据中观察到的 CCC 可以信以为真（即不是噪声造成的）。
证明路线与技术技巧：
- 整体路线（五步）：
  1. 模型变换：将 \(\mathbf F_p\) 的特征值问题与一个衍生矩阵 \(\mathbf M_p = \frac{1}{n}\mathbf \Xi’\mathbf Y (\frac{1}{N} \mathbf Y^*\mathbf Y)^{-1} \mathbf Y^*\mathbf \Xi + \frac{1}{n} \mathbf X’\mathbf Y (\frac{1}{N} \mathbf Y^*\mathbf Y)^{-1} \mathbf Y^*\mathbf X\)（经 Ginibre 型的推导）联系起来，让它的秩结构与 \(\mathbf \Xi\) 匹配，让噪声与 \(\mathbf X, \mathbf Y\) 相关。
  2. 留一法核心：分析 \(\left( \mathbf S_N^{-1} \right)_{ii}\) （对角线元素）及 \(\mathbf S_N^{-1}\) 的谱，利用“留一法”（leave-one-out, LOO）将 \(\mathbf F_p\) 的秩-1扰动逻辑展开，简化它的影响为一个关于 \(\mathbf C_n\) 的行/列的残差矩阵。
  3. 特征值函数方程：对尖峰特征值 \(\lambda\)，定义其“隐函数方程”。该方程能够表示为一个关于 \(\lambda\) 和尖峰尺度 \(\theta_i\) 的标量方程。这步去掉了随机矩阵的大部分外在维度，剩下一个低维解析条件。
  4. 推导极限：利用Stieltjes变换的全局收敛。通过建立函数方程与背景谱的MP型Stieltjes变换的递归关系，明确 \(\lambda_+\) 阈值和 \(m(\theta_i)\) 的显式表达式。
  5. 推导 CLT：正交分解+GOE逼近。对方差和协方差结构的推导，需要证明特征值的波动可以被一个特定高斯-酉系综/正交系综(GOE/GUE)矩阵的特征值的波动逼近。然后用 Skorokhod 表示定理（[14] ）或泛函CLT来证明正式的渐近正态性。证明中需要利用到随机二次型的 CLT 和经典的 Cameron-Martin-Girsanov 定理来消除高阶矩的重合。
- 关键跳跃点：
  - 非线性约化：将 \(p \times p\) 的高维随机矩阵的特征值问题，看成一个\(K\) 维的随机二次型函数方程，这是最吃功夫的一步。它依赖于由 \(S_N^{-1}\) 的 Randmacher 表示（近似于一个 Y_i 的线性组合）和 \(\mathbf X / \mathbf Y\) 的条件矩匹配，是一项精妙的组合计算。\(\mathbf X\) 和 \(\mathbf Y\) 是独立Gaussian，使得这种约化得以实现。
  - 方差的显式计算：证明方差不是标准的“Tracy-Widom”或“MP”方差，而是受到 \(\mathbf \Xi\) 本身结构影响的。CLT的方差必须通过一个复杂的随机矩阵的 Norm 限制和Karhunen-Loèvè展开来计算。这对 \(\mathbf \Xi\) 的奇异向量方向很敏感（不像样本协方差的特例是各向同性的）。
- 技术技巧点名：
  - 留一法 (Leave-one-out)：在 \(\mathbf S_N^{-1}\) 的分析中用于“剔除”某个列/行的影响，以获得对角结构的近似可逆性和简化大矩阵的逆。
  - 矩阵分解：将 \(\mathbf C_n\) 分解为 \(\mathbf \Xi\Xi^*/n + \mathbf \Xi \mathbf X^*/n + \mathbf X \mathbf \Xi^*/n + \mathbf X \mathbf X^*/n\)。尖峰来自前三项。
  - Skorokhod 强表示定理 ([14] in your list)：用于在几乎必然意义上实现CLT，是传统方法验证弱收敛的强力补充，特别是在高维环境下。
  - GOE/GUE 矩阵逼近：利用 \(\mathbf Y\) 的标准高斯性质，证明向量 \(\mathbf Y’ \mathbf u / \sqrt{N}\) 和类似的组合构成一个高斯的正交基，从而构造出与交叉矩匹配的GOE型矩阵。
  - Cameron-Martin-Girsanov 变换：用于调整分布在非零均值下的似然比，使得在推导CLT时可以专注于零均值（中心化）情况。
真实例子与应用：
- 数据：未使用真实世界的大数据。采用的是模拟 (Simulation) 和 一个生信/基因表达数据 (Genius data set)。
- 模拟 (Simulation)：生成 \(p=40, n=160, N=80\) （比例： \(c_1=0.25, c_2=0.5\)）的数据，设定 \(K=3\) 个简单尖峰。分析了 \(\mathbf F_p\) 的样本特征值序列与理论预测（尖峰和 bulk 边界）的吻合程度，以及 CLT 结果（Q-Q plot, 直方图）。验证了相变阈值和CLT的解析公式。
- 真实数据 (Genius Data)：这是一个基因表达数据（动植物的转录组数据集）。作者将数据“解释”为 \(p\) 个基因，分成两个集合（或对照组与处理组、或不同物种），然后比较它们的谱。通过他们对 Fisher 矩阵的构造，发现样本固定与不同条件下的尖峰特征值呈现在相变阈值附近的行为，并利用CLT构建了显著性的置信区间。
- 想说明什么：模拟验证理论推导的准确性（尤其是在有限样本下的相变和方差估计）；真实数据展示了该理论为高维CCA/Fisher分析提供了一个有关信号个数和信号强度的统计诊断框架——可以客观地判断：哪些组之间的相关是真实存在的（超出噪声阈值），哪些只是伪相关（被 bulk 吸收）。
🔎 结论是否比证明窄：
- Gaussian 性：全部结果严格在 Gaussian 假设下证明。本文结论只覆盖 Gaussian 数据。论文在引言末尾有一段话（Claims introduction中对"outlook"的总结）：提到“可以期待CLT对于特定类型的非Gaussian（如四阶矩匹配）也成立，但这需要进一步的 universality 证明，如[16]中的G4MT”。因此，论文的结论的确窄于它暗示的广泛适用性（非Gaussian的、重尾的情况未包括）。
- 有限秩穿透：假设 \(\mathbf \Xi\) 的秩有限。在实践中，尖峰可能“发散”（即随 p 增长）。这也未在本文讨论。
- 无穷协方差：所有理论推导要求 \(p / (n+N) < 1\)。即限制了协方差矩阵可逆，也限制了 Fisher 矩阵有有限谱。

四、开放问题（点到为止，扎根具体语句）¶

非高斯/稳健性 (Universality, G4MT)：所有结果严格依赖 Gaussian性。本文与 [21] 在非中心情形有明确的交叉。一个开放问题是：能否将 [21] 中的 generalized four moment theorem (G4MT) 应用于非中心 Fisher 矩阵，从而将 CLT 推广到仅需四阶矩匹配的一般分布？ 扎根点：论文在 intro 最后一句话（关于结论和未来展望的段落）。正好这个工作是由 [21] 部分作者的前一个工作开发出的工具。这是一个明确且紧接的、前人工具对口的问题。
发散尖峰 / 重数非简单尖峰：当尖峰强度 \(\theta_i \to \infty\) 或者 \(K \to \infty\)（随维度发散）时，本文的 \(O(1)\) 尖峰理论是否适用？ 扎根点：论文的假设 2.1要求 \(\mathbf \Xi \mathbf \Xi^* / n\) 的非零特征值是固定的、有限的。发散尖峰情况已在样本协方差中由 [6] (Cai et al.) 处理。一个自然的拓展是将[6]的理论“搬运”到非中心 Fisher 矩阵的设定下。
联合推断：论文中的 CLT 是边缘（marginal）的（单个尖峰 \(\lambda_i\)）。多尖峰 \(\lambda_1, ..., \lambda_K\) 的联合分布是什么？ 扎根点：证明路线中的 LOO + GOE 逼近，理论上应该能给出联合的协方差结构，但论文没有给出。这对于因子模型（多个信号同时存在）的联合显著性检验至关重要。
高维非中心 Fisher 矩阵的尖峰向量：对于本文的模型，相应的尖峰特征向量（非特征值）的渐近行为是什么？ 扎根点：在引言中，作者提到 [15] 和 [10] 的“assumptions about Ξ is more general”，但回避了尖峰向量的收敛问题。尖峰向量是PCA和信号源估计的核心（如，哪些变量驱动了尖峰）。本文的证明技巧能否扩展到特征向量？这是一个标准但值得追问的下一步。

Maintained by 陈星宇 · Homepage · Source on GitHub