Generalized linear spectral statistics of high-dimensional sample covariance matrices and its applications¶

作者: Yanlin Hu, Qing Yang, Xiao Han
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 10/10
链接: https://doi.org/10.1214/25-aos2601

核心问题与动机¶

本文要解决高维样本协方差矩阵 $S_n$ 的谱统计量泛化及特征空间假设检验问题。重要性在于：传统线性谱统计量（LSS, $\operatorname{tr}f(S_n)$）无法捕捉 $S_n$ 与外部辅助矩阵 $B_n$ 的交互谱特征，限制了其在复杂协方差结构检验中的应用；而在高维“总体尖刺”协方差矩阵模型中，对特征空间进行精确的假设检验仍缺乏统一且具有普适性的方法。已有 LSS 理论未纳入辅助矩阵，且尖刺模型检验常受限于尖刺强度的具体分布假设。

主要贡献¶

提出广义线性谱统计量（GLSS）：定义为 $\operatorname{tr}f(S_n)B_n$，通过引入辅助矩阵 $B_n$ 和测试函数 $f$，极大扩展了传统 LSS 的表达与捕捉能力。
建立 GLSS 的联合渐近正态性：在维数 $n$ 与样本量 $N$ 可比的高维设定下，针对不同测试函数，证明了 GLSS 向量的联合渐近正态性。
导出 GLSS 的精确收敛速率：揭示收敛速率由 $\sqrt{N/\operatorname{rank}(B_n)}$ 决定，明确了辅助矩阵秩对统计量波动阶的影响。
提出函数投影假设检验方法：基于 GLSS 构建针对“总体尖刺”协方差矩阵特征空间的新检验程序，并发现尖刺强度在检验统计量中具有普适性现象。

方法框架¶

模型设定：高维样本协方差矩阵 $S_n$，维数 $n$ 与样本量 $N$ 趋于无穷且 $n/N \to c \in (0,\infty)$。
核心统计量：$\text{GLSS} = \operatorname{tr}f(S_n)B_n$，其中 $f$ 为解析测试函数，$B_n$ 为非随机辅助矩阵。
关键假设：
对 $B_n$ 的温和假设（如谱范数有界，且 $\operatorname{rank}(B_n)$ 满足特定条件以保证非退化极限）。
对总体分布的矩条件假设。
检验方法步骤：针对总体尖刺协方差矩阵的特征空间，构造基于不同 $f$ 的 GLSS 组合，利用函数投影将特征空间检验转化为 GLSS 的参数假设检验，利用渐近正态性构建检验拒绝域。

主要理论结果¶

联合渐近正态性定理：向量 $(\operatorname{tr}f_1(S_n)B_n, \dots, \operatorname{tr}f_k(S_n)B_n)^\top$ 经中心化和标准化后依分布收敛到多元正态分布。
收敛速率：统计量的波动阶为 $\sqrt{N/\operatorname{rank}(B_n)}$。当 $\operatorname{rank}(B_n)$ 较小（如固定或 $o(N)$）时，具有经典的 $\sqrt{N}$ 或接近 $\sqrt{N}$ 的收敛率；若 $\operatorname{rank}(B_n)$ 过大，则渐近正态性可能退化。
普适性现象：在特征空间检验中，检验统计量的渐近行为不依赖于尖刺强度的具体分布，呈现分布自由的普适性。

实验 / 数值仿真¶

实验设计：在不同高维设定（$n/N$ 比例变化）、不同总体分布（高斯/非高斯）及不同 $B_n$ 结构下进行仿真。
评估指标：GLSS 的经验分布与理论正态分布的拟合度（QQ-图）；特征空间检验的经验水平和经验功效。
主要发现：数值结果验证了 $\sqrt{N/\operatorname{rank}(B_n)}$ 收敛速率及渐近正态性的理论准确性；提出的检验程序在控制第一类错误的同时，相较于现有基线方法展现出更高的检验功效，且验证了尖刺强度的普适性现象。

与研究者兴趣的关联¶

直接关联高维统计与随机矩阵理论（RMT）及数理统计（假设检验）。
可借鉴的核心思路：GLSS 的 $\operatorname{tr}f(S_n)B_n$ 框架及 $\sqrt{N/\operatorname{rank}(B_n)}$ 收敛速率，为高维假设检验（如 MANOVA、协方差阵检验）提供了新工具；其函数投影方法及普适性现象，对处理高维因果推断或半参数模型中带有辅助信息（如工具变量投影矩阵）的协方差结构检验具有启发意义。

局限性与开放问题¶

局限性：当前理论主要针对 $B_n$ 为非随机矩阵或独立于样本的设定，若 $B_n$ 依赖于数据（如估计的投影矩阵），渐近理论需进一步拓展；对总体分布的矩条件可能仍偏强。
开放问题：GLSS 在 $\operatorname{rank}(B_n)$ 极大（如与 $n$ 同阶）时的非退化极限分布形式；将 GLSS 框架推广至更一般的随机 $B_n$ 场景；探索该理论在高维回归/降维（如 Debiased ML 中的协方差修正）及纵向数据因果推断中的具体应用。

Maintained by 陈星宇 · Homepage · Source on GitHub