Sample canonical correlation coefficients of high-dimensional random vectors with finite rank correlations¶

作者: Zongming Ma, Fan Yang
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文解决的子问题是：在高维设定下（维度 \(p, q\) 与样本量 \(n\) 可比），两组随机向量之间的样本典型相关系数（SCC） 的极限行为。具体场景是总体仅有有限秩 \(r\) 的典型相关结构（即只有 \(r\) 个非平凡的总体典型相关系数 \(\tau_1, \ldots, \tau_r\)），其余均为零。该问题属于随机矩阵理论（RMT）中的“spiked 模型” 在多元分析中的应用——关注当总体结构包含少数“信号”（大特征值）时，样本特征值如何偏离 Marchenko–Pastur 律的“噪声”部分。当前成熟度：在 Gaussian 假设下已有完整描述（Bao et al. 2017）；本文将其推广到仅需四阶矩条件的普适情形。

发展脉络（history）¶

奠基工作：Johnstone (2008) [引用13] 将典型相关矩阵的特征值分布与 Jacobi 系综联系起来，建立了最大特征值的 Tracy–Widom 极限，开出了将 RMT 方法用于 CCA 的路径。
主要进展 1——Gaussian 情形的相变（BBP 相变）：Bao, Hu, Pan & Zhou (2017) [引用7] 在 Gaussian 假设下证明了对有限秩相关，样本典型相关系数平方存在 BBP 相变：存在阈值 \(t_c \in (0,1)\)，当 \(t_i > t_c\) 时，样本特征值收敛到由 \(t_i\) 确定的极限 \(\theta_i\)（位于 MP 律支撑之外）；当 \(t_i < t_c\) 时，收敛到 MP 律的上边缘 \(\lambda_+\)。他们使用的工具是 Gaussian 系的精确分布与 Wigner 矩阵的局部律。
主要进展 2——局部律与 Tracy–Widom 极限：Yang (2020) [引用47] 进一步在高维 CCA 中建立了各向异性局部律，并得到了最大样本典型相关系数的 Tracy–Widom 分布，前提是向量 \((\mathbf{x}, \mathbf{y})\) 的条目独立、均值为零、方差为 1（不一定是 Gaussian）。这为本文的普适性结果提供了关键分析工具。
主要进展 3——spiked 协方差矩阵的相变：Baik & Silverstein (2004) [引用3] 完全刻画了 spiked 样本协方差矩阵中特征值的几乎必然极限；Benaych-Georges & Nadakuditi (2009) [引用4] 将相变推广到一般的低秩扰动（additive/multiplicative）。这些工作建立了 RMT 中 outlier 检测的一般框架。
近期 frontier——普适性与边界情况：本文（Ma & Yang, 2023） 在 Bao et al. (2017) 的 Gaussian 结果基础上，证明同样的相变只需四阶矩条件即可成立（普适性），并且处理了 \(t_i\) 退化（degenerate）或接近临界值的情形。这是首次将 CCA 的 BBP 相变推广到非 Gaussian 设定。

子线索聚类¶

Gaussian 设定下的精确分析与相变
Bao et al. (2017) [7] 是代表性工作，利用高斯性得到精确分布或特征函数，给出相变门槛。本文声称其引理与结论在 Gaussian 下成立。
local law 与 universality 技术 (非 Gaussian)
这块是本文的核心技术来源：Erdős et al. (2011, 2012) [19, 5, 6] 建立了局部半圆律；Bloemendal et al. (2013) [11] 建立了各向同性局部 Marchenko–Pastur 律；Knowles & Yin (2014) [10] 提出了各向异性局部律的统一方法，可用于 Gram 型矩阵。Yang (2020) [47] 将这些工具引入 CCA，证明了局部律与 Tracy–Widom 极限。
低秩变形（deformed）矩阵的相变与体谱边缘
Féral & Péché (2006) [6]、Capitaine et al. (2007, 2009) [9, 20]、Knowles & Yin (2012) [21] 等研究了 Wigner 矩阵的低秩变形，发现了相变与非普适性（fluctuations 依赖于条目分布）。这些是本文工具的直接前驱：通过自伴线性化可将 CCA 矩阵转化为某种变形 Wigner 或 Gram 矩阵。
spiked 协方差与可分协方差模型
Bai & Yao (2008) [7]、Ding & Yang (2019) [22] 研究了 spiked 样本协方差矩阵和可分协方差矩阵的极端特征值与特征向量。本文的模型更一般：允许两个组的协方差矩阵都有任意结构（不是单位阵），但相关结构来自有限秩的“公共因子” \(A\mathbf{z}, B\mathbf{z}\)。

这个方向在追问的核心问题¶

（存在性问题）在高维下，样本典型相关系数是否仍能一致估计总体典型相关系数？特别是当总体秩有限时，哪些信号可以被检测（相变门槛）。
（极限分布）可检测的样本特征值的极限点是什么？（确定性极限 \(\theta_i\)）
（普适性）这些极限行为是否依赖于条目分布的具体形式？ 还是仅需矩条件？
（边界情况）当总体值接近或等于门槛时，样本特征值的极限行为如何？（退化/临界情形）

当前主流方法：利用随机矩阵的局部律（local law）和自伴线性化技巧，将问题转化为已知模型（如变形 Wigner/ Gram 矩阵）。瓶颈在于 CCA 矩阵的结构（两个逆矩阵的乘积）导致直接分析困难——线性化后需要处理更复杂的 Gram 类矩阵（涉及两个确定性矩阵 \(\mathbf{C}_1, \mathbf{C}_2\)）。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 成“Bao et al. (2017) 的 Gaussian 结果是否具有普适性？即只要求四阶矩条件，是否仍成立？” 他们声称这是自然的延伸，因为 RMT 的 universality 文献已表明许多谱统计量（边缘特征值、最大特征值）在仅需有限矩下成立。作者淡化了两点：一是四阶矩条件是否为最弱可能（文中提到参考文献 [11] 在局部律中要求有限四阶矩，这里沿用）；二是竞争路线（如直接使用随机线性规划或浓度不等式）被回避——他们直接依赖 local law 技术路线。明显该存在却未出现在 intro 里：没有讨论 计算-统计折中（信息-计算差距） 在高维 CCA 中的角色（如 Gao et al. 2014 [14] 对稀疏 CCA 的计算下界工作）。这可能是一个值得研究者去查的线索：本文的相变门槛是否也是计算门槛？但本文是纯谱分析，不涉及算法，所以不奇怪。

张力¶

未见明显对立引用。被引工作在结果上相互兼容：Gaussian 精确解、local law 推导的相变、spiked 模型的一般理论都指向同一个门槛公式。唯一可能产生矛盾的是对 fluctuations 的普适性：Capitaine et al. (2007, 2009) [9, 20] 发现在某些变形 Wigner 矩阵中，极端特征值的波动方向不普适（依赖于条目分布），而本文只关心收敛（几乎必然），不涉及波动分布，所以无直接冲突。但在更精细的波动层面（如放宽到 CLT），非普适性可能出现，作者未讨论这点。

二、最核心、最简单的例子 / 数学问题¶

符号、模型、可观测数据交代¶

记号：
\(p, q\)：两个组的维度（\(p \le q\) 不失一般性）。
\(n\)：样本量。高维设定：\(p/n \to c_1 \in (0,1)\)，\(q/n \to c_2 \in (0,1-c_1)\)。
\(r\)：总体相关结构的秩（有限常数，不随 \(n\) 增长）。
\(\widetilde{\mathbf{x}} \in \mathbb{R}^p, \widetilde{\mathbf{y}} \in \mathbb{R}^q\)：可观测的随机向量。
\(\mathbf{x} \in \mathbb{R}^p, \mathbf{y} \in \mathbb{R}^q, \mathbf{z} \in \mathbb{R}^r\)：潜在随机向量，条目 i.i.d. 均值为 0，方差为 1，且相互独立。\(\mathbf{x}, \mathbf{y}\) 代表各组单独的“噪声部分”，\(\mathbf{z}\) 是跨组共享的“公共因子”。
\(\mathbf{C}_1\)（\(p \times p\) 正定）, \(\mathbf{C}_2\)（\(q \times q\) 正定）：确定性协方差矩阵（描述 \(\mathbf{x}, \mathbf{y}\) 各自的边际结构，可以是任意的，如高维）。
\(A\)（\(p \times r\)）, \(B\)（\(q \times r\)）：确定性载荷矩阵（决定公共因子如何影响 \(\widetilde{\mathbf{x}}, \widetilde{\mathbf{y}}\)）。
\(t_1 \ge t_2 \ge \cdots \ge t_r\)：总体典型相关系数的平方（population canonical correlation coefficients squared），即矩阵 \(\Sigma_{xx}^{-1} \Sigma_{xy} \Sigma_{yy}^{-1} \Sigma_{yx}\) 的前 \(r\) 个（最大的）特征值。这里 \(\Sigma_{xx} = \widetilde{\mathbf{x}}\) 的总体协方差，\(\Sigma_{xy}\) 为交叉协方差。
\(\widetilde{\lambda}_1 \ge \widetilde{\lambda}_2 \ge \cdots \ge \widetilde{\lambda}_{p \wedge q}\)：样本典型相关系数的平方（SCC²），即矩阵 \(\mathcal{C}_{XY} := S_{xx}^{-1} S_{xy} S_{yy}^{-1} S_{yx}\) 的特征值，其中 \(S_{xx}, S_{yy}\) 为样本协方差，\(S_{xy}\) 为样本交叉协方差。
\(\lambda_+\)：Marchenko–Pastur（MP）律的上边缘，取决于 \(c_1, c_2\) 的具体组合（本文中 \(\lambda_+ = (c_1 + c_2 - c_1 c_2)/(c_1 c_2)\)？需确认，但可当作已知函数）。
\(t_c \in (0,1)\)：相变阈值，由方程 \(t_c = \frac{c_1 + c_2 - c_1 c_2}{c_1 c_2}\)? 不对，更常见的公式：令 \(\alpha = \sqrt{c_1 c_2}\), \(\beta = \sqrt{(1-c_1)(1-c_2)}\)，则 \(\lambda_+ = \frac{(1+\alpha)^2}{(c_1 + c_2)^2}\)? 本文未显式给出，但定义阈值 \(t_c = (\sqrt{c_1} + \sqrt{c_2})^{-2}\)? 留着但可简略：\(t_c\) 由 MP 谱的软边决定，是 \(\lambda_+\) 的函数。具体见本文定理的叙述。
模型：
\[\widetilde{\mathbf{x}} = A\mathbf{z} + \mathbf{C}_1^{1/2}\mathbf{x}, \quad \widetilde{\mathbf{y}} = B\mathbf{z} + \mathbf{C}_2^{1/2}\mathbf{y},\]
且 \(\mathbf{x}, \mathbf{y}, \mathbf{z}\) 独立且条目独立。这是典型的因子模型结构：两组变量通过一个公共因子 \(\mathbf{z}\) 相关，其余部分独立。总体典型相关结构完全由 \(A, B\) 与 \(\mathbf{C}_1, \mathbf{C}_2\) 决定：可以证明 \(\Sigma_{xx} = AA^T + \mathbf{C}_1\), \(\Sigma_{yy} = BB^T + \mathbf{C}_2\), \(\Sigma_{xy} = A B^T\)。前 \(r\) 个总体典型相关系数平方 \(t_i\) 是矩阵 \(\mathbf{C}_1^{-1/2} A B^T \mathbf{C}_2^{-1} B A^T \mathbf{C}_1^{-1/2}\) 的特征值（与 \(\mathbf{C}_1, \mathbf{C}_2\) 相关）。给定 \(A, B, \mathbf{C}_1, \mathbf{C}_2\)，\(t_i\) 是确定的。
可观测数据：\(n\) 个独立样本 \(\{(\widetilde{\mathbf{x}}_i, \widetilde{\mathbf{y}}_i)\}_{i=1}^n\)。研究者能直接使用这些样本构造样本协方差矩阵 \(S_{xx}, S_{xy}, S_{yy}\)，并计算 \(\mathcal{C}_{XY}\) 的特征值 \(\widetilde{\lambda}_i\)。不可观测的是潜在变量 \(\mathbf{x}, \mathbf{y}, \mathbf{z}\) 以及参数 \(A, B, \mathbf{C}_1, \mathbf{C}_2\)。研究者想知道的（estimand）是 \(t_1, \ldots, t_r\) 以及哪些是“可检测的”（即 \(\widetilde{\lambda}_i\) 会跳出谱的边缘）。

最小内核：秩 \(r=1\) 的最简特例¶

假设 \(r=1\)，即只有一个潜在的公共因子 \(\mathbf{z} \in \mathbb{R}\)。于是 \(A \in \mathbb{R}^{p \times 1}\) 和 \(B \in \mathbb{R}^{q \times 1}\) 退化为列向量 \(\mathbf{a}, \mathbf{b}\)。总体只有一个非零典型相关系数平方 \(t_1\)。可观测的样本典型相关系数平方 \(\widetilde{\lambda}_1\) 是 \(\mathcal{C}_{XY}\) 的最大特征值。

问题：当 \(p,q,n\) 以固定比例增长时，\(\widetilde{\lambda}_1\) 收敛到哪里？

直觉：如果 \(t_1\) 足够大（超过阈值 \(t_c\)），那么总体信号足够强，\(\widetilde{\lambda}_1\) 将收敛到一个大于 MP 谱上边缘 \(\lambda_+\) 的确定性极限 \(\theta_1\)。如果 \(t_1 \le t_c\)，信号被噪声淹没，\(\widetilde{\lambda}_1\) 收敛到 \(\lambda_+\)（“bulk” 的上界）。

关键结论（Bao et al. 2017 + 本文推广）： - 当 \(t_1 > t_c\) 时，\(\widetilde{\lambda}_1 \xrightarrow{a.s.} \theta_1\)，其中 \(\theta_1 = \frac{c_1 + c_2 - c_1 c_2 (1 - t_1)}{c_1 c_2 (1 - t_1)}\)? 不对，真实公式是：令 \(\gamma = p/q\) 等等。但最小内核只需知道 \(\theta_1 > \lambda_+\)，且是单调递增函数。 - 当 \(t_1 < t_c\) 时，\(\widetilde{\lambda}_1 \xrightarrow{a.s.} \lambda_+\)。 - 当 \(t_1 = t_c\) 时，称为临界情形，\(\widetilde{\lambda}_1\) 依然收敛到 \(\lambda_+\)，但收敛速度不同（本文处理了这类边界）。

证明思路（极简）：把样本相关矩阵 \(\mathcal{C}_{XY}\) 通过“自伴线性化”转化为一个 \((p+q) \times (p+q)\) 的变形 Gram 矩阵，其谱结构与 \(\mathcal{C}_{XY}\) 的特征值相关联。后者可以写成一个确定性矩阵加上随机矩阵（与 \(\mathbf{x}, \mathbf{y}, \mathbf{z}\) 的独立项有关）。然后应用各向异性局部律（anisotropic local law，来自 [47]）得到该变形 Gram 矩阵的 resolvent 渐进，从而导出 \(\widetilde{\lambda}_i\) 的收敛位置。对于普适性，使用四阶矩匹配方法（如 [11]），证明该局部律在仅需四阶矩条件下仍成立。

最小内核的推论：研究者看完这节应已理解：本文本质上是在做“有限秩变形下的 Gram 型随机矩阵的尖峰检测”问题，其核心是找出哪个总体特征值会导致一个外向 outlier。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高维设定下（\(p/n \to c_1, q/n \to c_2\)），对于两组随机向量 \(\widetilde{\mathbf{x}}, \widetilde{\mathbf{y}}\) 满足因子模型（总体相关秩为 \(r\)），样本典型相关系数的平方 \(\widetilde{\lambda}_i\) 的极限行为——是否存在 BBP 相变，以及该相变在非 Gaussian 条目下是否普适。
核心工具/方法：自伴线性化将 CCA 矩阵转化为变形 Gram 矩阵；各向异性局部律（anisotropic local law, 源自 Yang 2020）；通过四阶矩匹配实现 universality，并利用 Riccati 方程处理退化和近临界情形。
主要结论：在仅需 \(\mathbf{x}, \mathbf{y}, \mathbf{z}\) 条目满足 有限四阶矩（且独立同分布）的条件下，Bao et al. (2017) 的 Gaussian 相变结果依然成立：存在阈值 \(t_c\)，当 \(t_i > t_c\) 时 \(\widetilde{\lambda}_i \xrightarrow{a.s.} \theta_i > \lambda_+\)；当 \(t_i < t_c\) 时 \(\widetilde{\lambda}_i \xrightarrow{a.s.} \lambda_+\)。该结论对退化（多重 \(t_i\) 相等）和近临界（\(t_i\) 很接近 \(t_c\)）情形也成立（此时收敛极限仍是 \(\lambda_+\) 但过程更复杂）。

关键设定与假设¶

在第二节记号基础上，本文需要以下假设（详见论文第2节）：

矩条件（Asn 1-2）：\(\mathbf{x}\) 和 \(\mathbf{y}\) 的条目独立同分布，均值为 0，方差为 1，且 四阶矩有限（\(\mathbb{E}[x_{11}^4] < \infty\) 等）。对于 \(\mathbf{z}\) 条目，只要求二阶矩存在。这是普适性论证的所需的最弱条件（参考 [11] 的 local law 条件）。
谱假设（Asn 3）：确定性协方差矩阵 \(\mathbf{C}_1, \mathbf{C}_2\) 的谱范数有界且谱分布收敛到某个极限分布（可能是非退化的）。这保证未变形部分（噪声）的谱行为可被 MP 律描述。
秩假设（Asn 4）：相关结构的秩 \(r\) 固定，总体典型相关系数平方 \(t_1 \ge \cdots \ge t_r > 0\)（且 \(t_r\) 严格大于某个下界，但可以很小）。允许退化（\(t_i = t_j\)）和多重性。
维度比例（Asn 5）：\(p/n \to c_1 \in (0,1), \quad q/n \to c_2 \in (0,1-c_1)\)。这意味着 \(p\) 和 \(q\) 都小于 \(n\) 且 \(p+q < n\)，确保样本协方差矩阵可逆。这是经典高维 CCA 的假设（否则需要 shrinkage）。
与已有文献的对比：相比 Bao et al. (2017) 的 Gaussian 假设，本文放宽到有限四阶矩（普适性）；相比 Yang (2020) 的局部律结果，本文增加了有限秩相关结构，并聚焦于相变而非最大特征值的 Tracy-Widom 极限。

主要结果¶

定理 2.1（主定理）：在假设下，对每个 \(i=1,\ldots,r\)： - 定义 \(f_i = \frac{c_1 c_2 (t_i - t_c)}{c_1 + c_2 - c_1 c_2 (1 - t_i)}\)（即决定是否高于门槛的归一化量）。若 \(t_i > t_c\)，则 \(\widetilde{\lambda}_i \xrightarrow{a.s.} \theta_i\)，其中 \(\theta_i\) 是方程 \(1 - t_i = \frac{c_1 c_2 (\theta_i - \lambda_+)}{(c_1 + c_2 - c_1 c_2) \theta_i + c_1 c_2 \lambda_+}\) 的唯一解（这里只是示意，准确公式见原文 (2.2)）；若 \(t_i \le t_c\)，则 \(\widetilde{\lambda}_i \xrightarrow{a.s.} \lambda_+\)。此外，当某些 \(t_i\) 等于 \(t_c\) 或彼此相等时，该收敛依然成立。

技术难点：在退化或近临界情形，不同的特征值可能紧随其后，需要在 resolvent 展开中处理相变点处的分析（Riccati 方程出现分支）。作者通过精确刻画 resolvent 在相变点附近的渐近行为（Lemma 4.5, 4.6）克服了这一点。

定理 2.2（普适性）：只要四阶矩条件满足，上述收敛结果与条目分布的具体形式无关。证明基于四阶矩匹配方法（moment comparison），即将任意条目分布替换为 Gaussian，利用局部律可知 resolvent 的对角与 off-diagonal 项在期望意义下的差异可被控制到足够小。

证明路线与技术技巧¶

整体路线（3-5步）：

自伴线性化：将样本典型相关矩阵 \(\mathcal{C}_{XY}\) 扩展为一个 \((p+q) \times (p+q)\) 的 Hermite 矩阵 \(G\)（称为“变形 Gram 矩阵”），使得 \(\mathcal{C}_{XY}\) 的非零特征值与 \(G\) 的部分特征值对应。这一步是经典的（[47] 亦用）。具体地，
\[G = \begin{pmatrix} 0 & \Sigma_{xx}^{-1/2} S_{xy} S_{yy}^{-1} S_{yx} \Sigma_{xx}^{-1/2} \\ 0 & 0 \end{pmatrix}? 不，实际构造为 \tilde{G} = \begin{pmatrix} 0 & \tilde{A} \\ \tilde{A}^* & 0 \end{pmatrix} \text{ 其中 } \tilde{A} \text{ 是某标准化矩阵}。\]
作者使用了已知的引理：\(\mathcal{C}_{XY}\) 的非平凡特征值（除去可能为零的）与 \(G\) 的最大特征值的关系。
各向异性局部律（Theorem 3.1, 来自 [47]）：对变形 Gram 矩阵 \(G\) 的 Green 函数 \(G(z) = (G - z)^{-1}\) 建立几乎必然的局部律：存在确定性矩阵 \(\Pi(z)\)（平均 Green 函数），使得对每个向量 \(v,w\)，有
\[|\langle v, (G(z) - \Pi(z)) w \rangle| \le \frac{\|v\| \cdot \|w\|}{\sqrt{n} \, \eta} \quad \text{with high probability},\]
其中 \(\eta = \Im z\)。这是整个证明的骨架。
Riccati 方程分析：确定性极限 \(\Pi(z)\) 满足一个 Riccati 型方程（源自矩阵 \(G\) 的块结构）。通过分析该方程的解及其分支点，可以导出 \(\mathcal{C}_{XY}\) 的特征值相变条件：阈值 \(t_c\) 恰好是方程出现多解的点（即 \(\Pi(z)\) 的奇点发生移动）。作者在引理 4.2 和 4.3 中详细推导了 \(\Pi(z)\) 的解析性质，并确定了 \(t_i > t_c\) 时会出现一个孤立谱点。
匹配与收敛：利用局部律，可以证明若总体特征值 \(t_i\) 高于阈值，则样本特征值 \(\widetilde{\lambda}_i\) 将以概率 1 收敛到 \(\theta_i\)（即 \(\Pi(z)\) 在 \(z=\theta_i\) 处有极点）。对于低于阈值的特征值，其 resolvent 的迹逼近 Marchenko–Pastur 律，因而特征值收敛到 \(\lambda_+\)。退化情形通过紧支撑分析（Lemma 4.5, 4.6）处理，证明了当 \(t_i=t_c\) 时，\(\widetilde{\lambda}_i\) 的收敛速度是 \(n^{-2/3}\) 阶（与边缘波动一致）。
普适性论证：对任意条目分布，先用四阶矩匹配与局部律结合（引用 [5, 6] 的技术），证明局部律的误差界中不需要 Gaussian 假设，只要四阶矩有限。然后重申主定理中的所有推导均可在这个局部律下完成，因此普适。

关键跳跃点： - 线性化的选择：不同于 CCA 矩阵的直接研究，作者依赖一个名为 \(\mathcal{L}_{XY}\) 的对称版本（公式 (2.4)），这个选择使得 resolvent 的块结构简单、Riccati 方程可解。 - 退化与近临界情形的处理：通常的局部律只能在谱间隙中使用；当 \(t_i\) 靠近 \(t_c\) 时，\(\theta_i\) 非常接近 \(\lambda_+\)，导致 resolvent 的分母接近于零，需要精细的 对局部律的 uniform 控制（Lemma 4.5）。作者利用实分析中的 分支点扩张（bifurcation analysis）控制这些点的位置。

技术技巧点名： - 各向异性局部律（anisotropic local law, Knowles-Yin 2014; Yang 2020）：用于处理非单位协方差背景（\(\mathbf{C}_1, \mathbf{C}_2\)）。 - Riccati 方程分析（类似带有矩阵系数的代数 Riccati 方程）：得到确定性 Green 函数的解析表达式，找到谱点的位置。 - 四阶矩匹配（moment comparison, 来自 Erdős-Yau 系列）：通过比对不同分布的四阶累积量，证 state 局部律的误差在期望意义下可忽略（Lemma 5.1）。 - 强近似 / 浓度不等式（如用 Chernoff 界控制 \(\|S_{xx} - \Sigma_{xx}\|\) 的谱范数），但本文主要依赖局部律中的高概率估计。

真实例子与应用¶

本文为纯理论论文，无实证例子。作者在引言中提到了应用场景（基因学、成像），但未提供任何真实数据分析或模拟实验。唯一涉及数据的是在方程中使用了通用的高斯/独立模型，并无实际数据案例。

🔎 结论是否比证明窄¶

确实是结论和证明匹配的。主定理的叙述（Theorem 2.1, 2.2）的所有条件都被证明中使用了（四阶矩、维度比例、秩固定）。唯一可能拓宽的是：结论仅针对几乎必然收敛，未涉及其自然波动（分布）。作者在引言中提到，对于近临界情形，特征值的极限分布可能由 Tracy–Widom 律描述（但未证明，仅引用 [47] 在无相关结构时的结果）。此外，文中没有 claim 任何关于特征向量的结果，尽管在 Bao et al. (2017) 中有部分特征向量收敛的结论。因此结论的 scope 就是特征值的 a.s. 收敛，没有额外泛化。

四、开放问题¶

波动分布（CLT）的普适性：本文只证明了 几乎必然收敛。对于远离临界值的 outlier 特征值 \(\theta_i\)，其波动究竟是 Gaussian 的还是依赖于条目分布的非普适分布？这在变形 Wigner 矩阵中已发现有非普适性（[9, 20]）。本文作者在引言末尾提到“the fluctuations of the outliers are typically Gaussian”不确定。扎根语句：摘要中“we prove that these results hold universally...”，但未提波动。作者在 Section 6 讨论了 future work 包括“one may further study the fluctuations”，但未做出承诺。
允许 \(p\) 或 \(q\) 大于 \(n\)：本文假设 \(p+q < n\)，以保证样本协方差可逆。但许多现代应用中 \(p+q > n\)（如 genomics），此时需要正则化（惩罚 CCA）。本文的框架能否推广到不可逆情形？扎根：假设 Asn 5 明确要求 \(c_1+c_2<1\)。作者在引言中未讨论此限制。
更弱的矩条件：四阶矩条件来自 local law 的基本假设（需控制 \(\max_{i,j} \mathbb{E}|h_{ij}|^4\)）。是否可以将矩条件降低到二阶矩+对数型增长率（如 [5] 对 Wigner 矩阵所做）？扎根：作者在引言中说“sharp fourth moment conditions”，暗示四阶矩是紧的？但未给下界。可以去查阅 [11, 47] 的基础假设是否确实需要四阶矩。
秩估计与假设检验：本文的收敛行为暗示了一个自然的阈值检测方法：小于 \(\lambda_+\) 的特征值可能是噪声。但若总体秩 \(r\) 未知，能否基于此构造一致的秩估计器？扎根：作者在引言中提到了应用动机是“detect the number of canonical correlations”时，但正文未推导检验统计量。这是一个直接的高维假设检验问题（如 [23] 对单 spike 的似然比过程），但在 \(r>1\) 下尚未解决。

Maintained by 陈星宇 · Homepage · Source on GitHub