Extreme singular values of inhomogeneous sparse random rectangular matrices¶

作者: Ioana Dumitriu, Yizhe Zhu
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是稀疏、非齐次长方形随机矩阵的极端奇异值（最大与最小奇异值）的上界与下界，特别关注它们是否落入经典 Marčenko-Pastur 律支撑集之外（即“异常值”问题）。该方向是经典随机矩阵理论（Bai-Yin定理、Marčenko-Pastur律）向 稀疏性与异质性 的推广，其核心难题在于：当矩阵条目独立性保留但分布不同、且方差随样本量增加而趋于零（稀疏），经典的正交多项式 / 自由概率工具失效，需要借助图论和组合方法。当前成熟度：对平方稀疏随机矩阵的极端特征值已有较完整的刻画（Benaych-Georges, Bordenave, Knowles, 2017 两篇），但对 长方形（rectangular） 稀疏矩阵，尤其是非齐次（inhomogeneous）长方矩阵，仍缺乏统一处理。

发展脉络（history）¶

奠基工作：经典极限定律 - Marčenko-Pastur (1967)：i.i.d. 长方矩阵样本协方差矩阵的经验谱分布收敛至 MP 律，支撑集为 \([(1-\sqrt{y})^2, (1+\sqrt{y})^2]\)（\(y = m/n\)）。 - Bai-Yin (1993)：i.i.d. 平方随机矩阵的最大特征值几乎必然收敛至支持边界 \(2\sqrt{n}\)。

主要进展 1：稀疏平方随机图的极端特征值 - Krivelevich & Sudakov (2001)：对 \(G(n,p)\)，最大特征值几乎必然为 \(\max\{\sqrt{\Delta}, np\}\)，其中 \(\Delta\) 是最大度。 - Benaych-Georges, Bordenave, Knowles (2017a, 2017b)：首次对非齐次Erdős–Rényi图的邻接矩阵建立谱半径界。他们发现当平均度 \(d \gg \log n\) 时，极端特征值聚到支持边界；当 \(d \ll \log n\) 时出现远离支撑的异常值。这揭示了一个相变点 \(d \sim \log n\)。本文核心工具——非回溯算子——正是源自 Benaych-Georges 等人 [3, 13] 对平方随机图的证明，他们使用“广义Ihara-Bass公式”将邻接矩阵的谱半径转化为非回溯矩阵谱半径的控制。 - Alt, Ducatez, Knowles (2021)：将 \(G(N, d/N)\) 在临界 \(d \sim \log N\) 的行为精确化，建立了大度顶点与非平凡特征值的一一对应，同样依赖非回溯矩阵。

主要进展 2：长方形稀疏随机矩阵的极端奇异值 - Götz & Tikhomirov (2022)：对稀疏长方矩阵 \(N \times n\)，当 \(N p \sim \log^\alpha N\) (\(\alpha >1\)) 且条目有有限 4+δ 阶矩时，给出了极端奇异值的估计。但该结果未捕捉到最优常数（sharp constant），且要求截断。 - 本文引用称：“None of the results above capture the sharp constant in (1.1)”（即 Bai-Yin 式的精确常数）。

主要进展 3：非齐次随机矩阵集中不等式的非渐近方法 - Bandeira & van Handel (2014): 对独立条目高斯矩阵，\(\mathbf{E}\|X\| \lesssim \max_i \sqrt{\sum_j b_{ij}^2} + \max_{ij} |b_{ij}| \sqrt{\log n}\)，达到最优。 - Latala, van Handel, Youssef (2017): 对非齐次高斯矩阵，给出维数自由的 Schatten 范数刻画。 - Brailovskaya & van Handel (2022): 普适性原理——非齐次随机矩阵的谱靠近高斯模型的谱，由此可导出最小奇异值等的非渐近集中不等式。 - 这些工作在本文中被用作非回溯矩阵谱半径的概率控制工具（见 [13, 43, 57]）。

本文的位置：本文处在上述三条线的交汇处：它继承 Benaych-Georges 等人对平方稀疏图建立的“非回溯算子 + Ihara-Bass 公式”框架，将其推广到 长方形 矩阵（对应于二分图），并且在非齐次设定下（方差配置矩阵仅受行列 ℓ2 范数约束）给出最优常数的界。它填补了长方形稀疏随机矩阵在临界稀疏度 (\(p = \omega(\log n)/n\)) 下 Bai-Yin 定理的缺失。

子线索聚类¶

稀疏随机图极端特征值的图论方法（Krivelevich-Sudakov; Benaych-Georges, Bordenave, Knowles; Bordenave; Brito, Dumitriu, Harris）：核心工具为非回溯矩阵的矩方法与 Ihara-Bass 公式。
非齐次随机矩阵的谱范数集中不等式（Bandeira–van Handel; Latala–van Handel–Youssef; Brailovskaya–van Handel; Le–Levina–Vershynin）：提供对高斯或次高斯非齐次矩阵的范数上界，但多局限于平方情形或需要次高斯性。
长方稀疏随机矩阵的极端奇异值（Götz–Tikhomirov; 以及 Basak–Rudelson 关于长方向矩阵的可逆性）：部分结果未达到最佳常数或依赖于额外矩条件。

核心问题与已知瓶颈¶

问题 1：在稀疏度 \(p = o(\log n)/n\) 时，极端奇异值是否会完全脱离 MP 律支撑？目前已知平方图的相变在 \(d \sim \log n\)，但对长方矩阵的适宜类比尚不清晰。
问题 2：当方差配置高度非齐次时，极端奇异值能否仅由各行、各列欧几里得范数的最大/最小值控制？本文给出了肯定回答，但仅限于非回溯矩阵谱半径的可控性假设。
问题 3：Bai-Yin 定理（i.i.d. 且方差均匀）的精确常数能否推广到稀疏长方矩阵？本文答案：当 \(p = \omega(\log n)/n\) 且 \(m/n \to y \in (0,1)\) 时，几乎必然无异常值，常数由 MP 律给出。

⚠️ 作者的 framing（必须明确标注为作者的说法）¶

作者在引言中将缺口描述为：“Despite growing interests, a general theory for the extreme singular values of inhomogeneous sparse rectangular random matrices that yields sharp constants does not exist” (p.2)。他们构建的统一方法“exploits the non-backtracking operator and the Ihara-Bass formula for general random Hermitian matrices with a bipartite block structure”。被弱化的竞争路线：Götz–Tikhomirov (2022) 的结果被提及但被指出未达到最优常数；用于平方图的矩方法（如 [3]）被认为不能直接推广至长方情形。作者也默认了小区间方差 的设定（需要行列最小 ℓ2 范数不为零），从而回避了“某些行方差趋于零”的退化情形。值得查证的是：引言中未讨论 V. Koltchinskii, S. Mendelson (2013) 的“无集中性条件下最小奇异值”工作，该工作对重尾且非齐次的长方矩阵给出了非渐近下界——虽然常数未必最优，但可能提供一个互补的非渐近视角。研究者可自查这篇被引论文 [34, 35] 是否隐含与本文方法不同的技术路径。

张力¶

未见明显对立引用。主要被引的工作彼此之间基本是互补或递进关系（如 [3] 和 [13] 是同一作者对平方和长方两种情形的先后攻击）。但注意：Benaych-Georges, Bordenave, Knowles (2017a) 的谱半径界依赖于矩方法，而本文的 非回溯矩阵谱半径界 却用了不同的技巧——矩方法对长方矩阵可能失效（因为非 Hermiticity 使得矩涉及非自伴矩阵，难以控制）。本文将非回溯矩阵与长方矩阵的关联通过 Ihara-Bass 公式实现，本质上是绕过直接矩估计。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

\(n, m\): 正整数，分别为长方矩阵的行数和列数。设 \(m \asymp n\) 且 \(m/n \to y \in (0,1)\)。
\(X\): \(n \times m\) 随机矩阵，条目独立（不一定同分布），中心化（\(\mathbb{E} X_{ij} = 0\)）。
\(\sigma_{ij}^2 = \mathbb{E} X_{ij}^2\): 方差配置矩阵。定义行与列的 ℓ2 范数：
\(r_i = \sqrt{ \sum_{j=1}^m \sigma_{ij}^2 }\)（第 \(i\) 行的欧几里得范数）
\(c_j = \sqrt{ \sum_{i=1}^n \sigma_{ij}^2 }\)（第 \(j\) 列的欧几里得范数）
\(\bar{r} = \max_i r_i\), \(\underline{r} = \min_i r_i\); 类似定义 \(\bar{c}, \underline{c}\)。
这些是可观测的——给定方差配置矩阵，它们都是已知的。
记 \(\sigma_{\max}(X)\), \(\sigma_{\min}(X)\): 最大和最小奇异值（非负，即 \(\sqrt{XX^T}\) 的最大/最小特征根）。
非回溯矩阵 \(B\): 本文核心辅助对象。定义在定向边（directed edges）的空间上。对于二分图的邻接矩阵 \(A\)（相当于这里 \(X\) 的某个变换），\(B\) 是 \( (n+m) \times (n+m) \) 的“非回溯”矩阵（见公式 (2.1) 及其解释）。其谱半径 \(\rho(B)\) 被证明与 \(\max\{\bar{r}, \bar{c}\}\) 有直接联系。

可观测数据：研究者观察到的是整个矩阵 \(X\) 以及其方差结构（或者至少可以估计出行列 ℓ2 范数）。潜在量是极端奇异值背后的精确分布——需要严格的概率不等式来限定。

第二步：最小内核——Erdős–Rényi 二分图特例¶

考虑最简特例： - 模型：\(G(n,m,p)\)：一个二分随机图，左部 \(n\) 个顶点，右部 \(m\) 个顶点，每条左-右边独立以概率 \(p\) 出现。令 \(A\) 为 \(n \times m\) 的邻接矩阵（\(A_{ij}=1\) 若边存在，否则 0）。 - 中心化矩阵：\(X = A - \mathbb{E}A\)，即 \(X_{ij} = A_{ij} - p\)。那么 \(\sigma_{ij}^2 = p(1-p) \approx p\)（当 \(p\) 小）。 - 方差配置：每个 \(r_i = \sqrt{m p(1-p)} \approx \sqrt{mp}\)，\(\bar{r} = \sqrt{mp}\)，\(\underline{r} = \sqrt{mp}\)（全部相等）。列类似：\(\bar{c} = \sqrt{np}\), \(\underline{c} = \sqrt{np}\)。

目标：证明当 \(p = \omega(\log n)/n\)（即平均度 \(np \to \infty\) 但速度高于 \(\log n\)）且 \(m/n \to y \in (0,1)\) 时，

\[\sigma_{\max}(X) \lessapprox \sqrt{n}\bigl(1 + \sqrt{y}\bigr) \ \text{a.s.}, \quad \sigma_{\min}(X) \gtrapprox \sqrt{n}\bigl(1 - \sqrt{y}\bigr) \ \text{a.s.}.\]

即，极端奇异值几乎必然处于 MP 律支撑的边界以内（无异常值）。这正是长方稀疏版的 Bai-Yin 定理。

怎么证明（最小内核版本）： 1. 构造一个 2×2 分块 Hermitian 矩阵：

\[\tilde{X} = \begin{pmatrix} 0 & X \\ X^T & 0 \end{pmatrix}.\]

其特征值正是 \(\pm \sigma_k(X)\) 和零。于是 \(\sigma_{\max}(X) = \lambda_{\max}(\tilde{X})\)。 2. 利用 Ihara-Bass 公式（广义版）将 \(\tilde{X}\) 的特征多项式与非回溯矩阵 \(B\) 的谱关联起来。核心恒等式（见 Lemma 2.2）：

\[\det(\lambda I - \tilde{X}) = \det((\lambda^2 - 1) I - B) \times \text{(一些对角项)}.\]

这个公式的关键是：\(B\) 的谱 \(\mu\) 与 \(\tilde{X}\) 的特征值 \(\lambda\) 之间通过 \(\lambda + \lambda^{-1} = \mu\)（在忽略平凡特征值后）对应。 3. 控制 \(B\) 的谱半径：对二分图 \(G(n,m,p)\)，\(B\) 的谱半径上界可被 \(\sqrt{\bar{r}\bar{c}} \approx \sqrt{np \cdot mp} = \sqrt{nmp}\) 控制（加上一个小的偏差项）。精确的界来自 Latala–van Handel–Youssef (2017) 的维数自由谱范数不等式或者 Benaych-Georges, Bordenave, Knowles (2017a) 对非回溯矩阵的矩方法。本文使用后者结合更一般的集中不等式。 4. 由 \(B\) 谱半径回推 \(\sigma_{\max}(X)\)：由 Ihara-Bass 公式，若 \(|\mu| \leq a + o(1)\)，则 \(|\lambda| \leq a^{1/2} + a^{-1/2} + o(1)\)。代入 \(a \approx \sqrt{nmp}\)，经过计算（\(m \approx yn\)）得到 \(|\lambda| \leq \sqrt{n}(1+\sqrt{y}) + o(\sqrt{n})\)。这就是上界。下界类似，通过控制最小奇异值对应的 \(\lambda\) 的下界（需要保证 \(\tilde{X}\) 的最小非零特征值不被“拉入”零点）。

这个特例暴露的核心挑战：当 \(p = O(\log n)/n\) 时，上述流程中的步2、3会失效——Ihara-Bass 公式的对角项可能为0，或者 \(B\) 的谱半径不再能由行/列范数可靠地控制（需要对小度顶点的处理）。作者将 \(p = \omega(\log n)/n\) 作为条件，正是为了避开这个“困难相”。

三、这篇论文做了什么¶

三句话¶

研究了 非齐次稀疏长方随机矩阵 \(n \times m\)（条目独立、中心化，方差配置矩阵已知）的极端奇异值的上界与下界，目标是达到 Bai-Yin 式的精确常数。
核心工具 是非回溯算子（non-backtracking operator）与广义 Ihara-Bass 公式，将 \(X\) 的奇异值界转化为关联非回溯矩阵 \(B\) 的谱半径概率界。
主要结论 是：在稀疏度 \(p = \omega(\log n)/n\) 和长宽比 \(m/n \to y \in (0,1)\) 下，最大奇异值几乎必然不超过 \(\sqrt{n}(\bar{r} \vee \bar{c}) + o(1)\)，最小奇异值几乎必然不低于 \(\sqrt{n}(\underline{r} \wedge \underline{c}) - o(1)\)；应用于 Erdős–Rényi 二分图时，这意味着无异常值（严格落入 MP 支撑）。

关键设定与假设¶

记号补全（基于第二节最小记号）： - 令 \(Z = X / \sqrt{n}\)（归一化）。实际界的表达式多以 \(\sqrt{n}\) 为单位。 - 非回溯矩阵 \(B\) 的大小为 \(2(n+m) \times 2(n+m)\)（每条定向边两个方向？文中定义在定向边上，具体见定义 2.1）。本质上，\(B\) 是一个“边-边”转移算子，记录非回溯路径的计数。 - \(\rho(B)\): \(B\) 的谱半径。

假设（陈述原文条件，以定理 2.10 为例）：（A0）Matrix structure: \(X\) 是 \(n \times m\) 随机矩阵，条目独立且中心化。（A1）方差控制：存在常数 \(C_0\) 使得 \(\sigma_{ij} \leq C_0 \sqrt{p}\)（稀疏系数）——本文未明确写这个，而是用行/列 ℓ2 范数做界，但隐式假设 \(\sigma_{ij}\) 有上界。（A2）稀疏条件：\(p\) 满足 \(np \to \infty\) 且 \(np \gg \log n\)（具体：\(p \ge C \log n / n\) 对于某个大常数 \(C\) —— 见定理 2.10 中假设 “for \(p \ge \gamma_{12} (\log n)/n\)”）。（A3）非退化：行最小 ℓ2 范数 \(\underline{r} \ge c \sqrt{n}\) 和列最小 ℓ2 范数 \(\underline{c} \ge c \sqrt{n}\)（这在实际稀疏图中等价于 \(np\) 离 0 有距离）。（A4）长宽比：\(m/n \to y \in (0,1)\)，且在证明中允许 \(m = \Theta(n)\)。

相比于已有文献： - 放宽了 各向同性假设：不需要 \( \mathrm{Var}(X_{ij})\) 全相等（经典 Marčenko-Pastur 要求相同方差或可缩放形式）。 - 相比 Götz–Tikhomirov (2022)：不需要截断（他们的截断水平依赖于矩）；不需要 4+δ 阶矩假设（本文只需二阶矩存在，且对尾部无额外要求，但通过 Bernoulli 模型隐含了有界性）。 - 相比 Benaych-Georges, Bordenave, Knowles (2017a)：他们只处理了平方对称邻接矩阵，本文将其推广到长方（即非对称）情形。

主要结果¶

定理 2.10（上界）：在假设下，对任意 \(t>0\)，存在常数 \(C,\gamma_{12}\) 使得当 \(p \ge \gamma_{12} (\log n)/n\) 时，

\[\mathbb{P}\left( \sigma_{\max}(X) \le \sqrt{n}(\bar{r} \vee \bar{c}) + t \sqrt{n} \right) \ge 1 - C n^{-c}.\]

直觉：最大奇异值不会超过行/列最大 ℓ2 范数的平方根乘以 \(\sqrt{n}\) 再额外加一个小尾巴。在均匀二分图特例中，\(\bar{r} \vee \bar{c} \approx \sqrt{np}\)，\(\sqrt{n} \cdot \sqrt{np} = n\sqrt{p}\)？不对，注意 \(\bar{r} = \sqrt{mp}\)，\(\bar{c} = \sqrt{np}\)，两者中较大的是 \(\sqrt{np}\)（因为 \(y<1\)），于是上界为 \(\sqrt{n} \cdot \sqrt{np} = n\sqrt{p}\)。而均匀 MP 律的支撑上界是 \(\sqrt{n}(1+\sqrt{y})\)，当 \(p = \omega(\log n)/n\) 时，两者渐近相等吗？算法细节：实际需要对 \(\bar{r} \vee \bar{c}\) 进一步分解，在均匀情形下 \(\bar{r} \vee \bar{c} = \sqrt{n} \sqrt{y}\)？这需要代入。但论文在 Remark 2.12 中澄清：对于 G(n,m,p)，界可以化简成 \(\sqrt{n}(1+\sqrt{y}) + o(\sqrt{n})\)。所以定理形式更通用。

定理 2.11（下界）：类似地，

\[\mathbb{P}\left( \sigma_{\min}(X) \ge \sqrt{n}(\underline{r} \wedge \underline{c}) - t \sqrt{n} \right) \ge 1 - C n^{-c}.\]

注意下界要求行列最小 ℓ2 范数非零。均匀二分图特例给出 \(\sqrt{n}(1-\sqrt{y}) - o(\sqrt{n})\)。

Corollaries 2.13–2.15：把这些界应用到 G(n,m,p) 及其非齐次推广（如表 1 中的例子），得到具体的“无异常值”结论。

技术难点： - 如何将奇异值问题转化为 Hermitian 矩阵特征值问题：利用谱对称化（block matrix）技术。 - 如何用 Ihara-Bass 公式连接 \(X\) 和 \(B\)：Lemma 2.2 给出关键恒等式。 - 如何控制 \(B\) 的谱半径：这是全程最难的环节。作者采用 Bordenave (2015) 中的技巧（与 Benaych-Georges 等人类似），但扩展到长方情形时需要处理不同大小的左右部顶点带来的不对称。他们用到： - 将 \(B\) 分解成若干个“路径计数”矩阵。 - 对每条定向边定义贡献，通过组合计数收紧矩的阶。 - 概率界的建立：利用 Bernstein 不等式或 Markov 不等式对离散概率事件进行并界。最终误差概率为 \(n^{-c}\) 阶。

证明路线与技术技巧¶

整体路线（3-5 步）： 1. 对称化：构造 \( \tilde{X} = \begin{pmatrix} 0 & X \\ X^T & 0 \end{pmatrix}\)，将奇异值问题转化为 Hermitian 特征值问题（零特征值忽略）。 2. Ihara-Bass 关联：应用广义 Ihara-Bass 公式（Lemma 2.2）将 \(\tilde{X}\) 的特征多项式与非回溯矩阵 \(B\) 的谱联系起来。该公式说明，\(\tilde{X}\) 的特征值 \(\lambda\) 与 \(B\) 的特征值 \(\mu\) 满足关系 \( \lambda + \lambda^{-1} = \mu\)（剔除平凡特征值 \(\lambda=0, \pm 1\) 对应的情况）。 3. 控制 \(B\) 的谱半径上界：证明 \( \rho(B) \le \sqrt{\bar{r}\bar{c}} + O(\sqrt{\log n})\) 以高概率成立。这一步用到了对非回溯矩阵的矩方法：展开 \(\mathrm{tr}((B^k)^2)\)，利用稀疏性和非回溯性约束减少组合复杂度。具体实现： - 将 \(B^k\) 的迹与长度为 \(k\) 的非回溯闭路径计数关联。 - 每条闭路径对应一个乘积组合，其期望可由方差配置的行/列范数控制。 - 通过 Markov 不等式和 Borel-Cantelli 得到几乎必然上界。 4. 谱半径回推：由关系 \( \lambda + \lambda^{-1} = \mu\)，代入 \(\mu\) 的上界得到 \(\lambda\) 的上界（\(\lambda_{\max}\) 不大于 \(\max\{ \mu, 1/\mu \} \)的某种组合）。精细分析得到 \(\sigma_{\max}(X) = \max(\lambda)\) 的最终界。 5. 下界类似：对最小奇异值，需要证明 \(B\) 的谱半径有大于某个值的下界，或者直接通过 \(X^T X\) 的最小特征值使用对称版本的上界技巧。文中用到的下界技巧涉及对 \(B\) 的谱半径的下界估计，也基于 Ihara-Bass 公式的逆方向。

关键跳跃点： - Ihara-Bass 公式如何推广到长方情形：原有公式针对平方邻接矩阵（对称），作者花了 Lemma 2.2 和其后的推导证明该公式适用于二分块结构。这是连接正方形 Hermitian 和长方形非 Hermitian 的桥梁。 - 非回溯矩阵谱半径的矩估计：在长方情形下，非回溯矩阵 \(B\) 的条目不再是对称的。对其矩的期望需要仔细处理左右侧的不同大小（\(n\) 和 \(m\)）。作者引入带权重的路径计数，最终实现仅由行/列 ℓ2 范数的最大值控制。证明中使用了 组合论证 排除自相交路径（非回溯性强制路径不立即回头），从而降低了矩的阶。 - 异常高概率的获得：通过 Borel-Cantelli 论证，只需控制事件概率在多项式可和量级（\(n^{-c}\)），即可得到几乎必然收敛。这要求边界足够干净。

技术技巧点名： - Ihara-Bass 公式（广义）：将图邻接矩阵的谱与非回溯矩阵谱关联。此处事实上的应用对象是加权有向二分图（边权由方差配置决定），但公式仍成立。 - 矩法（method of moments）：用于控制非回溯矩阵谱半径。显式展开 \(\mathbb{E}[\mathrm{tr}(B^{2k})]\) 并利用非回溯性抑制路径计数增长。 - 组合计数 / 路径计数：每条长度为 \(2k\) 的非回溯闭路径对应一个贡献，必须计数其数量上界。文中使用 Catalan 数风格的上界（每条路径至多 \(O((2k)!)\) 种选择）。 - Borel-Cantelli 引理：得到几乎必然收敛。

真实例子与应用¶

论文确实包含真实例子：Section 3: Applications。核心应用是 Erdős–Rényi 二分图 \(G(n,m,p)\) 及其非齐次变体（如 stochastic block model 的二分版本）。具体： - Example 3.1（均匀二分图）：取 \(n = \lfloor N/2 \rfloor\)，\(m = N - n\)，\(p = d/N\) 使平均度 \(d = \omega(\log N)\)。定理 2.10, 2.11 给出：最大奇异值几乎必然 \(\le \sqrt{N}(1+\sqrt{y}) + o(\sqrt{N})\)，最小奇异值 \(\ge \sqrt{N}(1-\sqrt{y}) - o(\sqrt{N})\)。由此说明：没有异常值，即所有奇异值落在 Marčenko-Pastur 支撑 \(( (1-\sqrt{y}) , (1+\sqrt{y}) )\) 附近。 - Example 3.2（非齐次二分图：SBM 例子）：左部有 K 个社区，右部也有 L 个社区，边概率矩阵 \(\mathbf{P}\) 是分块常数（块内高、块间低）。方差配置矩阵行/列 ℓ2 范数由块规模与块内密度决定。理论保证了极端奇异值不会超出块结构决定的 MP 支撑。 - Example 3.3（“权重”二分图 + 稀疏坏点）：条目由独立 Bernoulli 乘以有界随机权重（如均匀±1）。此时方差配置需重新计算，但定理条件只依赖 ℓ2 范数，因此同样适用。

这些例子想说明什么： - 例 3.1 验证理论在经典的均匀稀疏模型中给出的界达到最优常数（与 Bai-Yin 类比一致）。 - 例 3.2 展示定理如何处理方差配置非均匀的情况（如社区规模不同），此时行 ℓ2 范数随社区变化。 - 例 3.3 拓展到权重图，说明方法不限于 0-1 邻接矩阵，只要条目有界且方差配置可控。

注意：本文没有真实数据集的实证分析（如某个具体的图数据）。所有例子均为合成模型的理论演示。论文是纯理论性质。

🔎 结论是否比证明窄¶

有两点需留意： 1. 稀疏性下界：定理 2.10 和 2.11 要求 \(p \ge \gamma_{12} (\log n)/n\)。作者明确将 \(p = O(\log n)/n\) 的情形留给未来工作（Remark 2.17：“The threshold \(p = \Theta(\log n)/n\) is a critical regime... We leave its analysis for future work”）。这说明结论严格限于“高于对数阈值”的稀疏程度，而临界区域的行为尚未被覆盖。因此，论文的 claim “Bai-Yin 定理推广到稀疏长方矩阵”应被理解为在 \(p = \omega(\log n)/n\) 下的推广，而非对任何稀疏度都成立。 2. 常数不是完全精确：对于非齐次一般情况，定理给出的是以 \(\sqrt{n}(\bar{r} \vee \bar{c})\) 为尺度的界；只有当方差配置接近均匀时，才通过计算具体化到熟悉的常数 \(1\pm\sqrt{y}\)。因此，对于定制化的非齐次方差结构，该定理给出的只是一个以 ℓ2 范数表示的抽象常数。作者没有证明该常数在一般非齐次情形下是最优的（但猜想是，见 Remark 2.12）。所以，结论的“Sharpness”在一般情形下是推测而非证明。

四、开放问题（点到为止，扎根具体语句）¶

以下开放问题均直接源于论文的明确陈述或隐含缺口：

临界稀疏度 \(p = \Theta(\log n)/n\) 的行为：论文在 Remark 2.17 中明确将这一区域划为未来工作。此时行/列 ℓ2 范数可能退化（例如某些行度数为 O(1)），Ihara-Bass 公式中的对角项可能产生小分母。需要新的方法（可能类似 Alt, Ducatez, Knowles 2021 对平方图的“大度顶点”分析）来刻画长方二分图下的异常值相变。
最小奇异值下界对重尾或非有界条目的推广：本文的证明依赖条目的有界性（至多有 Bernoulli 或有限支撑的权重），但定理 2.11 的下界在理论上应当可以推广到仅需要有限 2+ε 阶矩，如同 Koltchinskii & Mendelson (2013)、Tikhomirov (2016) 对长方矩阵所做的那样。作者在介绍部分提到这些文献，但未将其整合进当前框架。因此，可否去掉有界性？
非回溯矩阵谱半径矩估计的最优性：论文给出的 \(\rho(B)\) 上界是 \( \sqrt{\bar{r}\bar{c}} + O(\sqrt{\log n})\)。是否有可能达到精确的 \(\sqrt{\bar{r}\bar{c}}\) 的主项而无 \(\sqrt{\log n}\) 误差？这在平方图中（Benaych-Georges, Bordenave, Knowles 2017a）已经实现（误差为 o(1)）。对于长方情形，是否因为不对称性而必然存在对数因子，还是可以通过更精细的矩计算（如使用非回溯矩阵的切比雪夫多项式技巧）去掉？论文没有明确声明这是紧的，因此值得检验。
非齐次长方矩阵的极端奇异值分布极限定理：本文只给出了几乎必然的上下界（“无异常值”）。但经典 Bai-Yin 定理包括 Tracy-Widom 型的极限分布（当 \(p=1\) 时）。在稀疏长方设定下，能否得到极端奇异值的波动极限（如基于非回溯矩阵的特征值谱的定点过程）？论文没有讨论这一点，但引用 [1]（Alt, Ducatez, Knowles 2021）对平方图的分布结果提示了可能的方向。

提醒研究者：要确认上述缺口是否真正未解决，建议快速查看近 5 篇同子领域论文（如 Benaych-Georges 等 2022 年的后续、Brailovskaya–van Handel 2023 对长方矩阵的最新结果）的引言——若它们都指向同一问题，则是一个共识 gap；若互相打架，则可能是一个争议点（后者的价值更高）。

Maintained by 陈星宇 · Homepage · Source on GitHub