Hypothesis testing for equality of latent positions in random graphs¶

作者: Xinjie Du, Minh Tang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是随机图模型中的统计推断问题，特别是针对潜在位置模型的假设检验。与传统的图模型研究重心——社区发现（估计）或模型选择（确定社区数）——不同，本方向的核心是对节点层面的潜在结构进行定量的统计检验：给定两个节点，判断它们是否共享相同的潜在位置（或等价地，是否属于同一社区 / 具有相同的成员向量）。该方向目前处于理论成熟期：谱嵌入的渐近正态性已有完整理论，检验统计量的极限分布已被严格推导，正从点估计向更精细的推断（置信域、假设检验、局部备择）深化。

发展脉络： 1. 奠基与模型建立（2001–2011）： - Girvan & Newman (2001) 提出了社区结构的概念与基于介数的检测方法，开启了网络社区发现领域。 - Airoldi et al. (2007) 提出混合成员随机块模型（MMSBM），允许节点属于多个社区。 - Karrer & Newman (2010) 提出度修正随机块模型（DCSBM），解决了传统 SBM 无法刻画节点度异质性的问题。 - Sussman et al. (2011) 证明了随机块模型下邻接谱嵌入的一致性，为后续推断奠定基础。

谱方法的理论突破（2013–2017）：
Rohe, Chatterjee & Yu (2010) 与 Lei & Rinaldo (2013) 建立了谱聚类在高维 SBM 设定下的一致性理论，即使最大期望度仅为 \(\log n\) 量级。
Jin (2012) 提出 SCORE 方法，通过特征向量比值消除度异质性，在 DCSBM 下实现高效社区检测。
Tang & Priebe (2016) 证明了归一化拉普拉斯矩阵特征向量的中心极限定理，为谱嵌入的渐近推断提供了关键工具。
Rubin-Delanchy et al. (2017) 提出广义随机点积图（GRDPG），统一了 RDPG、SBM、DCSBM 等模型，并证明了谱嵌入的渐近正态性。
模型选择与假设检验（2013–至今）：
Bickel & Sarkar (2013) 利用邻接矩阵最大特征值的极限分布检验 ER 模型 vs SBM。
Lei (2014) 提出基于残差矩阵最大奇异值的 SBM 拟合优度检验。
Wang & Bickel (2015) 研究了似然比统计量在模型误设下的渐近性质，提出 SBM 的模型选择准则。
Chen & Lei (2014) 与 Li, Levina & Zhu (2016) 分别提出了网络交叉验证方法用于社区数选择。
Tang et al. (2017) 研究了两样本随机图检验问题，判断两个图是否共享相同的潜在位置分布。
Fan et al. (2019) 在 DCSBM 设定下提出了检验节点成员向量的 Hotelling 型统计量（SIMPLE），是本文的直接前驱。
本文的位置：本文将 Fan et al. (2019) 的 SIMPLE 方法 从 DCSBM 推广到更一般的 GRDPG 框架，并统一了邻接矩阵与归一化拉普拉斯两种嵌入方式，给出了原假设与局部备择假设下检验统计量的精确卡方极限分布。

子线索聚类： 1. 谱嵌入的渐近理论：Tang & Priebe (2016), Rubin-Delanchy et al. (2017) 建立了谱嵌入的中心极限定理，是本文的理论基石。 2. 社区数选择与模型选择：Bickel & Sarkar (2013), Lei (2014), Wang & Bickel (2015), Chen & Lei (2014), Li et al. (2016) 关注如何选择正确的模型或社区数，本文将此问题转化为节点对等性检验。 3. 节点层面推断：Fan et al. (2019) 的 SIMPLE 方法与本文最接近，但限于 DCSBM；Fishkind et al. (2013) 的顶点提名问题也可视为相关推断任务。

核心追问： 1. 如何在随机图模型中对节点的潜在位置进行统计推断（置信域、假设检验）？ 2. 谱嵌入作为估计量，其渐近分布是什么？如何用于构造检验统计量？ 3. 在局部备择假设下，检验的功效如何刻画？ 4. 如何利用节点对等性检验解决模型选择问题（如 SBM vs DCSBM）？

作者的 framing：作者将本文定位为 Fan et al. (2019) 的自然推广：从 DCSBM 的特定结构推广到 GRDPG 的一般框架，并统一了邻接矩阵与拉普拉斯两种嵌入。作者强调 GRDPG 的统一性（SBM、DCSBM、PABM 均为特例），从而将本文的检验方法包装为"一把钥匙开多把锁"的工具。被淡化的竞争路线：基于似然的方法（如 Wang & Bickel 2015）和基于随机矩阵理论的方法（如 Bickel & Sarkar 2013）在 intro 中提及但未深入比较；作者聚焦于谱嵌入 + Mahalanobis 距离这一技术路线。缺失的引用：未讨论高维设定下协方差矩阵估计的困难（如正则化需求），也未提及可能的计算复杂度问题。

张力：未见明显对立引用。不同方法（谱方法 vs 似然方法）在不同设定下各有优势，但本文聚焦于谱方法的理论完善，未直接挑战其他路线。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号约定：
\(n\)：图中节点数。
\(A\)：\(n \times n\) 邻接矩阵，\(A_{ij} \in \{0,1\}\) 表示节点 \(i\) 和 \(j\) 之间是否有边。
\(L\)：归一化拉普拉斯矩阵，\(L = D^{-1/2} A D^{-1/2}\)，其中 \(D\) 是度矩阵。
\(X_i \in \mathbb{R}^d\)：节点 \(i\) 的潜在位置向量，不可观测。
\(X = [X_1, \ldots, X_n]^\top\)：\(n \times d\) 潜在位置矩阵。
\(P\)：边概率矩阵，\(P_{ij} = \mathbb{E}[A_{ij}]\)。
\(\hat{X}\)：\(X\) 的谱嵌入估计，通过对 \(A\) 或 \(L\) 的前 \(d\) 个特征向量构造。
\(\Sigma_i\)：节点 \(i\) 谱嵌入估计 \(\hat{X}_i\) 的渐近协方差矩阵。
\(H_0: X_i = X_j\)：原假设，两节点潜在位置相同。
\(H_1: X_i \neq X_j\)：备择假设。
模型（GRDPG）：广义随机点积图（GRDPG）定义如下：设 \(X_i \in \mathbb{R}^p\) 为节点 \(i\) 的潜在位置，\(I_{p,q} = \text{diag}(\underbrace{1,\ldots,1}_{p}, \underbrace{-1,\ldots,-1}_{q})\) 为符号矩阵。边的生成概率为：
\[P_{ij} = X_i^\top I_{p,q} X_j, \quad A_{ij} \sim \text{Bernoulli}(P_{ij}) \text{ 独立}.\]
当 \(q=0\) 时退化为 RDPG；当 \(X_i\) 取离散值时退化为 SBM；当 \(X_i = \theta_i \nu_k\)（\(\theta_i\) 为度参数，\(\nu_k\) 为社区向量）时退化为 DCSBM。
可观测数据：研究者只能观测到邻接矩阵 \(A\)（或等价地，拉普拉斯矩阵 \(L\)）。潜在位置 \(X_i\)、社区标签、度参数 \(\theta_i\) 均不可观测，需通过谱嵌入估计。

第二步：最小内核

考虑最简单的特例：随机点积图（RDPG，即 \(q=0\)）下的两节点检验。

问题：给定 \(A\)，检验 \(H_0: X_i = X_j\) vs \(H_1: X_i \neq X_j\)。
核心思路：
谱嵌入：对 \(A\) 做特征值分解，取前 \(d\) 个最大特征值对应的特征向量 \(\hat{U} \in \mathbb{R}^{n \times d}\)，构造 \(\hat{X} = \hat{U} \hat{S}^{1/2}\)（\(\hat{S}\) 为特征值对角阵）。
渐近正态性：已有理论表明，在适当条件下，
\[n^{1/2}(\hat{X}_i - X_i W) \stackrel{d}{\to} N(0, \Sigma_i),\]
其中 \(W\) 是正交阵（处理不可识别性），\(\Sigma_i\) 依赖于 \(X_i\) 和模型参数。
检验统计量：构造经验 Mahalanobis 距离
\[T_{ij} = n (\hat{X}_i - \hat{X}_j)^\top \hat{\Sigma}_{ij}^{-1} (\hat{X}_i - \hat{X}_j),\]
其中 \(\hat{\Sigma}_{ij}\) 是 \(\hat{X}_i - \hat{X}_j\) 协方差的一致估计。
极限分布：在 \(H_0\) 下，\(T_{ij} \stackrel{d}{\to} \chi^2_d\)（中心卡方分布）；在局部备择 \(X_i - X_j = n^{-1/2} \mu\) 下，\(T_{ij} \stackrel{d}{\to} \chi^2_d(\delta)\)（非中心参数为 \(\delta = \mu^\top \Sigma_{ij}^{-1} \mu\) 的非中心卡方分布）。
为什么成立：关键在于谱嵌入的渐近正态性（Delta method + 随机矩阵扰动理论）。\(\hat{X}_i - \hat{X}_j\) 在 \(H_0\) 下收敛到均值零的高斯分布，二次型自然导出卡方分布。局部备择下的非中心参数刻画了检验的灵敏度。
本文的一般化：上述特例推广到：(1) GRDPG（允许 \(q>0\)，即"异质性连接"）；(2) 归一化拉普拉斯嵌入（替代邻接矩阵嵌入）；(3) 显式推导非中心参数表达式；(4) 应用于模型选择（SBM vs DCSBM 等）。

三、这篇论文做了什么¶

三句话： 1. 研究了广义随机点积图（GRDPG）框架下检验两节点潜在位置是否相等的问题。 2. 核心方法是构造基于邻接矩阵或归一化拉普拉斯谱嵌入的经验 Mahalanobis 距离作为检验统计量。 3. 主要结论是在原假设和局部备择假设下，统计量收敛于（非中心）卡方分布，并给出了非中心参数的显式表达式。

关键设定与假设： - GRDPG 模型：\(P_{ij} = X_i^\top I_{p,q} X_j\)，允许 \(q>0\)（异质性连接，如"异性相吸"）。 - 潜在位置假设：\(X_i\) 独立同分布地从分布 \(F\) 中采样，或为确定性点；\(\mathbb{E}[X_i X_i^\top]\) 特征值有界远离零。 - 稀疏性假设：平均度 \(\bar{d} \gg \log^4 n\)（保证谱嵌入一致性）。 - 嵌入维度 \(d\) 已知：或通过现有方法（如特征值间隙）一致估计。 - 关键假设（相比已有文献的放宽）： - Fan et al. (2019) 要求 DCSBM 结构（\(X_i = \theta_i \nu_k\)），本文允许任意 \(X_i\)。 - 同时处理邻接矩阵和拉普拉斯嵌入，统一了两种技术路线。

主要结果：

定理 1（邻接谱嵌入的渐近分布）：
设 \(\hat{X}\) 为邻接矩阵 \(A\) 的谱嵌入，则在适当条件下，
\[n^{1/2}(\hat{X}_i - X_i W) \stackrel{d}{\to} N(0, \Sigma_i),\]
其中 \(W\) 为正交阵，\(\Sigma_i = \Delta^{-1} \mathbb{E}[X_1 X_1^\top (P_{i1} - X_i^\top I_{p,q} X_1)^2] \Delta^{-1}\)，\(\Delta = \mathbb{E}[X_1 X_1^\top]\)。
直觉：谱嵌入是潜在位置的一致估计，且具有渐近正态性；协方差结构反映了边生成噪声的累积效应。
定理 2（检验统计量的极限分布）：
定义检验统计量 \(T_{ij}^{\text{ASE}} = n (\hat{X}_i - \hat{X}_j)^\top \hat{\Sigma}_{ij}^{-1} (\hat{X}_i - \hat{X}_j)\)。
在 \(H_0: X_i = X_j\) 下，\(T_{ij}^{\text{ASE}} \stackrel{d}{\to} \chi^2_d\)。
在局部备择 \(X_i - X_j = n^{-1/2} \mu\) 下，\(T_{ij}^{\text{ASE}} \stackrel{d}{\to} \chi^2_d(\delta)\)，\(\delta = \mu^\top \Sigma_{ij}^{-1} \mu\)。
技术难点：需证明 \(\hat{\Sigma}_{ij}\) 是 \(\Sigma_{ij}\) 的一致估计，且 \(\hat{X}_i - \hat{X}_j\) 的联合渐近分布可刻画。
定理 3（拉普拉斯谱嵌入的对应结果）：
对归一化拉普拉斯 \(L = D^{-1/2} A D^{-1/2}\) 的谱嵌入 \(\tilde{X}\)，类似结果成立，但协方差结构不同：
\[\tilde{\Sigma}_i = \tilde{\Delta}^{-1} \mathbb{E}[X_1 X_1^\top (P_{i1} - X_i^\top I_{p,q} X_1)^2 / d_1] \tilde{\Delta}^{-1},\]
其中 \(d_i\) 为节点 \(i\) 的度，\(\tilde{\Delta}\) 涉及度加权的潜在位置协方差。
意义：拉普拉斯嵌入在稀疏图或度异质性强的场景下可能更稳健。
推论（模型选择应用）：
SBM vs DCSBM：在 SBM 下，同一社区内节点的潜在位置相同（\(X_i = \nu_k\)）；在 DCSBM 下，\(X_i = \theta_i \nu_k\)。通过检验 \(\hat{X}_i / \|\hat{X}_i\|\) 是否相等，可判断是否需要度修正。
ER vs SBM：ER 模型下所有 \(X_i\) 相同；SBM 下至少存在两个不同值。可通过多节点对检验识别。

证明路线与技术技巧：

整体路线：
步骤 1：建立谱嵌入的一致性（\(\hat{X} \approx X W\)），使用矩阵扰动理论（如 Davis-Kahan 或 Wedin 定理）。
步骤 2：推导谱嵌入的渐近正态性，关键工具是中心极限定理 + Delta method：
- 将 \(\hat{X}\) 表为 \(X\) 的函数 + 噪声项。
- 噪声项为独立 Bernoulli 噪声的聚合，可用 CLT 刻画。
- Delta method 将非线性变换（特征值分解）的渐近分布传递给 \(\hat{X}\)。
步骤 3：构造协方差估计量 \(\hat{\Sigma}_{ij}\) 并证明其一致性。
步骤 4：应用 Delta method 于 \(\hat{X}_i - \hat{X}_j\)，得到联合渐近正态性。
步骤 5：Mahalanobis 距离的二次型导出卡方分布。
关键跳跃点：
GRDPG 的符号矩阵 \(I_{p,q}\)：引入负特征值后，谱嵌入需处理"符号翻转"问题。作者通过广义特征值分解（保留特征值的符号信息）解决。
拉普拉斯嵌入的度归一化：\(D^{-1/2}\) 引入额外的随机性（度也是随机的），需精细刻画其对渐近分布的影响。作者使用了条件期望 + 随机矩阵扰动的组合技术。
协方差估计：\(\Sigma_i\) 依赖于未知参数 \(X_i\) 和 \(P_{ij}\)，需用 plug-in 估计。作者证明了 plug-in 估计的一致性，关键在于经验过程理论控制估计误差。
技术技巧点名：
Delta method：用于从特征值的渐近正态性推导特征向量的渐近正态性。
矩阵扰动理论：控制 \(\|A - P\|\) 对谱嵌入的影响。
经验过程 / 集中不等式：证明协方差估计的一致性。
随机矩阵理论：刻画邻接矩阵和拉普拉斯矩阵的谱性质。
耦合方法：在局部备择分析中，构造 \(X_i - X_j = n^{-1/2} \mu\) 的序列，追踪非中心参数的来源。

真实例子与应用：

模拟实验：
设定：SBM 和 DCSBM 模型，不同社区数、稀疏度、样本量。
方法：比较 ASE 和 LSE 两种嵌入下的检验统计量，验证经验分布与理论卡方分布的拟合度。
结果：在原假设下，经验分布与 \(\chi^2_d\) 吻合良好；在局部备择下，功效随非中心参数增加而上升，符合理论预测。
真实数据：American College Football 网络：
数据：2000 年 NCAA Division IA 大学橄榄球比赛网络，节点为球队，边为比赛。
任务：检验球队是否属于同一联盟（社区）。
方法：计算所有节点对的检验统计量，与已知联盟标签对比。
结果：检验统计量能有效区分不同联盟的球队，同一联盟内的 \(p\)-value 分布均匀（符合原假设），不同联盟间 \(p\)-value 显著偏小（拒绝原假设）。
真实数据：Leeds Butterfly 数据集：
数据：蝴蝶物种的生态网络，节点为物种，边表示相似性。
任务：检验 PABM（Popularity Adjusted Block Model）下的社区分配。
方法：应用本文检验判断物种是否属于同一生态群。
结果：检验结果与已知的分类学分组一致，验证了方法在 PABM 这一特例下的有效性。

结论是否比证明窄： - 定理陈述中明确要求 \(d\) 已知或一致估计，且平均度 \(\bar{d} \gg \log^4 n\)。这些条件在证明中是必需的，但作者在应用部分未详细讨论如何选择 \(d\) 或验证稀疏性条件。 - 局部备择假设要求 \(X_i - X_j = O(n^{-1/2})\)，这是经典 Pitman 备择设定，但作者未讨论更一般备择下的功效界。 - 模型选择应用（SBM vs DCSBM）依赖于启发式的"比值标准化"（\(\hat{X}_i / \|\hat{X}_i\|\)），理论保证未完全严格证明。

四、开放问题¶

高维稀疏设定下的检验：本文要求 \(\bar{d} \gg \log^4 n\)，在极稀疏网络（\(\bar{d} = O(1)\)）下谱嵌入的性质如何？检验统计量是否需要正则化修正？（扎根于定理 1 的稀疏性假设）
嵌入维度 \(d\) 的选择与检验的影响：本文假设 \(d\) 已知或一致估计，但实际中 \(d\) 的选择误差如何传递到检验统计量？是否需要联合推断？（扎根于第 3 节对 \(d\) 的讨论）
多节点联合检验 / 全局拟合优度：本文聚焦于两节点检验，如何扩展到多节点联合检验或整个图的拟合优度检验？是否可构造类似 \(\chi^2\) 的聚合统计量？（扎根于第 1 节提到的模型选择问题）
计算复杂度与大规模网络：谱嵌入需 \(O(n^3)\) 特征值分解，对超大规模网络是否可行？是否有随机化或近似算法？（扎根于真实数据应用部分的计算瓶颈）

提醒：要确认某条是否真 gap，建议读近 5 年网络推断领域的 intro——若多篇论文都提到"稀疏设定下的推断"或"维度选择的不确定性"，则为共识；若互相打架（如有人声称已解决），则需谨慎。

Maintained by 陈星宇 · Homepage · Source on GitHub

Hypothesis testing for equality of latent positions in random graphs¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论