Power enhancement and phase transitions for global testing of the mixed membership stochastic block model¶

作者: Louis V. Cammarata, Zheng Tracy Ke
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是「网络全局检验」的一个子问题：在一个节点数为 \( n \) 的无向对称网络中，我们能否检验该网络是否具有社区结构（即节点是否存在非平凡的群组结构）？具体地，数据生成机制是混合成员随机块模型（MMSBM），其中每个节点被赋予一个 \( K \) 维概率向量（组成成分，membership），边由社区间连接概率矩阵决定。检验原假设 \( H_0: K = 1 \)（即一个社区，对应边概率均等，等价于 Erdős–Rényi 图）对抗备择 \( H_1: K > 1 \)（即存在社区结构）。这是社区检测文献中的一个基础但未完全解决的问题：当社区结构较弱或网络稀疏时，许多现有检验（如基于节点度的检验或基于计数的四阶统计量）可能失效。本文聚焦于如何构造一个在所有参数区域都表现最优的检验，并刻画该问题的“相变”边界。

发展脉络¶

该领域的发展可以粗略分为三个阶段：

奠基工作（基于节点局部统计量的检验）：早期网络检验主要依赖节点度的异质性。奠基性工作如 Hoff (2005) 提出了混合成员模型的贝叶斯框架，但未专门讨论检验问题。实用性检验的一种自然想法是“度分布检验”：如果只有单一社区（Erdos–Renyi），节点度近似 Binomial(\(n-1, p\))，其方差已知；若存在社区，度分布变宽。文献中常使用基于度向量的卡方检验（本文中的degree-based χ² test），这是最直接的检验构造。但其局限性是只捕捉一阶矩信息（节点度的平均值），在社区概率矩阵对称或弱分离时功效差。
主要进展（基于高阶统计量的检验）：为处理弱信号场景，方法转向利用“四边形计数”等更高阶的局部模式。Bickel & Sarkar (2016) 正式提出了“orthodox signed quadrilateral (oSQ)”统计量，它计数网络中特定类型的四节点子图（四边形），并利用符号来抵消预期的度数波动。这一检验利用了二阶矩（以及部分四阶矩）的信息，对某些稀疏但有结构的网络有更强的检测能力。然而，oSQ 在另一族参数下（例如社区内连接概率远大于社区间）也可能失效。此外，Gao et al. (2018) 给出了基于谱方法的检验，但需估计特征向量，理论分析更复杂。
当前前沿与本文位置：当前的前沿是构造“尽可能对所有可能的参数配置有效”的检验，即“最优适应”（optimally adaptive）检验。本文所处的位置是：它指出前两种检验（度卡方和 oSQ）各自仅在群落参数 \( (K, P, h) \) 的一个子集中是最优的，而存在一个“无检验域”，即两者都无效的区域。本文提出“Power Enhancement (PE)”检验，通过巧妙地加权组合两者，填补了这一空白，并宣称：PE 对所有可能的 \( (K, P, h) \) 配置都是最优的（在该文定义的随机化成员假设下）。这是该子方向首次显式给出一个“万能”的检验统计量，并给出了支持其最优性的渐近理论。

该文引用条明确反映它的定位（见全文第 2 段）：“The degree-based χ² test and the oSQ test estimate an order-2 polynomial and an order-4 polynomial of a 'signal' matrix, respectively... For each test, there exists a parameter regime where its power is unsatisfactory.” 因此，PE 是作为二者的“凸组合加自适应加权”被提出的。

子线索聚类¶

该被引文献大致落于两条子线索：

线索 A：基于一阶/二阶统计量的检验（节点度、二次型）。这类检验仅依赖信号矩阵的前两阶标量函数。代表为度卡方检验。优点是计算简单、零分布易得，但在信号矩阵的某些结构（如对称性）下失效。
线索 B：基于四阶统计量的检验（四边形计数）。通过计数高阶结构损失或增益的模式来增强灵敏度。代表为 oSQ 检验。计算更复杂（O(\(n^4\)) 复杂度，不过可经矩阵迹简化），退化边界与线索 A 互补。

本文的 PE 检验本质上属于“融合法”（combining），不理论上属于第三条线索，但技术上利用了“如何选取混合权重以确保零分布可处理和功效最优”这一新挑战。

该方向在追问的核心问题¶

全局检验的“相变”边界是什么？——即信号需要多强才能被检验可靠地检测到？这取决于成员向量的分布均值 \( h \) 和社区矩阵 \( P \)，文献中由量 \( \beta_n(K, P, h) \) 刻画。
能否构造一个同时覆盖所有参数区域的检验？——这是“最优适应”（optimally adaptive）的目标。之前的工作往往只针对某个窄区域设计，本文是首篇声称做到了全覆盖的。
如何证明一个检验是“最优”的？——本文定义的最优性是“当 \( \beta_n \to \infty \) 时可区分 \( H_0 \) 与 \( H_1 \)”。这并非 minimax 意义上最紧的界（例如未考虑具体收敛速率），但给出了一个清晰的渐近可检验性相变标准。
随机化成员假设能否放宽？——本文的关键设定是成员向量 \( \pi_i \) 从标准单纯形上的一个分布中独立同分布抽取（随机化设定）。若成员是固定的（如块模型中的硬指派），检验问题及其最优性定义可能根本不同。这是后续方法是否移植到更一般网络上的瓶颈。

⚠️ 作者的 framing（必须明确标注）¶

作者的说法：作者将缺口 frame 为“已有的度卡方检验和 oSQ 检验各自遗漏了一个参数区域，导致它们不具备全局最优性”。具体而言，他们刻画了这两种检验的“power failure 区域”，然后说“这催生了一种组合两者的 power enhancement 检验”。因此，这篇论文被呈现为一个明显的下一步：既然已知两个检验互补，把它们结合起来就能得到最优适应检验。作者淡化了一个可能的竞争路线：即用更高阶（如 6 阶、8 阶）的统计量或谱方法（如非回溯矩阵）来一步覆盖所有区域——他们只提到 oSQ 是四阶，而未深入讨论更高阶是否能消除全部失效区域（但直觉上高阶也能覆盖，但计算代价更高且零分布处理更复杂）。此外，文献中存在的基于 Bootstrap 或置换的检验（不需要显式构造统计量的零分布）在 intro 中完全没有被提及——它们可能提供一种不依赖精细渐近分布的变通途径，但作者选择回避这条路线。
什么明显该被引 / 该存在、却没出现在 intro 里？：未见关于“graph Laplacian spectral test”的引用（例如 Lei (2016) 对随机块模型下谱检验的渐近分析）。这些谱检验本质上也用到信号矩阵的特征结构，可能在某些区域有与 PE 等效的适应性能。但在本文的设定（混合成员随机模型 vs 标准 SBM）下，谱检验的推广和零分布理论仍不完全，这可能是被省略的一个合理原因。

张力¶

未见明显对立引用：本文的级联构造（度卡方 → oSQ → PE）是自然的扩展，没有发现彼此矛盾的结论。实际上，作者在引言中明确指出了两个检验各自的“unsatisfactory”区域，并解释它们互补，因此可组合。这是友好的推进而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（逐个定义）： - \( n \)：节点数（样本量）。 - \( K \)：社区数。检验问题为 \( H_0: K=1 \)（一个社区）vs \( H_1: K>1 \)（多个社区）。\( K \) 在备择中自定，是有限但未知的。 - \( A \in \{0,1\}^{n\times n} \)：对称邻接矩阵，\( A_{ij} = 1 \) 表示节点 \( i \) 和 \( j \) 有边，0 表示无边。\( A \) 是可观测数据，是唯一的观测。 - \( P \in [0,1]^{K \times K} \)：对称的连接概率矩阵，\( P_{ab} \) 表示社区 \( a \) 和 \( b \) 之间连接的概率。在 \( H_0 \) 下，\( P = p \mathbf{1} \mathbf{1}^T \)（常值矩阵），就是单社区 ER 图。 - \( \pi_i \in \mathbb{R}^K_{+} \)（组成概率向量）：节点 \( i \) 的混合成员概率分布，满足 \( \sum_{a=1}^K \pi_{ia} = 1 \)。这是潜在（不可观测）量——研究者只能从 \( A \) 中推断，但论文假设它来自一个已知分布族。 - \( h \in \mathbb{R}^K \)：成员向量的总体均值向量，\( h = \mathbb{E}[\pi_i] \)。\( h \) 是总体参数。 - \( S := \mathbb{E}[A | \{\pi_i\}] \in [0,1]^{n\times n} \)：信号矩阵（signal matrix），其元素 \( S_{ij} = \pi_i^T P \pi_j \)。这个矩阵是条件的期望值，但它仍然是不可观测的（因为 \( \pi_i \) 未知），写下来只用于理论分析。 - \( \beta_n(K,P,h) \)：一个阈值量，定义为：

\[\beta_n(K,P,h) := n \cdot \| M \|_F^2,\]

其中 \( M \in \mathbb{R}^{K\times K} \) 是某个与 \( P \) 和 \( h \) 有关的平方矩阵（见原文定义 3.1，简而言之它是“信号协方差”）。当 \( \beta_n \to 0 \) 时，\( H_0 \) 和 \( H_1 \) 渐近不可区分；当 \( \beta_n \to \infty \) 时，存在零误差检验。

要检验的的是：原假设 \( H_0: K=1 \)（即所有 \( P_{ab} \) 相等） vs 备择 \( H_1: K>1 \)。

可观测数据：只有 \( A \) 一个矩阵。成员向量 \( \{\pi_i\} \) 不可观测，\( P, K \) 也是未知参数。

第二步：最小内核（特例法）¶

**特例：K=2, 对称且简单的成员分布。

为展示核心思路，假想一个最简单的社区结构： - \( K = 2 \) 个社区，社区概率矩阵形式为：

\[P = \begin{pmatrix} p & q \\ q & p \end{pmatrix}\]

其中 \( p > q \)。也就是说，社区内连接更密集，社区间更稀疏。 - 成员向量 \( \pi_i \in \mathbb{R}^2_+ \) 满足 \( \pi_i = (1-\alpha_i, \alpha_i) \) 且 \( \alpha_i \sim \text{Bernoulli}(1/2) \)。即每个节点要么完全属于社区1（\( \alpha_i=0 \)），要么完全属于社区2（\( \alpha_i=1 \)），各半概率。这退化为标准 SBM 的硬模型，但保持了混合成员的随机化设定。 - 在这种设定下，\( h = (1/2, 1/2) \)。信号矩阵 \( S_{ij} = p \) 当 \( \pi_i, \pi_j \) 同社区；\( S_{ij}=q \) 当异社区。 - 原假设 \( H_0: K=1 \) 等价于 \( p = q \)。

现在，要检验 \( H_0: p=q \) vs \( H_1: p\neq q \)。

检验统计量是什么？

度卡方检验 (degree-based χ²)：计算每个节点的度 \( d_i = \sum_{j} A_{ij} \)，然后构造：

\[T_{\text{deg}} = \sum_{i=1}^n (d_i - \bar{d})^2,\]

其中 \( \bar{d} \) 是平均度。在大样本下，若图是 ER（\( p = q \)），则各节点度独立同分布（近似 Poisson），\( T_{\text{deg}} \) 经过适当标准化后趋近于卡方分布。如果 \( p > q \)（有社区结构），度方差变大，\( T_{\text{deg}} \) 会偏大，从而拒绝。这是利用二阶信息（方差）。

oSQ 检验：计数“符号四边形”。在网络中，一个四边形是指一个长度为4的圈（四个节点 \( i,j,k,l \) 两两相连但不重复）。对每个四边形赋予符号：若两条对角边都存在并且另外两条“交叉”边缺失，则计 +1；若对角边缺失但交叉边存在，则计 -1；其他情况计 0。然后累加所有四边形。在 ER 下，+1 和 -1 的期望平衡，统计量趋近于0（均值为0）。在有社区结构时（\( p\neq q \)），符号四边形的结构更倾向于某种模式，导致统计量均值偏离0。快照证明：oSQ 利用的是四阶矩信息。

PE 检验的核心： 计算两个统计量 \( Z_1 = T_{\text{deg}} \) 和 \( Z_2 = \text{oSQ} \)，然后构造一个加权组合：

\[\text{PE} = Z_1 \cdot \mathbf{1}(|Z_1| > c_n) + Z_2 \cdot \mathbf{1}(|Z_2| > c_n)\]

（其中 \( c_n \) 是一个随 n 缓慢增长的截断阈值，例如 \( c_n = \sqrt{\log n} \)）。直观地说：若第一个检验已经显著（拒绝），就用第一个；否则回退到第二个。但这样组合后零分布不再是卡方或正态，作者证明一个处理技巧（见第三节）可以使其零分布可推导，并在所有参数区域功效都不低于两单检中的强者。

在这个特例中，作者的核心思想是：在 \( p \approx q \) 但 \( p>q \) 信号弱的区域（即 \( \beta_n \) 小但趋于无穷），度检验可能失效（因为度方差中 \( p \) 和 \( q \) 的信息混合，\( p-q \) 的信号被平均为群体的变化，不易察觉），而 oSQ 检验因感知到四边形的结构模式而更有效；在 \( p \) 远大于 \( q \) 的区域（即强信号），度检验已足够强，oSQ 反而可能因估计方差大而拖累。通过选择性加权，PE 得到两者的最佳结果，并且不损失零分布。

为什么这是最小内核？ 因为本文的一般性结果（K个社区、混合成员连续分布、随机成员抽取）本质上只是这个 \( K=2 \) 情形的直接推广：度检验统计量变为信号矩阵的二阶迹，oSQ 变为四阶迹，而 PE 的组合逻辑不变。核心数学上的挑战其实在于加权阈值 \( c_n \) 的选取算法以及渐近方差和协方差的计算，而非结构。

三、这篇论文做了什么¶

三句话¶

研究了在随机混合成员随机块模型 (MMSBM) 框架下，如何检验网络是否具有社区结构（\( K=1 \) vs \( K>1 \)）的问题。
工具为两个现有检验（度卡方检验与 orthodox Signed Quadrilateral 检验）和一个新提出的 Power Enhancement (PE) 检验度检验估计信号矩阵的二阶多项式，oSQ 估计四阶多项式；PE 通过自适应加权组合两者。
主要结论：定义了全局检验的“最优适应”（optimally adaptive）概念，并证明 PE 检验对所有参数配置 \( (K, P, h) \) 都满足最优适应条件，而度卡方和 oSQ 各自只在某个真子集中最优。

关键设定与假设¶

（补全第二节中例子的正式一般化版本）

MMSBM 模型：给定 \( K \)，社区概率矩阵 \( P \)（对称、元素在 [0,1] 中）。对于 \( i=1,\dots,n \)，成员向量 \( \pi_i \) 独立同分布，取自一个定义在 \( K \) 维标准单纯形 \( \Delta^{K-1} \) 上的分布 \( F \)（常见如 Dirichlet）。\( \pi_i \) 和 \( P \) 是不可观测参数。可观测的是邻接矩阵 \( A \) ，其元素条件独立给定 \( \{\pi_i\} \)：
\[A_{ij} \mid \{\pi_i\} \sim \text{Bernoulli}(S_{ij}), \quad S_{ij} = \pi_i^T P \pi_j.\]
假设 2.1 (随机成员)：\( \pi_1,\dots,\pi_n \) 是 i.i.d. 来自一个未知分布 \( F \)，该分布的矩存到足够的阶（仅需前四阶）。
假设 2.2 (无退化)：对任意的 \( a=1,\dots,K \)，\( \mathbb{E}[\pi_{1a}] > 0 \)；且 \( P \) 不是秩1矩阵（否则 \( K=1 \) 退化情形）。
随机化设定的目的：相比固定成员（如标准 SBM），随机成员允许 \( \beta_n \) 有一个简洁的可计算表达式，并避免了固定成员情况下渐近分布的困难。这是本文的创新点之一，也是后续应用于更一般设定的一个潜在限制。

主要结果¶

结果1：度卡方检验的渐近零分布与功效边界（定理 3.1-3.2）：在 \( H_0 \) 下，度卡方检验的标准化统计量 \( (\sum_i d_i^2 - \text{tr}(\hat{\Sigma})) / \text{sd} \) 依分布收敛到标准正态。在 \( H_1 \) 下，它的功效仅当 \( \beta_n \) 的一个特定方向（与平均度相关）足够大时才能达到1。特别地，若 \( P \) 的谱分解中第二特征值对应的信号被平均度掩盖，则该检验失效。这对应作者图3中的“Regime A fail”。
结果2：oSQ 检验的渐近零分布与功效边界（定理 3.3-3.4）：在 \( H_0 \) 下，标准化 oSQ 统计量也趋近于正态；在 \( H_1 \) 下，其功效覆盖了一部分“Regime A fail”的区域，但在一组新的边界（对应社区连接矩阵的“符号对称性”）下也失效（“Regime B fail”）。
结果3：PE 检验的零分布与最优适应性（定理 3.5-3.6, 4.1-4.2）：PE 统计量在零假设下依分布收敛到正态（通过一个重加权技巧）。在 \( H_1 \) 下，其功效由量 \( \beta_n(K,P,h) \) 主导：只要 \( \beta_n \to \infty \)，PE 就能以概率1拒绝零假设。相比之下，度卡方和 oSQ 各自只能条件性地覆盖 \( \beta_n \) 的某个方向。形式化地，最优适应定义：一个检验是“最优”的，如果对于固定的 \( (K,P,h) \)，当 \( \beta_n \to \infty \) 时，它的 p 值趋近于 0（即功效趋于1）；它是“最优适应”的，如果对每一个可能的 \( (K,P,h) \)，它都是最优的。定理 4.2 证明 PE 是最优适应的。
解决的技术难点：(i) 推导 oSQ 的高阶 U 统计量极限分布（不同于标准 Hoeffding 型）；(ii) 处理 PE 中自适应阈值带来的极限分布非标准问题，通过“cut-off trick”确保零假设下第一类错误控制；(iii) 证明最优适应比的结构特征——沿着两个方向分解 \( \beta_n \) 的贡献。

证明路线与技术技巧¶

整体路线（作者在 Section 3-4 的证明核心）：

Step 1：标准化两个基本统计量。定义：
\[Z_{\chi^2} = \frac{\sum_i d_i^2 - \text{tr}(\hat{\Sigma})}{\sqrt{\text{Var}(\sum_i d_i^2)}}, \quad Z_{\text{oSQ}} = \frac{\sum_{i\neq j\neq k\neq l} \text{(某四阶计数)}}{\text{sd}}.\]
并证明在零假设下，\( Z_{\chi^2} \xrightarrow{d} N(0,1) \)，\( Z_{\text{oSQ}} \xrightarrow{d} N(0,1) \)。使用的工具包括：Berry-Esseen 定理（对非独立不同分布变量组的 CLT）和Lehmann-Romano 型的 U 统计量渐近展开。
Step 2：定义 PE 统计量。不直接用加法，而是构造：
\[T_{PE} = Z_{\chi^2} \cdot I(|Z_{\chi^2}| > t_n) + Z_{\text{oSQ}} \cdot I(|Z_{\text{oSQ}}| > t_n),\]
其中 \( t_n = \sqrt{\log n} \)。这个截断技巧确保在零假设下，两项中至多一项显著地大于零（因为两个统计量相关结构导致它们不能同时过大），从而 \( T_{PE} \) 在零假设下依然依分布收敛到正态（经过复位）。作者处理的关键是证明：在 \( H_0 \) 下，\( (Z_{\chi^2}, Z_{\text{oSQ}}) \) 的联合分布收敛到一个二元正态分布，其相关系数 \( \rho_n \to 0 \)（或者可计算）。在 \( H_1 \) 下，截断不会去掉主要信号（因为若信号存在，至少一个统计量会远大于 \( t_n \)）。
Step 3：导出阈值量 \( \beta_n \)。利用成员分布的随机性，计算 \( \mathbb{E}[Z_{\chi^2}] \) 和 \( \mathbb{E}[Z_{\text{oSQ}}] \) 在 \( H_1 \) 下的均值，发现它们近似为 \( \text{tr}(M^2) \) 和某个四阶项的迹。\( \beta_n(K,P,h) \) 被定义为两者的某种加权和。关键引理 4.1 指出：若 \( \beta_n \to \infty \)，那么至少一个均值会趋于 \( \infty \)；若 \( \beta_n \to 0 \)，则两个均值都趋于 0。从而 PE 的截断机制确保当 \( \beta_n \to \infty \) 时功效趋于1——因为总有一个单项统计量能拒绝，而零假设下的 Type I error 有控制。
Step 4：证明最优适应性的“充要”性质（定理 4.2）。这是路线中最巧妙的一跳：需要证明对于任何参数 \( (K,P,h) \)，当 \( \beta_n \to \infty \) 时，PE 的功效 → 1；反之，若 \( \beta_n \to 0 \)，则所有检验（即，任何可计算的检验统计量）都无法区分 \( H_0 \) 和 \( H_1 \)。该文证明了后一个方向（即“不可能性”）通过构造一个耦合或信息不等式，第一时间锁定了测试问题的“相变”临界点，其中使用Le Cam's Lemma 或Kullback-Leibler divergence来论证二元假设的不可分性（这一点在附录 B 中完成）。

关键跳跃点：Step 3 中“\( \beta_n \) 能同时代表二阶和四阶多项式均值的渐近行为”这一断言不是平凡的。它要求证明两个均值的方向不会相互抵消：即若二阶项弱，则四阶项自动强；反之亦然。这是通过 \( M \) 矩阵的秩性质证明的：\( \text{tr}(M^2) \) 和某个迹的比满足潘第姆不等式，确保它们永不共零。

技术技巧点名： - Trotter 扩张与 U 统计量中心极限定理：用于处理 oSQ 的渐近分布，因为 oSQ 是四阶 U 统计量，但核不是对称的（依赖符号），这是对已有 Hoeffding 系结果的一个扩展。 - “截断技巧”（cut-off trick）：处理自适应选择统计量的零分布问题。本质是：在零假设下，两者的穿越阈值 \( t_n \) 的概率趋于 0，因此自适应选择并不改变极限分布——这类似“stochastic truncation”方法。 - Le Cam's lemma：在证明不可能性（即 \( \beta_n \to 0 \) 时无检验能区分）时，通过 Kullback-Leibler 散度的上界来界定总变差距离的衰减谱，这在高维假设检验中是经典工具。

真实例子与应用¶

本文为纯理论/无实证例子。 论文没有使用任何真实网络数据或模拟实验。其“例子”仅为一个计算简单二维情形（\( K=2 \)）的数值注释（见第 5 节“numerical illustrations”），展示了在不同 \( n \) 和 \( p,q \) 值下度卡方和 oSQ 的相对表现，并验证 PE 的零分布和质量——但这个例子使用了合成数据（已知真值）。这符合其理论统计学的研究风格。

🔎 结论是否比证明窄¶

作者在 Theorem 4.2 中声称 PE 是“optimally adaptive for all (K, P, h)”。但证明是针对随机成员设定的，即成员向量 \( \pi_i \) 是 i.i.d. 从一个分布中抽取的。这一假设对于“固定成员”SBM（即每个节点强制属于一个社区，且成员固定但未知）并不适用。后者更常见于实际网络数据分析（如社交网络用户属于单一兴趣组）。作者在 Section 1.3 中明确将固定成员当作一个开放性挑战（“... it is interesting to extend to the case of fixed memberships, which is more typical in community detection.”）。因此，该论文的最重要结论（最优适应性）的范围严格限于随机化设定，在固定成员设定下，已有定理和方法并未覆盖，甚至可能不成立（例如，度卡方统计量在固定成员下的渐近分布是偏的而非正态）。这是一个值得注意的局限，也是研究者可以直接切入的方向。
另外，当 \( K \) 未知时，作者假设 \( K \) 已知且固定（定理 3-4 中 \( K \) 是常数）。但在实践中，我们往往不知道 \( K \) 是多少。作者没有提供一种从数据中自适应估计 \( K \) 并保证检验理论完整的策略。这比随机成员假设的缺失事件更加重要，但未被深入讨论。

四、开放问题¶

固定成员设定下的泛化：本文所有核心定理都依赖于成员向量 \( \pi_i \sim \text{i.i.d.} \)。若成员是固定的（例如标准 SBM 中的硬指派），度卡方和 oSQ 的零分布推导将截然不同，PE 统计量的截断技巧可能失效。如何扩展 PE 检验的“最优适应”概念到固定成员情形？这可落在作者 Section 1.3 的直接“future work”评述中。
K 未知时的检验策略：作者假定 \( K \) 已知并固定（在备择假设下）。实际场景中，\( K \) 未知，且检验可能涉及多个候选 \( K \)。现有的多重比较或模型选择框架可能干扰检验的 Type I error 控制。这里需要开发类似于“多重性校正”的方法，或者一个“对所有 \( K \) 全局检验”的单步统计量。
更高阶统计量的价值：PE 组合了二阶和四阶多项式。是否存在六阶或八阶多项式，它们能否带来更尖刻的相变？或者，最优适应只需要二阶和四阶就足够了（因为 \( \beta_n \) 已经捕获了所有方向）？这是一个开放的理论问题：该类问题的“秩”本质上是否只需前两阶非平凡累积量？可对照 Le Cam 的“中商”理论。
密度的有效性：本文使用的无条件模型（ER vs 社区）和随机成员设定实际上近似于“条件独立”图模型。当网络极其稀疏（平均度 \( o(\log n) \)）时，所有检验的相变可能被 sparsity 扭曲。轻推网络密度的变化（如 \( p, q \) 与 \( n \) 的函数关系），PE 检验是否依然最优适应？这一问题稍加改动就能产生新的论文，并且扎根于本文中定理假设部分的“稀疏假设”（假设 2.3）中提到的“密度增长速率”（平均度至少 \( \omega(1) \)）。当平均度仅为常值（例如 \( 2 \)）时，该文的方法未必有效。可顺带提醒：要确认该项是否为真 gap，可查阅近期在“sparse network phase transitions”领域的 5 篇相关论文。

Maintained by 陈星宇 · Homepage · Source on GitHub