A computational transition for detecting correlated stochastic block models by low-degree polynomials¶

作者: Guanyi Chen, Jian Ding, Shuyang Gong, Zhangsong Li
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2565

一、核心问题与贡献（3句话）¶

该论文在 相关随机块模型 检测问题中，确定了 low-degree 多项式检验的计算可行性精确阈值：当子采样概率 \(s\) 大于 \(\min\{\alpha, 1/(\lambda \epsilon^2)\}\) 时 low-degree 检验可区分相关图与独立 Erdős–Rényi 图，否则不可，其中 \(\alpha \approx 0.338\) 是 Otter 常数（树计数常数），\(1/(\lambda \epsilon^2)\) 是 Kesten–Stigum 阈值。核心工具是 条件的 low-degree 似然比计算变体，它结合 Otter 常数控制树状统计量的期望，并利用 Kesten–Stigum 阈值刻画信号强度。主要贡献：(i) 首次在 correlated SBM 检测中揭示由树计数常数与 KS 阈值共同决定的精确计算相变，(ii) 通过约化蕴含 partial recovery 与独立 block model 检测的 low-degree 困难性，(iii) 给出了信息-计算间隙存在的明确刻画。

二、基础设定¶

核心概念与符号：
父模型：\(S(n, \lambda n; k, \epsilon)\) — \(n\) 个节点，\(k=O(1)\) 个对称社区，平均度 \(\lambda=O(1)\)，社区间 divergence 参数 \(\epsilon\)（连接概率 \(a=b(1+\epsilon)\)，\(b=\lambda/n\)）。
相关子采样：从父 SBM 的两个独立副本分别以概率 \(s\) 保留边，得到相关图 \((G_1, G_2) \sim \text{CSBM}(n, \lambda n; k, \epsilon; s)\)。
零模型：两独立随机图 \(H_1, H_2 \sim G(n, \lambda s/n)\) (Erdős–Rényi)。
low-degree 多项式检验：次数 \(\le D\) 的多项式 \(f(A_1, A_2)\)（邻接矩阵的 entries），通过比较 \(f\) 的期望/方差判断两个分布。
Otter 常数 \(\alpha\)：\(\alpha = \lim_{t\to\infty} (t!)^{1/t} \cdot (t\text{ 的未标记树数量})^{1/t} \approx 0.338\)。
Kesten–Stigum 阈值 \(1/(\lambda \epsilon^2)\)：在 SBM 中，若 \(\lambda \epsilon^2 > 1\)，谱方法可弱恢复社区，否则不可。
关键假设：
社区数 \(k=O(1)\)（常数，可大于2，但足够小使得社区对称性成立，且树计数公式主导）
平均度 \(\lambda = O(1)\)（稀疏图，连接概率 \(O(1/n)\)；这是树状局部结构主导的条件，若 \(\lambda \to \infty\) 则不同现象）
\(s\) 子采样概率固定，\(s > 0\)
low-degree 测试的次数 \(D\) 在定理中可以取 \(D = \lfloor \log^{0.4} n \rfloor\)（足够大但不依赖于 \(n\) 的阶数增长率）
相比常见 CSBM 文献（如 Wu-Xu 2020, Li 2025）：本文不假定 \(k=2\)，允许对称多社区；\(s\) 不是渐近于 0 而是固定；使用 low-degree 框架而非精确贝叶斯。
问题背景：已有工作（如 mapping 双方块模型检测到 SBM detection）给出了统计最优阈值，但计算困难性刻画不精确。本文针对 low-degree 多项式这一标准计算模型，给出精确阈值，并将困难性约化到 partial recovery 和独立 block model 检测。与 (Li, 2025) 最相关的区别是 Li 使用 low-degree 似然比计算 standard SBM recovery 的困难性，本文将其条件化扩展到相关图检测。

三、主要定理 / 核心结果¶

定理 2.1 (Detection threshold for low-degree tests)
设 \(s \in (0,1)\)，\(\lambda > 0\)，\(\epsilon > 0\)，且 \(k = O(1)\)。令 \(D = \lfloor \log^{0.4} n \rfloor\)。
- (可行性) 若 \(s > \min\{\alpha, 1/(\lambda \epsilon^2)\}\)，则存在次数 \(\le D\) 的多项式 \(f\) 使得 \(f\) 在 \((G_1,G_2)\) 与 \((H_1,H_2)\) 下的均值差显著：\(\mathbb{E}_{CSBM}[f] - \mathbb{E}_{ER}[f] \ge (1+o(1)) \cdot \text{Var}_{ER}(f)^{1/2}\)。 - (不可行性) 若 \(s \le \min\{\alpha, 1/(\lambda \epsilon^2)\}\)，则对于任意次数 \(\le D\) 的多项式 \(f\)，\(\mathbb{E}_{CSBM}[f] = (1+o(1)) \mathbb{E}_{ER}[f]\)，且 \(\text{Var}_{CSBM}(f) = (1+o(1)) \text{Var}_{ER}(f)\)，因此任何 low-degree 检验不能区分两模型。

直观解释：左界是 Otter 常数 \(\alpha\)（树计数常数），描述在稀疏随机图中局部树状结构出现的概率，控制 low-degree 多项式能"看到"的相关性总量；右界是 KS 阈值，社区信号强度若低于该阈值则谱法失效。当 \(s\) 小于两者中的较小者时，无论是基于树状统计量还是谱信号的低次多项式都无法捕捉到足够的相关性差异。当 \(\alpha < 1/(\lambda \epsilon^2)\) 时产生间隙：统计上最优贝叶斯检验仍可检测（因为联合分布可区分），但 low-degree 多项式做不到。

解决了什么技术难点：需要同时处理相关图对之间的树状结构分析和社区信号下的谱信息，并将两者在 low-degree 框架下统一。证明中发展了一个条件的 low-degree 似然比计算，其关键是归约到未标记树上的计数求和，而 Otter 常数恰好控制该求和的指数增长率。

适用条件与局限：要求 \(k=O(1)\)、\(\lambda=O(1)\)、\(s\) 固定；\(D\) 不超过 \(\log^{0.4}n\) 但可足够大。当 \(\lambda \to \infty\) 或 \(k\) 随 \(n\) 增长时，结论不一定成立。仅针对 low-degree 多项式类，不排除其他计算模型（如常数深度电路、Sherali-Adams）能突破这个阈值。

推论 2.2 (证明约化提到的 consequence)：结合 (Li, 2025) 的 reduction，若 \(s < \min\{\alpha, 1/(\lambda \epsilon^2)\}\)，则 low-degree 多项式也不能实现 partial recovery（社区部分恢复）以及 detection of independent block model。这一推论使得阈值对多个标准任务一致。

四、证明框架 / 方法设计¶

证明主干逻辑：采用 low-degree likelihood ratio（LDLR）方法。定义 \(L = \frac{dP_{CSBM}}{dP_{ER}}\)，则 low-degree 多项式检验的统计可检测性等价于 LDLR 的 \(L_{\le D}\)（次数 \(\le D\) 的 Hermite 多项式展开截断）能否载概率上逼近 \(L\)。通过计算 \(\mathbb{E}_{ER}[L_{\le D}^2]\) 确定区分性。本文微创新：使用条件化版本，考虑在父 SBM 参数上的条件分解。

拆解为 4 个关键逻辑步骤： 1. 图分解：将 CSBM 的似然比写成关于潜在父图 \(G_{parent}\) 的条件期望：\(L = \mathbb{E}_{G_{parent}}[ \ell_1(G_1|G_{parent}) \ell_2(G_2|G_{parent}) ]\)，其中 \(\ell_i\) 是子采样似然比。然后对 \(G_{parent}\) 的社区结构取期望。 2. 树状矩计算：将 \(L\) 的矩 \(\mathbb{E}_{ER}[L^2]\) 展开为对图结构求和，利用稀疏图的局部树性，将 \(L\) 的2次矩近似为对未标记的树（无根树）的求和。关键引理：主导项来自所有节点对间无公共边且不包含环的树状结构对。这里用到组合计数和 Otter 常数来控制树的数量增长。 3. 条件低次截断：对于低次多项式检验，只需考虑 \(L\) 在低阶 Hermite 多项式上的投影。计算 \(\mathbb{E}_{ER}[L_{\le D}^2]\)，证明其与 \(L\) 的全矩之差在 \(s \le \min\{\alpha, 1/(\lambda \epsilon^2)\}\) 时趋于0，即 \(L\) 几乎与 1 无区别，从而 any low-degree statistic 不能区分。 4. 可行性部分的构造：当 \(s > \min\{\alpha, 1/(\lambda \epsilon^2)\}\)，显式构造一个低次多项式（基于未标记树计数或谱投影），其均值差大于标准差，从而完成检验。

最关键的技巧性引理：引理 4.3（Otter 常数控制）：在计算 \(\mathbb{E}_{ER}[L^2]\) 时，将求和项按树的大小分组，证明未标记树的数量 \(a_t\) 满足 \(\lim_{t\to\infty} (a_t / t!)^{1/t} = 1/\alpha\)，从而对任意 \(s\) 有 \(\limsup_{t\to\infty} (s^t a_t)^{1/t} = s/\alpha\)。这意味着当 \(s < \alpha\) 时，求和收敛；当 \(s > \alpha\) 时发散。该引理将稀疏图的树状统计量求和转化为经典组合学问题，是全文数学难点的核心。

数学工具评价：是经典方法的巧妙组合：low-degree 方法（来自 Hopkins 等人的统计-计算间隙框架）+ Otter 常数（组合枚举）+ Kesten-Stigum 阈值（谱分析）。并非全新分析框架，而是在现有 LDLR 技术上引入条件化和树计数技术处理相关图对。

五、问题发现：研究者能做什么¶

（A）立即可做（0-2条） 1. 问题表述：在相同 CSBM 设置下，考虑更高阶的 U 统计量（如基于三元组或更大子图计数的测试统计量），证明其检测力阈值是否仍由 Otter 常数和 KS 阈值控制，或者能否在 \(s < \alpha\) 时通过高阶 U-stat 改善 low-degree 下界。 - 用到武器库的条目：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)；minimax bounds for estimation problems；high-dimensional asymptotics。 - 第一步具体动作：计算三元组 U 统计量（如三角形计数的差异）在 CSBM 与 ER 下的均值与方差，形式化为 \(U = \sum_{i<j<k} (A_{ij}A_{jk}A_{ki} - \text{期望})\) 的均值差，分析其信噪比。利用 tensor contraction 框架写出求和复杂度，并与 low-degree 方法可达到的次方次数做对比。 - 与本文已有结果的关系：是推广——检查是否 low-degree 多项式类已经包含了所有首一固定次数的子图计数多项式（因为子图计数本身就是 low-degree 多项式，次数等于边数），因此本文的 impossibility 界已涵盖。但可以检查当 s 略高于 α 时，低次多项式的检测力是否真的被高阶 U-stat 超越（通过模拟验证），这是补全实验结果。

问题表述：在本问题中计算 low-degree 似然比 \(L_{\le D}\) 的精确违反（violation）值，即当 s 落在间隙 \(\alpha < s < 1/(\lambda \epsilon^2)\) 时，构造一个低次多项式具有最大功率，并量化该功率与贝叶斯最优检测（采用 full likelihood ratio）之间的差距。
用到武器库的条目：minimax bounds for estimation problems；高维渐近理论。
第一步具体动作：在 \(\alpha < s < 1/(\lambda \epsilon^2)\) 下，利用定理证明中的可行性构造（树计数多项式）计算其信噪比 \(\simeq \frac{s^\ell a_\ell}{\sqrt{?}}\)，并与全似然比的上界（通过信息不等式）对比。需要在固定 \(n\) 下做模拟验证，使用小批量图。
与本文已有结果的关系：是量化补充——本文只给出阈值定性分离，未给出间隙内的精确速率。

（B）中期可做（最多2条） 1. 缺哪一块：在 moderately_familiar 中的 HOIF (Higher-Order Influence Functions)——具体来说，不知道低度多项式与半参数效率界之间的联系；不熟悉如何在 low-degree 框架下计算处理效应中的高阶偏差项。 - 补哪 1-2 篇文献：(1) Liu, L., Mukherjee, R., & Robeva, E. (2023). “High-dimensional inference for average treatment effect with high-order influence functions”; (2) Han, S. (2021). “Higher-order influence functions and minimax optimal estimation in semiparametric models”. - 补完之后能做什么：探索 CSBM 中 low-degree 检验的 minimax 最优性——是否 low-degree 检验的检测阈值也对应着半参数估计中的信息界的计算可达到性。具体问题：构造一个随机变点检测问题（类比 correlated graphs），使用 HOIF 技术得到调整后的检验统计量，该统计量是否可在低度多项式上实现？这可以连接 low-degree barrier 和 semiparametric efficiency。

缺哪一块：在 moderately_familiar 中的 identification theory in causal inference——具体地说，不熟悉 instrumental variable 在测量误差模型中的识别结果，无法将 Otter 常数那样的组合计数思想映射到因果推断的工具变量问题中。
补哪 1-2 篇文献：(1) Wang, W., & Blei, D. M. (2019). The blessings of multiple causes. JASA; (2) D’Amour, A., & Franks, A. (2021). Causal inference with partial interference.
补完之后能做什么：考虑一类因果结构图（DAG）的观测概率是否可以转化为类似树状结构求和的形式，如果能得到 g 计算的似然比 moment 求和的组合常数，可能得到一个关于工具变量强度的“计算相变”，类似于 Otter 常数在相关图检测中的作用。

（C）暂不建议（最多2条） 1. 缺什么机器：本文证明严重依赖 Otter 常数的具体值——这来自未标记树的准确枚举渐近。该组合常数目前无法用统计中的通用工具（如 MGF 界、经验过程、高维概率）替代，需要专门研读组合分析 (Cayley 公式、Pólya 计数理论)。研究者武器库中缺乏这一精细枚举机器。 - 为何不易绕过去：若想将本文结果推广到其他随机图模型（如加权图、随机点积图），需要重新计算相应未标记组合对象的计数渐近，这不是原武器库的延伸，而是全新的组合入门。 2. 缺什么机器：本文的 hard part 使用 low-degree 似然比的矩计算，这依赖于图对联合分布的 exact 表达式及条件化技巧，这类技巧目前与高维因果推断（如 IV with many instruments）中的计算困难性分析不直接兼容。若想建立连接，需要发展 new type of conditional LDLR for graphical models with latent confounders，目前文献中尚未有，且不是短期能建立的。

值得精读的关键参考文献： - Hopkins, S. B., & Steurer, D. (2017). Bayesian estimation from few samples: community detection and related problems. 本文框架的基础：low-degree 方法 + 统计-计算间隙。必须读来理解 LDLR 的标准应用。 - Li, Z. (2025). Towards a theory of computational hardness for community detection in networks. 本文约化部分依赖的文献，扩展了 low-degree 困难性到 community recovery 问题。两者结合阅读可理解约化的技术细节。 - Otter, R. (1948). The number of trees. 原始组合结果，是 Otter 常数推导的源头。若想理解引理 4.3 的细节，直接读原始论文或用更高阶的枚举方法（如 Flajolet-Sedgewick 的解析组合学）才能自己推导常数。

六、延伸思考与练习¶

假设扰动：若修改关键假设——假设 \(s\) 随 \(n\) 变化，比如 \(s = n^{-\gamma}\)（稀疏子采样），那么 Otter 常数部分不再贡献，因为 \(s^t a_t\) 中 \(s^t\) 衰减快于树计数增长。结论会变成：最终阈值仅由 \(1/(\lambda \epsilon^2)\) 决定，low-degree 障碍仅来自 KS 阈值。技术上需要重新缩放，将树计数求和改为关于 \(n\) 的多项式项数，而不是指数增长。这个扰动后的问题落入上面 (A)（立即可做），因为只需重新计算 \(s^t a_t\) 的渐近，适合用 very_familiar 的高维渐近来验证。
开放问题：作者提出但未解决的问题：当 \(k\) 随 \(n\) 增长时，结果是否还成立？Otter 常数是否替换为另一种组合常数？另一个方向：在存在异常值或异质性图模型下，low-degree 阈值是否改变？
理解检测题：考虑一个简单的检测问题：从父 SBM 树状子处理得到的两个图的相关系数为 \(s\)。不使用低度多项式框架，直接写出全似然比的方差表达式，并推导出信噪比 \(\text{SNR} \approx s^\ell a_\ell\) 当考虑大小为 \(\ell\) 的树作为特征时。为什么需要 Otter 常数来控制 \(a_\ell\) 的增长率？如果是边数固定的子图（比如 \(\ell\) 固定的环），求和项数为 \(O(n^\ell)\)，这与树计数的指数增长有什么本质不同？

Maintained by 陈星宇 · Homepage · Source on GitHub