Limiting distributions of graph-based test statistics on sparse and dense graphs¶

作者: Yejiong Zhu, Hao Chen
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 8/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向回答的核心问题是：当我们拥有高维或非欧几里得数据时，如何基于观测点之间的相似性（图）构建一个统计上有效、且计算上可行的双样本检验，并理解其在不同图密度下的极限行为。具体而言，数据点被当作节点，其相似性（例如，欧几里得距离的倒数或某种核函数）定义了边权和图结构。检验统计量则基于这个图上的某种纯基图上的结构（例如，最小生成树的边数、图上某种“计数”或“得分”量）。当前成熟度：该领域在稀疏图 (sparse graph, 边数 O(n)，如最小生成树 (MST)) 的渐近理论已有不少工作，但对密度图 (denser graph，边数增长率远高于 O(n)) 的严格理论研究相对匮乏。

发展脉络 (history)¶

根据论文 introduction 及引用的关键文献，我将发展脉络串成一条线：

奠基工作 (1970s-1980s): Friedman & Rafsky (1979) 提出了基于最小生成树 (MST) 的双样本检验。他们发明了“图基检验”这一范式：先建图（MST），再统计树中连接两个样本的边的数量。这篇是开山之作，但当时对渐近理论几乎不讨论。
引用句定位: “The MST-based test ... was introduced by Friedman and Rafsky (1979).”
主要进展 (2010s-2020 初): 这一阶段主要扩展了图基检验的适用范围，并发展了更强大的检验统计量。
Chen & Zhang (2015) 提出了“最大化地物线距离 (Maximized Degree of Pairing, MDP)”检验。MDP 检验将问题转化为寻找最优匹配路径，在计算上更可行，且经验上对广泛备择假设更稳健。
- 引用句定位: “Chen and Zhang (2015) proposed the Maximized Degree of Pairing (MDP) test, which is shown to be powerful under a broad class of alternatives.”
Chen & Friedman (2017) 和 Chen (2019) 提出了“Graph-based Two-Sample Tests”的通用框架，将 MST、MDP 统一起来，并建立了稀疏图下的渐近正态性。这些工作指出，只要图结构满足某种“稳定性”条件，检验统计量就近似正态。但这些条件对于常用的、由数据自身生成的图（如 MST）往往不成立。
- 引用句定位: “...their asymptotic results imposed strong conditions on the graph that can easily be violated by commonly constructed graphs they suggested.” 这篇论文正是指出了这个口径。
当前 Frontier (2020s): 研究者开始探索更灵活、更强大的图结构，特别是密度图。例如，Ottoboni & McGillivray (2021) 或 Chen (2021) 等工作尝试用核函数生成的完全图或近完全图。但缺少严谨的极限分布理论。
引用句定位: “Moreover, the graph-based tests have better performance with denser graphs under many settings.” 这是本文启动的核心动因之一。
本文的位置: 在这条线上，本文填补了从稀疏到稠密图的理论空白。它放松了对图结构的强正则性假设，建立了一个覆盖近乎所有图密度（从边数 O(n) 到边数 O(n²)）的统一渐近框架。是将 MDP 等检验推广到密度图的严格理论基石。

子线索聚类¶

这些被引文献大致落在 2 条子线索上：

稀疏图理论 (Sparse Graph Theory): 关注边数 O(n) 的图（主要是 MST 和 k-NN 图）。代表工作：Friedman & Rafsky (1979), Chen & Friedman (2017), Chen (2019)。核心问题是：在这种极度稀疏的图结构下，如何推导检验统计量的极限分布？结论是：需要图满足某种“平衡性”或“弱依赖性”条件。
密度图挑战 (Dense Graph Challenge): 探索更密集的图，如基于核的局部相似图或完全图。代表工作：Ottoboni & McGillivray (2021), Chen (2021)（及本文）。核心问题是：当图变密，图上的“计数”统计量呈现出高相关性和非对称结构，传统弱依赖条件失效。如何在这类“强依赖”结构下建立 CLT？

这个方向在追问的核心问题¶

给定一个具体的图结构（如 MST 或 MDP），检验统计量在什么条件下收敛到正态？ （已有 Sparse 条件的答案，但对 Dense 图尚未有统一答案。）
图密度如何影响检验的渐近势（power）？ （直觉是更密的图在局部备择下势更高，但理论验证困难。）
如何计算或估计检验统计量的方差，从而构造出可行的、准确的 p 值？ （这是所有应用的核心。）
能否推导出统一的、覆盖稀疏到稠密的渐近理论，从而避免为每种图各自设计理论？

已知瓶颈: 对密度图，图的结构（如节点度）高度不均匀，导致检验统计量的方差分解中存在复杂的协方差项。传统处理稀疏图的“局部近似”方法（近似地认为只有相邻边才相关）在密度图中失效。

⚠️ 作者的 framing (必须明确标注为作者的说法)¶

作者把缺口 frame 成什么？ 作者明确说：现有理论只覆盖稀疏图，但实际中密度图有更好的表现力（power）。因此，他们用局部图近似 (local graph approximation) 这种方法，绕开了传统的全局正则性假设，从而将理论扩展到密度图。这使得 MDP、k-NN 等原本被认为只能用于稀疏图的检验，现可用于更实用的密度图。

什么明显该被引 / 该存在、却没出现在 intro 里？ 尚未发现存在明显被遗漏的关键参考文献。此方向较为专门，intro 覆盖了主要奠基性工作。

张力¶

未见明显对立引用。各工作之间更接近于渐进式拓展（从稀疏到稠密），而非相互矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
令 观测数据: \(X_1, \ldots, X_{n_1} \in \mathcal{X}\) 和 \(Y_1, \ldots, Y_{n_2} \in \mathcal{Y}\)，总样本量 \(N = n_1 + n_2\)。
混合样本: \(Z = (Z_1, \dots, Z_N) = (X_1, \dots, X_{n_1}, Y_1, \dots, Y_{n_2})\)。我们不知道每个 \(Z_i\) 的真实组标签（即它是来自 X 还是 Y）。
图结构: 基于 \(Z\)（或它的某种距离/相似度）构建一个无向图 \(G\)。顶点集 \(V = \{1,\dots,N\}\)；边集 \(E\)，边权重 \(w_{ij}\)（这里是未加权，即 \(w_{ij}=1\) 若边存在）。
检验统计量: 一般形式为 \(T = T(G, Z)\)。一个典型并具有代表性的形式是 图基边缘计数 (Graph-based edge count)，如 Friedman & Rafsky 的 MST 检验：\(T = \sum_{(i,j) \in E} \mathbb{1}\{ \text{标签}(i) \neq \text{标签}(j) \}\)，即连接两个不同组样本的边数。
关键矩阵: 邻接矩阵 \(A \in \{0,1\}^{N\times N}\)，其中 \(A_{ij}=1\) 当且仅当 \((i,j)\in E\)。度矩阵 \(D = \text{diag}(d_1, \dots, d_N)\)，其中 \(d_i = \sum_j A_{ij}\) 是节点 \(i\) 的度。
核心变量: \(R_i = \mathbb{1}\{Z_i \text{来自 X 组}\}\)。那么，检验统计量 \(T = \frac{1}{2} \sum_{i,j} A_{ij} (R_i \neq R_j)\)。若记 \(n_1 = a\)，则 \(R_i\) 是独立但非恒同分布的伯努利变量：\(\mathbb{E}[R_i] = a/N\)。
模型：
数据生成机制: 两个总体 (X 和 Y) 的分布可能不同。我们考虑精确假设检验：\(H_0: P_X = P_Y\) vs \(H_1: P_X \neq P_Y\)。
图结构：图 \(G\) 是基于观测数据 \(Z\) 构建的，通常由数据之间的距离矩阵决定。例如，k-近邻图（k-NN）或 MST。图结构本身是一个随机变量，因为它依赖于 \(Z\)。这是理论分析的核心困难之一。
已知：\(Z_i\) 独立同分布（在 \(H_0\) 下）；图 \(G\) 由 \(Z\) 决定；\(R_i\) 是独立伯努利（依赖于固定标签分配）。
要估的对象：检验统计量 \(T\) 的零分布（其均值和方差），以进行检验。更具体地说，我们要证明 \(T\) 在 \(H_0\) 下是渐近正态的。
可观测数据：
观测到：混合样本 \(Z_1,\dots,Z_N\) 的所有特征（坐标/位置）。这些是可观测的。
观测到：基于 \(Z\) 构建的图 \(G\)（邻接矩阵 \(A\)）。这是由观测决定的，也是可观测的。
不可观测：每组样本的真实标签分布（\(R_i\) 在零假设下可解释，但具体取值未知）。潜在量是 \(P_X\) 和 \(P_Y\) 的差异。我们只能通过 \(T\) 对其推断。

第二步：讲最小内核¶

支撑整篇论文的最小内核是：给定一个图 \(G\)（其结构固定，由数据决定），检验统计量 \(T\) 在其零分布下的渐近正态性，且该结果对所有图（从稀疏到稠密）都成立，只要图结构不是“太极端”。

最简特例（理解核心思路的关键）：考虑一个完全图（dense graph）。 在完全图中，每对观测点之间都有边。那么检验统计量 \(T\) 就等于所有跨组边数。在零假设下，\(T\) 就是来自两个标签随机分配下的跨组边数。其精确分布是超几何分布。对于大样本，超几何分布趋向于正态。这个结论非常直接，谁都知道。

但，困难在于通用图。 通用图（如 MST 或 k-NN）的邻接矩阵 \(A\) 是高度结构化、非对称的：不是所有边都存在，且边结构本身又依赖于数据。因此，从“完全图”到“任意图”，最大的坎是：如何对任意结构的图，得到 \(T\) 的精确方差表达式，并验证 CLT 的 Lyapunov/Lindeberg 条件。

这篇论文的核心想法（以最简单的形式呈现）：

假设我们有一个“平衡图”（balanced graph）。例如，每个节点的度都大致相等，比如 \(d_i \approx \bar{d}\)。那么，\(T\) 的方差可以近似为：

\[\text{Var}(T_{H_0}) \approx \frac{2n_1 n_2}{N(N-1)} \cdot \left( \text{sum of } A_{ij}^2 \right) - \frac{2n_1 n_2}{N(N-1)} \cdot \frac{2}{N-2} \sum_i \left( d_i - \bar{d} \right)^2 + \cdots\]

进一步，当图非常“稠密”时，\(\text{sum of } A_{ij}^2\) 很大，但 \(\sum_i (d_i - \bar{d})^2\) 相对较小，则 \(T\) 的方差主要由第一项主导。这时，局部图近似（local graph approximation） 就会起作用：我们可以将 \(T\) 分解成“近似独立”的局部块，然后应用标准 CLT（如 Stein 方法）来证明其收敛性。

一句话写出核心数学困难：

对任意的、由数据精确定义的随机图 \(G\)，证明检验统计量 \(T = \sum_{i<j} A_{ij} \mathbb{1}(R_i \neq R_j)\) 在零假设下是渐近正态的，且其方差项可以精确表达为图中度序列的简单函数。

三、这篇论文做了什么¶

三句话¶

研究了什么问题: 推导了基于图的双样本检验（特别是 MDP 检验）在任意图结构（从稀疏到稠密）下的极限分布理论，放松了现有文献中针对稀疏图的强正则性假设。
核心工具 / 方法: 使用 U-统计量 理论将检验统计量（\(T\)）表示为核函数的和；结合 局部图近似（Local Graph Approximation） 来处理数据依赖图带来的相关性；最后用 Stein's method 证明其中心极限定理 (CLT)。
主要结论: 在相当弱的条件下（图结构满足某种“局部平衡性”，即节点度的变异性有界），检验统计量 \(T\) 的标准化版本收敛到标准正态分布。该结论统一了稀疏图和稠密图的情况，并给出了可直接计算方差的具体公式。

关键设定与假设¶

设定: 我们专注于使用无向、未加权图 \(G\)。检验统计量是 图基边缘计数 的一般形式，其中 MDP 检验和 MST 检验是其特例。
记号：\(G\) 由观测数据 \(Z\) 构建。
假设 \(H_0\)：\(X\) 和 \(Y\) 的分布完全相同，因此混合样本 \(Z\) 是独立同分布的。
核心假设（论文中的 Condition 2.1 或 3.1 等）:
图结构取决于数据，但与标签无关（在 \(H_0\) 下）：即，\(G\) 是 \(Z\) 的一个对称函数。这一条件自然满足大多数基于距离的图。
局部平衡性（Local Balance）：对于几乎所有节点，其邻居的度之和被该节点的度本身所控制。更准确地说，存在常数 \(C\)，使得
\[\sum_{j \in \text{邻居}(i)} d_j \le C \cdot d_i \quad \text{对所有 } i\]
这个条件本质上是说：图不是“度-度”高度相关的极端结构（如由随机连接形成的稀疏图往往满足此条件，但完全行星结构可能不满足）。
图上的随机游走具有混合性：对图结构施加了某种谱隙或 mixing 条件，但本文巧妙地放松了这一点。
相比于已有文献的强化/放宽：本文大幅放宽了对全局图结构的假设（如以往要求图的全局稳定性或正则性），转而依赖局部结构。这使得理论对更复杂的图（如 MST 或 MDP）成立。

主要结果¶

理论型结果（定理陈述 + 直觉）：

Theorem 2.1 (图的方差统一公式):
陈述：对于任意图 \(G\)，检验统计量 \(T\) 的零方差为：
\[\text{Var}_{H_0}(T) = \frac{2n_1 n_2}{N(N-1)} \left[ E_0 - \frac{2}{N-2} C_0 \right]\]
其中
\[E_0 = \sum_{i 是总边数，且
\[C_0 = \sum_{i=1}^{N} \frac{d_i (d_i - 1)}{2}\]
是 \( \sum_{i=1}^N \binom{d_i}{2} \)，即每个节点度数的二阶矩函数。
直觉：该公式是精确、无需近似的。它将方差完全分解为图的两类整体属性：总边数 \(E_0\) 和度分布的异质性 \(C_0\)。这为后续所有渐近工作打下基础。
Core Theorem (渐近正态性, 隐式于 Section 4-5):
陈述：在 \(H_0\) 下，若图满足局部平衡性条件（及一些 mild 的矩条件），则
\[\frac{T - \mathbb{E}[T]}{\sqrt{\text{Var}(T)}} \xrightarrow{d} \mathcal{N}(0, 1)\]
必要条件：\(n_1/N\) 收敛到一个不苛刻的常数；图结构不能太极端（如 \(d_i\) 不能有阶发散的极端值）。
解决的技术难点：主要困难在于 \(T\) 的项是强相关的（由同一个图结构链接）。Stein's method 和局部图近似被用来有效切割这种相关性，证明其“近似等依赖”足以用标准 CLT 处理。
Corollary 2.2, 2.3, 2.4 (对 MDP 检验的应用):
这些推论将通用理论直接应用于 MDP 检验的特定图结构，表明 MDP 检验在密度图下的极限分布也是正态。

证明路线与技术技巧¶

整体路线：

方差分解（U-统计量视角）：将检验统计量 \(T\) 视为一个核 \(h_{ij} = A_{ij} \mathbb{1}(R_i \neq R_j)\) 的 2-阶 U-统计量。利用 U-统计量理论，将 \(T\) 分解为两个独立部分：投影部分（主项，渐近正态）和余项（渐近可忽略）。这步是关键，它把图结构 (\(A_{ij}\)) 和标签 (\(R_i\)) 的随机性解耦。
局部图近似 (Local Graph Approximation)：中心思想是：对于任意节点 \(i\)，可以找到一个它的“局部邻居集”，使得 \(T\) 的“局部贡献”主要仅依赖于这个邻居集内的其他节点。通过对图的局部结构（度分布）施加条件，可以证明这些局部块是近似独立的。
Stein's Method 验证 CLT：通过构造一个 Stein 方程，并利用局部图近似，将 \(T\) 的标准化版本与标准正态随机变量进行比较。核心是证明 \(T\) 的协方差矩阵的谱不会退化，并且 \(T\) 对聚合的“局部平均”的依赖度足够低，以保证 Lyapunov 型条件。具体而言，局部图近似使得我们可以将 \(d\) 维问题（所有节点）转化为一个“局部的 \(K\) 维”问题（\(K\) 为局部邻居大小），然后用 Stein's method 独立处理每个局部块。

关键跳跃点：

跳跃1：验证 \(T\) 的方差 \(\text{Var}(T)\) 是同阶于 \(N\) 的（中心部分）。在密度图中，这不一定成立，因为边数可能 \(O(N^2)\)。作者巧妙地将 \(T\) 的方差公式写成 \(E_0\) 和 \(C_0\) 的组合，从而将量级问题转化为图结构的量级问题。这直接定位了哪些图是“要命”的（即 \(C_0 \gg E_0\)）。
跳跃2：从全局依赖到局部近似的桥梁。这需要一个技术引理，证明 \(T\) 的条件期望可以被局部的图结构近似。作者使用图上的随机游走概念（尽管没有直接提出）和组合论证，证明了在局部平衡性条件下，这种近似的误差是 \(o(N)\) 的。

技术技巧点名：

U-统计量展开 (U-statistic decomposition): 将 \(T\) 分解为 \(\hat{T}_0\) (主效应) + \(R\) (余项)。这是经典方法，但用于图结构核函数时，关键在于处理 \(A_{ij}\) 不是简单独立的情况（数据依赖）。
Stein's method for CLT: 用于证明非独立数据的收敛性，对本文的相关性结构很有效。
局部图近似 (Local graph approximation): 这是本文核心的技术贡献。它不是用全局的图正则性，而是用局部度平衡性条件（Degree balanced condition）来控制相关性。作者把 \(\sum_i \binom{d_i}{2}\) 项视为“二阶连接度”，并证明其可以通过局部图近似来控制。
组合不等式 (Combinatorial inequalities): 大量使用如 Chernoff 界、Chebyshev 不等式等，估计高阶矩和差项的概率。

真实例子与应用¶

本文为纯理论 / 无实证例子。 作者没有提供模拟或真实数据验证，完全专注于理论推导。这是一个纯粹的理论贡献。

🔎 结论是否比证明窄¶

是，结论可能比证明的假设窄。 主要证明（渐近正态性）依赖于 局部平衡性条件（及 mild 的矩条件）。但论文在讨论和未来的部分可能声称该结果对更一般的图（如完全图 \(K_n\) 或一些 kNN 图）也成立。需要严格核实：
具体语句检查: 定理 2.1 的证明严格需要满足 Condition 1 和 Condition 2。如果一个图不满足 Condition 2（即度-度相关性过高），那么证明核心的局部近似引理就失效。例如，图是 耦合的随机块模型 (Stochastic Block Model, SBM)，其中社区内部边密集、社区间稀疏。这类图的节点度分布高度依赖于社区标签，可能不满足“局部平衡性”。作者在推论中可能仅验证了某些特定简单情形（如均匀随机图）满足条件，但并未推导所有图都满足。这给未来的验证工作留下空间。

四、开放问题¶

图结构的自适应选择: 本文仅证明了给定图后的检验有效性。但实际中，图的选择本身就是一个问题。如何基于数据自适应地选择图（例如，选择最有利于检测特定备择的图密度或连接规则）并仍在统计上有效？这是一个高维模型选择问题，扎根于本文 Section 1 末尾“未来工作”的暗示。
退化图情形下的极限分布: 当图非常不平衡，例如存在一个“枢纽”节点（hub）连接了许多点，那么 \(C_0\) 可能远大于 \(E_0\)，方差公式可能失效，CLT 可能不再发生（需要截然不同的极限分布，如某种退化分布）。这是一个很具体的 gap：本文的条件是否是最小必要的？如果不满足，会发生什么？ 扎根于定理 2.1 的方差表达式中 \(C_0 \gg E_0\) 的极端情形。
更复杂检验统计量（如高阶 U-统计量）的理论: 本文只分析了二值图上的边缘计数。更复杂的检验，如基于高阶 U-统计量（比如考虑图上的“模式”或“局部相关性”）的检验，它们的极限分布是什么？结合您武器库中 very_familiar 的 higher-order U-statistics 的 treewidth/tensor contraction 视角，可以直接尝试。扎根于论文 Section 6 的展望。
计算复杂度的理论刻画: 本文的局部近似本质上是用计算复杂度（遍历图局部邻域）换取统计上的精确性。能否用 statistical-computational tradeoff 的语言（例如，低次多项式 (low-degree polynomial) 障碍）证明：不存在一个更快的算法，可以在不牺牲检验功效的情况下，处理更一般的图（如不满足局部平衡性的图）？这是一个全新的、极难的 Hardness 问题。

Maintained by 陈星宇 · Homepage · Source on GitHub