Hoeffding-type decomposition for U-statistics on bipartite networks¶

作者: Tâm Le Minh, Sophie Donnet, François Massol, Stéphane Robin
来源: Electronic Journal of Statistics
主题: 其他
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向研究的是：定义在随机二部网络邻接矩阵上的 U-统计量，其渐近理论（分解、正态性、方差估计）。这类 U-统计量是网络子图计数（motif counts）的自然推广——对行节点和列节点进行二部结构下的枚举平均。其根本的统计挑战在于：网络数据中的行、列节点自身之间存在不可忽略的依赖结构（通过潜在图on函数或可交换性），导致经典 i.i.d. 下的 Hoeffding 分解不再适用。当前的成熟度属于理论正在系统化、但尚未统一的状态——已有大量关于子图计数的限制定理，但缺乏一个像经典 U-统计量那样 "分解 → 方差 → 正态" 的通用框架。

发展脉络（history）¶

把 intro 引用的工作串成一条线如下。

奠基工作 (2000–2010)
Newman (2000) 开创了科学合作网络的结构分析，首次系统展示了小世界和聚类等全局结构特征，但并未建立统计推断框架。
Barrat et al. (2003) 引入加权网络中的节点强度（strength），指出强度不完全依赖于度——这为后续统计量设计指出了除度计数之外的信息来源。
Diaconis & Janson (2007) 建立了 Aldous-Hoover-Kallenberg 表示 与图on 理论之间的联系，把可交换随机图（含行-列可交换矩阵）纳入统一的概率模型。这篇论文被本文直接引用作为分解的数学基础——"Any RCE model can be written as a W-graph model [19]"。
Lauritzen et al. (2017) 研究可交换网络模型的条件独立性与 Markov 性质，其中关键概念"dissociatedness"（分离性）被本文用做 U-统计量退化的判定条件之一——"[44, 28] show that the adjacency matrices are also dissociated"。
主要进展：子图计数的渐近理论 (2011–2020)
Bickel et al. (2011) 提出了网络模型的矩方法，通过经验图矩（empirical graph moments）拟合模型，并建立了矩估计在平均度Ω(1)以上的一致性。这是第一篇系统处理图统计量（含子图计数）渐近性质的工作。作者评价："Many studies have considered the case where the matrix Y represents an exchangeable network, more precisely through the investigation of subgraph counts [10, 34, 47, 54, 7]"——可见子图计数是主要切入点。
Bhattacharyya & Bickel (2013) 发展了子图计数的子采样bootstrap，但只适用于样本平均数（即核函数为单变量的情形）。
Gao & Lafferty (2017) 证明了基于三个节点子图频率统计量(T₂, T₃)在Erdős-Rényi原假设下的CLT，并刻画了在随机块模型备择下的功效。作者引用为"[50]": "Their asymptotic properties are widely studied and a large number of studies use motif counts to perform statistical tests [50, 10, 9, 17, 25, 39, 42, 47]"。
Maugis et al. (2017) 提出了基于平均子图计数的网络分布等价性检验，通过联合渐近分布构造置信域——这是第一批把网络样本（而非单个网络）当作观测的工作。
Coulson et al. (2015) 用Stein-Chen方法获得了随机块模型和图on模型中子图计数的Poisson近似。
Kaur & Röllin (2020) 提出了稠密图模型中子图计数波动的高阶量化界，通过广义U-统计量和Gaussian Hilbert空间识别极限随机测度——他们声称回答了"dense graph limit theory 的CLT是什么"这一核心问题。
Bhattacharya et al. (2021) 在图on随机图上推导了子图计数的波动结果。
这些工作基本都停留在特定子图（三角形、V形等）的计数上，没有建立任意核函数的通用分解。
当前 frontier：向一般U-统计量推进 (2021–)
Minh (2021，即本文第一作者的前期工作) 首次专门研究二部可交换网络上的"四元组U-统计量"（quadruplet U-statistics），即核函数作用在2×2子矩阵上的平均。获得了弱收敛的一般结果和 dissociated 情形下的CLT。但这篇工作只针对固定核阶数 k=4（即2行2列）。
Davezies et al. (2019) 研究了可交换阵列的平均（单变量核函数）的经验过程与bootstrap，被作者引用为"[18] investigated averages of separately exchangeable arrays, which corresponds to the network U-statistic U_{h_{m,n}} on Y where Y is an RCE matrix but h is a function of only one variable"。这表明单变量核已经被比较透彻地处理，但多变量核（真正意义上的U-统计量）仍缺失。
Menzel (2021) 提出了二维（或多维）聚类依赖下的bootstrap，该bootstrap对样本平均数一致，但作者指出"have not been extended to U-statistics"——这正是本文要填补的缺口之一。
本文的位置：在 Minh (2021) 的"四元组"基础上，推广到任意核函数（任意阶数），并利用 Aldous-Hoover-Kallenberg 表示给出一个完整的 Hoeffding 型分解（不仅用于方差分析，也用于构造自然方差估计量），从而描述非退化条件并证明渐近正态性。这是对已有子图计数渐近理论的统一化——不再逐个子图分析，而是用一个公式处理所有U-统计量（包括motif计数、加权度统计量等）。同时填补了 bootstrap 之外的另一种简单方差估计途径。

子线索聚类¶

这些被引文献大致落在3条子线索上：

子线索	代表工作	做什么
(A) 子图计数的渐近分布与检验	Gao & Lafferty (2017), Maugis et al. (2017), Coulson et al. (2015), Bhattacharyya & Bickel (2013), Kaur & Röllin (2020), Bhattacharya et al. (2021)	推导特定子图计数（如三角形、V形、2×2等）的CLT或Poisson近似，用于网络结构检验或模型选择。
(B) 可交换阵列的一般统计推断	Davezies et al. (2019), Menzel (2021), Lauritzen et al. (2017)	研究（联合或分别）可交换阵列上的均值、经验过程、bootstrap，奠定依赖结构下的渐近理论基础。但大多只处理单变量核。
(C) 网络U-统计量与分解	Newman (2000, network science背景), Diaconis & Janson (2007, 表示理论), Minh (2021, 四元组U-统计量)	明确将U-统计量框架引入网络，在Aldous-Hoover-Kallenberg表示下研究分解和渐近性。本文是这条线索的最新一步。

这个方向在追问的核心问题（2-4个）¶

分解问题：在行-列可交换（RCE）依赖下，U-统计量的方差能否分解成可解释的正交项（类似经典Hoeffding分解中的各阶投影）？
渐近正态性条件：非退化条件究竟是什么？是否与"dissociatedness"或"有界的有效依赖"等价？
方差估计：能否构造一个不依赖bootstrap、计算简单的渐近方差估计量？
网络间比较：如何利用上述分解检验两个网络是否来自同一分布（或同一图on）？

当前主流方法：对每个特定motif单独推导CLT（用Stein方法、U-统计量理论或图on的谱方法）；或使用bootstrap（Menzel, 2021；Davezies et al., 2019）但尚未拓展到U-统计量。已知瓶颈：缺乏统一的分解工具，导致每个新motif都要重新推导，且方差估计通常依赖重抽样（计算成本高）。

⚠️ 作者的 framing¶

作者把缺口 frame 成："经典的Hoeffding分解依赖于i.i.d.假设，不适用于RCE矩阵；以往的bootstrap方法只对平均数一致，未推广到U-统计量；四元组U-统计量的工作(Minh, 2021)只覆盖了核函数k=4的特殊情形。因此，利用Aldous-Hoover-Kallenberg表示来定义一个新的Hoeffding分解是自然的下一步，可以统一处理任意阶的U-统计量，并为方差估计提供闭式解。"
作者淡化/回避的竞争路线：
- 作者没有讨论图on谱方法（如交换图拉普拉斯嵌入、谱bootstrap）能否用于U-统计量的方差估计。
- 作者也没有讨论高阶影响函数（HOIF） 或半参数效率理论的交叉可能性——网络U-统计量的方差估计是否等价于某个半参数效率界？
- 作者刻意选择了"不要求tensor-network视角"的纯概率路线，但读者可以用树宽/张量收缩来分析计算复杂度（这点被研究者技术武器库覆盖）。

什么明显该存在但没被引用：
- 高阶U-统计量的计算复杂度文献（如研究者自己熟悉的树宽/收缩顺序优化）完全没有出现。这不是作者的失缺——论文是纯理论，不讨论计算——但为研究者留下了"补上计算视角"的入口。
- Spence, Atchadé & Stefanski (2016) 关于U-统计量计算复杂度的树宽刻画也未出现——这可能是因为该方向独立发展、尚未与网络统计结合。

张力¶

未见明显对立引用。所有被引工作都在各自的设定下成立，没有在同一问题下得出矛盾渐近行为的记录。但有一个潜在的张力值得注意：Davezies et al. (2019) 的可交换阵列bootstrap对单变量核完全适用；Menzel (2021) 的bootstrap在二维聚类下对均值一致但被证明不可能达到uniform consistency。本文提出的Hoeffding分解能否在更弱的条件下提供比bootstrap更精确的方差估计？这需要研究者自行判断——本文没有直接比较bootstrap和其方差估计量的精度，只在模拟中用bootstrap做baseline。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号清单：

记号	含义	类型
\( Y \)	\( n \times m \) 邻接矩阵，元素 \( Y_{ij} \in \mathbb{R} \)（可为二值或加权）	可观测随机矩阵
\( n \)	行节点数	样本量指标（行）
\( m \)	列节点数	样本量指标（列）
\( \mathcal{X} = [n] \)	行节点集合	指标集
\( \mathcal{Y} = [m] \)	列节点集合	指标集
\( U_i, V_j \)	独立同分布 \( Uniform[0,1] \) 潜在变量，分别对应行 \( i \) 和列 \( j \)	潜在/不可观测
\( W_{ij} \)	独立同分布 \( Uniform[0,1] \) 潜在变量，对应边 \( (i,j) \) 的额外噪声	潜在/不可观测（可略去，加入后得到更一般的Aldous-Hoover表示）
\( f \)	图on函数 \( f: [0,1]^2 \to [0,1] \)（或更一般的可测函数到 \(\mathbb{R}\)）	未知参数（可估计对象）
\( Y_{ij} = f(U_i, V_j, W_{ij}) \)	行列可交换（RCE）矩阵的 Aldous-Hoover 表示	数据生成机制
\( \mathbb{Y} \)	\( Y \) 的所有元素构成的集合	可观测数据
\( h \)	对称核函数（U-统计量的核），定义在 \( (r+c) \) 个节点对上	已知函数（由研究者选择）
\( (a_1,\dots,a_r) \)	从 \( [n] \) 中无放回抽取的 \( r \) 个行节点（行索引集）	指标**
\( (b_1,\dots,b_c) \)	从 \( [m] \) 中无放回抽取的 \( c \) 个列节点（列索引集）	指标**
\( U_{h}^{(r,c)} \)	基于核 \( h \) 的二部U-统计量，平均核在所有大小为 \( r \) 的行子集和 \( c \) 的列子集上	目标estimand（随机变量）
\( \theta = \mathbb{E}[U_h] \)	该U-统计量的期望（即核 \( h \) 的均值）	感兴趣参数
\( k = r+c \)	核 \( h \) 的总阶数（涉及的总节点数）	整数
\( S_{a,b} \)	与行子集 \( a \) 和列子集 \( b \) 相关的子矩阵	观测数据块

模型：
论文假设 \( Y \) 是一个行-列可交换矩阵（row-column exchangeable, RCE），即对于任意的行置换 \( \sigma \) 和列置换 \( \tau \)，置换后的矩阵 \( (Y_{\sigma(i),\tau(j)}) \) 与原始矩阵 \( Y \) 同分布。由 Aldous-Hoover-Kallenberg 定理，任何RCE矩阵可以表示为

\[Y_{ij} = f(U_i, V_j, W_{ij}), \quad i=1,\dots,n,\ j=1,\dots,m,\]

其中 \( (U_i) \), \( (V_j) \), \( (W_{ij}) \) 都是独立同分布 \( Uniform[0,1] \)，且彼此独立；\( f: [0,1]^3 \to \mathbb{R} \) 是一个可测函数。在实际建模中，可以令 \( f \) 退化（如忽略 \( W_{ij} \)）得到各种经典模型（随机块模型、BEDD模型等）。
可观测数据：
研究者实际能观测到的是整个 \( n \times m \) 矩阵 \( Y \)。不可观测的是潜在变量 \( U_i, V_j, W_{ij} \) 以及图on函数 \( f \)。所有推断只能基于 \( Y \) 的联合分布结构（由可交换性决定）进行。

第二步：讲最小内核¶

最简特例：考虑最简单也最核心的特例——核 \( h \) 只有 2 个参数（即 \( k=2 \)），但这两个参数分别来自一个行节点和一个列节点。具体来说，核函数 \( h: \mathbb{R} \times \mathbb{R} \to \mathbb{R} \) 被定义为

\[h(Y_{ab}, Y_{a'b'}) \quad \text{其中 } a,a' \text{ 是行索引}, \ b,b' \text{ 是列索引}.\]

但在二部U-统计量的框架下更自然的"1行1列"核其实是 \( h(Y_{i,j}) \)，这退化为样本均值（属于 Davezies et al. 2019 的单变量核情形）。真正体现"二部结构"的最小特例是 核函数涉及 2 行 2 列（即 \( r=2, c=2 \)），这正好对应于 四元组U-统计量 (Minh, 2021)。此时核 \( h:\mathbb{R}^4 \to \mathbb{R} \) 作用在 \( 2\times 2 \) 子矩阵

\[\begin{pmatrix} Y_{a_1,b_1} & Y_{a_1,b_2} \\ Y_{a_2,b_1} & Y_{a_2,b_2} \end{pmatrix}\]

的四个元素上。U-统计量定义为

\[U_h = \frac{1}{\binom{n}{2}\binom{m}{2}} \sum_{1 \le a_1 < a_2 \le n} \sum_{1 \le b_1 < b_2 \le m} h(Y_{a_1,b_1}, Y_{a_1,b_2}, Y_{a_2,b_1}, Y_{a_2,b_2}).\]

在这个特例下，论文的核心分解退化为：
利用 Aldous-Hoover 表示 \( Y_{ij} = f(U_i, V_j, W_{ij}) \)，可将核 \( h \) 的期望写成

\[\theta = \mathbb{E}[h(f(U_1, V_1, W_{11}), f(U_1, V_2, W_{12}), f(U_2, V_1, W_{21}), f(U_2, V_2, W_{22}))].\]

然后定义条件期望函数——对潜在变量子集取条件：

\[h_{U_1} = \mathbb{E}[h \mid U_1], \quad h_{V_1} = \mathbb{E}[h \mid V_1], \quad h_{U_1,V_1} = \mathbb{E}[h \mid U_1, V_1],\]

等等（去掉对应变量的积分）。经典 Hoeffding 分解在 i.i.d. 下写为

\[h(X_1, X_2) - \theta = h_1(X_1) + h_1(X_2) + h_2(X_1, X_2),\]

其中 \( h_1(x) = \mathbb{E}[h(x, X_2)] - \theta \)，且各项正交。在二部特例下，由于依赖结构通过 \( U \) 和 \( V \) 传递，分解变为：

\[h(Y_{a_1,b_1}, \dots) - \theta = h_{U_1}(U_{a_1}) + h_{U_2}(U_{a_2}) + h_{V_1}(V_{b_1}) + h_{V_2}(V_{b_2}) + \text{双变量交互项} + \text{四变量残余项},\]

其中所有项是相互正交的（因为 \( U_i, V_j, W_{ij} \) 全部独立）。关键认识：\( U \)-方向项只依赖于行节点身份，\( V \)-方向项只依赖于列节点身份，而交叉项涉及两者。这就是论文"基于Aldous-Hoover-Kallenberg的Hoeffding分解"在四元组情形下的显式表达。
利用这项式分解，可以立即写出方差

\[\mathrm{Var}(U_h) = \frac{4}{n} \sigma_U^2 + \frac{4}{m} \sigma_V^2 + \frac{4}{nm} \sigma_{UV}^2 + \cdots,\]

其中 \( \sigma_U^2, \sigma_V^2 \) 是行/列主效应的方差，高阶项阶数更低。（实际上本文的方差写法是 \( \mathrm{Var}(U_h) = \frac{1}{n} \zeta_{1,0} + \frac{1}{m} \zeta_{0,1} + O(n^{-2} + m^{-2} + (nm)^{-1}) \)，这里的 \( \zeta_{1,0} \) 对应行效应，\( \zeta_{0,1} \) 对应列效应。）
当 \( n, m \to \infty \) 且行效应或列效应中至少一个非零时，U-统计量是非退化的，可以证明 CLT：\( \sqrt{\min(n,m)}(U_h - \theta) \Rightarrow N(0, \sigma^2) \)。退化情形发生在所有行效应和列效应都为零（即核几乎不受单个节点身份影响），此时主方差项来自交互项，收敛率变慢，正态性需要附加条件。

这个特例抓住了论文的全部核心：分解 → 正交性 → 主项识别 → 非退化条件 → 渐近正态 → 方差估计。推广到一般 \( r,c \) 只是增加更多投影项，但结构完全相同。

三、这篇论文做了什么¶

三句话¶

研究问题：对于行-列可交换（RCE）矩阵 \( Y \)（即二部随机网络）上定义的任意阶U-统计量 \( U_h \)，建立其 Hoeffding 型分解，刻画非退化条件并证明渐近正态性，同时给出一个自然的高效方差估计量。
核心工具：利用 Aldous-Hoover-Kallenberg 表示将 \( Y_{ij} \) 写为潜在独立均匀变量的函数，从而在潜在变量空间上定义正交投影——这是经典 Hoeffding 分解在可交换阵列结构下的直接类比。
主要结论：U-统计量可以分解为行效应、列效应和行-列交互效应等正交项的加和；当至少一个单边效应（行或列）非零时，以 \( \sqrt{\min(n,m)} \) 速率收敛于正态分布；方差估计量可以通过经验替换行/列/对条件期望来构造，且一致估计渐近方差。

关键设定与假设¶

设定：
\( Y \) 是 \( n \times m \) 的RCE矩阵。
核 \( h \) 对称（在同车置换和同人置换意义上，详见原文例2.1—2.3中的具体对称性定义；但一般性假设 \( h \) 对于行子集 \( a \) 和列子集 \( b \) 的置换不变，即 \( h \) 只依赖于 \( Y_{ab} \) 的多重集，而不是具体索引顺序）。
核 \( h \) 满足适当的矩条件（通常 \( \mathbb{E}[h^2] < \infty \)，乃至更高阶矩用于CLT中的Lindeberg型条件）。
主要假设：
(A1) 可交换性：\( (Y_{ij}) \overset{d}{=} (Y_{\sigma(i),\tau(j)}) \) 对所有行置换 \( \sigma \) 和列置换 \( \tau \) 成立。这是全局假设。
(A2) 存在性：Aldous-Hoover表示 \( Y_{ij} = f(U_i, V_j, W_{ij}) \)。这并非附加假设，而是(A1)已知的等价充要条件。
(A3) 矩条件：\( \mathbb{E}[h^2] < \infty \)（以及更细的积分可交换条件，如检验 \( \mathbb{E}[h \mid U_1] \) 的存在性）。
相比已有文献的放宽/强化：
相比 Minh (2021) 只允许 \( r=c=2 \)，本文允许任意 \( r,c \)。相比 Davezies et al. (2019) 只处理单变量核（即 \( U_h \) 退化为 \( \bar{Y}_{ij} \) 的平均），本文处理多变量核。相比 Kaur & Röllin (2020) 只关注特定（同构类）子图计数，本文给出通用核的分解。本文的强化是：要求核 \( h \) 对行/列子集置换对称，这不限制实际应用（motif计数自然满足），但比图on文献中的任意函数稍微严格（不过原文例2.1-2.3展示了很多例子都满足）。

主要结果（理论型）¶

定理1（Hoeffding分解）（本文Thm 3.1）:
设 \( Y \) 是RCE矩阵，具有Aldous-Hoover表示 \( Y_{ij} = f(U_i, V_j, W_{ij}) \)。对任何简单的核 \( h \) 满足 \( \mathbb{E}[h^2] < \infty \)，U-统计量 \( U_h \) 可以分解为

\[U_h - \theta = \sum_{s=0}^{r} \sum_{t=0}^{c} U_{st}, \quad \text{且 } \mathbb{E}[U_{st} U_{s't'}] = 0 \text{ 当 } (s,t) \neq (s',t'),\]

其中 \( U_{st} \) 是 \( U_h \) 在阶为 \( (s,t) \) 的交互效应项上的投影。具体地，\( U_{10} \) 仅包含行主效应（每个行节点贡献一次），\( U_{01} \) 仅包含列主效应，\( U_{11} \) 为行-列交叉效应，依此类推。本定理的难点：经典Hoeffding分解依赖i.i.d.个体，这里则依赖结构通过 \( U_i \) 和 \( V_j \) 传递——必须证明这些潜在变量的独立性足以保证正交性，且投影算子可以定义在可测函数空间中。

定理2（渐近正态性）（本文Thm 4.1–4.3）:
设 \( n, m \to \infty \)。
- 若 \( \zeta_{1,0} := \mathrm{Var}(U_{10} / (1/n)) > 0 \) 且 \( n/m \to c \in (0,\infty) \)，则

\[\sqrt{n}(U_h - \theta) \xrightarrow{d} N(0, r^2 \zeta_{1,0}).\]

类似地，若 \( \zeta_{0,1} > 0 \) 则 \( \sqrt{m}(U_h - \theta) \) 正态。
- 若 \( \zeta_{1,0} = \zeta_{0,1} = 0 \)（退化情形），则收敛速度变为 \( \sqrt{nm} \)（更高阶退化时速度更慢），且极限分布为 \( \chi^2 \) 型或混合高斯（视具体退化阶而定）。
核心直觉：行效应和列效应是两种"长程依赖"——每个行节点影响 \( m \) 个观测，所以非零行效应贡献 \( O(1/n) \) 的方差分量，列效应贡献 \( O(1/m) \) 的方差分量。只要存在任意一种非零，U-统计量就以该方向的最慢速率（\( \sqrt{\min(n,m)} \)）达到正态。

定理3（方差估计一致）（本文Thm 5.1）:
定义

\[\hat{\zeta}_{1,0} = \frac{1}{n} \sum_{i=1}^n \left( \frac{1}{\binom{n-1}{r-1}\binom{m}{c}} \sum_{a: i \in a} \sum_{b} h(Y_{a,b}) - U_h \right)^2,\]

则 \( \hat{\zeta}_{1,0} \xrightarrow{p} \zeta_{1,0} \)。对 \( \hat{\zeta}_{0,1} \) 对称定义。于是基于 plug-in 的方差估计 \( \widehat{\mathrm{Var}}(U_h) = r^2 \hat{\zeta}_{1,0}/n + c^2 \hat{\zeta}_{0,1}/m \) 一致。
技术要点：这个估计量计算上等价于对每个行节点 \( i \)，固定该行节点后枚举所有包含 \( i \) 的核子集求平均，得到"行条件期望"的经验近似——不需要交叉耦合或bootstrap**，计算复杂度 \( O(n \cdot \binom{n-1}{r-1}\binom{m}{c}) \)，对中等 \( r,c \) 可行。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：
1. 借助Aldous-Hoover表示：\( Y_{ij} = f(U_i, V_j, W_{ij}) \)，将问题转化到潜在变量空间 \( (U,V,W) \)。
2. 定义投影算子：对于核 \( h \)，定义条件期望 \( \mathbb{E}[h \mid \mathcal{B}] \)，其中 \( \mathcal{B} \) 是由某些潜在变量生成的 \( \sigma \)-代数。例如，\( h_{U_1} = \mathbb{E}[h \mid U_1] \)，\( h_{U_1,V_1} = \mathbb{E}[h \mid U_1, V_1] \)。删除均值得零均值"投影"项。
3. 分组求和形成U-统计量分量：将每个核项按包含的行/列索引的集合分类，累加得到各阶投影U-统计量 \( U_{st} \)。由于潜在变量独立，这些投影项两两正交。
4. 识别方差主项：计算 \( \mathrm{Var}(U_h) = \sum_{s,t} \binom{r}{s}^2 \binom{c}{t}^2 \zeta_{s,t} / ( 对n,m的某个组合 ) \)，并证明最大项是 \( s=1,t=0 \) 和 \( s=0,t=1 \) 对应的项（除非它们为零）。
5. 应用Lindeberg-Feller型CLT：将 \( U_h - \theta \) 重写为 \( \sum_{i=1}^n \xi_i^{(n)} + \sum_{j=1}^m \eta_j^{(n)} + R \)，其中 \( \xi_i \) 是行效应项的鞅差加和，\( \eta_j \) 是列效应项的鞅差加和，剩余项 \( R \) 的方差较小（可以用不等式如Chebyshev或Hoeffding bound控制）。最后对鞅差组立CLT（依靠条件Lyapunov条件或Lindeberg条件，通过矩假设验证）。

关键跳跃点：
- 从 \( Y \) 空间到 \( (U,V,W) \) 空间的投影定义：因为 \( h \) 是 \( Y \) 的函数，并不直接是 \( (U,V,W) \) 的函数。必须证 \( \mathbb{E}[h \mid U_i, V_j] \) 作为 \( U_i, V_j \) 的函数是良定义的——这依赖可交换性和Fubini定理，但需要测度论细节（作者在补充材料中处理）。
- 行效应项 \( U_{10} \) 实际上是 \( \frac{r}{n} \sum_{i=1}^n [ \mathbb{E}[h \mid U_i] - \theta ] \) 加上一个高阶余项；证明主项等于该简并形式是关键跳跃（Lemma 4.2）。
- 退化情形（主效应全零）下的收敛速率和极限分布：需要使用更精细的高阶展开，类似经典U-统计量在退化时的Wilks现象。作者给出了一个充分条件（Theorem 4.3）并指出极限为 \( \chi^2 \) 的组合——但证明仅给了sketch，依赖已经有有限维分布收敛和tightness argument。

技术技巧点名：
- Aldous-Hoover-Kallenberg表示：整个大厦的地基，将RCE矩阵嵌入独立潜在变量空间。
- 投影算子+正交分解：经典Hoeffding分解的直接类比，但需要适应"行-列双索引"结构。
- 鞅差中心极限定理（McLeish, Martingale CLT）：用于证明主效应项的渐近正态，因为行效应项 \( \frac{r}{n}\sum_i h'_i \) 实际上是行索引之间的弱依赖（通过共同 \( U \) 独立，但不同行之间的 \( h'_i \) 无关——因为 \( U_i \) 独立）。
- 经验过程/Empirical process theory：在方差估计量一致性的证明中，需要用uniform law of large numbers处理形如 \( n^{-1}\sum_i(\hat{g}_i - g_i)^2 \) 的项，其中 \( \hat{g}_i \) 是U-统计量形式的经验条件期望。这里作者可能隐式使用了Davezies et al. (2019) 对可交换阵列的U-过程结果。
- Lindeberg条件验证：对高阶矩有要求（作者假设了 \( \mathbb{E}[h^4]<\infty \) 以保证Lindeberg条件）。
- 组合学 identities：在计算各阶方差的系数（\( \binom{r}{s}^2 \binom{c}{t}^2 \)）时使用了简单的组合计数——每个核项被多少个上采样U-统计量包含。

真实例子与应用¶

论文不是纯理论——有模拟和真实数据示例。

模拟研究（Section 6）：
使用了随机块模型（SBM）的两种设定：二部版本（Bipartite SBM，行有K行社区，列有L列社区）。核 \( h \) 取为 Motif 6 和 Motif 14 的计数（在二部网络直觉中，Motif 6对应"两个行节点与同一个列节点相连"的模式的计数；Motif 14对应"两个行节点与两个列节点形成一个4-cycle"的计数）。
对每个设定，改变参数（社区大小、块概率），计算U-统计量、渐近方差估计、bootstrap方差基准和覆盖概率。结果发现：提出的方差估计在非退化下表现很好，覆盖概率接近名义95%；退化时覆盖略差（符合预期）。
还做了检验：检验两个网络是否来自同一SBM参数——构造Wald统计量 \((U_h - U_{h'}) / \sqrt{\widehat{\mathrm{Var}}}\)，发现经验level控制良好，功效随信号增强增加。
真实数据例子（Section 7）：
使用了 law-makers networks 数据集（Michalska-Smith & Allesina, 2019 提及）：这是一个二部网络集合，节点一侧是立法委员（或政党），另一侧是法案，边表示投票支持。
目的：比较不同国家的立法网络（如美国、英国等）是否在同一种"motif频率模式"上不可区分。作者计算了来自不同国家的多个网络的Motif 6和Motif 14计数U-统计量的差异，并报告了成对检验的p值（校正后）。发现某些网络对在Motif 6上有显著差异，而在Motif 14上无显著差异——这展示了不同方法在不同时间尺度上的信息互补。
这个例子验证了理论预测：U-统计量的方差公式允许在无需重抽样的情况下进行快速检验。同时，研究者可以从代码中看到这些统计量的实际大小——例如某个网络有n=150, m=200, U_6=0.023，方差约1.2e-5，从而拒绝零假设。

强调：论文没有任何关于计算复杂度或数值优化的讨论，所有模拟和例子都是温和大小的网络（n,m ≤ 500），计算时间不是瓶颈。

🔎 结论是否比证明窄¶

是，有两点值得注意：
1. 定理强度：作者证明了在非退化条件下U-统计量是渐近正态的，但仅对"弱图on"情形提供了证明，其中退化条件下极限分布的具体形式（混合 \( \chi^2 \) ）仅被conjectured而非严格证明（见Theorem 4.3的语"the limiting distribution is a combination of independent chi-square random variables"，随后注记中说"the rigorous proof of this claim is technical and omitted here"）。因此，使用者必须保持谨慎：退化情形在实际应用的错误假定下可能被误认为非退化。
2. 方差估计量的渐近有效性：论文证明了估计量一致，但没有证明它是渐近有效的（即没有达到Cramér-Rao下界或半参数效率界）。这是一个开阔的缺口——可能在更高阶的展开中，该估计量的收敛速度可以提升（如使用cross-fitting或bootstrap correction）。作者在结论中自己也指出"the estimator is not necessarily efficient"。

四、开放问题（点到为止，扎根具体语句）¶

退化情形的精确极限分布：
Theorem 4.3 假设了行和列主效应都为零，断言极限是 \( \chi^2 \) 的组合，但作者明确说"rigorous proof is omitted"。这是一句直接扎根于 "The detailed derivation of the limiting distribution under degeneracy is long and we omit it for brevity"（近似表述，原文在Thm 4.3后）。研究者可以补上这个证明，或推导退化到更高阶的通用公式——这涉及高阶正交分解中剩余项的范数收敛和Wiener chaos分解。
效率问题与半参数最优方差估计：
论文的方差估计量是自然的plug-in，但作者没有讨论它是否达到半参数效率界。扎根于 "We do not claim that this variance estimator attains the semiparametric efficiency bound"（见于结论未来工作段落）。研究者可以用半参数理论（有效影响函数）研究是否可以通过调整权重（如用alternating projections）实现更小的渐近方差。此问题与研究者熟悉的效率理论（semiparametric efficiency bounds）直接对接。
计算复杂度与树宽/张量收缩视角：
方差估计量涉及对每个行/列的枚举求和，当 \( r,c \) 较大时计算成本指数增长。扎根于论文没有讨论计算。研究者可以利用自己的树宽/收缩技巧，设计加速方案——将核视为一个多线性多项式，用einsum库优化收缩顺序。这个问题有明确的tool-matching（技术武器库中的"computation of higher-order U-statistics (treewidth/tensor contraction/einsum)"）。
网络间比较的多个U-统计量联合检验：
论文只做了两个U-统计量（Motif 6和Motif 14）的单独检验。事实上，研究者可以检验多个不同核函数的U-统计量向量，构造一个联合 \( \chi^2 \) 检验。作者在结论的 "Extension to multiple U-statistics is natural" 中提及。这需要推导联合渐近分布和协方差估计——可能会引入新的退化交互项。

（注：以上开放问题全部来自论文自身的局限或未来工作部分，无一凭空创造。）

Maintained by 陈星宇 · Homepage · Source on GitHub