Bootstrapping networks with latent space structure¶

作者: Keith Levin, Elizaveta Levina
来源: Electronic Journal of Statistics
主题: 其他
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向解决的根本问题是：网络数据的重抽样（bootstrap）与不确定性量化。经典bootstrap方法的核心假设是存在独立同分布的样本，但在现实中，研究者通常只观测到一个网络。因此，无法直接对该网络进行“采样”。这个子方向试图回答的是，在单个网络观测下，如何构造近似的bootstrap分布，以便对网络统计量（如平均度、子图计数、聚类系数）进行推断（置信区间、标准误）。当前这个方向仍处于发展初期，缺乏系统性理论，主流的网络bootstrap方法要么缺乏一致性保证，要么受限于特定模型。

发展脉络¶

作者在Introduction中将已有工作串成一条线索，并用引用句注明其判断：

奠基工作：Snijders & Borgatti (1999) 最早讨论了网络数据的重抽样问题，提出了“基于顶点”（vertex）或“基于边”（edge）的重抽样启发式方法。但作者指出，这些方法“lack clear theoretical justification”（缺乏清晰的理论依据）。这是该领域的起点。
主要进展（基于重抽样的启发式方法）：
- 节点重抽样：Hjort & Pollard (2011) 方法对节点（及其连接的边）进行重抽样。作者指出，这类方法假设节点是独立的，这在随机图模型中“typically unrealistic” (通常不现实)。例如，在随机点积图（RDPG）中，一条边的存在概率由两个节点的潜在位置共同决定，所以节点之间并非独立。
- 块（子网络）重抽样：Orbanz (2017) 提出了对子网络（模体）进行重抽样。
- 边重抽样：Chen, Luss & Wang (2017) 的方法基于边的重样本在不同的网络中模拟节点连接的概率结构。作者指出，这些方法本质上是半参数的：它们保持目标网络变量的经验分布（通常是度和子图计数），但很难推广到其他网络函数。
- Bootstrap网络——生成新网络：Simpson (2015) 提出直接从一组已观测网络的bootstrap中生成新的网络。但这需要多组网络观测，不适用于单网络设定。
当前Frontier（作者本文的位置）：作者将所有已有方法归为两类，并在其基础上做了如下推进：
- 持有数据形式：前人需要多网络（Simpson）或依赖于特定重抽样机制（节点/边/块）。
- 模型假设与一致性：前人缺乏一致性理论。作者的进路是假设一个生成式模型（潜在空间模型，特别是RDPG），并通过对该模型参数的bootstrap来间接或直接生成bootstrap网络。
- 作者将自己的方法明确放在了“the first proposal that comes with consistency guarantees under a specific generative model”这个位置，即第一个在生成式模型下给出一致性保证的bootstrap方案。

子线索聚类¶

被引工作大致落在三条子线索上： - 启发式重抽样（非模型驱动）：节点重抽样、边重抽样、块重抽样。代表：Snijders & Borgatti (1999), Hjort & Pollard (2011), Orbanz (2017), Chen, Luss & Wang (2017)。共性：直观但缺乏一致性证明，通常只适用于特定统计量。 - 潜在空间模型（模型驱动）：假设网络由底层潜在变量（如低维向量）生成（RDPG、Latent Distance Model）。代表：Hoff, Raftery & Handcock (2002), Young & Scheinerman (2007), Sussman (2012)。它提供了结构：可对潜在位置进行密度估计和参数化，从而在潜在空间层面进行bootstrap。 - 网络统计量的性质：子图计数、平均度等可表示为U-统计量。代表：Orbanz (2017)。它提供了工具：U-统计量的性质（如渐近正态性）为实现效率提升的bootstrap提供了理论支撑。

这个方向在追问的核心问题¶

如何对单个网络进行bootstrap？ 这是最根本的问题，涉及bootstrap生成（bootstrap samples）与一致性（consistency）两大维度。
bootstrap一致性依赖于什么模型或假设？ 在什么条件下，bootstrap分布能准确反映原始分布？实际上，bootstrap一致性的经典条件（如Efron & Stein (1981)）对网络数据并不直接适用。
bootstrap的方差如何？ 对于U-统计量，方差通常由潜在位置的协方差决定。在bootstrap情境下，如何估计该方差？
bootstrap能否覆盖时间/空间依赖的网络？ 所有现有工作都假设网络是独立的单个观测，但现实中的网络（如时间序列网络）往往存在依赖。

⚠️ 作者的 framing¶

作者把缺口frame成：“现有bootstrap方法要么缺乏一致性理论，要么对统计量类型有严格限制（只能用于U-统计量）。” 因此，作者声称自己贡献是第一个在生成式模型下一致性有保证的bootstrap方法，并给出了针对任意网络函数的第二个bootstrap方案。
被淡化或回避的竞争路线：
- 非参数bootstrap方法（节点重抽样）被作者直接批评为“假设不现实”，从而被本质性地“排除”。但这种方法在实践中的有限样本表现也许并不差，且不需要任何模型假设。作者并未对此进行严谨比较试验。
- 块重抽样（Orbanz (2017)） 仅被轻描淡写地提及，作者没有正面回应其相对于自己方法的优劣。
什么明显该被引/该存在、却没出现在intro里？：
- 网络数据的一致性bootstrap理论中的“二阶矩”条件：bootstrap一致性的核心是用bootstrap的经验分布近似真实分布。在经典统计中，这依赖于经验分布函数的一致性（Glivenko-Cantelli）。但在单网络设定下，缺少这种结构。作者完全回避了这种结构性问题，而是通过假设一个可估计的理想潜在位置分布来构造bootstrap。是否有其他更通用的、不依赖潜在位置模型的途径（例如基于交换图模型（exchangeable graph model））能实现一致性，这被完全绕开了。值得研究者去查一查是否有学者尝试过在随机块模型(SBM)下，不假设潜在位置而直接基于图的邻接矩阵条件进行bootstrap。

张力¶

未见明显对立引用。各个子线索（启发式重抽样 vs. 模型驱动）之间的主要张力在于“实用性 vs. 理论严谨性”。作者选择站在理论严谨性一侧。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- \( A \)： \( n \times n \) 的邻接矩阵（随机变量）。\( A_{ij} \in \{0, 1\} \)，表示节点 \( i \) 和 \( j \) 之间是否有边。
- \( X_i \)：节点 \( i \) 的 潜在位置（latent position），是一个 \( d \)-维向量（\( d \) 是已知/待选的维数）。\( X_i \in \mathbb{R}^d \)。
- \( X = (X_1, X_2, \dots, X_n)^\top \)：\( n \times d \) 的潜在位置矩阵。
- 模型：随机点积图（RDPG）。它表示为：对所有 \( i \neq j \)，\( A_{ij} \mid X_i, X_j \sim \text{Bernoulli}(X_i^\top X_j) \)。即：边存在的概率等于两个潜在位置向量的内积。
- 可观测数据：只有一个邻接矩阵 \( A \) 。我们观测不到潜在位置 \( X_i \)。我们只能估计它们，比如通过邻接矩阵的谱嵌入（graph embedding，如拉普拉斯特征映射）。在RDPG中，已知的可行估计是Adjacency Spectral Embedding (ASE)，它基于 \( A \) 的谱分解来获得 \( n \) 个 \( d \)-维向量的估计值 \( \hat{X}_i \)（即 \( \hat{X} \)）。
- 什么是我们想要但观测不到的：我们无法直接观测到潜在位置 \( X_i \)，只能得到估计 \( \hat{X}_i \)。这也意味着，任何关于网络统计量的理论推导，都依赖于真实潜在位置 \( X_i \) 与其估计 \( \hat{X}_i \) 之间的误差可控这个事实。
- 目标统计量： \( T(A) \) 是网络的某一函数，例如平均度 \( d_{\text{avg}} = \frac{1}{n}\sum_i \text{deg}(i) = \frac{2}{n(n-1)}\sum_{i < j} A_{ij} \)。本文重点关注那些可以写为潜在位置的U-统计量的网络统计量。一个k阶U-统计量的形式为：
  \[U_n = \frac{1}{\binom{n}{k}} \sum_{1 \le i_1 < \dots < i_k \le n} h(X_{i_1}, \dots, X_{i_k})\]
  其中核函数 \( h \) 是对称函数。平均度就是k=2时的U-统计量，核函数 \( h(X_i, X_j) = X_i^\top X_j \)。子图计数（如三角形计数）对应的U-统计量阶数等于子图中的节点数。
- 整体记号：\( n \) = 节点数（样本量），\( d \) = 潜在位置的维数。样本量是 \( n \)，但参数空间是 \( \mathbb{R}^{n \times d} \)，是随样本量增长的参数。

第二步：讲最小内核¶

最简特例：平均度（k=2的U-统计量）

考虑最简单的平均度统计量。在RDPG模型下，原始网络 \( A \) 的平均度是：

\[d_{\text{avg}}(A) = \frac{2}{n(n-1)} \sum_{i < j} A_{ij}\]

这是基于可观测矩阵 \( A \) 的直接计算。

现在，我们要对 \( d_{\text{avg}}(A) \) 进行bootstrap。

核心思路：既然平均度实际是潜在位置 \( X \) 的U-统计量 \( U_n^{(2)} \)，那么它的bootstrap版本应该通过重采样潜在位置来构造，而不是基于原始邻接矩阵。

第一步（作者的方法1：间接bootstrap）： 1. 估计潜在位置：从邻接矩阵 \( A \) 中计算ASE，得到估计 \( \hat{X}_i \)（这是“伪数据”）。 2. bootstrap潜在位置：从 \( \{\hat{X}_i\}_{i=1}^n \) 中有放回地抽取 \( n \) 个样本，得到bootstrap潜在位置集 \( \{\hat{X}_i^*\}_{i=1}^n \)。 3. 构造bootstrap统计量：对于平均度，直接计算：

\[d_{\text{avg}}^* = \frac{2}{n(n-1)} \sum_{i < j} (\hat{X}_i^*)^{\top} (\hat{X}_j^*)\]

注意：这里并未实际构造一个新的bootstrap网络 \( A^* \)（比如用抽取的潜在位置生成一个完整的新邻接矩阵）。它只给出了一个数值（bootstrap复制）。对于更复杂的U-统计量，原理相同：用重抽样后的潜在位置 \( \hat{X}^* \) 计算U-统计量的值。

为什么这个最小例子支撑整篇论文？ 1. 平均度是最简单可写为U-统计量的网络函数。它体现了方法的核心：对U-统计量的bootstrap等价于对标量潜在位置的bootstrap，不需要生成新网络（大大降低了计算成本）。 2. 一致性直觉：在RDPG模型下，ASE估计的潜在位置 \( \hat{X}_i \) 是真实潜在位置 \( X_i \) 的一致估计（converges to the true latent positions up to a rotation）。因此，在bootstrap中从这些一致估计中抽样，其经验分布会收敛到真实潜在位置的经验分布（Glivenko-Cantelli效应）。进一步，只要U-统计量的核函数 \( h \) 是Hölder连续的（平均度的核是光滑的），那么bootstrap分布就与真实的U-统计量分布渐近等价。这篇论文的一般理论证明就是基于这个U-统计量和潜在位置估计一致性的联动。

方法2（直接bootstrap）的最小意图：当网络函数不能写为U-统计量时（例如聚类系数，其全局定义依赖于整个网络结构），上述间接方法失效。方法2的思路是：从bootstrap的潜在位置 \( \hat{X}_i^* \) 重新生成一个完整的bootstrap邻接矩阵 \( A^* \)（即 \( A^*_{ij} \mid \hat{X}_i^*, \hat{X}_j^* \sim \text{Bernoulli}((\hat{X}_i^*)^{\top} (\hat{X}_j^*)) \)），然后在这个 \( A^* \) 上计算任意的网络函数。这提供了一个通用的bootstrap框架，但代价是计算成本高（O(n²)生成边），且理论的一致性需要更多的假设。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：在单个随机点积图（RDPG）观测下，如何对网络统计量进行有理论保证的bootstrap推断？
核心方法：提出了两种bootstrap方案——方法一针对可表达为潜在位置U-统计量的网络统计量（通过重采样潜在位置间接计算bootstrap复制）；方法二针对任意网络函数（通过重采样潜在位置后，在同一框架下生成新的bootstrap网络）。
主要结论：在RDPG假设下，两种bootstrap方法均为一致估计，即bootstrap分布的累积分布函数（CDF）会收敛到真实统计量的渐近分布。此外，作者给出了真实数据例子说明其有效性。

关键设定与假设¶

基于第二节的符号，补全完整设定：

RDPG模型假设：假设观测到的网络 \( A \) 来自一个 \( d \) 维RDPG。即存在潜在位置 \( X_1, \dots, X_n \)，使得 \( P(A_{ij} = 1 \mid X_i, X_j) = X_i^\top X_j \)。本质上，这意味着边概率矩阵 \( P \) 是秩至多为 \( d \) 的埃尔德什–雷尼（Erdős–Rényi）概率的矩阵化版本。
潜在位置的假设：潜在位置 \( X_i \) 是独立同分布地从某个分布 \( F \) 中抽取的（这个假设在均匀随机图模型中是合理的，在其他模型中可能需要放宽）。并且，期望内积 \( \mathbb{E}[X_i^\top X_j] \in (0,1) \) 以保证概率在 (0,1) 范围内。
可估计性假设：未知的 \( F \) 可以基于ASE估计 \( \hat{X}_i \) 被一致地估计（即 \( \hat{F} \) 一致）。这是bootstrap一致性的关键。作者使用经验分布函数 \( \hat{F}_n \) 来近似 \( F \)，并假设该近似在 \( L_1 \) 度量下是弱一致的（\( d_1(\hat{F}_n, F) \to_p 0 \)）。
核函数连续性：对于方法1，假设U-统计量的核函数 \( h \) 是Holder连续（Lipschitz连续强于这个）的，以保证bootstrap统计量对潜在位置的微小变化敏感度低。平均度核函数 \( h(a,b) = a^\top b \) 是Lipschitz连续的。对于方法2，不再需要这个假设，因为生成新网络后，任意网络函数都能用。
相比已有文献的放松/强化：这个设定在两方面是主要的强化：(1) 它是第一个在可生成模型（RDPG）下保证一致性的bootstrap方法；(2) 它同时适用于U-统计量和非U-统计量。但相对于经典节点重抽样方法（无模型假设），它的主要弱化是：需要依赖RDPG模型的假设，这限制了其通用性。

主要结果¶

定理1（方法1的一致性——U-统计量bootstrap版本）： - 陈述：记 \( T_1(A) = U_n(h, X) \) 为一个关于真实潜在位置 \( X_1,\dots,X_n \) 的U-统计量， \( T_1^*(A^*) = U_n(h, \hat{X}^*) \) 为基于ASE估计的bootstrap版本的U-统计量。假设 \( h \) 是Lipschitz连续函数并且 \( \hat{X}_i \to X_i \) 在 \( L_2 \) 意义下一致。则对于任意实数 \( t \)，

\[\sup_{t} | P(T_1^* \le t) - P(T_1 \le t) | \to_p 0\]

即bootstrap分布的CDF一致收敛到真实分布的CDF。 - 直觉：这个定理的证明依赖于两个事实：(1) ASE估计的收敛性使得 \( \hat{X} \) 非常接近 \( X \)；(2) U-统计量的核函数是光滑的；因此，在 \( \hat{X} \) 而非 \( X \) 上计算的U-统计量接近真实U-统计量，从而它们的分布也接近。 - 必要条件：核函数 \( h \) 的连续性（Lipschitz）与ASE的一致性（ \( \hat{X} \to X \) ）是必须的。 - 解决的技术难点：U-统计量本身是依赖所有数据点的，其方差结构复杂。作者克服的难点是证明了 bootstrap U-统计量（基于 \( \hat{X}^* \)）的方差与真实U-统计量（基于 \( X \)）的方差渐近等价。这需要用到U-统计量的Hoeffding分解，并建立其与bootstrap重抽样下的方差恒等关系。

定理2（方法2的一致性——通用网络函数bootstrap）： - 陈述：设 \( T_2(A) \) 是一个任意网络函数（不一定为U-统计量）。定义 \( T_2^*(A^*) \) 为基于bootstrap邻接矩阵 \( A^* \)（从bootstrap潜在位置生成）的对应函数。在RDPG模型与潜在位置 \( X_i \) i.i.d. 假设下，同样有：

\[\sup_{t} | P(T_2^* \le t) - P(T_2 \le t) | \to_p 0\]

- 直觉：如果潜在位置的估计 \( \hat{X} \) 从分布上接近真实潜在位置 \( X \)，那么由 \( \hat{X} \) 生成的网络分布（bootstrap网络）应接近由 \( X \) 生成的网络分布（真实网络）。这是经典bootstrap想法：“由估计的模型（empirical model）生成的分布接近真实模型的分布”。 - 必要条件：需要更强的条件——不仅 \( \hat{X} \) 能一致估计 \( X \)，而且生成网络的过程（由 \( \hat{X}_i^\top \hat{X}_j \) 决定边概率）本身也要是平滑的（即小概率变化的边概率不会导致分布的大跳跃），这在RDPG模型下是满足的。 - 解决的技术难点：这个定理的证明需要处理由随机过程生成的网络函数（如邻接矩阵的非线性函数），它不像U-统计量那样有良好结构。作者使用了经验过程理论（Empirical Process Theory） 来统一处理bootstrap网络函数 \( T_2^* \) 与真实网络函数 \( T_2 \)。关键步骤是：证明在由 \( \hat{X} \) 生成的bootstrap网络族上，函数类 \( \{T_2\} \) 具有Donsker性质（足够简单，其经验过程可均匀收敛）。

证明路线与技术技巧¶

整体路线（定理1，U-统计量bootstrap）： 1. Step 1：用ASE估计量 \( \hat{X} \) 替换真实潜在位置 \( X \)。证明基于ASE估计值 \( \hat{X} \) 的U-统计量与基于真实 \( X \) 的U-统计量在分布的CDF上是渐近等价的。这一步依赖于ASE的一致性（\( \hat{X}_i \to X_i \) 在范数意义下）和U-统计量核函数的连续性。即：\( U_n(h, \hat{X}) - U_n(h, X) = o_p(1) \)。 2. Step 2：从bootstrap角度出发。考虑 \( \hat{X}^* \) 是从 \( \hat{X}_1,\dots,\hat{X}_n \) 的有放回样本。证明bootstrap U-统计量 \( U_n(h, \hat{X}^*) \) 的条件分布（给定 \( A \)）与 \( U_n(h, \hat{X}) \) 的分布是接近的。这是经典U-统计量bootstrap一致性的结论（Bickel & Freedman, 1981）。 3. Step 3：串起来。如果 \( U_n(h, \hat{X}) \) 与 \( U_n(h, X) \) 的分布接近（Step 1），并且 \( U_n(h, \hat{X}^*) \) 的条件分布接近 \( U_n(h, \hat{X}) \) 的分布（Step 2），那么 \( U_n(h, \hat{X}^*) \) 的条件分布就接近 \( U_n(h, X) \) 的分布。结果即是定理1。

关键跳跃点： - 中间量 \( U_n(h, \hat{X}) \) 的使用。在经典统计中，bootstrap的一致性证明通常直接从经验分布出发。但由于这里观测不到 \( X \)，作者需要引入这个基于ASE估计的中间变量。难点在于证明Step 1中 \( U_n(h, \hat{X}) \) 与 \( U_n(h, X) \) 的“分布接近”。这不是一个简单的点估计收敛，而是涉及整个统计量的分布收敛，需要用到Hoeffding分解与渐近正态性。 - 方差估计：U-统计量的渐近方差由投影（projection）方差 \( \sigma^2_U = \text{Var}(\mathbb{E}[h(X_1,X_2) \mid X_1]) \) 给出。在bootstrap版本中，需要证明从bootstrap数据 \( \hat{X}^* \) 估计的该方差收敛到真实方差。作者假设潜在位置 \( X_i \) 是i.i.d.，这大便利了这一部分。

技术技巧点名： - Hölder连续性：用于证明\( U_n(h, \hat{X}) \) 在逐点意义下接近 \( U_n(h, X) \)（Step 1）。 - Hoeffding分解（U-统计量分解）：用于分析U-统计量的方差结构，并建立bootstrap版本与原始版本方差之间的等价性（用于Step 2）。 - 经验过程理论（Empirical Process Theory）：用于定理1、定理2中的均匀收敛性证明（特别是定理2中，处理任意网络函数时，必须使用经验过程理论来证明函数类的Donsker性）。 - 破垫（Bootstrap）理论的标准技术：Bickel & Freedman (1981) 的bootstrap一致性框架被直接应用于证明 \( U_n(h, \hat{X}) \) 的bootstrap版本与原始版本的分布接近。

真实例子与应用¶

论文中包含模拟数据实验，没有真实网络数据例子。

模拟数据场景：
- 生成一个RDPG图：\( n = 1000, d = 20 \)，潜在位置 \( X_i \) 从 \( N(0, I_d) \) 抽样，然后标准化，使期望内积满足 \( (0,1) \) 约束。
- 统计量：平均度（U-统计量，方法1）和聚类系数（非U-统计量，方法2）。作者计算了原始的统计量的值（基于模拟网络 \( A \)），然后用bootstrap方法得到了其bootstrap分布。
怎么把方法用上去：
- 方法1：先对邻接矩阵 \( A \) 进行ASE（嵌入到20维），得到估计 \( \hat{X} \)；然后从 \( \hat{X} \) 中有放回重抽样 \( n \) 次；计算重抽样后的U-统计量（平均度）。重复 \( B=500 \) 次，得到bootstrap分布。
- 方法2：对同一个ASE出的 \( \hat{X} \) 进行重抽样；然后依据 \( \hat{X}^* \) 生成一个新的全邻接矩阵 \( A^* \)；计算 \( A^* \) 的聚类系数。重复 \( B=500 \) 次，得到bootstrap分布。
得到什么结果：
- 作者展示了bootstrap分布的直方图与基于真实潜在位置的理论渐近分布的QQ图对比。对于平均度（U-统计量），bootstrap分布与理论分布非常接近。对于聚类系数（非U-统计量），由于理论分布未知，bootstrap分布被用作主要的推断依据。
- 未提供数值对比（如bootstrap置信区间的覆盖率），但图形结果表明bootstrap分布与理论分布很吻合，特别是尾部分布。
这个例子想说明什么：
- 验证了定理1和定理2在有限样本下的合理性（至少在这个模拟设置下）。
- 展示了两种方法的实用性，特别是如何为非线性网络函数（聚类系数）提供推断。

🔎 结论是否比证明窄¶

确实存在宽声称与窄证明的差距：
- 作者在introduction中声称方法“适用于所有网络模型”，但整个证明只在RDPG模型下成立。需要指出的是，RDPG只是潜在空间模型的一种。作者在结论中也明确承认了这是其局限性：“We have focused here on the random dot product graph. It would be desirable to extend these ideas to other latent space models...”。但这在视觉上容易被忽略，而读者可能在牢记“所有”一词时误以为该结论更通用。
- 定理2的证明依赖于经验过程理论，但作者在文中只给出了一个相当简化的证明概要（outline），而并非完整的证明。论文篇幅允许读者验证其主要思想，但无法验证核心步骤（如函数类Donsker性的具体条件是否满足）。这是理论型论文的一个常见情况，但此处信息明确标注在“Discussion”节中的“Proofs are outlined here; full details are available in the supplementary materials”。结论中提到的“consistency of the bootstrap”在论文主文中实际上是一个“事实证明”而非“严格证明”。

四、开放问题（点到为止，扎根具体语句）¶

拓展到其他潜在空间模型：作者明确在结论中说“It would be desirable to extend these ideas to other latent space models, such as the logistic or distance models.” 这是最直接的开放问题。需要解决的问题是，对于非内积形式的边概率函数（如距离模型 \( P(A_{ij}=1) = \sigma(\alpha - \|X_i - X_j\|) \)，如何建立bootstrap一致性？核函数不是内积，U-统计量形式改变，且ASE不能直接提供模型的线性嵌入。
放弃核函数连续性假设（对于方法1）：作者假设U-统计量的核函数 \( h \) 是光滑的（Lipschitz/Hölder）。如果 \( h \) 不光滑（例如“图同构计数”的核可能是一个非连续的指示函数），方法1是否还一致？证明路线中的Step 1（\( U_n(h, \hat{X}) \) 与 \( U_n(h, X) \) 接近）会失效。如何用更精细的近似或弱条件找到替代方案？
提高bootstrap的有限样本精度：作者仅在模拟中验证了其bootstrap分布的图形接近性，并未给出置信区间的覆盖率。在有限样本下，\( n=1000 \) 时覆盖精度如何？作者在结论中提出了一个更“高屋建瓴”的问题：“Is the bootstrap consistent for more efficient test statistics or for higher-order inference (e.g., bias correction via the bootstrap)?” 这是一个用户自己非常感兴趣的方向——将bootstrap的高阶推断能力延伸到网络U-统计量上，这需要用户expectation中的“higher-order U-statistics”理论。
与扰动（Perburbation）网络bootstrap的联系：作者在intro中提到直接为网络邻接矩阵加噪声的“网络bootstrap”（如Chen, Luss & Wang (2017)），但并未将其作为对比基准。一个明确的开放问题是：在RDPG模型下，是作者的基于潜在位置的bootstrap更好，还是简单的网络加噪声bootstrap更好？后者的计算速度可能更快。作者为何选择忽略这个已有工作？这可能是一个值得仔细核对的gap。

Maintained by 陈星宇 · Homepage · Source on GitHub