跳转至

Bootstrapping networks with latent space structure

作者: Keith Levin, Elizaveta Levina
来源: Electronic Journal of Statistics
主题: 其他
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本方向解决的根本问题是:网络数据的重抽样(bootstrap)与不确定性量化。经典bootstrap方法的核心假设是存在独立同分布的样本,但在现实中,研究者通常只观测到一个网络。因此,无法直接对该网络进行“采样”。这个子方向试图回答的是,在单个网络观测下,如何构造近似的bootstrap分布,以便对网络统计量(如平均度、子图计数、聚类系数)进行推断(置信区间、标准误)。当前这个方向仍处于发展初期,缺乏系统性理论,主流的网络bootstrap方法要么缺乏一致性保证,要么受限于特定模型。

发展脉络

作者在Introduction中将已有工作串成一条线索,并用引用句注明其判断:

  1. 奠基工作:Snijders & Borgatti (1999) 最早讨论了网络数据的重抽样问题,提出了“基于顶点”(vertex)或“基于边”(edge)的重抽样启发式方法。但作者指出,这些方法“lack clear theoretical justification”(缺乏清晰的理论依据)。这是该领域的起点。

  2. 主要进展(基于重抽样的启发式方法)

    • 节点重抽样:Hjort & Pollard (2011) 方法对节点(及其连接的边)进行重抽样。作者指出,这类方法假设节点是独立的,这在随机图模型中“typically unrealistic” (通常不现实)。例如,在随机点积图(RDPG)中,一条边的存在概率由两个节点的潜在位置共同决定,所以节点之间并非独立。
    • 块(子网络)重抽样:Orbanz (2017) 提出了对子网络(模体)进行重抽样。
    • 边重抽样:Chen, Luss & Wang (2017) 的方法基于边的重样本在不同的网络中模拟节点连接的概率结构。作者指出,这些方法本质上是半参数的:它们保持目标网络变量的经验分布(通常是度和子图计数),但很难推广到其他网络函数。
    • Bootstrap网络——生成新网络:Simpson (2015) 提出直接从一组已观测网络的bootstrap中生成新的网络。但这需要多组网络观测,不适用于单网络设定。
  3. 当前Frontier(作者本文的位置):作者将所有已有方法归为两类,并在其基础上做了如下推进:

    • 持有数据形式:前人需要多网络(Simpson)或依赖于特定重抽样机制(节点/边/块)。
    • 模型假设与一致性:前人缺乏一致性理论。作者的进路是假设一个生成式模型(潜在空间模型,特别是RDPG),并通过对该模型参数的bootstrap来间接或直接生成bootstrap网络。
    • 作者将自己的方法明确放在了“the first proposal that comes with consistency guarantees under a specific generative model”这个位置,即第一个在生成式模型下给出一致性保证的bootstrap方案

子线索聚类

被引工作大致落在三条子线索上: - 启发式重抽样(非模型驱动):节点重抽样、边重抽样、块重抽样。代表:Snijders & Borgatti (1999), Hjort & Pollard (2011), Orbanz (2017), Chen, Luss & Wang (2017)。共性:直观但缺乏一致性证明,通常只适用于特定统计量。 - 潜在空间模型(模型驱动):假设网络由底层潜在变量(如低维向量)生成(RDPG、Latent Distance Model)。代表:Hoff, Raftery & Handcock (2002), Young & Scheinerman (2007), Sussman (2012)。它提供了结构:可对潜在位置进行密度估计和参数化,从而在潜在空间层面进行bootstrap。 - 网络统计量的性质:子图计数、平均度等可表示为U-统计量。代表:Orbanz (2017)。它提供了工具:U-统计量的性质(如渐近正态性)为实现效率提升的bootstrap提供了理论支撑。

这个方向在追问的核心问题

  1. 如何对单个网络进行bootstrap? 这是最根本的问题,涉及bootstrap生成(bootstrap samples)与一致性(consistency)两大维度。
  2. bootstrap一致性依赖于什么模型或假设? 在什么条件下,bootstrap分布能准确反映原始分布?实际上,bootstrap一致性的经典条件(如Efron & Stein (1981))对网络数据并不直接适用。
  3. bootstrap的方差如何? 对于U-统计量,方差通常由潜在位置的协方差决定。在bootstrap情境下,如何估计该方差?
  4. bootstrap能否覆盖时间/空间依赖的网络? 所有现有工作都假设网络是独立的单个观测,但现实中的网络(如时间序列网络)往往存在依赖。

⚠️ 作者的 framing

  • 作者把缺口frame成:“现有bootstrap方法要么缺乏一致性理论,要么对统计量类型有严格限制(只能用于U-统计量)。” 因此,作者声称自己贡献是第一个在生成式模型下一致性有保证的bootstrap方法,并给出了针对任意网络函数的第二个bootstrap方案。
  • 被淡化或回避的竞争路线
    • 非参数bootstrap方法(节点重抽样)被作者直接批评为“假设不现实”,从而被本质性地“排除”。但这种方法在实践中的有限样本表现也许并不差,且不需要任何模型假设。作者并未对此进行严谨比较试验。
    • 块重抽样(Orbanz (2017)) 仅被轻描淡写地提及,作者没有正面回应其相对于自己方法的优劣。
  • 什么明显该被引/该存在、却没出现在intro里?
    • 网络数据的一致性bootstrap理论中的“二阶矩”条件:bootstrap一致性的核心是用bootstrap的经验分布近似真实分布。在经典统计中,这依赖于经验分布函数的一致性(Glivenko-Cantelli)。但在单网络设定下,缺少这种结构。作者完全回避了这种结构性问题,而是通过假设一个可估计的理想潜在位置分布来构造bootstrap。是否有其他更通用的、不依赖潜在位置模型的途径(例如基于交换图模型(exchangeable graph model))能实现一致性,这被完全绕开了。值得研究者去查一查是否有学者尝试过在随机块模型(SBM)下,不假设潜在位置而直接基于图的邻接矩阵条件进行bootstrap

张力

未见明显对立引用。各个子线索(启发式重抽样 vs. 模型驱动)之间的主要张力在于“实用性 vs. 理论严谨性”。作者选择站在理论严谨性一侧。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
    • \( A \)\( n \times n \) 的邻接矩阵(随机变量)。\( A_{ij} \in \{0, 1\} \),表示节点 \( i \)\( j \) 之间是否有边。
    • \( X_i \):节点 \( i \)潜在位置(latent position),是一个 \( d \)-维向量(\( d \) 是已知/待选的维数)。\( X_i \in \mathbb{R}^d \)
    • \( X = (X_1, X_2, \dots, X_n)^\top \)\( n \times d \) 的潜在位置矩阵。
    • 模型随机点积图(RDPG)。它表示为:对所有 \( i \neq j \)\( A_{ij} \mid X_i, X_j \sim \text{Bernoulli}(X_i^\top X_j) \)。即:边存在的概率等于两个潜在位置向量的内积。
    • 可观测数据只有一个邻接矩阵 \( A \) 。我们观测不到潜在位置 \( X_i \)。我们只能估计它们,比如通过邻接矩阵的谱嵌入(graph embedding,如拉普拉斯特征映射)。在RDPG中,已知的可行估计是Adjacency Spectral Embedding (ASE),它基于 \( A \) 的谱分解来获得 \( n \)\( d \)-维向量的估计值 \( \hat{X}_i \)(即 \( \hat{X} \))。
    • 什么是我们想要但观测不到的:我们无法直接观测到潜在位置 \( X_i \),只能得到估计 \( \hat{X}_i \)。这也意味着,任何关于网络统计量的理论推导,都依赖于真实潜在位置 \( X_i \) 与其估计 \( \hat{X}_i \) 之间的误差可控这个事实。
    • 目标统计量\( T(A) \) 是网络的某一函数,例如平均度 \( d_{\text{avg}} = \frac{1}{n}\sum_i \text{deg}(i) = \frac{2}{n(n-1)}\sum_{i < j} A_{ij} \)。本文重点关注那些可以写为潜在位置的U-统计量的网络统计量。一个k阶U-统计量的形式为:
      \[U_n = \frac{1}{\binom{n}{k}} \sum_{1 \le i_1 < \dots < i_k \le n} h(X_{i_1}, \dots, X_{i_k})\]
      其中核函数 \( h \) 是对称函数。平均度就是k=2时的U-统计量,核函数 \( h(X_i, X_j) = X_i^\top X_j \)子图计数(如三角形计数)对应的U-统计量阶数等于子图中的节点数。
    • 整体记号\( n \) = 节点数(样本量),\( d \) = 潜在位置的维数。样本量是 \( n \),但参数空间是 \( \mathbb{R}^{n \times d} \),是随样本量增长的参数。

第二步:讲最小内核

最简特例:平均度(k=2的U-统计量)

考虑最简单的平均度统计量。在RDPG模型下,原始网络 \( A \) 的平均度是:

\[d_{\text{avg}}(A) = \frac{2}{n(n-1)} \sum_{i < j} A_{ij}\]
这是基于可观测矩阵 \( A \) 的直接计算。

现在,我们要对 \( d_{\text{avg}}(A) \) 进行bootstrap。

核心思路:既然平均度实际是潜在位置 \( X \) 的U-统计量 \( U_n^{(2)} \),那么它的bootstrap版本应该通过重采样潜在位置来构造,而不是基于原始邻接矩阵。

第一步(作者的方法1:间接bootstrap): 1. 估计潜在位置:从邻接矩阵 \( A \) 中计算ASE,得到估计 \( \hat{X}_i \)(这是“伪数据”)。 2. bootstrap潜在位置:从 \( \{\hat{X}_i\}_{i=1}^n \) 中有放回地抽取 \( n \) 个样本,得到bootstrap潜在位置集 \( \{\hat{X}_i^*\}_{i=1}^n \)。 3. 构造bootstrap统计量:对于平均度,直接计算:

\[d_{\text{avg}}^* = \frac{2}{n(n-1)} \sum_{i < j} (\hat{X}_i^*)^{\top} (\hat{X}_j^*)\]
注意:这里并未实际构造一个新的bootstrap网络 \( A^* \)(比如用抽取的潜在位置生成一个完整的新邻接矩阵)。它只给出了一个数值(bootstrap复制)。对于更复杂的U-统计量,原理相同:用重抽样后的潜在位置 \( \hat{X}^* \) 计算U-统计量的值。

为什么这个最小例子支撑整篇论文? 1. 平均度是最简单可写为U-统计量的网络函数。它体现了方法的核心:对U-统计量的bootstrap等价于对标量潜在位置的bootstrap,不需要生成新网络(大大降低了计算成本)。 2. 一致性直觉:在RDPG模型下,ASE估计的潜在位置 \( \hat{X}_i \) 是真实潜在位置 \( X_i \)一致估计(converges to the true latent positions up to a rotation)。因此,在bootstrap中从这些一致估计中抽样,其经验分布会收敛到真实潜在位置的经验分布(Glivenko-Cantelli效应)。进一步,只要U-统计量的核函数 \( h \) 是Hölder连续的(平均度的核是光滑的),那么bootstrap分布就与真实的U-统计量分布渐近等价。这篇论文的一般理论证明就是基于这个U-统计量和潜在位置估计一致性的联动。

方法2(直接bootstrap)的最小意图:当网络函数不能写为U-统计量时(例如聚类系数,其全局定义依赖于整个网络结构),上述间接方法失效。方法2的思路是:从bootstrap的潜在位置 \( \hat{X}_i^* \) 重新生成一个完整的bootstrap邻接矩阵 \( A^* \)(即 \( A^*_{ij} \mid \hat{X}_i^*, \hat{X}_j^* \sim \text{Bernoulli}((\hat{X}_i^*)^{\top} (\hat{X}_j^*)) \)),然后在这个 \( A^* \) 上计算任意的网络函数。这提供了一个通用的bootstrap框架,但代价是计算成本高(O(n²)生成边),且理论的一致性需要更多的假设。

三、这篇论文做了什么(本次重心,务必讲透)

三句话

  1. 研究问题:在单个随机点积图(RDPG)观测下,如何对网络统计量进行有理论保证的bootstrap推断?
  2. 核心方法:提出了两种bootstrap方案——方法一针对可表达为潜在位置U-统计量的网络统计量(通过重采样潜在位置间接计算bootstrap复制);方法二针对任意网络函数(通过重采样潜在位置后,在同一框架下生成新的bootstrap网络)。
  3. 主要结论:在RDPG假设下,两种bootstrap方法均为一致估计,即bootstrap分布的累积分布函数(CDF)会收敛到真实统计量的渐近分布。此外,作者给出了真实数据例子说明其有效性。

关键设定与假设

基于第二节的符号,补全完整设定:

  • RDPG模型假设:假设观测到的网络 \( A \) 来自一个 \( d \) 维RDPG。即存在潜在位置 \( X_1, \dots, X_n \),使得 \( P(A_{ij} = 1 \mid X_i, X_j) = X_i^\top X_j \)。本质上,这意味着边概率矩阵 \( P \) 是秩至多为 \( d \) 的埃尔德什–雷尼(Erdős–Rényi)概率的矩阵化版本。
  • 潜在位置的假设:潜在位置 \( X_i \) 是独立同分布地从某个分布 \( F \) 中抽取的(这个假设在均匀随机图模型中是合理的,在其他模型中可能需要放宽)。并且,期望内积 \( \mathbb{E}[X_i^\top X_j] \in (0,1) \) 以保证概率在 (0,1) 范围内。
  • 可估计性假设:未知的 \( F \) 可以基于ASE估计 \( \hat{X}_i \) 被一致地估计(即 \( \hat{F} \) 一致)。这是bootstrap一致性的关键。作者使用经验分布函数 \( \hat{F}_n \) 来近似 \( F \),并假设该近似在 \( L_1 \) 度量下是弱一致的(\( d_1(\hat{F}_n, F) \to_p 0 \))。
  • 核函数连续性:对于方法1,假设U-统计量的核函数 \( h \) 是Holder连续(Lipschitz连续强于这个)的,以保证bootstrap统计量对潜在位置的微小变化敏感度低。平均度核函数 \( h(a,b) = a^\top b \) 是Lipschitz连续的。对于方法2,不再需要这个假设,因为生成新网络后,任意网络函数都能用。

  • 相比已有文献的放松/强化:这个设定在两方面是主要的强化:(1) 它是第一个在可生成模型(RDPG)下保证一致性的bootstrap方法;(2) 它同时适用于U-统计量和非U-统计量。但相对于经典节点重抽样方法(无模型假设),它的主要弱化是:需要依赖RDPG模型的假设,这限制了其通用性。

主要结果

定理1(方法1的一致性——U-统计量bootstrap版本): - 陈述:记 \( T_1(A) = U_n(h, X) \) 为一个关于真实潜在位置 \( X_1,\dots,X_n \) 的U-统计量, \( T_1^*(A^*) = U_n(h, \hat{X}^*) \) 为基于ASE估计的bootstrap版本的U-统计量。假设 \( h \) 是Lipschitz连续函数并且 \( \hat{X}_i \to X_i \)\( L_2 \) 意义下一致。则对于任意实数 \( t \)

\[\sup_{t} | P(T_1^* \le t) - P(T_1 \le t) | \to_p 0\]
即bootstrap分布的CDF一致收敛到真实分布的CDF。 - 直觉:这个定理的证明依赖于两个事实:(1) ASE估计的收敛性使得 \( \hat{X} \) 非常接近 \( X \);(2) U-统计量的核函数是光滑的;因此,在 \( \hat{X} \) 而非 \( X \) 上计算的U-统计量接近真实U-统计量,从而它们的分布也接近。 - 必要条件:核函数 \( h \) 的连续性(Lipschitz)与ASE的一致性( \( \hat{X} \to X \) )是必须的。 - 解决的技术难点:U-统计量本身是依赖所有数据点的,其方差结构复杂。作者克服的难点是证明了 bootstrap U-统计量(基于 \( \hat{X}^* \))的方差与真实U-统计量(基于 \( X \))的方差渐近等价。这需要用到U-统计量的Hoeffding分解,并建立其与bootstrap重抽样下的方差恒等关系。

定理2(方法2的一致性——通用网络函数bootstrap): - 陈述:设 \( T_2(A) \) 是一个任意网络函数(不一定为U-统计量)。定义 \( T_2^*(A^*) \) 为基于bootstrap邻接矩阵 \( A^* \)(从bootstrap潜在位置生成)的对应函数。在RDPG模型与潜在位置 \( X_i \) i.i.d. 假设下,同样有:

\[\sup_{t} | P(T_2^* \le t) - P(T_2 \le t) | \to_p 0\]
- 直觉:如果潜在位置的估计 \( \hat{X} \) 从分布上接近真实潜在位置 \( X \),那么由 \( \hat{X} \) 生成的网络分布(bootstrap网络)应接近由 \( X \) 生成的网络分布(真实网络)。这是经典bootstrap想法:“由估计的模型(empirical model)生成的分布接近真实模型的分布”。 - 必要条件:需要更强的条件——不仅 \( \hat{X} \) 能一致估计 \( X \),而且生成网络的过程(由 \( \hat{X}_i^\top \hat{X}_j \) 决定边概率)本身也要是平滑的(即小概率变化的边概率不会导致分布的大跳跃),这在RDPG模型下是满足的。 - 解决的技术难点:这个定理的证明需要处理由随机过程生成的网络函数(如邻接矩阵的非线性函数),它不像U-统计量那样有良好结构。作者使用了经验过程理论(Empirical Process Theory) 来统一处理bootstrap网络函数 \( T_2^* \) 与真实网络函数 \( T_2 \)。关键步骤是:证明在由 \( \hat{X} \) 生成的bootstrap网络族上,函数类 \( \{T_2\} \) 具有Donsker性质(足够简单,其经验过程可均匀收敛)。

证明路线与技术技巧

整体路线(定理1,U-统计量bootstrap): 1. Step 1:用ASE估计量 \( \hat{X} \) 替换真实潜在位置 \( X \)。证明基于ASE估计值 \( \hat{X} \) 的U-统计量与基于真实 \( X \) 的U-统计量在分布的CDF上是渐近等价的。这一步依赖于ASE的一致性(\( \hat{X}_i \to X_i \) 在范数意义下)和U-统计量核函数的连续性。即:\( U_n(h, \hat{X}) - U_n(h, X) = o_p(1) \)。 2. Step 2:从bootstrap角度出发。考虑 \( \hat{X}^* \) 是从 \( \hat{X}_1,\dots,\hat{X}_n \) 的有放回样本。证明bootstrap U-统计量 \( U_n(h, \hat{X}^*) \) 的条件分布(给定 \( A \))与 \( U_n(h, \hat{X}) \) 的分布是接近的。这是经典U-统计量bootstrap一致性的结论(Bickel & Freedman, 1981)。 3. Step 3:串起来。如果 \( U_n(h, \hat{X}) \)\( U_n(h, X) \) 的分布接近(Step 1),并且 \( U_n(h, \hat{X}^*) \) 的条件分布接近 \( U_n(h, \hat{X}) \) 的分布(Step 2),那么 \( U_n(h, \hat{X}^*) \) 的条件分布就接近 \( U_n(h, X) \) 的分布。结果即是定理1。

关键跳跃点: - 中间量 \( U_n(h, \hat{X}) \) 的使用。在经典统计中,bootstrap的一致性证明通常直接从经验分布出发。但由于这里观测不到 \( X \),作者需要引入这个基于ASE估计的中间变量。难点在于证明Step 1中 \( U_n(h, \hat{X}) \)\( U_n(h, X) \) 的“分布接近”。这不是一个简单的点估计收敛,而是涉及整个统计量的分布收敛,需要用到Hoeffding分解与渐近正态性。 - 方差估计:U-统计量的渐近方差由投影(projection)方差 \( \sigma^2_U = \text{Var}(\mathbb{E}[h(X_1,X_2) \mid X_1]) \) 给出。在bootstrap版本中,需要证明从bootstrap数据 \( \hat{X}^* \) 估计的该方差收敛到真实方差。作者假设潜在位置 \( X_i \) 是i.i.d.,这大便利了这一部分。

技术技巧点名: - Hölder连续性:用于证明\( U_n(h, \hat{X}) \) 在逐点意义下接近 \( U_n(h, X) \)(Step 1)。 - Hoeffding分解(U-统计量分解):用于分析U-统计量的方差结构,并建立bootstrap版本与原始版本方差之间的等价性(用于Step 2)。 - 经验过程理论(Empirical Process Theory):用于定理1、定理2中的均匀收敛性证明(特别是定理2中,处理任意网络函数时,必须使用经验过程理论来证明函数类的Donsker性)。 - 破垫(Bootstrap)理论的标准技术:Bickel & Freedman (1981) 的bootstrap一致性框架被直接应用于证明 \( U_n(h, \hat{X}) \) 的bootstrap版本与原始版本的分布接近。

真实例子与应用

论文中包含模拟数据实验,没有真实网络数据例子。

  • 模拟数据场景
    • 生成一个RDPG图:\( n = 1000, d = 20 \),潜在位置 \( X_i \)\( N(0, I_d) \) 抽样,然后标准化,使期望内积满足 \( (0,1) \) 约束。
    • 统计量:平均度(U-统计量,方法1)和聚类系数(非U-统计量,方法2)。作者计算了原始的统计量的值(基于模拟网络 \( A \)),然后用bootstrap方法得到了其bootstrap分布。
  • 怎么把方法用上去
    • 方法1:先对邻接矩阵 \( A \) 进行ASE(嵌入到20维),得到估计 \( \hat{X} \);然后从 \( \hat{X} \) 中有放回重抽样 \( n \) 次;计算重抽样后的U-统计量(平均度)。重复 \( B=500 \) 次,得到bootstrap分布。
    • 方法2:对同一个ASE出的 \( \hat{X} \) 进行重抽样;然后依据 \( \hat{X}^* \) 生成一个新的全邻接矩阵 \( A^* \);计算 \( A^* \) 的聚类系数。重复 \( B=500 \) 次,得到bootstrap分布。
  • 得到什么结果
    • 作者展示了bootstrap分布的直方图与基于真实潜在位置的理论渐近分布的QQ图对比。对于平均度(U-统计量),bootstrap分布与理论分布非常接近。对于聚类系数(非U-统计量),由于理论分布未知,bootstrap分布被用作主要的推断依据。
    • 未提供数值对比(如bootstrap置信区间的覆盖率),但图形结果表明bootstrap分布与理论分布很吻合,特别是尾部分布。
  • 这个例子想说明什么
    • 验证了定理1和定理2在有限样本下的合理性(至少在这个模拟设置下)。
    • 展示了两种方法的实用性,特别是如何为非线性网络函数(聚类系数)提供推断。

🔎 结论是否比证明窄

  • 确实存在宽声称与窄证明的差距
    • 作者在introduction中声称方法“适用于所有网络模型”,但整个证明只在RDPG模型下成立。需要指出的是,RDPG只是潜在空间模型的一种。作者在结论中也明确承认了这是其局限性:“We have focused here on the random dot product graph. It would be desirable to extend these ideas to other latent space models...”。但这在视觉上容易被忽略,而读者可能在牢记“所有”一词时误以为该结论更通用。
    • 定理2的证明依赖于经验过程理论,但作者在文中只给出了一个相当简化的证明概要(outline),而并非完整的证明。论文篇幅允许读者验证其主要思想,但无法验证核心步骤(如函数类Donsker性的具体条件是否满足)。这是理论型论文的一个常见情况,但此处信息明确标注在“Discussion”节中的“Proofs are outlined here; full details are available in the supplementary materials”。结论中提到的“consistency of the bootstrap”在论文主文中实际上是一个“事实证明”而非“严格证明”。

四、开放问题(点到为止,扎根具体语句)

  1. 拓展到其他潜在空间模型:作者明确在结论中说“It would be desirable to extend these ideas to other latent space models, such as the logistic or distance models.” 这是最直接的开放问题。需要解决的问题是,对于非内积形式的边概率函数(如距离模型 \( P(A_{ij}=1) = \sigma(\alpha - \|X_i - X_j\|) \),如何建立bootstrap一致性?核函数不是内积,U-统计量形式改变,且ASE不能直接提供模型的线性嵌入。

  2. 放弃核函数连续性假设(对于方法1):作者假设U-统计量的核函数 \( h \) 是光滑的(Lipschitz/Hölder)。如果 \( h \) 不光滑(例如“图同构计数”的核可能是一个非连续的指示函数),方法1是否还一致?证明路线中的Step 1(\( U_n(h, \hat{X}) \)\( U_n(h, X) \) 接近)会失效。如何用更精细的近似或弱条件找到替代方案?

  3. 提高bootstrap的有限样本精度:作者仅在模拟中验证了其bootstrap分布的图形接近性,并未给出置信区间的覆盖率。在有限样本下,\( n=1000 \) 时覆盖精度如何?作者在结论中提出了一个更“高屋建瓴”的问题:“Is the bootstrap consistent for more efficient test statistics or for higher-order inference (e.g., bias correction via the bootstrap)?” 这是一个用户自己非常感兴趣的方向——将bootstrap的高阶推断能力延伸到网络U-统计量上,这需要用户expectation中的“higher-order U-statistics”理论。

  4. 与扰动(Perburbation)网络bootstrap的联系:作者在intro中提到直接为网络邻接矩阵加噪声的“网络bootstrap”(如Chen, Luss & Wang (2017)),但并未将其作为对比基准。一个明确的开放问题是:在RDPG模型下,是作者的基于潜在位置的bootstrap更好,还是简单的网络加噪声bootstrap更好?后者的计算速度可能更快。作者为何选择忽略这个已有工作?这可能是一个值得仔细核对的gap。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论