Asymptotic analysis of statistical estimators related to MultiGraphex processes under misspecification¶

作者: Zacharie Naulet, Judith Rousseau, François Caron
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: Université Paris-Saclay（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究的是稀疏随机图的统计推断理论，特别是模型错指定下的渐近性质。经典网络模型（如 Aldous-Hoover 表示定理下的图模型）在顶点可交换性假设下必然是稠密或空的，无法刻画真实网络常见的稀疏性与重尾度分布。Caron-Fox 等人通过引入随机测度可交换性（Graphex 模型）打破了这一僵局，使稀疏网络有了严格的数学表示。当前该方向的成熟度处于模型构建与算法开发已初步完成，但错指定下的严格渐近理论刚刚起步的阶段——多数已有理论要求图确由某 Graphex 过程生成，而真实数据几乎不可能满足此假设。

发展脉络： - 奠基工作：Caron & Fox (2014) 引入完全随机测度（CRM）构造可交换随机测度，给出 Kallenberg 表示定理在网络上的具体实现，通过 Lévy 测度参数 \(\alpha\) 调节稀疏-稠密过渡，并给出 HMC 算法。留下的口子：推断理论仅限正确指定模型，未触及错指定。 - 主要进展（表示与结构）：Crane & Dempsey (2018) 提出边可交换模型，指出顶点可交换无法自然产生稀疏与幂律度分布，边可交换可以；Janson (2017) 对 Crane-Dempsey 模型做严格渐近分析，证明其可产生稠密、稀疏与极稀疏图，并指出其极限可收敛到非可积广义 graphon。留下的口子：这些工作聚焦表示与极限结构，未讨论参数估计在错指定下的行为。 - 主要进展（极稀疏图距离结构）：Esker et al. (2004) 研究度分布重尾指数 \(\tau \in [1,2]\)（无限均值）的随机图距离，证明 hopcount 收敛到 2 或 3。留下的口子：纯结构性质，无统计推断。 - 主要进展（Graphon 估计）：Klopp & Verzelen (2017) 建立 graphon 在 cut distance 下的 minimax 估计率，发现邻接矩阵本身已是最优估计器。留下的口子：此 minimax 界依赖稠密或有限维 graphon 假设，对极稀疏、无限均值度分布的 Graphex 过程不适用。 - 当前 frontier 与本文位置：本文 Naulet et al. 直接站在 Caron-Fox 的推断缺口上，将数据生成过程放宽到任意满足度分布弱条件的稀疏图，证明 Caron-Fox 模型的参数估计量（无论频率或贝叶斯）极限指向真实图的稀疏常数而非模型真值，并在贝叶斯框架下给出错指定后验的渐近正态与显式方差。

子线索聚类： 1. 可交换表示理论（Caron-Fox 2014; Crane-Dempsey 2018; Janson 2017）：从 Aldous-Hoover（顶点可交换→稠密）转向 Kallenberg（测度可交换→稀疏）与边可交换，解决稀疏网络的数学表示问题。 2. 极稀疏图结构理论（Esker et al. 2004 等）：研究度分布重尾（\(\tau<3\)）图的距离、连通分量等拓扑性质，不涉及参数推断。 3. Graphon/网络矩阵估计理论（Klopp & Verzelen 2017 等）：在稠密或有限维假设下建立 minimax 界，但 cut distance 下邻接矩阵已最优，更复杂方法无法改善收敛率。 4. 重尾指数估计理论（Carpentier & Kim 2013 等）：纯分布尾指数 \(\alpha\) 的自适应估计与 minimax 界，本文对度分布尾部的假设直接借鉴此线索。

这个方向在追问的核心问题： 1. 稀疏网络的正确数学表示是什么？——已由 Graphex/边可交换解决。 2. 在正确指定下，Graphex 参数的推断性质如何？——已有 MCMC 算法与部分渐近结果。 3. 当真实图不是 Graphex 过程时，基于 Graphex 模型的估计量极限是什么？——本文首次给出严格回答：极限是稀疏常数，不是模型参数真值。 4. 错指定下后验分布是否仍渐近正态？方差是多少？——本文给出肯定回答与显式方差。

⚠️ 作者的 framing： - 作者把缺口 frame 为：已有 Graphex 推断理论要求正确指定，而真实数据几乎不可能满足，因此错指定下的渐近性质是显然的下一步。 - 被淡化或回避的竞争路线：纯非参数 graphon 估计（如 Klopp & Verzelen 2017 的 minimax 界）——作者只在假设讨论中提及"稀疏 graphon 模型满足我们的度分布条件"，但未对比 graphon 估计与 Graphex 参数估计在错指定下的优劣；谱方法 / 矩分解类网络估计完全未引。 - 明显该被引却未出现的：错指定下贝叶斯后验渐近的一般理论（如 Bunke & Milhaud 1998; Kleijn & van der Vaart 2012 "Bernstein-von Mises under misspecification"）——本文的核心定理是错指定 BvM，但 intro 未引这些一般理论，只在证明中可能用到。这是一个值得研究者去查的缺口：作者是否在技术层面绕开了 Kleijn-van der Vaart 的框架？如果是，为什么？

张力：未见明显对立引用。各线索在不同假设下讨论不同对象（表示 vs 结构 vs 估计），结论不矛盾。但存在一个隐含张力：Klopp & Verzelen 证明 cut distance 下邻接矩阵已是最优估计器，更复杂方法无法改善率；本文却证明 Graphex 参数估计在错指定下收敛到稀疏常数——两者对"什么是值得估的量"与"估计的统计意义"有不同立场，本文的稀疏常数估计是否在某种意义上比邻接矩阵更优？文中未直接对比。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\alpha\)：Caron-Fox 模型中的结构参数（Lévy 测度的指数），控制稀疏-稠密过渡。在正确指定下，\(\alpha\) 是模型真值；在错指定下，本文证明估计量极限指向稀疏常数 \(\bar{\alpha}\)（见下）。
\(\bar{\alpha}\)：真实图生成过程的稀疏常数，定义为 \(\bar{\alpha} = \lim_{n\to\infty} \frac{\log E[K_n]}{\log n}\)，其中 \(K_n\) 是 \(n\) 个顶点图的边数。\(\bar{\alpha} \in (0,1)\) 对应稀疏图。
\(\theta\)：其他参数向量（如 CRM 的强度参数 \(\sigma\) 等），本文也讨论其估计，但核心焦点在 \(\alpha\)。
随机变量 / 样本：
\(G_n\)：观测到的图，有 \(n\) 个观测顶点（或观测时间/强度截断 \(t\)，本文用 \(t\) 截断框架，\(t\to\infty\) 对应 \(n\to\infty\)）。
\(D_i\)：顶点 \(i\) 的度数，\(i=1,\ldots,N_t\)（\(N_t\) 是截断 \(t\) 下的观测顶点数）。
\(K_t\)：截断 \(t\) 下的边数。
\(S_t = \sum_{i=1}^{N_t} D_i = 2K_t\)：总度数。
维数 / 样本量等指标：
\(n\) 或 \(t\)：截断水平，渐近序列 \(t\to\infty\)。
\(N_t\)：观测顶点数，随机变量，\(N_t/t \to \mu\)（\(\mu\) 是 CRM 强度参数的极限）。
\(K_t\)：边数，\(E[K_t] \asymp t^{\bar{\alpha}}\)。
潜在 / 不可观测量：
\(W_i\)：顶点 \(i\) 的潜在特征（CRM 中的跳跃），不可观测，构成 Caron-Fox 模型的隐变量。
真实数据生成过程的完整机制——本文只假设其度分布满足弱条件，不要求它是任何已知模型。
模型：
Caron-Fox 模型（假设模型）：\(G_t\) 由可交换随机测度生成，\(W_i \sim \text{CRM}(\nu)\)，\(\nu(dw) = \sigma w^{-1-\alpha} e^{-\tau w} dw\)（广义 Gamma 过程），边概率 \(p_{ij} = 1 - e^{-W_i W_j / t}\)。参数 \(\theta = (\alpha, \sigma, \tau)\)。
真实数据生成过程（DGP）：任意稀疏图模型，不要求是 Graphex。只需度分布满足：存在函数 \(\bar{F}\) 使得 \(P(D_i > d | D_i > 0) \approx \bar{F}(d)\)，且 \(\bar{F}\) 是正则变化（幂律）或可积条件。
可观测数据：
研究者实际观测到的是图的邻接矩阵（或等价地，度序列 \((D_i)_{i: D_i>0}\) 与边数 \(K_t\)）。潜在特征 \(W_i\) 不可观测，只能通过度分布与边数的渐近行为推断稀疏常数 \(\bar{\alpha}\)。

第二步：最小内核——错指定下 \(\alpha\) 估计量的极限

剥掉所有一般性设定，最小内核是：当真实图的边数增长率为 \(E[K_t] \asymp t^{\bar{\alpha}}\)（\(\bar{\alpha} \neq \alpha_0\)，\(\alpha_0\) 是假设模型的参数真值），基于 Caron-Fox 模型的 \(\alpha\) 估计量 \(\hat{\alpha}_t\) 的极限是什么？

最简特例：真实图是配置模型，度分布是幂律指数 \(\tau \in (1,2)\)，假设模型是 Caron-Fox 广义 Gamma 过程（参数 \(\alpha_0\)）。

在配置模型下，\(E[K_t] \asymp t^{2/\tau}\)，因此稀疏常数 \(\bar{\alpha} = 2/\tau\)。
在 Caron-Fox 模型下，\(E[K_t] \asymp t^{\alpha_0}\)，因此若模型正确，\(\bar{\alpha} = \alpha_0\)。
当 \(\tau \neq 2/\alpha_0\) 时，模型错指定：\(\bar{\alpha} \neq \alpha_0\)。
本文核心命题（最简形式）：\(\hat{\alpha}_t \to \bar{\alpha}\) in probability，无论 \(\alpha_0\) 是什么。

直觉：\(\hat{\alpha}_t\) 的构造依赖于度分布的尾部行为与边数的增长率。在错指定下，度分布的尾部指数与边数增长率仍由真实 DGP 决定，估计量"读出"的是真实图的稀疏常数 \(\bar{\alpha}\)，而非假设模型的 \(\alpha_0\)。证明的关键在于：度序列的渐近等价性——在弱条件下，度序列的经验分布与真实度分布的尾部行为渐近等价，使得基于度分布构造的估计量无法区分模型假设与真实 DGP，只能反映真实的 \(\bar{\alpha}\)。

贝叶斯侧的最简内核：后验分布 \(\pi(\alpha | G_t)\) 渐近正态，中心在 \(\bar{\alpha}\)，方差为 \(\sigma^2_t \to 0\)，且 \(\sigma^2_t\) 有显式表达式（依赖于度分布的二阶条件）。这是错指定下的 Bernstein-von Mises 定理：后验集中在"最接近真实 DGP 的参数值"（即 \(\bar{\alpha}\)）附近，而非模型真值 \(\alpha_0\)。

三、这篇论文做了什么¶

三句话： 1. 研究了 Caron-Fox Graphex 模型参数在模型错指定下的渐近性质，真实 DGP 只需是满足度分布弱条件的任意稀疏图。 2. 核心工具是度序列的经验过程渐近等价性与鞅中心极限定理。 3. 主要结论：频率估计量与贝叶斯后验的极限都指向真实图的稀疏常数 \(\bar{\alpha}\)，后验渐近正态且有显式方差。

关键设定与假设：在第二节最小记号基础上补全：

假设 A1（度分布尾部）：存在函数 \(\bar{F}: \mathbb{R}_+ \to [0,1]\)，正则变化指数 \(-\kappa\)（\(\kappa > 0\)），使得 \(P(D_i > d | D_i > 0) / \bar{F}(d) \to 1\) as \(d \to \infty\)。统计含义：度分布是幂律（或更一般的重尾），\(\kappa\) 是尾部指数。相比已有文献（要求确由 Graphex 生成），此假设只约束度分布，不约束整个图生成机制。
假设 A2（稀疏常数存在）：\(\bar{\alpha} = \lim_{t\to\infty} \frac{\log E[K_t]}{\log t}\) 存在且 \(\bar{\alpha} \in (0,1)\)。统计含义：图是稀疏的（边数增长慢于顶点数平方），且稀疏率有确定极限。
假设 A3（二阶条件）：度分布满足二阶正则变化条件（second-order regular variation），指数 \(\beta\)，控制尾部估计的收敛率。统计含义：借鉴 Carpentier & Kim (2013) 的尾指数自适应估计理论，二阶条件决定了 \(\hat{\alpha}\) 的收敛率与后验方差。
假设 A4（度序列渐近等价）：度序列的经验分布与真实度分布的尾部行为渐近等价（具体形式涉及经验过程在尾部区域的收敛）。统计含义：这是证明的核心——确保基于度分布的估计量在错指定下仍能"读出"真实尾部行为。
假设 A5（鞅结构）：观测顶点数 \(N_t\) 与边数 \(K_t\) 满足鞅增量条件。统计含义：允许 \(N_t\) 是随机的（真实图中顶点数可随机增长），且增量结构保证中心极限定理适用。

相比已有文献的放宽：不要求图由 Graphex 生成，不要求 \(W_i\) 存在，不要求边概率有特定形式。强化了：度分布的二阶条件（A3），这是获得显式渐近方差所必需的。

主要结果：

定理 1（频率估计量的极限）：在假设 A1-A5 下，\(\hat{\alpha}_t \to \bar{\alpha}\) in probability。收敛率为 \(t^{-(\bar{\alpha}-\alpha^*)/2}\)（\(\alpha^*\) 是假设模型中与 \(\bar{\alpha}\) 最接近的参数值，具体表达式依赖度分布尾部）。直觉：估计量反映真实稀疏常数，收敛率由真实 DGP 的度分布尾部与假设模型的差距决定。必要条件：A1（尾部正则变化）+ A2（稀疏常数存在）。解决的技术难点：错指定下估计量不再指向模型真值，如何证明它指向一个由真实 DGP 决定的量——通过度序列渐近等价性，将估计量的极限与真实度分布尾部指数绑定。
定理 2（贝叶斯后验的错指定 BvM）：在假设 A1-A5 + A3（二阶条件）下，后验分布 \(\pi(\alpha | G_t)\) 渐近正态，中心在 \(\bar{\alpha}\)，方差 \(\sigma^2_t = c \cdot t^{-\gamma}\)（\(\gamma\) 由二阶指数 \(\beta\) 决定，\(c\) 有显式表达式依赖度分布参数）。直觉：错指定下后验集中在"最接近真实 DGP 的参数值"附近，方差由度分布的二阶精细度决定。必要条件：A3（二阶条件）——没有它无法给出显式方差。解决的技术难点：错指定下后验是否仍正态、方差是否可显式计算——经典 BvM 要求正确指定或特定错指定形式，本文在极稀疏图框架下证明 BvM 成立，且方差由度分布二阶条件决定。
命题 3（经典模型满足假设）：配置模型（度分布幂律 \(\tau \in (1,2)\)）、稀疏 graphon 模型、边可交换模型（Crane-Dempsey）、Graphex 过程（Caron-Fox）均满足 A1-A5。统计含义：本文假设覆盖了主流稀疏图模型，结论适用范围广。

证明路线与技术技巧：

整体路线（5 步）：
度序列渐近等价性：证明度序列的经验尾部分布 \(\hat{F}_t(d) = \frac{1}{N_t} \sum_{i=1}^{N_t} 1_{D_i > d}\) 与真实尾部分布 \(\bar{F}(d)\) 在尾部区域渐近等价（\(d \to \infty, t \to \infty\) 同时）。这是证明的地基——后续所有估计量的极限都依赖此等价性。
稀疏常数与尾部指数的绑定：利用 A1-A2，证明 \(\bar{\alpha}\) 与度分布尾部指数 \(\kappa\) 之间有关系 \(\bar{\alpha} = f(\kappa)\)（具体形式依赖模型，如配置模型中 \(\bar{\alpha} = 2/\tau\)）。这使得估计 \(\bar{\alpha}\) 等价于估计度分布尾部指数。
估计量分解：将 \(\hat{\alpha}_t\) 分解为"基于度分布尾部的统计量" + "基于边数的修正项"。利用步骤 1-2，前者极限由真实尾部指数决定，后者极限由真实稀疏常数决定。
鞅中心极限定理：对修正项应用鞅 CLT（\(N_t\) 与 \(K_t\) 的增量是鞅），得到修正项的渐近正态性与收敛率。
后验渐近正态性：利用步骤 3-4 的频率估计量渐近性质，结合错指定下 BvM 的框架（似然在错指定参数值附近的局部渐近正态性），证明后验集中在 \(\bar{\alpha}\) 附近且正态。
关键跳跃点：
引理 X（度序列经验过程在尾部区域的收敛）：这是最吃功夫的步骤。难点在于：度序列是随机长度（\(N_t\) 随 \(t\) 增长），且度分布是重尾（正则变化），经验过程在尾部区域（\(d\) 很大）的收敛不能用经典 Glivenko-Cantelli 或 Donsker 定理（那些要求有限方差或紧支撑）。作者用尾部经验过程的渐近等价技术（借鉴 tail empirical process 文献，如 de Haan & Ferreira 2006）绕过去：在正则变化条件下，尾部经验过程在适当缩放后收敛到极限过程，且收敛率由二阶条件决定。
技术技巧点名：
尾部经验过程：用于步骤 1，证明度分布尾部区域的经验过程收敛。起的作用：绕开重尾分布下经典经验过程理论的失效。
正则变化理论：用于步骤 2，绑定 \(\bar{\alpha}\) 与 \(\kappa\)。起的作用：利用 Karamata 定理等，将稀疏常数与尾部指数的关系显式化。
鞅中心极限定理：用于步骤 4，处理 \(N_t\) 与 \(K_t\) 的随机增量。起的作用：允许顶点数随机增长，且增量有鞅结构。
错指定下局部渐近正态性：用于步骤 5，证明后验 BvM。起的作用：在错指定参数值 \(\bar{\alpha}\) 附近，似然仍近似正态（但信息矩阵是错指定下的 Fisher 信息，不是正确指定的）。
二阶正则变化条件：用于定理 2 的显式方差。起的作用：控制尾部估计的精细收敛率，类比 Carpentier & Kim (2013) 的尾指数自适应估计。

真实例子与应用：本文为纯理论，无实证例子。所有验证通过命题 3 完成：证明配置模型、稀疏 graphon、边可交换模型、Graphex 过程满足假设 A1-A5。这是理论论文的常见做法——用经典模型满足假设来验证结论的适用范围，而非用真实数据验证估计量的表现。

🔎 结论是否比证明窄： - 定理 2 的 BvM 结论在 A3（二阶条件）下严格证明，但作者在讨论中暗示"即使没有 A3，后验可能仍渐近正态（方差无法显式计算）"——这是一个 conjecture，未严格证明。 - 命题 3 对配置模型的验证要求 \(\tau \in (1,2)\)（无限均值度分布），对 \(\tau \in (2,3)\)（有限均值、无限方差）的情况未验证——作者声称"类似分析可推广"，但未给出证明。

四、开放问题（点到为止）¶

\(\tau \in (2,3)\) 的配置模型是否满足假设 A1-A5？——扎根在命题 3 的讨论：作者验证了 \(\tau \in (1,2)\)，对 \(\tau \in (2,3)\) 只说"可推广"但未证明。要证的是：有限均值、无限方差度分布下，度序列经验过程在尾部区域的收敛率是否仍满足 A4。
无二阶条件（A3）下后验是否仍渐近正态？——扎根在定理 2 的讨论：作者暗示可能成立但方差无法显式计算。要证的是：去掉 A3 后，后验的收缩率与形状是否仍正态（可能方差只能给出界而非显式值）。
错指定下其他参数（\(\sigma, \tau\)）的极限是什么？——扎根在本文只详细分析了 \(\alpha\)（稀疏常数），对 \(\theta\) 的其他分量只给出部分结果。要估的是：\(\hat{\sigma}_t, \hat{\tau}_t\) 在错指定下是否收敛到某个由真实 DGP 决定的量，还是发散/不收敛？
本文的错指定 BvM 与 Kleijn & van der Vaart (2012) 的框架有何关系？——扎根在 intro 未引 Kleijn-van der Vaart，但定理 2 的证明可能依赖类似技术。要查的是：本文是否在技术层面绕开了 Kleijn-van der Vaart 的条件（如 KL 邻域的局部渐近正态性），如果是，为什么能绕开？这可能是理论上的实质性差异，也可能是引用缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub

Asymptotic analysis of statistical estimators related to MultiGraphex processes under misspecification¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论