Asymptotic analysis of statistical estimators related to MultiGraphex processes under misspecification¶
作者: Zacharie Naulet, Judith Rousseau, François Caron
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: Université Paris-Saclay(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向研究的是稀疏随机图的统计推断理论,特别是模型错指定下的渐近性质。经典网络模型(如 Aldous-Hoover 表示定理下的图模型)在顶点可交换性假设下必然是稠密或空的,无法刻画真实网络常见的稀疏性与重尾度分布。Caron-Fox 等人通过引入随机测度可交换性(Graphex 模型)打破了这一僵局,使稀疏网络有了严格的数学表示。当前该方向的成熟度处于模型构建与算法开发已初步完成,但错指定下的严格渐近理论刚刚起步的阶段——多数已有理论要求图确由某 Graphex 过程生成,而真实数据几乎不可能满足此假设。
发展脉络: - 奠基工作:Caron & Fox (2014) 引入完全随机测度(CRM)构造可交换随机测度,给出 Kallenberg 表示定理在网络上的具体实现,通过 Lévy 测度参数 \(\alpha\) 调节稀疏-稠密过渡,并给出 HMC 算法。留下的口子:推断理论仅限正确指定模型,未触及错指定。 - 主要进展(表示与结构):Crane & Dempsey (2018) 提出边可交换模型,指出顶点可交换无法自然产生稀疏与幂律度分布,边可交换可以;Janson (2017) 对 Crane-Dempsey 模型做严格渐近分析,证明其可产生稠密、稀疏与极稀疏图,并指出其极限可收敛到非可积广义 graphon。留下的口子:这些工作聚焦表示与极限结构,未讨论参数估计在错指定下的行为。 - 主要进展(极稀疏图距离结构):Esker et al. (2004) 研究度分布重尾指数 \(\tau \in [1,2]\)(无限均值)的随机图距离,证明 hopcount 收敛到 2 或 3。留下的口子:纯结构性质,无统计推断。 - 主要进展(Graphon 估计):Klopp & Verzelen (2017) 建立 graphon 在 cut distance 下的 minimax 估计率,发现邻接矩阵本身已是最优估计器。留下的口子:此 minimax 界依赖稠密或有限维 graphon 假设,对极稀疏、无限均值度分布的 Graphex 过程不适用。 - 当前 frontier 与本文位置:本文 Naulet et al. 直接站在 Caron-Fox 的推断缺口上,将数据生成过程放宽到任意满足度分布弱条件的稀疏图,证明 Caron-Fox 模型的参数估计量(无论频率或贝叶斯)极限指向真实图的稀疏常数而非模型真值,并在贝叶斯框架下给出错指定后验的渐近正态与显式方差。
子线索聚类: 1. 可交换表示理论(Caron-Fox 2014; Crane-Dempsey 2018; Janson 2017):从 Aldous-Hoover(顶点可交换→稠密)转向 Kallenberg(测度可交换→稀疏)与边可交换,解决稀疏网络的数学表示问题。 2. 极稀疏图结构理论(Esker et al. 2004 等):研究度分布重尾(\(\tau<3\))图的距离、连通分量等拓扑性质,不涉及参数推断。 3. Graphon/网络矩阵估计理论(Klopp & Verzelen 2017 等):在稠密或有限维假设下建立 minimax 界,但 cut distance 下邻接矩阵已最优,更复杂方法无法改善收敛率。 4. 重尾指数估计理论(Carpentier & Kim 2013 等):纯分布尾指数 \(\alpha\) 的自适应估计与 minimax 界,本文对度分布尾部的假设直接借鉴此线索。
这个方向在追问的核心问题: 1. 稀疏网络的正确数学表示是什么?——已由 Graphex/边可交换解决。 2. 在正确指定下,Graphex 参数的推断性质如何?——已有 MCMC 算法与部分渐近结果。 3. 当真实图不是 Graphex 过程时,基于 Graphex 模型的估计量极限是什么?——本文首次给出严格回答:极限是稀疏常数,不是模型参数真值。 4. 错指定下后验分布是否仍渐近正态?方差是多少?——本文给出肯定回答与显式方差。
⚠️ 作者的 framing: - 作者把缺口 frame 为:已有 Graphex 推断理论要求正确指定,而真实数据几乎不可能满足,因此错指定下的渐近性质是显然的下一步。 - 被淡化或回避的竞争路线:纯非参数 graphon 估计(如 Klopp & Verzelen 2017 的 minimax 界)——作者只在假设讨论中提及"稀疏 graphon 模型满足我们的度分布条件",但未对比 graphon 估计与 Graphex 参数估计在错指定下的优劣;谱方法 / 矩分解类网络估计完全未引。 - 明显该被引却未出现的:错指定下贝叶斯后验渐近的一般理论(如 Bunke & Milhaud 1998; Kleijn & van der Vaart 2012 "Bernstein-von Mises under misspecification")——本文的核心定理是错指定 BvM,但 intro 未引这些一般理论,只在证明中可能用到。这是一个值得研究者去查的缺口:作者是否在技术层面绕开了 Kleijn-van der Vaart 的框架?如果是,为什么?
张力: 未见明显对立引用。各线索在不同假设下讨论不同对象(表示 vs 结构 vs 估计),结论不矛盾。但存在一个隐含张力:Klopp & Verzelen 证明 cut distance 下邻接矩阵已是最优估计器,更复杂方法无法改善率;本文却证明 Graphex 参数估计在错指定下收敛到稀疏常数——两者对"什么是值得估的量"与"估计的统计意义"有不同立场,本文的稀疏常数估计是否在某种意义上比邻接矩阵更优?文中未直接对比。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(\alpha\):Caron-Fox 模型中的结构参数(Lévy 测度的指数),控制稀疏-稠密过渡。在正确指定下,\(\alpha\) 是模型真值;在错指定下,本文证明估计量极限指向稀疏常数 \(\bar{\alpha}\)(见下)。
- \(\bar{\alpha}\):真实图生成过程的稀疏常数,定义为 \(\bar{\alpha} = \lim_{n\to\infty} \frac{\log E[K_n]}{\log n}\),其中 \(K_n\) 是 \(n\) 个顶点图的边数。\(\bar{\alpha} \in (0,1)\) 对应稀疏图。
-
\(\theta\):其他参数向量(如 CRM 的强度参数 \(\sigma\) 等),本文也讨论其估计,但核心焦点在 \(\alpha\)。
-
随机变量 / 样本:
- \(G_n\):观测到的图,有 \(n\) 个观测顶点(或观测时间/强度截断 \(t\),本文用 \(t\) 截断框架,\(t\to\infty\) 对应 \(n\to\infty\))。
- \(D_i\):顶点 \(i\) 的度数,\(i=1,\ldots,N_t\)(\(N_t\) 是截断 \(t\) 下的观测顶点数)。
- \(K_t\):截断 \(t\) 下的边数。
-
\(S_t = \sum_{i=1}^{N_t} D_i = 2K_t\):总度数。
-
维数 / 样本量等指标:
- \(n\) 或 \(t\):截断水平,渐近序列 \(t\to\infty\)。
- \(N_t\):观测顶点数,随机变量,\(N_t/t \to \mu\)(\(\mu\) 是 CRM 强度参数的极限)。
-
\(K_t\):边数,\(E[K_t] \asymp t^{\bar{\alpha}}\)。
-
潜在 / 不可观测量:
- \(W_i\):顶点 \(i\) 的潜在特征(CRM 中的跳跃),不可观测,构成 Caron-Fox 模型的隐变量。
-
真实数据生成过程的完整机制——本文只假设其度分布满足弱条件,不要求它是任何已知模型。
-
模型:
- Caron-Fox 模型(假设模型):\(G_t\) 由可交换随机测度生成,\(W_i \sim \text{CRM}(\nu)\),\(\nu(dw) = \sigma w^{-1-\alpha} e^{-\tau w} dw\)(广义 Gamma 过程),边概率 \(p_{ij} = 1 - e^{-W_i W_j / t}\)。参数 \(\theta = (\alpha, \sigma, \tau)\)。
-
真实数据生成过程(DGP):任意稀疏图模型,不要求是 Graphex。只需度分布满足:存在函数 \(\bar{F}\) 使得 \(P(D_i > d | D_i > 0) \approx \bar{F}(d)\),且 \(\bar{F}\) 是正则变化(幂律)或可积条件。
-
可观测数据:
- 研究者实际观测到的是图的邻接矩阵(或等价地,度序列 \((D_i)_{i: D_i>0}\) 与边数 \(K_t\))。潜在特征 \(W_i\) 不可观测,只能通过度分布与边数的渐近行为推断稀疏常数 \(\bar{\alpha}\)。
第二步:最小内核——错指定下 \(\alpha\) 估计量的极限
剥掉所有一般性设定,最小内核是:当真实图的边数增长率为 \(E[K_t] \asymp t^{\bar{\alpha}}\)(\(\bar{\alpha} \neq \alpha_0\),\(\alpha_0\) 是假设模型的参数真值),基于 Caron-Fox 模型的 \(\alpha\) 估计量 \(\hat{\alpha}_t\) 的极限是什么?
最简特例:真实图是配置模型,度分布是幂律指数 \(\tau \in (1,2)\),假设模型是 Caron-Fox 广义 Gamma 过程(参数 \(\alpha_0\))。
- 在配置模型下,\(E[K_t] \asymp t^{2/\tau}\),因此稀疏常数 \(\bar{\alpha} = 2/\tau\)。
- 在 Caron-Fox 模型下,\(E[K_t] \asymp t^{\alpha_0}\),因此若模型正确,\(\bar{\alpha} = \alpha_0\)。
- 当 \(\tau \neq 2/\alpha_0\) 时,模型错指定:\(\bar{\alpha} \neq \alpha_0\)。
- 本文核心命题(最简形式):\(\hat{\alpha}_t \to \bar{\alpha}\) in probability,无论 \(\alpha_0\) 是什么。
直觉:\(\hat{\alpha}_t\) 的构造依赖于度分布的尾部行为与边数的增长率。在错指定下,度分布的尾部指数与边数增长率仍由真实 DGP 决定,估计量"读出"的是真实图的稀疏常数 \(\bar{\alpha}\),而非假设模型的 \(\alpha_0\)。证明的关键在于:度序列的渐近等价性——在弱条件下,度序列的经验分布与真实度分布的尾部行为渐近等价,使得基于度分布构造的估计量无法区分模型假设与真实 DGP,只能反映真实的 \(\bar{\alpha}\)。
贝叶斯侧的最简内核:后验分布 \(\pi(\alpha | G_t)\) 渐近正态,中心在 \(\bar{\alpha}\),方差为 \(\sigma^2_t \to 0\),且 \(\sigma^2_t\) 有显式表达式(依赖于度分布的二阶条件)。这是错指定下的 Bernstein-von Mises 定理:后验集中在"最接近真实 DGP 的参数值"(即 \(\bar{\alpha}\))附近,而非模型真值 \(\alpha_0\)。
三、这篇论文做了什么¶
三句话: 1. 研究了 Caron-Fox Graphex 模型参数在模型错指定下的渐近性质,真实 DGP 只需是满足度分布弱条件的任意稀疏图。 2. 核心工具是度序列的经验过程渐近等价性与鞅中心极限定理。 3. 主要结论:频率估计量与贝叶斯后验的极限都指向真实图的稀疏常数 \(\bar{\alpha}\),后验渐近正态且有显式方差。
关键设定与假设: 在第二节最小记号基础上补全:
-
假设 A1(度分布尾部):存在函数 \(\bar{F}: \mathbb{R}_+ \to [0,1]\),正则变化指数 \(-\kappa\)(\(\kappa > 0\)),使得 \(P(D_i > d | D_i > 0) / \bar{F}(d) \to 1\) as \(d \to \infty\)。统计含义:度分布是幂律(或更一般的重尾),\(\kappa\) 是尾部指数。相比已有文献(要求确由 Graphex 生成),此假设只约束度分布,不约束整个图生成机制。
-
假设 A2(稀疏常数存在):\(\bar{\alpha} = \lim_{t\to\infty} \frac{\log E[K_t]}{\log t}\) 存在且 \(\bar{\alpha} \in (0,1)\)。统计含义:图是稀疏的(边数增长慢于顶点数平方),且稀疏率有确定极限。
-
假设 A3(二阶条件):度分布满足二阶正则变化条件(second-order regular variation),指数 \(\beta\),控制尾部估计的收敛率。统计含义:借鉴 Carpentier & Kim (2013) 的尾指数自适应估计理论,二阶条件决定了 \(\hat{\alpha}\) 的收敛率与后验方差。
-
假设 A4(度序列渐近等价):度序列的经验分布与真实度分布的尾部行为渐近等价(具体形式涉及经验过程在尾部区域的收敛)。统计含义:这是证明的核心——确保基于度分布的估计量在错指定下仍能"读出"真实尾部行为。
-
假设 A5(鞅结构):观测顶点数 \(N_t\) 与边数 \(K_t\) 满足鞅增量条件。统计含义:允许 \(N_t\) 是随机的(真实图中顶点数可随机增长),且增量结构保证中心极限定理适用。
相比已有文献的放宽:不要求图由 Graphex 生成,不要求 \(W_i\) 存在,不要求边概率有特定形式。强化了:度分布的二阶条件(A3),这是获得显式渐近方差所必需的。
主要结果:
-
定理 1(频率估计量的极限):在假设 A1-A5 下,\(\hat{\alpha}_t \to \bar{\alpha}\) in probability。收敛率为 \(t^{-(\bar{\alpha}-\alpha^*)/2}\)(\(\alpha^*\) 是假设模型中与 \(\bar{\alpha}\) 最接近的参数值,具体表达式依赖度分布尾部)。直觉:估计量反映真实稀疏常数,收敛率由真实 DGP 的度分布尾部与假设模型的差距决定。必要条件:A1(尾部正则变化)+ A2(稀疏常数存在)。解决的技术难点:错指定下估计量不再指向模型真值,如何证明它指向一个由真实 DGP 决定的量——通过度序列渐近等价性,将估计量的极限与真实度分布尾部指数绑定。
-
定理 2(贝叶斯后验的错指定 BvM):在假设 A1-A5 + A3(二阶条件)下,后验分布 \(\pi(\alpha | G_t)\) 渐近正态,中心在 \(\bar{\alpha}\),方差 \(\sigma^2_t = c \cdot t^{-\gamma}\)(\(\gamma\) 由二阶指数 \(\beta\) 决定,\(c\) 有显式表达式依赖度分布参数)。直觉:错指定下后验集中在"最接近真实 DGP 的参数值"附近,方差由度分布的二阶精细度决定。必要条件:A3(二阶条件)——没有它无法给出显式方差。解决的技术难点:错指定下后验是否仍正态、方差是否可显式计算——经典 BvM 要求正确指定或特定错指定形式,本文在极稀疏图框架下证明 BvM 成立,且方差由度分布二阶条件决定。
-
命题 3(经典模型满足假设):配置模型(度分布幂律 \(\tau \in (1,2)\))、稀疏 graphon 模型、边可交换模型(Crane-Dempsey)、Graphex 过程(Caron-Fox)均满足 A1-A5。统计含义:本文假设覆盖了主流稀疏图模型,结论适用范围广。
证明路线与技术技巧:
- 整体路线(5 步):
- 度序列渐近等价性:证明度序列的经验尾部分布 \(\hat{F}_t(d) = \frac{1}{N_t} \sum_{i=1}^{N_t} 1_{D_i > d}\) 与真实尾部分布 \(\bar{F}(d)\) 在尾部区域渐近等价(\(d \to \infty, t \to \infty\) 同时)。这是证明的地基——后续所有估计量的极限都依赖此等价性。
- 稀疏常数与尾部指数的绑定:利用 A1-A2,证明 \(\bar{\alpha}\) 与度分布尾部指数 \(\kappa\) 之间有关系 \(\bar{\alpha} = f(\kappa)\)(具体形式依赖模型,如配置模型中 \(\bar{\alpha} = 2/\tau\))。这使得估计 \(\bar{\alpha}\) 等价于估计度分布尾部指数。
- 估计量分解:将 \(\hat{\alpha}_t\) 分解为"基于度分布尾部的统计量" + "基于边数的修正项"。利用步骤 1-2,前者极限由真实尾部指数决定,后者极限由真实稀疏常数决定。
- 鞅中心极限定理:对修正项应用鞅 CLT(\(N_t\) 与 \(K_t\) 的增量是鞅),得到修正项的渐近正态性与收敛率。
-
后验渐近正态性:利用步骤 3-4 的频率估计量渐近性质,结合错指定下 BvM 的框架(似然在错指定参数值附近的局部渐近正态性),证明后验集中在 \(\bar{\alpha}\) 附近且正态。
-
关键跳跃点:
-
引理 X(度序列经验过程在尾部区域的收敛):这是最吃功夫的步骤。难点在于:度序列是随机长度(\(N_t\) 随 \(t\) 增长),且度分布是重尾(正则变化),经验过程在尾部区域(\(d\) 很大)的收敛不能用经典 Glivenko-Cantelli 或 Donsker 定理(那些要求有限方差或紧支撑)。作者用尾部经验过程的渐近等价技术(借鉴 tail empirical process 文献,如 de Haan & Ferreira 2006)绕过去:在正则变化条件下,尾部经验过程在适当缩放后收敛到极限过程,且收敛率由二阶条件决定。
-
技术技巧点名:
- 尾部经验过程:用于步骤 1,证明度分布尾部区域的经验过程收敛。起的作用:绕开重尾分布下经典经验过程理论的失效。
- 正则变化理论:用于步骤 2,绑定 \(\bar{\alpha}\) 与 \(\kappa\)。起的作用:利用 Karamata 定理等,将稀疏常数与尾部指数的关系显式化。
- 鞅中心极限定理:用于步骤 4,处理 \(N_t\) 与 \(K_t\) 的随机增量。起的作用:允许顶点数随机增长,且增量有鞅结构。
- 错指定下局部渐近正态性:用于步骤 5,证明后验 BvM。起的作用:在错指定参数值 \(\bar{\alpha}\) 附近,似然仍近似正态(但信息矩阵是错指定下的 Fisher 信息,不是正确指定的)。
- 二阶正则变化条件:用于定理 2 的显式方差。起的作用:控制尾部估计的精细收敛率,类比 Carpentier & Kim (2013) 的尾指数自适应估计。
真实例子与应用: 本文为纯理论,无实证例子。所有验证通过命题 3 完成:证明配置模型、稀疏 graphon、边可交换模型、Graphex 过程满足假设 A1-A5。这是理论论文的常见做法——用经典模型满足假设来验证结论的适用范围,而非用真实数据验证估计量的表现。
🔎 结论是否比证明窄: - 定理 2 的 BvM 结论在 A3(二阶条件)下严格证明,但作者在讨论中暗示"即使没有 A3,后验可能仍渐近正态(方差无法显式计算)"——这是一个 conjecture,未严格证明。 - 命题 3 对配置模型的验证要求 \(\tau \in (1,2)\)(无限均值度分布),对 \(\tau \in (2,3)\)(有限均值、无限方差)的情况未验证——作者声称"类似分析可推广",但未给出证明。
四、开放问题(点到为止)¶
-
\(\tau \in (2,3)\) 的配置模型是否满足假设 A1-A5?——扎根在命题 3 的讨论:作者验证了 \(\tau \in (1,2)\),对 \(\tau \in (2,3)\) 只说"可推广"但未证明。要证的是:有限均值、无限方差度分布下,度序列经验过程在尾部区域的收敛率是否仍满足 A4。
-
无二阶条件(A3)下后验是否仍渐近正态?——扎根在定理 2 的讨论:作者暗示可能成立但方差无法显式计算。要证的是:去掉 A3 后,后验的收缩率与形状是否仍正态(可能方差只能给出界而非显式值)。
-
错指定下其他参数(\(\sigma, \tau\))的极限是什么?——扎根在本文只详细分析了 \(\alpha\)(稀疏常数),对 \(\theta\) 的其他分量只给出部分结果。要估的是:\(\hat{\sigma}_t, \hat{\tau}_t\) 在错指定下是否收敛到某个由真实 DGP 决定的量,还是发散/不收敛?
-
本文的错指定 BvM 与 Kleijn & van der Vaart (2012) 的框架有何关系?——扎根在 intro 未引 Kleijn-van der Vaart,但定理 2 的证明可能依赖类似技术。要查的是:本文是否在技术层面绕开了 Kleijn-van der Vaart 的条件(如 KL 邻域的局部渐近正态性),如果是,为什么能绕开?这可能是理论上的实质性差异,也可能是引用缺口。
Maintained by 陈星宇 · Homepage · Source on GitHub