On a Notion of Graph Centrality Based on L ₁ Data Depth¶

作者: Seungwoo Kang, Hee-Seok Oh
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: Seoul National University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2520467

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：如何在缺乏欧氏空间坐标的离散拓扑结构（图）中，定义并度量一个节点相对于整体分布的“深度”或“中心性”，从而实现从中心到边缘的排序与多尺度分析。当前该方向的成熟度处于“方法迁移与概念定义已成型，但大样本理论几乎空白”的阶段——非参数/半参数空间中的 data depth 理论已有深厚的数学基础（收敛率、极限分布、效率界），但将这些概念平移至图拓扑后，统计推断的严格理论尚未建立。

发展脉络： - 奠基工作（多变量 Data Depth）：Zuo & Serfling (2000) 与 Serfling (2006) 系统梳理了多变量数据深度的概念结构，将半参数深度与中心排序严格化，留下了“深度概念能否脱离欧氏空间”的口子。 - 主要进展（深度向非欧结构的渗透）：Liu & Singh (1993) 与 Liu, Parelius & Singh (1999) 将深度用于双样本检验与区域排序，展示了深度作为非参数推断工具的潜力；Agostinelli & Romanazzi (2011) 尝试将深度概念迁移至图，但作者在文中明确指出其“缺乏对加权图的处理能力与多尺度分析工具”。 - 当前 frontier（图中心性的统计化）：图中心性在网络科学中已有大量度量（Freeman 1978 的度/介数/紧密度中心性），但它们多为算法定义，缺乏与统计深度理论的连接。作者引用 Koschützki et al. (2005) 对中心性分类的综述，暗示现有图中心性是“纯拓扑的”，缺乏“相对深度”的统计视角。 - 本文的位置：本文填补了“加权图上的 L1 深度”这一具体定义口子，将多变量 L1 depth（Vardi & Zhang 2000）的半参数思想迁移至图距离矩阵，但未触及大样本推断理论。

子线索聚类： 1. 多变量 Data Depth 理论线：Zuo & Serfling (2000), Serfling (2006), Liu et al. (1993, 1999)。这一簇在欧氏空间中建立深度的公理化定义、收敛性与推断工具，核心是仿射不变性与鲁棒性。 2. 图中心性算法线：Freeman (1978), Koschützki et al. (2005)。这一簇从拓扑/算法角度定义中心性，完全不考虑随机图模型下的统计波动与大样本性质。 3. 深度向图结构的初步迁移线：Agostinelli & Romanazzi (2011)。这一簇尝试将深度概念硬搬至图，但停留在无权图与局部定义，缺乏加权图的统一框架与多尺度工具。

这个方向在追问的核心问题： 1. 如何定义图上节点的“统计深度”，使其继承多变量深度的鲁棒性与中心排序性质？ 2. 如何处理加权图与多尺度分析，使得深度不仅是一个全局排序，还能刻画局部邻域结构？ 3. 图深度度量在随机图模型下的统计推断性质是什么（收敛率、极限分布、效率界）？——当前主流方法完全回避了此问题。

⚠️ 作者的 framing： - 作者把缺口 frame 成“现有图深度（Agostinelli & Romanazzi 2011）无法处理加权图且缺乏多尺度分析工具”，好让本文的 L1 centrality（支持加权、带 target plot 与 local depth）成为“显然的下一步”。 - 被淡化或回避的竞争路线：作者完全未引用任何随机图模型下的统计推断文献（如基于 Erdős–Rényi 或 stochastic block model 的参数/半参数推断），也未引用图上 M-estimation 的理论工作。这使得本文看起来像是填补了一个“定义与工具”的缺口，而实际上更深的缺口是“推断理论”。 - 明显该被引却未出现的文献：任何涉及图上统计量的大样本理论的工作（如图上 U-统计量的极限理论、随机图下 M-estimator 的收敛性）。这是值得研究者去查的问题：图深度是否已有任何随机图下的 CAN 性质证明？

张力：未见明显对立引用。多变量深度线与图中心性线长期平行发展，本文是两者的交汇点，但未触及两者在推断框架上的根本张力（欧氏空间下的半参数效率界 vs. 图拓扑下的离散推断）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(V = \{1, 2, \dots, n\}\)：图的顶点集，\(n\) 为顶点数（也是样本量）。
\(E\)：图的边集。
\(G = (V, E)\)：无向连通图。
\(w_e\)：边权重（正实数），表示边上的相似度或连接强度。
\(w_v\)：顶点权重（正实数），表示顶点的自身重要性。
\(d(i, j)\)：顶点 \(i\) 与 \(j\) 之间的加权最短路径距离（Dijkstra 距离），\(d(i, i) = 0\)。
\(c(i)\)：顶点 \(i\) 的 L1 centrality（本文核心 estimand）。
\(N_k(i)\)：顶点 \(i\) 的 L1 neighborhood（基于 L1 centrality 排序的第 \(k\) 近邻集）。
\(c_L(i)\)：顶点 \(i\) 的 local L1 centrality（局部深度）。
模型：本文没有显式的数据生成机制或随机图模型。图的生成过程被视为已知或黑箱，不假设任何分布（如 Erdős–Rényi 或 SBM）。要估的对象 \(c(i)\) 是一个纯拓扑/算法定义的量，基于观测图的距离矩阵计算，而非从潜在参数空间中估计。
可观测数据：研究者实际能观测到的是一个确定的图 \(G\)（顶点集 \(V\)、边集 \(E\)、边权重 \(w_e\)、顶点权重 \(w_v\)），以及由此计算出的加权最短路径距离矩阵 \(D = \{d(i, j)\}_{i,j \in V}\)。不可观测的量是“图在随机生成过程中的潜在中心性参数”——本文完全不考虑此类潜在量，只基于观测图做确定性计算。

第二步：讲最小内核

本文的核心思路是多变量 L1 depth 的图距离类比。剥掉所有加权、局部深度、target plot 等扩展，支撑整篇论文的最小内核是：无权图上的 L1 centrality 定义。

最简特例（无权连通图）：设 \(G\) 为无权连通图，\(d(i, j)\) 为最短路径跳数。顶点 \(i\) 的 L1 centrality 定义为：
\[c(i) = 1 - \frac{\sum_{j \in V} d(i, j)}{\sum_{k \in V} \sum_{j \in V} d(k, j)}\]
这个定义是 Vardi & Zhang (2000) 多变量 L1 depth 的直接类比：
在多变量空间中，L1 depth of point \(x\) relative to data \(X_1, \dots, X_n\) 是 \(D(x) = 1 - \frac{\sum_{j=1}^n \|x - X_j\|_1}{\sum_{k=1}^n \sum_{j=1}^n \|X_k - X_j\|_1}\)。
在图中，将欧氏距离 \(\|x - X_j\|_1\) 替换为图最短路径距离 \(d(i, j)\)，数据点 \(X_k\) 替换为顶点 \(k\)，即得到 \(c(i)\)。

为什么成立： - \(c(i) \in [0, 1]\)，因为 \(\sum_{j} d(i, j) \leq \sum_{k} \sum_{j} d(k, j)\)（每个顶点到自身的距离为 0）。 - \(c(i)\) 越大，顶点 \(i\) 到所有其他顶点的平均距离越小，即越“中心”。 - 当 \(i\) 是图的“图中心”（graph median，即最小化 \(\sum_j d(i, j)\) 的顶点）时，\(c(i)\) 达到最大值。 - 仿射不变性在图中退化为“对图距离的尺度不变性”（乘常数权重不改变 \(c(i)\) 排序）。

这个最小内核揭示了本文的本质：用图距离矩阵替换欧氏距离矩阵，直接套用多变量 L1 depth 的公式。所有后续的加权、局部深度、target plot 都是在这个公式上的“加壳”（加权最短路径距离、局部子图上的距离求和）。

三、这篇论文做了什么¶

三句话： ①研究了无向连通图上顶点中心性的统计深度定义与多尺度分析工具； ②核心方法是将多变量 L1 data depth（Vardi & Zhang 2000）的欧氏距离替换为图加权最短路径距离，定义 L1 centrality； ③主要结论是 L1 centrality 继承了 L1 depth 的鲁棒性与排序性质，并衍生出 target plot、L1 neighborhood 与 local L1 centrality 等多尺度分析工具，但未提供任何大样本推断理论。

关键设定与假设： - 设定：无向连通图 \(G = (V, E)\)，边权重 \(w_e > 0\)，顶点权重 \(w_v > 0\)。加权最短路径距离 \(d(i, j)\) 由 Dijkstra 算法计算。 - 假设 1（连通性）：图必须连通，否则 \(d(i, j) = \infty\)，L1 centrality 无定义。统计含义：排除了孤立节点与多组件结构，限制了方法的适用范围。 - 假设 2（权重正性）：\(w_e, w_v > 0\)。统计含义：允许加权图，但排除了负权重（如敌意关系网络）。 - 假设 3（确定性图）：图被视为确定性观测，无随机图模型假设。统计含义：所有 centrality 值是确定性计算结果，非参数估计量，无法讨论抽样波动或收敛率。 - 与已有文献的对比：相比 Agostinelli & Romanazzi (2011)，放宽了“无权图”限制，引入了边/顶点权重；相比 Freeman (1978) 的紧密度中心性（\(C_C(i) = \frac{n-1}{\sum_j d(i, j)}\)），L1 centrality 通过双求和归一化实现了“相对深度”而非绝对距离的倒数，且继承了 L1 depth 的鲁棒性（对异常顶点的抗干扰性）。

主要结果：本文为方法型论文，无定理/渐近/效率界/minimax 结果。核心量化结论如下： 1. L1 centrality 的定义与性质：

\[c(i) = 1 - \frac{\sum_{j \in V} w_v(j) d(i, j)}{\sum_{k \in V} \sum_{j \in V} w_v(k) w_v(j) d(k, j)}\]

性质：\(c(i) \in [0, 1]\)；\(c(i)\) 越大越中心；对图中心（graph median）取最大值；对边权重乘常数不变（尺度不变性）；对顶点权重敏感（\(w_v\) 参与归一化）。 2. 多尺度分析工具： - Target plot：将 \(c(i)\) 与顶点度数画成散点图，用于识别“高深度-低度数”的桥接节点与“低深度-高度数”的局部枢纽。 - L1 neighborhood \(N_k(i)\)：按 \(c(j)\) 与 \(c(i)\) 的差值排序，取前 \(k\) 个顶点，形成基于深度的邻域（而非基于拓扑邻接）。 - Local L1 centrality \(c_L(i; N_k(i))\)：在 \(N_k(i)\) 子图上重新计算 L1 centrality，用于识别局部中心节点。 3. 与 baseline 的对比：文中将 L1 centrality 与度中心性、紧密度中心性、介数中心性、Eigenvector 中心性在真实数据上对比，展示 L1 centrality 能识别出不同类型的中心节点（如桥接节点），但无理论量化优势证明。

证明路线与技术技巧：本文无证明路线（纯定义与算法）。唯一的技术技巧是距离矩阵的归一化：通过双求和 \(\sum_k \sum_j w_v(k) w_v(j) d(k, j)\) 将绝对距离转化为相对深度，这是 Vardi & Zhang (2000) L1 depth 的核心技巧，本文直接迁移至图距离矩阵。

真实例子与应用： 1. Marvel Cinematic Universe 电影网络： - 数据：47 部电影（顶点），边权重为共享角色数的倒数，顶点权重为电影票房。 - 怎么用：计算 L1 centrality，识别出《The Avengers》为全局中心（\(c(i)\) 最大），而《Iron Man 2》为局部枢纽（高度数但全局深度低）。 - 说明什么：展示 L1 centrality 在加权图上能区分全局中心与局部枢纽，验证方法的可用性。 2. 韩国国会法案共同提案网络（Bill cosponsorship network）： - 数据：21届韩国国会 300 名议员（顶点），边权重为共同提案数的函数，顶点权重为议员所属政党规模。 - 怎么用：计算 L1 centrality 与 local L1 centrality，识别出跨党派提案的议员为高深度-低度数的桥接节点，而政党领袖为局部中心。 - 说明什么：展示多尺度工具（target plot 与 local depth）在政治网络中的实用性，验证 L1 neighborhood 能捕捉基于深度的邻域结构。

🔎 结论是否比证明窄：本文无严格证明，但存在隐含 claim 与实际条件的落差： - 作者在 Abstract 与 Section 3 中 claim L1 centrality 具有“鲁棒性”，但仅通过类比多变量 L1 depth 的鲁棒性来论证，未在图结构下给出任何鲁棒性定理（如对边扰动或顶点删除的敏感性界）。这是“条件 X（多变量空间）下的性质被泛泛 claim 到图结构”的典型情况。 - 作者 claim L1 centrality 适用于“undirected and connected graph”，但未讨论当图不连通时如何处理（如取最大连通分量），也未量化连通性假设对 centrality 排序的影响。

四、开放问题（点到为止，扎根具体语句）¶

随机图模型下 L1 centrality 的收敛率与极限分布：本文将图视为确定性，未假设任何随机图模型。要估什么：在 Erdős–Rényi 或 SBM 模型下，\(c(i)\) 作为图统计量的收敛率与 CAN 性质。扎根点：作者在 Section 3 仅 claim “L1 centrality inherits robustness from L1 depth”，但未给出任何大样本性质，这是本文的理论空白。
L1 centrality 的半参数效率界：若将图中心性视为潜在参数 \(\theta_i\) 的估计量，要估什么：在随机图模型下，\(\theta_i\) 的半参数效率界是多少，\(c(i)\) 是否达到此界。扎根点：作者在 Section 1 引用 Serfling (2006) 的深度公理化，但未将公理化与效率界理论连接。
不连通图与负权重图的 L1 centrality 推广：本文假设图连通且权重为正。要证什么：在多组件图或负权重图（如敌意网络）上，L1 centrality 的合理定义与性质。扎根点：作者在 Abstract 明确限制“undirected and connected graph”，未讨论此限制的放宽。
图深度与图上 U-统计量的理论连接：L1 centrality 的双求和结构 \(\sum_k \sum_j d(k, j)\) 类似二阶 U-统计量。要估什么：在随机图下，此求和的 U-统计量性质（方差、投影、高阶展开）。扎根点：作者未引用任何图上 U-统计量文献，但 \(c(i)\) 的计算公式本身是图距离的 U-统计量结构。

提醒：要确认第 1 条是否真 gap，去读近期 5 篇图统计推断的 intro——若都指向“图中心性缺乏大样本理论”，则为共识（真 gap）；若已有工作在 SBM 下证明了某些中心性的收敛性，则需重新定位本文 L1 centrality 的理论增量。

Maintained by 陈星宇 · Homepage · Source on GitHub

On a Notion of Graph Centrality Based on L 1 Data Depth¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论

On a Notion of Graph Centrality Based on L ₁ Data Depth¶