Lasso‐type estimator and classification algorithm for high‐dimensional multivariate Hawkes processes¶
作者: Christophe Denis, Charlotte Dion‐Blanc, Romain E. Lacoste, Laure Sansonnet
来源: Scandinavian Journal of Statistics
主题: 高维统计 / 随机矩阵
相关性: 6/10
机构绿灯: Université Paris-Saclay(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.70066
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处理的是高维事件流数据的统计推断问题。具体而言,当多个个体(网络节点)在时间轴上产生离散事件,且个体间存在相互激发或抑制的动力学交互时,如何在一个网络维数 \(d\) 远大于观测样本量(或观测时长)的设定下,既恢复出交互网络的结构(稀疏邻接矩阵的支持集),又基于恢复出的网络特征对观测轨迹进行分类。当前该方向的成熟度处于理论起步与算法验证期:已有工作能给出低维或固定维下的渐近理论,以及高维下单一网络估计的 oracle 性质,但在高维下同时处理“多类网络”与“短时重复观测”的分类与估计联合任务,理论收敛速率的严格刻画刚刚出现。
发展脉络: - 奠基工作:Hawkes (1971) 提出线性自激发点过程模型,给出了平稳性条件与似然函数形式,为后续交互网络建模提供了基本数据生成机制。 - 主要进展(低维 / 固定维估计):Ogata (1978) 建立了点过程最大似然估计(MLE)的数值与渐近理论框架;Reynaud-Bouret & Schbath (2010) 针对基因组数据,在自适应 Lasso 下给出了单节点交互参数的估计与支持恢复相合性,但设定仍是固定维。 - 主要进展(高维单网络估计):Bacry et al. (2020) 引入广义 Lasso 与 Granger 因果框架,在 \(d\) 随样本量增长的设定下给出了邻接矩阵的 oracle 估计;随后,Denis et al. (2024) 在高维设定下利用 Lasso 给出了邻接矩阵的 oracle 不等式与支持恢复速率,但仅限单一网络。 - 当前 frontier(分类与多类设定):Lacoste et al. (2023) 首次在固定维下引入了基于 Hawkes 过程的分类框架,证明了分类误差的指数收敛界,但未触及高维设定下的支持恢复与分类器联合设计。 - 本文的位置:本文填补了 Lacoste et al. (2023) 与 Denis et al. (2024) 之间的缺口——在高维设定下,将 Denis et al. (2024) 的单网络 Lasso 支持恢复与 Lacoste et al. (2023) 的固定维分类结合,提出“先按类恢复支持、再基于支持构造分类器”的两步法,并给出支持恢复相合性与分类误差收敛速率的联合刻画。
子线索聚类: 1. 高维稀疏点过程估计:Bacry et al. (2020)、Denis et al. (2024)。这一簇在做:当 \(d\) 大、交互矩阵稀疏时,如何用 Lasso 型惩罚从短时观测中恢复交互结构,核心瓶颈是点过程的强依赖结构使得经典高维回归的独立或弱依赖浓度不等式无法直接套用。 2. 基于点过程的分类与聚类:Lacoste et al. (2023)。这一簇在做:给定多条标定类别的轨迹,如何利用点过程的似然或经验误差构造分类器,核心瓶颈是分类误差的理论界如何依赖于点过程的激发函数与观测时长。 3. 多类 / 非平稳 Hawkes 的似然理论:Ogata (1978)、Hawkes (1971)。这一簇提供基础:似然函数的显式表达与平稳性条件,是前两簇的推论地基。
这个方向在追问的核心问题: 1. 高维点过程的浓度不等式:在个体间存在强时间依赖的 Hawkes 过程下,如何构造不依赖独立同分布假设的矩生成函数界与浓度不等式,以支撑 Lasso 的误差控制? 2. 支持恢复的相合条件:在高维设定下,最小信号强度与观测时长 \(T\) 的关系是什么?Lasso 惩罚参数 \(\lambda\) 的选取如何随 \(d\) 与 \(T\) 变化? 3. 分类与估计的联合误差传播:当分类器依赖的输入(邻接矩阵支持)本身是估计量时,估计误差如何传播到分类误差?两步法的总误差能否仍保持指数收敛?
⚠️ 作者的 framing: - 作者把缺口 frame 成:已有高维估计(Denis et al., 2024)只管单网络,已有分类(Lacoste et al., 2023)只管固定维,因此“高维 + 多类”是显然的下一步。这让本文的两步法(先估计支持、再分类)成为自然填补。 - 被淡化的竞争路线:基于核密度估计或非参数激发函数的 Hawkes 分类(如非参数 Granger 因果图方法)未被讨论;基于变分自编码器或深度点过程模型的分类路线也未在 intro 出现。 - 明显该被引却未出现的:高维时间序列分类的文献(如高维 AR 过程的分类)未在 intro 中出现——Hawkes 过程本质上是连续时间 AR(1),高维 AR 分类的理论界可能提供直接对比基准,研究者可去查这一缺口是否真存在。
张力: 未见明显对立引用。Denis et al. (2024) 与 Bacry et al. (2020) 在高维 Hawkes 估计的惩罚构造上略有不同(Group Lasso vs. 广义 Lasso),但结论方向一致,未见相反结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(d\):网络维数(节点数),也是过程分量数,高维设定下 \(d \gg 1\)。
- \(K\):类别数,观测轨迹属于 \(K\) 个不同类别的 Hawkes 过程。
- \(N^{(k)} = (N_1^{(k)}, \ldots, N_d^{(k)})\):第 \(k\) 类的 \(d\) 维多元 Hawkes 过程,每个 \(N_i^{(k)}\) 是计数过程,记录节点 \(i\) 的事件发生次数。
- \(\mu^{(k)} \in \mathbb{R}^d\):第 \(k\) 类的外生强度向量,表示无交互时各节点的基础事件发生率。
- \(A^{(k)} \in \mathbb{R}^{d \times d}\):第 \(k\) 类的邻接矩阵,\(A_{ij}^{(k)}\) 表示节点 \(j\) 的一个事件对节点 \(i\) 的激发强度增量。稀疏假设:每类中 \(A^{(k)}\) 的非零元素数 \(s^{(k)} \ll d^2\)。
- \(h(t)\):激发函数,本文取定 \(h(t) = e^{-t}\)(指数衰减),使得 \(A^{(k)}\) 成为线性参数。
- \(T\):观测时间窗口长度,本文设定 \(T\) 固定且较短,但拥有大量独立重复轨迹。
- \(n\):每类的重复观测次数,第 \(k\) 类有 \(n\) 条独立轨迹 \(N^{(k,1)}, \ldots, N^{(k,n)}\),每条观测于 \([0, T]\)。
- \(S^{(k)}\):\(A^{(k)}\) 的真实支持集,即 \(\{(i,j) : A_{ij}^{(k)} \neq 0\}\)。
- \(\hat{S}^{(k)}\):Lasso 估计出的支持集。
- 可观测数据:训练集包含 \(K\) 个类别的标定轨迹,每类 \(n\) 条,每条是 \([0,T]\) 上 \(d\) 个节点的事件发生时间序列 \(\{(t_{i,\ell}^{(k,m)}) : i=1,\ldots,d, \ell=1,\ldots,N_i^{(k,m)}(T), m=1,\ldots,n\}\)。不可观测的是真实的 \(\mu^{(k)}\)、\(A^{(k)}\) 与 \(S^{(k)}\),只能靠估计与假设去识别。
第二步:最小内核——二类、二节点、指数激发的 Lasso 支持恢复与分类
剥掉所有高维与多类的一般性设定,最小内核是:\(d=2, K=2\),激发函数 \(h(t)=e^{-t}\),观测窗口 \([0,T]\),每类有 \(n\) 条重复轨迹。
此时,第 \(k\) 类的强度过程为:
要证的命题退化成什么: 1. 支持恢复:对第 \(k\) 类,用 Lasso 估计 \(A^{(k)}\) 的 4 个元素。假设真实 \(A^{(k)}\) 只有 1 个非零元素(如 \(A_{12}^{(k)} = a \neq 0\), 其余为 0)。Lasso 目标函数为负对数似然加 \(\lambda \sum_{ij} |A_{ij}^{(k)}|\)。要证:当 \(n\) 足够大、\(|a|\) 足够大(最小信号强度条件)、\(\lambda\) 选取合适时,\(\hat{A}_{12}^{(k)}\) 保留非零且 \(\hat{A}_{11}^{(k)}, \hat{A}_{21}^{(k)}, \hat{A}_{22}^{(k)}\) 被精确压缩为 0,即 \(\hat{S}^{(k)} = S^{(k)}\) 以高概率成立。 2. 分类:给定一条新轨迹 \(N^{\text{new}}\),它属于第 1 或第 2 类。分类器基于经验误差最小化:计算 \(N^{\text{new}}\) 在第 \(k\) 类估计强度 \(\hat{\lambda}^{(k)}(t)\) 下的经验误差(如积分残差),将其分入误差最小的类。要证:当 \(\hat{S}^{(k)} = S^{(k)}\) 时,分类误差以指数速率随 \(n\) 下降。
证明怎么走、为什么成立: - 支持恢复的关键:Hawkes 过程的似然函数对 \(A^{(k)}\) 是凸的(指数激发下),Lasso 的无偏性条件要求真实非零信号的梯度在零点处被惩罚压制。由于有 \(n\) 条独立重复轨迹,似然函数的梯度方差随 \(n\) 下降(浓度不等式控制),而惩罚 \(\lambda\) 随 \(\sqrt{\log(d)/n}\) 选取,当 \(|a| \gg \lambda\) 时,非零信号不会被误压缩;当梯度噪声 \(\ll \lambda\) 时,零信号被精确压缩。 - 分类的关键:当支持恢复相合时,估计的 \(\hat{A}^{(k)}\) 在 \(S^{(k)}\) 上与真实 \(A^{(k)}\) 足够接近,使得 \(\hat{\lambda}^{(k)}(t)\) 与真实 \(\lambda^{(k)}(t)\) 的偏差被控制。不同类的强度过程在参数上被假设分离(类间距离条件),因此经验误差在正确类上小、在错误类上大,分类误差由大偏差原理控制为指数衰减。
三、这篇论文做了什么¶
三句话: ①研究了高维多元 Hawkes 过程在多类、短时重复观测设定下的交互网络支持恢复与轨迹分类问题。 ②核心方法是两步法:先用 Lasso 型估计器按类恢复邻接矩阵支持,再用基于估计支持的经验误差最小化构造分类器。 ③主要结论是:在最小信号强度与类间分离条件下,Lasso 估计的支持恢复相合,且分类误差以指数速率收敛。
关键设定与假设: - 设定:\(d\) 维 Hawkes 过程,\(K\) 类,每类 \(n\) 条独立重复轨迹观测于 \([0,T]\),激发函数 \(h(t)=e^{-t}\)(线性、指数衰减),邻接矩阵 \(A^{(k)}\) 稀疏(每行至多 \(s\) 个非零)。 - 假设 H1(平稳性):谱半径条件 \(\rho(A^{(k)}) < 1\),保证过程平稳、强度有界。相比低维文献,这是标准假设,未放宽。 - 假设 H2(稀疏性):每类 \(A^{(k)}\) 的每行非零元素数 \(\le s\),\(s \ll d\)。相比 Bacry et al. (2020) 的全局稀疏,本文用行稀疏,更贴合 Lasso 的逐行估计。 - 假设 H3(最小信号强度):真实非零元素 \(|A_{ij}^{(k)}| \ge a_{\min}\),且 \(a_{\min} \gg \lambda\)(Lasso 惩罚参数)。这是支持恢复相合的必要条件,与高维线性回归的 beta-min 条件对应。 - 假设 H4(类间分离):不同类的参数 \((\mu^{(k)}, A^{(k)})\) 在某种 \(L_2\) 距离上足够分离,使得强度过程在类间可区分。这是分类收敛的必要条件,Lacoste et al. (2023) 在固定维下也有类似假设。 - 假设 H5(短时观测):\(T\) 固定,不随 \(n\) 或 \(d\) 增长。这使得单条轨迹的信息量有限,必须依赖 \(n\) 条重复轨迹来降低方差。相比 Denis et al. (2024) 的长时观测设定,这是本文的关键差异与难点。
主要结果: - 定理 1(支持恢复相合性):在假设 H1-H3 下,选取 \(\lambda \asymp \sqrt{\log(d)/n}\),Lasso 估计器 \(\hat{A}^{(k)}\) 的支持集 \(\hat{S}^{(k)}\) 以概率至少 \(1 - c/d\) 等于真实支持 \(S^{(k)}\),且非零元素的估计误差 \(\|\hat{A}^{(k)}_{S^{(k)}} - A^{(k)}_{S^{(k)}}\|_2 \le c \sqrt{s \log(d)/n}\)。 - 直觉:重复轨迹使得似然梯度方差随 \(n\) 下降,Lasso 惩罚随 \(\sqrt{\log(d)/n}\) 选取,beta-min 条件保证非零信号不被误杀,irrepresentable 条件(隐含在行稀疏与谱半径中)保证零信号不被假信号污染。 - 必要条件:\(a_{\min} \gg \sqrt{s \log(d)/n}\),即信号强度必须足够大以穿透 Lasso 的惩罚与噪声。 - 技术难点:Hawkes 过程的事件间依赖使得梯度的方差不能直接用独立同分布界控制,必须构造点过程专用的浓度不等式。
- 定理 2(分类误差收敛速率):在假设 H1-H4 及 \(\hat{S}^{(k)} = S^{(k)}\) 下,基于经验误差最小化的分类器的误分概率以指数速率随 \(n\) 下降:\(P(\text{误分}) \le \exp(-c n \Delta^2)\),其中 \(\Delta\) 是类间分离距离。
- 直觉:支持恢复相合后,估计强度与真实强度的偏差被控制为 \(O(\sqrt{s \log(d)/n})\),当类间分离 \(\Delta \gg \sqrt{s \log(d)/n}\) 时,经验误差在正确类上显著小于错误类,大偏差原理给出指数界。
- 解决的技术难点:分类器依赖估计的支持集,而非真实支持集,必须证明估计误差不破坏分类器的类间区分能力。
证明路线与技术技巧: - 整体路线: 1. 构造点过程的浓度不等式:利用 Hawkes 过程的平稳性与指数衰减,将强度过程与计数过程的矩生成函数用谱半径控制,得到梯度与残差的亚高斯界。 2. 建立 Lasso 的 oracle 性质:用浓度不等式控制似然梯度的偏差,结合行稀疏与 beta-min 条件,证明 Lasso 的支持恢复相合性与参数估计误差界。 3. 证明分类器的指数收敛:在支持恢复相合的前提下,将经验误差分解为真实误差加估计偏差,用大偏差原理控制真实误差的类间区分,用 Lasso 误差界控制偏差项,合并得指数界。 - 关键跳跃点: - 引理:Hawkes 过程梯度的浓度不等式。难点在于:似然函数对 \(A^{(k)}\) 的梯度是 \(\int_0^T (\lambda_i^{(k)}(t) - dN_i^{(k)}(t)) \int_0^t e^{-(t-s)} dN_j^{(k)}(s) dt\),其中 \(\lambda_i^{(k)}(t)\) 与 \(dN_j^{(k)}(s)\) 强依赖。作者利用平稳性与指数衰减,将 \(\lambda_i^{(k)}(t)\) 的方差用谱半径 \(\rho(A^{(k)})\) 控制,将积分项的方差用激发函数的 \(L_2\) 范数控制,最终得到梯度的亚高斯界,方差随 \(n\) 下降。 - 技术技巧点名: - 点过程的浓度不等式:用矩生成函数与谱半径控制强依赖点过程的方差,替代经典高维回归中的独立同分布亚高斯假设。 - Lasso 的无偏性与不可表示条件:在点过程似然下验证 Lasso 的 irrepresentable 条件,确保零信号不被污染。 - 大偏差原理:用于控制分类误差的指数衰减,依赖经验过程的集中不等式。
真实例子与应用: - 合成数据:模拟 \(d=10, 50, 100\) 的 Hawkes 过程网络,每类 \(n=50, 100, 200\) 条轨迹,\(T=10\)。验证支持恢复的相合率随 \(n\) 上升、随 \(d\) 下降的趋势,与理论 \(\sqrt{\log(d)/n}\) 速率吻合;分类准确率随 \(n\) 指数上升,与定理 2 吻合。 - 真实数据(MemeTracker):使用 MemeTracker 数据集(网站间 meme 传播的交互网络),选取 \(d=100\) 个网站,按传播模式分为 \(K=3\) 类,每类提取 \(n\) 条短时传播轨迹。用本文方法恢复交互网络并分类,支持恢复与分类准确率优于纯 MLE(无惩罚)与固定维分类器,验证了高维稀疏假设与两步法的实际优势。 - 这个例子想说明什么:验证理论速率的实用性,展示两步法在真实高维事件流数据上的支持恢复与分类增益。
🔎 结论是否比证明窄: - 论文在定理陈述中严格假设 \(h(t)=e^{-t}\),但在 intro 与讨论中泛泛 claim 方法可推广至一般激发函数。一般激发函数下的似然凸性与梯度浓度不等式是否仍成立,未被证明,这是一个具体的 claim-vs-proof 缺口。 - 分类误差的指数界严格依赖 \(\hat{S}^{(k)} = S^{(k)}\) 的前提,但论文在数值实验中展示了 \(\hat{S}^{(k)} \neq S^{(k)}\) 时分类器仍有一定鲁棒性,这一鲁棒性未被理论覆盖。
四、开放问题(点到为止,扎根具体语句)¶
- 一般激发函数下的支持恢复与分类:论文假设 \(h(t)=e^{-t}\) 以保证似然凸性与梯度浓度(定理 1 与 2 的证明全程依赖此假设)。若激发函数为非参数或非指数衰减,似然可能非凸、梯度浓度不等式如何构造?扎根点:intro 末句 "This methodology could be extended to more general kernels" 与定理证明中对 \(h(t)=e^{-t}\) 的显式依赖。
- 无 beta-min 条件的支持恢复:定理 1 依赖 \(a_{\min} \gg \lambda\) 的 beta-min 条件。能否在无最小信号强度假设下,给出支持恢复的偏假阳性/偏假阴性控制(如 knockoffs 或 de-biasing)?扎根点:假设 H3 与 Denis et al. (2024) 的 oracle 不等式对比。
- 长时观测 / 单轨迹设定下的分类:本文依赖 \(n\) 条短时重复轨迹以降低方差。若只有单条长时轨迹(\(n=1, T \to \infty\)),分类误差的收敛速率如何?扎根点:假设 H5 与 Lacoste et al. (2023) 的固定维长时设定对比。
- 高维 AR 过程分类的理论对比:intro 未引高维时间序列分类文献。Hawkes 过程是连续时间 AR(1),离散化后与高维 AR 模型分类的理论界是否有直接对应?扎根点:intro 缺失的引用线索,研究者可查近期高维 AR 分类的 5 篇 intro 确认是否真缺口。
Maintained by 陈星宇 · Homepage · Source on GitHub