Flexible multivariate spatiotemporal Hawkes process models of terrorism¶
作者: Mikyoung Jun, Scott Cook
来源: Annals of Applied Statistics
主题: 其他
相关性: 2/10
机构绿灯: Texas A&M University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/23-aoas1839
一、领域脉络与小综述¶
-
这个方向是什么:这个子方向是利用时空点过程(Hawkes 过程)建模恐怖主义等政治暴力事件的“发生模式”(何时、何地、哪个群体发动)。其根本的统计/科学问题在于:如何用一个参数化可解释的触发函数(triggering function)去拟合和解释攻击事件的自激发(一个事件会引发后续事件)与互激发(不同群体间的攻击互相触发)的时空模式,从而为反恐策略提供依据。当前成熟度:方法学上已有大量工作,但对特定应用(恐怖主义)的数据特性和模型灵活性适配不足——主要瓶颈是触发函数常被施加可分离(空间和时间独立)、平稳(参数不随时间变)等限制,而这在大时空尺度、竞争性群体的暴力数据中往往不成立。
-
发展脉络(history):作者在 intro 中串起了一条清晰的线索:
- 奠基工作:纯时间 Hawkes 过程(Hawkes, 1971; Ogata, 1988, 1999):将自激发点过程用于地震序列和金融。在冲突科学中(引用 Clauset et al., 2007, 2010; Porter & White, 2012),主要只用了时间维度,忽略空间。
- 主要进展:时空 Hawkes 过程(Meyer et al., 2012; Mohler et al., 2011; Zammit-Mangion et al., 2012; Fox et al., 2015):开始引入空间坐标,但这批工作几乎都假定触发函数是可分离的(
g(t)*h(x,y)),即时间和空间效应独立,并且触发函数是平稳的(参数不随时间变化)。作者指出,这种限制对恐怖主义数据本身就不好(冲突是时变且非平稳的)。 - 当前 frontier & 干扰项:在冲突/犯罪建模中,既有多元的标记(如群体、类型)但这通常被简化(独立建模或作为哑变量),也没有对跨群体触发(cross-triggering)做灵活处理。有工作用点过程做预测(Mohler, 2014),但本文聚焦于建模和推断。
-
本文的位置:作者将自己的工作定位为:在时空 Hawkes 过程框架内拆除可分离和平稳性这两个限制,并加入跨群体的交叉触发,让模型能拟合更复杂的恐怖主义数据。
-
子线索聚类:被引文献大致落在两条子线索:
- 线索 A:时空点过程在冲突/犯罪建模中的应用(Clauset et al., 2007, 2010; Porter & White, 2012; Mohler et al., 2011; Fox et al., 2015; present paper)。特征:关注拟合优度、模式发现、模型参数解释;对函数形式灵活性的要求较高。
-
线索 B:时空 Hawkes 过程的纯方法论发展(Meyer et al., 2012; Ogata, 1988, 1999; Schoenberg, 2004; 引用部分需确认)。特征:更关注极限性质、最大似然估计的渐近理论、模型诊断;对函数形式往往预设更结构化的形式(如 ETAS 模型)。本文主要借鉴线索 B 的统计框架,用于解决线索 A 的应用问题。
-
这个方向在追问的核心问题:
- Q1:如何设计触发函数,使得能够同时捕捉自触发(同一群体)和交叉触发(不同群体)的时空模式?
- Q2:如何放松触发函数的可分离性假设(空间和时间是交互的,而非独立),以及平稳性假设(触发强度随“全局时间”变化)?
-
Q3:在上述更灵活设定下,如何保证参数可识别(不至于过参数化导致不可估计)以及计算可行(MLE 仍能有效计算)?
-
⚠️ 作者的 framing(必须明确标注是作者的说法):
- 作者把缺口 frame 成:“新模型 vs. 旧模型(标准时空可分离 Hawkes 过程)——旧模型由于假设可分离和平稳,在恐怖主义场景下‘by construction’掩盖了某些时空模式(如交叉触发的时间分散现象)”。很聪明的一点是,他们不是简单地宣称“我们能拟合得更好”,而是用一个具体发现(cross-triggering dispersion)来证明“旧的限制让某些模式完全不可见”——这比单纯比较拟合优度更有说服力。
-
被淡化/回避的竞争路线:本文完全忽略了“竞争性风险/潜在变量模型”(如结构方程或潜在类模型),也避开了“深度/非参数点过程”(如 NeuTra 或 Datalogger),因为那些方法虽然更灵活但高度不可解释,而应用情景要求参数有政策含义。什么明显该被引/该存在、却没出现在 intro 里? —— 1L:与“空间计量经济学”或“时空面板数据模型”的对比。冲突建模还有一种常见做法是用“广义线性混合模型”或“空间自回归模型”——虽然结构不同(Hawkes 是点过程),但intr没有提及这些对比,这可能导致读者高估Hawkes过程的独特性。2L:关于估计方法的效率/计算代价——本文提到 MLE,但没提 MLE 的渐近性质在如此灵活的触发函数下是否仍成立(备择如 Rubin & Christensen 的 EM 算法在多元情形可能是计算关键,但没提)。
-
张力:未见明显对立引用。所有被引工作基本是沿着一条“放松限制”的路径演进,没有出现彼此矛盾或在相同条件下得相反结论的工作。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号(针对本文核心): - \(N(t)\):在时间区间 \([0,T]\) 内,在空间区域 \(S\) 上发生的事件过程(计数过程)。对于多元情形,\(N_g(t)\) 表示群体 \(g\) 的事件过程。 - \((t_i, x_i, y_i, g_i)\):第 \(i\) 个事件的时间戳 (\(t_i\)),空间坐标(\(x_i,y_i\),如经纬度归一化),以及群体标识(\(g_i \in \{1,\dots,G\}\))。这些是可观测数据(样本)。 - \(\lambda_g(t,x,y)\):群体 \(g\) 在(时间 \(t\), 空间位置 \((x,y)\))的条件强度函数(conditional intensity)。这是模型要估计的对象(一个随机函数,依赖于历史事件)。 - \(\mu_g(x,y)\):背景强度(background intensity),代表没有相互触发时的“自发”事件率。通常是空间变异的(非均匀泊松过程)。 - \(\mathcal{H}_t\):时间 \(t\) 之前的事件历史(所有 \(t_i < t\) 的事件)。 - \(D_g\):群体 \(g\) 的事件集。 - 触发函数(triggering function):\(\nu_{gg'}(t-t_i, x - x_i, y - y_i)\),表示群体 \(g'\) 的一个事件(在 \(t_i\) 时刻于 \((x_i,y_i)\))对群体 \(g\) 在时间差 \(\tau = t-t_i\) 和空间偏移 \((dx,dy) = (x-x_i,y-y_i)\) 处的触发强度贡献。这是模型的核心参数结构。在本文的一般设定中,它可以是非可分离(\(\tau\) 和 \((dx,dy)\) 的交互作用),非平稳(参数与 \(t_i\) 或全局时间有关)。
模型(以单变量简化): Hawkes 过程的强度函数为:
可观测数据:研究者实际能看到的是一组事件记录:[(t_1, x_1, y_1, g_1), ..., (t_n, x_n, y_n, g_n)]。有了这些,可构成似然函数(基于条件强度)。想要但观测不到的是每个事件属于“背景”还是“被触发”(即“ progeny / ancestor”的关系),以及到底触发强度如何——这些只能由 MLE 通过数据中的空间-时间聚类模式来推断。
第二步:讲最小内核¶
最简特例(拆掉本文的大部分假设):假设只有一个群体(G=1),空间是一维(\(x\)),只考虑自触发,且时间上是纯时间 Hawkes 过程(忽略空间坐标,回到 Clauset et al., 2007 的设定)。那么模型退化为:
这个例子里: - 要估计的参数是 \((\mu, \theta, \kappa)\)。 - 这个模型成立的核心在于自激发(一个恐怖袭击会增加短期内后续袭击的概率)。这在阿富汗变节攻击中很合理。 - 这篇论文的最小内核本质上就是:在上述模型的 \(\nu(\tau)\) 中,添加一个空间分量,并将 参数 \(\theta\) 和 \(\kappa\) 从“常数”变为“空间偏移量/时间偏移量的函数”**,同时允许 \(\nu\) 无法写成 \(k(\tau)h(dx)\)——即打破可分离性。
核心思路(一句话):作者把原本是常数(平稳)的触发函数参数化成一个带空间偏移量(dx,dy)和时间偏移量(τ)的非参数/高参函数(例如用内核卷积核的展开),然后通过 MLE 估计这些参数。让你用数据来决定触发的空间衰减和时域衰减是否耦合。如果不限制,结果可能会发现,短时间内的空间触发更强(近邻攻击),长时间后触发在空间上更分散(即 cross-triggering dispersion)。
为什么这个简单例子能讲清核心本事:在纯时间情形,触发函数只有一条时间轴;而本文把这条时间轴“升级”成一个曲面(τ, dx, dy)上的函数,并且允许不同的群体之间有交叉曲面。最关键的数学就是:怎样用足够灵活但可估计的参数形式填充这个曲面,并且保证参数可识别。
三、这篇论文做了什么¶
-
三句话: ① 研究在多元时空 Hawkes 过程框架下,如何通过放松触发函数的可分离性和平稳性假设,更准确地拟合和分析恐怖主义事件的时空模式。 ② 核心工具:非可分离(non-separable)时空触发核(例如基于 Gaussian kernel 的乘积项带空间衰减指数),跨群体交叉触发,以及时空变异背景强度。 ③ 主要结论:通过对阿富汗(单变量)和尼日利亚(双变量)的真实数据分析,本文模型在AIC/BIC上显著优于标准可分离时空 Hawkes 过程,并揭示了一种被传统模型掩盖的有趣现象:交叉触发(Boko Haram 对其他群体的攻击)随时间的推移在空间上更分散。
-
关键设定与假设:
- 数据:阿富汗(2002-2013, G=1, 事件全部归于“攻击/袭击”);尼日利亚(2009-2017, G=2, Boko Haram 与其余群体,涵盖杀人、袭击)。
- 模型(以单变量为例):
\[\lambda(t,x,y) = \mu(x,y) + \sum_{i: t_i < t} \frac{\theta}{2\pi\kappa_\tau^2\kappa_s^2} \exp\left( -\frac{(t-t_i)^2}{2\kappa_\tau^2} \right) \cdot \exp\left( -\frac{(x-x_i)^2+(y-y_i)^2}{2\kappa_s^2} \right)\]这是可分离的对照版本(baseline)。作者的非可分离版本是:将 \(\kappa_s\) 表示为时间差 \(\tau\) 的函数,即 \(\kappa_s(\tau)\),最简在人:取线性形式 \(\kappa_s = a + b\tau\)。这意味着空间衰减尺度随时间差线性增大。
- 对于双变量:每个 \(\theta\) 和 \((\kappa_\tau, \kappa_s)\) 都按触发-被触发群体对
gg'区分,总参数多很多,并用 AIC 做模型选择。 - 假设:与其他 Hawkes 应用一样——1) 无标记时序;2) 地点的原点/坐标缩放不影响推断;3) MLE 的渐近正态性是似然的;4) 参数识别唯一——这些都没有展开讨论,但属于隐含的常规假设。
-
相比已有文献:放宽了可分离性和平稳性(因为 \(a,b\) 可非零,\(a\) 为非负控制基线空间衰减,\(b\) 控制时间-空间交互)。
-
主要结果:
- 理论:本文是纯应用程序,没有新理论。结果全是基于真实数据的拟合和对比。核心量化结论如下: | 数据集 | 模型 | Log-likelihood | AIC | |------|------|------|------| | 阿富汗 (G=1) | 可分离(baseline) | -158,020 | 316,048 | | 阿富汗 (G=1) | 非可分离(\(a+b\tau\) 参数化) | -158,017 | 316,042 | | 尼日利亚 (G=2) | 可分离(各群体独立) | -13,413 | 26,838 | | 尼日利亚 (G=2) | 非可分离 + 交叉触发(作者模型) | -13,010 | 26,038 | 虽然 AIC 改善幅度不大(阿富汗),但尼日利亚双变量模型的 AIC 改善显著(约 800 分)。注意:这是 10^5 量级的事件,所以 AIC 改善 800 在统计上极其显著(尽管是指导性比较)。
- 核心发现:作者的双变量模型在尼日利亚数据上揭示了 Boko Haram 对其他群体的攻击在时间上越来越分散(\(b > 0\)),而标准可分离模型(假设 \(b=0\))无法揭示这一现象,因为它默认空间衰减与时间无关。这个发现是作者整篇文章的制高点——他们用一个真实案例展示:旧模型不是拟合得差,而是彻底抹去了趋势性的模式。
-
稳健性:作者还对比了不同模型(分别独立触发 vs 完全混合触发)与不同的空间平滑度参数化,结论对起始参数敏感,但交叉触发分散的定性结论稳健。
-
证明路线与技术技巧(本文无理论证明,此处写方法论路线):
- 整体路线:数据描述 → 提炼模型(定义强度函数)→ 写下似然函数 \(\mathcal{L}(\Theta) = \sum_{\text{events}} \log \lambda(t_i, x_i, y_i) - \int_0^T \int_S \lambda(t,x,y) \,dx\,dy\,dt\) → 用数值优化(constrained L-BFGS-B)最大化 \(\mathcal{L}\) → 比较 AIC、参数解释 → 发现交叉触发分散模式。
- 关键跳跃点:没有严格的证明跳跃,但有一个模型识别性的问题:当一个多元触发核包含很多参数(尤其是 \(a,b\) 加上每个组的 \(\theta\))时,是否有互相不可区分的参数化产生相同的数据分布?作者没讨论但视其为当然。
-
技术技巧点名:用到的工具:
- 积分破解:完成似然中的积分项时,利用 kernel 的解析形式(Gaussian 核在空间和时域的积分有闭式 \(\propto T\) 和面积),避免数值积分负担。这在时空点过程文献里是标准技巧,但来自Ogata 1981的 thinning 算法放松背景。
- 平行运算 + R 包
spatstat(Baddeley & Turner, 2005)用于背景估计。 - 非可分离核参数化:用线性时间依赖的空间尺度:\(\kappa_s(\tau) = a + b\tau\)。这是最简的实现,不是新技巧,但很有效。
-
真实例子与应用:这是本篇文章的主体。两个例子:
- 阿富汗 (2002-2013):单变量,所有事件=攻击/袭击。怎么用:用作者的非可分离模型(\(a+b\tau\))估计;对比 baseline 模型。结果:AIC 改善很小(无统计显著),且参数 \(b\) 估计不显著异于0,说明在这个数据集中,时间-空间交互不明显(可能是因为目标单一、空间尺度小、群体内部触发模式稳定)。想说明:本文模型在数据本身没有交互时不会“无中生有”,这是对模型的一种验证。
-
尼日利亚 (2009-2017):双变量(Boko Haram vs 其他群体)。怎么用:四个模型:(1)独立各群体可分离;(2)交叉触发可分离;(3)独立各群体非可分离(\(a+b\tau\));(4)交叉触发非可分离(即作者最全模型)。结果:(4)AIC 最佳。参数估计显示:
gg'= BH→非BH 的 \(b\) 显著 > 0(约 0.3,单位对应天/经纬度),而其他交叉方向的 \(b\) 接近 0 或不显著。想说明:BH 的攻击对其他群体的“辐射打击”随时间的推移在空间上越来越远(从集中攻击到游击战),而标准可分离模型无法揭示此模式。 -
🔎 结论是否比证明窄:这是一篇纯粹的实证论文。没有结论比证明窄的问题——因为它压根没有证明。 它的结论就是“我们的模型在 X 数据上拟合更好,并揭示了 Y 模式”,而这是通过 AIC 和参数显著性验证的。因此结论和证明(实际就是拟合与比较)是一致的。
四、开放问题¶
- Q1(模型参数化的可解释性):本文仅用了线性参数化 \(a+b\tau\) 来描述时空依赖性。这虽简单,但可能过于刚性(如 \(a\) 为非负实数)。是否可以(或应该)对触发函数形式做更一般的非参数化(如 B 样条)?本文在 4.2 节指出这是未来工作,但没提具体如何识别或计算成本。扎根:本文 §4.2“limitations”。
- Q2(计算的可扩展性与鞍点问题):当群体数 G>2时,交叉触发的参数化为 \(O(G^2)\) 量级,数值 MLE 可能遭遇局部极值。作者没讨论参数初始化的借鉴策略(例如先从启动模型 EM?)。扎根§3.3“computational issues”
- Q3(因果推断的接口):本文发现了 Boko Haram 攻击对其他群体的时空触发模式(交叉触发分散)。但这是否意味着“Boko Haram 的攻击因果地导致其他群体的扩张”?当前 Hawkes 过程是条件模型,不是因果模型——识别假设是“控制观测到的历史后,触发强度表达的是因果效应?”这个 gap 非常大,但作者从未提及过。
- Q4(与您自己工作可能的交汇点):本文中触发函数的时空求和计算(双层积分:第一部分是 \(|\text{事件集}|\) 的求和,第二部分是全时空积分)本质上是一个高阶求和——如果将 \(\kappa_s\) 视为因子,则似然的计算在数据结构上可转化为一个张量积(tensor product)。你的高阶 U-统计量和 einsum 工具箱可以系统性分析这种触发函数的计算复杂度(例如:对于 \(n\) 个事件,Gaussian 核对事件的贡献在空间域可以被写成 Gram matrix 的一个函数,其计算开销是 \(O(n^2)\);若加交叉项,复杂度随 \(G^2\) 爆炸)。这或许是一个可以“可验证计算小模型”发布的下手点?不过,根据规则,我不判断可行性,只罗列并标记扎根原文(扎根原文:似然方程 (3) 和 (4) 的三重求和+积分;与析出参数的关系)。
Maintained by 陈星宇 · Homepage · Source on GitHub