Flexible multivariate spatiotemporal Hawkes process models of terrorism¶

作者: Mikyoung Jun, Scott Cook
来源: Annals of Applied Statistics
主题: 其他
相关性: 2/10
机构绿灯: Texas A&M University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1839

一、领域脉络与小综述¶

这个方向是什么：这个子方向是利用时空点过程（Hawkes 过程）建模恐怖主义等政治暴力事件的“发生模式”（何时、何地、哪个群体发动）。其根本的统计/科学问题在于：如何用一个参数化可解释的触发函数（triggering function）去拟合和解释攻击事件的自激发（一个事件会引发后续事件）与互激发（不同群体间的攻击互相触发）的时空模式，从而为反恐策略提供依据。当前成熟度：方法学上已有大量工作，但对特定应用（恐怖主义）的数据特性和模型灵活性适配不足——主要瓶颈是触发函数常被施加可分离（空间和时间独立）、平稳（参数不随时间变）等限制，而这在大时空尺度、竞争性群体的暴力数据中往往不成立。
发展脉络（history）：作者在 intro 中串起了一条清晰的线索：
奠基工作：纯时间 Hawkes 过程（Hawkes, 1971; Ogata, 1988, 1999）：将自激发点过程用于地震序列和金融。在冲突科学中（引用 Clauset et al., 2007, 2010; Porter & White, 2012），主要只用了时间维度，忽略空间。
主要进展：时空 Hawkes 过程（Meyer et al., 2012; Mohler et al., 2011; Zammit-Mangion et al., 2012; Fox et al., 2015）：开始引入空间坐标，但这批工作几乎都假定触发函数是可分离的（g(t)*h(x,y)），即时间和空间效应独立，并且触发函数是平稳的（参数不随时间变化）。作者指出，这种限制对恐怖主义数据本身就不好（冲突是时变且非平稳的）。
当前 frontier & 干扰项：在冲突/犯罪建模中，既有多元的标记（如群体、类型）但这通常被简化（独立建模或作为哑变量），也没有对跨群体触发（cross-triggering）做灵活处理。有工作用点过程做预测（Mohler, 2014），但本文聚焦于建模和推断。
本文的位置：作者将自己的工作定位为：在时空 Hawkes 过程框架内拆除可分离和平稳性这两个限制，并加入跨群体的交叉触发，让模型能拟合更复杂的恐怖主义数据。
子线索聚类：被引文献大致落在两条子线索：
线索 A：时空点过程在冲突/犯罪建模中的应用（Clauset et al., 2007, 2010; Porter & White, 2012; Mohler et al., 2011; Fox et al., 2015; present paper）。特征：关注拟合优度、模式发现、模型参数解释；对函数形式灵活性的要求较高。
线索 B：时空 Hawkes 过程的纯方法论发展（Meyer et al., 2012; Ogata, 1988, 1999; Schoenberg, 2004; 引用部分需确认）。特征：更关注极限性质、最大似然估计的渐近理论、模型诊断；对函数形式往往预设更结构化的形式（如 ETAS 模型）。本文主要借鉴线索 B 的统计框架，用于解决线索 A 的应用问题。
这个方向在追问的核心问题：
Q1：如何设计触发函数，使得能够同时捕捉自触发（同一群体）和交叉触发（不同群体）的时空模式？
Q2：如何放松触发函数的可分离性假设（空间和时间是交互的，而非独立），以及平稳性假设（触发强度随“全局时间”变化）？
Q3：在上述更灵活设定下，如何保证参数可识别（不至于过参数化导致不可估计）以及计算可行（MLE 仍能有效计算）？
⚠️ 作者的 framing（必须明确标注是作者的说法）：
作者把缺口 frame 成：“新模型 vs. 旧模型（标准时空可分离 Hawkes 过程）——旧模型由于假设可分离和平稳，在恐怖主义场景下‘by construction’掩盖了某些时空模式（如交叉触发的时间分散现象）”。很聪明的一点是，他们不是简单地宣称“我们能拟合得更好”，而是用一个具体发现（cross-triggering dispersion）来证明“旧的限制让某些模式完全不可见”——这比单纯比较拟合优度更有说服力。
被淡化/回避的竞争路线：本文完全忽略了“竞争性风险/潜在变量模型”（如结构方程或潜在类模型），也避开了“深度/非参数点过程”（如 NeuTra 或 Datalogger），因为那些方法虽然更灵活但高度不可解释，而应用情景要求参数有政策含义。什么明显该被引/该存在、却没出现在 intro 里？ —— 1L：与“空间计量经济学”或“时空面板数据模型”的对比。冲突建模还有一种常见做法是用“广义线性混合模型”或“空间自回归模型”——虽然结构不同（Hawkes 是点过程），但intr没有提及这些对比，这可能导致读者高估Hawkes过程的独特性。2L：关于估计方法的效率/计算代价——本文提到 MLE，但没提 MLE 的渐近性质在如此灵活的触发函数下是否仍成立（备择如 Rubin & Christensen 的 EM 算法在多元情形可能是计算关键，但没提）。
张力：未见明显对立引用。所有被引工作基本是沿着一条“放松限制”的路径演进，没有出现彼此矛盾或在相同条件下得相反结论的工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（针对本文核心）： - \(N(t)\)：在时间区间 \([0,T]\) 内，在空间区域 \(S\) 上发生的事件过程（计数过程）。对于多元情形，\(N_g(t)\) 表示群体 \(g\) 的事件过程。 - \((t_i, x_i, y_i, g_i)\)：第 \(i\) 个事件的时间戳 (\(t_i\))，空间坐标（\(x_i,y_i\)，如经纬度归一化），以及群体标识（\(g_i \in \{1,\dots,G\}\)）。这些是可观测数据（样本）。 - \(\lambda_g(t,x,y)\)：群体 \(g\) 在（时间 \(t\), 空间位置 \((x,y)\)）的条件强度函数（conditional intensity）。这是模型要估计的对象（一个随机函数，依赖于历史事件）。 - \(\mu_g(x,y)\)：背景强度（background intensity），代表没有相互触发时的“自发”事件率。通常是空间变异的（非均匀泊松过程）。 - \(\mathcal{H}_t\)：时间 \(t\) 之前的事件历史（所有 \(t_i < t\) 的事件）。 - \(D_g\)：群体 \(g\) 的事件集。 - 触发函数（triggering function）：\(\nu_{gg'}(t-t_i, x - x_i, y - y_i)\)，表示群体 \(g'\) 的一个事件（在 \(t_i\) 时刻于 \((x_i,y_i)\)）对群体 \(g\) 在时间差 \(\tau = t-t_i\) 和空间偏移 \((dx,dy) = (x-x_i,y-y_i)\) 处的触发强度贡献。这是模型的核心参数结构。在本文的一般设定中，它可以是非可分离（\(\tau\) 和 \((dx,dy)\) 的交互作用），非平稳（参数与 \(t_i\) 或全局时间有关）。

模型（以单变量简化）： Hawkes 过程的强度函数为：

\[\lambda(t,x,y) = \mu(x,y) + \sum_{i: t_i < t} \nu(t-t_i, x - x_i, y - y_i)\]

其中，\(\nu(\cdot)\) 是触发核。对于可分离触发，有 \(\nu(\tau, dx, dy) = k(\tau) \cdot h(dx, dy)\)。

可观测数据：研究者实际能看到的是一组事件记录：[(t_1, x_1, y_1, g_1), ..., (t_n, x_n, y_n, g_n)]。有了这些，可构成似然函数（基于条件强度）。想要但观测不到的是每个事件属于“背景”还是“被触发”（即“ progeny / ancestor”的关系），以及到底触发强度如何——这些只能由 MLE 通过数据中的空间-时间聚类模式来推断。

第二步：讲最小内核¶

最简特例（拆掉本文的大部分假设）：假设只有一个群体（G=1），空间是一维（\(x\)），只考虑自触发，且时间上是纯时间 Hawkes 过程（忽略空间坐标，回到 Clauset et al., 2007 的设定）。那么模型退化为：

\[\lambda(t) = \mu + \sum_{i: t_i < t} \nu(t - t_i)\]

其中，\(\nu(\tau)\) 是时间触发核，通常设定为幂律或指数衰减：\(\nu(\tau) = \theta \kappa e^{-\kappa \tau}\)。

这个例子里： - 要估计的参数是 \((\mu, \theta, \kappa)\)。 - 这个模型成立的核心在于自激发（一个恐怖袭击会增加短期内后续袭击的概率）。这在阿富汗变节攻击中很合理。 - 这篇论文的最小内核本质上就是：在上述模型的 \(\nu(\tau)\) 中，添加一个空间分量，并将 参数 \(\theta\) 和 \(\kappa\) 从“常数”变为“空间偏移量/时间偏移量的函数”**，同时允许 \(\nu\) 无法写成 \(k(\tau)h(dx)\)——即打破可分离性。

核心思路（一句话）：作者把原本是常数（平稳）的触发函数参数化成一个带空间偏移量(dx,dy)和时间偏移量(τ)的非参数/高参函数（例如用内核卷积核的展开），然后通过 MLE 估计这些参数。让你用数据来决定触发的空间衰减和时域衰减是否耦合。如果不限制，结果可能会发现，短时间内的空间触发更强（近邻攻击），长时间后触发在空间上更分散（即 cross-triggering dispersion）。

为什么这个简单例子能讲清核心本事：在纯时间情形，触发函数只有一条时间轴；而本文把这条时间轴“升级”成一个曲面（τ, dx, dy）上的函数，并且允许不同的群体之间有交叉曲面。最关键的数学就是：怎样用足够灵活但可估计的参数形式填充这个曲面，并且保证参数可识别。

三、这篇论文做了什么¶

三句话： ① 研究在多元时空 Hawkes 过程框架下，如何通过放松触发函数的可分离性和平稳性假设，更准确地拟合和分析恐怖主义事件的时空模式。 ② 核心工具：非可分离（non-separable）时空触发核（例如基于 Gaussian kernel 的乘积项带空间衰减指数），跨群体交叉触发，以及时空变异背景强度。 ③ 主要结论：通过对阿富汗（单变量）和尼日利亚（双变量）的真实数据分析，本文模型在AIC/BIC上显著优于标准可分离时空 Hawkes 过程，并揭示了一种被传统模型掩盖的有趣现象：交叉触发（Boko Haram 对其他群体的攻击）随时间的推移在空间上更分散。
关键设定与假设：
数据：阿富汗（2002-2013, G=1, 事件全部归于“攻击/袭击”）；尼日利亚（2009-2017, G=2, Boko Haram 与其余群体，涵盖杀人、袭击）。
模型（以单变量为例）：
\[\lambda(t,x,y) = \mu(x,y) + \sum_{i: t_i < t} \frac{\theta}{2\pi\kappa_\tau^2\kappa_s^2} \exp\left( -\frac{(t-t_i)^2}{2\kappa_\tau^2} \right) \cdot \exp\left( -\frac{(x-x_i)^2+(y-y_i)^2}{2\kappa_s^2} \right)\]
这是可分离的对照版本（baseline）。作者的非可分离版本是：将 \(\kappa_s\) 表示为时间差 \(\tau\) 的函数，即 \(\kappa_s(\tau)\)，最简在人：取线性形式 \(\kappa_s = a + b\tau\)。这意味着空间衰减尺度随时间差线性增大。
对于双变量：每个 \(\theta\) 和 \((\kappa_\tau, \kappa_s)\) 都按触发-被触发群体对 gg' 区分，总参数多很多，并用 AIC 做模型选择。
假设：与其他 Hawkes 应用一样——1) 无标记时序；2) 地点的原点/坐标缩放不影响推断；3) MLE 的渐近正态性是似然的；4) 参数识别唯一——这些都没有展开讨论，但属于隐含的常规假设。
相比已有文献：放宽了可分离性和平稳性（因为 \(a,b\) 可非零，\(a\) 为非负控制基线空间衰减，\(b\) 控制时间-空间交互）。
主要结果：
理论：本文是纯应用程序，没有新理论。结果全是基于真实数据的拟合和对比。核心量化结论如下： | 数据集 | 模型 | Log-likelihood | AIC | |------|------|------|------| | 阿富汗 (G=1) | 可分离（baseline） | -158,020 | 316,048 | | 阿富汗 (G=1) | 非可分离（\(a+b\tau\) 参数化） | -158,017 | 316,042 | | 尼日利亚 (G=2) | 可分离（各群体独立） | -13,413 | 26,838 | | 尼日利亚 (G=2) | 非可分离 + 交叉触发（作者模型） | -13,010 | 26,038 | 虽然 AIC 改善幅度不大（阿富汗），但尼日利亚双变量模型的 AIC 改善显著（约 800 分）。注意：这是 10^5 量级的事件，所以 AIC 改善 800 在统计上极其显著（尽管是指导性比较）。
核心发现：作者的双变量模型在尼日利亚数据上揭示了 Boko Haram 对其他群体的攻击在时间上越来越分散（\(b > 0\)），而标准可分离模型（假设 \(b=0\)）无法揭示这一现象，因为它默认空间衰减与时间无关。这个发现是作者整篇文章的制高点——他们用一个真实案例展示：旧模型不是拟合得差，而是彻底抹去了趋势性的模式。
稳健性：作者还对比了不同模型（分别独立触发 vs 完全混合触发）与不同的空间平滑度参数化，结论对起始参数敏感，但交叉触发分散的定性结论稳健。
证明路线与技术技巧（本文无理论证明，此处写方法论路线）：
整体路线：数据描述 → 提炼模型（定义强度函数）→ 写下似然函数 \(\mathcal{L}(\Theta) = \sum_{\text{events}} \log \lambda(t_i, x_i, y_i) - \int_0^T \int_S \lambda(t,x,y) \,dx\,dy\,dt\) → 用数值优化（constrained L-BFGS-B）最大化 \(\mathcal{L}\) → 比较 AIC、参数解释 → 发现交叉触发分散模式。
关键跳跃点：没有严格的证明跳跃，但有一个模型识别性的问题：当一个多元触发核包含很多参数（尤其是 \(a,b\) 加上每个组的 \(\theta\)）时，是否有互相不可区分的参数化产生相同的数据分布？作者没讨论但视其为当然。
技术技巧点名：用到的工具：
- 积分破解：完成似然中的积分项时，利用 kernel 的解析形式（Gaussian 核在空间和时域的积分有闭式 \(\propto T\) 和面积），避免数值积分负担。这在时空点过程文献里是标准技巧，但来自Ogata 1981的 thinning 算法放松背景。
- 平行运算 + R 包 spatstat（Baddeley & Turner, 2005）用于背景估计。
- 非可分离核参数化：用线性时间依赖的空间尺度：\(\kappa_s(\tau) = a + b\tau\)。这是最简的实现，不是新技巧，但很有效。
真实例子与应用：这是本篇文章的主体。两个例子：
阿富汗 (2002-2013)：单变量，所有事件=攻击/袭击。怎么用：用作者的非可分离模型（\(a+b\tau\)）估计；对比 baseline 模型。结果：AIC 改善很小（无统计显著），且参数 \(b\) 估计不显著异于0，说明在这个数据集中，时间-空间交互不明显（可能是因为目标单一、空间尺度小、群体内部触发模式稳定）。想说明：本文模型在数据本身没有交互时不会“无中生有”，这是对模型的一种验证。
尼日利亚 (2009-2017)：双变量（Boko Haram vs 其他群体）。怎么用：四个模型：（1）独立各群体可分离；（2）交叉触发可分离；（3）独立各群体非可分离（\(a+b\tau\)）；（4）交叉触发非可分离（即作者最全模型）。结果：（4）AIC 最佳。参数估计显示：gg' = BH→非BH 的 \(b\) 显著 > 0（约 0.3，单位对应天/经纬度），而其他交叉方向的 \(b\) 接近 0 或不显著。想说明：BH 的攻击对其他群体的“辐射打击”随时间的推移在空间上越来越远（从集中攻击到游击战），而标准可分离模型无法揭示此模式。
🔎 结论是否比证明窄：这是一篇纯粹的实证论文。没有结论比证明窄的问题——因为它压根没有证明。 它的结论就是“我们的模型在 X 数据上拟合更好，并揭示了 Y 模式”，而这是通过 AIC 和参数显著性验证的。因此结论和证明（实际就是拟合与比较）是一致的。

四、开放问题¶

Q1（模型参数化的可解释性）：本文仅用了线性参数化 \(a+b\tau\) 来描述时空依赖性。这虽简单，但可能过于刚性（如 \(a\) 为非负实数）。是否可以（或应该）对触发函数形式做更一般的非参数化（如 B 样条）？本文在 4.2 节指出这是未来工作，但没提具体如何识别或计算成本。扎根：本文 §4.2“limitations”。
Q2（计算的可扩展性与鞍点问题）：当群体数 G>2时，交叉触发的参数化为 \(O(G^2)\) 量级，数值 MLE 可能遭遇局部极值。作者没讨论参数初始化的借鉴策略（例如先从启动模型 EM?）。扎根§3.3“computational issues”
Q3（因果推断的接口）：本文发现了 Boko Haram 攻击对其他群体的时空触发模式（交叉触发分散）。但这是否意味着“Boko Haram 的攻击因果地导致其他群体的扩张”？当前 Hawkes 过程是条件模型，不是因果模型——识别假设是“控制观测到的历史后，触发强度表达的是因果效应？”这个 gap 非常大，但作者从未提及过。
Q4（与您自己工作可能的交汇点）：本文中触发函数的时空求和计算（双层积分：第一部分是 \(|\text{事件集}|\) 的求和，第二部分是全时空积分）本质上是一个高阶求和——如果将 \(\kappa_s\) 视为因子，则似然的计算在数据结构上可转化为一个张量积（tensor product）。你的高阶 U-统计量和 einsum 工具箱可以系统性分析这种触发函数的计算复杂度（例如：对于 \(n\) 个事件，Gaussian 核对事件的贡献在空间域可以被写成 Gram matrix 的一个函数，其计算开销是 \(O(n^2)\)；若加交叉项，复杂度随 \(G^2\) 爆炸）。这或许是一个可以“可验证计算小模型”发布的下手点？不过，根据规则，我不判断可行性，只罗列并标记扎根原文（扎根原文：似然方程 (3) 和 (4) 的三重求和+积分；与析出参数的关系）。

Maintained by 陈星宇 · Homepage · Source on GitHub