The state of cumulative sum sequential changepoint testing 70 years after Page¶

作者: Alexander Aue, Claudia Kirch
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asad079

一、领域脉络与小综述¶

这个方向是什么¶

本文回顾的是一个子方向：非参数序贯（在线）变点检验，其根本问题是——观测序列在一个未知时刻发生了分布变化（变点），目标是在维持预设的Type-1 error（误报率）的前提下，尽快检测到这一变化。这区别于传统的质量控制视角（最小化平均游程长度 ARL）。该子方向的核心统计困难在于：检验统计量必须在线更新、依赖渐近理论（泛函中心极限定理 FCLT）来校准临界值，且不能依赖于独立同分布或特定参数族假设。

发展脉络¶

奠基工作：Page (1954)：开创性提出累积和（CUSUM） 控制图，其决策规则利用了过程全部历史，而此前的方法（如 Shewhart 图）只依赖最近少数观测，更接近异常值检测而非变点检测。Page 的思路是本文一切后续发展的源头。
主要进展（从经典到非参数）：
经典 CUSUM 的扩展：多位作者将 CUSUM 推广到不同模型与检验问题（文中以 Chu et al., 1996; Horváth et al., 2004; Aue & Horváth, 2013 等为代表）。这些工作共同确立了 CUSUM 框架在变点监测中的核心地位。
非参数转向与 Type-1 error 控制：作者指出，本文聚焦的“维持 Type-1 error”的子领域起源于计量经济学与统计学的交叉（Aue & Horváth, 2013; Gombay, 2003 等被引）。这改变了早期质量控制中以最小化 ARL 为目标的传统，转而要求检验在零假设下具有精确或渐近的显著性水平。该转向的关键工具是泛函中心极限定理（FCLT），它允许在弱依赖（如线性过程）下导出检验统计量的渐近分布，从而校准临界值。
复杂模型处理：从简单的独立同分布、位置模型，扩展到回归模型（通过 CUSUM of residuals）和时间序列（弱依赖过程）等更复杂设定（Bai & Perron, 1998; Andrews, 1993; Kirch, 2008 等被引）。
当前的 Frontier & 本文位置：
本文是一篇综述，定位是梳理上述自非参数序贯检验方向诞生以来的七十年发展，聚焦于“维持 Type-1 error”这一特定子脉络。它利用了一个简单的定位模型（location model）来阐述核心思想，并简要回顾了更复杂的回归与时间序列情形。
本文不是一篇方法创新论文，而是系统性的文献整理与理论框架总结。其“当前 frontier”并非指出一个单一开放问题，而是为读者提供了该领域成熟的渐近理论工具箱（FCLT 用于临界值，检测延迟界用于评估功效），以及这些工具在不同模型下的应用现状。

子线索聚类¶

被引文献大致落在以下3条子线索： 1. 经典 CUSUM 与 Page 检验的起源与优化（Page, 1954; Barnard, 1959; Hawkins & Olwell, 1998）：以最小化 ARL 为核心，主要处理 i.i.d. 或特定参数模型。 2. 基于累积过程的非参数序贯检验（Chu et al., 1996; Gombay, 2003; Horváth et al., 2004; Aue & Horváth, 2013）：核心是维持 Type-1 error，使用 FCLT 导出渐近临界值。这些检验常采用 CUSUM of residuals、MOSUM (moving sum) 等形式。 3. 在复杂模型（回归、时间序列）下的变点监测（Andrews, 1993; Bai & Perron, 1998; Kirch, 2008）：将上述检验框架推广到存在协变量或弱依赖结构的数据，主要难点在于如何调整 FCLT 的应用条件与估计协方差。

这个方向在追问的核心问题¶

如何在不依赖强分布假设（如正态、独立）下，设计具有精确/渐近 Type-1 error 控制的序贯检验？ 主流方法依赖 FCLT 和长期方差估计（HAC 估计器）。瓶颈是：有限样本下 FCLT 近似质量差如何？如何在更弱的依赖（如长记忆过程）下工作？
如何在变点发生后，以最小化的检测延迟（delay）检测到变化？ 这与 Type-1 error（误报率）之间存在权衡。主流方法通过设定检测阈值为渐近临界值（控制误报）来分析其检测延迟界（如定理 3）。瓶颈是：延迟界是否紧（minimax optimal）？在非参数设定下如何推导 minimax 下界？
如何处理多个变点或结构性变化（如回归系数改变）？ 主流方法（如 CUSUM of residuals）可以处理，但其功效和 Type-1 error 控制是否受到模型误设定（如遗漏变量、测量误差）的严重影响？瓶颈是鲁棒性。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口 frame 成什么，好让自己这篇成为"显然的下一步"？ 作者在摘要中明确说明，本文聚焦于“维持预设 Type-1 error”这一特定子领域，并将其与传统“最小化 ARL”的文献区分开来。这 frame 成一个被较少关注但重要的方向，使得这篇综述成为该子领域的“标准入口”，填补了系统性梳理的需求。作者的说法是：

“This review is focused on a particular subfield of this research, namely nonparametric sequential, or online, changepoint tests that are constructed to maintain a desired Type-1 error as opposed to the more traditional approach seeking to minimize the average run length of the procedures.” 这并非竞争性缺口，而是文献组织上的缺口。
哪些竞争路线被他淡化或回避了？ 作者明确声明聚焦于非参数、在线、维持 Type-1 error 的检验。因此，以下路线被固有地淡化：（a）基于贝叶斯或似然比的最优序贯检验（如 Page 检验的变体，但参数化程度更高）；（b）离线（offline / retrospective）变点检测（即用全样本进行检验，而非在线流式）；（c）注重 ARL 最小化的方法（如经济/工业质量控制中的 CUSUM）。这些并非忽略，而是由文章 scope 决定的宽泛定义，属于作者的正常选择。
什么明显该被引 / 该存在、却没出现在 intro 里？ 本文标题提及'70 years after Page'，但 intro 中没有直接讨论深度学习 / 基于特征学习的变点检测方法（例如用神经网络进行无监督变点预测）。这可能是由于该子领域仍偏向统计渐近理论，且深度学习方法的 Type-1 error 控制不成熟。另一类缺失是高维变点检测（例如在 p>n 的设定下，在均值向量或协方差矩阵中检测变化），因为这引入的 FCLT 和临界值校准问题完全不同。这值得研究者去查：这是否标志着作者的 scope 定义得比较传统，还是说在高维序贯变点检测上存在已被广泛引用的工作却未被提及？

张力¶

未见明显对立引用。被引工作之间在“维持 Type-1 error”这一共同目标下，总体呈现出一种连续的、工具库式的演进（从独立到依赖、从参数到非参数、从简单模型到复杂模型），而非彼此矛盾。也未见在不同条件下得到相反结论的引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( \{Y_t\}_{t=1,2,\dots} \) ：时间序列观测值，每个 \(Y_t\) 为随机变量。
\( t \) ：时间指标，\(t=1,2,\dots\)。
\( \tau \) ：未知的变点，是一个时间点，在 \( \tau \) 之后 (\(t > \tau\))，\(Y_t\) 的分布发生变化。
\( \mu_0 \) 与 \( \mu_1 \) ：变点前后的均值（在简单定位模型下）。通常假设变点前 \(E[Y_t] = \mu_0\) ，变点后 \(E[Y_t] = \mu_1 \neq \mu_0\)。
\( \sigma^2 \) ：在零假设（无变点）下，序列 \(Y_t\) 的方差（假设稳定）。
\( \kappa \) ：检测的控制限（threshold），由 FCLT 导出的渐近临界值设定。
\( S_n^{(k)} = \sum_{t=1}^n (Y_t - \hat{\mu}_{1:k}) \) ：在 CUSUM 中，从第 1 个到第 \(n\) 个观测的累积和，其中 \(\hat{\mu}_{1:k}\) 是初始 \(k\) 个观测的均值（或历史均值）。在更常见的更新形式中，部分累积和 \(S_n = \max_{0\le k\le n} \left| \sum_{t=1}^n (Y_t - \hat{\mu}_{1:k}) \right|\) 或 \(\sum_{t=1}^n (Y_t - \hat{\mu}_{1:n})\) 是基础统计量。
\( \text{ARL}_0 \) （Average Run Length under null）：零假设下从开始到第一次误报的平均时间步数。控制 Type-1 error 等价于控制 \(\text{ARL}_0\) 或设定一个期望的误报率（如 0.05 per 1000 steps）。
模型（最简单情形）：
数据生成机制：假设观测序列在变点 \(\tau\) 前后为：
\[Y_t = \begin{cases} \mu_0 + \epsilon_t, & t = 1, \dots, \tau, \\ \mu_1 + \epsilon_t, & t = \tau+1, \dots, \end{cases}\]
其中 \(\{\epsilon_t\}\) 是独立同分布（或平稳弱依赖）的随机误差，均值为 0，方差为 \(\sigma^2\)。零假设（\(H_0\)） 是 \(\mu_0 = \mu_1\)（无变点）；备择假设（\(H_1\)） 是 \(\mu_1 \neq \mu_0\)（存在变点）。
参数： \(\mu_0, \mu_1, \sigma^2\)是未知的，\(\tau\) 也是未知的待估对象。
已知：假设误差序列 \(\{\epsilon_t\}\) 满足正则条件（如有限四阶矩、短期依合同质性）使得 FCLT 成立。
可观测数据：
可观测：实时观测到的序列 \(Y_1, Y_2, \dots\)。每个新点 \(Y_{t+1}\) 到来后，更新累积和统计量。
不可观测：潜在变点 \(\tau\) 是未知的、需要检测的对象。在零假设下，\(\tau\) 不存在（或等效地，\(\tau = \infty\)）。在备择假设下，\(\tau\) 是随机或确定的未知量。分布参数 \(\mu_0, \mu_1, \sigma^2\) 也是不可观测的，但在非参数框架下我们不需要知道其具体形式，只需要假设其满足 FCLT 条件。

第二步：讲最小内核¶

整篇论文的本质是特例推广型。其最小内核就是最简单的两期位置模型（\(d=1\)，二元假设），通过它说明 CUSUM 的非参数序贯检验是如何做到“维持 Type-1 error”的。

最简特例：
设定：序列 \(Y_1, Y_2, \dots, Y_n\) 在检测时刻 \(n\) 是独立同分布随机变量，来自一个具有有限方差的未知分布 \(F\)。我们想在线检验：\(H_0: \mu = \mu_0\) (无变化) vs. \(H_1: \mu = \mu_1 \neq \mu_0\) 在某个未知时间发生。
统计量：经典的 Page CUSUM 统计量。在时刻 \(n\)，定义：
\[C_n = \max_{1 \le k \le n} \sum_{t=k}^n (Y_t - \mu_0) - \min_{1 \le k \le n} \sum_{t=k}^n (Y_t - \mu_0)\]
或更常用的形式：\(S_n = \max_{0\le k\le n} |\sum_{t=1}^n (Y_t - \mu_0 - \bar{Y}_{1:k})|\)，其中 \(\bar{Y}_{1:k}\) 是前 \(k\) 个观测的均值。但为了控制 Type-1 error，典型的做法是使用部分累积和（partial sum） 与泛函中心极限定理。一个更直接的、在非参数序贯检验中常见的统计量（如 Chu et al., 1996）是：
\[Q_n = \max_{1\le k\le n} \frac{ \left| \sum_{t=1}^k (Y_t - \bar{Y}_{1:n}) \right| }{ \hat{\sigma} \sqrt{n} }\]
其中 \(\hat{\sigma}\) 是长期方差的一致估计量。在 i.i.d. 下，\(\hat{\sigma}\) 就是样本标准差。
检验步骤：
1. 设定一个期望的 Type-1 error 率 \(\alpha\)（例如 0.05）。
2. 从第 2 个观测开始，在每个新点 \(n\) 更新统计量 \(Q_n\)。
3. 计算渐近临界值 \(c_\alpha\)。在 i.i.d. 位置模型下，FCLT 表明：在 \(H_0\) 下，\(Q_n\) 弱收敛于 \(\max_{0\le s\le 1} |B(s)|\)，其中 \(B(s)\) 是标准布朗桥。于是 \(c_\alpha\) 是 \(\text{P}(\max_{0\le s\le 1} |B(s)| > c_\alpha) = \alpha\) 的解，可以从布朗桥的分布表或模拟中得到（例如 c_0.05 ≈ 0.56）。
4. 决策规则：一旦 \(Q_n > c_\alpha\)，则拒绝 \(H_0\)，触发警报（认为变点已经发生）。若训练到预设的最大样本数仍未触发，则可终止并认为无变点。
为什么成立：这个检验维持了渐近的 Type-1 error，是因为 FCLT 保证了 \(Q_n\) 在零下服从与布朗桥最大值相同的渐近分布，而临界值 \(c_\alpha\) 正是从这个渐近分布中精确抽取的。这里不需要知道数据的分布 \(F\)，只要它满足 FCLT 的条件（如 i.i.d. 有限方差）。这是“非参数”意义的来源。检测延迟（备择下的性能）则可以通过大偏差理论或扩散近似来界。
论文的一般情形：上述最简特例被推广到：（a）弱依赖时间序列（通过长期方差的估计，使 FCLT 依旧适用）；（b）回归模型（CUSUM of residuals，\(Y_t = X_t^\top \beta + \epsilon_t\)，检测 \(\beta\) 的变化）；（c）MOSUM 等变体。

目标：研究者读完上述例子，就已经抓住了整篇综述的核心数学骨架：用 FCLT 将 CUSUM 统计量的分布映射到熟悉的随机过程（布朗桥），从而在无需参数模型的情况下，能以预设的 \( \alpha \) 进行序贯检验。

三、这篇论文做了什么¶

三句话：
本文系统回顾了自 Page (1954) 以来七十年间，非参数在线序贯变点检验在“维持预设 Type-1 error”这一子领域中的发展。
核心工具是累积和（CUSUM）及其变体（MOSUM、CUSUM of residuals），配合泛函中心极限定理（FCLT） 导出渐近临界值，实现误差控制。
主要结论是系统总结了该渐近理论框架下的主要定理（零假设下统计量的弱收敛极限、备择假设下的检测延迟界）及其在复杂模型（回归、时间序列）中的应用条件，提供了该领域的标准理论入口。
关键设定与假设：
在第二节最小记号基础上补全：
- 设定：观测序列 \(\{Y_t\}\) (或残差序列 \(\{e_t\}\))。
- 零假设：序列是平稳的（或满足某种形式的渐近平稳性，如弱依赖过程，包括 \(\phi\)-mixing, \(\alpha\)-mixing, 线性过程等）。
- 关键假设：序列满足一个泛函中心极限定理（FCLT） ——更精确地说，是 Donsker 定理 的一个版本。这意味着部分和过程 \(\frac{1}{\sigma\sqrt{n}}\sum_{t=1}^{\lfloor ns \rfloor} Y_t\) 在 Skorokhod 空间 \(D[0,1]\) 中弱收敛于标准布朗运动 \(W(s)\)。从布朗运动可以直接构造布朗桥 \(B(s) = W(s) - sW(1)\)。
- 与已有文献的强弱比较：本文依赖的假设（FCLT）弱于早期参数化假设（如正态分布、ARMA 模型），但仍然强于完全自由无假设的设定（例如，对长记忆过程或具有无界方差的稳定过程，FCLT 可能不成立或需要完全不同极限分布）。文中对此有明确讨论（参考其关于 GARCH 等过程的部分）。相比离线变点检验，序贯框架需要在FCLT 成立的基础上，进一步保证渐近临界值对样本量 \(n\) 的一致有效性（即统计量在序列更新时，其分布收敛于一个固定的极限过程），这比单个时间点的 FCLT 收敛更强，需要一个 “功能性的FCLT” 或更强的连续性条件。
主要结果：
作为综述，不涉及全新的定理，而是系统的定理整理与陈述。可以概括为两类结果：
- 结果 1：零假设下的渐近分布。对于在给定模型（独立、回归残差、弱依赖）下的 CUSUM 或 MOSUM 统计量，其极限分布被显式给出（通常是布朗桥或 Ornstein-Uhlenbeck 过程的泛函）。例如，对于 i.i.d. 位置模型，CUSUM 统计量收敛到 \( \sup_{0\le s\le 1} |B(s)| \)；对于基于残差的 CUSUM，极限分布涉及投影矩阵下的高斯过程（如 \( B(s) - sB(1) \) 的某种泛函）。
- 结果 2：备择假设下的检测延迟界（一致性）。在备择假设下（变点幅度为 \(\Delta\)），保证检测延迟 \(D\) 大致以 \(O(\Delta^{-2})\) 或 \(O(\log(\Delta^{-1}))\) 的速度趋于无穷（取决于不同方法的证明技巧）。例如，对于固定备择假设（\(\mu_1 - \mu_0 = \Delta\)），经典 CUSUM 序贯检验的检测延迟满足一个大偏差上界（如 Page 检验），而基于 FCLT 临界值的非参数检验也类似，前提是假定的长期方差的结构在备择下仍然成立（这在非参数框架下是个微妙但常被绕过的点）。
主要解决的技术难点：
- 长期方差的非参数估计：FCLT 要求已知或一致地估计 \(\sigma^2\)。本文综述了各种 HAC (Heteroskedasticity and Autocorrelation Consistent) 估计器（如 Newey-West，Bartlett kernel），并说明其在变点检测中如何用于在线更新。难点在于：变点之后，长期方差的估计可能变得有偏。
- 临界值校准：即使知道极限分布是布朗桥，其分位数也非解析。本文指出可以通过模拟或精确渐近公式（如 Vostrikova, 1981）来得到临界值。对于更复杂模型（含弱依赖），极限分布形式更复杂，可能需要通过蒙特卡洛或 Bootstrap 进行校准。
证明路线与技术技巧（理论型必写，要具体）：

由于是综述，没有单一证明。但可以总结其叙述的核心理论推导演进：

整体路线：
1. 从 CUSUM 到部分和过程：将 Page 的统计量 \(C_n = \max_{1\le k\le n}|\sum_{t=k}^n (Y_t-\mu_0)|\) 重写为标准化部分和过程 \(U_n(s) = \frac{1}{\hat{\sigma}\sqrt{n}}\sum_{t=1}^{\lfloor ns\rfloor}(Y_t - \bar{Y}_{1:n})\)。
2. 应用 FCLT 建立 asy. null distribution：证明在零假设下，\(U_n(s)\) 弱收敛于布朗桥 \(B(s)\)。这一步的关键是证明 FCLT 对依赖或不依赖的数据和特定的标准化方式（减去均值 \(\bar{Y}_{1:n}\)）仍然成立。过程涉及对弱依赖序列进行 \(\phi\)-mixing 或有界线性过程的条件，以及如何通过 Skorokhod 表示或 continuous mapping theorem 将统计量的泛函转换为布朗桥的泛函。
3. 推导临界值：基于上一步，检验统计量 \(Q_n = \max_{1\le k\le n} |U_n(k/n)| \) 收敛于 \(\max_{0\le s\le 1} |B(s)|\)。后者分布已知，因此可以计算渐近的 \(\alpha\)-分位数 \(c_\alpha\)。
4. 分析检测延迟：对于备择假设，构造另一个部分和过程（如 \(V_n(s)\)），证明其漂移项会使其以“概率 1”在有限时间内超过 \(c_\alpha\)。分析其超过临界值的第一时刻的期望或高阶矩，得到检测延迟的界。这常用不等式技巧（如指数鞅不等式、大偏差界）。
关键跳跃点：在弱依赖序列下，将 CUSUM 统计量的极限分布从布朗桥推广到 Ornstein-Uhlenbeck 过程等其他高斯过程，这种推广必须应对序列相关性导致的过程协方差不再是简单的 \( \min(s,t) - st \)。作者提到，此时需要先估计长期方差并调整统计量，证明其极限是标准化的布朗过程（而非有偏的）。
技术技巧点名：
- FCLT：用于导出渐近零分布，是整个框架的核心。
- 连续映射定理（Continuous Mapping Theorem）：用于将部分和过程的弱收敛转化为其泛函（例如最大绝对值和）的弱收敛。
- 鞅差序列（MDS）理论：在证明弱依赖序列的 FCLT 时，常使用鞅差分解（如把线性过程表示为鞅差的和）。
- Newey-West 或 HAC 估计器：用于一致估计长期方差 \(\sigma^2\)，以去除序列相关的影响。
- 大偏差 / 鞅指数不等式：用于推导检测延迟的上界（例如证明变点发生后，统计量大概率在相当短的延迟内超过临界值）。
真实例子与应用：

本文为综述 / 无实证例子。 （严格说，它是一篇纯理论和方法综述，没有进行任何新的模拟或应用分析。它用简单位置模型作为阐述例子，但这属于教学性例子，而非实证。）

🔎 结论是否比证明窄：

本文是综述，结论是大范围的总结，而非狭窄的定理。但有一个隐晦的点值得关注：文章中声称非参数序贯检验在弱依赖时间序列下 “同样有效”。但事实上，证明中通常假设长期方差在变点后不发散且可由一致估计器捕捉。实际应用中，变点可能伴随方差变化或结构断点，这可能导致估计的长期方差在变点区间失效。文章引用了许多关于“在结构变化下渐近理论仍成立”的工作，但并未提供一个“无差错的覆盖”。这并非一个严重的漏洞，而是对非线性/非平稳设定的处理仍然是一个开放研究区域。

四、开放问题（点到为止，扎根具体语句）¶

多重变点或变化路径的在线检测：本文主要处理单个、骤然的均值变点。对于多个变点或缓慢变化（change in trend 或 smooth change），其 FCLT 框架和基于布朗桥的检验的渐近性质如何？扎根：文章 brief 提及 “...multiple changepoints...are largely outside the scope of this review, but see (citation) for recent developments”。 – 这是一个公认的 gap。
高维数据的序贯变点检测：当观测 \(Y_t\) 的维度 \(p > n\) \(p \to \infty\) 时，经典的 CUSUM 的渐近分布（布朗桥）不再适用，因为长期方差矩阵的谱分解涉及 \(p \times p\) 矩阵的估计和逆，这在高维下是困难的。扎根：文章完全未涉及高维场景，注意力集中在时间序列的低维回归或一维均值变化中。这是一个至少在本文 scope 外、但肯定值得统计社区关注的大问题。
Type-1 error 控制与计算效率的 trade-off：在线监测要求每个新点到来后迅速更新统计量并判断。对于复杂模型（如长记忆 ARFIMA、包含时变协方差的 GARCH），每次更新可能需要重新估计长期方差，计算开销如何？是否有近似更新技巧（如递归更新 HAC 估计器）能保持渐近性质？扎根：文章强调统计量的“sequential”性质，但对计算复杂度几乎无讨论；阅读中你会注意到，许多理论推导假设了已知或可用全部历史数据更新估计量，这可能是实际计算瓶颈。
变点检测后推断的量化困难：当变点被警觉并定位后，如何对变点位置 \(\tau\) 进行置信区间或假设检验（而不只是检测有无）？在在线框架下，因为数据是在警报发生后立即进行检测，这会带来选择性偏差（selection bias），且依赖 CUSUM 的门槛。扎根：文章末尾的 “Discussion” 部分有“The problem of post-detection inference, such as constructing confidence intervals for \(\tau\), remains largely a Bayesian or large-sample frequentist challenge, and is not treated here”。这是一个高信号 open problem。

提醒：要确认这四点中哪些是真 gap、哪些已由近期工作填补，建议去读同子领域近 5 年的约 5 篇 intro（例如 Aue & Horváth 2013 之后的综述如 Aue & Kirch 等）。若大多数都指向同一问题（如高维），则是真 gap；若有互相矛盾的解决思路，则是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub