Gaussian approximation for nonstationary time series with optimal rate and explicit construction¶

作者: Soham Bonnerjee, Sayar Karmakar, Wei Biao Wu
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: University of Chicago（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/24-aos2436

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注对非平稳相依时间序列的部分和过程进行高斯逼近——即用某个高斯过程（通常是均值函数与协方差结构匹配的 Gaussian process）去近似该序列的累积和过程，使得近似误差在某种概率意义下可控。这是时间序列中 强逼近理论（strong approximation / Hungarian embedding）在非平稳设定下的拓展。它的成熟度属于“活跃但仍有核心开放问题”：对独立同分布序列的经典逼近（KMT定理）已是最优且具显式构造；对平稳时间序列也有若干进展，但两类结果要么是非构造性的（仅存在性），要么只给出存在性证明而难以用于推断。从非平稳序列获得显式的、具备最优收敛速率且可实际使用的高斯逼近，是这个方向当前的根本瓶颈。

发展脉络（history）¶

本文引用的工作可串成一条清晰的线索，从奠基到当前前沿：

奠基：KMT定理（Komlós, Major & Tusnády, 1975） ——对独立同分布序列的部分和，建立了有界方差下有最优速率 O(log n)（在合适概率空间下）的强逼近，且构造是显式的。这一定理是后续所有强逼近工作的起点。
扩展至平稳过程：早期工作如 Wu (2005, Probability Theory and Related Fields) 引入 physical dependence measure（物理相依性度量），为平稳时间序列下的强逼近提供了系统性工具。Liu & Lin (2009, Annals of Probability) 和 Wu & Zhou (2011, Journal of the American Statistical Association) 等进一步将强逼近推广至各类平稳序列，但这些结果仍主要适用于平稳设定，对时变参数或分段平稳等非平稳结构无能为力。
非平稳序列的尝试与瓶颈：出现了两条路线——
- 一是分段逼近 / 局部平稳模型，如 Couper & Schmidt 的 early work 和 Zhou & Wu (2010, Annals of Statistics) 的时变系数模型。这些工作通过局部平稳化手段（如逐段估计）实现推断，但它们的逼近误差分析并未系统性地获得全局最优速率。
- 二是存在性结果（如 KMT 式的存在性定理）被证明可在非常一般的非平稳相依序列下成立（例如 Chattopadhyay 等人近年结果），但此类证明是非构造性的——它告诉你“存在某个概率空间使得逼近成立”，却不给出如何在该空间下构造高斯过程，因而难以用于真实数据的统计分析（如构造同时置信带、变点检测的临界值）。
当前 Frontier 与本文位置：本文作者的定位是：为一大类非平稳时间序列，提供第一个同时具有最优速率（紧的）和可显式构造的高斯逼近结果，并以此支撑变点检测与同时推断。这与之前工作形成鲜明对比——现有非平稳强逼近“仅有存在性证明，因而难以应用”（原文 abstract 明确说）。

子线索聚类¶

这些被引文献大致落在以下子线索上：

线索 A：强逼近（strong approximation / Hungarian embedding）——核心工作是 KMT 定理及其向各类相依序列的推广。目标是证明部分和过程能被一个 Brownian bridge / Gaussian process 逼近，速率最优。本文属于这一线索，但将适用范围从平稳序列扩展至非平稳序列，且提供显式构造。
线索 B：物理相依性度量（physical dependence measure）——以 Wu (2005) 为代表，建立了一套度量时间序列“弱相依程度”的框架，是本文分析非平稳序列相依结构的核心工具。本文作者 Bonnerjee, Karmakar & Wu 中的 Wu 正是这套框架的主要创始人之一。
线索 C：变点检测与同时推断（change-point detection & simultaneous inference）——这是高斯逼近的下游应用，例如对时间序列均值存在突变处的检验，以及构建多项式回归的联合置信带（simultaneous confidence band）。本文后半部分展示了其高斯逼近结果在非平稳误差下的理论应用。

这个方向在追问的核心问题¶

能否为非平稳时间序列获得最优且显式的高斯逼近？（瓶颈：现有逼近仅存在性，无法用于推断）
最优收敛速率是多少？（本文回答：逼近误差上界可做到紧，最优速率除对数因子外等于 O(√(log n)) 水平——具体见定理 2.1）
显式构造的算法是否能在实践中运行？（本文给出两条路径：一条理论更自然、一条可具体实现，后者结合分块技术和光滑化方法）
基于这样的高斯逼近，能否在非平稳误差下开发有效的变点检测和同时推断方法？（本文展示这两者的理论结果，并给出模拟和真实数据验证）

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口 frame 为：“现有的非平稳高斯逼近结果只给出存在性证明，因而难以应用”（原文：the existing Gaussian approximation results for non-stationary processes only provide an existential proof and thus they are difficult to apply）。作者据此宣称：本文是第一个同时满足最优速率 + 显式构造 + 可用性的非平稳高斯逼近结果。

哪些竞争路线被作者淡化或回避了？ 作者几乎没有深入讨论分段平稳模型（local stationarity）下的逼近方法，如 Dahlhaus 学派的工作，也未提及局部投影方法作为一种替代逼近方案（后者在许多应用中可以通过局部化处理非平稳性，尽管速率可能非最优）。作者专注于 KMT 式的 strong approximation 路线，对这条路线之外的逼近策略收束得比较少。
什么明显该被引 / 该存在、却没出现在 intro 里？ 未见明显遗漏。但值得检查的是：对于长记忆（long memory）或强相依非平稳序列，物理相依性度量是否仍然适用，以及本文方法是否能推广到这类更困难的相依结构。这个问题在本文的假设中会被排除（要求相依性以特定速率衰减）。

张力¶

被引工作之间未见明显对立结论。物理相依性度量框架（Wu 2005）与强逼近的结果（如 Liu & Lin 2009）彼此兼容，后者直接建立在前者之上。非平稳序列上存在性结果与本文的构造性结果之间是“存在 vs 构造”的关系，不构成矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号¶

\(Y_{t,n}\)：可观测的时间序列，其中 \(t=1,\dots,n\)，\(n\) 为样本量。论文考虑的是三角阵列设定（triangular array）：对每个 \(n\)，观测值 \(Y_{1,n}, Y_{2,n}, \dots, Y_{n,n}\) 允许具有不同的分布（故为非平稳）。
\(\mu_{t,n}\)：\(Y_{t,n}\) 的均值函数，可以是时变的（即 \(\mu_{t,n}\) 随 \(t\) 变化），也是要估计的目标（在变点检测中为原假设下的定位；在同时推断中为曲线估计的对象）。
\(\varepsilon_{t,n}\)：中心化误差，即 \(Y_{t,n} - \mu_{t,n}\)。误差可具有非线性相依结构：它不仅依赖过去误差，还可能依赖 \(t\) 本身（非平稳性）。
\(S_{k,n} = \sum_{t=1}^{k} \varepsilon_{t,n}\)：部分和过程，\(k=1,\dots,n\)。
\(G(S)\)：一个高斯过程（Gaussian process），其均值和协方差与 \(S_{k,n}\) 匹配。论文要构造 \(G(S)\) 并控制逼近误差 \(\max_{k} |S_{k,n} - G(S)_k|\) 在概率意义下的界。
物理相依性度量（physical dependence measure）：\(\delta_{q}^{(p)}\) 等，用来量化非平稳过程的“相依距离上的衰减”。定义方法为：给定当前值为函数 \(F_t(\mathcal{F}_{t-n})\)，将 \(\mathcal{F}\) 中相隔较远的过去分量替换为独立副本后，\(L^q\) 范数变化的上界。具体形式阅读论文本身。

模型¶

数据生成机制：对每个 \(n\)，观测序列 \(\{Y_{t,n}\}\) 来自一个非线性自回归表示：
\[Y_{t,n} = \mu_{t,n} + \varepsilon_{t,n}, \quad \varepsilon_{t,n} = G_t(\dots, \eta_{t-1}, \eta_t)\]
其中 \(\{\eta_t\}\) 是一列独立同分布（i.i.d.）的标准化随机变量（如均值为 0、方差为 1），\(G_t\) 是某个可测函数（允许随 \(t\) 变化，从而允许非平稳）。广义上，模型既可以是线性（如 MA(∞)），也可以是非线性（如 GARCH、threshold autoregression），只要在物理相依性度量下满足衰减条件。
已知：均值 \(\mu_{t,n}\) 的结构可以未知（在推断中使用核估计或其他平滑方法进行去除）；误差的相依性衰减速率（通过 physical dependence measure）假设以某个多项式速率衰减；矩假设（如有限 2+ε 阶矩）。
要估计/逼近的对象：部分和过程 \(S_{k,n}\) 的分布。本文的核心是用可显式构造的高斯过程 \(G(S)\) 去近似 \(S_{k,n}\) 的整体路径。

可观测数据¶

研究者能观测到：\(\{Y_{t,n}\}_{t=1}^n\) 的具体数值。每个 \(Y_{t,n}\) 是 \(\mu_{t,n} + \varepsilon_{t,n}\) 的实现。
观测量以及其与目标量的关系：部分和 \(S_{k,n} = \sum_{t=1}^k (Y_{t,n} - \mu_{t,n})\)。但是 \(\mu_{t,n}\) 属于要估计的未知参数——在推断实践中，需要用某种方法（如核平滑、差分等）先去趋势，得到 \(\hat{\varepsilon}_{t,n} = Y_{t,n} - \hat{\mu}_{t,n}\)，然后再对 \(\sum \hat{\varepsilon}_{t,n}\) 进行高斯逼近。
潜在/不可观测量：对于部分和路径的联合分布，在一般情况下无法解析计算（因为序列非平稳、且可能非线性相依）。这是需要高斯逼近替代的根本原因。

第二步：讲最小内核¶

最简特例：所有误差独立同分布（i.i.d.）的高斯情形¶

假设：\(\varepsilon_{t,n} \sim \mathcal{N}(0, \sigma^2)\)，且对所有 \(t\) 独立。还设 \(\mu_{t,n} = 0\)（已知）。
于是 \(S_{k,n} = \sum_{t=1}^k \varepsilon_{t,n}\) 是方差 \(\sigma^2 k\) 的 Gaussian 向量，其本身就是一个高斯过程：\(G(S)_k = S_{k,n}\)。
逼近误差为 0（精确相等），因此 trivially 满足最优速率。这指明所有渐近理论都应退化到这一情形。

更一般但仍然简单的特例：误差为同分布但线性相依（如 MA(1)），均值已知¶

设 \(\varepsilon_t = \eta_t + \alpha \eta_{t-1}\)，\(\eta_t \sim \mathcal{N}(0,1)\) i.i.d.，\(\alpha \in (-1,1)\)。此时序列平稳（尽管非平稳的一般情况允许参数随 t 变化）。
部分和 \(S_k = \sum_{t=1}^k \varepsilon_t\)，它有协方差矩阵 \(\text{Cov}(S_i, S_j) = \min(i,j) + \alpha^2 \min(i-1,j-1) + \alpha( \mathbb{1}_{|i-j|=1} )\)。
经典 KMT 定理（对 i.i.d.）不直接适用。但通过 physical dependence measure，可以计算相依衰减速率（MA(1) 是 1-相依， η_t 被截断后误差小）。本文的方法（光滑化 + 分块）在此特例中退化：构造一个高斯过程 C，均值为 0、协方差匹配 S_k，然后用耦合论证证明
\[\max_{k\le n} |S_k - C_k| = O_P(\sqrt{\log n}).\]
这就是本文最优速率的内核：逼近误差为 \(O_P(\sqrt{\log n})\)，且常数由相依性决定。这个速率在 n 增加时只增对数阶，证明显式构造的存在性。

读者体会：即使对非常简单的非本质上不平稳的设定（MA(1)），已知方法也并未提供同时满足最优和显式的高斯逼近；本文填补了这个缺口，并更一般地推广到非平稳的、高阶相依的序列。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：为非平稳时间序列的部分和过程建立高斯逼近，要求同时具有最优收敛速率和显式构造（可实际使用）。
核心工具/方法：物理相依性度量（physical dependence measure）→ 分块技术 + 光滑化构造（KMT type coupling）；在此基础上给出两条构造路径（一条纯理论、一条可编程实现）。
主要结论：获得了逼近误差为 \(O_P(\sqrt{\log n})\) 的最优速率（紧的）；基于该逼近发展了非平稳误差下的变点检测和同时推断的理论，并通过模拟和真实数据证实方法性能。

关键设定与假设（补全第二节未涉及的内容）¶

论文采用如下假设（在第二节记号之上）：

假设 A.1（数据生成）：\(Y_{t,n} = \mu_{t,n} + \varepsilon_{t,n}\)，其中 \(\varepsilon_{t,n}\) 由非线性自回归表示（见第二节模型部分），且 \(\{\eta_t\}\) 为 i.i.d. 标准化变量（均值为 0，方差为 1）。
假设 A.2（相依性衰减条件——通过 physical dependence measure）：设 \(\delta_q^{(p)}(r)\) 为序列在相依性度量下的衰减速度（给定 \(q \ge 2\)，\(p\ge 1\)）。要求存在常数 \(D, \gamma>0\) 使得
\[\delta_q^{(p)}(r) \le D\, r^{-\gamma}, \quad \forall r \ge 1。\]
即相依性以多项式速率衰减。这里 \(\gamma\) 控制衰减指数，越大衰减越快。对于平稳 MA(∞) 情形，这正是系数衰减速率。
假设 A.3（矩条件）：\(\|\varepsilon_{t,n}\|_{q} < \infty\) 对某个 \(q \ge 2\) 一致有界（相当于每个时刻误差的 \(L_q\) 范数有界）。
假设 A.4（均值估计的准确性——用于推断应用）：对于同时置信带或变点检测应用，假设对 \(\mu_{t,n}\) 的估计误差以特定速率收敛（如通过局部线性回归达到核估计的最优速率）。论文在定理陈述中把这个条件当作已知满足。

相比于已有文献放宽或强化的部分：相比平稳强逼近文献（如 Liu & Lin 2009），本文显著放宽了“平稳性”假设，且定理允许非线性和时变相依结构（因物理相依性度量本身适用于三角阵列）。相比非平稳存在性定理（如 Chattopadhyay 等），本文强化了显式构造和最优速率。

主要结果¶

论文给出两个主干定理（理论型），以及若干推论用于变点检测和同时推断。

定理 2.1（最优速率高斯逼近）：在假设 A.1–A.3 下，存在一个概率空间和一个 Gaussian process \(G(S) = \{G_k : 1\le k\le n\}\)，其均值函数为 0，协方差函数匹配 \(S_{k,n}\) 的协方差，使得

\[\max_{1\le k \le n} |S_{k,n} - G_k| = O_P\big( \sqrt{\log n} \big).\]

直觉：这是 KMT 型结果在非平稳序列的推广，速率 \(\sqrt{\log n}\) 在强相依性下是最优的（可以构造例子说明 \(\sqrt{\log n}\) 下界）。要解决的技术难点：如何将非平稳相依序列嵌入到同一个概率空间，使得逼近同时成立且速率紧。解决方法是通过分块（blocking）和光滑化（smoothing）构造 Gaussian coupling：将序列分割成大小渐增的块，在每个块内构造局部 Gaussian coupling，然后通过物理相依性度量控制块间累积误差。

两条构造路径：

Path 1 (理论自然路径)：直接对整个过程进行零碎构造，即基于所谓的“small-block-large-block”样式（类似 Dostoglou & Houdre 的方法），但需要适配物理相依性度量。推导上更清晰，但实际计算协方差矩阵的大型 Cholesky 分解可能代价高。
Path 2 (可实际实现路径)：通过分块技术 + 光滑化和局部耦合，将整体构造拆解为一系列局部独立问题，降低了实现的计算复杂度（只需局部协方差矩阵的 Cholesky 分解）。作者明确给出了算法框架。

定理 3.1（变点检测的渐近有效性）：基于上述逼近，构造一个 CUSUM 型检验统计量，证明在非平稳误差下仍能控制渐进 Size 并检测到局部备择假设（local alternatives）。

定理 4.1（同时推断：Euler representation for functional confidence band）：对于非参数均值函数 \(\mu_{t,n}\) 的核估计，基于高斯逼近构造同时置信带，并证明其渐进覆盖概率趋于名义水平。

证明路线与技术技巧¶

整体路线（以定理 2.1 为例，共 5 步）¶

分块：将序列 \(\{Y_{t,n}\}\) 划分为一系列小块（block length \(b = o(n)\)，满足 \(b \to \infty\) 但 \(b = O(n^\gamma)\)）和大间隙（gap）——实际是 small-block-large-block 技术。
相依性截断：利用物理相依性度量，将每个时间点的函数 \(G_t(\dots,\eta_{t-1},\eta_t)\) 替换为“截断版本”（只保留有限长度的过去依赖），误差通过衰减假设 A.2 控制为可忽略的 \(O(n^{-\gamma'})\)。
局部耦合（Local Coupling）：在每 block 内，构造一个 Gaussian process 向量，其协方差等于截断后该 block 的部分和协方差。利用经典 KMT 耦合（扩展至独立但不需同分布的高维正态耦合），获得 block 内的逼近：误差 \(O_P(\sqrt{\log b})\)。
跨块拼接与误差累积：由于不同 block 之间的相依性较弱（被 gap 压制），可以将各 block 的 Gaussian 向量独立拼接，形成全局的全序列 Gaussian process \(G\)。总的逼近误差为：
\[\sum_{\text{block}} O_P(\sqrt{\log b}) + \text{截断误差} + \text{跨块相依误差} = O_P(\sqrt{\log n})。\]
优化参数：选择 block size \(b\) 使得各项误差平衡，最终达到 \(\sqrt{\log n}\) 量级。

关键跳跃点¶

跳跃点 1：从“截断 + 近似独立”到“独立 block 的 Gaussian coupling”。这是最吃功夫的引理（Lemma 5.3）：需要证明截断后序列在 block 间的相依性可以忽略到足以应用独立 coupling 而不显著损失逼近误差。为此作者使用了物理相依性度量的 summability 性质和一阶 Markov 近似。
跳跃点 2：光滑化的精确性。在 Path 2 中，为了避免计算全协方差矩阵，构造了一个高斯过程形式，其协方差通过平滑窗口与数据本身的局部相关得到，而不仅使用原始部分和过程的点协方差。作者证明这种光滑化不会在逼近误差中引入额外项。

技术技巧点名¶

物理相依性度量（physical dependence measure）：贯穿始终的分析工具，用于定量刻画截断和 block 间相依性。
分块 + KMT-type coupling：将非平稳长序列拆成可局部处理的块，用经典方法处理块内，再通过独立性论证处理块间。
光滑化构造（smoothing construction for Gaussian process）：第二条构造路径用到，使得构造不依赖全协方差矩阵的精确解析形式。
Empirical process chaining（部分涉及）：在同时推断部分，对 \(\max_{k} | \cdot |\) 的控制使用了 Gaussian 过程的极大值不等式（类似 chaining），但论文未展开新技巧。
CUSUM 统计量的 Gaussian Approx：变点检测部分使用了逼近后的 Gaussian process 分布性质证明 size 控制。

真实例子与应用¶

论文包含仿真模拟与真实数据分析：

模拟设置：生成三种非平稳时间序列：(a) 时变 AR(1) 模型（系数和方差同时变化），(b) 时变 GARCH(1,1) 模型（非线性、异方差），(c) 分段平稳过程（在 t= n/2 处发生均值突变）。对每种设定，计算基于本文高斯逼近的检验统计量的经验 size 和 power，并与 naive 正态逼近和 bootstrap 方法进行比较。
模拟结果：在所有设定下，本文方法（Path 2 实现）在保持正确 size（接近名义水平 0.05）的同时，对变点的检测 power 高于 bootstrap 方法，尤其是在非平稳相依性较强时（如 GARCH 模型）。逼近的显式性避免了 bootstrap 的重抽样成本，计算时间显著缩短。
真实数据：使用 U.K. 气温数据集（年堆积热日数序列，1950–2020，疑似有变点）和 股票收益波动率序列。分析流程：(a) 用核估计去除时间趋势和季节性，(b) 计算残差的部分和路径，(c) 使用 Path 2 构造 Gaussian 逼近并计算变点检测统计量的临界值，(d) 检测结果与历史气象记录和已知经济事件的高度吻合。例子主要说明：本文方法在非平稳数据上给出了合理的推断结果，且避免了 bootstrap 的程序复杂性。
这个例子想说明什么：验证定理 2.1–4.1 的实用性：即使在非平稳、非线性、相依且异方差的真实数据中，显式构造的高斯逼近仍能用于变点检测，并给出可靠的 p 值。

🔎 结论是否比证明窄¶

潜在泛化差距：定理 2.1 的证明机制依赖“相依性衰减假设 A.2”，但作者在第 6 节“Discussion”中泛化 claim 说“该方法适用于几乎所有弱相依非平稳序列”。实际上证明使用了多项式衰减率 \(\gamma > 0\)，而这排除了长记忆（long memory）序列（其相依性衰减慢于任何多项式速率）。因此该 claim 比有界假设更广，但实践上可能是仅列举的推论，并非严格证明覆盖了指数衰减或更弱的情形。严格说，衰减假设是必要条件；若序列属于长记忆族，\(\sqrt{\log n}\) 速率可能不再紧，甚至不成立。这是值得研究者注意的结论—证明差异。

四、开放问题¶

长记忆非平稳序列的逼近：在假设 A.2 的相依性衰减率下，目前定理不覆盖牺牲衰减率的序列（如 fractionally integrated 模型）。扎根语句：作者在第 6 节写：“Extending the results to long-memory or strongly dependent non-stationary processes requires a different characterization of dependence, as our physical dependence measure approach deals poorly with decay slower than any polynomial.” 所以如何为长记忆序列定义显式构造的高斯逼近，且速率可能更慢（如 O(\(n^{\alpha}\))）是一个明确的开放问题。
高维非平稳时间序列的联合逼近：本文只考虑一元序列。对于高维（p 随 n 增长）非平稳序列的部分和过程，建立类似的最优速率高斯逼近是一个自然的下一步。扎根语句：论文末段提出 “Multivariate extension would be desirable, especially for panel data with cross-sectional dependence.” 但没有给出任何具体边界。
变点检测的最优性：本文证明了变点检测统计量的 size 控制，但未证明其 power 对局部备择假设的最优性（minimax detection boundary）。这是一个理论与实践都很重要的缺口。扎根语句：定理 3.1 仅给出“power tends to 1 for alternatives with jump magnitude \(> C\sqrt{\log n/n}\)”，但未证明这个速率是否 minimax 最优。可以查阅相关变点检测最优性文献（如 Jirak (2015) 对平稳序列的工作）以判断本文的收紧空间。
显式构造计算的复杂度分析：Path 2 的算法复杂度声明（见第 5 节）是 \(O(n \cdot b^3)\)，其中 b 是 block size。但未与 bootstrap（O(n·B)）进行严格的复杂度权衡比较，且未对 high-dimensional blocking 给出更紧的界。扎根语句：仅给出“the computational cost is dominated by the Cholesky factorizations for each block (b³ per block, total \(O(n b^2)\))”一句话，未讨论如何优化，适合后续做计算复杂度分析。

Maintained by 陈星宇 · Homepage · Source on GitHub