Testing for time‐varying nonlinear dependence structures: Regime‐switching and local Gaussian correlation¶

作者: Kristian Gundersen, Timothée Bacri, Jan Bulla, Sondre Hølleland, Antonello Maruotti et al.
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1111/sjos.12744

一、领域脉络与小综述¶

这个方向是什么¶

本论文处理的根本问题是：在时间序列中，两个变量之间的依赖结构（dependence structure）是否随时间或状态而显著变化？ 具体来说，当时间序列存在体制切换（regime-switching）时，不同体制下的非线性依赖结构是否相等？这是一个 假设检验 问题，其核心统计困难在于：(i) 依赖结构是非线性的，不能用简单的相关系数刻画；(ii) 依赖结构本身随时间或状态变化；(iii) 检验必须在“不指定依赖结构参数形式”的条件下进行（半参数/非参数）。当前该方向的成熟度属于 方法型、实证驱动：有大量基于 copula 的方法，但 LGC 的半参数路径相对较新。

发展脉络¶

从 intro 所引文献及作者定位看，这条脉络大致如下：

奠基工作：基于 copula 的体制切换依赖建模 —— 早期的核心工作是 Jondeau & Rockinger (2006) / da Silva Filho et al. (2012)，他们用混合 copula 并结合 regime-switching 模型来刻画依赖结构的非线性与状态变化。这些方法非常成熟，但局限是：(i) 必须指定 copula 的函数形式（如 Gaussian / Clayton / t-copula）；(ii) 在 copula 之间比较依赖结构是否相等，缺乏直接的检验工具，更偏向模型选择而非假设检验。
主要进展：引入局部高斯相关 (LGC) 作为非参数依赖度量 —— Tjøstheim & Hufthammer (2013) 和 Berentsen et al. (2014) 提出了 LGC，它是一个 局部化的相关系数：在给定点 \((x,y)\) 处，用局部高斯似然拟合一个二元高斯分布，其中相关系数 \(\rho(x,y)\) 就是局部相关性度量。LGC 的优势是无需指定全局依赖形式，且是半参数的（只假设局部二元高斯，全局依赖结构可以是任意的）。但初始应用主要集中在 同一时间序列内局部相关性随位置变化的分析，而不是跨状态的检验。
当前 frontier：从描述到检验 —— 本文之前的 LGC 相关研究，如 Støve et al. (2014) / Hølleland & Tjøstheim (2017, 2019)，已经发展出了用 bootstrap 检验同一 LGC 曲线是否在不同子样本（如熊市与牛市）中相等的工具，并且用非参数 bootstrap 近似了 LGC 估计的分布。但是，这些检验都是针对已知划分的子样本（例如按收益率正负划分），而不是在 体制切换模型估计出的隐状态 上做检验。本文将这两个世界结合：先用 regime-switching 模型估计出状态序列，再用 LGC 检验不同状态的依赖结构是否相等。用原文的话，“We propose an LGC‐based bootstrap test for examining whether the dependence structure between two variables is equal across different regimes.”

子线索聚类¶

从被引文献看，这些工作大致落入三条子线索：

子线索	核心设定	代表文献	当前状态
A. Copula-based regime-switching 依赖建模	依赖结构由 copula 函数 + 马尔可夫转换刻画；通常采用 MLE 估计	Jondeau & Rockinger (2006), da Silva Filho et al. (2012)	成熟，但依赖 copula 参数形式，且不太容易做直接的相等性检验
B. 局部高斯相关 (LGC) 理论与应用	用局部似然估计局部相关系数 \(\rho(x,y)\)，作为非线性依赖的非参数度量	Tjøstheim & Hufthammer (2013), Berentsen et al. (2014)	快速发展，但主要是在描述与预测，检验场景多在已知分组
C. LGC-based 假设检验	用 bootstrap 检验 LGC 曲线在不同条件下是否相等，已知分组或需估计分组	Støve et al. (2014), Hølleland & Tjøstheim (2017, 2019)	进展中，本文是首次把 C 与 A 结合：检验由 regime-switching 模型隐状态分组的依赖相等性

核心问题与当前瓶颈¶

核心问题 1（建模层面）：如何在不指定依赖结构参数形式的前提下，度量并比较不同状态下两个序列的依赖关系？
核心问题 2（推断层面）：如何构造一个有效的统计检验，判断不同状态的依赖结构是否相等——同时必须处理“状态序列是由模型估计出来”这一额外不确定性？
核心问题 3（假设层面）：检验的渐近性质（水平一致性、功效）在什么条件下成立？bootstrap 一致性需要哪些正则条件？
已知瓶颈：基于 copula 的方法需要指定 copula，misspecification 会导致推断偏差；而 LGC 的 bootstrap 检验虽然半参数化，但其 bootstrap 一致性的严格理论证明几乎完全未发展（本文明确承认，intro 中未出现任何 bootstrap 一致性的定理或参考文献）。也就是说，现有方法的理论保证停留在模拟层面。

⚠️ 作者的 framing¶

这是作者的 framing：“Our LGC-based approach is more intuitive than competing approaches, typically combining regime-switching models with copula theory.” 他们把自己包装成一个“更直观、半参数、无需指定 copula 家族”的路线，优势在于避免了 copula 选择的麻烦。注意：这个“更直观”是主观判断，不是量化结论。
作者淡化的竞争路线：(i) 他们没有与任何一条 copula-based regime-switching 检验直接做模拟比较（例如 Jondeau & Rockinger 2006 的似然比检验）；(ii) 他们也不处理 copula 方法在 misspecification 下的偏差，只是声称自己的半参数方法能自动避免。
什么明显该被引 / 该存在、却没出现在 intro 里？：
1. 非参数依赖的变点检测（change-point detection for dependence）：这是一个巨大的文献，例如使用 rank-based 相关系数、最大信息系数等检验依赖结构在时间轴上的变点。本文依赖的“状态”来自 regime-switching 模型，但 变点检测文献中也有很多不依赖模型的方法，例如用滚动窗口估计 LGC 再做 bootstrap 检验——这个方法在本 intro 中被完全忽略。
2. 局部高斯相关的理论权重：LGC 的渐近方差、收敛速度已有部分结果（Berentsen et al. 2014 中有理论），但作者在 intro 中只字未提这些理论基础在自己检验中的角色——这导致本文的 bootstrap 检验在理论层面几乎是空壳（没有分布收敛速度、没有 Edgeworth 展开、没有 bootstrap 校正的阶）。
值得研究者去查的问题：检查一下 LGC 文献中是否已有 bootstrap 一致性的正规证明——若有，作者省略不引是可疑的；若没有，那本文的理论弱点是合理的，且是研究者可攻克的开放问题。

张力¶

未见明显对立引用。copula 派与 LGC 派之间最多是方法偏爱，没有相互矛盾的定理声称。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号 - \((X_t, Y_t) \in \mathbb{R}^2\) ：第 \(t\) 个时间点的观测值（两个随机变量），\(t=1,\dots,T\)。 - 状态（regime） \(S_t \in \{1,2,\dots,K\}\) ：第 \(t\) 个时间点所属的体制，状态序列 \(\{S_t\}\) 服从一阶马尔可夫链，不可观测。 - 转移概率矩阵 \(\mathbf{P} = (p_{ij})_{K\times K}\)，\(p_{ij} = P(S_{t+1}=j \mid S_t=i)\)。 - 局部高斯相关 (LGC) \(\rho_{ij}(u_1,u_2)\)：在状态 \(i\) 下，给定 \((X_t,Y_t) \approx (u_1,u_2)\) 的局部相关系数。严格定义：在点 \((u_1,u_2)\) 附近，用一个二元高斯分布局部拟合 \((X_t,Y_t)\) 的联合分布，其相关系数就是 \(\rho_{ij}(u_1,u_2)\)。对于不同的状态 \(i\) 和 \(j\)，我们想检验：

\[H_0: \rho_{i}(u_1,u_2) = \rho_{j}(u_1,u_2) \quad \text{对所有 } (u_1,u_2) \in \mathbb{R}^2.\]

- \(\widehat{\rho}_i(u_1,u_2)\)：基于状态 \(i\) 中样本的 LGC 估计。 - 检验统计量 \(D\)：根据 \(\widehat{\rho}_i\) 与 \(\widehat{\rho}_j\) 的差异构造的度量（见原文式 4-6，本文用的是加权平方差积分）。

模型 - 数据生成过程：\(\{(X_t, Y_t, S_t)\}_{t=1}^T\)，其中 \(\{S_t\}\) 是隐马尔可夫链，给定 \(S_t\) 后 \((X_t, Y_t)\) 的联合分布由 状态特定的依赖结构 决定，但该结构可以是任意的（只需要局部能用高斯近似）。 - 除了状态转移概率 \(\mathbf{P}\) 和状态依赖结构外，模型是非参数的：没有假设 \((X_t,Y_t)\) 是某个 copula 族或某种参数分布。 - 本文的工作流分为两步：(i) 用 regime-switching 模型（通常隐马尔可夫模型，使用 EM 算法）估计出后验状态概率 \(\widehat{S}_t^{prob}\)，或者硬分类（Viterbi 算法）得到一个最可能的状态序列 \(\widehat{S}_t^{hard}\)；(ii) 根据估计出的状态把数据分成 \(K\) 组，每组内计算 LGC \(\widehat{\rho}_k(u_1,u_2)\)，然后做检验。

可观测数据 - 实际能观测到：\(\{(X_t, Y_t)\}_{t=1}^T\) ——时间序列中两个变量的观测值。 - 不可观测（潜在）： - 真实状态 \(S_t\)； - 状态特定的依赖结构 \(\rho_k\)； - 检验统计量 \(D\) 在 \(H_0\) 下的真实分布。 - 待估对象：检验统计量 \(D\) 在 \(H_0\) 下的分布——用 bootstrap 近似。 - 关键：状态序列是从观测数据用模型估计出来的，\(\{ \widehat{S}_t \}\) 不是真正的 \(\{S_t\}\)，因此分组带有误差。这个误差在 bootstrap 过程中必须被复制（否则检验会太乐观），这就是为什么本文用 parametric bootstrap 重新生成观测数据后再重新估计状态序列。

第二步：最小内核 —— 简单特例¶

最简特例：假设只有 \(K=2\) 个状态（记为状态 1 和状态 2），状态转移概率已知（极简：状态 1 永远不转移到状态 2 除非有特殊信号）。数据只来自两个分开的时间段（状态 1: \(t=1,\dots,T_1\)；状态 2: \(t=T_1+1,\dots,T\)），因此状态序列是先验已知的（不需估计）。这是作者在模拟中用到的最简单设定之一。

在这种特例下，问题退化为：检验两个独立子样本中的 LGC 曲线是否相等。

具体地： - 数据的生成：\((X_t,Y_t) \sim F_1\) 对 \(t \leq T_1\)，\((X_t,Y_t) \sim F_2\) 对 \(t > T_1\)，\(F_1\) 与 \(F_2\) 有任意不同的非线性依赖结构。 - 要检验的假设：\(H_0: \rho_1(u,v) = \rho_2(u,v)\) 对所有 \((u,v)\) 成立。 - 怎么做：对每个子样本计算 \(\widehat{\rho}_1\) 和 \(\widehat{\rho}_2\)，然后构造检验统计量 \(D = \int w(u,v)[\widehat{\rho}_1(u,v) - \widehat{\rho}_2(u,v)]^2 \, du\,dv\)，其中 \(w\) 是权重函数（本文使用基于核的权重）。 - 为什么能用 bootstrap：在 \(H_0\) 下，两组数据来自同一个依赖结构，因此可以把两组数据合并，重抽样构造 bootstrap 样本，再计算 bootstrap 版的 \(D\) 统计量。重复多次，就得到 \(D\) 在 \(H_0\) 下的分布近似，然后拒绝 \(H_0\) 如果观测到的 \(D\) 大于 bootstrap 分布的 \(95\%\) 分位数。

困难的核心：当状态序列不是先验已知，而必须由 regime-switching 模型（如隐马尔可夫模型）估计时，bootstrap 过程必须 模拟状态的马尔可夫链生成过程，并且重新估计状态。这相当于在 bootstrap 中嵌入模型再估计，计算量很大，且其理论性质（bootstrap 的一致性）依赖于模型的正态性假设和状态的可识别性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：检验一个 pair 时间序列中，由 regime-switching 模型估计出的不同状态下的非线性依赖结构是否相等。
核心工具/方法：结合 regime-switching 模型（隐马尔可夫模型） 与 局部高斯相关（LGC），提出一个两阶段检验程序：先估计状态序列，再用 parametric bootstrap 近似检验统计量在 \(H_0\) 下的分布。
主要结论：通过蒙特卡洛模拟，该检验在名义水平（5%）附近的拒绝率表现良好（接近 5%），且在几种备择设定下功效较高（>80%）。在真实数据上（美英股市、美股与国债收益率），检验成功地拒绝了相同依赖结构的假设，展示了依赖结构在熊市与牛市期间的不同。

关键设定与假设¶

在第二节最小记号基础上，补全完整设定：

Regime-switching 模型：假设 \(\{S_t\}\) 服从一阶隐马尔可夫链，且给定 \(S_t\)，\((X_t,Y_t)\) 的条件分布 \(F_{S_t}\) 属于 某个半参数族：\(F_k(\cdot,\cdot)\) 的 LGC \(\rho_k(u,v)\) 存在且光滑（但分布形式任意）。具体到模拟中，他们多数使用 二元 t-copula 加不同自由度或不同线性相关系数来生成状态依赖结构——但这个生成模型纯为模拟服务，不是方法的模型假设。
LGC 估计：核函数为高斯核，带宽用 横截性交叉验证 或固定（如 \(h=0.5\) 标准化后的数据）。假设每个状态内有足够多的观测（模拟中每个状态至少 250 个观测）。
Bootstrap 过程：Parametric bootstrap——先利用 regime-switching 模型拟合观测数据（EM 算法估计转移概率与状态特定分布参数），然后在 \(H_0\) 下（所有状态依赖结构相同），用这些参数重新生成许多 bootstrap 样本集，每个 bootstrap 样本都用 与真实数据相同的流程（regime-switching 估计 + 状态分配 + 检验）重新计算检验统计量 \(D\)，从而获得 \(D\) 在 \(H_0\) 下的分布。
关键假设：
状态可识别性：不同状态的依赖结构足够不同，以至于模型能一致地估计状态序列。
Regime-switching 模型对数据生成过程的正态性（或局部正态性）假设：EM 算法给出的是拟似然估计，若真实分布偏离多元正态，估计的状态序列可能有偏——这是实际中常被忽略的弱点。
Bootstrap 一致性：作者没有证明 bootstrap 在一般非参数条件下一致，只在模拟中验证了部分设定。理论保证仅对参数化的 regime-switching + 正态假设成立。

主要结果¶

本文几乎完全是 应用/方法型——没有定理，只靠模拟和实例验证。因此重点在模拟和实证。

关键模拟结果（表 1-4）： - 水平 (size)：在 \(H_0\) 下（两种不同状态有相同的依赖结构，例如相同的二元正态或相同的 t-copula），检验在名义水平 5% 时的拒绝率，多数设定下在 3%-8% 之间波动（binomial 置信区间）。表现合理，但并非完美（有些设定下 level 偏高（如 12%）或偏低（如 2%），尤其状态数目较多（\(K=3\)）且样本量较小（\(T=500\)）时。 - 功效 (power)：在备择下（依赖结构不同），功效在大部分设定下超过 80%，且随差异增大而单调上升。相比基于 copula 的竞争方法（如 AIC/BIC 模型选择、似然比检验），作者声称 LGC 方法更直观，但没有给出严格的 power 对比表格——只是文字描述。

真实例子： - 例子 1：美国 vs 英国股市（DJIA vs FTSE 100，1985-2019 日收益率）： - 用 regime-switching 模型（\(K=2\)）估计出两个状态：状态 1（低波动、高相关性）、状态 2（高波动、低相关性、有偏）。 - LGC 曲线显示：状态 1 的局部相关性在中等区间（\(-1\) 与 \(1\) 之间）高，状态 2 则在尾部（尤其极端负收益时）相关性高——这被解释为“危机期间的 contagion”。 - 检验拒绝了状态 1 与状态 2 依赖结构相同的假设（\(p<0.01\)）。 - 例子 2：美国股市 vs 国债市场（10 年期收益率）： - 同样用 \(K=2\)，发现状态 1 时股市与国债呈轻度正相关，状态 2 时呈强负相关——说明在股市危机时资金从股市流向债市。检验也拒绝了 \(H_0\)。 - 这些例子的目的：证明 LGC 检验能捕捉到不能用简单相关系数或 copula 模型直观展示的高维依赖形态（如尾部依赖的差异）。同时说明依赖结构在状态间不仅有幅度差异，更有形状差异（即非线性）。

🔎 结论是否比证明窄¶

是的，非常显著——结论明显比证明宽。

方法的“半参数性”只在特定条件下成立：虽然本文号称半参数（仅依赖局部高斯近似），但 bootstrap 过程中使用的回归模型（regime-switching）本质上是参数化的：EM 算法必须假设给定状态后 \((X_t,Y_t)\) 的联合分布属于某个参数族（如二元正态或二元 t 分布）。如果真实的依赖结构完全不能用参数族刻画，那么状态估计可能高度有偏，后续检验失效。作者在模拟中有时使用二元正态生成数据（那恰好满足参数假设），但从未检验过当参数假设严重错误时的稳健性。
没有给出渐近理论：检验的 level 和 power 只靠模拟验证，没有任何渐近分布或 bootstrap 一致性的陈述。作者只说“We examine this test in a Monte Carlo study, where it shows good level and power properties.” 但 从未 claim 检验是渐近有效的——这是一个在理论上有意义的口子。
bootstrap 的两种形式不同但没说清楚：文中使用的 parametric bootstrap（根据参数模型生成数据）与 nonparametric bootstrap（从原始样本重抽样）在理论上有本质差别。作者在同一次实验中有时混用二者（如用非参数 bootstrap 生成 LGC 估计的置信区间，而用参数 bootstrap 生成检验的 null 分布），但没有讨论在哪种情况下哪种 bootstrap 更合适。
对模型选择敏感性：检验的结果依赖于：(i) 状态数 \(K\) 的选择（作者用 BIC 选，但结果可能对 \(K\) 敏感），(ii) LGC 带宽的选择（固定为 \(h=0.5\) 模拟）。作者没有做敏感性分析。

证明路线与技术技巧（本节为纯方法/实证论文——无定理证明）¶

本文没有任何严格的定理证明。技术路线是算法流程： 1. 用 EM 算法拟合参数 regime-switching 模型，得到最大后验概率估计 \((\widehat{\mathbf{P}}, \{\widehat{\mu}_k, \widehat{\Sigma}_k\})\) 和状态序列 \(\widehat{S}_t\)。 2. 根据 \(\widehat{S}_t\) 将数据分到 \(K\) 组，每组内计算 LGC 曲线 \(\widehat{\rho}_k\)。 3. 计算检验统计量 \(D = \sum_{k<l} \int w(u,v)[\widehat{\rho}_k(u,v) - \widehat{\rho}_l(u,v)]^2 du dv\)。 4. Bootstrap 过程：从拟合的 regime-switching 模型生成 \(B\) 个长度为 \(T\) 的新样本。对每个 bootstrap 样本重复步骤 1-3，得到 \(D_{(1)},\dots,D_{(B)}\)。\(p\)-value 为 \(\frac{1}{B}\sum_{b=1}^B I(D_{(b)} \ge D_{obs})\)。

技术技巧：唯一的技巧是 parametric bootstrap 嵌入模型估计——这确保了 bootstrap 分布能够反映状态估计的不确定性，而不是假设备状态已知。

四、开放问题（扎根具体语句）¶

Bootstrap 一致性定理：“We examine this test in a Monte Carlo study, where it shows good level and power properties.” —— 这句话表明本文 完全没有给出 bootstrap 一致性的理论证明。一个可行的开放问题：在什么正则条件下（如状态可识别性、LGC 估计的 Uniform CLT、带宽随样本增长趋零的速度），parametric bootstrap 分布对检验统计量 \(D\) 的渐近分布是一阶一致的？这个问题对使用 非参数/半参数 bootstrap 理论 的高维统计研究者非常有吸引力。
LGC 带宽选择：“The bandwidth parameter \(h\) is chosen via cross-validation in the original data, and then kept fixed in the bootstrap.” —— 本文的带宽选择是在原数据上 cross-validation，然后在 bootstrap 中固定。这引出了理论问题：在 bootstrap 中 reused bandwidth 会导致 bootstrap 分布有偏（因为带宽与数据有关）。一个 open problem：是否能发展出一套 bootstrap with data-dependent bandwidth 的渐近理论，或者使用 double bootstrap 校正偏差？
Regime-switching 模型参数设定敏感性：“We consider \(K=2,3\) states, chosen by BIC.” —— 状态数 \(K\) 和模型族的参数形式（如均值、协方差矩阵、t-copula 自由度）选择都是主观的，而检验结果可能高度依赖于这些选择。一个实际且值得做的开放问题：能否提出一个 更稳健的 bootstrap 检验，其 null 分布即使在 regime-switching 模型 mis-specified 的情况下也能近似合理？（例如使用 nonparametric bootstrap 对状态序列的马尔可夫结构重抽样，而不是用参数 bootstrap。）这正是研究者“非常熟悉”的非参数统计工具可以直接攻克的。
与 copula-based 方法的正式 power 对比：作者只在文字上声称 LGC 方法更直观，但没有提供与 copula 方法的严格 power 比较表。一个 “扩展研究” 的机会：对 copula-based 的似然比检验与 LGC bootstrap 检验做一个全面的 minimax power 对比，在不同信号强度、样本量、依赖结构形式下的表现。

Maintained by 陈星宇 · Homepage · Source on GitHub