Maximum-Subsampling Test of Equal Predictive Ability¶

作者: Wei Lan, Bo Lei, Long Feng, Chih-Ling Tsai
来源: Journal of Business & Economic Statistics
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/07350015.2024.2311196

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在时间序列预测场景下，如何构造一个具有正确水平且检验力合理的假设检验，以判断两个竞争预测模型的预测精度是否存在显著差异。当前该方向在经典框架下已高度成熟，但在小样本、强序列相关或高维损失差分序列的长期方差估计问题上仍存在已知的技术瓶颈。

发展脉络： - 奠基工作：Diebold & Mariano (1995) 提出了 DM 检验，在损失差分序列协方差平稳的假设下，构造了基于长期方差估计的渐近正态检验统计量。这是该领域的基准框架。 - 主要进展：Giacomini & White (2006) 将 DM 检验的适用范围扩展至条件预测精度比较（而非仅无条件比较），并引入了滚动窗口估计机制，形成了当前文献所称的 DM-GW 框架。 - 当前 frontier 与瓶颈：在 DM-GW 框架下，检验统计量的渐近方差依赖于损失差分序列的长期方差估计。长期方差需要估计并加总大量自协方差项。在小样本情境下，自协方差阶数的选择与估计极不准确，导致检验出现严重的 size distortion。Coroneo & Iacone (2016) 明确指出了这一挑战，并尝试通过子抽样方法构造检验以绕开长期方差的直接估计，但 CI 检验在部分设定下仍受限于子抽样块大小的选择及有限样本表现。 - 本文的位置：本文提出最大子抽样检验，旨在彻底绕开长期方差的自协方差阶数选择与估计问题，并利用极值理论为任意自协方差结构的损失差分序列提供渐近分布。

子线索聚类： 1. 长期方差直接估计路线：DM 检验及其后续变体（如 Newey-West 长期方差估计器）。这一簇的核心在于通过核函数或截断参数平滑自协方差估计，瓶颈在于小样本下截断参数的选择导致 size distortion。 2. 子抽样与块抽样路线：Coroneo & Iacone (2016) 及 Politis & Romano 的子抽样框架。这一簇试图通过数据重抽样机制直接逼近检验统计量的渐近分布，绕开长期方差解析计算，但瓶颈在于块大小参数的选择对有限样本表现敏感。 3. 极值理论应用于多假设检验路线：本文开创的线索。将多次子抽样视为多重比较问题，取最大值统计量，利用极值理论控制联合检验的总体水平，从而避免逐个估计方差。

这个方向在追问的核心问题： 1. 如何在小样本下获得预测精度等价检验的正确水平？ 2. 当损失差分序列具有未知且可能长记忆的自协方差结构时，如何避免长期方差估计的截断参数选择问题？ 3. 能否构造一种对自协方差结构具有"自适应性"（无需显式建模或估计自协方差阶数）的检验统计量？

⚠️ 作者的 framing： - 作者将缺口 frame 为：DM-GW 框架下的长期方差估计在小样本下不准确导致 size distortion，而现有修正方法（如 CI 检验）仍受限于块大小选择或未完全消除 size distortion。这使得"构造一个无需估计长期方差且无需选择块大小的检验"成为显然的下一步。 - 被淡化或回避的竞争路线：文献中存在基于自回归谱密度估计的长期方差修正方法（如 Andrews 1991 的 AR(1) 谱估计），以及基于 bootstrap 的检验方法（如 Kilian 1999 的 bootstrap DM 检验），这些路线在 intro 中未被讨论。作者直接将子抽样路线作为主要对比基准。 - 明显该被引却未出现的文献：关于 bootstrap 方法在时间序列预测精度检验中的应用（如 Kilian, 1999; White, 2000 的 reality check bootstrap 方法），以及多假设检验中极值分布控制 family-wise error rate 的经典文献（如 Romano & Wolf, 2005 的 stepwise 多重比较方法）。这些文献处理了类似的"多重比较+序列相关"问题，研究者值得去核查它们与本文 MS 检验的异同。

张力：未见明显对立引用。DM-GW 框架与 CI 检验在结论上不矛盾，均承认长期方差估计在小样本下存在 size distortion，只是在解决路径上分叉。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(n\)：样本量（预测评估期的长度，即观测到的损失差分序列的长度）。
\(d_t\)：第 \(t\) 期的损失差分（随机变量），定义为两个竞争模型在第 \(t\) 期预测损失之差，\(d_t = L(y_t, \hat{y}_{1t}) - L(y_t, \hat{y}_{2t})\)，其中 \(L\) 为损失函数（如平方损失），\(y_t\) 为真实观测值，\(\hat{y}_{it}\) 为模型 \(i\) 的预测值。
\(\{d_t\}_{t=1}^n\)：可观测数据。研究者实际能观测到的是这 \(n\) 个损失差分值构成的序列。潜在不可观测的是该序列背后的真实数据生成机制（特别是其自协方差结构）。
\(\mu\)：要检验的参数 / estimand，即损失差分的期望均值 \(\mu = E[d_t]\)。
\(\gamma_j\)：损失差分序列的第 \(j\) 阶自协方差，\(\gamma_j = E[(d_t - \mu)(d_{t-j} - \mu)]\)。
\(V\)：长期方差，\(V = \sum_{j=-\infty}^{\infty} \gamma_j = 2\pi s(0)\)，其中 \(s(0)\) 为谱密度在频率 0 处的值。这是 DM 检验渐近分布的核心参数，但本文不估计它。
\(b\)：子抽样的块大小（正整数），\(b \to \infty\) 且 \(b/n \to 0\)。
\(Z_{t,b}\)：子抽样统计量（随机变量），定义为第 \(t\) 块的局部均值标准化量，\(Z_{t,b} = b^{1/2} \bar{d}_{t,b}\)，其中 \(\bar{d}_{t,b} = b^{-1} \sum_{i=t}^{t+b-1} d_i\)。
\(T_{MS}\)：本文提出的最大子抽样检验统计量，定义为所有子抽样统计量的最大值，\(T_{MS} = \max_{1 \le t \le n-b+1} Z_{t,b}\)。

模型：数据生成机制为协方差平稳时间序列 \(\{d_t\}\)，具有未知且任意的自协方差结构 \(\{\gamma_j\}\)。原假设为 \(H_0: \mu = 0\)（两模型预测精度等价），备择假设为 \(H_A: \mu \neq 0\)。

第二步：最小内核

剥掉所有为一般性服务的技术假设（如谱密度的具体平滑条件），支撑整篇论文的最小内核是一个极值理论应用于滑动平均块统计量的特例：

假设损失差分序列 \(d_t\) 是一个简单的线性过程，例如 \(d_t = \mu + \sum_{j=0}^\infty \psi_j \varepsilon_{t-j}\)，其中 \(\varepsilon_t\) 为 i.i.d. 标准正态，\(\psi_j\) 绝对可和。在原假设 \(\mu=0\) 下，我们构造滑动窗口块均值 \(\bar{d}_{t,b}\)。由于序列的强混合性质，距离较远的块（如 \(Z_{1,b}\) 和 \(Z_{n-b,b}\)）近似独立，而相邻的块高度相关。

核心思路：我们不试图去估计由 \(\psi_j\) 决定的复杂长期方差 \(V\)，而是把 \(n-b+1\) 个块均值看作 \(n-b+1\) 个"局部检验统计量"。取它们的最大值 \(T_{MS} = \max_{t} Z_{t,b}\)。由于 \(b/n \to 0\)，有效独立块的个数大约为 \(n/b\)。根据极值理论，\(n/b\) 个近似独立的 \(O_p(1)\) 随机变量的最大值，其渐近分布收敛到 I 型极值分布（Gumbel 分布），而非正态分布。具体地，在适当的中心化与标准化下，\(P(T_{MS} \le x) \to \exp(-e^{-x})\)。

为什么这能绕开长期方差：在 DM 检验中，必须用 \(\hat{V}\) 标准化 \(\sqrt{n}\bar{d}\) 才能得到正态极限；而在 MS 检验中，块均值 \(Z_{t,b}\) 内部的自协方差累加效应被块大小 \(b\) 的尺度所吸收（\(b^{1/2}\) 标准化使得单个块在原假设下为 \(O_p(1)\)），而跨块的相关性通过强混合假设被极值理论的最大值收敛律所控制。因此，检验的临界值完全由极值分布的分位数决定，无需知道真实的 \(V\)。

三、这篇论文做了什么¶

三句话： ①研究了小样本下比较两竞争预测模型精度时，DM-GW 检验因长期方差估计不准导致 size distortion 的问题； ②核心工具是最大子抽样方法结合极值理论； ③主要结论是 MS 统计量在原假设下依分布收敛到 I 型极值分布，无需估计长期方差，且在备择假设下检验一致。

关键设定与假设：在第二节最小记号基础上，补全完整设定： - 协方差平稳假设：\(\{d_t\}\) 为严平稳且遍历的协方差平稳序列。相比 DM 原文，本文未放宽平稳性，但放宽了对自协方差结构的先验知识要求（无需指定或估计阶数）。 - 强混合假设：\(\{d_t\}\) 是 \(\alpha\)-mixing 的，混合系数满足 \(\sum_{m=1}^\infty \alpha(m)^{\delta/(2+\delta)} < \infty\) 对某 \(\delta>0\)。这是保证远距离块近似独立、从而应用极值理论的核心条件。统计含义是序列不能有太长的记忆（如长记忆过程可能不满足此条件）。 - 谱密度条件：\(s(0) > 0\) 且谱密度在 0 处连续。这排除了"无序列相关"（\(V=0\)）的退化情形，确保块均值确实有非零方差。 - 块大小条件：\(b \to \infty\), \(b/n \to 0\), 且 \(b = o(n^{1/2})\)。最后一条 \(b = o(n^{1/2})\) 是本文特有的技术假设，用于控制最大值统计量的渐近展开中余项的收敛速度。

主要结果： 1. 定理 1（原假设下的渐近分布）：在 \(H_0: \mu=0\) 及上述假设下，\(T_{MS} = \max_{1 \le t \le n-b+1} b^{1/2} \bar{d}_{t,b}\) 依分布收敛到 I 型极值分布。直觉：局部块均值在原假设下是均值为 0 的 \(O_p(1)\) 变量，最大值跨越了约 \(n/b\) 个有效独立块，极值理论接管了最大值的分布。必要条件是强混合与 \(b=o(n^{1/2})\)。解决的技术难点是：滑动窗口块之间有严重重叠（非独立），经典极值理论要求独立或近独立序列，本文通过强混合条件与滑动窗口的局部依赖结构，证明了最大值的极值极限律在重叠块下依然成立。 2. 定理 2（备择假设下的一致性）：在 \(H_A: \mu \neq 0\) 下，\(P(T_{MS} > c_\alpha) \to 1\)，其中 \(c_\alpha\) 为极值分布的临界值。直觉：当真实均值 \(\mu \neq 0\) 时，每个块均值 \(\bar{d}_{t,b}\) 都有一个漂移项 \(\mu\)，最大值统计量会以 \(\sqrt{b}|\mu|\) 的速率被推向正无穷，远超固定临界值 \(c_\alpha\)。

证明路线与技术技巧： - 整体路线： 1. 将滑动窗口块统计量序列 \(\{Z_{t,b}\}_{t=1}^{n-b+1}\) 视为一个依赖序列。 2. 利用强混合假设，将整个序列划分为"大块"与"小块"交替的结构，使得大块之间近似独立。 3. 对大块内的最大值应用 Berman's condition / 极值理论，证明单个大块的最大值收敛到极值分布。 4. 利用跨大块的近似独立性，通过乘积概率的渐近展开，将全局最大值的分布分解为各大块最大值分布的乘积。 5. 结合 \(b/n \to 0\) 与 \(b=o(n^{1/2})\) 的尺度条件，计算并控制余项，最终得到全局最大值的 I 型极值分布极限。 - 关键跳跃点：从重叠滑动窗口的依赖结构过渡到极值理论。经典极值理论（如 Leadbetter et al. 1983）处理的是原始观测序列 \(\{d_t\}\) 的最大值，而本文处理的是块均值 \(\{\bar{d}_{t,b}\}\) 的最大值。块均值之间的依赖衰减速度与原始序列不同，作者通过论证混合系数在块均值层面的传递性，以及利用 \(b=o(n^{1/2})\) 控制块间依赖的累积效应，跨越了这一障碍。 - 技术技巧点名： - 强混合理论：用于量化滑动窗口块之间的依赖衰减速度，是极值理论应用于依赖序列的基础。 - 大块-小块分解：将长序列切分为交替的大块和小块，小块用于吸收跨大块的依赖，大块保证近似独立，这是处理依赖序列极值极限的标准技巧。 - Berman's condition：用于验证依赖正态序列（或近似正态的块均值）的最大值仍服从与独立序列相同的极值分布律。 - 极值分布的标准化常数计算：通过 \(n/b\) 的有效块数推导出适当的中心化与标准化常数，使得最大值精确收敛到 Gumbel 分布。

真实例子与应用：本文包含五个模拟设定，改编自 McCracken (2007) 及 Coroneo & Iacone (2016)。 - 用的什么数据/场景：模拟数据生成机制。设定 1-2 采用一阶自回归损失差分序列（AR(1)，不同自回归系数 \(\rho=0.5, 0.9\)）；设定 3 采用异方差设定；设定 4-5 采用更复杂的 VAR 结构生成预测误差，模拟多步预测（horizon \(h=1, 4\)）。 - 怎么把本文方法用上去：对生成的损失差分序列，计算 DM 统计量（需估计长期方差）、CI 统计量（需选择块大小）、以及本文 MS 统计量（选择块大小 \(b\) 并取最大值，查极值分布临界值）。 - 得到什么结果：在小样本（\(n=50, 100\)）下，DM 检验出现严重 size distortion（特别是 \(\rho=0.9\) 时，实际水平远超名义水平 5%）；CI 检验在部分设定下 size 接近名义水平但检验力较低；MS 检验在所有设定下 size 控制在名义水平附近，且检验力在样本量增大时迅速上升至 1。 - 这个例子想说明什么：验证 MS 检验在无需估计长期方差的情况下，确实能控制 size，并在强序列相关（\(\rho=0.9\)）和小样本下优于依赖长期方差估计的 DM 检验。同时展示 MS 检验的检验力与 CI 检验相当或更优。

🔎 结论是否比证明窄：定理 1 的严格证明要求 \(b = o(n^{1/2})\)，但作者在模拟与实操建议中推荐 \(b = \lfloor 0.5 n^{0.5} \rfloor\)，这恰好卡在 \(O(n^{1/2})\) 的边界上，严格来说不满足 \(b = o(n^{1/2})\) 的条件。这是一个在严格条件下证明、却在实操中泛泛应用的张力点。此外，强混合假设排除了长记忆过程（如分数差分过程），但作者在结论部分泛泛 claim MS 检验适用于"任意自协方差结构"，这一 claim 比证明的适用范围宽。

四、开放问题（点到为止）¶

块大小 \(b\) 的选择规则：本文理论要求 \(b=o(n^{1/2})\)，但实操推荐 \(b \approx 0.5 n^{0.5}\)。能否构造一个数据驱动的 \(b\) 选择方法（如基于混合系数的估计或自举法），并证明其在所选 \(b\) 下仍保证水平控制？扎根在定理 1 的 \(b=o(n^{1/2})\) 条件与第 4 节实操推荐的张力。
长记忆过程的适用性：强混合假设排除了长记忆时间序列（如 \(\alpha(m)\) 衰减慢于多项式的过程）。若损失差分服从长记忆过程，块均值的最大值是否仍收敛到极值分布，或者需要新的标准化常数？扎根在引言中"arbitrary autocovariance structures"的 claim 与假设 2 的 \(\alpha\)-mixing 条件之间的缺口。
多模型比较的扩展：本文仅比较两个模型（产生一维损失差分）。若同时比较 \(K\) 个模型与一个基准模型（产生 \(K\) 维损失差分向量），MS 检验如何扩展为多维最大值统计量，其极值分布如何从 Gumbel 分布过渡到多变量极值分布或通过 Bonferroni/Stepdown 控制家族误差率？扎根在引言对 DM-GW 框架的讨论，该框架在 White (2000) 等文献中已扩展至多模型比较，而本文未触及此设定。

Maintained by 陈星宇 · Homepage · Source on GitHub

Maximum-Subsampling Test of Equal Predictive Ability¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论