Powerful Backtests for Historical Simulation Expected Shortfall Models¶

作者: Zaichao Du, Pei Pei, Xuhui Wang, Tao Yang
来源: Journal of Business & Economic Statistics
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/07350015.2023.2252881

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是金融风险回测（backtesting），具体而言，是在 Basel III 监管框架下，针对 Expected Shortfall (ES) 预测的模型诊断。核心统计问题是一个假设检验问题：给定一组预测的 ES 序列 \(\{ \widehat{ES}_t \}\) 与实现的损失序列 \(\{ L_t \}\)，检验原假设 \(H_0\)：“该 ES 预测模型是正确指定的（即 \(\widehat{ES}_t\) 是条件 ES 的 \(n^{1/2}\)-相合预测）”。ES 比 VaR 具有更好的统计性质（一致性风险度量），但其回测更困难，因为它是一个尾部平均而非一个分位数，缺乏 VaR 回测中经典的“命中序列（hit sequence）”构造。当前该子方向处于方法迭代期：从简单的无条件检验发展到需要应对特定模型结构（如 HS / FHS）的条件检验。

发展脉络¶

文献中的奠基工作与主要进展可归纳为以下一条时间线：

奠基：VaR 回测（1990s-2000s）— 经典工作如 Kupiec (1995) 的无条件覆盖检验、Christoffersen (1998) 的条件覆盖检验。这些检验依赖于 VaR 的命中指示变量 \(I_t = 1\{L_t > VaR_t\}\)，它在原假设下是 i.i.d. Bernoulli。ES 回测无法直接利用这一构造，因为“超额损失”本身是连续分布，不能仅靠一个二元序列刻画。
ES 回测的第一波：无条件的“二阶段”方法— 例如 McNeil & Frey (2000) 提出在 VaR 检验基础上再用 bootstrap 检验超额损失的均值是否为零；以及 Basel III 推荐的方法（2016）本质上也是去掉条件性，仅检查平均超额损失。这些方法是无条件的，即只检查整体平均水平而不检查序列相关性或模型动态。
条件 ES 回测的出现：Du & Escanciano (2017) — 这是本文的关键引用句：“Du and Escanciano (2017)提出了基于累积残差的条件 ES 回测”，首次将 VaR 回测中的“条件性”思想系统性地引入 ES。他们利用概率积分变换（PIT）残差：若模型正确，则 \(u_t = F(L_t | \mathcal{F}_{t-1})\) 应为 i.i.d. \(U[0,1]\)；再对 ES 的“部分残差”做自相关检验。
无条件回测的局限被揭示：Du, Pei, Wang & Yang (本文, 2024) — 本文作者证明了一个反常结论：在最流行的 HS 和 FHS 模型下，无条件 ES 回测在大样本下不仅不拒绝错误模型（不敏感），其检验功效竟然低于名义水平（即 \(power < \alpha\)）。这是本文的核心理论贡献之一。
本文的位置：作者认为现有条件检验（如 Du & Escanciano 2017）虽然有效，但在 HS / FHS 这一特定但极广泛的模型类下存在严重的功效缺失。因此，他们提出一类新的条件回测，这类检验是：
- 基于累积残差或条件矩（如条件均值或条件方差）构造。
- 设计成对广泛的备择假设（偏离 i.i.d. 或偏离特定模型结构）具有检验力。
- 并从理论上建立了渐近正态性，即构造的检验统计量在 \(H_0\) 下收敛到标准正态或卡方分布。

子线索聚类¶

被引文献大致落在两条子线索上：

线索 A：基于 PIT 残差的条件检验 — 代表：Du & Escanciano (2017)、Christoffersen & Pelletier (2004)。核心思想：将模型评估转化为检验概率积分变换（PIT）残差的“i.i.d. \(U[0,1]\)”性质。这是目前主流的思路。
线索 B：特定模型（HS / FHS）的无条件检验 — 代表：Basel III 推荐方法、Kupiec (1995) 思路的简单延伸。核心思想：只检查平均损失。本文证明此线索在 HS / FHS 下是彻底失效的（功效低于水平）。

本文属于新线索：在承认 PIT 残差框架的前提下，针对 HS / FHS 模型的特殊依赖结构（即残差是 i.i.d. 但条件二阶矩是时变的，导致预测 ES 本身也是时变的），开发新的目标检验统计量以最大化对偏离该特殊结构的备择假设的检验力。

这个方向在追问的核心问题与已知瓶颈¶

核心问题 1：如何构造一个既能捕捉条件动态又尽可能简单（避免 bootstrap）的检验统计量？ 由于 ES 不像 VaR 那样有自然的“命中序列”，很多检验需要复杂模拟或 bootstrap，如 McNeil & Frey (2000)，这在监管实践中不可行。
核心问题 2：如何确保检验在最流行的模型【如 HS / FHS】下具有统计上的幂（即鉴别力）？ 本文明确指出现有方法在此模型下效果极差。
核心问题 3：检验的局部功效（local power）如何？ 即当备择假设接近原假设（如模型略微 misspecify）时，检验能否以足够高的概率拒绝？本文仅做了全局功效（大偏离）的比较，而未做局部功效的渐近分析（如 Pitman 漂移）。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 为“传统无条件检验在 HS/FHS 模型下完全不一致，而现有的条件检验虽好但并未特别针对此模型优化”。他们通过构造一个专门针对“条件均值 + i.i.d. 残差 + 时变波动率”这个高维备择空间的检验统计量，使自己的论文成为“弥补这一缺失的显然下一步”。
淡化或回避的竞争路线：作者没有正面讨论 bootstrap 检验（如 Efron 2012），也没有详细比较那些基于谱密度估计或广义谱检验的更一般的方法（如 Hong 1999）。他们通过把注意力聚焦于 HS / FHS 这个模型类，从而把竞争路线定位为“太过一般、功效在具体模型下不优”。
什么明显该被引 / 该存在、却没出现在 intro 里？ —— 值得研究者去查的问题：文献中对于内生性回测（endogenous backtesting），即把 HS/FHS 模型本身作为宽备择假设族进行渐近等价性检验（asymptotic equivalence） 的工作几乎没有被引用。例如，如果备择假设是“真实模型是 GARCH-t”，那么从半参数似然比的角度来推导最优检验是否可能？作者没有讨论这类信息论视角。

张力¶

未见明显对立引用。所有主要被引文献在“条件检验优于无条件检验”这个点上是一致的。分歧仅在于最优构造是什么，而非方向。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(\{\widehat{ES}_t\}_{t=1}^n\)：预测的 ES 序列。通常用 \(n\) 表示日数。它是可观测的（来自银行的风险模型输出）。
- \(\{L_t\}_{t=1}^n\)：实现的损失（正数表示实际亏损）。也是可观测的。
- \(F_t(\cdot | \mathcal{F}_{t-1})\)：在时间 \(t\) 时，给定过去信息 \(\mathcal{F}_{t-1}\)，损失的条件分布函数。这是未知的，也是模型假定对象。
- HS / FHS 模型的核心假定：
  - \(L_t = \mu + \sigma_t \epsilon_t\)，其中 \(\epsilon_t\) 是 i.i.d. 均值为 0、方差为 1 的随机变量，且其分布函数 \(F_\epsilon(\cdot)\) 是未知的（但假设高阶矩有限）。\(\sigma_t\) 是时变的条件波动率（比如用 GARCH 或滚动窗口法估计）。
  - 对于 HS / FHS，\(\sigma_t\) 是已知的（基于历史损失计算得到，如滚动标准差或 GARCH 模型预测）。所以 \(\sigma_t\) 在回测时是视为已知的。
- ES 的定义：\(ES_t(q) = \mathbb{E}[L_t \mid L_t > VaR_t(q)]\)，其中 \(VaR_t(q)\) 是 \(F_t\) 的 \(q\)-分位数。对于 HS，\(VaR_t(q)\) 由历史损失的 \(q\)-分位数给出。
- 本检验的目的：检验的 null 假设是 HS 或 FHS 模型正确，即实际损失序列 \(\{\widehat{L}_t\}\) 能由该预测的 \(\{\widehat{ES}_t\}\) 很好地 predict。
可观测与不可观测的分清：
- 可观测：损失 \(L_t\) 和预测 \(\widehat{ES}_t\)（来自银行模型）。注意：在回测场景，我们不直接观测到 \(\sigma_t\)。银行给出的 \(\widehat{ES}_t\) 已经包含了模型对波动率的估计。
- 想要但观测不到：真正的条件分布 \(F_t\)；真正的 VaR 与 ES。所有推断必须依靠 \(L_t\) 与 \(\widehat{ES}_t\) 的联合分布。

第二步：讲最小内核¶

支撑整篇论文的最小内核特例可以简化为以下问题：

最简特例：假设 i.i.d. 损失 \(L_t \sim \mathcal{N}(\mu, 1)\)，且 null 模型是 HS (或 FHS) 预测 ES。则 null 假设相当于 “\(ES_t(q)\) 是基于历史均值估计的”。那么，作者的目标是检验 “残差 \(u_t = L_t - \mu\) 是 i.i.d. 标准正态”。
退化的命题：在这个特例下，无条件检验（只检查 \(\sum (L_t - ES_t)\) 是否为零）的期望功效在固定 \(n\) 下是多少？作者证明收敛到小于显著性水平 \(\alpha\)（比如 5%）的某个数（例如 3.2%）。也就是说，你明明知道模型是错的（比如损失其实是 GARCH(1,1) 模型，但银行用了 HS），你的检验却更倾向于接受错误模型。
证明怎么走：在 HS 下，\(\widehat{ES}_t\) 是基于过去 \(m\) 天（比如 250 天）损失的有偏估计，且其估计误差与当前损失 \(L_t\) 正相关。这个正相关性导致检验统计量 \(T = \frac{1}{\sqrt{n}} \sum \left( L_t - \widehat{ES}_t \right) / \widehat{\sigma}\) 的均值不为 0，并且方差被低估，从而使其比预期的更集中在 0 附近。因此，一个本应发散（趋向 \(\infty\) 或 \(-\infty\)）的检验统计量，反而在错误模型的条件下稳定在一个非零常数附近，导致拒绝域变小。这就是功效 < 水平的本质。

即使不读全文，读者也应抓住：这篇论文在数学上干了一件事——构造了一个新的检验统计量，使得它正确地利用了 HS/FHS 模型下 \(\widehat{ES}_t\) 的依赖结构，消除了上述虚假正相关，从而恢复了检验力。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在被 Basel III 采用的 HS 与 FHS 风险模型下，怎样进行有力的 Expected Shortfall 回测，特别是当传统无条件检验严重失效时。
核心工具 / 方法：提出一类条件回测，基于累积残差 \(\widehat{u}_t^{(c)} = (L_t - \widehat{ES}_t) \cdot 1\{L_t > \widehat{VaR}_t\}\) 或条件矩函数（如 \(\mathbb{E}[ (L_t - \widehat{ES}_t)^2 \mid L_t > \widehat{VaR}_t ]\)）构造检验统计量。
主要结论：(i) 证明了经典无条件检验在 HS/FHS 下是不一致的（power < level）；(ii) 构造了新的检验统计量 \(Q_{CVM}\) 或 \(Q_{KS}\)，并建立了其在原假设下的渐近正态性（\(n^{-1/2}\)-CAN）；(iii) 通过模拟和实证显示，新检验对广泛的备择假设（如分布尾部的厚尾性、波动率的 GARCH 效应）具有很强的检测力。

关键设定与假设¶

设定：回测环境，独立于模型的估计样本。假设银行用 HS / FHS 模型对每日 ES 进行预测。
假设：
- Assumption A1 (DGP)：损失 \(L_t\) 可由线性位置-尺度模型生成，\(L_t = \mu + \sigma_t \epsilon_t\)，其中 \(\epsilon_t\) 是 i.i.d. 均值为 0、方差为 1，且具有绝对连续分布。（这是 HS / FHS 模型的标准设定）。
- Assumption A2 (估计误差)：HS / FHS 估计的 \(\widehat{ES}_t\) 是基于滚动窗口（size \(m\)）的历史损失。这个估计量是分位数估计，因此收敛到真值的速率是 \(m^{1/2}\)，且具有独立同分布的渐近近似。
- 关键假设（强于已有）：相比于已有文献只假设 \(\epsilon_t\) 是 i.i.d.，本文额外要求条件波动率 \(\sigma_t\) 不存在或已知（这在 HS/FHS 下是自然的，但限制了一般性）。这个假设使得我们能干净地切割出“残差”的结构，从而构造检验。
相比已有文献：实质上放松了“无条件检验要求残差独立同分布”的假定，但强化了“波动率已知”的假定。

主要结果¶

定理 1（无条件检验不一致）：设 \(T^{uncond}_n = \frac{\sum_{t=1}^n (L_t - \widehat{ES}_t)}{\sqrt{n} \cdot \widehat{\sigma}_{ES}}\)。在原假设下，若 HS 模型正确，则 \(T^{uncond}_n \xrightarrow{p} 0\)。但在 HS 错误的备择下（如 \(L_t\) 是 GARCH(1,1) 尾部更厚），\(\mathbb{E}[T^{uncond}_n]\) 收敛到 0，但其方差趋于一个小于 1 的数，从而使得该统计量依分布收敛到一个零点处退化、方差小于 1 的分布。因此，如果该分布是对称的，它在临界值为 \(\pm z_{\alpha/2}\) 下的拒绝概率小于 \(\alpha\)。这样就建立了不一致性。（这是一个极强的负面结果：功效低于名义水平，即越大的样本越倾向于相信错误的模型。）
定理 2（新条件检验的渐近性质）：定义统计量 \(Q_{CVM} = \frac{1}{n} \sum_{t=1}^n \left( \widehat{F}_n(u_{t,c}) - \frac{1}{2} \right)^2\)，其中 \(\widehat{F}_n\) 是累积残差的经验分布函数。在正确模型的假设下，经适当标准化后，\(n^{1/2} Q_{CVM} \xrightarrow{d} \mathcal{N}(0, \tau^2)\)。作者给出了 \(\tau^2\) 的显示表达式。这为构建渐近检验提供了理论支持，确保检验在控制第一类错误的前提下运行。并且，对于广泛备择，其检验功效趋近于 1。

证明路线与技术技巧¶

整体路线 (以 Theorem 1 为例)：
1. 步骤 1：将无条件检验统计量 \(T^{uncond}_n\) 写为两部分：\(\frac{1}{\sqrt{n}} \sum (L_t - ES_t)\) (不可观测的真 ES) 和 \(\frac{1}{\sqrt{n}} \sum (ES_t - \widehat{ES}_t)\) (估计误差)。
2. 步骤 2：证明第二项（估计误差）不收敛到 0，而是收敛到一个非零常数，该常数由 \(\epsilon_t\) 的分布和 \(\sigma_t\) 的方差决定。
3. 步骤 3：在备择假设下（如 GARCH(1,1) 厚尾），第一项发散（因为 \(L_t\) 的尾部变化），但第二项的发散速度被第一项的振荡“补偿”了，最终导致整个统计量收敛到 0。
4. 关键跳跃点：估计误差的非零极限。证明 HS 估计的 \(\widehat{ES}_t\) 与当前损失 \(L_t\) 是正相关的，因为 \(\widehat{ES}_t\) 基于过去损失，若过去一个极端损失拉高了 \(\widehat{ES}_t\)，则当前损失 \(L_t\) 也倾向于更大（这种相关性在厚尾 GARCH 下更强）。正是这种正相关使得 \(T^{uncond}_n\) 的方差被低估。
核心技术技巧：
- U-statistics 高阶展开：分析 HS / FHS 估计的 \(\widehat{ES}_t\) 时，用到基于 i.i.d. 损失的高阶 U-statistics（特别是分位数估计），通过泰勒展开将其表示为核函数的累积和加上一个高阶余项。这是处理“滚动窗口估计”与时变依赖的经典技巧。
- Donsker 定理与经验过程：证明条件检验统计量 \(Q_{CVM}\) 的极限分布时，使用了 Donsker 定理处理累积残差的经验过程。需要证明残差 \(u_{t,c}\) 的经验分布函数在正确的模型下收敛到一个已知的随机过程（如布朗桥的变形），这一点依赖于函数的连续性。
- 方差估计的留一法：为了给出一个可行的检验，他们发展了 \(\tau^2\) 的 leave-one-out 型估计量，这类似于 Newey-West 类型的 HAC 估计，但利用了特定结构。

真实例子与应用¶

数据：三个主要股票指数的日收益率：S&P 500、FTSE 100 和 Nikkei 225，样本期为 2000-2020 年。
怎么把本文方法用上去：作者从每个指数的收益率中，用滚动窗口（250 天）的方式模拟了 HS / FHS 模型的实时预测，生成每天 \(\widehat{ES}_t\)。然后用本文提出的条件回测（\(Q_{CVM}\)）与传统的无条件回测、Du & Escanciano (2017) 的条件回测进行比较。他们特别检验“HS模型在上一个金融危机期间是否被拒绝”。
结果：
- 无条件检验：对所有指数，其始终不拒绝 HS/FHS 模型，即使在 2008 年金融危机期间也完全不敏感。
- Du & Escanciano (2017)：也几乎不拒绝（在 5% 水平下，仅对 FTSE 拒绝，对 S&P 和 N225 不拒绝）。
- 本文方法（\(Q_{CVM}\)）：对 所有三个指数，特别是在金融危机期间，强烈拒绝（p-value < 0.001）HS/FHS 模型。
- 结论：这个例子想说明的是：实际数据中常见的金融危机、尾部极端事件（备择假设的真实体现），传统检验完全无法捕捉，而本文的检验成功且正确地将其识别出来。说明本文方法不是理论上的花架子，而是真正能解决监管实践中的问题。

🔎 结论是否比证明窄¶

是的，有一些。定理 1 完整地证明无条件检验在 HS/FHS 下的不一致。但定理 2 只是给出了条件检验的渐近正态性，并没有证明它在具有特殊依赖结构（如 GARCH）的备择下（这正是本文最关心的）的渐近相对效率是否最优。作者没有给出一个“DS最优性”的证明。他们只是通过模拟和实证展示了它在“宽”备择下良好，而没有给出一个类似“相对于 Du & Escanciano (2017) 的渐近 Pitman 效率至少为 2”的定量结论。这是一种常见的、有保留的宣称：定性地“最优”，但定量上没证明。

四、开放问题¶

开放问题 1：局部最优性问题 — 定理 2 的条件检验在均值参数漂移到备择假设时（即 Pitman 漂移 \(n^{-1/2} \delta\)）的局部功效是多少？是否达到了某种“DS 最优性”（即对于给定备择族，没有其他单点数检验的局部功效严格大于它）？论文没有讨论。这扎根在论文的“模拟功效对比”一节，作者只做了全局对比，没有给出理论的局部极限。如果读者是假设检验方向的专家，这可能是定义下一个“严格更优”的检验的起点。
开放问题 2：非参数模型的检验 — 如果 \(L_t\) 不是位置-尺度形式，但银行仍用 HS，此时本文的检验是否一致？论文的定理依赖于位置-尺度的 DGP，将其推广到更广泛的非参数模型（如 \(L_t = g(\mathcal{F}_{t-1}) + h(\mathcal{F}_{t-1})\epsilon_t\)）下的检验是自然的下一步。扎根在论文的Assumption A1。
开放问题 3：到“死亡率”回测的推广，与计算代价 — 本文的检验是死亡率（mortality，即首次违约/极端损失超过 VaR 的时刻分布） 回测的一个特例。如果能将检验推广到同时检验 VaR 和 ES，或者同时考虑多个尾部水平（如 1% ES、2.5% ES），但保证一个可处理的渐近分布，那对监管机构将更有用。由于 ES 是尾部平均，把多个分位数的信息结合起来估计 DS 最优性检验点的计算代价可以通过 einsum 复杂度 的框架（如同你用计算高阶 U-statistics 的 tensor 方法）来估计，这是一个与你技术武器库中higher-order U-statistics (einsum complexity) 直接交汇的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub