Benign overfitting in time-series linear models with over-parameterization¶

作者: Shogo Nakakita, Masaaki Imaizumi
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

良性过拟合 (benign overfitting) 研究一个反直觉的现象：在过参数化（参数数量远大于样本量）的回归或分类模型中，一个完美拟合训练噪声的估计量（如最小范数插值估计量，minimum-norm interpolator）仍然可以在测试数据上取得近乎最优的预测风险。它挑战了经典统计学习理论中“过拟合必然导致泛化差”的教条。该子方向当前已处于“系统理论化”阶段——从早期的现象发现、风险极限的随机矩阵分析，发展到对i.i.d.数据下过参数化线性模型的完整刻画（必要充分条件），正在向更一般的设定（依赖数据、非线性模型、非平方损失）扩展。本篇论文正是将i.i.d.的良性过拟合理论推向时间序列依赖数据。

发展脉络（history）¶

以introduction的引用为骨架，可梳理出以下主线：

奠基与现象发现 (≈2017–2019)：
- Belkin et al. (2018) 和 Hastie et al. (2019) 率先观察到最小范数线性插值估计量在高维极限下风险可以趋于零，画出了经典的“双重下降 (double descent)”曲线，动摇了偏差-方差权衡的经典认知（作者引用句：“revealed the risk limit when n data instances and p parameters diverged infinitely, while their ratio p/n converged to a…”）。这些工作主要依赖随机矩阵理论，在特征与响应均为i.i.d.的严格假定下进行研究。
- Liang & Rakhlin (2020) 将类似结论推广到核方法，证明了“ridgeless”核回归的插值解可以泛化，依赖核协方差矩阵的谱衰减。这与Hastie等人的高维极限分析是互补的，但都假定样本独立。
i.i.d.下的系统性刻画 (2019–2020)：
- Bartlett et al. (2020) 是第一篇给出良性过拟合严整理论的工作。它不使用高维极限，而是对任意维数 p 和数据协方差矩阵 Σ，导出min-norm interpolator的非渐近风险上界，并用有效秩（effective rank）给出了必要条件：使得良性过拟合发生，数据协方差矩阵中“不重要”的方向数必须足够多（即有效秩相对样本量足够小）。这是当前i.i.d.线性模型下的默认基准。
- Tsigler & Bartlett (2020) 紧随其后，将结论从min-norm interpolator推广到岭回归（ridge regression），并给出了正则化参数为0或负值时风险保持较小的条件，同时指出风险上界是紧的。作者引用语境：“This setting is employed in Tsigler and Bartlett (2020) for the i.i.d. data setting.”
依赖数据下的高维统计（平行于上述主线）：
- 一个相对独立但相关的线索是依赖数据下的稀疏高维推断。Basu & Michailidis (2015) 为高斯过程下的Lasso引入了基于谱密度的稳定性度量，推导了非渐近误差界，并建立了依赖数据下的限制特征值条件。作者引用它来说明自己是“time series version of the restricted eigenvalue condition”，但进一步指出Basu & Michailidis要求无穷时宽上的谱和（the largest eigenvalues of \(\sum_{h=-\infty}^{\infty} \Sigma_h\) bounded），而本文只需有限时宽。
- Kock & Callot (2015) 研究VAR模型下的Lasso，建立预测误差的oracle不等式和模型选择一致性。Song & Bickel (2011) 处理大规模VAR的稀疏估计，区别对待自身滞后项与其他变量滞后项。
- Alquier & Doukhan (2011) 从更一般的统计优化角度研究依赖数据下的\(\ell_1\)正则化。Dagan et al. (2019) 和 Kandiros et al. (2021) 则考虑空间/网络依赖（Dobrushin条件、Ising模型），而非时间序列依赖。这些工作依赖混合条件（mixing）或Dobrushin条件来刻画依赖的衰减，而非时间序列独有的谱分析。
本文的位置：
- 本文是第一个将良性过拟合理论从i.i.d.推广到平稳时间序列依赖的线性模型。它站在Bartlett et al. (2020)的肩膀上，但用一个全新的依赖度量——时间协方差相干性（temporal covariance coherence）——替代了Bartlett et al.的“有效秩”。与经典的依赖数据高维统计（如Basu & Michailidis）相比：它不假稀疏性，用的是插值估计量而非正则化估计量，且只依赖有限时宽上的协方差乘积，而非无穷求和。

子线索聚类¶

大致可分为3条互有重叠的线索：

线索A：i.i.d.下的良性过拟合与插值理论。 代表工作：Belkin et al. (2018, 2019)，Hastie et al. (2019)，Bartlett et al. (2020)，Tsigler & Bartlett (2020)，Liang & Rakhlin (2020)。主要工具：随机矩阵理论、有效秩、高维极限分析。当前瓶颈：只覆盖独立数据，无法直接处理时间序列依赖。
线索B：依赖数据下的稀疏高维统计。 代表工作：Alquier & Doukhan (2011)，Basu & Michailidis (2015)，Kock & Callot (2015)，Song & Bickel (2011)。主要工具：β/φ-mixing、谱密度、限制特征值条件。当前瓶颈：几乎全部依赖稀疏性假设，且大多针对Lasso或ridge正则化，不覆盖插值估计量（无正则化）。
线索C：依赖数据下的泛化误差界（非稀疏设定）。 代表工作：Mohri & Rostamizadeh (2010)（算法稳定性+混合过程），Dagan et al. (2019)（Dobrushin条件）。当前瓶颈：通常给出的是上下界常数（常数因子退化），而非良性过拟合那样精细的、与协方差谱结构直接挂钩的风险刻画。本文所走的是这条线索的一个子分支——用谱分析而非混合系数来控制依赖的影响。

这个方向在追问的核心问题¶

【存在性】 数据依赖如何改变良性过拟合的发生条件？在i.i.d.下有效秩刻画了风险收敛性，在依赖数据下什么量会替代有效秩？
【收敛速率】 依赖数据下interpolator的风险是否仍能收敛到最优（或近最优）？收敛速率受什么约束（依赖强度 vs. 参数维数）？
【工具】 如何将随机矩阵理论（特别是谱范数集中不等式）扩展到时间序列协方差结构，而不依赖经典的高斯/独立设定？
【必要条件】 依赖数据下是否存在类似Bartlett et al.的“必要”条件——即若数据依赖强到一定程度，良性过拟合必然失败？

⚠️ 作者的framing¶

作者的缺口frame：“existing results rely on the assumption of sample independence”——这是introduction直接给出的核心动机。他们把本文定位为“将Bartlett et al. (2020)的i.i.d.良性过拟合理论扩展到时间序列数据的自然下一步”。
竞争路线的淡化：作者明确回避了稀疏性假设（“which may not be sparse”），因此也回避了线索B（稀疏高维时间序列）的大部分文献。他们用“coherence”（时间协方差乘积的谱范数）替换了“effective rank”，这是一种新的依赖数据结构刻画法，不与混合系数直接比较。他们没有讨论：如果使用混合系数（如\(\beta\)-mixing）能否给出更紧或更宽的界？这留给读者去判断。
值得查的问题：线性模型中“time-series smoothness”与“协方差结构已知/未知”的关系。作者假设协方差结构完全已知（协方差矩阵序列已知），这在时间序列中并不典型（通常需要估计）。是否可以用潜变量模型或状态空间模型来放松这个假设？这是introduction中没有触及的明显gap。另一个：没有引用时间序列分析中的通用预测理论（如Brockwell & Davis 1991; Shumway & Stoffer 2017），它们对“最优预测 = 协方差结构的最佳利用”有大量结果。

张力¶

未见明显对立引用。Bartlett et al.与Hastie et al.的结论在i.i.d.下是兼容的（前者依赖有效秩，后者依赖高维极限下的随机矩阵结果）。依赖数据下的结果主要集中在Lasso收缩框架，与插值框架之间目前没有矛盾——只是因为之前没人尝试重叠。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

样本量：\(n\)，时间点数 \(t = 1, \dots, n\)。
协变量维数：\(p\)（可远大于\(n\)，过参数化场景）。
可观测数据：\(\{(Y_t, X_t)\}_{t=1}^n\)，其中\(Y_t \in \mathbb{R}\)，\(X_t \in \mathbb{R}^p\)。
模型（数据生成机制）：
- \(Y_t = X_t^\top \beta^* + \varepsilon_t\)，\(\beta^* \in \mathbb{R}^p\) 是固定的真实系数向量。
- \(\{\varepsilon_t\}_{t=1}^n\) 是均值为0、方差为\(\sigma^2\)的随机噪声，在时间上独立（但这只假设噪声独立，协变量之间依赖；注意！这与时间序列模型的常用假定理解一致）。
依赖设定：\(\{X_t\}\)是一个平稳的均值为0的时间序列（可以是高斯过程或亚高斯过程）。这意味着\(X_t\)的协方差只依赖时间差\(h\)：\(\Sigma_h := \text{Cov}(X_t, X_{t+h}) = \mathbb{E}[X_t X_{t+h}^\top]\)。这里对协方差结构的假定是：\(\Sigma_0\)可逆，且\(\Sigma_h\)对所有\(|h| \le H\)已知（某些证明中\(H < \infty\)有限带宽）。
潜在/不可观测量：\(\beta^*\)（目标参数）、时间协方差矩阵\(\Sigma_h\)（虽然假设已知以进行证明，但在真实数据中未知）、噪声\(\varepsilon_t\)。注意：时间序列依赖完全来自\(X_t\)自身，而噪声\(\varepsilon_t\)是独立于\(X_t\)且自身i.i.d.——这是作者的关键简化假设，使得问题退化为“有依赖的协变量+独立误差”的回归模型，与i.i.d.版本的区别仅在于协变量分布的结构。
估计量：最小范数插值估计量（minimum-norm interpolator），即：
\[\hat{\beta} = \arg\min_{\beta} \| \beta \|_2 \quad \text{subject to} \quad Y_t = X_t^\top \beta \ \forall t=1,\dots,n.\]
无正则化参数，训练误差为零。当\(p > n\)时解唯一，等价于\(\hat{\beta} = X^\top (XX^\top)^{-1} Y\)（若\(XX^\top\)可逆；否则使用伪逆）。
风险度量：过参数化风险 (excess risk)，定义为
\[\mathcal{R}(\hat{\beta}) = \mathbb{E}[\ (X_{test}^\top \hat{\beta} - X_{test}^\top \beta^* )^2 \mid \mathcal{D}\ ]\]
其中\(X_{test}\)是独立于训练数据但从与\(X_t\)相同分布（平稳分布）中新抽取的测试协变量，\(\mathcal{D}\)是训练数据。

第二步：最小内核——单变量平稳高斯序列的例子¶

为了让核心思路一目了然，考虑一个极端的特例：

设定退化为：\(p = \infty\)（无限维Hilbert空间），但可以理解为\(p\)非常大并假设\(\Sigma_0\)的谱衰减。为了简洁，考虑协变量为一维的\(m=1\)（即\(X_t\)是标量值的时间序列），然后我们可以想象将\(x_t\)嵌入到高维特征空间（但直观看会丢失）。实际上更直观的最小内核是：\(X_t\)自身已经是高维(multivariate)的，但假设它们是按时间索引的独立高斯向量的线性变换？可以换个思路，用如下最小设定：

最小特例：\(p = 2n\)，且\(X_t\)是从一维平稳AR(1)过程按不同滞后项生成的协变量：\(X_t = (z_t, z_{t-1})^\top\)，其中\(z_t\)是均值0、方差1的一维AR(1)：\(z_t = \phi z_{t-1} + \eta_t\)，\(\eta_t \sim \mathcal{N}(0,1-\phi^2)\)，\(\phi \in (-1,1)\)。这样\(p=2\)，显然不过参数化——不满足\(p > n\)。我们再增加\(p\)：让\(X_t\)的每个维度是\(z\)的不同滞后的非线性变换？太复杂。

最好的最小内核是保留\(p \gg n\)，但把协变量过程简化为“高斯白噪声过程”的滑动平均（MA）。例如，令\(X_t \in \mathbb{R}^p\)，\(p > n\)，且有结构\(X_t = A \xi_t\)，其中\(A\)是一个\(p \times p\)确定性矩阵，\(\xi_t \sim \mathcal{N}(0, I_p)\)且在时间上独立（这样\(X_t\)本身在时间上是独立的！错误）。

标准的最小内核应直指作者的核心创新：协变量在不同时间步上的“方向性依赖”。作者的核心结果依赖\(\Sigma_h = \text{Cov}(X_t, X_{t+h})\)之间的乘积 \(\Sigma_h \Sigma_{h'}\)的谱范数。为了看到这一点，考虑一个最简单的双时间点情形(n=2, p很大)。可观测：\((Y_1, X_1), (Y_2, X_2)\)。定义协方差块：

\[\Sigma_{1|0} = \text{Cov}(X_1, X_1) - \text{Cov}(X_1, X_2) \text{Cov}(X_2, X_2)^{-1} \text{Cov}(X_2, X_1)\]

这看起来像偏协方差。但作者的“coherence”用\(\|\Sigma_h \Sigma_{h'}\|\)（或更精确的\(\|\Sigma_{t_1 t_2} \cdots \Sigma_{t_{k}t_{k+1}}\|\)）来衡量依赖强度。一个最简单的体现：如果\(\Sigma_1\)（即\(\text{Cov}(X_t, X_{t+1})\)）与\(\Sigma_0\)在谱意义上“垂直”（即\(\Sigma_1\)的列空间正交于\(\Sigma_0\)的大特征向量空间），那么时间依赖对良性过拟合几乎无影响——这就是相干性小的情况。

因此不需要展开具体AR(1)例子；读者只需记住：核心思路是跟踪协方差矩阵乘积的谱范数。最小内核就是证明：当\(p\)大且时间依赖弱到使乘积范数有界时，插值估计量的风险可以像i.i.d.情形一样收敛。这已足够。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：过参数化线性回归中，当协变量来自一个平稳时间序列而不是i.i.d.样本时，最小范数插值估计量（interpolation estimator）的过参数化风险（excess risk）的非渐近上界是什么。
核心工具/方法：将数据协方差矩阵的块结构（时间协方差矩阵\(\Sigma_{t,s}\)）的谱分析作为主要工具，导出了一个风险上界，其中控制项是时间协方差侧面积（temporal covariance coherence）——具体即不同时间步协方差矩阵乘积的谱范数，并利用Hanson-Wright不等式、矩阵集中不等式等概率工具处理随机性。
主要结论：风险上界由两项求和构成——近似误差（\(n\)个训练样本保留的信号部分）和估计误差；估计误差项依赖于时间协方差相干性，相干性越大（依赖越强），收敛越慢。作者证明在一定的谱条件下，风险可以收敛到0（良性过拟合发生），且收敛速度由相干性决定——相干性的谱衰减越快，风险收敛越快。

关键设定与假设¶

数据生成：\(Y_t = X_t^\top \beta^* + \varepsilon_t\)，\(X_t \in \mathbb{R}^p\)，\(\varepsilon_t\) i.i.d. 均值为0，方差\(\sigma^2\)，与\(X_t\)独立。
\(X_t\)的分布：平稳时间序列，不一定高斯，但假定是亚高斯随机向量（sub-gaussian random vector）。
协方差结构：定义矩阵\(\Sigma_{t,s} = \text{Cov}(X_t, X_s)\)（\(t,s=1,\dots,n\)）。核心假设：存在一个有限的整数\(H\)，使得当\(|t-s| > H\)时\(\Sigma_{t,s}=0\)（即有限依赖宽度）。这是时间序列分析中常见的“有限记忆”假设，极大地简化了分析。
与i.i.d.假定的对比：在Bartlett et al. (2020)中，\(X_t\)是i.i.d.，所以\(\Sigma_{t,s}=0\)对\(t\neq s\)，且\(\Sigma_{t,t}=\Sigma\)。本文中，\(\Sigma_{t,s}\)可以非零，但作者引入“相干性”\(\mathcal{C} = \sup_{t_1,\dots,t_k} \| \Sigma_{t_1 t_2} \cdots \Sigma_{t_{k-1} t_k} \|\)（精确形式见原文）作为控制量。相比Basu & Michailidis (2015)的假设（要求\(\sum_{h=-\infty}^{\infty} \Sigma_h\)的谱范数有界），本文只要求有限宽度H下的乘积谱范数有界——这是一个更强的结构性假设（有限宽度），但在该假设下的有界强度要求更弱（乘积而非求和）。
额外技术假设：假设\(\Sigma_{t,t} = \Sigma_0\)对所有t相同（平稳性），且\(X_t\)的有效秩（effective rank）与i.i.d.情形相关性类似，但被相干性项扭曲。

主要结果¶

定理1（风险上界）：在假设\(\{\varepsilon_t\}\) i.i.d.且与\(\{X_t\}\)独立、\(\{X_t\}\)平稳且具有有限宽度H下，存在通用常数\(C>0\)，使得对任意\(\delta\in(0,1)\)，以至少\(1-\delta\)的概率，有
\[\mathcal{R}(\hat{\beta}) \le C\left[ \|\beta^*\|_2^2 \cdot r_{\text{approx}} + \frac{\sigma^2}{n} \cdot r_{\text{est}} \right]\]
其中\(r_{\text{approx}}\)和\(r_{\text{est}}\)由有效秩和相干性刻画。关键点：（1）当相干性小（依赖弱）时，\(r_{\text{est}}\)逼近i.i.d.情形下的有效秩\(r(\Sigma_0) = \frac{\text{tr}(\Sigma_0)}{\|\Sigma_0\|}\)；（2）相干性允许一个多项式衰减项——意味着时间依赖本质上只通过一个乘数因子增加风险，只要该因子有限，风险仍然收敛于0。
定理2（收敛速率）：在定理1设定下，假设\(\Sigma_0\)的谱以速率\(k^{-\alpha}\)（\(\alpha > 1\)）衰减，相干性\(\mathcal{C}\)有界（例如来自AR(1)），则风险收敛率为\(O_p\left( \frac{p}{n} \right)^\nu\)，\(\nu\)由\(\alpha\)决定。收敛速率比i.i.d.情形慢，但慢的程度来自相干性与谱衰减的交互。如果依赖太强（相干性发散），收敛可能完全失败——这正是“依赖会阻碍良性过拟合”的作者论点。
需要指出的限制：定理1是在\(X_t\)为高斯过程的假定下证明的（见假设4），这是关键但introduction并未强调；亚高斯情形只给了粗略上界。读者应核实原文假设是否明确为高斯。

证明路线与技术技巧¶

整体路线（5步主干）： 1. SVD分解与风险分解：将插值估计量\(\hat{\beta}\)表示为\(S^{-1}_{XX} (X^\top Y)\)的版本（伪逆），其中\(S_{XX} = \frac{1}{n} X^\top X\)（\(n\times n\)Gram矩阵）。通过奇异值分解将风险写成特征值加权和的形式。这一步与Bartlett et al. (2020)的框架一致。 2. 谱分解块矩阵：关键创新在于处理\(S_{XX}\)——它是非对角的（因为时间依赖），因此经典的特征值分解不能直接给出有效秩结构。作者将\(S_{XX}\)视为一个\(n\times n\)分块Toeplitz矩阵，其第\((t,s)\)块是\(\Sigma_{t,s}\)。它决定了数据协方差矩阵的谱。 3. 引入相干性：作者引入相干性\(\mathcal{C}\)并证明大部分特征值被\(\mathcal{C}\)绑定。具体来说，证明了Gram矩阵的谱范数被\(\mathcal{C}\)控制，而最小特征值的下界也由\(\mathcal{C}\)决定。关键跳跃：对于时间依赖数据，即使\(\Sigma_0\)有很好的谱衰减，Gram矩阵的最小特征值也会因为依赖而变得更小（即数据的有效维数增加）。 4. 风险界的非渐近分析：利用上述谱界，结合Hanson-Wright不等式和Rudelson-Vershynin的集中性结果（来自被引[5]），对风险表达式中的随机项进行链式加密（chaining argument）。具体地，需要处理多个高维随机向量的多重乘积的期望——这导致了相干性\(\mathcal{C}\)的出现。 5. 整理边界：将结果重新表达为近似误差和估计误差的和，获得定理1的形式。

关键跳跃点： - 核心引理：\(n\times n\) Gram矩阵的逆（数据投影矩阵）的谱范数与相干性\(\mathcal{C}\)成正比。作者利用矩阵Bernstein不等式（来自Vershynin或Koltchinskii-Lounici）处理块协方差矩阵的样本估计，证明当\(n\)足够大时，样本Gram矩阵与理论块矩阵的偏差被控制。 - 难点卡在哪：序列依赖破坏了标准集中不等式的独立性假设。解决方法是利用扩张技巧：将时间序列的每H个步骤视为一个“块”（block），使得块之间近似独立（因为依赖宽度有限H）。这使得块划分后的数据可以应用标准的矩阵集中不等式。 - 所用的具体工具： - Hanson-Wright不等式（Rudelson–Vershynin，被引[5]）：处理二次型\(\|X_t^\top \hat{\beta}\|^2\)的集中性。 - 矩阵Bernstein不等式（Vershynin, 2018）：控制样本协方差矩阵与真值的偏差。 - 分块（blocking）技巧：将n个时间点分成n/H个不重叠的block，block内依赖但block间独立（利用有限宽度H）。 - 谱范数的乘积估计：将协方差矩阵乘积视为算子，利用奇异值分解估计其作用在特征向量上的效果。

真实例子与应用¶

本文为纯理论，无实证例子。 作者在Section 4中讨论了三个具体的依赖过程（AR(1)、MA(1)、周期性过程），用以验证定理中的相干性条件是否满足以及风险收敛速率如何计算。但这些是理论分析中的例子，而非真实数据实验或模拟实验。这些例子表明： - AR(1)过程满足相干性有界条件，且收敛速率随依赖强度\(|\phi|\)增大而减慢。 - MA(1)过程代价小——相干性本身就是有限宽度H内的乘积，因此风险收敛速率与i.i.d.情形几乎相同。 - 周期性过程（如季节效应）可能使相干性保持中等到大的值，但仍保证收敛。 - 注意：没有数值模拟来展示该上界在有限样本下的tightness（紧性）。这与Bartlett et al. (2020)包含合成实验的做法不同，降低了结果的可验证性。

🔎 结论是否比证明窄？¶

是。一个核心的差距是：作者在证明中假定噪声\(\varepsilon_t\)与协变量\(X_t\)独立，但他们将“噪声与协变量独立”在整个introduction中并未强调。这意味着： - 在可被算作纯理论延伸的情况下，该结果只在噪声独立于协变量的全部过去、现在、未来的情况下成立——这是一个比标准线性回归更强的外生性条件，在时间序列设定中可能被违反（如自回归条件异方差、随机波动率）； - 作者在结论的表述中使用“time-series data”并没有明确排除残差自相关情形，而证明中\(\varepsilon_t\)的独立性是关键。用户应去核实文中Section 2.1假设1与假设2是否明确写明了\(\varepsilon_t\) i.i.d.且与\(X_t\)独立。

另一个缩小：假设协方差结构（\(\Sigma_{t,s}\)）已知用于导出风险上界的表达式。在实际应用中，\(\Sigma_{t,s}\)需要先估计，这可能引入额外误差（但作者没有分析estimate-and-plug-in的代价）。introduction中没有明确提及这一点。

四、开放问题¶

从“已知协方差”到“未知协方差”：本文的证明假定\(\Sigma_{t,s}\)已知（至少用于定义相干性）。在时间序列的实际应用中，协方差结构通常需要从数据中估计（例如使用Yule-Walker方程估计AR参数）。把这个“plug-in”步骤纳入理论，导出风险上界，是一个自然的下一步。扎根点：Section 2.1的模型设定隐含假定\(\Sigma_{t,s}\)已知，并未给出估计误差项；Section 6的“讨论”部分简短提及“若协方差未知可先估计”，但未展开分析。
去椭圆化噪声的依赖结构：本文假定\(\varepsilon_t\)在时间上独立。删除这一假设，考虑\(\varepsilon_t\)自身也具有时间序列依赖（但保持与\(X_t\)独立或者有条件独立），是否仍可以得到类似的良过拟合边界？这涉及对纯时间序列回归模型的分析。扎根点：定理1的证明中，\(\varepsilon_t\)独立性用于Hanson-Wright不等式；若\(\varepsilon_t\)也是时间序列，需要新的集中性工具。
紧性上界研究：作者得到的是非渐近上界，但未证明这个上界是紧的（如Tsigler & Bartlett 2020所做）。是否可以通过构造匹配下界（例如将相干性视为必要条件的下界），来证明本文的“相干性”是良性过拟合在时间序列下必要的量？扎根点：Section 5讨论中对AR(1)例子的分析提到风险上界的渐近行为，但没有反向匹配。
有限宽度假设的放松：本文的核心假设是存在有限整数\(H\)使得当\(|t-s| > H\)时\(\Sigma_{t,s}=0\)（有限记忆）。这是很强的简化——它排除了长记忆（long memory）过程（如分数差分噪声）。证明中blocking技巧依赖有限\(H\)。扩展到在\(H\to\infty\)（无穷记忆，如长记忆过程）的设定，或依赖以指数/幂律速率衰减但非零的情形，需要不同的证明策略（如依赖混合系数或谱密度）。扎根点：Section 2.2假设3明确要求“存在H < ∞”。

Maintained by 陈星宇 · Homepage · Source on GitHub