Series ridge regression for spatial data on Rd¶

作者: Daisuke Kurisu, Yasumasa Matsuda
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么：这个子方向关注的是 在空间依赖数据（spatially dependent data）下，如何进行非参数回归函数的估计与统计推断。核心统计问题是：当一个回归函数的观测点在空间上不规则地分布，且观测值（残差、协变量）之间存在空间相关性时，我们能否以可证明的最优速率来估计回归函数，并构造有效的置信区间？该方向正处于“从核方法为主向系列估计/sieve方法范式迁移”的活跃期。传统上，空间非参数回归主要依赖核估计（如Nadaraya-Watson），而系列估计（如splines, wavelets）凭借其更适应高维、更易实现后验推断（如通过线性算子的解析形式）的优点，正逐步被引入空间设定。
发展脉络（history）：
- 奠基工作：空间数据的非参数核估计：Biau & Cadre (2004) 和 Hallin et al. (2004) 等工作为空间数据下的核密度估计和核回归建立了混合（mixing）设定下的渐近理论，例如给出了在α-mixing条件下的收敛速率。它们是后来所有空间非参数回归的基线。
- 主要进展：平滑样条与基函数方法：Wang (2004) 和 Fujiki et al. (2011) 开始将平滑样条（smoothing splines）应用于空间趋势估计，但主要限于规则格点（grid）或可用张量积构造的区域。它们的理论依赖于格点空间的独立同分布或弱混合假设，对不规则采样点的处理不够general。
- 当前Frontier：系列估计与optimal rate：Newey (1997) 和 Chen (2007) 为非参数系列估计（sieve/series estimation）建立了统一的理论框架（包括在独立同分布或高度混合时间序列下的渐近性质），但未处理空间依赖协变量（spatially dependent covariates）和混合increasing domain（即采样区域随样本量增长，但密度也变化）的场景。在空间计量经济学中，McMillen (2005) 和 Kelejian & Prucha (2010) 的工作则更多关注参数空间自回归模型的GMM估计。
- 本文：Kurisu & Matsuda (2022) 是第一个在通用空间序列估计框架下，系统处理L2-惩罚系列估计（系列岭回归）的渐近理论，并且其框架同时兼容纯increasing domain（区域扩大，采样点密度不变）和混合increasing domain（区域扩大，采样点密度下降）。它弥合了“Newey-Chen系列理论”与“空间非参数核理论”之间的代沟。
子线索聚类：
- 线索A：基函数类型：文献主要沿着核估计 (Kernel) vs. 系列估计 (Series,如splines, wavelets)展开。核估计的空间理论（Hallin et al., 2004）相对成熟，而系列估计在空间依赖下的统一渐近理论几乎是空白。本文属于系列估计谱系。
- 线索B：采样框架 (Sampling Design)：不同作者对“如何让采样区域和点增长”的模型不同。一些（如Hallin et al., 2004）采取纯increasing domain（固定密度）；另一些（如Bai et al., 2018）考虑纯固定域（区域固定，点变密）。本文的工作是混合increasing domain，它更实际，因为现实中的采样点可能同时覆盖区域扩大和密度变化（例如先局部密集采样，再向外稀疏扩展）。
- 线索C：空间过程模型：涉及误差项或协变量的空间依赖性模型。经典文献多用混合条件（mixing conditions）（如α-mixing, β-mixing）；本文则使用“物理依赖系数（physical dependence measure）”和“稳定性条件（stability condition）”来刻画空间相关性，这是由时间序列文献（Wu, 2005）引入并推广至空间的。具体例子覆盖Lévy-driven CARMA随机场，这是比高斯过程更宽泛的厚尾/非高斯相关过程。
这个方向在追问的核心问题（2-4个）：
1. 最优速率（Minimax Rate）：在给定的空间依赖强度（如短程相关 vs. 长程相关）下，非参数回归函数的最优 uniform（一致）和L2收敛速率 是什么？能否由系列估计达到（与核估计并驾齐驱）？
2. 置信区间构造：空间依赖数据下的非参数回归，如何构造点wise或simultaneous置信区间？区间宽度如何受空间相关性影响？
3. 惩罚参数/基函数的选取：对于空间数据，如何选择series的基数K和惩罚参数λ，以实现自适应到未知的平滑度（如通过数据驱动CV）？这一块在本文中未完全解决。
4. 计算-统计权衡（Computational-Statistical Tradeoff）：系列估计（尤其是splines）的优势是可以用线性代数快速求解（O(K³)），而传统核估计需要配置每个评估点。这种计算优势在空间大样本下如何体现？
⚠️ 作者的framing（必须明确标注）：作者把缺口框架成：“现有空间非参数回归理论主要聚焦于核估计，而系列估计（splines/wavelets）在空间依赖设定下的一致收敛速率和CLT几乎是空白；特别地，对包含空间依赖协变量的非参数回归模型，没有现成的理论上限。” 这使得本文的“系列岭回归”成为填补这个具体缺口的自然选择。
- 被淡化/回避的竞争路线：作者强推L2惩罚（岭回归）作为正则化手段，但没有详细讨论其他正则化方式，如Elastic Net或LASSO（后者在协变量高维时更有意义，但本文协变量是固定的K维基函数）。另外，在“如何构造置信区间”一节，作者提出的方法是基于渐近正态性的plug-in，并未讨论更现代、更稳健的分位数回归/联合推断或bayesian bootstrap方法。
- 什么明显该被引/该存在、却没出现在intro里？：
  1. 关于空间数据的贝叶斯非参数：如Gaussian Process Regression (Kriging)（Cressie, 1993; Banerjee et al., 2014）在空间统计中极为重要。Kriging也是一种带惩罚的径向基函数（RBF）系列估计，但作者未将其与自己的系列岭回归理论进行对比（尽管在稀疏场景下Kriging的计算成本比splines高）。
  2. 关于非参数回归的适应性（Adaptivity）：如Lepski方法（在非空间时间序列中常见）或stepping-stone选取基数的技巧，本文未提及。对于“数据驱动选择K”这一实际使用的技术，文中无理论支持，这是一个明显缺口。
  3. 关于空间计量经济学中的“矩阵指数空间变换（MESS）”（LeSage & Pace, 2007），这是一种处理大N空间数据的快速近似方法，可能与series ridge的快速计算有联系，但未被提及。
张力：作者在使用物理依赖系数时声称其覆盖Lévy驱动的CARMA随机场。但该类的长程相关（如依赖衰减慢于幂律）下的收敛速率声明，隐含假设了物理依赖系数的几何衰减。若依赖是多项式衰减（长程相关，如空间回归中的普遍特征），则最小化缩放率（minimax rate）是否会下降？文中在定理2.2中限制依赖系数须以“几何速率”衰减，而对多项式衰减仅暗示“推导可以类似”，但未具体给出。这暗示了短程相关设定下的理论余量；长程相关可能会削弱速率。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( R_n \subset \mathbb{R}^d \)：采样区域。一个随着样本量n而扩大的集合。
- \( \{s_i\}_{i=1}^n \)：采样点位置（观测到的，在 \(R_n\)内不规则分布）。
- \( \{(Y_i, \mathbf{x}_i)\}_{i=1}^n \)：可观测数据（在位置 \(s_i\) 上）。
- \( Y_i \)：标量响应变量。
- \( \mathbf{x}_i := \mathbf{x}(s_i) \)：协变量向量，可能包含空间位置本身（在空间趋势模型中）或其它导致空间依赖的协变量。
- \( Y_i = f_x(s_i) + \varepsilon_i \)：模型（非参数回归模型），\( f \)是未知回归函数，\( \varepsilon_i \)是均值为0的空间依赖误差项。
- \( \theta_j \)：目标参数的线性泛函（用于构造置信区间或进行投影）。
- \( \{p_k(\cdot)\}_{k=1}^K \)：系列近似基函数，通常是张量积样条（spline）或小波（wavelet）。
- \( \mathbf{B} = (p_k(s_i))_{i=1..n, k=1..K} \)：\( n \times K \) 的设计矩阵。
- \( \boldsymbol{\beta} \in \mathbb{R}^K \)：系列系数向量（我们要估计的对象）。
- \( K := K_n \)：基函数的数量。
- \( \lambda := \lambda_n > 0 \)：岭回归（L2惩罚） 参数。
- \( \| \cdot \|_2 \)：L2范数（常用作惩罚项）。
- \( \| \cdot \|_\infty \)：uniform（一致）范数。
模型：论文考虑两种模型，但核心都是线性回归形式下的系列估计：
1. 空间趋势回归模型: \( Y_i = g(s_i) + \varepsilon_i \)。回归函数\( g(\cdot) \)被认为位于一个平滑函数集合（如Sobolev空间）中。目标是用\( g(s_i) \approx \sum_{k=1}^K \beta_k p_k(s_i) \)来近似\( g(\cdot) \)。用序列岭回归：最小化 \( \sum_{i=1}^n (Y_i - \sum_{k=1}^K \beta_k p_k(s_i))^2 + \lambda \sum_{k=1}^K \beta_k^2 \)。
2. 带空间依赖协变量的非参数回归模型: \( Y_i = m(\mathbf{x}_i) + \varepsilon_i \)。此时协变量\( \mathbf{x}_i \)本身可能是空间相关的。目标用\( m(\mathbf{x}) \approx \sum_{k=1}^K \beta_k p_k(\mathbf{x}) \)。
可观测数据：
- 可观测：\( \{ (s_i, Y_i) \} \) 或 \( \{ (s_i, \mathbf{x}_i, Y_i) \} \)。研究者知道点在世界坐标系中的位置\( s_i \)，并观测到在该位置上的\( Y_i \)和可能存在的协变量\( \mathbf{x}_i \)。误差项\( \varepsilon_i \)是不可观测的，它的空间相关性结构是未知的（由某个空间随机场生成）。
- 想要但观测不到：
  - 回归函数\( g(\cdot) \)或\( m(\cdot) \)的精确值（即潜在连续曲面）。
  - 误差向量的全协方差结构（\( \text{Cov}(\varepsilon_i,\varepsilon_j) \)）。我们只能通过\( Y_i - \hat{g}(s_i) \)的残差来推断相关性，但这依赖于估计的精度。

第二步：讲最小内核¶

最简特例：纯趋势回归 + 一维区域 + B-spline基 + i.i.d误差

假设： - 维度：\( d=1 \)，采样区间为 \( R_n = [0, n^{1/2}] \)（严格来说，区域随n扩大，但为了简单，认为长度随n增长）。 - 采样点：\( s_i \)在区间\( R_n \)上按固定密度的泊松点过程生成（这是“pure increasing domain”特例）。点密度不随n变化。 - 误差：不相关同方差（即\( \varepsilon_i \)是白噪声，没有空间依赖），这在论文框架中是依赖结构的特例。尽管论文的主要贡献在空间依赖下，但理解基线情况对理解框架至关重要。 - 基函数：使用二次B-spline（\( p=2 \)），基函数个数\( K \)趋向无穷（\( K \to \infty\)），且 \( K = o(n)\)。每个B-spline支撑在局部三个相邻节点区间上。 - 惩罚：使用标准的二阶差分惩罚（阻止线性以外的曲率），可用\( \lambda \)控制拟合的曲率。间接近似于惩罚splines (P-splines)。

这时的最小问题是什么？

我们要使用序列岭回归来估计曲线\( g(s) \)：

\[\min_{\boldsymbol{\beta} = (\beta_1,...,\beta_K)} \sum_{i=1}^n \left(Y_i - \sum_{k=1}^K \beta_k B_k(s_i)\right)^2 + \lambda \sum_{k=2}^K (\beta_k - 2\beta_{k-1}+\beta_{k-2})^2\]

结果（直观但需要数学）： - 偏置（Bias）：由于B-spline的局部近似性质，每条基函数覆盖区域只有\( \frac{\text{区域长度}}{K} \)。当\( K \)增加时，偏置减小。理论上，如果\( g(\cdot) \)平方可积且二阶导一致有界，则\( \text{Bias}^2 = O(K^{-4}) \)。 - 方差（Variance）：因为每个\( Y_i \)的方差是\( \sigma^2 \)，而每个B-spline系数\( \beta_k \)被大约\( \approx \frac{n}{K} \)个样本点上的B-spline值支撑，由于基函数是局部的（在\( R_n \)上，每个B-spline中心位置左边的点密度保持不变），梯度估计的方差约为 \( \text{Var}(\hat{\beta}_k) = O(\frac{K}{n}) \times \sigma^2 \)（乘以某个常数，受惩罚影响）。LB2惩罚会收缩方差。当\( \lambda \)越大，越平滑，方差越小。 - MSE分解：在点\( s_0 \)处的均方误差\( MSE(s_0) \)正比于\( \text{Bias}^2(s_0) + \text{Var}(\hat{g}(s_0)) \approx C_1 K^{-4} + C_2 \frac{K}{n} \)（忽略惩罚项的精细影响）。最优的\( K \)使两者平衡：\( K_{\text{opt}} \propto n^{1/5} \)，此时（最优）收敛速率\( MSE^{\frac12} = O_p(n^{-2/5}) \)，这刚好是经典非参数回归（实线）在二阶光滑条件（Sobolev类）下的minimax最优L2速率。 - 为什么CLT成立：对于特例\( \varepsilon_i \overset{i.i.d.}{\sim} (0,\sigma^2) \)，系列系数\( \hat{\boldsymbol{\beta}} \)是样本均值的线性变换（因为基函数是局部的线性系统），因而\( \hat{g}(s_0) \)是加权和，由i.i.d.假设和Linderberg-Feller CLT，渐近正态。

这个最小内核揭示什么？ 它展示了论文的核心含义与理论引擎：在不依赖空间依赖的情况下，系列岭回归可以达到 minimax最优L2速率和渐近正态性。在此基础上，论文的贡献就在于： 1. 证明当误差\( \varepsilon_i \)存在空间相关（如物理依赖系数衰减）时，该平方偏置-方差分解和渐近正态性质仍成立，只是方差表达式变复杂（包含了协变量与空间相关性之间的相互作用），收敛速率可能变慢（若依赖强度足够大，会产生“样本降低的有效度”即\( n_{\text{eff}} < n \)）。 2. 证明该最优性推广到uniform rate: \( \|\hat{g} - g\|_{\infty} \) 也能达到minimax最优速率（对于splines/wavelets），这是统计推断（如同步置信带）的基础。

三、这篇论文做了什么（本次重心）¶

三句话： ① 研究了：在\( \mathbb{R}^d \)上不规则空间采样点的空间趋势回归和非参数回归中，L2-惩罚系列估计（系列岭回归）的渐近性质。 ② 核心工具/方法：使用物理依赖系数和稳定性条件刻画空间依赖，并给出在混合increasing domain框架下的一致（uniform）收敛速率、L2收敛速率以及联合渐近正态（CLT）的通用理论。 ③ 主要结论：证明了spline和wavelet系列的估计量在空间依赖结构下仍能达到minimax最优uniform和L2收敛速率（与独立同分布设定下的经典rate相同），并给出了基于渐近正态性的置信区间构造方法。
关键设定与假设（在第二节最小记号基础上补全）：
- 采样设计：假设观测点集合\( \{s_i\}_{i=1}^n \)在区域\( R_n \subset \mathbb{R}^d \)内由一个随机整数密度\( N(\cdot) \)的泊松过程或类似点过程生成。区域满足递增测度条件（\( \text{vol}(R_n) \to \infty \)），并允许区域密度既可以是纯increasing domain（采样点密度不随区域扩大而下降）也可以是混合domain（采样点密度下降）。这是非常通用的框架，因为它可以模拟从中心向外稀疏采样的实际场景。
- 依赖性条件（物理依赖性 Physical Dependence）：定义误差或协变量过程关于位置\( \mathbf{s} \)的Lipschitz变换。如果一个随机场\( \{ Z(s): s \in \mathbb{R}^d \} \)在“施加一个点扰动后”的效果（以Lp范数衡量）随“扰动位置与原位置的距离”而指数或多项式地衰减，这就刻画了短程依赖。作者使用了稳定性条件（Stability Condition, 假设1.2/2.1/3.1）：对于某个函数\( h \)，存在衰减速率的系数。
- 弱则条件：假设误差的L2-范数有界，或者满足矩条件，保证随机变量的高阶矩有限，使得中心极限定理适用。
- 系列估计条件: 张量积spline或wavelet的基函数个数\( K \)需随\( n \)增长，满足 \( K \to \infty \), \( K / n \to 0 \); 此外，假设基函数满足三角不等式（逼近性质）和线性独立（设计矩阵的最小特征值以正概率远离0），保证最小二乘解唯一。用L2-惩罚（ridge）来稳定数值并引入额外平滑。
- 相比已有文献：相比Biau & Cadre（2004核方法）或Hallin et al.（2004核密度估计），本文放宽了空间依赖模型的要求（从mixing升级到物理依赖性）；相比Newey（1997独立同分布下的sieve），本文将渐近理论完整地实现了带到空间依赖。
主要结果：
- 定理2.1 (Uniform and L₂ Convergence Rates)：对于空间趋势回归模型，在适当的依赖性条件下，假设spline/wavelet逼近误差以\( \rho(K) \)衰减（例如\( \rho(K) \sim K^{-p/d} \)，\( p \)为光滑度），则该系列岭估计\( \hat{g}_n(\mathbf{s}) \)的Uniform和L₂收敛速率的上界为：\( O_p( \rho(K) + \sqrt{\frac{K}{n_{\text{eff}}}})\)。其中\( n_{\text{eff}} \)是“有效样本量”，它比\( n \)小，依赖于空间相关性的程度（对于纯短程依赖，\( n_{\text{eff}} \asymp n\)；若是长程依赖，\( n_{\text{eff}} \)减小，收敛速率变慢）。这是核心上界。
- 定理3.1 & 3.2 (Optimal Minimax Rates for Splines/Wavelets)：在特定假设（如Sobolev光滑类和依赖衰减速度足够快）下，证明了spline和wavelet系列的估计量可以达到非参数回归的最优minimax收敛速率（与经典\( n^{-2p/(2p+d)} \)一致）。这主要是通过匹配上界（即上述定理2.1中利用K的选择来达到\( \rho(K) \asymp \sqrt{K/n_{\text{eff}}}\)）和已知的下界（来自平滑类的minimax下界在独立同分布下是已知的，并证明在依赖下不会被超越太多。）来实现的。这个匹配显示了系列估计在空间依赖下并未失去Minimax最优性。
- 定理4.1 (Multivariate CLT)：对估计量的有限维线性泛函（例如, \( \hat{\theta}_j = \int_{R_n} w_j(\mathbf{s})\hat{g}_n(\mathbf{s}) d\mathbf{s} \)），建立了多元中心极限定理（渐近正态）。数学上，证明了\( \sqrt{n}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}) \xrightarrow{d} N(0, \Sigma) \)。证明的关键在于：将估计量表示为空间依赖残差的加权线性组合，再应用一个关于空间依赖随机场的CLT（该CLT本身就是论文的一个重要技术引理）。
- 置信区间：基于CLT，直接提出了点wise置信区间和联合置信区间的构造方法（需要估计方差\( \Sigma \)）。文中没有做精细的模拟，只给出了理论构造。
证明路线与技术技巧：
- 整体路线：核心定理（定理2.1和4.1）的证明步为三部分：
  1. 误差逼近：将估计误差分解为：估求偏置（由于用K个基函数有限逼近平滑函数\( g \)引起） + 估计方差（由于经典样本噪声与空间依赖的共同影响）+ 惩罚偏置（ridge惩罚收缩系数引起的增加偏置）。控制误差的期望，而非直接控制样本随机性。
  2. 使用矩阵的迹技巧（Lemma A.1）：对于岭回归解\( \hat{\beta} = (B^T B + n\lambda I)^{-1} B^T Y \)，它的偏置和方差可以转化成含有\( B^T B \)的逆的矩阵运算。作者利用对\( B^T B \)的最小特征值的下界和最大特征值的上界（假设，并且对于splines在连续域上成立）来放大了，得到关于\( K \)、\( \lambda \)的简单上界。
  3. 处理空间依赖：在方差项中，原本对\( \epsilon_i \)独立假设下的方差\( \text{Var}(\hat{g}(s_0)) = \sigma^2 \times \)某向量范数，被替换成了协方差矩阵\( \text{Cov}(\varepsilon) \)的二次型。为了控制它，使用物理依赖条件和随机网络分解（coupling techniques）：将空间不规则的观测点分解成近乎独立的随机块（类似于空间的时间序列截面分解），再用大数定律与CLT分别控制。关键是设计矩阵\( B \)是线性系统，误差是随机场，二者独立。为了得到方差上界，需要控制协方差矩阵的谱范数与Hilbert-Schmidt范数。
- 关键跳跃点和难点：
  - 从独立到空间依赖的方差控制：在独立情形，方差上界约为\( \frac{K}{n} \)。在空间依赖下，方差变为\( \frac{1}{n} \sum_{i,j} L_i L_j \text{Cov}(\varepsilon_i,\varepsilon_j) \)，其中\( L_i \)是影响向量的元素。难题：如果不假设依赖性较弱（短程相关），此方差可能很大（因相邻点贡献高度相关，类似information redundancy）。作者通过物理依赖假设保证整体自协方差矩阵的范数有界，从而将方差仍控制在\( \frac{K}{n} \)的同阶（若依赖足够短），否则方差的阶数会退化（但论文主要在快速衰减下给出上界）。
  - Uniform Rate的获得：从L2到Uniform的跨越需要更精细的工具。作者使用了“加权Euler法”或“Sobolev嵌入不等式”加上“局部Lipschitz性质”（对splines天然的成立），将对均匀范数的控制转化为对L2范数和一个空间梯度的控制。梯度由L2-惩罚项所控制（因为二阶惩罚本质上限制了变化）。
  - CLT的证明：基本策略是将泛函\( \hat{\theta} \)表示为双线性形式：\( \hat{\theta} = \sum_{i=1}^n w_i Y_i \)。证明过程需要：\( w_i \)是设计矩阵和惩罚矩阵的函数。证明的关键是“Cramér-Wold device”和证明线性组合满足Lindeberg条件。验证Lindeberg条件时，需要控制由空间相关性带来的维度的有效抽取：点不能视为独立，但通过Coupling（将空间依赖的随机场与一个独立同分布的场进行匹配），利用依赖性衰减速度（假设），可以证明Lindeberg条件在适当的缩放下依然成立。这依赖于定理4.1的引理B.6-12（矩阵的谱边界）。
- 技术技巧点名：
  - Sobolev型嵌入/范数不等式：用于从L2估计精度导向Uniform估计精度。
  - 物理依赖性与稳定性的耦合论证：在CLT证明中用于创建“耦合序列”，从而借用独立情形的Lindeberg-Feller定理。
  - 多步投影定理：当处理非参数回归（协变量\( \mathbf{X} \)空间依赖）时，需要应用的条件期望和独立性的技巧（因为\( X \)和误差可能相关）。
  - 矩阵迹不等式：用于分析惩罚对条件数的影响。
  - Gaussian Anticoncentration（弱用）: 在构造置信区间时可能需要。
真实例子与应用： 本文是纯理论论文，未涉及任何真实数据例子或模拟实验。论文的全部贡献限于渐近理论层面（收敛速率证明、CLT推导）。即使是对空间数据的具体应用探讨（如3.2节的实例：Lévy-driven CARMA随机场），也仅仅是作为一个理论模型例子，证明依赖结构假设足够宽泛，以覆盖这些实际中重要的随机场，而不是在一个真实的地球物理/气候数据集上跑模型。
🔎 结论是否比证明窄：
- 是的，非常典型：
  1. Minimax最优性的声明（定理3.1）：文中证明的是在非常具体的依赖结构假设（短程相关，几何衰减），并且在一个Gaussian型分布（误差项有界指数阶矩）下spline达到了minimax的最优L2速率。但是结论的语调（以及摘要）暗示了一种泛化：在所有空间依赖（即使长程）下都达到该最优？没有明确证明。定理3.1的证明过程中明确假设了依赖系数以\( O(e^{-c\|h\|}) \)几何衰减。对于长程相关（如\( \|h\|^{-\alpha} \)多项式衰减），该证明中的矩阵小块独立性将不成立，需要新的下界。
  2. 三种方法（核，spline，wavelet）：作者只说spline和wavelet达到了最优uniform和L2 rate（定理3.1, 3.2），但并没有说核估计在相同设定下会的性能差（未提供下界对比），所以这个“good”对比于i.i.d.下的minimax下界，而非对比于核估计下的结果。没有证据显示核估计在短程相关下不能达到同样的minimax rate。
  3. 置信区间构造：论文给出了一套基于CLT的构造置信区间的方法，但没有进行模拟验证（finite sample性能），没有讨论覆盖率是否超/低覆盖（over-coverage/under-coverage）的实际表现。它的实际可用性仅由渐近理论保证。

四、开放问题（点到为止，扎根具体语句）¶

多项式B-spline能否处理强依赖？ 论文在定理3.1和3.2中假设了空间依赖性以几何衰减速衰减。但当空间依赖是多项式衰减（例如长程相关的Lévy晃动，距离\( h \)下协方差衰减为\( O(h^{-\alpha}) \), \( \alpha < d \)）时，依赖衰减不够快，矩阵谱范数（\( \|B^T \text{Cov}(\varepsilon)B \| \)）可能发散，造成MSE率比独立情况差。如何推导该情况下的最优minimax率？文中有否提及？——见定理3.1证明前因，假设3.3(b)明确限制指数衰减。
数据驱动选择K和λ的方法：论文假定\( K \)和\( λ \)的序列是先验已知的（满足\( K \to \infty \)且\( K < n \)）。对于实际操作，如何设计一种完全数据驱动的方式（例如交叉验证在空间数据中的调整版）来选择这些参数，并能达到同样的最优minimax速率？——文中定理2.1的收敛速率明确依赖\( K \)和\( \lambda \)的定值（它们的阶数），但未提供自适应选择方法论。
在“moreau包围域”之外（即纯固定域），本文的混合成长域假设是为了保证“区域扩张”以消除边界效应。如果是纯固定域（例如只对Lake Volta做密集采样的流域），此时\( R_n \)不变，但其点密度以\( \sqrt{n} \)增长，那么样本量增大带来的信息增益只在局部（短程相关减少了冗余），大域非参数回归变成内插问题。本文的理论（及其手中的CLT）在纯固定域下还能否成立？——见论文第2页，定义1.1和1.2，只对混合域有效。
能否推广到函数型数据或高维协变量？ 文中约束协变量\( \mathbf{x} \)的维数很小（属于非参数回归的问题）。如果\( \mathbf{x} \)是高维（比如空间图像像素预测一个标量，一个\( p >> n \)场景），本文的L2-惩罚能否演变为LASSO惩罚或SCAD，使理论覆盖稀疏加性模型在空间依赖下的适应性？——论文结尾future work部分提及“对于高维协变量的空间依赖数据，目前的系列框架需要新的处理工具”。

Maintained by 陈星宇 · Homepage · Source on GitHub