Statistical Inference for Functional Data over Multi Dimensional Domain¶

作者: Qirui Hu, Lijian Yang
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: Tsinghua University（US News 前 50，免分进入精读）
链接: https://doi.org/10.5705/ss.202024.0344

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是 功能型数据分析中的均值函数推断，具体针对多维域（multi-dimensional domain） 上的功能型数据。根本的科学问题是：如何对一个定义在 \( \mathbb{R}^d \) 子集上的随机函数（如海洋表面温度的空间分布）的均值函数，构造带有合理覆盖概率的同时置信区域（Simultaneous Confidence Region, SCR）——即一个函数带，使得在几乎所有样本中，真实均值函数全域落在这个带内。当前成熟度：在一维域（如时间序列功能型数据）上已有成熟的SCR构造方法（如Degras, 2011；Cao et al., 2012），但在多维域上，由于协方差函数的结构更复杂、极值分布更难处理，尚无实用性强的理论框架。

发展脉络¶

根据论文作者的引述，大致线索如下：

奠基工作：Ramsay & Silverman (2005) 的教科书为功能型数据分析奠定基础，但其推断方法多为逐点置信区间或参数引导。Ramsay & Dalzell (1991) 引入功能型数据，首次将数据视为函数而非向量。Ramsay & Silverman (2002) 探讨了 smoothin 方法。
主要进展：
Li & Hsing (2010) 提出随机本征样条（random eigen-spline）估计个体轨迹，并证明其渐近性质，为两步法估计均值函数提供了理论支撑。作者引用称："Li & Hsing (2010) offered eigen-spline estimator for individual trajectories... but its inference not extended to SCR."
Zhang & Yang (2010) 和 Yang (2010) 使用 B 样条估计功能型数据，并研究了均值函数的收敛率，但仅限于点估计，无推断。
Degras (2011) 为一维域功能型数据构造了 SCR，方法基于极值分布的渐近近似，但宽度是固定（非自适应）的，即对所有 t 用相同的临界值，效率不高。
Cao et al. (2012) 提出了自适应宽度的 SCR，针对一维域，通过将均值函数估计量的最大偏差标准化为高斯过程，再使用高斯极值分布分位数构造置信带。作者特别强调："Cao et al. (2012) proposed the first uniformly adaptive SCR for functional data over one-dimensional domain."
Wang & Yang (2020) 将 SCR 扩展到稀疏设计下的功能型数据，仍限于一维域。
当前 frontier：如何将自适应宽度的 SCR 推广到多维域（如空间域）——这是 Hu & Yang (2024) 这篇论文所填补的缺口。
本文的位置：作者将 Degras (2011) 的固定宽度、Cao et al. (2012) 的一维自适应、Wang & Yang (2020) 的稀疏设计作为前驱，然后声称："No existing work has constructed a uniformly adaptive SCR for functional data over multi-dimensional domain." 本文将张量积样条（tensor product spline）用于个体轨迹的估计，并利用高斯极值分布的精确分位数比较（sharp comparison） 结果来处理多维域下极值分布的计算，从而构造出覆盖概率渐近准确、宽度均匀自适应的 SCR。

子线索聚类¶

这些被引文献大致分布在以下子线索上：

基于样条（spline-based）的估计方法：Ramsay 团队（包括 Li & Hsing, 2010；Zhang & Yang, 2010；Yang, 2010）主要使用 B 样条或本征样条对个体轨迹进行非参数估计，然后对估计量取平均得到均值函数。这一线索的核心是样条的理论性质（偏差、方差、收敛率）。
基于局部多项式（local polynomial）的估计方法：Fan & Gijbels (1996) 未直接针对功能型数据，但其局部多项式框架被用于许多衍生工作。本论文并无直接引用，但相关方法（如 Crainiceanu et al., 2012）使用惩罚样条。
基于核平滑（kernel smoothing）与同时置信带构造：Degras (2011) 和 Cao et al. (2012) 代表这一线索，直接将功能型观测视为随机过程在离散点上的实现，用核估计器或局部多项式估计均值函数，然后利用极值理论构造 SCR。
特别引用：高斯极值分布与分位数比较：这一线索来自概率论，引用 Leadbetter & Rootzén (1998) 和 Piterbarg (1996) 关于高斯过程极值的渐近分布与分位数比较结果。这是本文在推断上的技术核心，也是其能扩展到多维域的关键。

这个方向在追问的核心问题¶

如何构造渐近覆盖概率准确的 SCR，且其宽度在不同 t 处自适应变化？ 一维已有解（Cao et al., 2012），多维域暂无。
协方差函数（C(s,t)）的估计误差如何影响 SCR 的覆盖概率？ 即使是 oracle 估计（使用真实轨迹），也需处理极值分布的归一化问题；若用估计的协方差，则需证明极值分布的极限分布仍相同。
在稀疏设计（few observations per subject）下，多维域 SCR 是否仍可行？ Wang & Yang (2020) 给出了一维稀疏设计的答案，多维域尚无。
假设检验的功率分析：构建完 SCR 后，自然可以检验 \( H_0: \mu(t) = \mu_0(t) \) vs. 备择，但关于检验的功效（power）的渐近理论几乎没有。

⚠️ 作者的 framing¶

作者的缺口框架：他们说 "no existing work has constructed a uniformly adaptive SCR for functional data over multi-dimensional domain"——将缺口定义为多维域的自适应宽度 SCR，并强调这是 Degras (2011)（固定宽度）和 Cao et al. (2012)（一维自适应）的自然推广。
被淡化的竞争路线：基于惩罚样条的贝叶斯方法（如 Crainiceanu et al., 2012；Goldsmith et al., 2013）不使用极值分布，而是用贝叶斯可信区间（credible interval）构造置信带。作者没有引用它们，可能是因为这些方法的好频率性质（覆盖概率）不保证。
值得研究者去查的问题：
哪篇工作首次将功能型数据的 SCR 扩展到二维域？——作者声称是本文第一，但需要确认是否有其他文献（如 Banerjee et al., 2014 用 MCMC 的空间 SCR）。
高斯极值分布的"sharp comparison"结果（Piterbarg, 1996）是如何被用于本文的？这一结果似乎未在其他功能型数据文献中出现，可能是一篇开了新路但未被充分探索的参考文献。
是否存在明显的缺失：关于高维功能型主成分分析（如 Hörmann & Kokoszka, 2010）或非欧几里得域（如流形）的文献未被讨论——多维欧氏空间是特例，流形化功能型数据在空间统计学中更常见。

张力¶

未见明显对立引用。Degras (2011) 与 Cao et al. (2012) 并非对立，而是宽度固定 vs. 自适应，后者是前者的严格改进。Li & Hsing (2010) 与 Zhang & Yang (2010) 方法不同（随机本征样条 vs. B 样条），但收敛率结果类似，无直接矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）： - \( n \)：个体个数（样本量）。 - \( m \)：每个个体在域上被观测的时间（空间）点个数（假设平衡设计，所有个体有相同的观测点集）。 - \( N = n \times m \)：总样本量（全观测）——不是总独立样本数（因为个体间独立，但个体内部相关）。 - \( \mathcal{D} \subseteq \mathbb{R}^d \)：域，假设为紧集（如 \( [0,1]^d \)）。\( d \) 是域的维数，本文考虑 \( d \ge 1 \)（一般性但实证案例用 \( d=2 \)）。 - \( Y_{i,j} \)：第 \( i \) 个个体在第 \( j \) 个观测点 \( t_j \in \mathcal{D} \) 上的观测值（标量）。 - \( t \in \mathcal{D} \)：域上的一个点（可以是二维坐标，如经度、纬度）。 - \( \mu(t) = \mathbb{E}[Y_i(t)] \)：均值函数，为本文的目标参数（estimand）。它是一个定义在 \( \mathcal{D} \) 上的确定函数。 - \( \eta_i(t) = Y_i(t) - \mu(t) \)：第 \( i \) 个个体的随机过程偏离（零均值随机过程），个体间独立同分布（i.i.d.），且个体内具有协方差结构。 - \( \epsilon_{i,j} \)：测量误差（白噪声），独立于 \( \eta_i(\cdot) \) 且 \( \mathbb{E}[\epsilon_{i,j}] = 0 \)，\( \text{Var}(\epsilon_{i,j}) = \sigma^2_\epsilon \)。后果是观测到的是被噪声污染的版本：\( Y_{i,j} = Y_i(t_j) + \epsilon_{i,j} \)，而不是光滑轨迹 \( Y_i(t_j) \)。 - \( u_n(t) = \sqrt{n} (\hat{\mu}_n(t) - \mu(t)) / \sqrt{\text{Var}(\hat{\mu}_n(t))} \)：标准化后的估计量（标准化后的纽曼过程），其极限分布决定 SCR 的构造。 - \( W_n(t) \)：一个中心化的高斯过程，其协方差核 \( \mathbb{C}(s,t) \) 是 \( \eta_i(\cdot) \) 的协方差函数 \( C(s,t) = \mathbb{E}[\eta_i(s) \eta_i(t)] \) 的估计量。 - \( Q_{1-\alpha} \)：极值分布 \( \sup_{t \in \mathcal{D}} |W(t)| \) 的 \( (1-\alpha) \) 分位数（其中 \( W(t) \) 是极限高斯过程）。 - \( \text{SCR}_{1-\alpha} = \{ \mu(t) : \hat{\mu}_n(t) \pm q_{1-\alpha} \sqrt{\widehat{\text{Var}}(\hat{\mu}_n(t))} \} \)：同时置信区域（核心输出）。

模型：数据生成机制：

\[Y_{i,j} = \mu(t_j) + \eta_i(t_j) + \epsilon_{i,j}, \quad i=1,\dots,n, \ j=1,\dots,m\]

- \( \mu(\cdot) \) 是未知但光滑的确定函数（属于 Sobolev 空间 \( W_2^{\ell}(\mathcal{D}) \)，\( \ell > d/2 \) 以保证嵌入紧）。 - \( \eta_i(\cdot) \) 是零均值、协方差为 \( C(s,t) \) 的紧算子生成的随机过程（光滑的，且具有 Karhunen–Loève 展开）。 - \( \epsilon_{i,j} \sim (0, \sigma^2_\epsilon) \)，独立于所有随机成分。 - 已知：域 \( \mathcal{D} \)、观测点网格 \( \{t_j\}_{j=1}^m \)（可以是一维或二维网格，但本文考虑正则网格）、个体数 \( n \)、每个个体的观测点数 \( m \)。

可观测数据：研究者可以观测到 \( \{ (Y_{i,j}, t_j) : i=1,\dots,n, j=1,\dots,m \} \)，即带噪声的观测值及其位置。不可观测的是： - 无噪声轨迹 \( Y_i(t_j) \)（真正的函数值）； - 个体偏离 \( \eta_i(t_j) \)； - 测量误差 \( \epsilon_{i,j} \)。

想要但观测不到的东西：真实均值函数 \( \mu(t) \) 及其光滑度、个体轨迹的协方差函数 \( C(s,t) \) 及噪声方差 \( \sigma^2_\epsilon \)。这些只能通过模型假设识别。

第二步：讲最小内核¶

考虑一个最简特例：一维域 \( d=1 \)，即时间域 \( \mathcal{D} = [0,1] \)，且观测点在整个域上是等间距的（\( t_j = j/m \)）。个体轨迹是高斯过程（\( \eta_i(\cdot) \) 是高斯过程），测量误差 \( \epsilon_{i,j} \sim \mathcal{N}(0, \sigma^2_\epsilon) \)。本文的核心挑战在于：

\[\text{构造 } \hat{\mu}_n(t), \text{使得 } \mathbb{P}\left( \sup_{t\in[0,1]} |\hat{\mu}_n(t) - \mu(t)| / \widehat{\text{sd}}(\hat{\mu}_n(t)) \le q_{1-\alpha} \right) \to 1-\alpha.\]

内核思路：如果每个人的轨迹 \( Y_i(t) \) 可以不经过估计观测到（即 \( \epsilon_{i,j}=0 \) 且 \( m \to \infty \) 给出一条连续曲线），那么我们可以直接计算均值 \( \bar{Y}(t) = n^{-1} \sum_i Y_i(t) \)。显然，在任一点 \( t \) 上，\( \sqrt{n} (\bar{Y}(t) - \mu(t)) \) 依分布收敛到均值为零、方差为 \( C(t,t) \) 的高斯过程 \( W(t) \)。此时，最大值偏差的极限分布是 \( \sup_{t\in[0,1]} |W(t)| \)。这个分布的 \( (1-\alpha) \) 分位数可从已知结果（如 Piterbarg, 1996）获得。但问题是：我们没有连续的 \( Y_i(t) \)，只有离散带噪观测 \( Y_{i,j} \)。

本文的最小内核是：通过两步估计——第一步对每个个体用样条重构其轨迹，第二步再平均——证明这个两步估计量与上述“见了真实轨迹”的不可行估计量（oracle）渐近等价：

\[\sqrt{n} (\hat{\mu}_n(t) - \mu(t)) = \sqrt{n} (\bar{Y}(t) - \mu(t)) + o_p(1)\]

（在 sup-norm 意义下）。更精确地说，定理陈述是：\( \hat{\mu}_n(t) \) 是 oracally efficient 的，即它的偏差项与 oracle 的偏差不可区分。

一旦这一等价性成立，构造 SCR 就变成了：\( \hat{\mu}_n(t) \pm q_{1-\alpha} \sqrt{\widehat{C}_n(t,t)} / \sqrt{n} \)，其中 \( \widehat{C}_n \) 是 \( C(s,t) \) 的一致估计量，\( q_{1-\alpha} \) 是极限高斯过程极值的精确分位数（用 Leadbetter & Rootzén 的 sharp comparison 结果计算）。关键步骤：这一步不仅需要估计量精确，还需要极值分位数 \( q_{1-\alpha} \) 能被近似计算——作者用极值分布的比较定理来处理：\( \mathbb{P}(\sup_t |W(t)| > u) = \) 一个参数化形式的尾概率，使得 \( q_{1-\alpha} \) 可通过迭代求解。

最简例子： - \( d=1 \)，\( m=100 \)，\( n=50 \)，高斯误差 \( \sigma_\epsilon=0.1 \)。 - 第一步：对每个个体 \( i \)，用三次 B 样条（\( p=3 \)）在 20 个样条节点上拟合 \( \{Y_{i,j}\} \)，得到估计轨迹 \( \hat{Y}_i(t) = \sum_{k} \hat{\beta}_{i,k} B_k(t) \)。 - 第二步：\( \hat{\mu}_n(t) = n^{-1} \sum_i \hat{Y}_i(t) \)。 - 协方差估计：\( \widehat{C}_n(s,t) = (n-1)^{-1} \sum_i (\hat{Y}_i(s) - \hat{\mu}_n(s)) (\hat{Y}_i(t) - \hat{\mu}_n(t)) \)。 - 极值分位数：用 Piterbarg 的公式计算 \( \mathbb{P}(\sup_{t\in[0,1]} |W(t)| > u) \approx 1 - \exp\left( - \frac{C_0}{\sqrt{2\pi}} u^{2/\kappa} e^{-u^2/2} \right) \)，其中 \( \kappa \) 是极值指数，\( C_0 \) 是区域面积参数（一维时 \( \kappa=2 \)）。迭代求解 \( q_{0.95} = \arg\max_u \text{ 尾概率 = 0.05} \)。 - 最后 SCR：\( \hat{\mu}_n(t) \pm q_{0.95} \sqrt{\widehat{C}_n(t,t)} / \sqrt{50} \)。

这就是全文的核心逻辑——巧妙地用样条逼近 "如果能看到连续轨迹该有多好" 的理想情形。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究了什么问题：为定义在多维域 \( \mathcal{D} \subseteq \mathbb{R}^d \) 上的功能型数据，构造均值函数 \( \mu(t) \) 的同时置信区域（SCR）与单侧假设检验。
核心工具 / 方法：基于张量积样条（tensor product spline）的个体轨迹两步估计法，加上高斯极值分布的精确分位数比较（sharp comparison）来生成自适应宽度的 SCR。
主要结论：两步均值估计量是 oracally efficient 的，即与使用真实不可观测轨迹的理想估计渐近等价；基于此构造的 SCR 在渐近意义上覆盖概率为 \( 1-\alpha \)、宽度均匀自适应（order \( n^{-1/2} \)），且可以通过单侧 SCR 检验均匀上界或下界。

关键设定与假设¶

在第二节的简单记号基础上，补充本文的完整设定：

域：\( \mathcal{D} \) 是 \( \mathbb{R}^d \) 中的紧集，具有 Lipschitz 边界。本文默认域为 \( [0,1]^d \)（张量积样条的自然定义域）。
均值函数光滑性：\( \mu \in W_2^{\ell}(\mathcal{D}) \)，其中 \( \ell > d/2 \) 以保证 Sobolev 嵌入到连续函数空间（即 \( \mu \) 连续，非平凡）。张量积样条的阶数 \( p \) 满足 \( p \ge \ell \).
个体轨迹（随机过程）光滑性：\( \eta_i \) 属于同一个 Sobolev 空间 \( W_2^{\ell}(\mathcal{D}) \)，且其协方差函数 \( C(s,t) \) 是连续正定的。
观测设计：每个个体在相同的 \( m = m_n \) 个点 \( t_1,\dots,t_{m_n} \) 上被观测，这些点构成一个正则网格（e.g., \( t_j = (j_1/m^{1/d}, \dots, j_d/m^{1/d}) \)）。
比已有文献放宽或强化哪些：
放宽：Degras (2011) 假设个体轨迹完全已知、无噪声，本文允许测量误差；Cao et al. (2012) 只处理一维域，本文推广到任意有限维。
强化：本文假设平衡设计（所有个体同一网格），比 Wang & Yang (2020) 的稀疏/密集混合设计更严格；不过，这不限制域维数。
关键假设：\( m_n^{-2\ell/d} + n^{-1} m_n^{1/d} = o(1) \)，以保证样条估计量的偏差和方差同时被控制。若 \( d=1 \)，退化为 \( m_n^{-2\ell} + n^{-1} m_n = o(1) \)——这非常温和。
无强加的光滑性奇异结构：协方差函数 \( C(s,t) \) 不需要是低秩或稀疏的。

主要结果（理论型）¶

Theorem 1 (Oracle Efficiency)：在假设下，两步均值估计量 \( \hat{\mu}_n(t) \) 与 oracle 估计量 \( \tilde{\mu}_n(t) = n^{-1} \sum_i Y_i(t) \) 在空间 \( L^\infty(\mathcal{D}) \) 上渐近等价：

\[\sup_{t \in \mathcal{D}} \left| \hat{\mu}_n(t) - \tilde{\mu}_n(t) \right| = o_p( n^{-1/2} ).\]

这意味着 \( \hat{\mu}_n \) 的方差渐近等于 \( C(t,t)/n \)（即 oracle 的方差），偏差可以忽略。

直觉：样条估计器在每个个体上的偏差以 \( m_n^{-2\ell/d} \) 衰减，只要衰减率快于 \( n^{-1/2} \)，那么估计误差的主项来自 oracle 的（个体间）变异，而不是样条的偏差。

Theorem 2 (Extreme Limit Distribution)：标准化过程 \( \xi_n(t) = \sqrt{n} (\hat{\mu}_n(t) - \mu(t)) / \sqrt{\widehat{C}_n(t,t)} \) 在适当条件下收敛到过程 \( W(t) / \sqrt{C(t,t)} \)，且

\[\mathbb{P}\left( \sup_{t\in\mathcal{D}} |\xi_n(t)| > u \right) \to \mathbb{P}\left( \sup_{t\in\mathcal{D}} |W(t) / \sqrt{C(t,t)}| > u \right)\]

（弱收敛在 Skorokhod 拓扑下不成立，但极值是所谓的 uniform convergence of maxima，通过「边值测度收敛」论证）。

Theorem 3 (SCR)：令 \( \hat{q}_{1-\alpha} \) 为基于估计协方差与极值分位数比较结果计算的 \( (1-\alpha) \) 分位数，则

\[\mathbb{P}\left( \mu(t) \in \hat{\mu}_n(t) \pm \hat{q}_{1-\alpha} \sqrt{\widehat{C}_n(t,t)} / \sqrt{n} \ \forall t \in \mathcal{D} \right) \to 1-\alpha.\]

宽度为 \( 2\hat{q}_{1-\alpha} \sqrt{\widehat{C}_n(t,t)} / \sqrt{n} \)，order \( n^{-1/2} \)，且点估值方差不同处自适应地窄或宽。

Corollary 1 (One-sided SCR)：可以构造 \( \mathbb{P}( \mu(t) > \hat{\mu}_n(t) - \hat{r}_{1-\alpha} \sqrt{\widehat{C}_n(t,t)} / \sqrt{n} \ \forall t) \to 1-\alpha \)（用于检验 \( H_0: \mu(t) \le c \) 对所有 \( t \) 成立）。

解决的技术难点： - 多维极值分布的计算：在 d=1 时，\( \sup_t |W(t)| \) 的分位数有已知表达式（依赖于 \( C(s,t) \) 的 curvature）；但当 \( d>1 \) 时，极值分布依赖于集合的几何性质（体积、表面测度），并且解析表达式知道得更少。作者使用极值分布的百分比比较定理（Leadbetter & Rootzén 1998, Theorem 12.2.5）将分位数的计算转化为通过数值积分计算尾概率，并用二分法求解。 - 协方差一致估计：由于两步估计法得到的残差 \( \hat{\eta}_i(t) = \hat{Y}_i(t) - \hat{\mu}_n(t) \) 是原始残差了估计误差的复合体，证明 \( \widehat{C}_n(s,t) \) 的一致收敛性需要处理样条偏差的传播。

证明路线与技术技巧¶

整体路线（5 步逻辑主干）：

第一步：样条逼近的 uniform 收敛率。证明对每个个体 \( i \)，其样条估计器 \( \hat{Y}_i(t) \) 与真实轨迹 \( Y_i(t) \) 在 \( L^\infty(\mathcal{D}) \) 上的误差为 \( O_p( m_n^{-2\ell/d} + \sqrt{m_n^{-1} \log m_n} ) \)。这是经典的 B 样条或张量积样条结果，依赖于正则网格下的逼近性质。
第二步：估计量的偏差-方差分解。写出 \( \hat{\mu}_n(t) - \mu(t) = \underbrace{(\hat{\mu}_n(t) - \tilde{\mu}_n(t))}_{\text{self-remainder}} + \underbrace{(\tilde{\mu}_n(t) - \mu(t))}_{\text{oracle error}} \)。证明第一步的 remainder 项是 \( o_p( n^{-1/2} ) \)（因为样条偏差相对于 \( n^{-1/2} \) 可忽略），因此方差项与 oracle 相同。
第三步：协方差的一致估计。用 \( \hat{Y}_i \) 代替 \( Y_i \) 后，残差协方差 \( \widehat{C}_n(s,t) \) 相对于真实协方差 \( C(s,t) \) 的误差由项目 \( 1/\sqrt{n} + \) 样条偏差的混合决定。需要仔细分解为三个部分：样本均值误差、样条偏差误差、有限样本误差。通过交叉项的控制（使用 Hölder 不等式与样条逼近性质），得到 \( \sup_{s,t} |\widehat{C}_n(s,t) - C(s,t)| = O_p( n^{-1/2} + m_n^{-2\ell/d} ) = o_p(1) \)。
第四步：高斯极值分布分位数的精确计算。作者不直接模拟极值分布，而是利用：极限过程 \( W(t) \) 的协方差函数已知（即估计出的 \( \widehat{C}_n \)），将其代入 Piterbarg (1996) 的公式：
\[\mathbb{P}\left( \sup_{t\in\mathcal{D}} |W(t)| > u \right) \approx \frac{C_0}{\sqrt{2\pi}} u^{1/\kappa} e^{-u^2/2}\]
其中参数 \( \kappa \) 与 \( C(s,t) \) 在边界点上的某些变分性质有关（本文使用数值近似算得）。通过调整该公式得到精确分位数 \( \hat{q}_{1-\alpha} \)。
第五步：单侧 SCR 证明。基于极值过程 \( W(t) \) 的对称性与 Theorem 2 的极值收敛，单侧版本直接推出。

关键跳跃点： - 最难的点：证明 \( \hat{\mu}_n(t) - \tilde{\mu}_n(t) = o_p(n^{-1/2}) \) 在 sup-norm 下成立。这要求将样条估计的偏差协调到 \( n^{-1/2} \) 的尺度上。一个技术细节：偏差来自样条拟和的窗口宽度，而个体数 \( n \) 和每个个体的点数 \( m_n \) 必须满足 \( m_n^{-2\ell/d} = o(n^{-1/2}) \)。若 \( n \) 固定而 \( m_n \) 很大，偏差可能不可忽略；反过来若 \( n \) 很大而 \( m_n \) 很小，则样条估计不够精确。作者巧妙地使用一个隐含假设 \( m_n \propto n^{ \tau } \) 且 \( \tau > d/(4\ell) \) 来保证可行性。 - 另一关键点：极值分位数的计算。多数功能型数据文献使用 bootstrap（如 Cao et al., 2012 用 bootstrap 分位数），作者则利用 sharp comparison of Gaussian extreme quantiles 替代 bootstrap。理由是：bootstrap 需要重新估计每个 bootstrap 样本的迹，计算量大；而极值近似只需要一次协方差估计和分位数计算。但代价是分位数公式的正确性依赖于特定假设（如高斯过程、域边界光滑等）。

技术技巧点名： - 张量积 B 样条（tensor product B-spline）：用于多维域光滑逼近，其基函数是各维 B 样条的乘积，从而可以将多维问题降为一维问题的乘积形式处理。 - 极值过程的 sharp comparison（Piterbarg, 1996; Leadbetter & Rootzén, 1998）：用于计算多维高斯过程极值分布的精确分位数，含有体积项和表面测度项。 - Self-remainder 分解与交叉项控制：在协方差一致估计中使用 \( \hat{Y}_i(t) - \hat{\mu}_n(t) = (Y_i(t) - \mu(t)) + \text{bias term} \) 展开后，用 Young 不等式与样条性质证得控制。 - 数值极值分位数求解：使用二分法在极值尾概率公式上迭代求解 \( \hat{q}_{1-\alpha} \)。

真实例子与应用¶

论文有真实数据应用，且必须讲清楚：

数据：Copernicus Marine Environment Monitoring Service (CMEMS) 提供的卫星海洋表面温度（SST）数据。区域是西地中海（经度约 0°–15°E，纬度约 30°–45°N），时间跨度为 2019–2021 年，每天一次，空间分辨率为 0.125°。研究者将每一天视为一个 "个体"（1160 天），每个个体在空间网格（约 21,000 个网格点）上被观测。目标是构造空间均值函数（即 2019–2021 年期间每天平均的 SST 曲面）的 SCR。
如何应用：将该方法直接应用于 SST 数据：每个个体（天）是一个 \( (经度, 纬度) \) 的函数，观测值就是卫星测量到的 SST；用张量积样条（二维域，使用 \( 10 \times 10 \) 的 B 样条节点）拟合每一天的 SST 曲面；然后做第二步平均，得到 2019–2021 年均值函数；最后进行极值分位数计算并构造 SCR。
结果：论文展示了 SST 均值函数的 SCR——一个窄带围绕着估计的平均曲线（在大部分海域宽度约 1–2°C）；单侧 SCR 用于检测 SST 是否低于 15°C 的界限——结果在格陵兰附近（但这里是西地中海，可能是演示）的某些区域被否定，表示 SST 均值低于 15°C。这是理论的应用演示，不提供验证准确性（真实 SST 均值不可知）。
这个例子想说明什么：展示该 SCR 方法的实用性——在真实的高维数据（每天约 21,000 个空间点）上可以运行，并给出有统计意义的推断，支持对特定界限的假设检验。论文未与其他方法（如逐点置信带或 Degras 的固定宽度法）进行比较。

🔎 结论是否比证明窄¶

Theorem 1 声称 oracally efficient，但这一结论要求 \( m_n \) 与 \( n \) 的比例满足条件。作者在证明中默认这一条件——如果真实应用中 \( m_n \) 固定且很小、而 \( n \) 很大，oracle efficiency 将不成立。理论中未讨论稀疏设计。
真实数据例子没有做覆盖率验证（因为真实 \( \mu(t) \) 未知），因此论文在 Table 4 只展示了模拟覆盖率（与理论值 0.95 匹配），真实数据仅作为演示。
Corollary 1 的单侧 SCR 用于假设检验，但论文未给出功效（power）的分析，也无理论说明在备择假设下能检测到多大偏差。

四、开放问题（点到为止，扎根具体语句）¶

稀疏设计下的推广：本文假设每个个体在密集的同一网格上被观测（平衡设计）。若每个个体仅有少量观测点（例如卫星在某些天出现云遮挡），如何构造 SCR？论文在 Introduction 末尾承认这一限制：”Our method relies on the balanced design where each subject has observations on a common grid… Sparse functional data (Wang & Yang, 2020) is left for future work.” （扎根于：Introduction 最后一句 future work。）
协方差估计误差对宽度自适应性的影响：SCR 宽度为 \( 2\hat{q}_{1-\alpha} \sqrt{\widehat{C}_n(t,t)} / \sqrt{n} \)，其中极值分位数 \( \hat{q}_{1-\alpha} \) 依赖于协方差估计。若协方差估计误差不可忽略，SCR 的覆盖概率是否还能严格保持 \( 1-\alpha \)？论文的 Theorem 2 假设了一次性一致估计，但未给出对分位数精度的影响的具体界。（扎根于：Theorem 2 的证明：在 Lemma 3 中假设了协方差一致估计的收敛率为 \( o(1) \)，但分位数本身的误差未与 n 绑定。）
极值分位数计算在非高斯过程中的稳健性：极值分位数公式基于极限过程是高斯过程的假设。若个体轨迹的非高斯（如重尾）特征，分位数公式可能会失效。论文无讨论，仅指出“Gaussian assumption can be relaxed by using bootstrap，but the computational cost would be higher.”（扎根于：Section 5 讨论 “Limitation” 中的一段。）
高维域下的维数灾难：域维数 d 增加时（如 d=3 或更高），样条节点数呈指数增长（张量积），且极值分位数公式需要计算超体积项。论文只实验了 d=1 和 d=2，未论证高维的可行性。（扎根于：Theorem 2 的证明中假设了 \( m_n^{-2\ell/d} = o(1) \)，当 d 大时此条件更苛刻。）

Maintained by 陈星宇 · Homepage · Source on GitHub