Statistical inference for mean function of partially observed functional time series¶

作者: Shuang Sun, Leheng Cai, Qirui Hu
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of Pennsylvania（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujag111

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是部分观测功能时间序列的统计推断问题。其核心挑战在于"双重相依"与"观测不全"：数据既是时间序列（时间点之间存在序列相依），又是函数型数据（每条曲线本身是连续函数）；同时，实际观测中曲线往往只在离散时间点采样且带有测量误差。该方向的目标是在这种复杂结构下，对均值函数进行估计并构建有效的假设检验（如同时置信带、两样本检验）。当前该领域已从早期的独立功能数据推断，发展到能处理相依、部分观测、带噪声的复杂情形，但如何在 Skorokhod 空间（允许间断点的函数空间）中建立严格的渐近理论，以及如何处理测量误差带来的偏差，仍是技术难点。

发展脉络：根据 Introduction 的引用梳理，该方向的发展线索如下：

奠基工作（独立功能数据推断）：早期研究主要集中在独立同分布的功能数据。例如，Ferraty et al. (2006, Journal of Nonparametric Statistics) 研究了独立功能数据均值函数的小波估计；Cuevas et al. (2006, Theory and Practice) 讨论了独立功能数据的置信带构建。这些工作建立了功能数据推断的基本框架，但假设数据点之间独立，且通常要求曲线完整观测。
主要进展（功能时间序列与相依结构）：随后，研究者开始放宽独立性假设。Hörmann & Kokoszka (2010, JRSSB) 是功能时间序列领域的里程碑工作，他们定义了 \(L^2\)-m-approximable 概念，将强混合条件推广到函数空间，为后续渐近理论奠定了相依结构的基础。Horváth et al. (2013, JASA) 进一步研究了功能时间序列的中心极限定理。然而，这些工作大多假设曲线是完整观测的。
当前 Frontier（部分观测与测量误差）：近期研究开始处理"部分观测"这一现实问题。Cai & Yuan (2011, AoS) 研究了部分观测功能数据的均值估计，给出了最优收敛速率；Zhang & Wang (2016, AoS) 进一步考虑了稀疏与密集观测的统一框架。但在时间序列背景下，部分观测与测量误差同时存在的推断问题仍有很多缺口。Dette et al. (2020, AoS) 虽然研究了功能时间序列的检验问题，但主要关注平稳性检验，且未处理部分观测带来的复杂性。
本文的位置：本文填补了"功能时间序列 + 部分观测 + 测量误差 + Supremum Norm 推断"这一交叉口的空白。作者指出，现有文献要么只处理独立数据的部分观测，要么处理完整观测的时间序列，尚未有工作在 Skorokhod 空间下系统解决部分观测功能时间序列的均值推断问题。

子线索聚类：被引文献大致落在以下三条子线索上： - 功能时间序列的渐近理论：以 Hörmann & Kokoszka (2010) 为核心，定义相依结构，建立 CLT。本文在此基础上引入 Skorokhod 空间以允许间断点。 - 部分观测与测量误差的非参数估计：以 Cai & Yuan (2011), Zhang & Wang (2016) 为代表，关注如何利用样条或核方法从离散带噪数据恢复曲线。本文将 B-spline 引入时间序列背景。 - Supremum Norm 下的推断与 Gaussian Approximation：涉及如何构建同时置信带。Chernozhukov et al. (2014, AoS) 关于高维向量最大值的 Gaussian Approximation 是核心技术工具，本文将其推广至无穷维函数空间且带有相依结构的情形。

这个方向在追问的核心问题： 1. 相依结构下的收敛性：当数据不再独立时，如何建立均值估计量的弱收敛？传统的 CLT 需要何种相依条件（如 \(L^2\)-m-approximability）？ 2. 观测设计的影响：稀疏观测与密集观测对估计精度与推断有效性有何不同影响？如何统一处理？ 3. Supremum Norm 的分布逼近：最大偏差 \(\sup_t |\hat{\mu}(t) - \mu(t)|\) 的分布极其复杂，如何通过 Gaussian Approximation 或 Bootstrap 进行有效的统计推断？

⚠️ 作者的 framing：作者将本文的缺口 frame 为：现有功能时间序列文献多假设曲线完整观测，而部分观测文献多假设独立同分布。作者声称自己的贡献在于"首次在 Skorokhod 空间中建立了部分观测功能时间序列的弱收敛理论"。 - 淡化的竞争路线：作者未深入讨论 Kernel 方法与 Spline 方法在时间序列背景下的理论优劣对比，仅选用 B-spline 作为工具。此外，对于 Debiased ML 或 Double Machine Learning 在高维功能数据中的应用，文中未提及（这可能是一个潜在的扩展方向，但也可能是作者刻意回避以保持纯统计理论路线）。 - 缺失的引用：Introduction 中未引用关于 Functional Principal Component Analysis (FPCA) 在时间序列中的最新进展（如 sparse FPCA for time series），这通常是处理功能数据降维的另一条主流路线。如果研究者发现 FPCA 路线也能解决类似问题，那么本文的"独特性"可能需要重新审视。

张力：未见明显对立引用。文献主要呈互补关系：有的做时间序列但假设完整，有的做部分观测但假设独立。本文试图将两者结合。

二、最核心、最简单的例子 / 数学问题¶

在展开全文技术细节前，我们先确立记号与最小内核。

第一步：符号、模型、可观测数据¶

符号： - \(T\)：时间序列的总长度（样本量）。 - \(\{X_i(\cdot)\}_{i=1}^T\)：潜在的真实曲线序列，定义在区间 \(\mathcal{T}=[0,1]\) 上。这是一个严平稳过程。 - \(\mu(t) = \mathbb{E}[X_i(t)]\)：目标参数，即均值函数。 - \(U_{ij}\)：第 \(i\) 条曲线的第 \(j\) 个观测时间点。 - \(Y_{ij}\)：第 \(i\) 条曲线在第 \(j\) 个时间点的观测值。 - \(\epsilon_{ij}\)：测量误差。 - \(N_i\)：第 \(i\) 条曲线的观测点数量（可能稀疏也可能密集）。 - \(D[0,1]\)：Skorokhod 空间，即允许间断点的函数空间。

模型：数据生成机制如下： 1. 潜在过程：\(\{X_i(t)\}\) 是一个严平稳的 \(L^2\)-m-approximable 过程（一种刻画时间序列相依性的条件）。 2. 观测机制：对于第 \(i\) 条曲线，我们在随机时间点 \(U_{i1}, \dots, U_{iN_i}\) 处观测到：

\[Y_{ij} = X_i(U_{ij}) + \epsilon_{ij}, \quad j=1,\dots, N_i\]

其中 \(\epsilon_{ij}\) 是 i.i.d. 测量误差，均值为 0，方差为 \(\sigma^2\)。

可观测数据 vs. 不可观测量： - 可观测：离散的带噪观测点 \(\{(U_{ij}, Y_{ij})\}\)。 - 不可观测：完整的光滑曲线 \(X_i(t)\)、真实的均值函数 \(\mu(t)\)、测量误差方差 \(\sigma^2\)。 - 目标：基于离散带噪观测 \(\{(U_{ij}, Y_{ij})\}\)，估计 \(\mu(t)\) 并构建其 Supremum Norm 下的置信带。

第二步：最小内核¶

为了抓住本文的核心数学困难，我们考虑一个简化特例：假设没有测量误差（\(\epsilon_{ij}=0\)），且每条曲线都完整观测（\(N_i\) 很大，近似看作连续）。

最简特例下的命题：若 \(X_i(t)\) 是独立同分布的（退化为无时间序列相依），且在 \(C[0,1]\) 空间（连续函数空间）中取值，那么经典的 Donsker 定理告诉我们：

\[\sqrt{T} (\bar{X}(\cdot) - \mu(\cdot)) \rightsquigarrow G(\cdot)\]

其中 \(\bar{X}(\cdot) = \frac{1}{T}\sum X_i(\cdot)\)，\(G(\cdot)\) 是一个高斯过程。

本文面对的"加壳"难题： 1. 壳层一：相依性。\(X_i\) 不再独立，而是时间序列。此时 \(\sqrt{T}(\bar{X} - \mu)\) 的极限分布是什么？方差结构如何受相依性影响？（需用到 \(L^2\)-m-approximable 假设下的 CLT）。 2. 壳层二：间断性与 Skorokhod 空间。作者允许 \(X_i(t)\) 有间断点（如阶跃信号）。此时不能在 \(C[0,1]\) 空间讨论，必须在 \(D[0,1]\)（Skorokhod 空间）中建立弱收敛。这要求验证 Skorokhod 拓扑下的紧致性与有限维分布收敛，技术难度显著提升。 3. 壳层三：部分观测与测量误差。我们观测不到 \(X_i(t)\)，只能看到 \(Y_{ij}\)。必须先用 B-spline 从离散点拟合出 \(\hat{X}_i(t)\)，再代入均值估计。这引入了额外的平滑偏差和估计方差。

核心思路：本文的最小内核是证明：在 \(L^2\)-m-approximable 相依结构下，B-spline 估计量 \(\hat{\mu}_T(t)\) 在 Skorokhod 空间 \(D[0,1]\) 中弱收敛于一个高斯过程。证明的关键在于将"部分观测带来的估计误差"与"时间序列带来的相依累积"解耦，分别控制其收敛速率。

三、这篇论文做了什么¶

三句话： 1. 研究了部分观测功能时间序列均值函数的统计推断问题，处理了时间序列相依、曲线间断及测量误差。 2. 核心工具是 B-spline 估计量与 Skorokhod 空间中的 Gaussian Approximation 技术。 3. 主要结论是建立了估计量在 Supremum Norm 下的渐近分布，并据此构建了有效的 Bootstrap 置信带与假设检验。

关键设定与假设：在第二节记号基础上，补全关键假设： - Assumption 1 (Dependence)：假设 \(\{X_i\}\) 是 \(L^2\)-m-approximable 的。这是一个比强混合更具体的条件，要求序列的长期协方差结构存在，且截断后的误差可积。这是保证时间序列 CLT 成立的关键。 - Assumption 2 (Observation Scheme)：假设观测时间点 \(U_{ij}\) 是 i.i.d. 的，且观测数量 \(N_i\) 满足特定条件（如 \(N_i\) 随 \(T\) 增长，对应密集观测情形）。 - Assumption 3 (Smoothness)：假设真实曲线 \(X_i(t)\) 属于某个 Sobolev 空间（如二阶导数存在且平方可积），这是 B-spline 估计收敛速率的必要条件。 - Skorokhod Space Setting：相比传统文献假设曲线连续（\(C[0,1]\)），本文允许曲线在 \(D[0,1]\) 中取值，即允许有限个间断点。这是一个重要的放宽，使得模型能适用于突变信号（如脑电图的瞬时响应）。

主要结果：

Theorem 1 (Ideal Case Weak Convergence)：在完整观测且无噪声的理想情形下，经验均值函数 \(\sqrt{T}(\bar{X} - \mu)\) 在 Skorokhod 空间 \(D[0,1]\) 中弱收敛于一个高斯过程 \(G\)。直觉：这是时间序列 CLT 在函数空间的推广。难点在于处理间断点处的拓扑结构，作者利用了 Skorokhod 空间特有的 \(J_1\) 拓扑来处理跳跃。
Theorem 2 (B-spline Estimator Convergence)：在部分观测且有测量误差的实际情形下，B-spline 估计量 \(\hat{\mu}_T(t)\) 满足：
\[\sqrt{T}(\hat{\mu}_T - \mu) \rightsquigarrow G + B\]
其中 \(G\) 是高斯过程，\(B\) 是偏差项。 技术细节：作者证明了当 B-spline 节点数 \(K_T\) 选择适当时（如 \(K_T \sim T^{1/4}\)），偏差项 \(B\) 可以被控制，从而保证 Supremum Norm 下的有效性。
Theorem 3 (Gaussian Approximation & Bootstrap)：由于极限分布 \(G\) 的协方差结构包含无穷维参数且依赖未知的相依结构，不可直接计算。作者证明了 Multiplier Bootstrap 的有效性：
\[\sup_{t \in [0,1]} |\hat{\mu}_T^*(t) - \hat{\mu}_T(t)| \quad \text{的分布逼近} \quad \sup_{t \in [0,1]} |\hat{\mu}_T(t) - \mu(t)|\]
这允许我们构造非参数的置信带。

证明路线与技术技巧：

整体路线：
1. Decomposition：将 B-spline 估计量分解为"真实均值部分"与"估计误差部分"。误差部分进一步分解为"平滑偏差"与"随机误差"。
2. Coupling：构造一个辅助的理想过程，利用 \(L^2\)-m-approximable 条件，证明辅助过程与原过程在 Skorokhod 距离下足够接近。
3. Gaussian Approximation：利用 Chernozhukov et al. (2014) 的 Gaussian Approximation 技术，将高维随机向量的最大值分布逼近推广到函数空间。
4. Bootstrap Consistency：验证 Multiplier Bootstrap 满足条件概率下的弱收敛条件。
关键跳跃点：最难的一步是处理相依结构下的 Skorokhod 空间紧致性。在 \(C[0,1]\) 中，Arzela-Ascoli 定理提供了紧致性判据；但在 \(D[0,1]\) 中，必须验证更复杂的模紧致性条件，特别是要控制间断点的位置与幅度在时间序列累积下的行为。作者通过精细的矩不等式和分块技术绕过了这一障碍。
技术技巧点名：
- \(L^2\)-m-approximability：用于量化时间序列的相依性强度，替代传统的 mixing coefficients，使得协方差谱估计成为可能。
- B-spline Projection：将无穷维问题投影到有限维样条基空间，利用样条基的良好逼近性质控制偏差。
- Multiplier Bootstrap：一种重抽样方法，通过对中心化残差乘以随机权重来模拟原分布，避免了 Block Bootstrap 的复杂划分，更适合处理长序列。

真实例子与应用：论文应用该方法于视觉刺激脑电图数据集。 - 场景：研究大脑在视觉刺激下的响应曲线。 - 应用：利用本文方法构建均值函数的同时置信带，并进行两样本检验（比较不同实验条件下的脑电响应）。 - 结果：发现了特定时间段内均值函数的显著差异，且置信带成功覆盖了真实的响应模式。该例子展示了方法在处理带噪、离散观测的生理信号时的实用性，特别是验证了 Skorokhod 空间设定对于捕捉脑电信号中的瞬时突变（间断点）的有效性。

🔎 结论是否比证明窄：论文的主要定理在陈述时假设了观测点数量 \(N_i\) 足够大（dense case），虽然文中提及了 sparse case 的可能性，但理论部分主要针对 dense 设计。研究者在阅读时需注意，若观测点极少，偏差项 \(B\) 的控制可能需要不同的节点选择策略，这部分理论可能不如 dense case 完善。

四、开放问题¶

稀疏观测的理论完善：文中主要理论针对密集观测情形。若 \(N_i\) 极小，B-spline 估计量的偏差项将主导收敛速率，此时 Supremum Norm 下的分布如何？是否需要引入新的偏差校正项？（扎根点：文中对 \(N_i\) 增长速率的假设条件）。
高维功能时间序列：本文仅考虑了一元功能时间序列。若观测是多元的（如多通道脑电），如何在 Skorokhod 空间中定义多元弱收敛并构建联合置信域？（扎根点：Introduction 中未提及多元扩展）。
非平稳序列的推广：核心假设是严平稳。若均值函数本身随时间 \(i\) 缓慢漂移，现有的去均值过程将失效，如何定义并估计时变均值函数？（扎根点：Assumption 1 的严平稳条件）。
计算效率与优化：Bootstrap 在大数据集下的计算成本较高。对于超长功能时间序列，是否存在计算量更小的逼近方法？（扎根点：Section 4 的算法实现部分）。

Maintained by 陈星宇 · Homepage · Source on GitHub