Statistical inference for mean function of partially observed functional time series¶

作者: Shuang Sun, Leheng Cai, Qirui Hu
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 5/10
机构绿灯: University of Pennsylvania（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujag111

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是部分观测的函数型时间序列的均值函数推断。核心问题是：当观测到的函数型数据（如每日脑电图曲线）在时间上存在缺失（部分时间点没有观测），且观测值带有测量误差时，如何对均值函数（即总体平均曲线）进行统计推断（估计、同时置信带、假设检验）。这是一个将函数型数据分析（FDA）与时间序列分析交叉的子领域，当前成熟度中等——已有大量关于完全观测函数型时间序列的理论，但部分观测情形下的推断理论（尤其是supremum范数下的同时推断）仍不完整。

发展脉络（history）¶

从intro引用的工作串成一条线：

奠基工作：Bosq (2000) 系统建立了函数型时间序列的Hilbert空间框架，为后续理论奠定基础。Hörmann & Kokoszka (2010) 进一步整理了弱相依函数型时间序列的渐近理论。这些工作假设曲线完全观测、无噪声。
主要进展（完全观测情形）：Delaigle et al. (2020) 在完全观测设定下建立了均值函数的弱收敛性，但要求估计量连续。Degras (2011) 和 Cao et al. (2012) 发展了同时置信带方法，但依赖强假设（如高斯性、独立同分布）。Zhang & Chen (2022) 首次将Gaussian approximation技术引入函数型均值推断，放松了分布假设，但同样限于完全观测。
当前frontier（部分观测+噪声）：本文作者指出，现有方法在处理部分观测（观测窗口不连续、存在缺失区间）和测量误差时面临根本困难——估计量在缺失边界处产生间断点，破坏了传统弱收敛理论（如C[0,1]空间）的适用性。同时，测量误差的加入使得B-spline估计的偏差-方差权衡更加复杂。
本文的位置：作者将问题frame为“在Skorokhod空间（允许间断）中建立弱收敛性，并发展相应的supremum范数推断工具”，从而填补部分观测+噪声情形下的理论空白。

子线索聚类¶

这些被引文献大致落在3条子线索上：

函数型时间序列的渐近理论（Bosq 2000; Hörmann & Kokoszka 2010; Horváth & Kokoszka 2012）：建立Hilbert空间下的中心极限定理、弱相依性条件。当前瓶颈：大多假设完全观测，无法处理缺失区间。
函数型均值的同时推断（Degras 2011; Cao et al. 2012; Zhang & Chen 2022; Delaigle et al. 2020）：发展supremum范数下的置信带和检验。当前瓶颈：要么依赖高斯性，要么限于完全观测；部分观测下的间断点问题未被解决。
部分观测函数型数据（Kraus 2015; Liebl 2013; Kneip & Liebl 2020）：研究缺失函数型数据的估计和预测，但主要关注主成分分析或预测，而非均值函数的推断。

这个方向在追问的核心问题¶

部分观测下均值估计量的渐近分布是什么？ 当观测窗口不连续时，估计量在缺失边界处产生间断，传统C[0,1]空间弱收敛失效，需要Skorokhod空间框架。
如何构造同时置信带？ 需要supremum范数下的极限分布，但部分观测+噪声使得偏差-方差结构复杂化。
如何实现可行的推断？ 极限分布通常依赖于未知的协方差结构，需要bootstrap或Gaussian approximation技术。

⚠️ 作者的framing¶

作者把缺口frame成：“现有方法要么假设完全观测（Delaigle et al. 2020; Zhang & Chen 2022），要么假设连续估计量（Degras 2011），无法处理部分观测导致的间断点。我们首次在Skorokhod空间中建立弱收敛性，并发展相应的推断工具。” 作者淡化了以下竞争路线： - 直接插补缺失部分（如Kraus 2015的预测方法）——作者认为插补会引入额外偏差，不如直接处理间断点。 - 使用局部多项式或其他平滑方法——作者选择B-spline，但未与局部多项式做理论比较。

什么明显该被引/该存在、却没出现在intro里？ 作者未引用关于函数型数据缺失机制的识别性文献（如Yao et al. 2005的PACE方法），也未讨论缺失是否随机（MCAR/MAR/MNAR）对推断的影响。这暗示作者假设缺失机制是确定性的（即观测窗口已知且固定），而非随机缺失。值得研究者去查：如果缺失是随机的，本文的理论是否仍然成立？

张力¶

未见明显对立引用。所有被引工作一致认为完全观测情形已有成熟理论，部分观测是开放问题。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( X_i(t) \)：第 \( i \) 条函数型时间序列在时间点 \( t \) 的真实值（潜在曲线），\( i = 1, \dots, n \)，\( t \in [0,1] \)。 - \( \mu(t) = \mathbb{E}[X_i(t)] \)：均值函数（目标estimand）。 - \( O_i \)：第 \( i \) 条曲线的可观测区间（子集 of \([0,1]\)），可能不连续（如 \( [0,0.3] \cup [0.7,1] \)）。 - \( Y_i(t) \)：在 \( t \in O_i \) 上观测到的带噪声数据，\( Y_i(t) = X_i(t) + \varepsilon_i(t) \)，其中 \( \varepsilon_i(t) \) 是测量误差（均值为0，方差 \( \sigma^2(t) \)）。 - \( \hat{\mu}(t) \)：均值函数的B-spline估计量。 - \( \|f\|_\infty = \sup_{t \in [0,1]} |f(t)| \)：supremum范数。 - \( n \)：曲线数量（样本量）。 - \( J \)：B-spline基函数个数（随 \( n \) 增长）。

模型： - \( \{X_i\}_{i=1}^n \) 是平稳、弱相依的函数型时间序列（如 \( L^p \)-m-approximable），定义在Hilbert空间 \( L^2[0,1] \) 上。 - 观测区间 \( O_i \) 是确定性的（已知且固定），但可能因实验设计或设备限制而不连续。 - 测量误差 \( \varepsilon_i(t) \) 独立于 \( X_i \)，且在不同 \( i \) 和 \( t \) 上独立（或弱相依）。

可观测数据： - 研究者实际能观测到的是：\( \{ (Y_i(t), t) : i=1,\dots,n, t \in O_i \} \)。 - 不可观测的是：\( X_i(t) \) 在 \( t \notin O_i \) 上的值（缺失部分），以及 \( \varepsilon_i(t) \) 本身。 - 关键识别假设：均值函数 \( \mu(t) \) 在缺失区间上仍被识别（因为 \( \mu(t) = \mathbb{E}[X_i(t)] \) 不依赖于观测区间，只要 \( X_i \) 是平稳的）。

第二步：讲最小内核¶

最简特例：假设 \( n \) 条曲线独立同分布（非时间序列），每条曲线只在两个不相交的区间上被观测：\( O_i = [0, a] \cup [b, 1] \)，其中 \( 0 < a < b < 1 \) 固定。无测量误差（\( \varepsilon_i = 0 \)）。目标是构造 \( \mu(t) \) 在 \( t \in [0,1] \) 上的同时置信带。

在这个特例下，核心问题退化成： - 在 \( [0,a] \) 和 \( [b,1] \) 上，我们有完全观测，可以用标准核平滑或B-spline估计 \( \mu(t) \)。 - 在 \( (a,b) \) 上，没有任何观测数据，但均值函数 \( \mu(t) \) 仍然存在（只是不可观测）。由于没有数据，估计量 \( \hat{\mu}(t) \) 在 \( (a,b) \) 上必须通过某种方式定义（如B-spline基函数的线性组合在缺失区间上的值）。这导致 \( \hat{\mu}(t) \) 在 \( t=a \) 和 \( t=b \) 处可能产生间断（因为基函数在缺失区间边界处的支撑性质）。

为什么Skorokhod空间是必要的： - 传统C[0,1]空间要求函数连续，但 \( \hat{\mu}(t) \) 在 \( a \) 和 \( b \) 处可能跳跃（例如，B-spline估计在 \( [0,a] \) 和 \( [b,1] \) 上分别拟合，在 \( (a,b) \) 上由基函数的线性组合外推，导致边界处不连续）。 - Skorokhod空间 \( D[0,1] \) 允许函数有跳跃间断点，且定义了合适的拓扑（Skorokhod度量）使得弱收敛理论成立。本文的核心贡献就是证明：在部分观测下，\( \sqrt{n}(\hat{\mu} - \mu) \) 在 \( D[0,1] \) 中弱收敛到一个高斯过程（可能带跳跃）。

证明的关键想法： 1. 将 \( \hat{\mu}(t) \) 写成B-spline基函数的线性组合：\( \hat{\mu}(t) = \sum_{j=1}^J \hat{\beta}_j B_j(t) \)。 2. 系数 \( \hat{\beta}_j \) 的渐近分布由最小二乘估计给出，可表示为 \( \sqrt{n}(\hat{\beta} - \beta) \xrightarrow{d} N(0, \Sigma) \)。 3. 因此 \( \sqrt{n}(\hat{\mu}(t) - \mu(t)) = \sum_{j=1}^J \sqrt{n}(\hat{\beta}_j - \beta_j) B_j(t) \) 是一个有限维高斯过程（因为 \( J \) 固定或增长慢于 \( n \)）。 4. 关键跳跃点：当 \( t \) 穿过缺失区间边界时，\( B_j(t) \) 的支撑性质变化，导致 \( \hat{\mu}(t) \) 的连续性被破坏。但在Skorokhod空间中，这种间断是允许的，且弱收敛性仍然成立（因为有限维高斯过程在Skorokhod度量下是紧的）。 5. 最终，supremum范数 \( \|\sqrt{n}(\hat{\mu} - \mu)\|_\infty \) 的极限分布由该高斯过程的supremum给出，可通过multiplier bootstrap逼近。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：部分观测函数型时间序列的均值函数推断，包括同时置信带、两样本检验和相关假设检验。
核心工具/方法：B-spline估计 + Skorokhod空间弱收敛 + Gaussian approximation + multiplier bootstrap。
主要结论：在理想情形（完全观测、无噪声）下建立了Skorokhod空间弱收敛性；在实际情形（部分观测+测量误差）下导出了B-spline估计量最大偏差的渐近分布，并证明了bootstrap程序的一致性。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

假设1（平稳性与弱相依性）：\( \{X_i\} \) 是 \( L^p \)-m-approximable（\( p \geq 4 \)），这是函数型时间序列的标准弱相依条件（Hörmann & Kokoszka 2010），确保中心极限定理成立。相比已有文献（如Zhang & Chen 2022假设独立同分布），本文放宽到时间序列相依。
假设2（观测区间）：观测区间 \( O_i \) 是确定性的，且满足“覆盖条件”：存在常数 \( c > 0 \) 使得每个B-spline基函数的支撑区间被至少 \( cn \) 条曲线观测到。这确保估计量的方差可控。
假设3（测量误差）：\( \varepsilon_i(t) \) 均值为0，方差 \( \sigma^2(t) \) 有界，且在不同 \( i \) 和 \( t \) 上独立（或弱相依）。相比完全观测文献（如Delaigle et al. 2020假设无噪声），本文首次处理测量误差。
假设4（B-spline）：B-spline基函数个数 \( J \asymp n^{1/(2r+1)} \)，其中 \( r \) 是 \( \mu(t) \) 的光滑度（Hölder类）。这是最优收敛速度的经典选择。

相比已有文献的放宽/强化： - 放宽：允许部分观测（间断点）和测量误差。 - 强化：需要观测区间覆盖条件（完全观测情形不需要）。

主要结果¶

本文有3个核心定理（理论型），挑2个最关键：

定理1（理想情形弱收敛）： - 陈述：在完全观测、无噪声下，\( \sqrt{n}(\hat{\mu}_{\text{ideal}} - \mu) \) 在Skorokhod空间 \( D[0,1] \) 中弱收敛到一个均值零的高斯过程 \( \mathbb{G} \)，其协方差函数为 \( \text{Cov}(\mathbb{G}(s), \mathbb{G}(t)) = \text{Cov}(X_1(s), X_1(t)) \)。 - 直觉：即使估计量有间断点（如因缺失区间边界），Skorokhod空间允许跳跃，弱收敛性仍然成立。 - 必要条件：\( n \to \infty \)，\( X_i \) 弱相依。 - 解决的技术难点：传统C[0,1]空间弱收敛要求估计量连续，本文首次在D[0,1]中建立结果。

定理2（实际情形Gaussian approximation）： - 陈述：在部分观测+测量误差下，存在一个均值零的高斯过程 \( \mathbb{G}_n \) 使得

\[\sup_{t \in [0,1]} \left| \sqrt{n}(\hat{\mu}(t) - \mu(t)) - \mathbb{G}_n(t) \right| = o_p(1).\]

- 直觉：B-spline估计量的最大偏差可以用高斯过程逼近，从而导出supremum范数的渐近分布。 - 必要条件：B-spline节点数 \( J \) 增长适当，观测区间覆盖条件满足。 - 解决的技术难点：测量误差引入额外方差，需要调整协方差估计；部分观测导致B-spline设计矩阵非对角，需要处理其逆的渐近性质。

推论（同时置信带）： - 基于定理2，构造 \( 1-\alpha \) 水平的同时置信带：

\[\hat{\mu}(t) \pm \frac{q_{1-\alpha}}{\sqrt{n}} \hat{\sigma}(t),\]

其中 \( q_{1-\alpha} \) 是 \( \|\mathbb{G}_n\|_\infty \) 的 \( 1-\alpha \) 分位数，由multiplier bootstrap估计。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

B-spline估计量的显式表达：将 \( \hat{\mu}(t) = \mathbf{B}(t)^\top (\mathbf{B}^\top \mathbf{B})^{-1} \mathbf{B}^\top \mathbf{Y} \) 写成投影形式，其中 \( \mathbf{B} \) 是设计矩阵（每行对应一个观测点，每列对应一个基函数），\( \mathbf{Y} \) 是观测向量。
偏差-方差分解：\( \hat{\mu}(t) - \mu(t) = [\hat{\mu}(t) - \mathbb{E}\hat{\mu}(t)] + [\mathbb{E}\hat{\mu}(t) - \mu(t)] \)。方差项由B-spline投影的渐近正态性控制；偏差项由B-spline逼近误差控制（假设 \( \mu \) 光滑）。
有限维高斯过程逼近：由于 \( \hat{\mu}(t) \) 是B-spline系数的线性组合，且系数 \( \hat{\beta} \) 渐近正态，\( \sqrt{n}(\hat{\mu} - \mathbb{E}\hat{\mu}) \) 可表示为有限维高斯过程 \( \mathbf{B}(t)^\top \mathbf{Z} \)，其中 \( \mathbf{Z} \sim N(0, \Sigma) \)。
Skorokhod空间弱收敛：证明该有限维高斯过程在Skorokhod度量下是紧的（关键：B-spline基函数在间断点处的跳跃有界，且跳跃位置固定），从而弱收敛成立。
Bootstrap一致性：使用multiplier bootstrap生成 \( \mathbf{Z}^* \sim N(0, \hat{\Sigma}) \)，证明 \( \|\mathbf{B}(t)^\top \mathbf{Z}^*\|_\infty \) 的条件分布一致逼近 \( \|\mathbf{B}(t)^\top \mathbf{Z}\|_\infty \) 的分布。

关键跳跃点： - 最吃功夫的引理：引理3（设计矩阵 \( \mathbf{B}^\top \mathbf{B} \) 的最小特征值下界）。由于部分观测，设计矩阵可能病态（某些基函数只有少量观测点）。作者证明在覆盖条件下，最小特征值以概率趋于1有正下界。这需要精细的组合论证和弱相依性下的集中不等式。 - 难点：测量误差使得 \( \mathbf{Y} \) 的协方差结构复杂（对角+函数型协方差），作者通过“先估计函数型协方差，再构造multiplier bootstrap”绕过去。

技术技巧点名： - Empirical process + chaining：用于控制B-spline估计量的supremum范数偏差（定理2的Gaussian approximation证明中，需要处理 \( \sup_t |\hat{\mu}(t) - \mathbb{E}\hat{\mu}(t)| \) 的收敛速度）。 - Multipiler bootstrap：用于逼近 \( \|\mathbb{G}_n\|_\infty \) 的分位数。作者证明bootstrap一致性时，使用了“条件Gaussian approximation”技巧（即给定数据，bootstrap样本的条件分布逼近 \( \mathbb{G}_n \) 的分布）。 - Skorokhod度量下的tightness：证明有限维高斯过程在D[0,1]中紧的关键是控制跳跃幅度和跳跃位置（B-spline基函数的支撑性质保证了跳跃只发生在节点处，且跳跃幅度有界）。

真实例子与应用¶

用的什么数据/场景：视觉刺激实验的脑电图（EEG）数据集。受试者观看不同视觉刺激（如人脸、房屋），记录头皮电极的电压信号（时间序列）。数据存在部分观测：某些时间点因设备故障或眨眼伪迹被剔除，导致观测区间不连续。

怎么把本文方法用上去： 1. 对每个电极，将EEG信号视为函数型时间序列（每条曲线对应一次试验）。 2. 使用B-spline估计均值函数（平均脑电响应）。 3. 构造同时置信带，检验“不同刺激条件下均值函数是否相等”（两样本检验）。 4. 使用multiplier bootstrap计算p值。

得到什么结果： - 发现人脸刺激在特定电极（如枕叶）和特定时间窗口（100-200ms）产生显著更大的负向偏转（N170成分），与认知神经科学文献一致。 - 同时置信带显示，在部分观测区间（如因眨眼剔除的时段），置信带变宽（反映信息损失），但推断仍然有效。

这个例子想说明什么：验证本文方法在真实部分观测数据上的实用性，展示同时置信带和两样本检验的科学发现能力。相比完全观测方法（如删除缺失区间），本文方法利用了所有可用数据，在缺失区间附近仍能提供有效推断。

🔎 结论是否比证明窄¶

窄结论1：定理2的Gaussian approximation要求B-spline节点数 \( J \) 以特定速率增长（\( J \asymp n^{1/(2r+1)} \)）。作者在结论中声称“适用于一般部分观测模式”，但证明中假设观测区间覆盖条件（每个基函数被至少 \( cn \) 条曲线观测）。如果缺失模式导致某些基函数几乎无观测（如极端稀疏情形），该条件可能不成立。作者未讨论这种情形。
窄结论2：bootstrap一致性证明中假设测量误差方差 \( \sigma^2(t) \) 已知或可一致估计。在EEG例子中，作者使用经验估计，但未给出理论保证（如收敛速度）。这在实际应用中可能是一个隐患。
泛泛claim：作者在摘要中说“develops various forms of statistical inference”，但正文中只详细处理了同时置信带和两样本检验。对于“相关假设检验”（如 \( H_0: \mu(t) = 0 \) 对 \( H_1: \mu(t) > c \)），作者只给出了框架，未提供完整的理论证明（如检验的渐近势函数）。

四、开放问题¶

随机缺失机制下的推断：本文假设观测区间是确定性的。如果缺失是随机的（如MCAR/MAR），估计量的渐近性质会如何变化？需要发展同时处理缺失机制和函数型时间序列相依性的理论。扎根于：本文假设2（观测区间确定性）——作者未讨论随机缺失情形。
高维B-spline（\( J \gg n \)）下的推断：本文假设 \( J \) 增长慢于 \( n \)。如果使用高维基函数（如 \( J \gg n \)），supremum范数推断是否仍然可行？可能需要引入惩罚或正则化。扎根于：定理2中 \( J \asymp n^{1/(2r+1)} \) 的条件——作者未讨论高维情形。
同时置信带的覆盖精度：本文的bootstrap方法是否达到最优收敛速度（如 \( O(n^{-1/2}) \) 的覆盖误差）？需要与基于Euler特征或tube公式的精确方法比较。扎根于：推论（同时置信带）——作者未给出覆盖误差的收敛速度。
缺失区间上的外推推断：在完全无观测的区间（如 \( (a,b) \)），均值函数的推断完全依赖于B-spline基函数的线性组合外推。这种外推的可靠性如何？是否需要引入形状约束（如单调性、凸性）？扎根于：本文对缺失区间上的推断未给出额外理论保证——作者仅依赖B-spline的逼近性质。

Maintained by 陈星宇 · Homepage · Source on GitHub