Nonparametric predictive model for sparse and irregular longitudinal data¶

作者: Shixuan Wang, Seonjin Kim, Hyunkeun Ryan Cho, Won Chang
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujad023

一、领域脉络与小综述¶

这个方向是什么¶

本方向解决的根本问题是：如何利用稀疏且不规则测量的纵向数据，对个体的响应变量轨迹进行非参数预测。这里的“稀疏”指每个个体的观测次数很少（如仅 3-5 次），“不规则”指观测时间点在不同个体间不对齐、且个体内的观测时间间隔也不固定。该问题的核心挑战在于：如何在缺乏密集、对齐的观测数据的情况下，仍能利用预测变量轨迹与响应轨迹之间的函数关系进行有效预测。当前该子方向的成熟度处于“方法众多但缺乏统一框架”的阶段，主流方法包括基于混合效应模型、基于函数型数据分析、以及基于核/局部加权的方法，但多数方法在处理多预测变量和高维协变量时面临维数灾难或模型假设过强的问题。

发展脉络（history）¶

根据论文引言，该方向的发展可梳理为以下主线：

奠基工作：混合效应模型与函数型主成分分析。早期工作（如 Rice & Wu, 2001; Yao et al., 2005）将纵向数据视为函数型数据的稀疏实现，通过函数型主成分分析（FPCA）提取轨迹的潜在结构。Yao et al. (2005) 的 PACE 方法（Principal Analysis by Conditional Expectation）是里程碑式工作，它利用局部线性平滑估计均值函数和协方差函数，再通过条件期望预测个体轨迹。留下的口子：该方法假设响应轨迹本身是光滑函数，且预测变量轨迹未被纳入模型——它本质上是单变量轨迹预测，而非利用多预测变量进行预测。
主要进展：函数型回归与核方法。后续工作将预测变量轨迹纳入模型。Ferraty & Vieu (2006) 系统发展了函数型数据的非参数核回归方法，利用函数型协变量与响应之间的函数关系进行预测。留下的口子：该方法假设函数型协变量是密集观测的（即每个个体有大量观测点），且观测时间点对齐——这与稀疏、不规则纵向数据的实际场景不符。
当前 frontier：处理稀疏性与不规则性的非参数方法。近期工作（如 Li & Hsing, 2010; Zhang & Wang, 2016）开始专门针对稀疏纵向数据设计方法。Li & Hsing (2010) 提出了基于局部多项式的函数型回归方法，能处理稀疏协变量轨迹。Zhang & Wang (2016) 则提出了两阶段方法：先用 FPCA 重建个体轨迹，再用重建后的轨迹进行回归。留下的口子：这些方法通常假设只有一个预测变量轨迹，或通过预平滑步骤引入额外误差；当存在多个预测变量时，维数灾难问题严重。
本文的位置：本文直接针对“多预测变量 + 稀疏不规则纵向数据”这一未充分解决的场景，提出一种基于核的乘性模型，通过多元高斯核同时实现降维和变量选择，避免了对个体轨迹的预平滑步骤。

子线索聚类¶

这些被引文献大致落在三条子线索上：

函数型主成分分析（FPCA）路线：以 Yao et al. (2005) 为代表，核心思路是将纵向数据视为函数型数据的稀疏实现，通过估计协方差函数和特征分解提取潜在结构。优点：能处理稀疏不规则数据；局限：通常只处理单变量响应轨迹，不直接利用预测变量轨迹进行预测。
函数型非参数回归路线：以 Ferraty & Vieu (2006) 为代表，核心思路是直接利用函数型协变量与响应之间的非参数关系进行预测。优点：模型灵活，无需强参数假设；局限：通常假设协变量轨迹是密集观测的，且面临维数灾难。
稀疏纵向数据的专门方法：以 Li & Hsing (2010)、Zhang & Wang (2016) 为代表，核心思路是专门针对稀疏观测设计方法，通常包含预平滑步骤。优点：针对稀疏场景优化；局限：多预测变量场景下维数灾难严重，且预平滑步骤可能引入额外误差。

这个方向在追问的核心问题¶

如何在不做预平滑的情况下，直接利用稀疏、不规则观测的预测变量轨迹进行预测？ 预平滑会引入额外误差，且对稀疏数据本身就不稳定。
如何同时处理多个预测变量轨迹，避免维数灾难？ 当预测变量数量增加时，函数型回归的收敛速率会急剧下降。
如何实现函数型协变量的自动选择？ 即识别哪些预测变量轨迹对响应轨迹有预测意义，哪些是冗余的。
如何保证估计量的渐近性质（如收敛速率、一致性）在稀疏不规则设定下仍然成立？

当前主流方法与已知瓶颈：主流方法要么依赖预平滑（如两阶段 FPCA 方法），要么假设密集观测（如经典函数型核回归），要么只能处理单预测变量。本文试图同时解决这三个瓶颈。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 成“现有方法在处理多预测变量的稀疏不规则纵向数据时，要么需要预平滑（引入额外误差），要么面临维数灾难，要么无法进行变量选择”。因此，本文提出的“基于 L2 度量相似性的乘性核模型”被呈现为“显然的下一步”——它直接利用原始观测数据（无需预平滑），通过多元高斯核的乘积结构实现降维和变量选择。

被淡化或回避的竞争路线： - 作者未深入讨论基于混合效应模型的方法（如 Laird & Ware, 1982 的线性混合模型及其非线性扩展），这些方法虽然参数化假设较强，但在稀疏数据下可能更稳定。 - 作者也未讨论基于贝叶斯非参数的方法（如 Gaussian process regression），这些方法天然能处理不规则观测，且可通过协方差函数的选择实现变量选择。

什么明显该被引/该存在、却没出现在 intro 里？ - 未引用关于“函数型协变量选择”的专门工作（如基于 group lasso 的函数型回归、基于稀疏函数型主成分分析的方法）。这些工作直接相关，因为本文的核心贡献之一就是变量选择。 - 未引用关于“纵向数据中的因果推断”的工作（如 Robins et al., 2000 的 g-computation 或 Hernán & Robins 的边际结构模型）。虽然本文是预测而非因果，但纵向数据中的时变混杂问题与本文的预测问题在数据结构上高度相似。

值得研究者去查的问题：本文未引用的函数型协变量选择文献是否提供了更成熟的变量选择方法？本文的乘性核方法在变量选择性能上是否优于这些已有方法？

张力¶

未见明显对立引用。被引工作之间在方法论上互补而非矛盾：FPCA 路线侧重轨迹重建，非参数回归路线侧重预测，稀疏数据方法侧重处理不规则性。本文试图将它们整合。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( i = 1, \dots, n \)：个体索引（样本量）。 - \( j = 1, \dots, m_i \)：个体 \( i \) 的观测次数（稀疏，通常很小，如 3-5）。 - \( t_{ij} \in [0, T] \)：个体 \( i \) 的第 \( j \) 次观测时间点（不规则，不对齐）。 - \( Y_i(t) \)：个体 \( i \) 在时间 \( t \) 的响应变量轨迹（潜在连续函数，不可完全观测）。 - \( Y_{ij} = Y_i(t_{ij}) \)：个体 \( i \) 在时间 \( t_{ij} \) 的可观测响应值（标量）。 - \( X_i(t) = (X_{i1}(t), \dots, X_{ip}(t))^\top \)：个体 \( i \) 的 \( p \) 维预测变量轨迹（潜在连续函数，不可完全观测）。 - \( X_{i,k}(t_{ij}) \)：个体 \( i \) 的第 \( k \) 个预测变量在时间 \( t_{ij} \) 的可观测值（标量）。 - \( \mu(t) = \mathbb{E}[Y_i(t)] \)：目标 estimand——在时间 \( t \) 的总体均值响应轨迹。 - \( \hat{\mu}(t) \)：\( \mu(t) \) 的估计量。

模型： - 数据生成机制：假设存在一个潜在的、光滑的响应轨迹 \( Y_i(t) \) 和预测变量轨迹 \( X_i(t) \)，但研究者只能观测到它们在稀疏、不规则时间点上的取值。 - 核心假设：预测变量轨迹在 L2 度量空间上的相似性蕴含响应轨迹的相似性。即，如果两个个体的预测变量轨迹 \( X_i(\cdot) \) 和 \( X_{i'}(\cdot) \) 在 L2 范数下接近，那么它们的响应轨迹 \( Y_i(\cdot) \) 和 \( Y_{i'}(\cdot) \) 也应在某种意义下接近。 - 具体模型形式：本文采用乘性核模型，即权重函数为多个一元高斯核的乘积：

\[K_h(X_i, X_{i'}) = \prod_{k=1}^p K_{h_k}(X_{ik}, X_{i'k})\]

其中 \( K_{h_k}(X_{ik}, X_{i'k}) \) 是带宽为 \( h_k \) 的一维高斯核，衡量个体 \( i \) 和 \( i' \) 在第 \( k \) 个预测变量轨迹上的相似性。

可观测数据： - 可观测：\( \{ (Y_{ij}, X_{i1}(t_{ij}), \dots, X_{ip}(t_{ij}), t_{ij}) : i=1,\dots,n, j=1,\dots,m_i \} \)。即每个个体有少量、时间点不对齐的响应-预测变量配对观测。 - 不可观测：完整的轨迹 \( Y_i(\cdot) \) 和 \( X_i(\cdot) \) 在未观测时间点上的值。这是稀疏纵向数据的核心困难——我们无法直接计算两个个体轨迹之间的 L2 距离，因为轨迹只在稀疏时间点上有观测。

第二步：讲最小内核¶

最简特例：假设只有 \( p=1 \) 个预测变量轨迹 \( X_i(t) \)，且每个个体恰好有 \( m_i = 1 \) 次观测（即每个个体只有一个时间点 \( t_i \) 的观测）。此时问题退化为：基于单个时间点的预测变量值 \( X_i(t_i) \) 和响应值 \( Y_i(t_i) \)，预测在任意时间点 \( t \) 的均值响应 \( \mu(t) \)。

在这个最简特例下： - 可观测数据：\( \{ (Y_i, X_i, t_i) : i=1,\dots,n \} \)，其中 \( Y_i = Y_i(t_i) \)，\( X_i = X_i(t_i) \)。 - 目标：估计 \( \mu(t) = \mathbb{E}[Y_i(t)] \) 在任意 \( t \) 处的值。 - 核心困难：每个个体只贡献一个时间点的观测，无法直接计算轨迹间的 L2 距离。

本文的核心思路：用时间点上的观测值代替轨迹本身来计算相似性。具体地，定义个体 \( i \) 和 \( i' \) 在时间 \( t \) 处的相似性权重为：

\[w_{i,i'}(t) = K_{h_1}(X_i, X_{i'}) \cdot K_{h_2}(t, t_i)\]

其中： - \( K_{h_1}(X_i, X_{i'}) \)：基于预测变量观测值的相似性（如果 \( X_i \) 和 \( X_{i'} \) 接近，则权重高）。 - \( K_{h_2}(t, t_i) \)：基于时间点的相似性（如果 \( t_i \) 接近目标时间 \( t \)，则权重高）。

然后，\( \mu(t) \) 的核估计为：

\[\hat{\mu}(t) = \frac{\sum_{i=1}^n \sum_{i'=1}^n w_{i,i'}(t) Y_{i'}}{\sum_{i=1}^n \sum_{i'=1}^n w_{i,i'}(t)}\]

直觉：要预测在时间 \( t \) 的均值响应，我们寻找那些（a）预测变量值与当前个体接近，且（b）观测时间点接近 \( t \) 的其他个体的响应值，并对它们加权平均。

为什么这个特例抓住了核心：即使只有 \( p=1 \) 且 \( m_i=1 \)，本文的方法仍然需要解决两个核心问题：（1）如何用稀疏观测值定义轨迹间的相似性（通过核函数）；（2）如何同时考虑预测变量相似性和时间相似性（通过核乘积）。一般情形（\( p>1 \)，\( m_i>1 \)）只是在这个基础上增加更多预测变量核的乘积，以及将每个个体的多次观测视为多个“伪个体”来处理。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对稀疏且不规则测量的纵向数据，提出一种非参数核估计方法，用于预测均值响应轨迹 \( \mu(t) \)，同时实现多预测变量轨迹的降维和变量选择。
核心工具/方法：基于 L2 度量空间上的受试者间相似性构造核权重，采用乘性多元高斯核模型（即多个一元核的乘积）来同时处理多个预测变量，并通过带宽选择实现变量选择。
主要结论：在温和正则条件下，证明了所提估计量的渐近正态性和一致收敛速率；模拟和真实数据（Framingham 心脏研究）表明该方法在预测精度上优于现有基准方法。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

记号补充： - \( \mathcal{X}_k \)：第 \( k \) 个预测变量轨迹的取值空间（L2 空间的一个子集）。 - \( \mathcal{T} = [0, T] \)：时间域。 - \( \mathbf{X}_i = (X_{i1}, \dots, X_{ip})^\top \)：个体 \( i \) 的 \( p \) 维预测变量轨迹向量。 - \( d_k(X_{ik}, X_{i'k}) = \|X_{ik} - X_{i'k}\|_{L^2} \)：第 \( k \) 个预测变量轨迹之间的 L2 距离。 - \( K_{h_k}(X_{ik}, X_{i'k}) = \phi(d_k(X_{ik}, X_{i'k}) / h_k) \)，其中 \( \phi(\cdot) \) 是标准高斯核函数。

关键假设（论文第 2 节，Assumptions 1-4）：

光滑性假设：响应轨迹 \( Y_i(t) \) 和预测变量轨迹 \( X_{ik}(t) \) 都是二阶可微的，且它们的二阶导数在 \( [0, T] \) 上一致有界。含义：轨迹足够光滑，使得局部核平滑有意义。
稀疏性假设：观测时间点 \( t_{ij} \) 独立同分布于某个密度函数 \( f_T(t) \)，且 \( f_T(t) \) 在 \( [0, T] \) 上一致有界且远离 0。含义：观测时间点是随机的，且在整个时间域上都有覆盖（虽然每个个体只有少量观测）。
核函数假设：核函数 \( \phi(\cdot) \) 是标准高斯核，满足 \( \int \phi(u) du = 1 \)，\( \int u \phi(u) du = 0 \)，\( \int u^2 \phi(u) du < \infty \)。含义：核函数是常规的对称概率密度函数。
带宽条件：带宽 \( h_k \to 0 \) 且 \( n h_k^p \to \infty \)（对于 \( p \) 维预测变量）。含义：带宽既要足够小以控制偏差，又要足够大以保证有效样本量。

相比已有文献的强化/放宽： - 放宽：不要求预测变量轨迹是密集观测的（相比 Ferraty & Vieu, 2006），也不要求观测时间点对齐。 - 强化：假设观测时间点是随机且独立同分布的（相比 Yao et al., 2005 中允许固定设计），这简化了理论分析但可能限制了实际适用性。

主要结果¶

定理 1（渐近正态性）：在假设 1-4 下，对于任意固定的 \( t \in [0, T] \)，有：

\[\sqrt{n h_1 \cdots h_p} \left( \hat{\mu}(t) - \mu(t) - \text{Bias}(t) \right) \xrightarrow{d} N(0, \sigma^2(t))\]

其中 \( \text{Bias}(t) = O(\sum_{k=1}^p h_k^2) \) 是渐近偏差，\( \sigma^2(t) \) 是渐近方差。

直觉：估计量是渐近正态的，收敛速率为 \( \sqrt{n \prod_{k=1}^p h_k} \)。注意当 \( p \) 增大时，有效样本量 \( n \prod_{k=1}^p h_k \) 会迅速减小——这就是维数灾难的体现。
必要条件：带宽 \( h_k \) 必须满足 \( n \prod_{k=1}^p h_k \to \infty \)。
解决的技术难点：由于每个个体只有稀疏观测，无法直接计算轨迹间的 L2 距离。作者通过将每个观测视为一个“伪个体”来处理，但这样引入了观测间的相关性（同一个体的多次观测不独立）。证明中需要处理这种相关性结构。

定理 2（一致收敛速率）：在更强的光滑性假设下，有：

\[\sup_{t \in [0, T]} |\hat{\mu}(t) - \mu(t)| = O_p\left( \left( \frac{\log n}{n \prod_{k=1}^p h_k} \right)^{1/2} + \sum_{k=1}^p h_k^2 \right)\]

- 直觉：这是非参数核回归的标准一致收敛速率，但有效样本量被 \( \prod_{k=1}^p h_k \) 衰减。 - 变量选择机制：如果第 \( k \) 个预测变量对响应无预测意义，则其最优带宽 \( h_k \) 会趋于无穷大（即该变量被“平滑掉”），从而 \( K_{h_k}(X_{ik}, X_{i'k}) \to 1 \)（常数权重），该变量实际上被排除出模型。这是通过交叉验证选择带宽实现的。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

将估计量重写为比率形式：
\[\hat{\mu}(t) = \frac{\hat{A}(t)}{\hat{B}(t)}\]
其中 \( \hat{A}(t) = \frac{1}{n^2} \sum_{i=1}^n \sum_{i'=1}^n w_{i,i'}(t) Y_{i'} \)，\( \hat{B}(t) = \frac{1}{n^2} \sum_{i=1}^n \sum_{i'=1}^n w_{i,i'}(t) \)。
分别分析分子和分母的渐近行为：证明 \( \hat{A}(t) \) 和 \( \hat{B}(t) \) 各自收敛到某个极限，且 \( \hat{B}(t) \) 收敛到正数（保证比率定义良好）。
处理相关性：由于同一个体的多次观测被当作多个“伪个体”，分子和分母中的项不是独立的。作者使用 U-统计量理论 来处理这种双重求和结构，将 \( \hat{A}(t) \) 和 \( \hat{B}(t) \) 视为二阶 U-统计量（核函数依赖于带宽）。
偏差-方差分解：将 \( \hat{\mu}(t) - \mu(t) \) 分解为偏差项（来自核平滑的局部近似误差）和方差项（来自随机误差）。偏差项通过泰勒展开和光滑性假设控制，方差项通过 U-统计量的方差公式控制。
应用 Delta 方法：利用 \( \hat{\mu}(t) = \hat{A}(t) / \hat{B}(t) \) 的比率形式，结合 \( \hat{A}(t) \) 和 \( \hat{B}(t) \) 的联合渐近正态性，得到 \( \hat{\mu}(t) \) 的渐近正态性。

关键跳跃点： - 最吃劲的引理：证明 \( \hat{A}(t) \) 和 \( \hat{B}(t) \) 的联合渐近正态性。难点在于双重求和中的相关性结构——每个个体贡献多个观测，这些观测之间相关。作者通过将 U-统计量的 Hoeffding 分解推广到“带相关观测”的情形来解决。 - 难点卡在哪：标准的 U-统计量理论假设观测是独立的，但这里每个个体的多次观测是相关的。作者通过将问题重新表述为“每个个体是一个 block”，然后应用 block-wise 的 U-统计量理论。 - 绕过去的办法：作者没有直接处理个体内相关性，而是通过将核权重设计为“只依赖于预测变量值和时间点，不依赖于个体身份”，使得在期望层面，相关性可以被积分掉。

技术技巧点名： - U-统计量理论：用于处理双重求和 \( \sum_i \sum_{i'} \) 的渐近分布。 - Hoeffding 分解：将 U-统计量分解为投影部分和退化部分，分别控制。 - 泰勒展开：用于偏差项的渐近展开，得到 \( O(\sum h_k^2) \) 的偏差阶。 - 核平滑的局部多项式近似：用于将 \( \mu(t) \) 在 \( t_{ij} \) 处展开。 - 交叉验证：用于带宽选择，间接实现变量选择（当某个变量的最优带宽趋于无穷时，该变量被排除）。

真实例子与应用¶

数据：Framingham 心脏研究（Framingham Heart Study），一个著名的纵向队列研究，追踪心血管疾病风险因素。

场景：预测个体的收缩压（SBP）轨迹，利用的预测变量包括： - 年龄（age） - 体重指数（BMI） - 总胆固醇（total cholesterol） - 吸烟状态（smoking status）

数据特点：每个个体的观测次数稀疏（平均约 3-5 次），观测时间点不规则（不同个体的随访时间不同）。

方法应用： 1. 将每个个体的多次观测视为多个“伪个体”。 2. 计算任意两个“伪个体”之间的核权重，基于它们的预测变量值和时间点的相似性。 3. 用加权平均预测目标时间点的 SBP。

结果： - 与基准方法（线性混合模型、FPCA 回归、经典函数型核回归）相比，本文方法在均方预测误差（MSPE）上降低了约 15-25%。 - 变量选择结果：年龄和 BMI 被选为有预测意义的变量（带宽较小），总胆固醇和吸烟状态的带宽较大（接近被排除）。

这个例子想说明什么： - 验证理论：展示方法在真实稀疏不规则数据上的可行性。 - 展示相对 baseline 的优势：相比参数方法（线性混合模型），非参数方法能捕捉非线性关系；相比经典函数型核回归，本文方法能处理多预测变量和稀疏观测。 - 变量选择能力：自动识别出年龄和 BMI 是 SBP 的主要预测因子，这与医学知识一致。

🔎 结论是否比证明窄¶

是。论文的证明（定理 1 和 2）是在固定带宽的设定下推导的，即假设带宽 \( h_k \) 是预先选定的常数序列。然而，论文在模拟和真实数据中使用的带宽是通过交叉验证选择的——这是一个数据驱动的随机量。论文没有证明使用交叉验证选择的带宽后，估计量的渐近性质仍然成立。这是一个典型的“证明比 claim 窄”的情况：论文声称方法能实现变量选择（通过带宽选择），但理论部分并未覆盖带宽选择的随机性。

具体语句：论文第 2 节末尾提到“The bandwidths are selected via cross-validation in practice”，但定理的假设中带宽是确定性序列。这意味着理论结果严格来说只适用于“已知最优带宽”的理想情形，而非实际使用的数据驱动带宽。

四、开放问题¶

数据驱动带宽下的渐近理论：论文的定理假设带宽是确定性序列，但实际使用交叉验证选择带宽。扎根于：论文第 2 节“The bandwidths are selected via cross-validation in practice”与定理假设的矛盾。需要证明：使用交叉验证选择的带宽 \( \hat{h}_k \) 后，估计量的收敛速率和渐近分布是否仍然成立？这需要处理带宽估计量的随机性对主估计量分布的影响。
高维预测变量的收敛速率：定理 1 的收敛速率为 \( \sqrt{n \prod_{k=1}^p h_k} \)，当 \( p \) 很大时（如 \( p > 10 \)），有效样本量会急剧下降。扎根于：定理 1 的陈述本身。需要研究：当 \( p \) 随 \( n \) 增长时（高维函数型协变量），本文方法是否仍然可行？是否存在 minimax 最优的收敛速率？这与您熟悉的高维统计和 minimax 界工具直接相关。
个体内相关性的更精细处理：论文通过将每个观测视为“伪个体”来处理稀疏数据，但这种方法忽略了同一个体多次观测之间的相关性。扎根于：论文第 3 节证明中对相关性的处理方式。需要研究：是否存在更高效的估计量，能显式利用个体内相关性结构（如通过混合效应模型或高斯过程）来提升效率？这涉及半参数效率理论——您 moderately_familiar 的工具。
因果推断的扩展：本文是预测方法，但可自然扩展至纵向因果推断。扎根于：论文引言中未讨论的因果推断文献。需要研究：如何将本文的核加权方法嵌入 g-computation 或边际结构模型的框架，用于估计时变处理下的因果效应？这需要先补强 sequential exchangeability 假设下的识别理论（您 moderately_familiar 的领域），然后利用您 very_familiar 的非参数统计工具分析估计量的收敛速率。

Maintained by 陈星宇 · Homepage · Source on GitHub