Deep Regression for Repeated Measurements¶

作者: Shunxing Yan, Fang Yao, Hang Zhou
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：本方向研究「重复测量」（repeated measurements）设定下的非参数均值函数回归。其根本的统计问题是：当对每个独立个体（subject）在多个时间点或条件下重复观测响应变量，且这些重复观测之间存在未知的聚类依赖（clustered dependence）时，如何一致地估计均值函数 \( f(x) = \mathbb{E}[Y \mid X=x] \)，并刻画该估计的收敛速率与维度诅咒的关系。这个设定贯穿纵向数据、面板数据、函数型数据分析等多个子领域，成熟度较高，但关于非参数估计器在聚类依赖和任意采样频率（arbitrary sampling frequency）下的理论——特别是与深度神经网络（DNN）估计相结合的收敛速率相变现象——仍是一个开放的前沿。
发展脉络（history）：从引言中引用工作构建时间线——
奠基工作：非参数回归的经典理论（如 Stone 1982, Stone 1985）建立了在独立同分布（i.i.d.）数据下，通过局部多项式或样条估计 Hölder 类函数的 minimax 收敛速率。这部分工作在重复测量背景下需要被重新审视，因为聚类依赖改变了有效样本量的计算方式。
主要进展（处理聚类依赖）：针对重复测量数据的非参数回归，早期工作如 Yao et al. (2005, JASA) 提出的 PACE 方法（基于局部线性回归和主成分分析）用于函数型数据，但假定稀疏且随机采样的时间点，且依赖的是时间平滑性而非一般协变量上的 Hölder 平滑性。更近期的进展包括 Li & Hsing (2010, Biometrika)、Zhang & Wang (2016, JRSS-B) 等，它们分别处理了稠密/稀疏采样下的均值函数估计，但往往预设采样的时间点 \( T \) 作为协变量，而非更一般的 p 维协变量 \( X \in \mathbb{R}^p \)。
当前 frontier（DNN 与低内在维度）：非参数回归的 DNN 估计器在 i.i.d. 设定下已取得突破（如 Schmidt-Hieber 2020, AoS; Nakada & Imaizumi 2020, AoS），证明了 DNN 能自适应地利用低内在维度结构（如层次组合模型、低维支撑集、各向异性平滑性）来绕过维度诅咒。然而，这些工作均假设观测相互独立，未考虑聚类依赖。论文引言明确指出，这些结果“cannot be directly applied to our setting with within-group dependence”。
本文的位置：论文将 DNN 非参数回归推进到重复测量设定下，这是首次针对任意采样频率 + 一般聚类依赖建立统一的 DNN 估计理论，并发现了重复测量特有的相变现象。作者特意强调，这个相变现象是“inherent to repeated measurements”，在 i.i.d. 设定下不存在。
子线索聚类：
线索 1：重复测量下的经典非参数回归（Yao et al. 2005; Li & Hsing 2010; Zhang & Wang 2016）——核心是处理函数型或纵向数据的均值、协方差函数估计，常用局部多项式或样条，理论依赖时间点的密度与平滑性。
线索 2：i.i.d. 设定下 DNN 的非参数回归（Schmidt-Hieber 2020; Nakada & Imaizumi 2020; Bauer & Kohler 2019）——证明 DNN 在 Hölder、层次组合、低维支撑集等设定下可达到 minimax 最优或接近最优收敛速率，但对聚类依赖无处理。
线索 3：重复测量下的半参/非参效率界与经验过程（Huang 2003; van der Vaart & Wellner 1996）——涉及聚类数据的经验过程理论是本文的核心技术基础，但已有文献多关注于广义估计方程（GEE）或线性/半参模型，而非非参数回归的相变分析。
这个方向在追问的核心问题：
当每个个体有多个重复测量（记为 \( m_i \) 次），估计均值函数 \( f(x) \) 的收敛速率应如何依赖于样本量 \( N = \sum_i m_i \)、个体数 \( n \)、以及协变量维度 \( p \)？
聚类依赖（个体内相关性）是否会妨碍 DNN 估计器的自适应能力，使得它无法像在 i.i.d. 设定下那样自动绕过维度诅咒？
是否存在一个“相变”点——即当 \( m_i \) 相对于 \( n \) 和 \( p \) 很小时，速率接近参数式（parametric rate \( O_P(N^{-1/2}) \)），而当 \( m_i \) 很大时，速率退化为非参数式（取决于 \( p \) 和 Hölder 指数 \( \beta \)）？这个相变的临界条件是什么？
对于低内在维度结构（如各向异性 Hölder 光滑性），DNN 是否能自适应地获得更快速率，且该速率是否紧？
⚠️ 作者的 framing：
作者将缺口 frame 为：“虽然有大量关于重复测量的非参数回归工作，但 DNN 估计器的理论在聚类依赖下是空白的，且经典工作的理论往往假设特定的采样方案（如稀疏/稠密），而我们想要一个统一框架。” 这使得本文在方法上看似是“显然的下一步”。
作者淡化的竞争路线包括：(a) 基于随机效应/混合模型的参数或半参数方法——这些方法对均值函数有参数假设，无法直接比较；(b) 基于核方法或高斯过程的估计——这些方法同样可处理聚类，但与 DNN 近似理论不同，且可能没有本文明的相变刻画。
值得研究者去查的问题：这篇 Intro 中明显没有引用 Dieuleveut & Bach (2016, JMLR 关于随机梯度下降的泛化界与张量核) 以及 Kernel Ridge Regression 在聚类数据下的理论（如 Yang et al. 2017, AoS）。这些工作可能处理了类似的设定，可能提供了与 DNN 不同的速率刻画。值得查证是否有通过 RKHS 方法得到相变的已有结果。
张力：未见明显对立引用。所有被引工作要么假设 i.i.d.，要么假设特定采样方案或更高斯性，互相之间存在连续性而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
个股 \( i = 1,\dots,n \)，第 \( i \) 个股有 \( m_i \) 次重复测量。
总观测数 \( N = \sum_{i=1}^n m_i \)。
第 \( i \) 个股的第 \( j \) 次测量：协变量 \( X_{ij} \in \mathbb{R}^p \)，响应 \( Y_{ij} \in \mathbb{R} \)。
隐含个体随机效应 \( Z_i \)（高维不可观测的潜变量），使得给定 \( X_i = (X_{i1}, \dots, X_{im_i}) \) 后，\( Y_{ij} \) 以某个方式依赖于 \( Z_i \)，导致个体内相关性。
均值函数 \( f(x) = \mathbb{E}[Y_{ij} \mid X_{ij} = x] \)，这是我们想估计的参数/目标。
Hölder 类：\( \mathcal{H}(\beta, L) \)，表示在 \( [0,1]^p \) 上 \( \beta \)-阶平滑（\( \beta > 0 \)，导数到阶 \( \lfloor \beta \rfloor \) 有界且余项 Hölder 连续，Lipschitz 常数 \( L \))。
噪声：\( \varepsilon_{ij} = Y_{ij} - f(X_{ij}) \)（均值为 0），但其方差-协方差结构可以依赖于 \( X_{ij} \) 和 \( i \)，未知。
采样方案：每对 \( (X_{ij}, Y_{ij}) \) 可观测，但 \( X_{ij} \) 本身的密度（即采样频率）可以是任意的（稠密或稀疏）。
估计器：\( \hat{f}_n(x) \) 是一个全连接 DNN，其深度、宽度由算法或调参决定。
模型：一个通用的非参数均值回归模型：
\[Y_{ij} = f(X_{ij}) + \varepsilon_{ij}, \quad i=1,\dots,n,\ j=1,\dots,m_i\]
其中 \( (X_{ij}) \) 是 i.i.d.（或平稳的）随机协变量，\( (\varepsilon_{ij})_j \) 给定 \( X_i \) 后可具有任意聚类依赖结构（只假设有限矩和一定弱条件），且与 \( X_i \) 独立。
可观测数据：我们观测到 \( \{(Y_{ij}, X_{ij}) : i=1,\dots,n,\ j=1,\dots,m_i\} \)，共 \( N \) 个配对观测。不可观测的是潜在个体效应 \( Z_i \) 以及完整的噪声协方差矩阵（我们不知道个体内的依赖性有多强）。聚类依赖是“存在且透明”——我们不建模它，但通过经验过程来处理它。

第二步：讲最小内核¶

最简特例（本论文可被还原的最小形式）：

设： - \( p = 1 \)（一维协变量），\( X_{ij} \in [0,1] \)，i.i.d. Uniform(0,1) 在所有 \( i,j \) 上。 - \( m_i = m \) 对于所有 i 相同（每个个体恰好 m 次测量）。 - 聚类依赖是“独立但等方差”的：给定 \( X_{i1}, \dots X_{im} \)，有 \( \text{Var}(\varepsilon_{ij}) = \sigma^2 \)，但 \( \text{Cov}(\varepsilon_{i1}, \varepsilon_{i2}) = \rho \sigma^2 \)（一个常数），且不同个体的 \( \varepsilon_{ij} \) 独立。 - 均值函数 \( f \in \mathcal{H}(\beta, L) \)，\( \beta > 0 \)（一维 Hölder 光滑性）。 - DNN 估计器：一个固定深度的 ReLU 网络，宽度调优至最优维数偏好。

在这个特例下，要证的命题退化成什么？

已知：总的观测数 \( N = n m \)。在 i.i.d. 设定下（若 \( m=1 \) 或聚类可忽略），一维 \( \beta \)-Hölder 非参数回归的最优收敛速率是 \( O(N^{-2\beta/(2\beta+1)}) \)。但这里，由于个体内相关性，有效信息量是什么？

关键发现是相变： - 若 \( m \ll n^{2\beta/(2\beta+1)} \)，则总信息量几乎等于个体数 \( n \) 而非总观测数 \( N \)，收敛速率是 \( O(n^{-2\beta/(2\beta+1)}) \approx O( (N/m)^{-2\beta/(2\beta+1)} ) \)，即个体内的重复测量几乎没有提供额外信息（因为相关性降低了新信息量）。 - 若 \( m \gg n^{2\beta/(2\beta+1)} \)，则收敛速率是 \( O(N^{-2\beta/(2\beta+1)}) \)，即达到了 i.i.d 设定下的 minimax 率，聚类被密度抵消。

临界点：当 \( m\) 与 \( n^{2\beta/(2\beta+1)} \) 同阶时，相变发生。

证明怎么走（在这个特例下）： 1. 先对 DNN 近似误差：用经典 ReLU 网络逼近 Hölder 函数，给出 \( O(L^{-\beta}) \) 的偏差界（其中 L 是网络宽度相关参数）。 2. 用经验过程控制估计的方差部分（随机误差）。关键：由于聚类依赖，标准的 i.i.d. 经验过程不等式失效。作者改用处理聚类数据的经验过程方法（基于 van der Vaart & Wellner 的关于 U-统计量的不等式），将个体内相关性视为一个“群组”效应。这里，有效样本量是 “有效独立个体数”，大约为 \( n \) 而非 \( N \)，但当 \( m \) 很大时，通过个体内的平均可以恢复部分信息——这就是相变的来源。 3. 偏差-方差权衡：平衡 DNN 的宽度（影响偏差）与有效样本量（影响方差），得到最优宽度 \( L \propto N^{1/(2\beta+1)} \)（当 \( m \) 足够大）或 \( L \propto n^{1/(2\beta+1)} \)（当 \( m \) 很小）。 4. 代入得到最终的收敛速率表达式。

为什么成立：因为 \( \rho < 1 \)，每个个体内部的 m 次测量带来 m 个期望等方差的观测，但依赖性仅在个体内，而非全局；因此随 \( m \) 增大，个体水平的平均误差会以 \( O(1/m) \) 衰减，但估计 f 的方差主要受个体间变异和 DNN 的复杂性影响。相变具体取决于 \( m \) 对 \( n \) 和 \( p \) 的相对大小。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话：
研究了重复测量非参数均值回归问题，目标为 Hölder 类均值函数 \( f \)，观测为有聚类依赖的纵向/面板数据。
采用全连接深度神经网络 (DNN) 估计器，开发了一个允许任意采样频率的经验过程理论框架，以处理聚类依赖。
核心结论是收敛速率存在相变现象：当采样频率（个体内次数 m）与维度 p 及平滑性 β 的相互作用跨越一个临界阈值时，速率从参数式（n^{-1/2} 量级）切换为非参数式（N^{-2β/(2β+p)} 量级），且 DNN 能自适应地利用低内在维度结构绕过维度诅咒。
关键设定与假设：
设定：数据 \( (Y_{ij}, X_{ij}) \)，\( i=1..n, j=1..m_i \)，\( X_{ij} \in [0,1]^p \)，\( f(x) = \mathbb{E}[Y_{ij} | X_{ij}=x] \)。
假设：
- A1（采样方案）：协变量 \( \{X_{ij}: i,j\} \) 是 i.i.d. 来自某个有界支撑分布（实际是 [0,1]^p，密度有界远离零），且与噪声（误差）独立。
- A2（聚类依赖结构）：噪声 \( \varepsilon_{ij} = Y_{ij} - f(X_{ij}) \) 满足一定矩条件，并且给定 \( X \) 后，不同个体的噪声独立，但个体内的噪声可以任意相关（只假设存在一个有限协方差核）。这个假设是较弱的，没有指定具体协方差形式。
- A3（目标函数类）：\( f \in \mathcal{H}(\beta, L) \)，即 Hölder 类，其中 \( \beta > 0 \)；或者对于低内在维度结构，假设 f 属于层次组合类、有低维支撑集，或是各向异性 Hölder。
- A4（DNN 架构）：使用 ReLU 激活的深度全连接网络，深度和宽度通过数据驱动方式选择（论文使用交叉验证或理论指导调参）。
相比已有文献强化/放宽：相比 i.i.d. DNN 工作（Schmidt-Hieber 2020），本假设额外要求了聚类依赖的存在（A2），但并未假设噪声的具体分布或协方差结构，非常一般性。相比经典重复测量工作（如 Yao et al. 2005），本假设对采样频率无任何限制（稀疏或稠密均可），且协变量可一般化。
主要结果：
定理 3.1（一般速率，无低维结构）：对 Hölder 类 \( \mathcal{H}(\beta, L) \)，若 DNN 架构（深度 \( L \)，宽度 \( K \)）选为 \( L \asymp \log N \)，\( K \asymp N^{p/(2\beta+p)} \)，则估计器 \( \hat{f}_n \) 满足：
\[\mathbb{E}\left[ \int (\hat{f}_n(x) - f(x))^2 dx \right] \leq C \left[ N^{-2\beta/(2\beta+p)} + n^{-2\beta/(2\beta+p)} \right].\]
即速率是两者之和，相变发生在 \( m_i \asymp n^{2\beta/(2\beta+p)} \) 处。
- 直觉：当个体内平均能降低方差时，N-速率占优，否则 n-速率占优。
- 必要条件：目标函数有 \( \beta \) 阶平滑性。
- 解决的技术难点：将 i.i.d 下的 DNN 经验过程理论扩展到聚类依赖，需要建立一个新的群组经验过程不等式（引理 5.1）。
定理 4.1-4.3（低内在维度下的自适应速率）：
- 层次组合模型（定理 4.1）：若 \( f \) 可分解为有限个低维函数（如树状结构），则 DNN 估计器达到 \( O(N^{-2\beta/(2\beta+d^*)} ) \) 其中 \( d^* \) 是“内在维数”（依赖于组合树宽度）。
- 低维支撑集（定理 4.2）：若 f 的有效支撑集仅在一个 \( d' \)-维流形上，则速率可降低到依赖于 \( d' \)。
- 各向异性 Hölder 平滑（定理 4.3）：若 f 在各维度的光滑性不同（即 β_j 不同，各向异性函数），则 DNN 自适应地匹配了 1/β 的调和平均维度。
- 匹配的下界：对于相应的问题设定，论文证明了 minimax 下界，表明这些速率是紧的。
相变现象的具体例子：文中图 1 示意了当 p=2, β=2 时，随着 m 从 1 增长到 100，收敛速率如何从接近 O(n^{-2/3}) 过渡到 O(N^{-2/3})。
证明路线与技术技巧（理论型必写，要具体）：
技术技巧点名与作用：
1. 聚类经验过程不等式（Lemma 5.1）：构造一个针对群组数据的熵数 blend，其中有效 VC 维数由个体数 \( n \) 而非 \( N \) 决定，但通过群组内部的平均可以部分恢复统计能力。这是整篇证明的核心创新。
2. ReLU 网络的逼近定理（Lemma 5.2, 5.3 等，基于 Yarotsky 2017, Shen et al. 2020）：用于在 Hölder 类上得到精确的逼近误差界，特别是各向异性场合的逼近结果是对已有结果的推广。
3. 偏差-方差权衡分两区处理：在证明中，将个体的采样频率区分为“大 m”和“小 m”两种情形，分别用不同的熵数 bound 来推导偏差-方差最优平衡。
4. 概率密切性与广义交叉验证（用于真实例子调宽深度）：论文描述了如何用 AIC/BIC 型准则选择 DNN 的深度，但主要理论证明假设架构是固定且预先优化好的。
整体路线：
- 步骤 1：对任意给定的 DNN 架构，推导方差项上界：\( \mathrm{Var}(\hat{f}_n) \leq C \cdot \frac{K \log N}{n} \)（为简单，假设小 m 情形，实际依赖于聚类强度）。
- 步骤 2：推导偏差项：\( \mathrm{Bias}(\hat{f}_n) \leq C L^{-\beta} + \) 逼近误差。
- 步骤 3：通过调优（深度与宽度）使得偏差 ≈ 方差，解的速率表达式。
- 步骤 4：证明匹配的 minimax 下界：构造一个参数空间并利用 Fano 引理，显示任何估计器在该设定下都不能超越该速率。
关键跳跃点：
- 将聚类经验过程理论应用到 DNN 的 Rademacher 复杂度上。通常 DNN 的 Rademacher 复杂度是 \( O(\#weights \log N / N) \)，但这里因为聚类依赖，\( N \) 被替换成 \( n \)。这需要重做所有熵数计算。
- 处理相变临界点附近的分析：当 \( m \) 恰好为 \( n^{2\beta/(2\beta+p)} \) 时，N-速率和 n-速率同阶，证明需要精确到常数，论文使用了更精细的方差界。
真实例子与应用：
模拟实验：论文在 Section 6 以详细模拟实验支撑理论。使用了两个数据生成模型：
- 模型 1：\( Y_{ij} = f(X_{ij}) + Z_i + \varepsilon_{ij} \)，其中 \( Z_i \sim N(0,1) \) 代表个体随机截距，\( \varepsilon_{ij} \) 独立同分布高斯。f 是 2 维 Hölder 扭曲的曲面。
- 模型 2：\( Y_{ij} = f(X_{ij}) + \varepsilon_{ij} \)，但噪声具有一个自回归（AR(1)）结构（时间依赖性，模拟纵向）。
- 结果：DNN 估计器与经典方法（局部线性、样条、随机森林）比较，DNN 在相变点附近显著优于其他方法，特别是当内在维度在 2-3 时。论文用相变曲线（m vs. MSE）的图展示理论曲线与实际曲线一致。
真实数据：论文使用了一个人类活动识别 (Human Activity Recognition) 数据集，其中有多个个体在不同时间点的传感器数据（加速度等），目标输出是活动类型（但这里是连续的活动强度）。数据说明：该数据集用于验证 DNN 在“高维”和“聚类”下的实用性，比模拟更贴近真值。
这个例子想说明：DNN 不仅能达到理论速率，在实际复杂度高、样本量中等（n≈20, m≈60）的条件下，也超越了传统的基于样条或随机森林的方法，尤其是在聚类结构存在时。
🔎 结论是否比证明窄：
论文的主要结论（定理收敛速率）是在假设 A1-A4 下严格证明的。但在 Conclusion 部分，作者提到“我们的框架可以轻易推广到响应变量为二分类的情形”以及“可进一步考虑非参数方差函数估计”，这些只是 conjecture，没有在证明中覆盖。同样，在低维支撑集（定理 4.2）中，证明假设“支撑集是一个已知的低维流形”，而在推广中 stream 的适应性和未知 manifold 的学习未被覆盖。

四、开放问题（点到为止，扎根具体语句）¶

一般性类 Hölder 类的 DNN 逼近速率：论文中低维支撑集和各向异性结果的证明依赖于关于流形或函数类结构的先验假设（如已知有效维数）。若这些结构是未知的，DNN 是否能自适应地找到其内在维数，并达到 minimax 最优，仍是一个开放问题（见 Limitation 节：“...adaptive estimation of intrinsic dimension without knowledge is left for future work.”）。
相变的“精确刻画”：目前表明速率是两项之和，但当 \( m \) 在相变临界点附近时，精确的前置常数（leading constant）和二阶项未知。这在构造效率下界时可能重要（论文仅给出 rate-optimal 下界，而非 sharp minimax）。扎根于定理 3.1 末尾：“The bound is up to a constant factor and does not capture the exact transition point...”
与其他算法的计算效率与统计效率比较：论文只将 DNN 与经典的 local polynomial 和 spline 做了模拟对比，但没有与专门为聚类数据设计的核方法（如 Meier et al. 2016）或贝叶斯方法（如 Gaussian process regression with structured kernel）进行系统比较。扎根于 Section 7（Future Work）：“Comparing the DNN estimator with the kernel ridge regression approach under clustered dependence is an important next step.”
高维协变量 (\( p \gg n \)) 下的时序相关设定：当前框架假设 p 相对 n 是低维（p 固定且小），但假如 \( p = O(\log n) \) 或更大时，稀疏性假设应被引入。论文未触及高维稀疏或可分解模型下的聚类回归理论——这是一个直接的扩展方向。扎根于最后一段“Potential extensions to high-dimensional sparse design... require new approximation results for deep networks.”

Maintained by 陈星宇 · Homepage · Source on GitHub