Ensemble projection pursuit for general nonparametric regression¶

作者: Haoran Zhan, Mingke Zhang, Yingcun Xia
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向的核心是非参数回归中的维度诅咒与结构假设。研究的问题是：如何利用一种灵活的非参数结构——脊函数求和 (sum of ridge functions) 来逼近高维回归函数，同时保证估计的统计一致性、收敛速率，并在中小规模数据集上达到可与随机森林 (RF) 等集成方法相媲美的预测精度。该方向的成熟度较高，有深厚的宋史 (1980s 的 PPR 奠基)，也有近期的理论突破 (贪婪算法收敛率、脊函数近似理论)，但在实际预测性能上与 RF 存在显著的“理论-实践”差距，这正是本文试图弥合的。

发展脉络 (history)¶

奠基工作 (1980s): Friedman & Stuetzle (1981) 提出投影追踪回归 (PPR)，核心思想是用一系列“脊函数” \( g_m(\theta_m^T X) \) 的和来逼近任意多元函数。PPR 是自适应非参数方法，理论上可逼近任意连续函数，具有“通用逼近”能力。然而，由于当时的计算能力限制，其实际应用受限，被 [24] (Ziegel, 2003) 认为“其普及度有限的原因是计算复杂度”。
集成方法的崛起 (2000s-2010s): Breiman (2001) 的《Statistical Modeling: The Two Cultures》提出了算法建模的范式，推广了随机森林 (RF) 等集成方法。RF 因其在大规模、高维数据上的卓越实际性能迅速成为主流。但 RF 的理论性质长期不明。Scornet, Biau & Vert (2014) 证明了 Breiman 原始版本 RF 在加性回归模型下的相合性，但仅限于特定函数类。Chi et al. (2020) 则在高维设定下证明了 RF 的多项式相合率。
PPR & 贪婪算法的理论复兴 (2010s-现在): 近十年来，对 PPR 和脊函数的理论兴趣复兴，主要来自两个方向：近似理论 (Siegel & Xu, 2021; Yarotsky, 2016; Kidger & Lyons, 2019) 关注用有限项脊函数/神经网络能以多快的速度逼近光滑函数；贪婪算法收敛性 (Barron, Cohen, Dahmen & DeVore, 2008; Siegel & Xu, 2021) 则证明了正交贪婪算法 (OGA) 在特定字典下的最优收敛率 (如 Siegel & Xu (2021) 证明了若字典凸包的熵衰减为 \(O(n^{-1/2-\alpha})\)，则 OGA 能达到相同速率)。作者 Zhan, Zhang & Xia 明确指出，[40] 和 [41] 的结果可以改进 PPR 的收敛率。
本文的位置: 本文站在“理论复兴”和“集成方法”的交汇点。作者声称，PPR 的理论优秀性质 (通用逼近、可处理的收敛率) 并未转化为可比肩 RF 的实践性能。因此，他们同时改进 PPR 的估计算法 (最优贪婪算法) 和 集成方法 (特征袋装)，提出 ePPR，旨在填补这一“理论-实践”鸿沟。他们不追求 RF 在高维大规模数据上的优势，而是聚焦于中小规模数据，指出 PPR 的脊函数结构 (一种 ANN 变体) 经过统计调优后可以匹敌甚至超越 RF。

子线索聚类¶

PPR 的近似理论与统计性质: [27] (Aliev & Ismailov, 2020) 研究了平滑脊函数求和的可表示性；[34] (Yarotsky, 2016), [45] (Kidger & Lyons, 2019) 探讨了深度/浅层网络的近似能力；[39] (Siegel & Xu, 2021 近似率版) 给出了浅层神经网络的尖锐上界和下界。这一簇论证了 PPR 的“竞争力天花板”理论上可以很高。
贪婪算法的学习理论: [9] (Barron et al., 2008), [40] (Siegel & Xu, 2021 OGA 版), [50] (Giné & Nickl, 2015) 关注 OGA 及其变体的统计学习性质，为 ePPR 的“贪婪”部分提供了理论基础。Siegel & Xu 的优化收敛率 (在熵条件假设下) 直接成为本文证明的核心工具。
随机森林的理论与变体: [37] (Scornet, Biau & Vert, 2014), [14] (Chi et al., 2020), [47] (Athey, Tibshirani & Wager, 2019, GRF), [1] (Friedberg et al., 2018, LLF), [28] (Klusowski & Tian, 2021) 构成了当前 RF 理论研究的全貌。本文引用了它们以凸显 PPR 的潜在优势：PPR 的相合性要求更弱 (无需 SID 条件、不限于加性模型)，且收敛率更快。
集成学习中的多样性: [42] (Brown et al., 2004) 综述了集成学习中多样性 (diversity) 的重要性，说明为何 ePPR 的“特征袋装”有效。

这个方向在追问的核心问题 & 已知瓶颈¶

Q1: PPR 为何实践表现不佳？ 作者定位为估计问题：传统 PPR 的拟合算法 (回溯拟合 / 梯度上升) 易陷入局部最优，且样本利用不充分。
Q2: 如何设计一种同时具备理论美 (相合性、快速收敛) 和实践优 (可与 RF 竞争) 的非参数回归方法？
Q3: PPR 与随机森林，在(维度、样本量、函数光滑度) 的光谱上，各自占据哪个优势区间？ 本文给出了一种观点：在中小规模数据上，经调优的 PPR (一个特殊 ANN) 可以匹敌 RF。这等于在挑战“ANN 优于 RF 需海量数据”的流行看法。
已知瓶颈: RF 的理论相合率和收敛性 (相对较慢，为 \(O_p((\ln n)^{-1})\) 见 [28]，或需 SID 条件见 [14]) 尚不令人满意。PPR 的算法寻优困难和样本分割导致的低效。

⚠️ 作者的 framing (必须明确标注成“这是作者的说法”)¶

作者把缺口 frame 成：
1. 传统 PPR 的估计算法不行，而非模型结构不行。所以他们提出“最优”贪婪算法和全样本估计。
2. PPR 的预测精度的主要障碍在于计算，而非统计 (参见引言：“[24] suggested that PPR’s limited popularity was due to its computational complexity …”)。
3. 随着计算能力提升，历史理由 (计算复杂度) 已不再成立，现在可以重新衡量其统计潜力。
那些被 淡化或回避 的竞争路线：
1. 深度神经网络的深层架构: 文中将 ePPR 定位为 ANN 的“变体”，但回避了深层 (depth > 3) ANN 在复杂函数上的表示优势 (这是 Yarotsky (2016) 和 Schmidt-Hieber (2017) 的关键论点)。ePPR 实际上是一个固定的三层浅层网络。
2. 其他优秀集成方法: 如 XGBoost (树提升) 在实践中的统治地位，本文只是比较，但没有针对性地设计去挑战它。
3. P 很大的高维设定: 作者坦诚“small to medium-sized datasets”。在高维 (p >> n) 设定下，RF 的变量重要性机制可能比 PPR 更稳健。
什么明显该被引 / 该存在、却没出现在 intro 里？
- SURE / 高维线性模型: 既然 PPR 与稀疏、脊函数相关，为何不引用一些关于高维/稀疏回归 (如 LASSO) 的工作？这可能说明作者认为 PPR 主要用于低维、光滑的设定，而非高维稀疏。
- Kernel Smoothing / 局部多项式: 与之形成鲜明对比的经典估计方法 (如 Nadaraya-Watson、局部线性回归) 未被讨论，可能这些方法在处理高维数据时受到严格限制，而非比较对象。
- Vanilla Gradient Boosting / XGBoost 等: 作为 RF 之外的另一棵“参数树”，文中提到了 XGBoost 作为对比方法，但在理论分析中没有像对 RF 那样详细拆解。

张力¶

未见明显的“对立引用”：作者引用的大多数工作证实 PPR 的优良理论性质，同时对 RF 的理论弱点进行引用。文章的张力在于理论 promise 和实际部署之间的鸿沟，而非理论上的冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号:
- 响应变量：\( Y \in \mathbb{R} \) (连续，回归设定)。
- 协变量：\( X \in \mathbb{R}^p \)，是 p 维随机向量 (p 可能较大，但论文主要考虑中小维度情景)。
- 回归函数：\( f(x) = \mathbb{E}[Y | X = x] \)，这是我们要估计的目标。
- PPR 模型（近似形式）：\( f(x) \approx \sum_{m=1}^{M} g_m(\theta_m^T x) \)，其中：
  - \( M \): 投影项的数量 (也称为脊数量 / 隐藏层神经元数量, ePPR 中固定为 K)。
  - \( \theta_m \in \mathbb{R}^p \)：投影方向 (或“脊方向”)，\( \|\theta_m\| = 1 \) (归一化)。
  - \( g_m: \mathbb{R} \rightarrow \mathbb{R} \): 脊函数 (单变量函数)，通常假设光滑 (本文用 Sieve 方法处理)。
- 样本: \( \{ (X_i, Y_i) \}_{i=1}^n \), i.i.d.。
- ePPR 集成: 由 B 个 ePPR 基学习器 (base leaner) 组成，每个基学习器在随机选取的 \( p_{sub} \) 个特征子集上拟合一个 PPR 模型。
模型与可观测数据:
- 数据生成机制: \( Y_i = f(X_i) + \epsilon_i \), 其中 \( \epsilon \) 是均值为 0、方差有界的噪声，独立于 \( X \)。
- 可观测: \( \{(Y_i, X_i^1, …, X_i^p)\}_{i=1}^n \)，即每个样本的响应值和所有协变量。
- 不可观测 / 需估计:
  - 真实的回归函数 \( f(x) \): 只能估计，无法直接观测。
  - 每个脊函数 \( g_m \) 和投影方向 \( \theta_m \): 需要从数据中学习。
- 关键假设: \( f \) 是 \( L^2 \) 可积的 (本文的相合性只需要这个)。这个假设非常弱，相比 RF 的加性模型假设或神经网络的深度结构假设 (如 Hölder 或组合光滑性) 要弱得多。

第二步：最小内核：带一个投影方向和一个脊函数的最简例子¶

剥掉所有集成、随机性、光滑脊条件和 Sieve 后，本文的核心工作是解决了以下子问题：

设定: 真实的 \( f \) 恰好可以用一个脊函数表示 (即 \( M=1 \)): \( f(x) = g(\theta_0^T x) \)，其中 \( \theta_0 \) 是未知单位向量，\( g \) 是未知、光滑、\( L^2 \) 函数。目标: 基于 n 个样本 \( (X_i, Y_i) \)，估计 \( g \) 和 \( \theta_0 \)。困难: 这是一个非凸、非平滑的优化问题。在 \( \theta \) 和 \( g \) 上的联合优化 (如梯度下降) 很容易陷入局部最优。传统 PPR 将样本分割，用一半拟合 \( \theta \)，另一半拟合 \( g \)，导致数据利用低效且不光滑。

本文的解法 (最优贪婪算法的雏形): 1. 初始化: 令残差 \( r_i^{(0)} = Y_i \)。 2. 迭代 (对于 \( k=1 \) 这一轮): * Step 1 (校准投影方向): 在给定所有样本后，寻找最优方向 \( \theta_k \) 使得某个“投影-脊”拟合的方差最大或残差最小。这一步本质上是一个 p 维的优化问题。 * 如何做？作者用一个解析或快速迭代的方法 (如先估计投影协方差矩阵，再做 PCA 来选择方向，或更一般地，通过线搜索)。 * 结果: 得到最优方向 \( \hat{\theta} \)。 * Step 2 (拟合脊函数): 使用全量样本 \( (X_i, Y_i) \)，在一维投影数据 \( \hat{Z}_i = \hat{\theta}^T X_i \) 上拟合一个光滑的、非参数的单变量函数 \( \hat{g} \) (例如用样条)。 * 更新残差: \( r_i^{(1)} = Y_i - \hat{g}(\hat{Z}_i) \)。 3. 叠加: 然后对残差 \( r_i^{(1)} \) 重复 Step 1-2 来估计第二项 \( g_2(\theta_2^T x) \)... 以此类推，共 K 项。

为什么这能工作并优于传统 PPR？ * 全样本利用: 在每一步拟合时都用上全部 n 个样本 (而不是分割)，利用了数据中所有的信息，使得 Step 1 的“最优方向搜索”更有力，且 Step 2 的脊函数估计更光滑 (因为样本量没有折半)。 * “最优”特性: 作者声称他们的算法在投影方向选择的子问题上可以达到全局最优或更好的局部解，相比于传统的逐步回归 / 梯度下降法。这在理论上是通过最小化一个重构误差来证明的。

演讲完毕：这个 \( M=1 \) 的特例已经包含了全文的核心思想：用贪婪地、基于全样本的方式一步一动地交替估计投影方向和脊函数，克服传统 PPR 的局部最优与数据浪费问题。 集成 (特征袋装) 则是为了降低方差，是第二步。

三、这篇论文做了什么¶

三句话¶

研究的问题: 重新审视投影追踪回归 (PPR)，旨在提出一种名为 ePPR 的估计方法，使其在非参数回归和分类任务上达到或超越随机森林 (RF) 的预测精度，尤其是在中小规模数据集上。
核心工具/方法: 提出了一个最优贪婪算法 (optimal greedy algorithm) 用于交替估计投影方向和脊函数，并结合特征袋装 (feature bagging) 的集成学习框架。该方法不分割样本，每个分量使用全量数据拟合，并通过 Sieve (样条) 估算脊函数。
主要结论: ePPR 对于任意 \( L^2 \) 可积的回归函数是相合 (consistent) 的，并且当函数具有 \( r \) 阶光滑性时，能达到比随机森林更快的收敛速率。在大量真实数据实验上，ePPR 在回归与分类任务上优于随机森林、SVM 和其他常见方法。

关键设定与假设¶

在第二节的基础上补全完整设定：

估计形式: ePPR 最终估计为 \( \hat{f}_{ePPR}(x) = \frac{1}{B} \sum_{b=1}^B \hat{f}_b(x) \)，其中 \( \hat{f}_b(x) = \sum_{m=1}^{K} \hat{g}_{b,m}( \hat{\theta}_{b,m}^T x_{sub} ) \)。 (\( x_{sub} \) 是特征子集；K 是每棵树的脊数量，文中用 K 表示；B 是集成大小)。
Sieve 假设: 假设光滑函数空间 (如 Sobolev 空间 \( W_2^r \)) 可以用有限维空间 (如样条子空间) 很好地逼近。这是刻画估计误差的核心。
条件: (A0) (Sub-Gaussian tails) 误差 \( \epsilon \) 和协变量 \( X \) 都是子高斯的，确保 Wasserstein 距离和工作。
条件: (A1) (Smoothness) 脊函数 \( g_m \) 属于某个 Hölder / Sobolev 光滑类，用于控制 Sieve 近似误差和收敛率。
条件: (A2) (Convex Projection) 或类似条件，确保最优投影方向可以被有效搜索到。这比一般的非凸优化假设强，但 ePPR 的贪婪策略和谱方法 (如 SIR) 可能缓解。

相比已有文献： * 放宽: 相比 RF 的相合性 (需要加性模型或 SID 条件)，ePPR 只需 \( L^2 \) 可积。 * 强化: 相比经典的 PPR，ePPR 对每个脊函数的估计更“严格” (用 Sieve 而不是核平滑)，这保证了更好的光滑性和收敛性。

主要结果¶

Theorem 5 (Consistency rate) (本文核心定理): 假设某些光滑条件 (Hölder 类型) 成立，且脊数量 K 随 n 适当增长，则 ePPR 的均方误差满足：

\[\mathbb{E}[\| \hat{f}_{ePPR} - f \|_2^2] = O\left( n^{-\frac{2r}{2r+p_{sub}}} + n^{-1} \right)\]

其中 \( r \) 是脊函数的光滑阶数，\( p_{sub} \) 是特征袋装时选取的特征数 (子维度)。

直觉: * 第一项 (近似误差 / Sieve 误差): \( n^{-\frac{2r}{2r+p_{sub}}} \)。这是用 K 个光滑脊函数来逼近不知道到底多光滑的回归函数 \( f \) 时，不可避免的 Sieve 估计误差。它与 p 维全空间的 Sieve 误差 \( n^{-\frac{2r}{2r+p}} \) 相比，维度从 p 降到了 \( p_{sub} \) (作者会通过特征袋装把 p 压缩到平均子维度)，使收敛率快了一个量级，缓解了维度诅咒。 * 第二项 (随机误差): \( n^{-1} \)。这一项源于对 \( g \) 的 nn 个估计进行平均时的方差，当 K 足够大时可忽略。

与 RF 对比: 作者明确对比道： * 针对 Klusowski & Tian (2021) [28] 的结果：RF 的最小收敛率是 \( O_p((\ln n)^{-1}) \)，而 ePPR 是多项式速率 \( n^{-\alpha} \)。 * 针对 Chi et al. (2020) [14] 的结果：RF 的相合性需要 SID 条件，ePPR 只要求 \( L^2 \) 可积。 * 然而，ePPR 的收敛率依赖于光滑阶 \( r \)。对于非光滑 (甚至不可导) 的函数，RF 可能由于其分段常数特性反而更快。这也是 ePPR 光明面的局限。

主要结论 2 (相合性): 无需任何光滑条件，只要求 \( \mathbb{E}[Y^2] < \infty \)，ePPR 就能保证 \( \| \hat{f}_{ePPR} - f \|_2^2 \xrightarrow{p} 0 \) (一致性)。这比 RF 的相合性要求宽松很多。

证明路线与技术技巧¶

整体路线 (4步逻辑主干): 1. 承认偏差-方差分解: 将均方误差分解为近似误差 (Sieve 逼近真实脊函数产生) 和估计误差 (有限样本下 \( \hat{g}_m \) 与它们近似的最优 Sieve 函数之间的差距)。 2. 控制估计误差的核心: 证明作者的无分割、全样本贪婪算法是更优的优化器——梯度/次梯度法能更好地找到投影方向 \( \theta_m \)。这通常通过分析一个替代目标函数 (如 \( L^2 \) 损失) 的收敛性实现，证明在每次迭代中，\( \theta \) 的更新能最大程度降低损失。 3. Sieve 误差分析: 将 \( \hat{g}_m(\theta_m^T x) \) 的估计视为对一维光滑函数的 Sieve 回归。利用 Kiefer-Wolfowitz 定理或经验过程理论，可以得出 Sieve 误差 \( \| \hat{g}_m - g_m^* \| \) 以 \( n^{-2r/(2v+1)} \) 速度收敛 (其中 v 是 \( g_m^* \) 的真实光滑性, \( p_{sub} \) 为 1)。 4. 集成效应: B 个基学习器的平均将方差降低 \( \frac{1}{B} \)，但偏置主要是各基学习器近似误差的加权平均，不显著增加。

关键跳跃点 / 最吃功夫的引理: 1. 贪婪算法的保证: 证明在全样本上迭代的贪婪算法不会像传统的分段求解那样陷入奇怪的局部最优值，并能收敛到比分割样本法更好的解。 2. 维度降低的 “近似相合”: 证明用 \( p_{sub} \) 维子空间 (通过特征袋装随机选取) 代替全 p 维空间后，推导出的收敛速率中的 \( p \) 被 \( p_{sub} \) 替换，并且这个替换是几乎无损的 (即，信息量损失不大，但维度诅咒大幅缓解)。这个论证非常微妙。 3. Sieve 估计与投影方向交互的引理: 证明当我们在最优投影方向 \( \hat{\theta} \) 上使用样条估计时，\( \hat{g} \) 的收敛速率不会因为 \( \hat{\theta} \) 是估计出来的 (而非已知的) 而变差 (也就是 “plug-in” 有效性)。

技术技巧点名: * 经验过程理论 (Empirical Process): 用于控制 Sieve 估计量的泛化界，将随机误差项转化为经验过程的度量，尤其是在第二步 (Sieve 误差分析)。这直接对应了 \( n^{-1} \) 这一项。 * Sieve 估计 (Sieve Estimation): 用于将无穷维的脊函数 \( g \) 投影到有限维的样条/多项式基函数空间上，使问题变为参数或半参数，便于分析收敛率。 * U-statistics 相关 (极弱/无): 本文未直接使用高阶 U-统计量理论，但贪婪叠加的过程 (多个脊函数相加) 在概念上像是对复杂函数的“低阶多项式”展开，其计算复杂度可类比用树形图 (tree contraction) 优化求和过程。 * 特征袋装 / 随机子空间 (Feature Bagging / Random Subspace): 一种降低方差、避开维度诅咒的集成策略。在每一轮迭代后，算法允许特征子集不同；Bagging 带来的方差降低用传统的 Bootstrap approximations 论证。 * 最优传输 (Wasserstein-2 距离): 作为分布间距离的度量，控制投影方向估计的误差 (用于 Lemma 2, 3 等)。

真实例子与应用 (有就讲)¶

数据: 使用了 16 个 UCI 机器学习库中的数据集，涵盖回归和分类任务。例如 Concrete Compressive Strength (混凝土抗压强度，回归) 和 Banknote (纸币鉴别，分类)。方法: 在同样的数据划分 (训练-测试) 下，将 ePPR 与包括线性回归 (LM)、LASSO (用 glmnet)、支持向量机 (SVM)、随机森林 (RF)、广义随机森林 (GRF)、XGBoost、神经网络 (ANN) 在内的 10+ 种方法进行比较。结果: 在回归任务中，ePPR 在所有 16 数据集上的平均预测误差 (均方根误差 RMSE / 分类错误率) 均排名第一，并且在多个数据集上显著优于 RF 和 XGBoost。例如在 Concrete 数据集上，ePPR 的 RMSE 为 4.15，优于 RF (5.15) 和 SVM (7.99)。在分类任务中，ePPR 在 10/16 数据集上取得最好的预测精度。 想说明的问题: 这个实证结果支持了理论预测：在中小规模数据集中，经过统计调优的 PPR (ePPR) 可以克服 PPR 传统历史留下的问题，并在精度上达到甚至超越 RF、SVM 等现代强基准。

🔎 结论是否比证明窄¶

是，非常关键。

相合性与收敛率是在Sieve 近似下证明的。真实的 \({\theta}_m, g_m\) 不一定属于任何简单的、维数可控的 Sieve 空间 (如 \(W_2^r\))。证明假设了脊函数的光滑性 (Hölder 类型) 并借由样条展开来编码。如果真实的脊函数非常粗糙/扭转 (卷积，非解析)，样条逼近的误差可能很大，收敛率会变慢。
“最优贪婪” 可能只在特定几何下成立。正如作者承认的 (Theorem 4 与 Remark 4)，最优贪婪算法的最佳性质需要在协变量分布具有某些几何特征 (如严格凸性或球形对称性) 时严格成立。一般数据的全局最优性仍然是开放问题。作者只是证明了他们提出的算法足够好，而不是真正全局最优的。
可伸缩性问题: 本文实证的比较基准都是低维到中等维度的数据集。“small to medium-sized dataset” (如 p < 50) 特征的维度决定了：当特征 p 增加到几百时，ePPR 的投影方向搜索可能会变得极其昂贵，其优势会被 XGBoost 或 Large-scale 的 Random Forest 抵消。作者给出的方法是坚实的，但在算法复杂度上没有与 RF 对比 (\(O(K \times \text{cost})\) vs \(O(\text{tree})\))。
分类问题 是逻辑回归 (GLM) 的对接，原文没有针对分类设计非线性界面，直接对接逻辑函数，但分类原理上不如树分裂的 V-structure 分类理论成熟。

四、开放问题 (点到为止，扎根具体语句)¶

“最优贪婪”算法的全局最优性是否存在充分条件？ 本文声称提出“最优”算法，但在证明 (Theorem 4) 中主要在局部条件下成立，并需要协变量的某些几何特性 (详见第5节证明)。一个开放问题是：在一般且无额外假设的 p 维数据上，贪婪投影方向搜索是否存在类似凸优化那样的理论上可证明的全局收敛率？ (扎根于 Theorem 4 的证明结尾以及 Remark 4 中提到的 “... algorithm is likely to converge to a local optimum ... under certain conditions ...”)。
ePPR 的 minimax 最优性: 本文给出的收敛率 \( n^{-\frac{2r}{2r+p_{sub}}} \) 匹配具有 \( r \)-光滑度在 p 维空间中函数的 minimax 下界 \( n^{-\frac{2r}{2r+p}} \)，但其特征数 \( p_{sub} \) 显著小于 \( p \)。对于一般未知光滑度的 \( f \)，使用自适应方法实现最优 minimax 率 (即自适应 \( p_{sub} \)) 是否可能？ (扎根于 Theorem 5 陈述后，作者推测的“特征袋装能使维度诅咒从 p 降低到有效维度” )。
对相依数据的扩展: 本文所有理论依赖于 i.i.d. 样本假设。ePPR 能否被扩展到时间序列 (强混合过程) 或空间统计 (lattice data) 中，并保留其相合性与光滑收敛性？ (扎根于引言最后 Discussion and Future Work 节中提到：“Our analysis assumed independent data... An interesting extension would be to time series...” )。
ePPR 与深度 ReLU 网络的关系进一步量化: 本文将 ePPR 定位为“ANN 变体”，实际是固定深度 (K = 3-5 层) 的窄网络。Schmidt-Hieber (2017) [29] 证明深度 ReLU 网络适应复杂组合结构 (compositional structure) 的自适应性。一个具体问题是：ePPR 的脊函数叠加结构能否自然编码“加法或乘性组合成分”？其与深度网络在不同函数光滑度条件下的逼近阶差异是否可严格刻画？ (扎根于引言最后比较ANN与RF时提到的 ...suitable statistical tuning, ANN can equal or even exceed RF in dealing with small to medium-sized datasets...)

Maintained by 陈星宇 · Homepage · Source on GitHub