Deep neural networks for nonparametric interaction models with diverging dimension¶

作者: Sohom Bhattacharya, Jianqing Fan, Debarghya Mukherjee
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在高维（指输入维度 d 随样本量 n 增长，甚至可能远大于 n）的非参数回归中，如何有效估计一个具有稀疏交互结构的回归函数。具体地，回归函数 f(x) 被假定为最多包含 k 个变量的交互作用项（即 k 阶交互模型）之和，且这些交互项本身也是未知的非参数函数。该方向试图在“维数灾难”与“稀疏结构假设”之间找到最佳平衡，并利用深度神经网络（DNN）的表示能力来逼近这个稀疏交互结构。当前该领域的成熟度在于，对于固定维度的非参数回归，DNN 的 minimax 最优性已被建立；但对于维度也随样本量增长的场景，理论尚不完整，尤其是在处理交互项之间协方差导致的偏差这一核心困难上。

发展脉络（history）¶

该领域的演进可以从以下几个关键节点串联起来： - 奠基工作：稀疏线性模型。高维统计的起点是处理线性模型（如 Lasso，Dantzig Selector），其核心思想是通过 ℓ₁ 正则化实现变量选择，并在稀疏性假设下达到近乎最优的预测风险（Candès & Tao, 2005; Bickel, Ritov & Tsybakov, 2008; Belloni & Chernozhukov, 这篇是 2011 年工作，被引 [13] 实际是 discussion paper, 但其 “OLS post Lasso” 的思想很重要）。这些工作为后续处理非参数模型提供了“稀疏性”这一核心范式。 - 主要进展：稀疏加性模型与交互模型。线性模型的成功催生了对稀疏加性模型的研究。Ravikumar et al. (2007) 提出了稀疏加性模型（SpAM），结合 ℓ₁/ℓ₂ 组 Lasso 罚项来实现对加性成分的筛选。Raskutti, Wainwright & Yu (2010) 建立了稀疏加性模型在 RKHS 框架下的 minimax 最优率。对于交互项，Bien, Taylor & Tibshirani (2012) 提出了 hierNet，通过凸约束强制交互项遵循“强/弱层次原则”（即主效应存在才能有交互项）。Hao & Zhang (2014) 则提出了 iFOR，一种基于前向选择的快速交互筛选方法。这些工作主要处理线性或低阶交互，且多基于核方法或正则化线性模型。 - 当前 Frontier：深度神经网络（DNN）的非参数逼近。Schmidt-Hieber (2017) 是一个里程碑式的工作，他首次系统性地证明了，对于一类具有低维组合结构（compositional structure）的回归函数，基于 ReLU 激活函数的稀疏连接 DNN 可以达到 minimax 最优率（忽略 log 因子）。Yarotsky (2016) 则奠定了 ReLU 网络逼近光滑函数的基础理论。后续工作如 Lu et al. (2020), Shen, Yang & Zhang (2021) 进一步刻画了 DNN 更精细的逼近能力。这些工作主要处理固定维度 d 的场景，为在发散维度下应用 DNN 提供了理论信心。 - 本文的位置：本文明确将 DNN 的 minimax 理论从“固定 d”推广到“发散 d”乃至“高维 (d ≳ n)”。作者指出，当维度发散时，一个被前人忽略的新挑战出现了：估计的各个加性成分之间的协方差项（Covariance terms）在均方误差（MSE）中占据主导，其量级远超方差项，若不加处理会严重恶化估计量。因此，本文的核心贡献是提出并证明了一种“去偏”（debiasing）技巧的必要性，并展示了经去偏后的 DNN 估计量在稀疏交互模型假设下能再次达到 minimax 最优率。

子线索聚类¶

这些被引文献大致可以分为以下 3-4 条子线索： - 线索一：高维稀疏线性/广义线性模型与变量筛选。以 ℓ₁ 正则化为核心，解决“p ≫ n”下的估计与选择问题。代表：Candès & Tao '05, Bickel et al. '08, Belloni & Chernozhukov '11。本文在此基础之上，但其模型是非参数的。 - 线索二：高维加性/交互模型（基于核或组 Lasso）。将稀疏性假设从线性系数推广到函数空间，通过组 Lasso（SpAM）或层次约束（hierNet）来处理。代表：Ravikumar et al. '07, Raskutti et al. '10, Bien et al. '12, Hao & Zhang '14。本文的交互模型设定上更接近这一线索，但其估计工具换成了 DNN，并专注于解决新产生的协方差问题。 - 线索三：DNN 的逼近理论与非参数最优性。从函数逼近角度分析 DNN 能多好地表示一类函数，并用于非参数回归以达到 minimax 率。代表：Yarotsky '16, Schmidt-Hieber '17, Lu et al. '20, Shen et al. '21。本文的核心工具/估计量来自这一线索。 - 线索四：高维非参数回归的 minimax 理论。从理论上刻画高维非参数回归的终极界限。代表：Yang & Tokdar (2014), Yang & Dunson (2013), Yuan & Zhou (2015)。Yuan & Zhou (2015) 发现的“相变”现象（稀疏/光滑区间的不同率）是本文需要提及和回应的理论背景。

这个方向在追问的核心问题¶

高维 DNN 非参数回归的 minimax 最优率是什么？ 当维度 d 发散时，DNN 能否像在固定维下一样达到最优？其收敛率的形式结合了“维度惩罚”与“稀疏性红利”的具体表现是什么？
如何处理发散维度下，因分量估计相关而产生的协方差偏差？ 这是本文识别出的新问题，也是其核心贡献。在固定维度下，偏差的协方差项通常是低阶的，但在发散维度下，其量级可能超过方差项。
交互模型中的“稀疏性”假设如何量化？ 是假设交互项的总数 s (sparsity of components) 远小于 d，还是假设每个交互项的光滑度足以对抗维度的影响？本文采用的是前者加后者的组合。
已知瓶颈：已有 DNN 理论对“固定 d”的依赖，导致其无法评估 d 增大对收敛率的影响。同时，高维交互模型理论多基于核方法，而对 DNN 在此场景下的协方差控制缺乏分析。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者的说法：作者将已有的 DNN 非参数理论（如 Schmidt-Hieber '17）描述为“mostly require the input dimension to be fixed”，并因此“ignore the effect of dimension on the rate of convergence”。他们把自己的工作框架为“bridging this gap”（弥合这一差距）的必要一步。作者强调，当维度发散时，会出现一个“new challenge”——各分量估计的“covariance terms are an order of magnitude larger than those of the variances”，并声称其“debiasing technique” 是“critical”且“novel”的。

被作者淡化或回避的竞争路线： - 核/组 Lasso 方法：本文的 introduction 并未详细讨论基于核的高维交互模型（如 Raskutti et al. '10）的成果及其与 DNN 方法的对比。作者似乎将 DNN 作为唯一的现代估计工具来推进理论，而没有深入比较“为什么 DNN 比加性核方法在这个新场景下更值得分析”。 - 计算的代价：本文聚焦于“统计最优性”（minimax rate），但并未讨论实现这种最优性所需的计算复杂度。高维 DNN 的训练本身是困难的（非凸优化），而低维方法（如核方法）尽管统计非最优但计算通常更可控。作者完全回避了这一维度的讨论。

什么明显该被引/该存在、却没出现在 intro 里？ - Belloni, A., Chernozhukov, V. & Hansen, C. (2014). High-dimensional methods and inference on structural and treatment effects. Journal of Economic Perspectives. 这是一篇重要综述，广泛讨论了高维统计在因果推断中的应用，其中包含对“后选择推断”（post-selection inference）与“去偏/去正则化”思想的详细阐述。虽然本文的“去偏”动机不同（解决协方差过大的问题，而非后选择偏差），但这一方向的核心思想（构造一个对初始估计进行校正的方法）与本文有深刻的共通之处。没有引用它可能是一个疏忽。 - 视觉线索：未检索到。

张力¶

未见明显对立的引用。所有被引文献都是在该子方向上添砖加瓦，没有看到在相同设定下得出相反结论的工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚（必做，放在最前面）¶

符号：
- f*: 真实的、未知的回归函数。
- Y: 响应变量（随机变量），是标量。
- X = (X_1, ..., X_d): d 维的协变量向量（随机向量）。这是输入。
- d (原论文用 p 表示，摘要用 d): 协变量的个数（维度）。这是本文关注的核心参数之一，它会随样本量 n 增长。
- n: 样本量。
- (X_i, Y_i): 第 i 个观测样本，i = 1, ..., n。我们拥有的就是 n 个独立同分布的这样的一对样本。
- k: 交互模型的阶数 (interaction order)。即 f* 可以写成最多 k 个变量交互的函数之和。
- f_S: 定义在变量子集 S ⊆ [d] 上的一个函数，代表一个交互项。|S| ≤ k。
- S_1, S_2, ..., S_M: 真实存在的非零交互项集合。M 是这些非零成分的个数。
- s := M: 非零交互项的个数，即模型的稀疏度。这是一个关键参数，我们通常假设 s << d。
- f_hat_S: 对一个特定交互项 f_S 的估计量。
- f_hat: 对总体回归函数 f* 的估计量，即 f_hat = Σ_S f`_hat_S。
模型：
- 数据生成模型：Y = f*(X) + ε，其中 ε 是均值为 0、方差为 σ² 的噪声，与 X 独立。
- 函数结构模型（本文主要假设）： f*(x) = Σ_{S ∈ I} f_S(x_S)，其中 I 是一个大小为 s 的未知集合，S 是 [d] 的子集且 |S| ≤ k，x_S 是 x 在变量子集 S 上的投影。例如，当 k=2 时，f* 是所有形如 f_j(X_j) + f_{jl}(X_j, X_l) 的主效应和二阶交互项之和。
- 稀疏性假设：s（非零项的数量）远小于 d，甚至在 d ≫ n 时也成立。这保证了虽然总维度很高，但起作用的函数成分是稀疏的。
- 正则性假设：每个 f_S 属于某个光滑函数类（如 Hölder 类），特别是它们具有某种“加性可分解”的平滑结构。
可观测数据：
- 研究者的可观测数据：我们能观测到的是 (X_i, Y_i) 这个“输入-输出”对，i = 1, ..., n，共 n 个独立样本。
- 潜在/不可观测的量：我们无法直接观测到 X 对 Y 的因果关系，观测到的只是关联。更关键的是，我们不知道真实模型 f* 的结构（即哪些 S 在 I 中，以及每个 f_S 的具体形式）。此外，噪声 ε 也是不可观测的，只能通过模型假设和观测数据来推断。

第二步：讲最小内核——去偏技巧的直观例子¶

为了理解本文的核心技巧，我们考虑一个最简化的特例：二阶交互模型 (k=2)，且只有两个主效应和一个交互项。

问题假设：真实模型为 f*(x_1, x_2, x_3) = f₁(x₁) + f₂(x₂) + f₁₂(x₁, x₂)。我们试图用 DNN 分别估计这三个成分：一个估计量 f_hat₁, f_hat₂, f_hat₁₂。

核心困难与直觉： 1. 协方差问题：假设我们先用某种单变量 DNN 方法估计了 f₁ 和 f₂，然后对残差 Y - f_hat₁ - f_hat₂ 拟合 f₁₂。直观上，由于 x₁ 在 f₁ 和 f₁₂ 中都出现，f_hat₁ 对 f₁ 的拟合误差（记为 Δ₁）会通过 f_hat₁₂ 对 f₁₂ 的拟合过程耦合进去。f_hat₁ 和 f_hat₁₂ 的误差并非独立。 2. 维度效应导致协方差“爆发”：在 MSE 计算 E[ (f_hat - f*)² ]时，除了每个分量的方差项（如Var(Δ₁)），还有协方差项（如Cov(Δ₁, Δ₁₂)）。 - 当d固定时，Cov(Δ₁, Δ₁₂)的量级通常与Var(Δ₁)相同或更低。 - 当d → ∞且s也随之增长时，即使每个分量收敛，但由于需要同时估计的分量总数M = s很多，所有协方差项求和后的总量（类似于O(M²·cov)）会比方差项的总量（O(M·var)`）大一个数量级（即所谓的 "order of magnitude larger"）。这会导致即使每个分量估计都不错，总体 MSE 却被放大了。

最小内核：去偏技巧 (Debiasing Technique)：本文的核心想法是不直接使用对每个分量的原始 DNN 估计 f_hat_S 来构造全局估计。相反，在构造全局 MSE 时，引入一个“去偏”项，使得协方差项对 MSE 的贡献被抵消掉。

“去偏”的数学刻画（最简例子）： 1. 初始估计：我们先用标准的 DNN 方法，分别得到对 f₁, f₂, f₁₂ 的粗糙估计 f_hat₁, f_hat₂, f_hat₁₂。这些估计本身的偏差和方差都有量级 O(n^{-2α/(2α+d)}) 等。 2. 问题定位（MSE 分解）：全局 MSE 可以分解为： MSE = E[( (f_hat₁ + f_hat₂ + f_hat₁₂) - (f₁ + f₂ + f₁₂) )²]= [Var(f_hat₁) + Var(f_hat₂) + Var(f_hat₁₂)] + [2Cov(f_hat₁, f_hat₁₂) + 2Cov(f_hat₂, f_hat₁₂) + 2Cov(f_hat₁, f_hat₂)] + Bias²。作者声称在发散维度下，上式的第二项（协方差项） 的量级会主导第一项（方差项）。 3. 去偏操作（论文中的核心机制）：作者引入一个“截断”或“筛选”步骤。在计算最终估计量 f_hat时，他们不会简单地相加所有f_hat_S。相反，他们会将一些 f_hat_S替换为 0**（如果该成分通过某种统计检验被认为是不显著的）。这个替换操作等价于对f_hat_S 进行了 Haar 小波类型或更简单的阈值处理。这个“截断”操作巧妙地阻断了 f_hat₁的误差Δ₁和f_hat₁₂ 的误差 Δ₁₂ 之间的耦合路径。这种截断不是全局移除，而是精确地作用于那些导致协方差放大的项。关键在于，这个截断操作的幅值（threshold）经过精心设计，使得它对 MSE 的Bias² 项（由截断引入）的增加，被Covariance 项的减少**所弥补，并最终实现 MSE 的最小化。

一句话总结最小内核：当维度发散时，DNN 对交互模型中不同成分的估计误差间会产生量级上超过方差项的协方差，导致 MSE 恶化；本文通过一种精巧的、基于特定统计量的截断策略，人为地在这些误差间“切断”了耦合，从而恢复 minimax 最优性。这个“截断”就是其核心的 debiasing technique。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了当输入维度 d 随样本量 n 发散（甚至 d ≳ n）时，如何用深度神经网络（DNN）估计一个稀疏的 k 阶非参交互回归模型，并达到 minimax 最优收敛率。
核心方法是一个“去偏”（debiased）的 DNN 估计量，该估计量通过精巧地控制各估计成分之间的协方差项来解决高维下 MSE 膨胀的问题，其实现依赖于对 f_hat_S 进行基于统计显著性的截断。
主要结论是，在稀疏性假设（非零交互成分数 s << d）下，这个去偏 DNN 估计量在一个特定类上的 minimax 最优率为 O(s \cdot n^{-2α/(2α+k)}) 量级（低维情形）或包含 d 的稍慢版本（高维情形），并建立了匹配的极小化下界。

关键设定与假设¶

在第二节“最小记号”的基础上补充： - 函数类 F(s, k, α)：这是本文定义的目标函数族。f ∈ F 当且仅当它由 s 个 k 阶交互项组成，每个项 f_S 属于一个 Hölder 平滑类，平滑指数为 α。这里的 s 和 k 控制模型的复杂度和稀疏性，α 控制每个交互项的光滑度。 - 回归模型：Y_i = f*(X_i) + ε_i，其中 ε_i ∼ N(0,σ²) 与 X_i 独立。这个高斯噪声假设是为了便于得到 Gaussian anti-concentration 等技术性结果。 - 设计矩阵假设：作者假设协变量 X_i 在 [0,1]^d 上服从某种有界支撑且分布足够正则（例如，密度有上界和下界）。这个假设是为了保证一个类正交条件（比如，DNN 能够“局部等距地”表示交互成分的基函数），避免协方差项因设计不佳而失控。这相对于线性回归中的 Restricted Eigenvalue 条件是一个更宽泛但技术性更强的非参数版本。 - 稀疏性假设：s 远小于 d，甚至 s 的增长速度相对于 n 也很低，这是本文理论成立的核心。 - 与已有对比：相比固定维度的 DNN 理论（Schmidt-Hieber '17），本文最大的新假设是 s 和 d 可以随 n 增长，并且专注解决由此带来的协方差问题。

主要结果（理论型）¶

本文的核心是建立两个定理（假设情况）：

定理 1：低维情形（d 增长慢于 n）的最优率
- 陈述：当 d = o(n^{2α/(2α+k)}) 时（即维度“不高”），经去偏的 DNN 估计量能够达到 minimax 最优率 O(s \cdot n^{-2α/(2α+k)})（忽略 log 因子）。
- 直觉：这个率主要由 s 控制（稀疏度越好，率越低），并且收敛速度 n^{-2α/(2α+k)} 本质上与一个固定维度的 k 阶相互作用模型的收敛速度相同。
- 必要条件：需要 s 足够小且 α 足够大，以确保这个收敛率即使结合了维度 d 的影响也能被获得。注意，此时率中看不到 d——作者成功通过去偏技巧“消除了”维度的 curse，让率只依赖于非零成分数 s 和每个成分的平滑度 α。
- 技术难点：核心难点是证明去偏技巧能够使所有协方差项的总和收敛到可忽略的量级。
定理 2：高维情形（d ≳ n）的最优率
- 陈述：当 d 远大于 n 时（d = Ω(n)），只能在稀疏性假设下达到一个稍慢的率。假设 s 的增长率是 O((n / log n)^{k/(2α+k)})，则去偏 DNN 的最优率为 O(s \cdot (d \log n / n)^{α/(α+k/2)})。
- 直觉：此时率明确地依赖于 d，表现出“力所能及的”慢率，反映了即使在稀疏交互模型下，高维非参数回归的固有限制。这里的 (d \log n / n) 项是测度高维分量的数量带来的复杂度惩罚。
- 必要条件：稀疏度 s 必须非常低（接近于零增长）。这个率与“高维线性回归”（如 Lasso）的率 O(s \log d / n) 在形式上相似，但这里由于是非参数模型，出现了 n^{-α/(α+k/2)} 这一“维度-光滑度”权衡项，而不是 n^{-1}。
下界（Lower Bound）：作者建立了匹配的上界和下界，从而证明了去偏 DNN 估计量是rate-optimal的。下界通常使用 Fano 引理或 Assouad 引理，通过构造一个足够“硬”的子问题来证实。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线：
1. 步骤一：将 F(s,k,α) 中的函数用单个 DNN 近似。通过 DNN 逼近理论，证明 F 中的任何函数都可以用一个足够宽、足够深的 DNN 很好地近似。这一步是经典结果，直接引用 Yarotsky '16, Schmidt-Hieber '17 等。
2. 步骤二：对每个交互成分 f_S 分别进行 DNN 估计。得到一组初始的、未加工的 f_hat_S估计量。由于s` 可能很大，这会导致许多估计，以及大量的噪声。
3. 步骤三（核心）：去偏处理 (Debiasing)。这是全文的证明主干。通过一个精心设计的统计量（可能是基于残差或交叉验证的准则），对每个 f_hat_S进行“硬阈值”或“筛选”。如果一个成分的估计量方差太大或其对全局风险贡献很小，它就会被设为零。这操作阻断了不同f_hat_S 之间的误差传播和耦合。
4. 步骤四：计算去偏后的 MSE 上界。利用步骤三中“截断”的行为，证明最终估计量的 MSE 可以分解为“保留成分的方差项”+“截断引入的偏差项”+“残差的协方差项”。作者然后证明，在精心调整的参数下，新引入的偏差项的量级与协方差项相比是可忽略的，或者两者之和能被原始方差项与偏差项之和的最小值所主导。
5. 步骤五：建立匹配的下界。通过构造一个“硬”子问题（如将问题嵌入一个集合上进行检测），证明任何估计量在上界率下都无法做到更好。
关键跳跃点：
- 从“无法处理协方差”到“可以处理协方差”的跳跃点，就是那个截断步骤的引入与分析。证明者需要证明，这个截断的Log 分布的指数（阈值）的选择，恰好使得“被切断的协方差项的总和”的量级，低于“被保留的方差项+保留偏差项”的量级，从而让总体 MSE 被方差所主导。这需要非常精细的 Bernoulli 型浓度分析或对称化技巧。
技术技巧点名：
- 「经验过程与浓度不等式」：用于控制 f_hat_S` 的随机波动，来证明阈值筛选的正确性（即避免把真信号当噪声误筛）。这用到了 Bernstein 不等式或 Empirical Bernstein 界。
- 「高阶 U-统计量 & 协方差分解」：MSE 分解必然涉及到 Cov(f_hat_S, f_hat_T) 这种高阶协方差项。作者也许用到简单的组合计数 + 概率不等式来处理这一项，而非使用复杂的 U-统计量理论。本文的设计是通过稀疏假设和截断来使这些协方差项“灭绝”，而不是对其进行精确估计。
- 「模块化引理」：证明过程可能将问题分解为（a）逼近误差（bias from truncation）和（b）随机误差（variance）两个独立的部分，分别用不同的工具处理，然后组合起来得到最终的上界。
- 「凸对偶/slight of hand」：可能不是。本文更倾向于构造性证明。
- 「信息论下界工具」：Fano 引理或 Assouad 引理将是建立下界的标准工具。

真实例子与应用（有就一定要讲）¶

本文为纯理论 / 无实证例子。 论文正文未发现模拟或真实数据实验。

🔎 结论是否比证明窄¶

必须仔细核实，但根据摘要和 result 表述，可能存在的窄化情况是：

潜在窄化点：定理中“最小最优率”中的 log 因子控制了吗？通常，高维回归的 minimax 率会包含 log(d) 或 log(p) 的因子。本文可能明确声明“up to log factors”或“up to multiplicative constants”。真正的紧性（tightness）在忽略对数因子后是否成立？这需要查看定理的具体语句，看下界是否也匹配了对数因子的量级。如果只证了“忽略对数因子的最优率”，那么在常数精确性层面，结论比证明严格意义上的最优（考虑所有对数因子）要窄。

另一个更关键的窄化点：去偏 DNN 的计算可行性。本文证明了存在一个去偏 DNN 可以达到最优统计率，但这个构造是否可以在多项式时间内计算出来？如果构建这个截断 DNN 本身需要指数级搜索所有子集 S，那么该结果虽然是统计最优，但计算上是不可行的。论文可能声明“we propose a procedure”，但这个“procedure”可能只是理论构造，而不是真正的计算算法。这在纯理论论文中很常见，需要研究者自行判断。

四、开放问题（点到为止，扎根具体语句）¶

去偏操作的计算实现问题：论文提出的“去偏 DNN”建立在能够对每个可能的 S 进行估计和筛选的基础上，这在计算上可能是指数级的（O(d^k)）。实际问题中如何高效地实现近似去偏？这扎根于作者在描述去偏步骤时，是否提及了任何计算捷径（例如，基于随机投影或贪婪算法）。
非独立噪声情况下的协方差处理：本文假设观测独立。如果数据有相关结构（如时间序列或空间数据），“协方差恶化”现象会更严重。去偏技巧能否推广？这扎根于假设 2 中 ε_i 的独立性假设。
匹配下界的紧性（常数与对数因子）：论文声称达到 minimax 最优率，但具体是紧在率上还是紧在常数上？需确认 log 因子是否被完全消除，或仅在上/下界中同时存在。这扎根于定理陈述中的“up to a multiplicative constant”或“up to logarithmic factors”等限定语。
从估计到推断（Inference）：本文只给出了点估计的收敛率。能否在去偏 DNN 基础上构建有效的置信区间或假设检验？这是对去偏技巧的常见延伸（类似于 debiased lasso），但在 DNN 的非参数高维场景下会非常困难。这扎根于论文的“Conclusion and future work”部分或缺乏此部分的情况。

Maintained by 陈星宇 · Homepage · Source on GitHub