跳转至

Deep Fréchet Regression

作者: Su I Iao, Yidong Zhou, Hans-Georg Müller
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本子方向要解决的根本统计问题是:如何在响应变量取值于一般度量空间(非欧几里得对象,如概率分布、网络、图形)而预测变量为多元欧几里得向量的情况下,建立灵活的回归模型。核心技术挑战有两个:一是非参数回归在预测变量维数增加时会遭遇“维度诅咒”;二是响应变量所在空间缺乏线性结构,使得经典回归运算(如求期望、线性组合)无定义。当前成熟度:已有一些参数或半参数方法(如全局Fréchet回归),以及低维预测变量设置下的非参数方法(局部Fréchet回归)。但处理高维预测变量的非欧响应回归问题仍是一个开放前沿。

发展脉络

根据论文的Introduction及其引用的文献,可以将该方向的发展脉络梳理如下:

  • 奠基工作:全局Fréchet回归(Fréchet, 1948; Petersen & Müller, 2019)。Fréchet(1948)最早引入Fréchet均值的概念,即度量空间中使平方距离期望最小的点。Petersen & Müller(2019)正式将其推广为Fréchet回归,用条件Fréchet均值(即给定X=x时,响应Y的条件Fréchet均值)作为回归函数。在参数假设下(如线性回归形式),他们通过最小化经验Fréchet函数来估计回归参数。这提供了第一条路径,但局限是模型形式需人为指定,且当预测变量维数高时同样受维度诅咒影响。引用句对它的定位是:“Petersen and Müller (2019) introduced a global Fréchet regression approach … imposing a linear model assumption for the conditional Fréchet mean”。

  • 主要进展:局部Fréchet回归与梯度提升(Chen & Müller, 2023; Chen et al., 2023)。为摆脱线性假设,Chen & Müller(2023)提出局部Fréchet回归,利用核权重的局部平均来估计条件Fréchet均值。这方法是非参数的,但仍要求X维数低,否则核平均的收敛速率随维数急剧下降。Chen et al.(2023)则用Boosting思想,对Gradient Boosting做“Fréchet化”,但其收敛性质不清楚。引用句定位:Chen & Müller (2023) “proposed local Fréchet regression … which provides a nonparametric but low-dimensional method”。

  • 当前Frontier:用深度学习克服维度诅咒(本文之前的一些尝试)。在预测变量X为高维欧几里得空间时,通用策略是用深度神经网络(DNN)学习X的低维表示。这部分有大量针对欧几里得响应的工作,但针对非欧响应的DNN框架,本文声称是第一个。引用句定位:“To overcome the curse of dimensionality for data with Euclidean responses, deep neural networks have been extensively studied … However, there is little work on deep regression with non-Euclidean responses”。

  • 本文的位置:本文提出“深度Fréchet回归”(Deep Fréchet Regression),用DNN学习X到度量空间响应的映射。它把问题分解为三步:① DNN将高维X映射到低维欧几里得表征空间中的点Z;② 利用流形学习(Isomap)将度量空间中的响应Y(原始空间)映射到同一低维空间中的点Z(即Y的低维近似);③ 通过局部Fréchet回归,把Z逆映射回Y的原始度量空间。最终,整个模型等价于先用DNN做核回归(因为局部Fréchet回归的核权重取决于预测变量,而预测变量又被DNN降维)。

子线索聚类

这些被引文献大致落在3条子线索上:

  1. “Fréchet框架”下基于均值的回归(Fréchet, 1948; Petersen & Müller, 2019; Chen & Müller, 2023;本文)。核心工具是Fréchet函数及其样本对应物。该类方法对响应空间的假设弱(仅需度量),但需明确回归函数形式(参数或非参数)。
  2. Fréchet回归的Boosted版本(Chen et al., 2023)。利用机器学习集成方法,但理论性质(收敛速率)不成熟。
  3. 深度神经网络的近似与估计理论(用于欧几里得响应的情况,如Yarotsky, 2017; Schmidt-Hieber, 2020; Jiao et al., 2023)。该类文献已建立了DNN在回归问题中能克服维度诅咒的条件与速率,本文借用了其理论。本文声称是第一个把DNN收敛速率理论扩展至非欧响应。

核心问题与瓶颈

  • 核心问题1:如何定义并估计高维预测变量下的条件Fréchet均值?
  • 核心问题2:在响应空间缺乏线性结构时,如何有效利用DNN的“降维”能力?
  • 瓶颈:维度诅咒的规避需要假设X的有效维数(如本征维数或流形维数)远低于名义维数。现有方法(包括本文)大多依赖此类假设。此外,非欧响应的“逆映射”步骤(从低维表征回到原始空间)易引入额外误差,且耦合了测地线距离估算与核回归的误差,使理论分析复杂。

⚠️ 作者的Framing

作者把缺口Framing为:“现有Fréchet回归要么参数假设强(线性)、要么要求预测变量低维。把DNN引入Fréchet回归以打破维度诅咒,同时利用流形学习处理非欧结构,是自然的下一步。” 他们刻意淡化了以下竞争路线: * 基于核方法(正定核)或再生核希尔伯特空间在度量空间上的直接推广(如将非欧对象嵌入到核空间后再做回归)。这类方法可避免显式的流形学习步骤,但可能损失几何信息或需要额外结构(如正定核存在)。作者没有讨论为什么选用Isomap而非核方法。 * 替代DNN的非参数回归框架,例如随机森林或高斯过程,这些在非欧响应上已被尝试但缺乏理论保证。 * 直接对非欧响应应用DNN输出层进行改造(如让DNN直接输出度量空间中的点),这比本文的三步法更直接,但未有一般化的收敛理论。

值得研究者核查的问题:本文Intro中引用了Petersen & Müller (2019)、Chen & Müller (2023)、Chen et al. (2023)等,但缺失了关于Hausdorff距离、Wasserstein距离下分布回归的深度学习工作(例如,文献中是否有直接用DNN做Wasserstein回归而无需流形学习的?)。作者的引文似乎聚焦于Fréchet框架,但响应空间是Wasserstein空间时,其几何与欧几里得流形不同,且Isomap不适用。是否有相关并行工作?

张力

被引的这些工作之间未见明显对立引用。作者把已有工作串成一条递进线(线性 → 局部非参数低维 → 深度高维),而非给出矛盾观点。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • 符号

    • \( (\mathcal{M}, d) \):响应变量的度量空间。\( d \)是度量(距离函数)。
    • \( Y \in \mathcal{M} \):响应变量(随机元素,取值于非欧空间)。
    • \( X \in \mathbb{R}^p \)\( p \)维欧几里得预测变量(随机向量)。
    • \( m(x) = \arg \min_{y \in \mathcal{M}} \mathbb{E}[d(Y, y)^2 \mid X = x] \):条件Fréchet均值——要估的回归函数。
    • \( \{(X_i, Y_i)\}_{i=1}^n \):独立同分布的观测样本。
    • \( f: \mathbb{R}^p \to \mathbb{R}^d \)\( d \ll p \)):深度神经网络(DNN),用来表示 \( X \) 的“降维”表示。
    • \( \psi: \mathcal{M} \to \mathbb{R}^d \):流形学习(Isomap)映射,将 \( Y \) 映射到同一个低维欧氏空间 \( \mathbb{R}^d \)
    • 目标:估计 \( m(x) \)
  • 模型:论文不要求显式写出\( \mathcal{M} \)中对象的参数形式。它假设\( \mathcal{M} \)是一个完备度量空间(具有测地线结构,且局部可嵌入低维欧几里得空间)。回归模型是:

    \[Y = m(X) + \text{噪声(在非欧空间中)}\]
    其中“噪声”无法直接相减,其影响通过方差\( \mathbb{E}[d(Y, m(X))^2 \mid X] \)体现。

  • 可观测数据

    • 实际能观测到:n对i.i.d.样本\( (X_i, Y_i) \)。每个\( X_i \)是p维向量,每个\( Y_i \)\( \mathcal{M} \)中一个具体对象(如一个概率分布,其显式形式可能复杂,但能计算其与其他\( Y_j \)的距离)。
    • 想要但不能观测:回归函数\( m(\cdot) \)本身。必须通过样本间的距离结构化关系来识别它。这通过条件Fréchet均值的定义实现。

第二步:最小内核

最简特例:响应空间为 \( \mathcal{M} = \mathbb{R}^k \)(欧几里得空间,平凡情形)。此时: * 度量 \( d(y, y') = \| y - y' \|_2 \)。 * 条件Fréchet均值 \( m(x) = \mathbb{E}[Y \mid X=x] \),即标准的条件均值。 * 流形学习 \( \psi \) 退化成一个线性映射(等距嵌入,因为\( \mathbb{R}^k \)本身是欧几里得空间,可设\( \psi \)为恒等映射)。 * 局部Fréchet回归 退化为标准的核回归。

在这个极端特例下,本文方法退化成什么? 1. 第一步:深度神经网络\( X \) 映射成 \( Z = f(X) \in \mathbb{R}^d \)\( d \)可为任意维度,但这里取\( d=k \)以便后面对齐)。DNN是函数\( f \)的参数形式,输出是一个在\( \mathbb{R}^d \)中的点。 2. 第二步:流形学习:因为\( y_i \)已是向量,Isomap给出\( z_i^* = y_i \)(恒等映射)。 3. 第三步:局部Fréchet回归:相当于“给定新的\( x_{\text{test}} \)和其DNN输出\( z_{\text{test}} = f(x_{\text{test}}) \),核权重\( w_i \propto K( f(x_{\text{test}}) - f(x_i) ) \),再根据\( z_i^* \)加权平均得到最终预测值”。因为\( z_i^* = y_i \),这其实就是核回归,但核权重基于DNN的输出而非原始X。

核心思路:DNN的角色变成了一个自动设计核函数的特征提取器——它将高维X映射成低维表示Z,然后在这个低维空间用核回归(在欧几里得情形下)或更复杂的局部Fréchet回归(在一般度量空间情形下)做预测。整个模型等价于一个Nadaraya-Watson型(核估计)但核函数的定义参数化为DNN:\( \hat{m}(x_{\text{test}}) = \arg\min_{y \in \mathcal{M}} \sum_{i=1}^n K( \| f(x_{\text{test}}) - f(x_i) \|_2 ) \cdot d( y, Y_i )^2 \)

为什么难了? 在非欧情形下(如Y是概率分布),局部Fréchet回归不能简单地加权平均所有Y_i,因为加权平均在度量空间中可能无定义。Fréchet回归是通过求解加权最小化问题来实现的:\( \hat{m}(x) = \arg \min_{y \in \mathcal{M}} \sum_i w_i(x) d(y, Y_i)^2 \)。这就把问题转化为一个在非欧空间上的优化。同时,流形学习映射 \( \psi \) 把原始Y映射到低维欧氏空间,但此映射有误差,且误差会通过后续步骤累积。

最小内核问题:给定局部Fréchet回归的核权重为\( w_i(x) \)(由DNN输出决定),证明\( \hat{m}(x) \)以某种速率收敛于真值\( m(x) \)。这依赖于两个子问题:① DNN的输出误差(\( f(X) \)能否承载足够好的回归信息?)② 局部Fréchet回归在含误差(由流形学习映射误差引入,且是非线性)的预测变量上的收敛性。本文的核心贡献是通过将局部Fréchet回归推广到预测变量含误差(“errors in variables”)的设定,把上述两个子问题结合,得到了整体收敛速率


三、这篇论文做了什么

三句话

  1. 研究了什么问题:提出并分析了一套用深度神经网络对非欧几里得响应变量(取值于一般度量空间)做高维预测变量回归的方法(深度Fréchet回归)。
  2. 核心工具/方法:将深度神经网络(DNN)用作高维预测变量的降维特征提取器,再利用流形学习(Isomap)将度量空间响应对映到低维欧几里得空间,最后通过含误差预测变量的局部Fréchet回归合成预测。
  3. 主要结论:在响应流形具有适当光滑性、噪声满足次高斯假设且与预测变量相关(dependent sub-Gaussian noise with bias)的条件下,所提方法达到了几乎最优的收敛速率(维度诅咒被有效缓解,速率取决于DNN的复杂度与有效维数)。

关键设定与假设

在第二节“最小记号”基础上补充完整设定:

  • 记号补充:设响应空间\( (\mathcal{M}, d) \)为一个紧凑的Riemannian流形(其本征维数记为\( d \))。\( \mathcal{X} \subseteq \mathbb{R}^p \)为预测变量空间(\( p \)可以很大)。设回归函数\( m: \mathcal{X} \to \mathcal{M} \)满足:\( d( Y, m(X) ) \)关于\( X \)的条件分布是次高斯的——这是一个比常见独立高斯噪声更强的假设,但允许噪声与X相关。设流形学习映射\( \psi: \mathcal{M} \to \mathbb{R}^d \)是Isomap(基于测地线距离的嵌入),它存在一个逆映射(近似)\( \phi: \mathbb{R}^d \to \mathcal{M} \)满足\( d( Y, \phi(\psi(Y)) ) \)很小。
  • 核心假设(逐条说明含义):

    • (A1) 条件分布假设:给定X,响应Y的分布满足\( \mathbb{E}[ \exp( t \cdot d(Y, m(X)) | X ] \leq \exp( \sigma^2 t^2 / 2 ) \)(次高斯噪声)。含义:非欧“噪声”的尾部分布指数衰减。比经典同方差高斯假设强,但允许与X相关。
    • (A2) 流形假设:流形\( \mathcal{M} \)的Ricci曲率有下界,内射半径有下界(保证Isomap具有良好性质)。含义:流形的几何是“正则”的,使得从少数采样点估计测地线距离可靠。
    • (A3) 偏置假设:存在一个光滑函数\( h: \mathbb{R}^d \to \mathbb{R}^d \)(将low-D表征合成最终预测),且\( \phi \circ h \circ f \)足够接近\( m \)。含义:DNN+流形学习+逆映射的组合能近似真实回归函数,且此近似的偏置(bias)有可控的上界。
    • (A4) 光滑性假设:回归函数\( m \)的“Fréchet导数”是Lipschitz连续的(在一种适当定义的Fréchet导数意义下)。含义:这是非参数回归的标准光滑性假设(如Hölder类),保证核回归的bias项可控。
  • 与已有文献对比

    • 相比全局Fréchet回归(Petersen & Müller, 2019):本文放弃了线性假设,用了非参数深度模型,但代价是对流形结构施加了更强的几何假设(测地距离可靠等)。
    • 相比欧几里得深度回归(Schmidt-Hieber, 2020等):本文需要处理非欧空间的“噪声”度量,这里的噪声并不是加法,而是通过距离定义的。因此,收敛速率分析不能简单套用欧几里得情形的结果。本文的证明是一种针对非欧情形的并行构造

主要结果

定理1(DNN收敛速率,见论文第4节局部Fréchet回归部分): * 陈述(简化):设模型满足假设A1-A4,DNN有合适的深度与宽度,且使用\(\ell_2\)正则化训练,则对于任意测试点\( x \),DNN的输出\( \hat{m}(x) \)满足:

\[\mathbb{E}[ d( \hat{m}(x), m(x) )^2 ] = O\left( n^{-\frac{2\beta}{2\beta + d_{\text{eff}}} \right) + \text{bias项}\]
其中\( \beta \)是回归函数的光滑性参数,\( d_{\text{eff}} \)是流形\( \mathcal{M} \)本征维数(与p无关)。 * 直觉:速率仅依赖于本征维数\( d_{\text{eff}} \),而非名义维数p。这避免了维度诅咒。速率形式与欧几里得情况下用DNN得到的极小极大速率相同,只是这里的“光滑性”和“维数”均针对非欧响应空间定义。 * 必要条件:样本量n需足够大,DNN的深度、宽度、正则化参数需仔细选取(典型做法)。 * 解决的技术难点:证明了DNN在带相关噪声(dependent sub-Gaussian noise)下的收敛速率,且噪声通过Fréchet函数定义,是非欧几里得的。作者使用了Empirical Process理论来处理Fréchet函数的梯度(在其定义的“Fréchet导数”意义下)。

定理2(完整模型收敛速率,见论文第5节): * 陈述(简化):将上述DNN、流形学习与含误差预测变量的局部Fréchet回归组合后,最终估计量\( \tilde{m}(x) \)仍保持与定理1相同的收敛速率(在误差项中多出一个流形学习误差项,它能以更快速率被吸收)。 * 技术难点:局部Fréchet回归假设预测变量可观测无误差,但本文中,最终的预测变量是DNN的输出与流形学习输出,它们含有误差。作者因此推广了局部Fréchet回归到“含误差的预测变量(errors-in-variables)”情形,这是本文分析的重要贡献。

证明路线与技术技巧

整体路线

  1. 误差分解:将总误差\( \mathbb{E}[ d( \tilde{m}(x), m(x) )^2 ] \)分解成三步。

    • 第一步误差:DNN的预测误差(它与流形学习后的低维表示之间的差距)。
    • 第二步误差:流形学习映射误差(将Y映射到低维时的几何失真)。
    • 第三步误差:局部Fréchet回归的估计误差(在含误差预测变量上的核回归)。
  2. 控制第一步误差:把第一步视为一个以\( \mathbb{R}^d \)为响应空间的DNN回归问题。关键跳跃点: 标准DNN收敛定理(如Schmidt-Hieber, 2020)假设噪声与X独立且同分布,但本文允许噪声与X相关。作者通过证明Fréchet函数\( F(y) = \mathbb{E}[ d(Y, y)^2 | X ] \)的梯度(在流形切空间中的量)仍是次高斯变量,并应用Empirical Process理论(覆盖数/括号数)来建立收敛速率,从而绕开对噪声独立性的要求。

  3. 控制第二步误差:流形学习(Isomap)的误差取决于测地线距离估计的误差。作者使用经典的流形学习收敛结果(如Bernstein等人工作中的一个引理),流形曲率有界时,该误差能以下界率\( O(n^{-2/d_{\text{eff}}}) \)收敛。由于\( d_{\text{eff}} \)小于p,此误差通常不是主要瓶颈。

  4. 控制第三步误差:这是最关键的步骤。原始的局部Fréchet回归理论(Chen & Müller, 2023)假设预测变量无误差。但这里的“有效预测变量”是DNN的输出,它包含噪声。关键跳跃点: 作者发展了一个带误差的局部Fréchet回归理论——假设观测到的预测变量\( X_i^{\text{obs}} = X_i^{\text{true}} + \epsilon_i \),且\( \epsilon_i \)均值为0、方差可控,他们仍能建立其收敛速率。这通过将核权重的期望展开为围绕真实值的级数,并利用Fréchet函数的二阶可微性(在流形上)来完成。技术技巧: 使用了核函数的泰勒展开U-统计量的方差分解。

  5. 叠加:将上述三步误差的速率相加,并以适当方式选取各步超参数,使三者速率相协调,得到最终速率。

技术技巧点名: * 用Empirical Process Theory(覆盖数、括号熵)处理次高斯且相关的噪声下的DNN。 * 用流形学习收敛结果(源于几何测度论,而非统计经典)控制Isomap误差。 * 用U-统计量技巧(具体是Hájek投影或分解)分析含误差预测变量的核回归方差。 * 用泰勒展开/Delta方法在流形切空间内分析Fréchet函数的局部行为。

真实例子与应用

有真实数据例子(论文第6节)。论文用了两个数据集:

  1. 概率分布数据(脑电图EEG数据)

    • 场景:预测变量X是不同年龄(0-20岁)受试者的脑电图协方差矩阵(欧几里得矩阵)。响应Y是对应年龄段的脑电图功率谱密度分布(即概率分布,视为一个Wasserstein空间中的点)。目标:预测给定年龄的脑电功率谱分布。
    • 如何用本文方法:对X(年龄)直接应用(这里p=1,所以DNN降维部分几乎退化,但论文为展示框架仍用了DNN和多维预测变量?)。实际中他们输入更高维的年龄-性别及其他协变量?论文说明他们构造了考虑多个频段的特征。
    • 结果与Baseline对比:与全局Fréchet回归(线性)、局部Fréchet回归(核)比较。本文方法在预测误差(Wasserstein距离)上更小,且流形嵌入后的预测更符合成人/儿童的分布特征
    • 说明什么:验证了在高维预测变量(多通道EEG谱)下,深度Fréchet回归优于传统非参数局部方法(由于维度诅咒,局部方法无法利用所有通道信息?),且能捕捉复杂的年龄模式。
  2. 网络数据(颈动脉网络数据)

    • 场景:预测变量X是受试者的心跳间期变异(心率变异性)的各种特征(可能是多维向量)。响应Y是颈动脉网络的连接结构(一个带有节点和边的图,复杂度高)。目标:预测受试者的颈动脉网络结构。
    • 如何用本文方法:将每个网络编码为邻接矩阵,计算它们之间的“图编辑距离”或“网络相似性”作为度量d。流形学习(Isomap)将网络嵌入低维空间。
    • 结果与Baseline对比:本文方法的预测误差(图距离)小于全局Fréchet回归和局部Fréchet回归。论文中提到,局部方法因变量空间维数高而效率低下。
    • 说明什么:展示了方法对复杂网络(响应空间为一般度量空间)的适用性,且DNN能整合多个预测变量获得更好的预测。

🔎 结论是否比证明窄

  • 窄的地方:定理的收敛速率依赖于流形的本征维数d_eff是已知且远小于名义维数p,且流形是光滑的(Ricci曲率有界等)。如果响应流形非常扭曲或维数不可靠估计,速率保证将退化。论文在结论中明确提及:“The rates depend crucially on the intrinsic dimension of the response manifold. In practice, it must be estimated or cross-validated.” 并未声称对任意度量空间成立。
  • 可能过于宽泛的Claim:论文在摘要和引言中声称“可在高维预测变量下取得有效估计”。但理论速率中的有效维数必须足够低。如果真实的流形维数与名义维数接近,则维度诅咒并未被真正打破。这个“如果有效维数低”的条件有时会被读者忽略。
  • 与张量/高阶U-统计量的连接:论文中使用的流形学习(Isomap)与U-统计量无直接连接。但作者对流形学习的误差分析使用了U-统计量分解技术来估计测地线距离的方差,这点与用户的高阶U-统计量兴趣有微弱契合(但不是核心)。

四、开放问题

  1. 更紧的下界:论文给出了上界速率\( O(n^{-2\beta / (2\beta + d_{\text{eff}})} ) \)但未证明该速率是否极小极大最优。对应的下界问题(在非欧Fréchet回归设定下)需处理流形维度与光滑性的联合,且响应空间不是线性空间。这是一条纯理论路,但计算复杂度可能是高维流形上的packing number估计。 扎根:论文结论部分“Future work includes deriving minimax lower bounds for this problem …”。

  2. 流形学习的替代方案:本文使用了Isomap,但假定测地线距离可无偏估计且流形的结构是“好”的。当响应空间是具有复杂拓扑的分支结构(如树)或具有平滑性欠佳的度量(如总变差距离)时,测地线距离估计失败。是否存在无需全局测地线距离的替代方案(如核-均值映射或VQ-VAE)?扎根:论文对Isomap的依赖明确写于Assumption A2,可质疑其泛化性。

  3. 预测变量X为高维且其自身也位于流形上的情况:本文把维度诅咒的缓解归因于响应流形的低维结构。但如果\( X \)本身也位于高维流形上(例如图数据),则DNN可能再次遇到瓶颈。理论上可以同时假设X的低维流形结构,但本文未讨论。扎根:论文第1节提到“the curse of dimensionality in the predictor space is addressed by deep neural networks”,但未明确提出double-manifold的情形。

  4. 计算可行性问题(信息-计算缺口):局部Fréchet回归需要解决非凸优化(求度量空间中的加权Fréchet均值),且流形学习(Isomap)需要计算所有点对的测地线距离,复杂度为\( O(n^2) \)。对于大规模n,这不可行。是否有可能引入基于双距离或随机梯度的近似算法来刻画统计-计算权衡?例如,在Wasserstein空间中,能否用Nyström近似或随机切点加速?扎根:论文仅进行小样本应用(n ~ 100-400),未讨论大规模场景。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论