Functional linear quantile regression on a two-dimensional domain¶

作者: Nan Zhang, Peng Liu, Linglong Kong, Bei Jiang, Jianhua Z. Huang
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.3150/23-bej1653

一、领域脉络与小综述¶

这个方向是什么：这个子方向是函数型数据回归与分位数回归的交叉领域。其根本统计问题是：当协变量是定义在二维域（如图像、曲面）上的函数 \(X(s), s \in \mathcal{S} \subset \mathbb{R}^2\)，而响应变量 \(Y\) 是标量时，如何估计条件分位数 \(Q_{Y|X}(\tau)\)，并给出估计量的最优收敛速率。这本质上是一个统计逆问题：观测数据有限，而待估的斜率函数 \(\beta(s)\) 是无穷维的，需要正则化；同时，分位数回归使用的 "check loss" 带来的非光滑性使得传统的最小二乘理论无法直接套用。该方向目前处于理论深化期，从一维域向多维域推广时，核函数的谱结构交互变得极其复杂，是当前的难点。

发展脉络： 1. 奠基工作（函数型线性模型）：函数型数据分析的基石是 Yao, Müller & Wang (2005) 等人建立的主成分分析（PCA）框架，通过截断 Karhunen-Loève 展开处理一维域上的函数型线性模型。这类方法依赖于协方差核的特征函数基。 2. 分位数回归的引入：Koenker (2005) 奠基了分位数回归，随后 Cardot et al. (2005) 等人将其引入函数型数据，但早期工作多集中在一维域且缺乏最优速率的理论支撑。 3. RKHS 框架与 Minimax 理论（一维域）：Cai & Yuan (2012) 在函数型线性模型（均值回归）中引入了再生核希尔伯特空间（RKHS）框架，利用插值空间理论给出了 minimax 最优速率。这一工作确立了"协方差算子特征值衰减速率"与"斜率函数光滑度"共同决定收敛速率的范式。 4. 本文的位置：本文将 Cai & Yuan (2012) 的理论从"均值回归"推广至"分位数回归"，并从"一维域"推广至"二维域"。这一推广并非平凡，因为二维域上的核函数（如 Matérn 类）与协方差算子的同时对角化性质在一维情形下是自动成立的（或较易处理），而在二维情形下需要全新的技术来处理两种核的交互。

子线索聚类： - 聚类 A：函数型均值回归。以 RKHS 正则化为核心，关注 \(L^2\) loss 下的最优速率。代表工作是 Cai & Yuan (2012)。瓶颈在于无法捕捉条件分布的尾部特征或异质性。 - 聚类 B：函数型分位数回归。关注 "check loss" 下的估计。已有工作多在一维域，且多基于 PCA 截断，理论分析常止步于收敛性，缺乏紧致的 minimax 下界。 - 聚类 C：高维/多维域上的正则化。处理图像、曲面数据。难点在于定义在 \(\mathbb{R}^d\) 上的算子谱性质。本文属于这一聚类与聚类 B 的交叉。

这个方向在追问的核心问题： 1. 最优速率是什么：在函数型分位数回归中，估计误差的 minimax 速率由什么决定？如何同时刻画协方差算子的特征值衰减（信息量的限制）和斜率函数的光滑性（正则化的需求）？ 2. 核的交互：当定义域是二维时，用于正则化的再生核 \(K\) 与刻画数据协方差结构的协方差核 \(C\) 如何交互？它们能否同时对角化？如果不能，如何界定速率？ 3. 计算可行性：分位数回归的目标函数不可微，在函数空间中如何高效求解？

⚠️ 作者的 framing：作者将缺口 frame 为：现有的函数型分位数回归理论主要集中在一维定义域，且缺乏系统的 minimax 速率分析；特别是，二维域上再生核与协方差核的交互机制尚不清楚。作者声称本文首次在二维域框架下建立了分位数回归的 minimax 速率，并发展了"同时对角化"技术来处理这一难题。 被淡化的路线：作者主要对比了 RKHS 路线，较少讨论基于 PCA 截断的竞争路线在二维情形下的理论困难，这可能是因为 PCA 基依赖于数据协方差算子，而 RKHS 基是人为选定的，后者在理论分析上更易控制。 缺失的引用：Introduction 中未明确提及高维分位数回归中的 "convolution smoothed" 或其他计算优化方法，这可能是一个被忽略的竞争视角。

张力：未见明显对立引用。文献主要呈现为技术上的递进：从均值到分位数，从一维到多维。潜在的张力在于：一维情形下，Matérn 核与某些协方差结构天然具有某种"对齐"性质，而二维情形下这种性质被打破，作者通过引入"同时对角化"条件强行建立了理论基石，这一假设的普适性（是否只对特定参数的 Matérn 类成立）是潜在的张力点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号：
- \(s\)：定义域上的点，\(s \in \mathcal{S} \subset \mathbb{R}^2\)（例如二维曲面）。
- \(X(s)\)：随机函数协变量，是定义在 \(\mathcal{S}\) 上的随机过程。
- \(Y\)：标量响应变量。
- \(\tau \in (0, 1)\)：分位数水平。
- \(\beta(s)\)：待估的斜率函数，是 \(\mathcal{S}\) 上的函数。
- \(K(s, t)\)：再生核，定义了斜率函数 \(\beta\) 的光滑性假设（属于 RKHS \(\mathcal{H}_K\)）。
- \(C(s, t)\)：协方差核，\(\text{Cov}(X(s), X(t))\)，决定了数据的内在结构。
- \(\langle X, \beta \rangle = \int_{\mathcal{S}} X(s)\beta(s) ds\)：函数型线性预测量。
- \(\rho_\tau(u) = u(\tau - I(u \le 0))\)：Check loss 函数（分位数回归的核心损失函数）。
模型：考虑函数型线性分位数回归模型：
\[Q_{Y|X}(\tau) = \langle X, \beta_\tau \rangle\]
即在给定 \(X\) 时，\(Y\) 的第 \(\tau\) 分位数是 \(X\) 与斜率函数 \(\beta_\tau\) 的内积。这等价于假设：
\[Y = \langle X, \beta_\tau \rangle + \varepsilon, \quad Q_{\varepsilon|X}(\tau) = 0\]
假设 \(\beta_\tau\) 属于由核 \(K\) 生成的 RKHS \(\mathcal{H}_K\)。
可观测数据：研究者观测到独立同分布的样本 \(\{(X_i, Y_i)\}_{i=1}^n\)。其中 \(X_i\) 是函数型数据（通常离散化观测），\(Y_i\) 是实数。不可观测的是真实的斜率函数 \(\beta_\tau\) 和误差项 \(\varepsilon_i\)。

第二步：最小内核

为了看懂这篇论文的核心数学贡献，我们剥离掉复杂的泛函分析外壳，看一个离散化的线性分位数回归问题：

假设定义域 \(\mathcal{S}\) 被离散化为 \(p\) 个点，此时函数型变量 \(X\) 变为 \(p\) 维向量 \(\mathbf{x}\)，斜率函数 \(\beta\) 变为 \(p\) 维向量 \(\boldsymbol{\beta}\)。模型变为：

\[Y = \mathbf{x}^\top \boldsymbol{\beta} + \varepsilon\]

我们要极小化经验 check loss 加上正则项：

\[\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^n \rho_\tau(Y_i - \mathbf{x}_i^\top \boldsymbol{\beta}) + \lambda \| \boldsymbol{\beta} \|_K^2\]

这里 \(\| \cdot \|_K\) 是由正定矩阵 \(K\) 定义的范数（对应 RKHS 范数）。

核心数学困难与本文的突破：在均值回归（\(L^2\) loss）中，上述问题有显式解，误差分析可以通过矩阵的谱分解完成。但在分位数回归中，目标函数不可微，没有显式解，必须使用经验过程理论来控制估计误差。

更关键的是，收敛速率取决于两个"谱"的交互： 1. 数据协方差矩阵 \(C\) 的特征值衰减：决定了信息量的多少。特征值衰减越快，有效维数越低。 2. 正则化矩阵 \(K\) 的特征值衰减：决定了参数空间的光滑度。

最小内核命题：若 \(C\) 的特征值 \(\mu_k \sim k^{-a}\)，\(K\) 的特征值 \(\lambda_k \sim k^{-b}\)，且两者同时对角化（即共享同一组特征向量），则估计误差 \(\|\hat{\beta} - \beta\|^2\) 的 minimax 速率为 \(n^{-\frac{2b}{2b+a+2}}\)。

本文的推广：作者将这个命题从一维推广到二维域。在一维情形下，微分算子的特征函数自然对角化；但在二维情形下，再生核 \(K\)（如 Matérn 核）和协方差核 \(C\) 通常不自动对角化。作者的核心工作是证明：在满足特定条件时（如 \(C\) 也是 Matérn 类且参数匹配），可以构造一组基使得两者同时对角化，从而推导出精确的收敛速率。如果不对角化，速率分析将无法进行。这就是"Simultaneous Diagonalization"（同时对角化）作为本文技术核心的原因。

三、这篇论文做了什么¶

三句话： 1. 研究了二维域上函数型线性分位数回归的斜率函数估计问题。 2. 核心方法是 RKHS 框架下的惩罚经验 check loss 最小化，并利用插值空间理论处理非光滑损失函数。 3. 主要结论是建立了估计量的 minimax 收敛速率，并发展了二维域上再生核与协方差核的同时对角化技术。

关键设定与假设： - 假设 1（光滑性）：斜率函数 \(\beta\) 属于 RKHS \(\mathcal{H}_K\)，且具有特定的光滑度 \(\alpha\)（通过插值空间指标刻画）。 - 假设 2（协方差结构）：协方差算子 \(C\) 是紧算子，其特征值 \(\{\mu_k\}\) 满足多项式衰减 \(\mu_k \asymp k^{-a}\)。这是函数型数据的经典假设，反映了数据的内在复杂度。 - 假设 3（同时对角化）：这是本文最关键的假设。作者假设存在一组正交基 \(\{\phi_k\}\)，使得再生核 \(K\) 和协方差算子 \(C\) 在这组基下同时对角化。作者在 Section 3 中证明，当 \(K\) 和 \(C\) 均为 Matérn 类核且定义在矩形域或球面上时，该条件满足。 - 假设 4（误差条件）：条件密度函数 \(f_{Y|X}(y|X)\) 在分位数附近有界且远离零。这是分位数回归理论的标准假设，用于保证 check loss 的局部凸性和渐近正态性。

主要结果： - 定理 1（上界）：在上述假设下，通过选择合适的正则化参数 \(\lambda\)，惩罚估计量 \(\hat{\beta}\) 的 \(L^2\) 范数误差满足：

\[\|\hat{\beta} - \beta\|^2 = O_p(n^{-\frac{2\alpha}{2\alpha + a + 2}})\]

其中 \(\alpha\) 是斜率函数的光滑度指标，\(a\) 是协方差特征值的衰减指标。这个速率反映了"维数祸根"的缓解：有效维数由 \(a\) 控制，而非定义域的无限维数。 - 定理 2（下界/Minimax 速率）：对于任何基于样本量 \(n\) 的估计量 \(\tilde{\beta}\)，都存在某个参数 \(\beta^*\) 使得误差下界达到 \(n^{-\frac{2\alpha}{2\alpha + a + 2}}\)。这证明了本文提出的估计量在速率上是最优的。 - 技术贡献：建立了二维域上 Matérn 类核与 Sobolev 空间之间的联系，并给出了同时对角化的充分条件。这解决了多维情形下谱方法失效的理论障碍。

证明路线与技术技巧： 1. 整体路线： - 第一步：谱分解与基展开。利用同时对角化假设，将无穷维问题投影到有限维特征空间。将斜率函数 \(\beta\) 展开为特征函数级数，系数为 \(\theta_k\)。 - 第二步：转化系数估计问题。原问题转化为估计系数序列 \(\{\theta_k\}\)。正则化项转化为对系数的加权惩罚 \(\sum \lambda_k \theta_k^2\)。 - 第三步：经验过程控制。由于 check loss 不可微，不能直接用 Taylor 展开。作者使用了经验过程理论，具体是Bracketing Number（括号熵）技术，来控制经验目标函数与总体目标函数之间的偏差。 - 第四步：插值空间理论。为了刻画不同光滑度 \(\alpha\) 下的误差，作者使用了插值空间来精细划分 RKHS 的子空间，从而得到紧致的速率。 - 第五步：Minimax 下界证明。构造了一个特定的有限维子模型，利用 Fano 引理或 Le Cam 方法证明在该子模型上任何估计量都无法突破某个误差界。

关键跳跃点：
- 同时对角化的构造：在一维情形，微分算子的特征函数自然构成基。在二维情形，作者发现 Matérn 核的特征函数与 Laplace 算子的特征函数重合，若协方差核也是 Matérn 类，则两者共享特征函数。这一洞察使得谱分析得以进行。
- 非光滑损失下的 Oracle 不等式：在 check loss 下建立 Oracle 不等式比 \(L^2\) loss 困难得多，作者通过精细的局部凸性分析和经验过程的度量熵估计克服了这一难点。
技术技巧点名：
- Reproducing Kernel Hilbert Space (RKHS)：用于定义参数空间和正则化。
- Interpolation Space Theory (插值空间理论)：用于精确刻画估计量在介于不同光滑度空间之间的收敛行为。
- Empirical Process (经验过程)：用于处理 check loss 带来的随机误差项，特别是 Bracketing Integral 的计算。
- Simultaneous Diagonalization (同时对角化)：本文的核心算子理论工具，用于解耦协方差结构与正则化结构。

真实例子与应用： - 数据：ADNI（Alzheimer's Disease Neuroimaging Initiative）研究中的海马体表面数据。协变量 \(X(s)\) 是海马体表面的空间位置特征（定义在二维球面上），响应变量 \(Y\) 是认知评分（如 MMSE）。 - 应用方式：将海马体表面数据配准到标准球面，利用球面上的 Matérn 类核作为 RKHS。估计不同分位数 \(\tau\) 下的斜率函数 \(\beta_\tau(s)\)。 - 结果：展示了不同 \(\tau\) 下海马体表面对认知评分影响的差异，发现高分位数和低分位数下的影响模式不同（异质性），这是均值回归无法揭示的。 - 计算：使用内点法求解线性规划问题，这是分位数回归的标准计算方法。

🔎 结论是否比证明窄：本文的理论结果依赖于"同时对角化"假设。虽然作者证明了 Matérn 类核满足该条件，但在实际数据分析中，数据的真实协方差核 \(C\) 未必是 Matérn 类，也未必与选定的 \(K\) 对角化。作者在文中承认了这一点，并指出这是理论分析的必要简化。实际应用中，若该条件不满足，速率可能变慢，但估计量通常仍然相合。

四、开放问题¶

非同时对角化情形的速率：本文核心依赖"同时对角化"假设（Assumption 3）。若协方差核 \(C\) 与再生核 \(K\) 不对角化，minimax 速率是什么？是否可以通过更复杂的算子理论（如算子的交换子估计）给出速率界？这扎根于文中对 Assumption 3 的讨论。
计算效率与高维灾难：文中使用内点法求解，计算复杂度较高。对于超高分辨率的二维图像数据，如何设计快速的分布式或随机梯度算法？分位数回归的非光滑性使得二阶方法难以直接应用，这是一个计算统计问题。
模型检验与稳健性：文中假设线性分位数模型 \(Q_{Y|X}(\tau) = \langle X, \beta \rangle\)。如何检验这个模型是否成立？如果模型误设，估计量的性质如何？扎根于文中对 Model (1) 的设定。
非参数分位数回归：本文是线性模型。在二维域上，完全非参数的分位数回归（即 \(Q_{Y|X}(s)\) 依赖于 \(X\) 的非线性泛函）的 minimax 速率是什么？这需要克服维数祸根，可能需要新的结构假设。

Maintained by 陈星宇 · Homepage · Source on GitHub

Functional linear quantile regression on a two-dimensional domain¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论