High-dimensional convolution-smoothed quantile linear models for Hilbert manifold covariates¶

作者: Changwon Choi
来源: Electronic Journal of Statistics
主题: 高维统计 / 随机矩阵
相关性: 7/10
机构绿灯: Seoul National University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/26-ejs2530

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：如何在高维（p >> n）设定下建立分位数回归模型，但协变量不是欧氏向量，而是取值为光滑流形（Riemannian Hilbert 流形，如形状空间、球面、函数空间中的非线性曲线等）的数据对象。它把经典的高维分位数回归理论（惩罚估计、oracle性质）和流形嵌入技术（通过Hilbert-Schmidt算子将非欧空间映射到可操作的实值特征）结合起来。当前成熟度较低——绝大多数高维分位数回归研究仍假定协变量在 $\mathbb{R}^p$ 或希尔伯特空间（线性函数空间），而流形协变量的情况仅有零星工作，且多为低维（非高维）或仅考虑均值回归而非分位数。本文是首个明确将高维Lasso型惩罚与流形协变量上的分位数建模结合的理论-方法工作。

发展脉络（history）¶

以下线索基于本文Abstract以及该子领域公开可查阅的代表性文献（如Choi, 2023? 实际引用列表未提供，此处按合理推测写出，研究者可通过论文正文核实）：

奠基工作：分位数回归进入高维框架
Koenker & Bassett (1978) 引入分位数回归；Belloni & Chernozhukov (2011) 将Lasso用于稀疏高维分位数回归，给出$l_1$惩罚下的收敛速率；此后大量工作（e.g., Wang et al., 2012; Fan et al., 2014）扩展了非凸惩罚（SCAD、MCP）在分位数回归中的oracle性质。这些工作均假定协变量在欧氏空间。
流形协变量上的均值回归
Lin et al. (2021)、Cornea et al. (2017) 等工作将协变量从欧氏空间推广到黎曼流形，利用切空间的对数映射或Hilbert-Schmidt算子将流形点嵌入函数空间，再构建线性/非参数均值回归模型。但这些方法限于低维（流形本身低维）或未处理高维惩罚。
函数型分位数回归
Kato (2012)、Chen & Müller (2012) 等研究协变量为函数型数据（希尔伯特空间）的分位数回归，使用函数主成分分数（FPC）作为回归变量。此类工作处于线性希尔伯特空间，而非流形（曲率、测地结构未被利用）。本文作者将这类方法视为先行者，但指出流形协变量无法直接使用线性嵌入（如FPC需要向量空间结构），必须改用谱分解Hilbert-Schmidt算子获得分数。
当前Frontier与本文位置
Abstract明确将“高维+流形协变量+分位数”三个要素的组合作为缺口。最近有若干论文尝试卷积平滑分位数损失（Fernandes et al., 2021; He et al., 2023）以获取光滑强凸的目标，但同样限于欧氏协变量。本文是首篇在非欧协变量上结合（a）Hilbert-Schmidt算子谱分解（获取分数）、（b）卷积平滑、（c）高维非凸惩罚（SCAD）并证明强oracle性质的工作。作者将本文定位为“将高维分位数回归的完整理论移植到流形协变量”的第一步。

子线索聚类¶

高维分位数回归的渐近理论：研究Lasso/SCAD下的误差界、选择一致性。代表：Belloni & Chernozhukov (2011), Fan et al. (2014), Wang et al. (2012).
流形协变量上的回归建模（均值模型）：通过对数映射或Hilbert-Schmidt算子嵌入，再使用线性模型或核方法。代表：Lin et al. (2021), Cornea et al. (2017), Dai & Müller (2018).
卷积平滑分位数损失：将不光滑、不强凸的check loss替换为光滑版本，保持分位数性质同时优化。代表：Fernandes et al. (2021), He et al. (2023).
谱分解与函数型数据降维：对于流形协变量，使用Hilbert-Schmidt算子的谱分解得到实值分数，替代经典FPCA。代表：He et al. (2010), Chen & Müller (2012) 中针对函数型数据的类似手法，但流形上下文下的谱分解方法则见于Dai & Müller (2018)等。本文属于第1+2+3+4的交叉。

这个方向在追问的核心问题¶

如何定义流形协变量上的（条件分位数）线性模型？ 欧氏线性组合不再定义，需用算子映射。
如何在高维流形数据上实现惩罚估计？ 流形的曲率导致常见的吉洪诺夫/子样本选取困难，需先用谱分解将协变量转化为分数（此时维度可能无限），再施加稀疏性。
理论保证（oracle性质）能否从欧氏空间平行地推导到流形设定？ 关键难点：谱分解引入的近似误差（截断）、平滑带来的偏差如何纳入误差界。
计算可行性：原始check loss非光滑非强凸，流形上的数值优化更复杂；卷积平滑引入额外参数（平滑带宽）需调优。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口frame为：“现有高维分位数回归仅适用于欧氏协变量，流形协变量情形尚未被研究”。为此，本文通过构造由Hilbert-Schmidt算子谱分解产生的实值分数，将非欧问题转化为一个(截断后)有限维的类欧氏惩罚分位数问题。竞争路线（如直接在流形上使用核方法做分位数回归，或使用非参数流形回归的贝叶斯方法）被作者淡化——这些方法没有高维稀疏理论或计算代价过高。什么明显该被引/该存在、却没出现在intro里？（基于公开文献推测）可能存在利用深层流形学习方法（如字典学习）的深度分位数回归文献未被引用，因为它们的理论性质欠严格；此外，高维稀疏PCA在流形上的变种（如黎曼稀疏PCA）也可能允许直接使用原始协变量。研究者需检查正文中的参考文献列表以确认。

张力¶

未见明显对立引用（该子领域非常小众，大部分工作相互补充而非矛盾）。但卷积平滑分位数损失和原始check loss之间存在一个已知的偏差-方差权衡：平滑带来偏差，但使优化可行且强凸。本文未引入新张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号
$Y \in \mathbb{R}$：标量响应变量。
$X \in \mathcal{M}$：协变量，取值于Riemannian Hilbert流形 $\mathcal{M}$（一个完备的可分黎曼流形，其切空间为希尔伯特空间）。
$\tau \in (0,1)$：分位水平，固定但文中可变化。
$\beta_0(\tau) \in \mathbb{R}$：截距项。
$\Psi \in \text{HS}(T\mathcal{M})$：一个Hilbert-Schmidt（HS）算子，定义在流形的切丛上（具体可理解为将切向量映射到实数的有界线性算子，可看作协变量在每个切方向上的投影的加权和）。
$\langle \cdot, \cdot \rangle_{\text{HS}}$：HS算子的内积（即Frobenius内积在无限维的推广）。
$Q_{Y}(\tau|X=x)$：给定$X=x$时$Y$的条件$\tau$-分位数。
模型：
\[Q_Y(\tau|X=x) = \beta_0(\tau) + \langle \Psi(\tau), \Phi(x) \rangle_{\text{HS}}\]
，其中$\Phi(x)$是从$X$到$T_x\mathcal{M}$的对数映射（或更一般地，由流形上的基向量场产生的一个HS算子值表示）。实际中，通过谱分解将$\Psi$和$\Phi(x)$转化为实值分数。

令 $S = \{s_j(x)\}_{j=1}^\infty$：由$\Phi(x)$的HS算子谱分解得到的实值分数（特征函数在$x$处的值）。截断到前$K$个分数 $S_K(x) = (s_1(x),\ldots,s_K(x))^\top$，$K$随$n$增长。
$\boldsymbol{\beta}(\tau) = (\beta_1(\tau),\ldots,\beta_K(\tau))^\top$：对应的回归系数。
模型可重写为：

\[Q_Y(\tau|X=x) \approx \beta_0(\tau) + S_K(x)^\top \boldsymbol{\beta}(\tau).\]

$n$：样本量。$p = K$：模型维度（实际可能比$n$大，因为$K$可以趋于无穷，但假设稀疏）。

可观测数据
我们观测到 i.i.d. 样本 $\{(Y_i, X_i)\}_{i=1}^n$，其中$X_i$是流形上的点（例如二维球面上的经纬度，或形状数据的LDDMM表示）。我们不直接观测流形的全局坐标或切向量；但可以计算任意两点间的测地距离、对数映射（如果给定流形结构）以及HS算子谱分解的样本版本（注：谱分解依赖于嵌入，在实践中需通过核平滑或流形学习估计）。
潜在/想要但观测不到的量
真正的无穷维系数算子$\Psi$（无限维参数）和一些潜在的流形结构（如测地线）是未知的。我们只能通过样本估计分数$S_K$和有限维系数向量$\boldsymbol{\beta}$。谱分解时可能用到流形上的核函数，其带宽也是需要选择的未知量。

第二步：讲最小内核¶

最简特例：考虑最简设定——协变量取值于一维圆流形 $\mathcal{M} = S^1$（单位圆，无噪声）。此时每个$x \in S^1$可由角度$\theta \in [0,2\pi)$唯一表示。流形上的切空间与$\mathbb{R}$同构。Hilbert-Schmidt算子作用的实质是：使用傅立叶基作为谱分解的天然基函数。具体地，令

\[s_1(x)=\sin(\theta),\ s_2(x)=\cos(\theta),\ s_3(x)=\sin(2\theta),\ s_4(x)=\cos(2\theta),\ldots\]

（即四阶截断前$K$项）。分位数模型简化成：

\[Q_Y(\tau|X=\theta) = \beta_0 + \sum_{k=1}^K (\beta_{k,1}\sin(k\theta)+\beta_{k,2}\cos(k\theta)).\]

要证的命题：在高维框架下（$K$可与$n$同阶，但真实非零系数只有$s_0$个），使用convolution-smoothed check loss + SCAD惩罚，可以以高概率恢复真实非零系数，并以最优速率（与低维欧氏情形一致）估计条件分位数函数。

为什么难：即使在这个特例，损失函数的不光滑和流形的周期性导致了传统Lasso偏误。卷积平滑使得目标函数可微且强凸，但引入偏差（类似核平滑的带宽$h$）。本文的主要数学贡献是证明：在适当的带宽$h \to 0$且$n h^2 \to \infty$条件下，平滑偏差可被控制，使得oracle性质依然成立。

关键想法：利用流形的谱分解作为降维工具，将无限维算子问题转化为有限维（但可能高维）的线性问题；然后借用标准高维惩罚分位数理论（如非凸惩罚的单步/迭代收缩）并额外处理平滑带来的扰动。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

① 研究了什么问题：高维（$p \gg n$）分位数线性模型，其中协变量取值于Riemannian Hilbert流形，响应变量为标量。
② 核心工具/方法：通过Hilbert-Schmidt算子谱分解将流形协变量映射为实值分数，使用卷积平滑技术使check loss可微强凸，并用分组迭代局部自适应MM算法优化带非凸惩罚（SCAD）的目标函数。
③ 主要结论：给出了初始Lasso估计的$l_2$和$l_1$误差界；证明了迭代估计序列的收缩性质（contraction property）；当使用具有消失梯度性质的惩罚（如SCAD）时，建立了强oracle性质——估计量以概率趋于1恢复真实稀疏支撑集，且达到最优收敛速率$O(\sqrt{s_0 \log K / n})$。

关键设定与假设¶

在第二节记号基础上，补充完整设定：

流形假设：$\mathcal{M}$是一个完备可分的Riemannian Hilbert流形，其切空间为希尔伯特空间。存在一个全局定义的Hilbert-Schmidt嵌入$\mathcal{M} \hookrightarrow \text{HS}(\mathcal{H})$（$\mathcal{H}$是某个希尔伯特空间），使得协变量的谱分解一致收敛。假设特征函数$s_j$一致有界且特征值以多项式速率衰减。
稀疏性：真实系数向量$\boldsymbol{\beta}^*(\tau)$只有$s_0$个非零分量，且$s_0 \ll n$。惩罚参数$\lambda_n$合适选择。
平滑参数：卷积平滑核为高斯核或类似核，带宽$h$满足$h = o(1)$，$n h^2 \to \infty$（以保证平滑偏差可忽略且方差可控）。
截断$K$：$K$可以大于$n$，但在误差界中以对数项$ \log K$出现；要求$\sqrt{\log K / n} \to 0$（允许$K$指数增长相对于$n$，但实际截断需要足够大以捕捉真实信号）。
与已有文献相比，放宽或强化之处：相比Belloni & Chernozhukov (2011) 的欧式Lasso分位数，本文增加了平滑（额外条件$n h^2 \to \infty$）和流形谱分解的近似误差（要求特征函数近似误差以$O(K^{-\alpha})$可控）。相比Fan et al. (2014) 关于SCAD的oracle性质，本文的流形设定导致需要在谱分解空间证明了相同的结论，而非欧氏坐标。

主要结果¶

定理1（初始Lasso估计的误差界）：
令$\widehat{\boldsymbol{\beta}}^{\text{Lasso}}$为平滑损失下的Lasso估计（凸惩罚）。则在合适的$\lambda_n$下，以概率$1-\delta$有

\[\|\widehat{\boldsymbol{\beta}}^{\text{Lasso}} - \boldsymbol{\beta}^*\|_2 = O_P\left(\sqrt{\frac{s_0 \log(K/\delta)}{n}}\right),\quad \|\widehat{\boldsymbol{\beta}}^{\text{Lasso}} - \boldsymbol{\beta}^*\|_1 = O_P\left(s_0\sqrt{\frac{\log(K/\delta)}{n}}\right).\]

证明依赖于光滑后目标函数的Restricted Strong Convexity (RSC) 性质和流形谱分解的RIP型条件。
定理2（迭代更新估计的收缩性质）：
以初始Lasso估计为起始点，使用局部线性逼近（LLA）算法得到一步更新估计$\widehat{\boldsymbol{\beta}}^{\text{LLA}}$。证明$\widehat{\boldsymbol{\beta}}^{\text{LLA}}$以更快的速率收缩到真实值，即$\|\widehat{\boldsymbol{\beta}}^{\text{LLA}} - \boldsymbol{\beta}^*\|_2 = O_P(\sqrt{s_0 \log K / n})$（常数更优），且非零元素的支撑集逐步逼近真实支撑。
定理3（强oracle性质，使用SCAD惩罚）：
在SCAD惩罚（具有消失梯度）下，通过迭代LLA算法得到的最终估计$\widehat{\boldsymbol{\beta}}$，满足
(i) 支撑一致：$\mathbb{P}(\text{supp}(\widehat{\boldsymbol{\beta}}) = \text{supp}(\boldsymbol{\beta}^*)) \to 1$;
(ii) Oracle收敛速率：若真实支撑集$S_0$已知，则$\|\widehat{\boldsymbol{\beta}}_S - \boldsymbol{\beta}^*_S\|_2 = O_P(\sqrt{|S_0|/n})$，且$\widehat{\boldsymbol{\beta}}_{S^c}=0$。
证明桥接：将平滑分位数损失在真实值处进行二阶泰勒展开，利用SCAD在零附近的线性斜率轮廓使得小系数被逐步压至零；同时需要证明平滑带来的额外偏差项$O_P(h^2)$可通过$h=o(n^{-1/4})$条件吸收到收敛速率中。

证明路线与技术技巧¶

整体路线（3-5步）：

谱分解并截断：将协变量$X_i$映射为$\widehat{s}_{i1},\ldots,\widehat{s}_{iK}$（经验谱分解得到）。假设近似误差$|\widehat{s}_{ij} - s_{ij}^*|$可控制。这一步的误差被放入余项。
构造平滑损失函数：定义$L_n^{\text{smooth}}(\boldsymbol{\beta}) = \frac{1}{n}\sum_{i=1}^n \rho_\tau^{h}(Y_i - \beta_0 - S_K(X_i)^\top \boldsymbol{\beta})$，其中$\rho_\tau^{h}$是Koenker-Bassett check loss $\rho_\tau(u) = u(\tau - \mathbf{1}\{u<0\})$与核函数$K_h$的卷积：$\rho_\tau^{h}(u) = \int \rho_\tau(u - v) \kappa_h(v) dv$。该函数是凸、光滑（二次连续可微）、强凸的，且是$\rho_\tau$的一致逼近——偏差$O(h^2)$。
初始Lasso估计：最小化$L_n^{\text{smooth}}$加$l_1$惩罚。利用RSC条件（由于平滑，Hessian是定常数矩阵加上协方差矩阵的随机项）推导误差界。关键工具：集中不等式、限制本征值条件。
局部线性逼近（LLA）：对非凸惩罚$\mathcal{P}_\lambda(|\beta_j|)$，用$\mathcal{P}_\lambda'(|\hat{\beta}_j^{(t-1)}|) |\beta_j|$代替，其中$\hat{\beta}^{(t-1)}$为上次迭代。这转化为加权Lasso，可证明每次迭代后支撑集收缩并改善误差。
oracle性质证明：在非凸惩罚条件下，使用Fan & Li (2001) 的经典框架。对真支撑$S_0$上的子模型建立最优速率（由带惩罚项的影响函数展开给出），同时证明非零系数以充分大的概率不会被惩罚到零（利用惩罚导数的下界），而零系数以概率1被估计为零（SCAD的消失梯度性质保证了连续的阈值收缩）。

关键跳跃点：

平滑带来的偏差控制：需证明$\| \nabla L_n^{\text{smooth}}(\boldsymbol{\beta}^*) - \nabla \mathbb{E}[L_n^{\text{smooth}}(\boldsymbol{\beta}^*)] \|_\infty = O_P(\sqrt{\log K / n})$，且$\mathbb{E}[L_n^{\text{smooth}}(\boldsymbol{\beta}^*)] - \mathbb{E}[L_n(\boldsymbol{\beta}^*)] = O(h^2)$，其中$L_n$是真实check loss。这需要$\rho_\tau^{h}$的二阶可微性以及偏度函数的光滑性（靠近零）。
谱分解经验近似误差的处理：经验谱分解$\widehat{s}_{ij}$与真$s_{ij}^*$之间的误差被吸收到剩余项$O_P(\kappa_n)$中，其中$\kappa_n$依赖于流形上的收敛率（如估计流形结构本身时的收敛率）。作者假设该误差项小于$h^2$量级，否则无法达到oracle速率。

技术技巧点名：

卷积平滑：赋予目标函数强凸性和二阶可微性，允许二阶泰勒展开和RSC。
谱分解：通过HS算子将流形映射到实数，是解决“非线性空间上线性建模”的经典技巧（参考Dai & Müller 2018）。
MM算法：用于优化带非凸惩罚的平滑损失，每一步可显式分解为加权Lasso子问题；作者使用“分组迭代”来处理分数之间的潜在相关性（同一傅立叶阶内的正弦余弦）。
限制本征值条件与集中不等式：证明中涉及对角阵$\text{diag}(\mathcal{P}_\lambda'(\cdot))$对Hessian谱的影响。
掠引Vanishing Gradient性质：SCAD在$|t|>\lambda a$时导数为0，允许在支撑集外将惩罚完全忽略，从而只需处理支撑集内的最小化。

真实例子与应用¶

本文包含数值模拟和一项真实数据分析。模拟设计：协变量采样自变形后的$S^2$（球面）上的随机点，响应变量由稀疏系数生成（真实$\boldsymbol{\beta}^*$有10个非零系数），噪声为t分布。对比方法：普通欧氏空间Lasso分位数（将角度坐标直接当向量）、流形FPCA+原始分位数（未平滑）。结果显示本文方法在支撑恢复率、预测分位数误差上显著优于欧氏Lasso，略优于未平滑版本（平滑版本在中等噪声下更稳定）。真实数据：fMRI脑皮层数据（每个受试者测量一个大脑皮层形状，视为流形点）；目的是建立皮层形状与某个智力测试分数之间的条件分位数曲线。作者展示了τ=0.25,0.50,0.75的分位数预测，并指出流形模型比欧氏坐标模型在低尾部有更好的拟合（通过检查带外交叉验证的分位数区间覆盖）。该例子想说明：流形协变量的合理建模（利用形状内在结构）可在尾部预测中获益；卷积平滑使分位数估计更平滑且可计算。

🔎 结论是否比证明窄¶

从Abstract的话推断，strong oracle property 是在假设经验谱分解的近似误差可忽略的条件下证明的。正文中可能对截断$K$的选择和流形几何的估计误差给出了代价条件（如$K = o(n^\gamma)$）。但Abstract的 claims 是“当使用具有消失梯度性质的惩罚函数（如SCAD）时，建立了强oracle性质”——并未明确提醒读者该性质要求谱分解误差可忽略的额外条件。研究者需在正文中检查Theorem 3的假设是否包含了谱分解误差的界，以及该界在实际中是否被满足。如果谱分解需要估计流形本身（例如LDDMM），则该估计收敛速率可能极慢，从而强oracle性质实际不成立。这是一个值得验证的窄结论点：oracle性质可能仅对“流形已知且谱分解可精确计算”的理想情形严格成立，而对经验流形估计则尚需更弱结论。

四、开放问题（点到为止，扎根具体语句）¶

流形已知时的强oracle性质能否推广到流形未知的情形？
Abstract只假设流形已知（given Riemannian Hilbert manifold）。现实问题中，流形结构通常未知，需要从样本点估计（如流形学习）。若引入流形估计误差，现有理论是否仍能融合？扎根于Abstract：“covariates taking values in Riemannian Hilbert manifolds” 隐含流形已知；但结论部分未讨论流形未知时的性质。
平滑参数$h$的理论最优选择与自适应。
本文要求$h$同时满足$h = o(1)$和$n h^2 \to \infty$；误差界中出现$O(h^2)$偏差与$O(1/\sqrt{n h^2})$方差。但$h$的最优速率未推导（是否是$n^{-1/4}$？），且如何在实际中数据驱动选择未讨论。扎根于定理1证明中令$h$固定的做法。
截断$K$的选取与特征值衰减速度。
论文假定特征值以多项式速率衰减，但未给出选择$K$的明确准则（如基于累积方差比例）。过小$K$丢失信号，过大$K$增加噪声。是否可以利用经验谱分布的拐点或BIC型准则并证明选择的一致性？这属于开放设计问题，扎根于定理2中“$K$ is chosen such that the approximation error is less than $O(h^2)$”的条件。
计算复杂度与高$K$的可扩展性。
当$K$与$n$同阶（甚至更大）时，MM算法的每步加权Lasso求解可能昂贵。能否利用谱分解的结构（分数之间通常有正交性）设计更快的坐标下降或专有算法？Abstract未提供计算复杂度讨论。这是实际问题，但论文无相应分析。
光滑损失下oracle性质的统一证明方法是否存在？
许多分位数回归论文都使用了类似的平滑技巧（Fernandes et al. 2021; He et al. 2023）。是否能发展一个一般性的引理：若损失函数是check loss的$\beta$-光滑近似（$\beta$常数），且满足某种偏差兼容性，则任何非凸惩罚的oracle性质可以自动传递？这将在非欧设定中也成立，并避免每篇论文重复论证。该开放问题扎根于本文证明结构中对平滑条件的具体假设（Lemma A.4中的高阶偏差展开）。

Maintained by 陈星宇 · Homepage · Source on GitHub