Regularized Tensor Quantile Regression With Applications to Neuroimaging Data Analysis¶

作者: Matthew Pietrosanu, Dengdeng Yu, Ivan Mizera, Bei Jiang, Linglong Kong
来源: Statistics in Medicine
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.1002/sim.70582

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：当协变量具有固有的高维阵列结构（即张量结构，如医学影像的三维像素矩阵、时空面板数据）时，如何在回归框架中既利用其低秩先验以克服维数灾难，又保留协变量对响应变量不同分位数的异质性影响。当前该方向处于方法成型与理论初步建立阶段：张量线性回归（均值回归）的低秩分解与正则化已有较成熟的算法与收敛速率结果，但将其推广至分位数回归（非光滑损失、位置-尺度模型）时，算法收敛性与统计收敛速率的分离处理及理论刻画仍是正在填补的缺口。

发展脉络（history）：根据 introduction 与参考文献，该方向的工作可串成如下线索： - 奠基工作（均值回归与低秩张量分解）：张量回归的起步以均值回归为主。Hung et al. (2020) 与 Li et al. (2018) 建立了张量线性与广义线性回归的低秩 CP 分解框架，留下了“损失函数光滑性对算法与理论联合分析至关重要”的隐含前提。作者引用它们时指出，这些工作“regularize the parameters of a low-dimensional tensor effect decomposition directly through the decomposition's parameters”（直接对分解参数正则化），这为本文的“对张量本身正则化”留下了改进口子。 - 主要进展（张量分位数回归的初步尝试）：分位数回归的引入带来了非光滑损失（check loss）的挑战。Dai et al. (2023) 提出了 tensor quantile regression，作者引用时明确指出其局限：“they regularize the decomposition's parameters directly... which can lead to suboptimal performance”。此外，经典的一维分位数回归理论（Koenker 2005, Belloni & Chernozhukov 2011）为线性与高维设定提供了渐近理论，但未触及张量结构。 - 当前 frontier（正则化对象的转移与非光滑损失的处理）：在均值回归中，正则化对象的转移已有先例。作者引用 Wang et al. (2022) 与 Raskutti et al. (2015) 指出，在均值回归中“regularizing the tensor estimate rather than the decomposition's parameters”已被证明能带来更优的统计性质。本文的位置即是：将这一“对张量本身正则化”的策略，从均值回归（光滑损失）移植到分位数回归（非光滑损失），并解决由此产生的算法收敛性与统计收敛速率必须分离证明的理论困难。

子线索聚类： 1. 张量均值回归（光滑损失）：以 Li et al. (2018), Wang et al. (2022) 为代表，处理 \(L_2\) 或负对数似然损失，算法通常基于交替最小二乘或梯度下降，统计理论依赖经验过程与 M-estimation 的标准凸/光滑分析。 2. 张量分位数回归（非光滑损失）：以 Dai et al. (2023) 为代表，处理 check loss，算法需依赖线性规划或次梯度迭代，统计理论需处理分位数过程的非光滑性。 3. 分位数回归的非参数/半参数理论：以 Koenker (2005), Belloni & Chernozhukov (2011) 为代表，提供了一维与高维（向量）分位数回归的渐近分布与收敛速率基础，但未涉及阵列/张量协变量的低秩约束。

这个方向在追问的核心问题： 1. 正则化对象的统计最优性：对分解参数正则化 vs. 对重构张量本身正则化，在低秩张量回归中是否导致不同的收敛速率？后者是否严格优于前者？ 2. 非光滑损失下的算法-理论分离：当损失函数不可微时，算法的有限步收敛精度与估计量的统计收敛速率之间的 gap 如何控制？如何避免“算法未收敛导致统计理论失效”的循环论证？ 3. 低秩约束与分位数异质性的交互：张量的低秩结构在不同分位数水平 \(\tau\) 下是否稳定？位置-尺度模型（location-scale model）如何与低秩分解兼容？

⚠️ 作者的 framing（这是作者的说法）：作者将缺口 frame 为：现有张量分位数回归（Dai et al. 2023）直接对 CP 分解参数正则化，导致“suboptimal performance”；而均值回归中已证明“对张量本身正则化”更优（Wang et al. 2022），因此将后者移植到分位数回归是“显然的下一步”。作者淡化的竞争路线包括：基于 Tucker 分解而非 CP 分解的张量回归（Tucker 在某些高维设定下比 CP 有更紧的统计速率，但本文未对比）；基于核范数而非 CP 秩的正则化（凸松弛路线，本文坚持非凸的 CP 秩约束）。明显该被引却未出现的：关于非光滑 M-estimation 算法收敛性与统计一致性分离处理的经典文献（如 Ge et al. 2015 对非凸非光滑优化的分析，或 Loh 2017 对高维 M-estimation 的统计-计算联合分析）；关于 Tucker 分解下张量回归统计速率的工作（如 Zhang 2019）。这值得研究者去查证：本文的算法收敛性证明是否依赖了比已知文献更强的局部几何假设？

张力：未见明显对立引用。Dai et al. (2023) 与本文的分歧在于正则化对象（分解参数 vs. 张量本身），而非结论矛盾。但存在一个隐含张力：作者声称对张量本身正则化“suboptimal for Dai”，但未在同等低秩假设与同等算法迭代步数下给出 Dai 方法与本文方法的速率严格对比定理，仅通过模拟与“直觉解释”支撑，这需要研究者自行核验定理陈述的精细条件。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

参数 / estimand：
\(\tau \in (0,1)\)：目标分位数水平。
\(\mathcal{B} \in \mathbb{R}^{d_1 \times d_2 \times d_3}\)：张量效应系数，即我们要估的 target tensor parameter。它满足低秩约束：\(\text{rank}(\mathcal{B}) = R\)（CP 秩）。
\(\mathcal{B} = \sum_{r=1}^R \beta_r^{(1)} \circ \beta_r^{(2)} \circ \beta_r^{(3)}\)：CP 分解形式，\(\beta_r^{(k)} \in \mathbb{R}^{d_k}\) 为因子向量，\(\circ\) 为外积。分解参数集合为 \(\{\beta_r^{(k)}\}\)。
随机变量 / 样本：
\(Y_i \in \mathbb{R}\)：标量响应变量，\(i=1,\dots,n\)。
\(\mathcal{X}_i \in \mathbb{R}^{d_1 \times d_2 \times d_3}\)：张量协变量。
观测样本为 \(\{(Y_i, \mathcal{X}_i)\}_{i=1}^n\)，独立同分布。
维数 / 样本量等指标：
\(n\)：样本量。
\(d_1, d_2, d_3\)：张量协变量的三个模式维数，总维数 \(d = d_1 d_2 d_3\)，允许 \(d \gg n\)。
\(R\)：CP 秩，假设为已知或较小常数。
潜在 / 不可观测量：
误差项的分位数条件：模型假设 \(Y_i\) 的 \(\tau\)-条件分位数为 \(Q_\tau(Y_i | \mathcal{X}_i) = \langle \mathcal{X}_i, \mathcal{B} \rangle\)，其中 \(\langle \cdot, \cdot \rangle\) 为张量内积。误差的分布不可观测，仅通过 check loss 的最小化隐式约束其 \(\tau\)-分位数为零。

模型（数据生成机制）：数据生成机制为：给定 \(\mathcal{X}_i\)，\(Y_i = \langle \mathcal{X}_i, \mathcal{B} \rangle + \epsilon_i\)，其中 \(\epsilon_i\) 的 \(\tau\)-条件分位数为零（即 \(P(\epsilon_i \leq 0 | \mathcal{X}_i) = \tau\)）。\(\mathcal{B}\) 具有秩为 \(R\) 的 CP 结构。\(\mathcal{X}_i\) 的分布假设为次高斯，且各模式有特定的谱条件（用于保证低秩可识别性）。

可观测数据：研究者实际能观测到的是 \(\{(Y_i, \mathcal{X}_i)\}_{i=1}^n\)。\(\mathcal{B}\) 的低秩因子 \(\{\beta_r^{(k)}\}\) 是不可观测的潜在结构，只能通过 CP 分解假设与正则化约束去识别。\(\epsilon_i\) 的分布不可观测。

第二步：讲最小内核（最简特例：\(R=1\)，\(d_1=d_2=d_3=1\) 的退化情形，以及 \(R=1\) 的高维情形）

整篇论文的证明本质上是 \(R=1\)（秩为 1）特例的推广，因为秩为 \(R\) 的 CP 分解在统计误差分析中可被拆解为 \(R\) 个秩-1 张量的叠加，而算法的块坐标下降在每步也只更新一个秩-1组件。

最简特例（\(R=1\)，单因子）：此时 \(\mathcal{B} = \beta^{(1)} \circ \beta^{(2)} \circ \beta^{(3)}\)，为一个秩-1张量。目标函数为：

\[L_n(\mathcal{B}) = \frac{1}{n} \sum_{i=1}^n \rho_\tau(Y_i - \langle \mathcal{X}_i, \mathcal{B} \rangle) + \lambda \|\mathcal{B}\|_F^2\]

其中 \(\rho_\tau(u) = u(\tau - I(u<0))\) 为 check loss，\(\|\mathcal{B}\|_F^2\) 为 Frobenius 范数正则化项（这是本文核心：对 \(\mathcal{B}\) 本身正则化，而非对 \(\beta^{(1)}, \beta^{(2)}, \beta^{(3)}\) 的范数正则化）。

在这个特例下，要证的命题退化成什么、证明怎么走： 1. 统计收敛速率：要证存在局部极小值 \(\hat{\mathcal{B}}\)，使得 \(\|\hat{\mathcal{B}} - \mathcal{B}\|_F^2 = O_P(R \cdot d_{\max} / n)\)，其中 \(d_{\max} = \max(d_1, d_2, d_3)\)。这比直接对分解参数正则化（速率通常含 \(d_1 d_2 d_3 / n\) 的项）要快得多，因为对 \(\mathcal{B}\) 的 Frobenius 正则化隐式地利用了秩-1结构的范数等式 \(\|\mathcal{B}\|_F^2 = \|\beta^{(1)}\|^2 \|\beta^{(2)}\|^2 \|\beta^{(3)}\|^2\)，避免了对每个因子维数的累积惩罚。 2. 算法收敛性：要证块坐标下降算法（交替更新 \(\beta^{(1)}, \beta^{(2)}, \beta^{(3)}\)）在有限步 \(T\) 后，算法输出 \(\mathcal{B}^{(T)}\) 与统计局部极小 \(\hat{\mathcal{B}}\) 的距离 \(\|\mathcal{B}^{(T)} - \hat{\mathcal{B}}\|_F \leq \epsilon_{\text{algo}}\)，且 \(\epsilon_{\text{algo}}\) 可被控制为不破坏统计速率的量。 3. 为什么成立（核心直觉）：在秩-1情形下，对 \(\mathcal{B}\) 的 \(\|\cdot\|_F^2\) 正则化等价于对因子乘积的约束，这在统计上产生了一个“隐式低秩惩罚”，使得即使 \(d_1 d_2 d_3\) 很大，有效参数复杂度仍被 \(d_{\max}\) 控制。在算法上，由于 check loss 非光滑，块坐标下降的每步子问题是一个带 \(L_2\) 正则化的线性分位数回归（一维因子更新），其解的存在性与稳定性由分位数回归的有限样本凸性保证，而全局收敛则通过“统计-计算分离”框架（先证统计量有局部良态极小，再证算法能逼近它）绕过了非光滑损失下传统 M-estimation 要求梯度 Lipschitz 的障碍。

三、这篇论文做了什么¶

三句话： ①研究了带张量协变量的线性分位数回归中，对重构张量本身施加正则化（而非对其 CP 分解参数）的估计与算法问题。 ②核心工具是块坐标下降算法与“统计-计算分离”的理论框架，分别处理非光滑 check loss 下的算法收敛与统计速率。 ③主要结论是：对张量本身正则化的估计量达到 \(O_P(R \cdot d_{\max} / n)\) 的 Frobenius 误差速率，优于对分解参数正则化的速率，且块坐标下降算法在有限步内可逼近该统计量。

关键设定与假设：在第二节最小记号基础上补全： - 模型设定：\(Q_\tau(Y | \mathcal{X}) = \langle \mathcal{X}, \mathcal{B} \rangle\)，\(\mathcal{B}\) 为秩 \(R\) 的 CP 张量。本文也考虑了 location-scale 模型 \(Q_\tau(Y | \mathcal{X}) = \langle \mathcal{X}, \mathcal{B}_1 \rangle + \langle \mathcal{X}, \mathcal{B}_2 \rangle \cdot q(\tau)\)，其中 \(\mathcal{B}_1, \mathcal{B}_2\) 均为低秩张量，\(q(\tau)\) 为已知分位数函数。 - 假设 1（协变量次高斯与谱条件）：\(\mathcal{X}_i\) 的每个模式展开矩阵满足次高斯分布，且其期望外积的谱下界有非零 gap（即 \(\mathbb{E}[\text{unfold}_k(\mathcal{X})^\top \text{unfold}_k(\mathcal{X})]\) 的最小特征值 \(\lambda_{\min} \geq c > 0\)）。统计含义：保证低秩张量在各个模式上的投影可识别，类似于高维回归中的 restricted eigenvalue 条件。相比均值回归文献（Wang et al. 2022），此假设未放宽，但作者指出在分位数回归中该条件对控制 check loss 的局部曲率至关重要。 - 假设 2（误差密度下界）：误差 \(\epsilon_i\) 的条件密度 \(f_{\epsilon|\mathcal{X}}(0)\) 在零点处有正下界 \(f_{\min} > 0\)，且在该邻域内 Lipschitz。统计含义：这是分位数回归 M-estimation 的标准条件（Belloni & Chernozhukov 2011），保证 check loss 在真实参数附近具有局部强凸性，是获得 \(\sqrt{n}\)-速率或非参数速率的必要条件。本文未强化也未放宽。 - 假设 3（初始化条件）：算法的初始值 \(\mathcal{B}^{(0)}\) 需落在真实参数 \(\mathcal{B}\) 的某个邻域内（\(\|\mathcal{B}^{(0)} - \mathcal{B}\|_F \leq \delta_{\text{init}}\)）。统计含义：这是非凸低秩分解文献的标准局部假设，本文依赖它保证块坐标下降不陷入远离真实值的驻点。相比均值回归，本文未给出全局初始化的构造性方法，留下缺口。

主要结果： - 定理 1（统计收敛速率）：在假设 1-2 下，目标函数的局部极小值 \(\hat{\mathcal{B}}\) 满足 \(\|\hat{\mathcal{B}} - \mathcal{B}\|_F^2 = O_P(R \cdot d_{\max} / n)\)。直觉：对 \(\mathcal{B}\) 的 \(L_2\) 正则化隐式约束了 CP 分解的因子尺度乘积，使得有效自由度从 \(R(d_1+d_2+d_3)\) 压缩至与 \(R d_{\max}\) 同阶。必要条件：谱下界与误差密度下界。解决的技术难点：在非光滑 check loss 下，传统经验过程的凸分析无法直接应用，需通过局部强凸性（依赖 \(f_{\min}\)）将非光滑问题在局部邻域内“光滑化”，再结合张量低秩的 Rademacher 复杂度界完成证明。 - 定理 2（算法收敛性）：在假设 1-3 下，块坐标下降算法在 \(T = O(\log(1/\epsilon_{\text{algo}}))\) 步后，输出 \(\mathcal{B}^{(T)}\) 满足 \(\|\mathcal{B}^{(T)} - \hat{\mathcal{B}}\|_F \leq \epsilon_{\text{algo}}\)。直觉：每步子问题为凸的 \(L_2\)-正则化分位数回归，其解稳定；全局收敛由局部邻域内的目标函数曲率保证。必要条件：初始化在局部邻域内。解决的技术难点：非光滑损失下块坐标下降的收敛通常要求目标函数满足 Kurdyka-Łojasiewicz (KL) 不等式或类似几何条件，本文通过“统计局部极小值的存在性 + 子问题凸性”绕过了对全局 KL 条件的依赖。 - 定理 3（Location-scale 模型推广）：将定理 1-2 推广至 location-scale 设定，速率与算法收敛性保持同阶，但需额外假设尺度张量 \(\mathcal{B}_2\) 的范数有上界，以防分位数函数 \(q(\tau)\) 的放大效应破坏局部曲率。

证明路线与技术技巧： - 整体路线（5步）： 1. 建立局部强凸性：利用误差密度下界 \(f_{\min}\)，证明在真实参数 \(\mathcal{B}\) 的邻域内，经验 check loss 的二阶变分有正下界，即局部 behaves like a smooth \(L_2\) loss。 2. 构造局部统计极小值：在局部邻域内，结合局部强凸性与正则化项的凸性，证明存在唯一的 \(\hat{\mathcal{B}}\) 满足一阶最优性条件（次梯度包含零点）。 3. 控制经验过程的偏差：对张量协变量与 check loss 的交互项，利用次高斯假设与低秩约束，计算 Rademacher 复杂度，得到 \(\sup_{\|\mathcal{B}-\mathcal{B}^*\|_F \leq \delta} |(\mathbb{P}_n - \mathbb{P})[\rho_\tau(Y - \langle \mathcal{X}, \mathcal{B} \rangle)]| = O_P(\sqrt{R d_{\max} / n} \cdot \delta)\) 的局部均匀收敛界。 4. 统计速率综合：将局部强凸性（提供 \(\delta^2\) 的缩放）与经验过程偏差（提供 \(\sqrt{R d_{\max}/n} \cdot \delta\) 的扰动）结合，解二次方程得 \(\delta^2 = O(R d_{\max}/n)\)，即 \(\|\hat{\mathcal{B}} - \mathcal{B}\|_F^2\) 的速率。 5. 算法逼近：证明块坐标下降每步更新降低目标函数值，且在局部邻域内函数值下降与参数距离下降成比例（依赖局部强凸性），从而迭代 \(T\) 步后参数误差以几何速率收缩至 \(\hat{\mathcal{B}}\)。 - 关键跳跃点： - 引理：非光滑 check loss 的局部二次增长：这是最吃功夫的引理。难点在于 check loss 在零点处不可微，传统 M-estimation 的 Hessian 矩阵不存在。作者通过引入误差密度的 Lipschitz 条件，将分位数过程的二阶增量控制为 \(f_{\min} \cdot \delta^2 + O(\delta^3)\)，从而在局部绕过了非光滑性。 - 引理：对张量本身正则化的隐式低秩惩罚：需证明 \(\lambda \|\mathcal{B}\|_F^2\) 在 CP 分解下等价于对因子乘积的惩罚，且其 Rademacher 复杂度不随总维数 \(d_1 d_2 d_3\) 增长，而只随 \(d_{\max}\) 增长。这依赖张量内积与 CP 外积的范数恒等式。 - 技术技巧点名： - 局部强凸性 / Local curvature lemma：用误差密度下界将非光滑 check loss 在真实参数邻域内“伪光滑化”，解决分位数 M-estimation 无 Hessian 的障碍。 - Rademacher 复杂度 + 低秩约束：计算张量类的 Rademacher 复杂度时，利用 CP 分解将张量内积拆为因子向量内积的乘积，从而将复杂度从 \(d\) 降至 \(R d_{\max}\)。 - 块坐标下降 + 子问题凸性：算法每步固定两个因子更新第三个，子问题为凸的 \(L_2\)-正则化分位数回归，利用凸优化的有限步终止条件控制算法误差。 - 统计-计算分离框架：先证统计量 \(\hat{\mathcal{B}}\) 的良态性（存在性、速率），再证算法逼近它，避免传统联合分析要求目标函数全局光滑的困境。

真实例子与应用： - 神经影像数据（ADHD 数据集）：应用场景为预测 ADHD 症状严重程度（标量响应 \(Y\)）基于患者的大脑功能连接矩阵（3D 张量协变量 \(\mathcal{X}\)，维度为 \(d_1 \times d_2 \times d_3\)，对应脑区-脑区-时间频率）。 - 怎么用上去：将 \(\mathcal{X}\) 作为协变量输入本文的 regularized tensor quantile regression，分别在 \(\tau=0.25, 0.5, 0.75\) 下估计条件分位数，提取低秩张量效应 \(\hat{\mathcal{B}}\) 的 CP 因子，映射回脑区网络以识别与不同严重程度分位数相关的功能连接模式。 - 得到什么结果：在不同分位数下，\(\hat{\mathcal{B}}\) 的因子揭示了不同的脑区连接模式（如高严重程度分位数下前额叶-顶叶连接增强），而均值回归（\(L_2\) 损失）与对分解参数正则化的分位数回归（Dai et al. 方法）未能区分这些异质性模式，且在预测误差（check loss 的样本外值）上本文方法更低。 - 想说明什么：验证理论结论（对张量本身正则化在非正态误差下更优），并展示分位数回归在神经影像中捕捉异质性效应的可解释性优势。

🔎 结论是否比证明窄： - 作者在 introduction 中泛泛 claim“对张量本身正则化优于对分解参数正则化”，但定理 1 的严格陈述仅在“局部极小值”与“特定谱下界假设”下成立，并未证明全局最优性或对所有分解参数正则化方法的严格速率优势（速率对比仅通过 Rademacher 复杂度的阶数论证，未在同等假设下给出 Dai 方法速率的定理作为 baseline）。 - 算法收敛性（定理 2）依赖初始化假设（假设 3），但作者在文中仅说“practically we use a warm start from the mean regression estimate”，未证明该 warm start 在理论要求的 \(\delta_{\text{init}}\) 邻域内的概率保证，这是一个 claim 宽于证明的缺口。

四、开放问题（点到为止，扎根具体语句）¶

全局初始化的统计保证：定理 2 依赖假设 3（初始化在局部邻域），文中仅建议用均值回归的解作为 warm start，但未证明其满足 \(\|\mathcal{B}^{(0)} - \mathcal{B}\|_F \leq \delta_{\text{init}}\) 的概率界。要证：均值回归 warm start 在何种样本量与信噪比条件下落入分位数回归所需的局部邻域？（扎根：Section 3.2 对假设 3 的讨论及算法部分的 warm start 陈述）
对分解参数正则化的严格速率对比：作者声称本文速率 \(O(R d_{\max}/n)\) 优于 Dai et al. (2023) 对分解参数正则化的速率，但未在同等假设下给出 Dai 方法速率的定理作为对照。要证/估：在本文的谱下界与误差密度假设下，对分解参数正则化的 CP 分位数回归的 Frobenius 误差速率是否确实为 \(O(R(d_1+d_2+d_3)/n)\) 或更差？（扎根：Introduction 第 2 段“they regularize the decomposition's parameters directly... which can lead to suboptimal performance”及定理 1 证明中 Rademacher 复杂度的讨论）
Tucker 分解下的正则化对象选择：本文仅考虑 CP 分解，未涉及 Tucker 分解（在 \(R\) 较大或核心张量非对角时更灵活）。要证：对 Tucker 核心张量本身正则化（而非对因子矩阵正则化）是否同样带来 \(O(R d_{\max}/n)\) 的速率优势，且算法收敛性如何？（扎根：Introduction 对 CP 分解的限定及未引用 Tucker 回归文献的缺口）
误差密度下界的必要性检验：定理 1 依赖 \(f_{\min} > 0\)，若误差分布有零密度点（如离散混合分布），局部强凸性失效。要估：在 \(f(0)=0\) 或 \(f\) 间断点处，对张量本身正则化的分位数回归是否仍有收敛速率，或速率退化至何种形式？（扎根：假设 2 及局部曲率引理的 \(f_{\min}\) 依赖）

Maintained by 陈星宇 · Homepage · Source on GitHub

Regularized Tensor Quantile Regression With Applications to Neuroimaging Data Analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论