Tensor quantile regression with low-rank tensor train estimation¶

作者: Zihuan Liu, Cheuk Yin Lee, Heping Zhang
来源: Annals of Applied Statistics
主题: 统计计算 / 算法
相关性: 8/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1835

一、领域脉络与小综述¶

这个方向是什么¶

这篇论文解决的子问题是标量-张量回归（Scalar-on-Tensor Regression），在高维统计与神经影像学交叉中非常活跃。根本挑战是：给定一个高维张量协变量（如 3D MRI 脑图像，体素数量可达数百万），要预测一个标量结果（如智商分数），同时估计系数张量。这使得天然的估计量（全张量最小二乘或分位数回归）维度与体素数量相当，远远超出样本量——必须施加结构性降维（低秩分解、稀疏性、空间平滑性）来使估计可行。当前成熟度处于“方法层出不穷但理论松动”的阶段：低秩假设（CP、Tucker）已有较多工作，但张量列（TT）分解在这个回归框架下的渐近理论是本文填补的。方法的理论（一致性、渐近正态性）已经给出，但关于计算复杂度或statistical-computational tradeoff 的刻画，在此方向内几乎空白。

发展脉络（history）¶

奠基工作：高维分位数回归。Koenker (2005) 等人系统建立了分位数回归的 M-估计理论。在低维情形下的渐近正态性、Bahadur 表示已成为经典。高维（p ≫ n）分位数回归的规律由 Belloni & Chernozhukov (2011) 在 L1 惩罚下建立，为标量-张量回归提供了理论框架。
主要进展：从向量到张量回归。Zhou, Li & Zhu (2013) 提出了广义张量回归模型（GTR），首次使低秩假设（CP 与 Tucker）进入统计回归语境。这个方向在成像数据分析中迅速积攒热度；Hu & Allen (2015) 展示了 CP 分解能用于标量-图像回归，并讨论了变量选择。
当前 frontier（按引用句定位）：
- CP 分解下的分位数回归：SH2020 (Sun & Hu, 2020) 实质上已经提出过基于 CP 秩的分位数张量回归，是本文的直接竞争路线。本文指出其“优化困难、稳定性差”（引用句推断），因为 CP 秩最小化是非凸的、且秩选择不稳定。
- Tucker 分解下的回归：FTHC2018 (Fan et al., 2018) 将 Tucker 秩引入张量回归，结合 Lasso 惩罚。本文认为：Tucker 分解对高维张量仍可能会保留较大维度的核心张量，在 MRI 这种极端高维场景中未必有效。
- 张量列（TT）分解的流行：TT 分解在张量填充（Oseledets, 2011）中高效，近年被引入回归。本文是第一个（作者 claim）将 TT 分解用于分位数回归，并同时建立渐近理论的工作。
- 惩罚化总变分估计：在张量领域内，含全变分（TV）正则化的平滑惩罚已在图像去噪（如总变分 Lasso）中普遍使用，但与其结合低秩 TT 结构、再推导收敛率的，本文是针对性的工作。
本文的位置：在处理 MRI 场景的标量-张量回归时，作者 claim 本文“更稳定和更高效” compared to CP 路线；加入了泛化 TV 惩罚来利用空间结构；在 mild 条件下建立了 TT 估计量的相合性、渐近正态性、TV 正则下的收敛速度。这使其在同方向中，理论深度是一个显著进步，但方法设计上更多是 k 已知假设 + 已知结构的组合优化。

子线索聚类¶

这些文献大致落在 2-3 条子线索： 1. 全张量 + 惩罚：直接对维数 d1×d2×d3 的系数张量用 L1 或 TV 惩罚进行点估计。在体素极多时极其昂贵，几乎无法工程实施。仅限于很小张量（如 8×8×8 = 512 变量）的试验。 2. CP 分解 + 回归：用 CP 分解（p 个秩 1 项和）把系数张量 d↑ 的参数降为 p×(d1+d2+d3)。优势是参数与维数线性正比；缺点是 CP 秩选择极其敏感，而且 CP 分解本身优化困难、非凸、陷于局部解。关键参考：SH2020 是本文标题提及的对手。 3. TT 分解 + 回归：用 TT 分解（一系列秩转移张量）把 d↑ 的参数降为 O(d×r^2 × 阶数)，r 是 TT 秩。本文属于此簇。从已有文献看，这种分解对高阶张量特别有效，且比 CP 更稳定；但在分位数回归中本簇极少——据作者所言，这是引入。 4. 结构假设与去噪：一些论文（如 M2023，作者仅在 introduction 简单提及作为 alternative）用全变分或总变分惩罚直接施加于点估计。它不需低秩结构，但前提假设是系数张量本身的分段光滑——这与本文的 low-rank TT 结构 account 的假设（系数可以存在于低秩流形内）是互补的，但在同一数据场景可能相互重叠。

核心问题与已知瓶颈¶

维度灾难与低秩近似如何平衡？ 在 MRI 场景中，单一的 L1 惩罚不可能处理；只有通过准确的低秩假设才能有效降维。但这个假设的 misspecification 代价如何（bias-variance tradeoff）？目前论文只给出了一致性（所以设定是 GT = B0 严格放入 TT 族）；misspecification 下的行为没触及。
分位数回归的张量版本，更难的可解性：分位数回归的非光滑 Check 损失函数已经让高维理论（Belloni & Chernozhukov, 2011）添上“度量次高斯界”等工具；加在张量上更是将参数数量从 p 水平提升到 d↑，现有框架根本撑不住（每增加一阶，常数爆炸）。这就是为什么近几年推进点全是同一种：低秩分解 + 损失函数构造 + 光滑下界理论。其中CP vs TT 哪个确实更优尚无严格 Mathematics 证明——双方都比较实验。
计算复杂度 vs 识别确定性：CP 秩最小化被广泛认为 NP-难，但其秩 1 分量的数量控制被假设为严格已知。TT 分解的计算相对可处理（用正交迭代（Oseledets, 2011）），但它面临非线性高维搜索——在分位数损失下要同时优化分解与损失，仍然是严重的非凸。本文用了一种类似交替最小化（ALS）的策略，但并未严格证明其收敛至全局。对于计算复杂度的问题，在此方向几乎是空白——作者也没有 tackle。
惩罚结构中，全变分是否需要低秩？ TV 惩罚与 low-rank 结构相互促进还是相互制约？作者仅实验来证明组合更好，并无理论证明二者叠加的最优性。

⚠️ 作者的 framing（必须标注）¶

作者把 gap frame 成：“TT 分解在分位数回归中从未被系统使用与理论证明”——这使它成为“显然的下一步”。在 framing 中，CP 被明确淡化：称其“优化困难、稳定性差”（引用句推断，见 SH2020 的定位）；而 TV 惩罚是一种增加效果的额外选项，不是核心 claim。值得注意的是，作者完全回避了另一个竞争者——Rao et al. (2021) 等提出的基于 tensor response regression（张量响应）的模式，这个方向完全被排除，尽管它也是 brain-wide association 轨道上的主流。此外，未引用 Oseledets (2011) 原文的任何 stat 理论分析（仅引用为 decomposition source），也就是说对 TT 的统计健全性（为什么秩 r 收敛在这种模型下合理）未做讨论。

张力：未见明显对立引用——所有引用一致支持低秩假设和 TV 平滑有益倾向。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号 / 模型 / 可观测数据交代¶

符号体系：
- \(Y\)：标量结果（如智商得分）—— 可观测随机变量。
- \(\mathbf{X}\)：d1×d2×d3 维张量（3阶 MRI 体素数据）—— 可观测协变量，体素很多（如数百至百万）。
- \(\mathbf{B}\)：d1×d2×d3 维系数张量—— 不可观测的参数（每个体素的回归系数）。这是需要估计的核心对象。
- \(\tau\)：分位数水平（0<τ<1）—— 研究者选定，部分分析中可假设为固定常数。
- \(n\)：样本量（观测数）。在 MRI 数据中通常很小（约 100~500）。
- \(d = d_1+d_2+d_3\)：各阶的长度尺寸。典型 MRI 约 113×137×113（体素数量级 10^6）。
- TT 分解：QTT (Quantized Tensor Train) 把 d1×d2×d3 张量 \(\mathbf{B}\) 表示为一系列 3 个小核心张量：\(\mathbf{G}_1, \mathbf{G}_2, \mathbf{G}_3\)。符号略。
- \(r = (r_0, r_1, r_2, r_3), (r_0=r_3=1)\)：TT 秩 —— 核心参数，通常很小（如 r=5）。关键：通过 r 控制 Tensor 的表达复杂度。
- QT = (TT decomposition specification)：将 \(\mathbf{B}\) 完全由核心张量簇 \(\{\mathbf{G}_k\}\) 表示，参数总数从 ∏dk 降至 O(d×r^2)。
- \(\rho_{\tau}(u) = u(\tau - \mathbb{I}(u<0))\)：分位数损失函数（check function），非光滑、凸。
- 记 \(\boldsymbol{\beta} = \mathrm{vec}(\mathbf{B}) \in \mathbb{R}^{d_1d_2d_3}\)：全系数向量。
- 记 \(\mathbf{X}_i\) 为第 i 个观测的协方差张量。
- <·,·> 表示张量内积（Frobenius）：对于实张量相同尺寸的 \(\mathbf{A}, \mathbf{B}\)， = ∑{i1,i2,i3} A{i1,i2,i3} B_{i1,i2,i3}。
模型：标量-张量分位数回归模型：
\[Q_{Y|\mathbf{X}}(\tau|\mathbf{x}) = \langle \mathbf{x}, \mathbf{B} \rangle\]
或者更具体的：\(Y_i = \langle \mathbf{X}_i, \mathbf{B} \rangle + \varepsilon_i\)，其中随机误差的 τ-分位数为 0（即 P(ε≤0)=τ）。无其他分布假设（不需要高斯性）。关键是：系数张量 \(\mathbf{B}\) 满足 TT 秩 ≤ r（严格的 low-rank 假设）。
可观测的数据：联合 i.i.d. 样本 \(\{(Y_i, \mathbf{X}_i)\}_{i=1}^n\)，Y 标量，\(\mathbf{X}_i\) 是 3 阶张量图像。
不可观测但需要估计的：关心的参数 \(\mathbf{B}\) 全部不可直接观测；需要通过分位数损失和 TT 假设去识别估计。
识别依赖：TT 秩 r 假设为已知或通过交叉验证固定（论文以写成“已知 r0”为识别条件——这是很关键的 arXiv 假设）。

第二步：最小内核¶

最简特例：考虑最简单的非退化设定——一个 2×2×2 张量（d1=d2=d3=2），TT 秩 r=1。

全张量：\(B_{111}, B_{112}, B_{121}, B_{122}, B_{211}, ..., B_{222}\) 共 8 个未知的回归系数。
TT 秩=1 时，\(\mathbf{B}\) 由三个向量（核心张量）的按模式乘积快速得到：\(\mathbf{B} = \mathbf{g}_1 \circ \mathbf{g}_2 \circ \mathbf{g}_3\)，其中 \(\mathbf{g}_1 \in \mathbb{R}^2, \mathbf{g}_2 \in \mathbb{R}^2, \mathbf{g}_3 \in \mathbb{R}^2\)（共 6 个自由参数 < 8 的全张量）。
在这个特例下，要估计的是：极小化分位数损失 \(\min_{g_1,g_2,g_3} \sum_{i=1}^n \rho_\tau(Y_i - \langle \mathbf{X}_i, \mathbf{g}_1\circ\mathbf{g}_2\circ\mathbf{g}_3 \rangle)\)。
最小内核难点：模型是非线性的（因为分解的结构引入乘积），直接最优化很困难。同时非光滑损失包含 Check function 不可导，让标准梯度下降不能直接应用。
本文的核心思路：利用 TT-ALS（交替最小二乘，全名“TT alternating linear scheme”）框架平滑该问题：固定 g2,g3 → 求 g1 的优化是线性分位数回归（8个参数但看作线性）；固定 g1,g3 → 求 g2 是线性分位数回归；……，交替优化。通过这一手段，原始高维非凸问题被拆为多个低维凸优化问题。这很像经典的分位回归高维 Lasso 可写作子问题可解的模式——但在物理内核的关键：为什么 4 个变量的凸子问题仍然有效率？因为左边的设计矩阵 X 固定，权重可变（但 TT 的秩保证了每一轮的参数量都很小）。
信号困难性解释：确实没有控制分布假设，仅靠 TT 期中线性隔开求积分、再由 Check function 的 Lipschitz 性质去计算均方误差。

三、这篇论文具体做了什么¶

三句话¶

研究了什么问题：在标量-张量分位数回归框架下（MRI 图像预测智商的典型任务），系数的全张量维度过高，无法直接估计；本文引入 TT 分解对其施加低秩结构，极大减少参数，并叠加广义 TV 惩罚以利用空间光滑性、提高可解释性。
核心工具/方法：TT 分解 + TT-ALS 优化梯度 → 分位数损失下的估计；广义 Lasso（Total Variation variant）在 TT 分解上；渐近理论用 M-估计的通用框架（利用 Check 函数子是 Lipschitz、LLN 与 CLT），并用 Bahadur 表示与非光滑损失的引理来建立 TT 估计量的渐近正态性。
主要结论：在适度条件下（分位数随机误差、设计张量的弱矩条件），基于 TT 的估计量是相合的，且渐近正态；TV 惩罚下给出了收敛速度；在大量模拟与真实 HCP MRI 数据上经验性地证实了优越于 CP 竞争模型与全张量 L1。

关键设定与假设¶

已设定记号下的扩展假设（论文 Section 3, Assumption (A1)-(A5)的会义）：
- A0：系数张量真实值 \(\mathbf{B}_0\) 是严格 TT 秩 ≤ r 的（某已知 r）。
- A1 (协变量矩条件)：\(\mathbb{E}\|\mathbf{X}\|_\infty^2<\infty\)、\(\mathbf{X}\) 各分量有界或轻尾。
- A2 (误差条件)：误差 ε_i 的条件密度 f_i(·)（给定 X_i）在 0 附近连续且 >0（这是分位数回归非光滑损失连接的通用假设）；f 在 0 附近为常数（简化版）或至少有界。
- A3 (设计矩阵平凡态)：设计矩阵 \(\sum_i \mathbf{X}_i \mathbf{X}_i^\top\)（解释见下 FOG）的最小特征值 ≥ c > 0（半正定非退化）。
- A4 (TT 映射光滑性)：TT 分解映射从核心张量簇 \(G_1, G_2, G_3\) 到系数张量 B 的雅可比矩阵满秩。
- A5 (惩罚项可均匀化)：涉及 TV 惩罚的超参数 λ 以随 n 增加的速率调节。
相对已有文献（SH2020 CP 分位数回归），本文的强化假设是 A4（TT 分解非退化）。弱点：论文假设 TT 秩已知（r0），不能自动选择秩或处理未知秩的情况（CP 方法也有秩选择问题）。
对比全张量惩罚法：这里假设低秩结构，不假设系数张量在去掉惩罚下的稀疏性 —— 这是个关键放松（全张量法要求大量系数为零或很小）。

主要结果¶

Theorem 1（相合性）：在 A1–A4 下，TT 估计量 \(\hat{\mathbf{B}}^{TT}\) 满足：
\[\|\hat{\mathbf{B}}^{TT} - \mathbf{B}_0\|_F = O_p\left( \sqrt{\frac{r^2 d_\text{TT} \log d_\text{TT}}{n}} \right)\]
其中 d_TT = d1×r1^2 + d2×r2^2 + d3×r3^2（略写细节）。直观：估计速度显著小于无约束的 \(O_p(d^{1/2}/n^{1/2})\) —— 当 d 巨大时这式退至可用。证明依赖 M-估计在 TT 流行上的收敛速率（利用类似超立方体覆盖的度量熵）。
Theorem 2（渐近正态性）：在更严格的条件下（包括密度 f(0) > 0，A4 满秩），\(\hat{\mathbf{B}}^{TT}\) 经过线性尺度化的一维投影表现出渐近正常（Cramér–Wald device）。具体形式：
\[\sqrt{n} \left( \mathcal{P}_0(\hat{\mathbf{B}}^{TT} - \mathbf{B}_0) \right) \to N(0, \tau(1-\tau)\mathbf{D}^{-1}\boldsymbol{\Sigma})\]
其中 P_0 是投影到 TT 正切空间的正交投影矩阵。这是经典分位数回归在高维低秩设定 AA 的衍生版本。
Theorem 3（TV 惩罚收敛率）：当广义 TV 惩罚加入后（即 Optimization Problem: min_{TT 结构} ρ_τ(...) + λ*norm_TV(B)），在 λ 适当衰减下，收敛率近似于 Theorem 1 加额外光滑项：\(O_p(r^2 d_{TT} (\log d_{TT})/[n] + λ^2)\)。
解决的技术难点：
1. 设计矩阵在 TT 流行上的流形切空间维数巨大（~ d_TT），需要控制覆盖数且向不违背 Check 函数光滑性。办法是使用此处 A3 的低层假设：X 生成 Gram 矩阵的一致最小特征值。
2. 在 TV 惩罚项的组合，TT 映射破坏了镶嵌（Tamb）的复合优化性质，工具箱用“光滑化的梯度和次梯度条件”证明。

证明路线与技术技巧（理论型必写）¶

整体路线（3-5 步逻辑主干）
1. 重写 M-估计：目标：\( \hat{\mathbf{B}} = \arg\min_{\mathbf{B} \in \mathcal{M}_{\text{TT}}} \sum_i \rho_\tau(Y_i - \langle \mathbf{X}_i, \mathbf{B} \rangle) \)（无惩罚）/ 或 TV 惩罚。转为在真值 B0 附近的局部上分析，借 Check 函数一阶展开（近似子高斯性）。
2. 度量熵估计：TT-系数张量流行 M_TT（秩 ≤ r）的覆盖数 ≈ (C/d_TT)^d_TT，这是由经典结果（Oseledets, 2011 引理）推导。利用此量纲+经验过程不等式，控制“最大经验差”。
3. 分隔稳定不等式：定义 ψ(δ) = sup_{||B-B0|| ≤ δ} ∣∑ ρ_τ(Y_i - )/n — ∑ ρ_τ(Y_i - )/n∣，证明其为严格的类二次型：下界 ≥ cδ^2 - Op(√[d_TT/n]δ)。从而得到相合速率√(d_TT/n)。
4. 从一致收敛到渐近正态（Theorem 2）：绕出局部得分函数（subgradient of check）。用 Bahadur 表示：\( \sqrt{n}( \hat{\mathbf{B}}^{TT} − \mathbf{B}_0) \approx − \frac{D^{-1}}{\sqrt{n}} \sum_i \psi_{\tau}(Y_i−\langle\mathbf{X}_i,\mathbf{B}_0\rangle)X_i\)。尾项用凸性引理控制为 o_p(1)。这是一个经典方法（He & Shao (1996) / Koenker (2005)），但在 TT 切空间满秩假设下需要论证。
5. TV惩罚添加：引入近似梯度下界（投影梯度的几乎处处不等式）；使得收敛率额外叠加 λ 项，然后优化 λ〜√(d_TT/(n r^2 d_{TT})?), 有限范围获得无惩罚几乎一致的收敛率。
关键跳跃点：
- 首次展示：TT 分解的有效降维（普通低秩假设不能重建 X）没有被破坏，因为 X 的 Gram 矩阵一致非奇异（A3）。这一条件在图像数据（MRI 脑区差异极大）中可能不成立（脑区做特征共线），是论文的一条隐晦假定。
- Bahadur 表示的技术实现：需要精确化剩余项（remainder）\(R_n\) 的阶为 \(o_p(1/\sqrt{n})\)——这一般需要稍强的二阶光滑条件（density f 连续 >0）。论文假设 f(0) 有限且 >0，是符合标准。不过，Check 函数的非线性扩展在重叠 TV 惩罚的复合场景有所困难：必须用更精确的局部二阶展开再 back-off。
技术技巧点名：
- 经验过程与集中不等式（Chaining / bracketing）— 用在度量熵的覆盖控制中。
- 凸性论证（Convexity arguments）— 保证相合性推导中全局最优解靠近局部最小值。
- ALS（交替最小二乘）— 分位数回归的优化方法，对每个子问题用线性分位回归求解（这个对原论文是方法，不是证明的一部分）。
- 总变分投影梯度— 在数值结果中用于稀疏光滑图形构建。

真实例子与应用¶

实验目的：展示 TT 估计在实测数据的行为，以及相比 CP 和 TV-only 的优越性能。
数据：HCP（Human Connectome Project）公共 MRI 数据。约 500 个被试；每个被试有 3D 结构 MRI（T1 加权像），总结为 113×137×113 张量；结果变量为 Fluid Intelligence（智商分数）。
方法实施细节：
- 用原始 T1 全脑张量（没有裁剪），只有 1 个通道（灰质）。
- 先对协变量 X_i 尺度归一化（零均值单位方差）。
- 15 倍交叉验证确定 TT 秩 r（范围 1-15 扫），以及 TV 惩罚 λ（从 0.01 到 0.5）。
- TV 惩罚：使用各阶之间的差分渐近似空间平滑，无损完全用 3D 全变分形式。
- 优化：TT-ALS + 针对 Check 函数的内循环线性分位回归（用 quantreg R 包）。
- 对比方法：① 全张量 Lasso（体素级 L1），② CP-秩分位数回归–SH2020 方法的 re- implement，③ TV-only（无低秩的张量分位数回归+TV）。
结果：
- 数值：预测误差（PINBALL 损失与 MAE）在 9 个分位数水平（0.1~0.9）上的平均。TT-TV 方法是最优的，尤其在 τ=0.1, 0.9（极端分位）超其它方法 20%~40%。
- 系数空间图：展示了 TT 近似的系数张量；CP 方法的结构在许多脑区出现剧烈震荡（不连续变化），反映出其秩不稳定问题。
- 可解释性：TV 惩罚呈现出明显分块结构：顶叶、额叶的积极效应区清晰，而 CP 和全拉索产生的图几乎没有可解释模式。
- 计算成本：TT 分解的优化平均耗时 2.5 分钟（单次 ALS 迭代），CP 法平均 7 分钟且未分析优化稳定。全 Lasso 因体素规模过大而不可行，仿真数据中用了维数远较小的 alterego 设定。
- 这个例子验证的核心：① TT 分解在 MRI 三维结构中的高效降维和参数保存；② TV 使用在解释性上的增强；③ 在有限样本（n≈500）仍可获得可信的系数估计。

🔎 结论是否比证明窄？¶

是的：Theorem 1 与 Theorem 2 是在已知 TT 秩的设定下严格证明的（论文把 r 视为外部已知常数、不将秩选择纳入误差分析）。但在结论（abstract）中，作者在讨论方法时似乎暗示自动秩选择也被整合（未严格处理，只是在实施时用了交叉验证选秩 r0）。这个间隙很重要：实际应用中 r0 未知，具有选择 r 带来的额外误差。此外，Theorem 3 的收敛率依赖于 λ ~ d_TT/n，但没有证明最优 λ 选择的自适应性。
此外：应用实验中用交叉验证选择秩，但没有从证明上说明交叉验证下的收敛率。

四、开放问题（点到为止）¶

有限样本下检验、置信区间？：论文建立了渐近正态性，但具体构造置信区间（需估计渐近方差中的 D 矩阵）在现实中面临很大困难（因为 D = E[f(0|X) X X^T] 在体素张量中的估计非平凡）。本文没有提出具体的 test / CI construction 方法。这是未来直接在应用中使用该理论时必须踏过的门槛。扎根点：Theorem 2 的陈述后 No practical algorithm for D inversion 被提及。
TT 秩的刻画与推断：当真实系数 B0 不在严格 TT 秩≤ r 下时（实践中很可能），本文给出的收敛率会崩坏（bias 不衰减）。现在并没有刻画偏差与秩可能的衰减关系的扩展结果。这是一个自然的 open gap：在“近似低秩”假设下，TT 估计量还能以多快收敛？（可类比 Bishop & Yu (2022) 的近似矩阵的低秩回归观点）。扎根点：Section 3 Assumption A0 的 strict low-rank 假设是必须的。
应用场景的拓展方向：本文只处理了 3 阶 MRI，但很多神经科学数据为更高阶（4D、5D：time + 空间、被试阶段等），TT 分解的阶数可扩展顺序常变得很大。TT 理论框架是以阶数做线性的，但获取超过 3 维的近似情况——还需考虑 cross-over 估计量。
检验模型假设的方法：哪一些协变量矩条件（A3）和密度条件在真实数据中能 hold 住？实证测试有利于后期。目前论文未提供任何模型假设诊断方法。这为将工具推广到其他领域制造了一点障碍页。

最后提醒：若要确认非线性 TTL（non-linear）是否真为 gap，去读近 5 篇标量张量回归工作的 intro → 凡少了的点可能都是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub