跳转至

Tensor quantile regression with low-rank tensor train estimation

作者: Zihuan Liu, Cheuk Yin Lee, Heping Zhang
来源: Annals of Applied Statistics
主题: 统计计算 / 算法
相关性: 8/10
机构绿灯: Yale University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/23-aoas1835


一、领域脉络与小综述

这个方向是什么

这篇论文解决的子问题是标量-张量回归(Scalar-on-Tensor Regression),在高维统计与神经影像学交叉中非常活跃。根本挑战是:给定一个高维张量协变量(如 3D MRI 脑图像,体素数量可达数百万),要预测一个标量结果(如智商分数),同时估计系数张量。这使得天然的估计量(全张量最小二乘或分位数回归)维度与体素数量相当,远远超出样本量——必须施加结构性降维(低秩分解、稀疏性、空间平滑性)来使估计可行。当前成熟度处于“方法层出不穷但理论松动”的阶段:低秩假设(CP、Tucker)已有较多工作,但张量列(TT)分解在这个回归框架下的渐近理论是本文填补的。方法的理论(一致性、渐近正态性)已经给出,但关于计算复杂度或statistical-computational tradeoff 的刻画,在此方向内几乎空白。

发展脉络(history)

  • 奠基工作:高维分位数回归。Koenker (2005) 等人系统建立了分位数回归的 M-估计理论。在低维情形下的渐近正态性、Bahadur 表示已成为经典。高维(p ≫ n)分位数回归的规律由 Belloni & Chernozhukov (2011) 在 L1 惩罚下建立,为标量-张量回归提供了理论框架。
  • 主要进展:从向量到张量回归。Zhou, Li & Zhu (2013) 提出了广义张量回归模型(GTR),首次使低秩假设(CP 与 Tucker) 进入统计回归语境。这个方向在成像数据分析中迅速积攒热度;Hu & Allen (2015) 展示了 CP 分解能用于标量-图像回归,并讨论了变量选择。
  • 当前 frontier(按引用句定位)

    • CP 分解下的分位数回归:SH2020 (Sun & Hu, 2020) 实质上已经提出过基于 CP 秩的分位数张量回归,是本文的直接竞争路线。本文指出其“优化困难、稳定性差”(引用句推断),因为 CP 秩最小化是非凸的、且秩选择不稳定。
    • Tucker 分解下的回归:FTHC2018 (Fan et al., 2018) 将 Tucker 秩引入张量回归,结合 Lasso 惩罚。本文认为:Tucker 分解对高维张量仍可能会保留较大维度的核心张量,在 MRI 这种极端高维场景中未必有效。
    • 张量列(TT)分解的流行:TT 分解在张量填充(Oseledets, 2011)中高效,近年被引入回归。本文是第一个(作者 claim)将 TT 分解用于分位数回归,并同时建立渐近理论的工作。
    • 惩罚化总变分估计:在张量领域内,含全变分(TV)正则化的平滑惩罚已在图像去噪(如总变分 Lasso)中普遍使用,但与其结合低秩 TT 结构、再推导收敛率的,本文是针对性的工作。
  • 本文的位置:在处理 MRI 场景的标量-张量回归时,作者 claim 本文“更稳定和更高效” compared to CP 路线;加入了泛化 TV 惩罚来利用空间结构;在 mild 条件下建立了 TT 估计量的相合性、渐近正态性、TV 正则下的收敛速度。这使其在同方向中,理论深度是一个显著进步,但方法设计上更多是 k 已知假设 + 已知结构的组合优化。

子线索聚类

这些文献大致落在 2-3 条子线索: 1. 全张量 + 惩罚:直接对维数 d1×d2×d3 的系数张量用 L1 或 TV 惩罚进行点估计。在体素极多时极其昂贵,几乎无法工程实施。仅限于很小张量(如 8×8×8 = 512 变量)的试验。 2. CP 分解 + 回归:用 CP 分解(p 个秩 1 项和)把系数张量 d↑ 的参数降为 p×(d1+d2+d3)。优势是参数与维数线性正比;缺点是 CP 秩选择极其敏感,而且 CP 分解本身优化困难、非凸、陷于局部解。关键参考:SH2020 是本文标题提及的对手。 3. TT 分解 + 回归:用 TT 分解(一系列秩转移张量)把 d↑ 的参数降为 O(d×r^2 × 阶数),r 是 TT 秩。本文属于此簇。从已有文献看,这种分解对高阶张量特别有效,且比 CP 更稳定;但在分位数回归中本簇极少——据作者所言,这是引入。 4. 结构假设与去噪:一些论文(如 M2023,作者仅在 introduction 简单提及作为 alternative)用全变分或总变分惩罚直接施加于点估计。它不需低秩结构,但前提假设是系数张量本身的分段光滑——这与本文的 low-rank TT 结构 account 的假设(系数可以存在于低秩流形内)是互补的,但在同一数据场景可能相互重叠。

核心问题与已知瓶颈

  • 维度灾难与低秩近似如何平衡? 在 MRI 场景中,单一的 L1 惩罚不可能处理;只有通过准确的低秩假设才能有效降维。但这个假设的 misspecification 代价如何(bias-variance tradeoff)?目前论文只给出了一致性(所以设定是 GT = B0 严格放入 TT 族);misspecification 下的行为没触及。
  • 分位数回归的张量版本,更难的可解性:分位数回归的非光滑 Check 损失函数已经让高维理论(Belloni & Chernozhukov, 2011)添上“度量次高斯界”等工具;加在张量上更是将参数数量从 p 水平提升到 d↑,现有框架根本撑不住(每增加一阶,常数爆炸)。这就是为什么近几年推进点全是同一种:低秩分解 + 损失函数构造 + 光滑下界理论。其中CP vs TT 哪个确实更优尚无严格 Mathematics 证明——双方都比较实验。
  • 计算复杂度 vs 识别确定性:CP 秩最小化被广泛认为 NP-难,但其秩 1 分量的数量控制被假设为严格已知。TT 分解的计算相对可处理(用正交迭代(Oseledets, 2011)),但它面临非线性高维搜索——在分位数损失下要同时优化分解与损失,仍然是严重的非凸。本文用了一种类似交替最小化(ALS)的策略,但并未严格证明其收敛至全局。对于计算复杂度的问题,在此方向几乎是空白——作者也没有 tackle。
  • 惩罚结构中,全变分是否需要低秩? TV 惩罚与 low-rank 结构相互促进还是相互制约?作者仅实验来证明组合更好,并无理论证明二者叠加的最优性。

⚠️ 作者的 framing(必须标注)

作者把 gap frame 成:“TT 分解在分位数回归中从未被系统使用与理论证明”——这使它成为“显然的下一步”。在 framing 中,CP 被明确淡化:称其“优化困难、稳定性差”(引用句推断,见 SH2020 的定位);而 TV 惩罚是一种增加效果的额外选项,不是核心 claim。值得注意的是,作者完全回避了另一个竞争者——Rao et al. (2021) 等提出的基于 tensor response regression(张量响应)的模式,这个方向完全被排除,尽管它也是 brain-wide association 轨道上的主流。此外,未引用 Oseledets (2011) 原文的任何 stat 理论分析(仅引用为 decomposition source),也就是说对 TT 的统计健全性(为什么秩 r 收敛在这种模型下合理)未做讨论。

张力:未见明显对立引用——所有引用一致支持低秩假设和 TV 平滑有益倾向。

二、最核心、最简单的例子 / 数学问题

第一步:符号 / 模型 / 可观测数据交代

  • 符号体系

    • \(Y\):标量结果(如智商得分)—— 可观测随机变量。
    • \(\mathbf{X}\):d1×d2×d3 维张量(3阶 MRI 体素数据)—— 可观测协变量,体素很多(如数百至百万)。
    • \(\mathbf{B}\):d1×d2×d3 维系数张量—— 不可观测的参数(每个体素的回归系数)。这是需要估计的核心对象。
    • \(\tau\):分位数水平(0<τ<1)—— 研究者选定,部分分析中可假设为固定常数。
    • \(n\):样本量(观测数)。在 MRI 数据中通常很小(约 100~500)。
    • \(d = d_1+d_2+d_3\):各阶的长度尺寸。典型 MRI 约 113×137×113(体素数量级 10^6)。
    • TT 分解:QTT (Quantized Tensor Train) 把 d1×d2×d3 张量 \(\mathbf{B}\) 表示为一系列 3 个小核心张量:\(\mathbf{G}_1, \mathbf{G}_2, \mathbf{G}_3\)。符号略。
    • \(r = (r_0, r_1, r_2, r_3), (r_0=r_3=1)\):TT 秩 —— 核心参数,通常很小(如 r=5)。关键:通过 r 控制 Tensor 的表达复杂度。
    • QT = (TT decomposition specification):将 \(\mathbf{B}\) 完全由核心张量簇 \(\{\mathbf{G}_k\}\) 表示,参数总数从 ∏dk 降至 O(d×r^2)。
    • \(\rho_{\tau}(u) = u(\tau - \mathbb{I}(u<0))\):分位数损失函数(check function),非光滑、凸。
    • \(\boldsymbol{\beta} = \mathrm{vec}(\mathbf{B}) \in \mathbb{R}^{d_1d_2d_3}\):全系数向量。
    • \(\mathbf{X}_i\) 为第 i 个观测的协方差张量。
    • <·,·> 表示张量内积(Frobenius):对于实张量相同尺寸的 \(\mathbf{A}, \mathbf{B}\) = ∑{i1,i2,i3} A{i1,i2,i3} B_{i1,i2,i3}。
  • 模型:标量-张量分位数回归模型:

    \[Q_{Y|\mathbf{X}}(\tau|\mathbf{x}) = \langle \mathbf{x}, \mathbf{B} \rangle\]
    或者更具体的:\(Y_i = \langle \mathbf{X}_i, \mathbf{B} \rangle + \varepsilon_i\),其中随机误差的 τ-分位数为 0(即 P(ε≤0)=τ)。无其他分布假设(不需要高斯性)。关键是:系数张量 \(\mathbf{B}\) 满足 TT 秩 ≤ r(严格的 low-rank 假设)。

  • 可观测的数据:联合 i.i.d. 样本 \(\{(Y_i, \mathbf{X}_i)\}_{i=1}^n\),Y 标量,\(\mathbf{X}_i\) 是 3 阶张量图像。

  • 不可观测但需要估计的:关心的参数 \(\mathbf{B}\) 全部不可直接观测;需要通过分位数损失和 TT 假设去识别估计。
  • 识别依赖:TT 秩 r 假设为已知或通过交叉验证固定(论文以写成“已知 r0”为识别条件——这是很关键的 arXiv 假设)。

第二步:最小内核

最简特例:考虑最简单的非退化设定——一个 2×2×2 张量(d1=d2=d3=2),TT 秩 r=1

  • 全张量:\(B_{111}, B_{112}, B_{121}, B_{122}, B_{211}, ..., B_{222}\) 共 8 个未知的回归系数。
  • TT 秩=1 时,\(\mathbf{B}\) 由三个向量(核心张量)的按模式乘积快速得到:\(\mathbf{B} = \mathbf{g}_1 \circ \mathbf{g}_2 \circ \mathbf{g}_3\),其中 \(\mathbf{g}_1 \in \mathbb{R}^2, \mathbf{g}_2 \in \mathbb{R}^2, \mathbf{g}_3 \in \mathbb{R}^2\)(共 6 个自由参数 < 8 的全张量)。
  • 在这个特例下,要估计的是:极小化分位数损失 \(\min_{g_1,g_2,g_3} \sum_{i=1}^n \rho_\tau(Y_i - \langle \mathbf{X}_i, \mathbf{g}_1\circ\mathbf{g}_2\circ\mathbf{g}_3 \rangle)\)
  • 最小内核难点:模型是非线性的(因为分解的结构引入乘积),直接最优化很困难。同时非光滑损失包含 Check function 不可导,让标准梯度下降不能直接应用。
  • 本文的核心思路:利用 TT-ALS(交替最小二乘,全名“TT alternating linear scheme”)框架平滑该问题:固定 g2,g3 → 求 g1 的优化是线性分位数回归(8个参数但看作线性);固定 g1,g3 → 求 g2 是线性分位数回归;……,交替优化。通过这一手段,原始高维非凸问题被拆为多个低维凸优化问题。这很像经典的分位回归高维 Lasso 可写作子问题可解的模式——但在物理内核的关键:为什么 4 个变量的凸子问题仍然有效率?因为左边的设计矩阵 X 固定,权重可变(但 TT 的秩保证了每一轮的参数量都很小)。
  • 信号困难性解释:确实没有控制分布假设,仅靠 TT 期中线性隔开求积分、再由 Check function 的 Lipschitz 性质去计算均方误差。

三、这篇论文具体做了什么

三句话

  1. 研究了什么问题:在标量-张量分位数回归框架下(MRI 图像预测智商的典型任务),系数的全张量维度过高,无法直接估计;本文引入 TT 分解对其施加低秩结构,极大减少参数,并叠加广义 TV 惩罚以利用空间光滑性、提高可解释性。
  2. 核心工具/方法:TT 分解 + TT-ALS 优化梯度 → 分位数损失下的估计;广义 Lasso(Total Variation variant)在 TT 分解上;渐近理论用 M-估计的通用框架(利用 Check 函数子是 Lipschitz、LLN 与 CLT),并用 Bahadur 表示与非光滑损失的引理来建立 TT 估计量的渐近正态性。
  3. 主要结论:在适度条件下(分位数随机误差、设计张量的弱矩条件),基于 TT 的估计量是相合的,且渐近正态;TV 惩罚下给出了收敛速度;在大量模拟与真实 HCP MRI 数据上经验性地证实了优越于 CP 竞争模型与全张量 L1。

关键设定与假设

  • 已设定记号下的扩展假设(论文 Section 3, Assumption (A1)-(A5)的会义)

    • A0:系数张量真实值 \(\mathbf{B}_0\) 是严格 TT 秩 ≤ r 的(某已知 r)。
    • A1 (协变量矩条件):\(\mathbb{E}\|\mathbf{X}\|_\infty^2<\infty\)\(\mathbf{X}\) 各分量有界或轻尾。
    • A2 (误差条件):误差 ε_i 的条件密度 f_i(·)(给定 X_i)在 0 附近连续且 >0(这是分位数回归非光滑损失连接的通用假设);f 在 0 附近为常数(简化版)或至少有界。
    • A3 (设计矩阵平凡态):设计矩阵 \(\sum_i \mathbf{X}_i \mathbf{X}_i^\top\)(解释见下 FOG)的最小特征值 ≥ c > 0(半正定非退化)。
    • A4 (TT 映射光滑性):TT 分解映射从核心张量簇 \(G_1, G_2, G_3\) 到系数张量 B 的雅可比矩阵满秩。
    • A5 (惩罚项可均匀化):涉及 TV 惩罚的超参数 λ 以随 n 增加的速率调节。
  • 相对已有文献(SH2020 CP 分位数回归),本文的强化假设是 A4(TT 分解非退化)。弱点:论文假设 TT 秩已知(r0),不能自动选择秩或处理未知秩的情况(CP 方法也有秩选择问题)。

  • 对比全张量惩罚法:这里假设低秩结构,不假设系数张量在去掉惩罚下的稀疏性 —— 这是个关键放松(全张量法要求大量系数为零或很小)。

主要结果

  • Theorem 1(相合性):在 A1–A4 下,TT 估计量 \(\hat{\mathbf{B}}^{TT}\) 满足:

    \[\|\hat{\mathbf{B}}^{TT} - \mathbf{B}_0\|_F = O_p\left( \sqrt{\frac{r^2 d_\text{TT} \log d_\text{TT}}{n}} \right)\]
    其中 d_TT = d1×r1^2 + d2×r2^2 + d3×r3^2(略写细节)。直观:估计速度显著小于无约束的 \(O_p(d^{1/2}/n^{1/2})\) —— 当 d 巨大时这式退至可用。证明依赖 M-估计在 TT 流行上的收敛速率(利用类似超立方体覆盖的度量熵)。

  • Theorem 2(渐近正态性):在更严格的条件下(包括密度 f(0) > 0,A4 满秩),\(\hat{\mathbf{B}}^{TT}\) 经过线性尺度化的一维投影表现出渐近正常(Cramér–Wald device)。具体形式:

    \[\sqrt{n} \left( \mathcal{P}_0(\hat{\mathbf{B}}^{TT} - \mathbf{B}_0) \right) \to N(0, \tau(1-\tau)\mathbf{D}^{-1}\boldsymbol{\Sigma})\]
    其中 P_0 是投影到 TT 正切空间的正交投影矩阵。这是经典分位数回归在高维低秩设定 AA 的衍生版本。

  • Theorem 3(TV 惩罚收敛率):当广义 TV 惩罚加入后(即 Optimization Problem: min_{TT 结构} ρ_τ(...) + λ*norm_TV(B)),在 λ 适当衰减下,收敛率近似于 Theorem 1 加额外光滑项:\(O_p(r^2 d_{TT} (\log d_{TT})/[n] + λ^2)\)

  • 解决的技术难点

    1. 设计矩阵在 TT 流行上的流形切空间维数巨大(~ d_TT),需要控制覆盖数且向不违背 Check 函数光滑性。办法是使用此处 A3 的低层假设:X 生成 Gram 矩阵的一致最小特征值。
    2. 在 TV 惩罚项的组合,TT 映射破坏了镶嵌(Tamb)的复合优化性质,工具箱用“光滑化的梯度和次梯度条件”证明。

证明路线与技术技巧(理论型必写)

  • 整体路线(3-5 步逻辑主干)

    1. 重写 M-估计:目标:\( \hat{\mathbf{B}} = \arg\min_{\mathbf{B} \in \mathcal{M}_{\text{TT}}} \sum_i \rho_\tau(Y_i - \langle \mathbf{X}_i, \mathbf{B} \rangle) \)(无惩罚)/ 或 TV 惩罚。转为在真值 B0 附近的局部上分析,借 Check 函数一阶展开(近似子高斯性)。
    2. 度量熵估计:TT-系数张量流行 M_TT(秩 ≤ r)的覆盖数 ≈ (C/d_TT)^d_TT,这是由经典结果(Oseledets, 2011 引理)推导。利用此量纲+经验过程不等式,控制“最大经验差”。
    3. 分隔稳定不等式:定义 ψ(δ) = sup_{||B-B0|| ≤ δ} ∣∑ ρ_τ(Y_i - )/n — ∑ ρ_τ(Y_i - )/n∣,证明其为严格的类二次型:下界 ≥ cδ^2 - Op(√[d_TT/n]δ)。从而得到相合速率√(d_TT/n)。
    4. 从一致收敛到渐近正态(Theorem 2):绕出局部得分函数(subgradient of check)。用 Bahadur 表示:\( \sqrt{n}( \hat{\mathbf{B}}^{TT} − \mathbf{B}_0) \approx − \frac{D^{-1}}{\sqrt{n}} \sum_i \psi_{\tau}(Y_i−\langle\mathbf{X}_i,\mathbf{B}_0\rangle)X_i\)。尾项用凸性引理控制为 o_p(1)。这是一个经典方法(He & Shao (1996) / Koenker (2005)),但在 TT 切空间满秩假设下需要论证。
    5. TV惩罚添加:引入近似梯度下界(投影梯度的几乎处处不等式);使得收敛率额外叠加 λ 项,然后优化 λ〜√(d_TT/(n r^2 d_{TT})?), 有限范围获得无惩罚几乎一致的收敛率。
  • 关键跳跃点

    • 首次展示:TT 分解的有效降维(普通低秩假设不能重建 X)没有被破坏,因为 X 的 Gram 矩阵一致非奇异(A3)。这一条件在图像数据(MRI 脑区差异极大)中可能不成立(脑区做特征共线),是论文的一条隐晦假定。
    • Bahadur 表示的技术实现:需要精确化剩余项(remainder)\(R_n\) 的阶为 \(o_p(1/\sqrt{n})\)——这一般需要稍强的二阶光滑条件(density f 连续 >0)。论文假设 f(0) 有限且 >0,是符合标准。不过,Check 函数的非线性扩展在重叠 TV 惩罚的复合场景有所困难:必须用更精确的局部二阶展开再 back-off。
  • 技术技巧点名
    • 经验过程与集中不等式(Chaining / bracketing)— 用在度量熵的覆盖控制中
    • 凸性论证(Convexity arguments)— 保证相合性推导中全局最优解靠近局部最小值
    • ALS(交替最小二乘)— 分位数回归的优化方法,对每个子问题用线性分位回归求解(这个对原论文是方法,不是证明的一部分)。
    • 总变分投影梯度— 在数值结果中用于稀疏光滑图形构建

真实例子与应用

  • 实验目的:展示 TT 估计在实测数据的行为,以及相比 CP 和 TV-only 的优越性能。
  • 数据:HCP(Human Connectome Project)公共 MRI 数据。约 500 个被试;每个被试有 3D 结构 MRI(T1 加权像),总结为 113×137×113 张量;结果变量为 Fluid Intelligence(智商分数)。
  • 方法实施细节
    • 用原始 T1 全脑张量(没有裁剪),只有 1 个通道(灰质)。
    • 先对协变量 X_i 尺度归一化(零均值单位方差)。
    • 15 倍交叉验证确定 TT 秩 r(范围 1-15 扫),以及 TV 惩罚 λ(从 0.01 到 0.5)。
    • TV 惩罚:使用各阶之间的差分渐近似空间平滑,无损完全用 3D 全变分形式。
    • 优化:TT-ALS + 针对 Check 函数的内循环线性分位回归(用 quantreg R 包)。
    • 对比方法:① 全张量 Lasso(体素级 L1),② CP-秩 分位数回归–SH2020 方法的 re- implement,③ TV-only(无低秩的张量分位数回归+TV)。
  • 结果

    • 数值:预测误差(PINBALL 损失与 MAE)在 9 个分位数水平(0.1~0.9)上的平均。TT-TV 方法是最优的,尤其在 τ=0.1, 0.9(极端分位)超其它方法 20%~40%。
    • 系数空间图:展示了 TT 近似的系数张量;CP 方法的结构在许多脑区出现剧烈震荡(不连续变化),反映出其秩不稳定问题。
    • 可解释性:TV 惩罚呈现出明显分块结构:顶叶、额叶的积极效应区清晰,而 CP 和全拉索产生的图几乎没有可解释模式。
    • 计算成本:TT 分解的优化平均耗时 2.5 分钟(单次 ALS 迭代),CP 法平均 7 分钟且未分析优化稳定。全 Lasso 因体素规模过大而不可行,仿真数据中用了维数远较小的 alterego 设定。

    • 这个例子验证的核心:① TT 分解在 MRI 三维结构中的高效降维和参数保存;② TV 使用在解释性上的增强;③ 在有限样本(n≈500)仍可获得可信的系数估计。

🔎 结论是否比证明窄?

  • 是的:Theorem 1 与 Theorem 2 是在已知 TT 秩的设定下严格证明的(论文把 r 视为外部已知常数、不将秩选择纳入误差分析)。但在结论(abstract)中,作者在讨论方法时似乎暗示自动秩选择也被整合(未严格处理,只是在实施时用了交叉验证选秩 r0)。这个间隙很重要:实际应用中 r0 未知,具有选择 r 带来的额外误差。此外,Theorem 3 的收敛率依赖于 λ ~ d_TT/n,但没有证明最优 λ 选择的自适应性
  • 此外:应用实验中用交叉验证选择秩,但没有从证明上说明交叉验证下的收敛率

四、开放问题(点到为止)

  1. 有限样本下检验、置信区间?:论文建立了渐近正态性,但具体构造置信区间(需估计渐近方差中的 D 矩阵)在现实中面临很大困难(因为 D = E[f(0|X) X X^T] 在体素张量中的估计非平凡)。本文没有提出具体的 test / CI construction 方法。这是未来直接在应用中使用该理论时必须踏过的门槛。扎根点:Theorem 2 的陈述后 No practical algorithm for D inversion 被提及。

  2. TT 秩的刻画与推断:当真实系数 B0 不在严格 TT 秩≤ r 下时(实践中很可能),本文给出的收敛率会崩坏(bias 不衰减)。现在并没有刻画偏差与秩可能的衰减关系的扩展结果。这是一个自然的 open gap:在“近似低秩”假设下,TT 估计量还能以多快收敛?(可类比 Bishop & Yu (2022) 的近似矩阵的低秩回归观点)。扎根点:Section 3 Assumption A0 的 strict low-rank 假设是必须的。

  3. 应用场景的拓展方向:本文只处理了 3 阶 MRI,但很多神经科学数据为更高阶(4D、5D:time + 空间、被试阶段等),TT 分解的阶数可扩展顺序常变得很大。TT 理论框架是以阶数做线性的,但获取超过 3 维的近似情况——还需考虑 cross-over 估计量。

  4. 检验模型假设的方法:哪一些协变量矩条件(A3)和密度条件在真实数据中能 hold 住?实证测试有利于后期。目前论文未提供任何模型假设诊断方法。这为将工具推广到其他领域制造了一点障碍页。

最后提醒:若要确认非线性 TTL(non-linear)是否真为 gap,去读近 5 篇标量张量回归工作的 intro → 凡少了的点可能都是机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论