Sparse concordance‐based ordinal classification¶

作者: Yiwei Fan, Jiaqi Gu, Guosheng Yin
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12606

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理的是序数分类（ordinal classification） 问题。与普通的多类分类不同，序数分类的标签 \(Y \in \{1, 2, \dots, K\}\) 具有自然顺序（如“差/中/好”或“疾病严重程度 I/II/III”），但类别间的距离没有定义，因此不能当作线性回归处理，也不应忽略顺序信息将其退化为无序多类。这个子方向要回答的根本问题是：如何充分利用标签的顺序结构，同时保持对类别间隔未知的鲁棒性，来构建预测规则并进行变量选择？ 当前成熟度属于有明确标准方法的领域（累积逻辑 / probit 模型、比例优势假设、有序阈值模型），但非参数与高维稀疏设定仍属活跃前沿。

发展脉络（history）¶

根据本文 intro 引用的工作，这条线可以串成：

奠基工作：
Anderson (1984) 提出了比例优势模型（proportional odds model），奠定了序数回归的参数基础。核心思想：通过累积概率的 logit 链接，假设不同截距但共用斜率系数。这是最常用的参数方法，但强假设“各序数类别的特征效应成比例”在实践中常被违背（本文引用，批评其假设过强）。
Harrell et al. (1998) 以及Engel (2010) 等发展了基于累积链接的序数模型推广（tobit、cloglog 等），但这些仍落在线性/参数框架内，对非线性结构及高维变量选择缺乏处理。
非参数与基于排名的进展：
Cardoso & Costa (2007) 将“序数分类” frame 成排序学习（learning to rank）：目标是预测实例的相对顺序而非绝对标签。这启发了本文的 concordance 思想。
Waegeman et al. (2008) 讨论了非参数序数回归的查准与查全（precision-recall） 框架，但未解决变量选择与高维问题。
Kendall’s tau 与 Goodman-Kruskal’s gamma 等顺序关联测度（Agresti, 2010）一直是衡量序数预测一致性的工具，但作为损失函数优化困难，因为它是不可微的（本文作者指出这个问题，是本文的技术动机之一）。
正则化与高维扩展：
Bondell (2005)、Rosipal (2006) 等引入了变量选择思想（LASSO, elastic net）到序数模型中，但主要局限在线性比例优势框架，且优化基于不可微的 \(L_1\) 惩罚 + 累积 logit，需要专门求解器。
Price et al. (2019) 严格证明了在序数分类中，比例优势假设下 oracle 变量选择一致性的条件。
当前 frontier 与本文位置：现有方法要么依赖强参数假设（比例优势 model），要么虽然非参数但忽略变量选择（无形中牺牲了稀疏性/可解释性），要么将序数分类退化成二值化处理（一对多/等间隔），丢失顺序结构。本文的定位是：提出一个在不假设比例优势、不参数化特征效应的前提下，通过平滑化 concordance 函数来直接最大化预测一致性，并同时完成变量选择（penalized）与最优阈值选择（loss minimization）。这在已有文献中未见直接对应。

子线索聚类¶

被引文献大致分布在三条子线索：

参数序数模型（强假设）：
代表：Anderson (1984), Harrell et al. (1998), Agresti (2010) —— 累积链接模型族，带比例优势假设或其它链接函数。
特点：解释性强、计算简单；但假设不可检验，且非线性/非参数拓展困难。
非参数与排序学习：
代表：Cardoso & Costa (2007), Waegeman et al. (2008)、Li & Lin (2007) —— 尝试避免参数假设，通过 rank-based 或 concordance 标准直接优化。
特点：更灵活，但损失函数不可微，优化困难；变量选择通常未纳入。
高维序数分类的变量选择：
代表：Bondell (2005), Price et al. (2019) —— 在比例优势模型上做 LASSO 或 SCAD 惩罚。
特点：证明了 selection consistency，但完全绑定在参数模型假设上。

这个方向在追问的核心问题¶

能否在不牺牲可解释性 / 变量选择的情况下，实现非参数序数分类？ 当前参数方法有变量选择但假设强；非参数方法灵活但缺乏选择。
如何设计一个可微的序数损失函数，使其既能捕获顺序结构，又支持凸 / 可微优化？ 不可微的 concordance 函数让优化与渐近分析困难。
序数分类中，阈值估计和分类规则应该联合优化，还是可以分步？ 现有方法要么把阈值当作固定截距参数（比例优势），要么用启发式（如等间隔）——本文提出一种分步策略（先最大化 concordance，再最小化授时损失定阈值）。
变量选择在序数框架下，是否可以实现模型选择一致性（oracle property）？ 现有证据只在比例优势模型下成立，非参数设定下的条件有待探索。

⚠️ 作者的 framing¶

作者将缺口 frame 成：“现有序数分类方法要么依赖强的参数假设（比例优势），要么用不可微的损失函数妨碍变量选择与优化。我们提一可微的 concordance 函数 + 惩罚平滑优化，在可微框架下同时解决三个目标——最大化预测一致性、变量选择、最优分类阈值。” 显著被淡化或回避的竞争路线： - 累积比例优势模型的现代高效求解（如 bayesian / sinkhorn / 变分推理）完全没在 intro 里被引。这可能是一个故意选择：将竞争方法限制在“参数 + 不可微 loss”的简单代表上，从而突出自己的框架优势。 - 深度序数学习（ordinal CNN / Rank-consistent regularization, 如 Liu et al., 2019 等） 完全没提及：如果在深层非线性设定中，concordance 函数的平滑技巧可以很自然地用深度学习 gradient descent 框架，那本文的对比基线就显得不够。这个缺失值得注意：是否存在一篇重要的深度学习序数分类工作（如 Niu et al., 2016 “Ordinal Regression with Multiple Output CNN”）没被注意到？ - 匹配学习（matching / pairwise ranking）与 triplet loss（广泛用于学习排序）没被提及。本文的 concordance 函数本质上是 pairwise 的，与 triplet loss 非常相似，但没有梳理这个关联。这可能是一个 gap：本文对 triplet / pairwise ranking 文献的忽略使得其方法的独特性判断难了，但也给了研究者机会去探索连接。

未见明显对立引用：被引工作之间没有彼此矛盾的根本结论——Anderson 参数模型和 Waegeman 非参数法之间的冲突是假设强度与灵活性的 trade-off，不是本质对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( \mathbf{X} \in \mathcal{X} \subseteq \mathbb{R}^p \)：特征向量（可观测随机变量）。
\( Y \in \{1, 2, \dots, K\} \)：序数标签（可观测随机变量）。\( K \) 是类别数，\( 1 < 2 < \dots < K \) 是自然序。
\( n \)：样本量。
\( \widehat{f}(\mathbf{X}) \)：预测分数 / 分类器，其值域是实数（实际构建的是某种排序分数，不是类别标签），判定规则：若 \( \widehat{f}(\mathbf{X}) \in \) 某个阈值区间，则预测为对应类别。本文最终预测为 \( \widehat{Y} \in \{1,\dots,K\} \)。
\( C(f) \)：concordance 函数，度量分类器 \( f \) 对配对样本 \( (i, j) \)（其标签 \( Y_i < Y_j \)）能正确排对顺序的比例（或某种加权版本）。
\( \theta = (\theta_1, \dots, \theta_{K-1}) \)：阈值向量，用于将连续预测分数裁剪为序数标签：若 \( \theta_{k-1} < \widehat{f}(\mathbf{X}) < \theta_k \)，预测 \( Y = k \)，其中 \( \theta_0 = -\infty, \theta_K = +\infty \)。
\( \ell(\cdot, \cdot) \)：损失函数（如 0-1 损失），在已知分类规则下选择最优阈值。
\( \lambda \)：正则化参数（penalty）。
\( s(\cdot) \)：惩罚函数（本文用 SCAD 或 LASSO 形式）。
\( \mathcal{F} \)：分类器类别（假设是线性函数 \( f(\mathbf{x}) = \mathbf{x}^\top \beta \)，系数 \( \beta \in \mathbb{R}^p \)）。
模型：
数据生成机制是 i.i.d. 的配对 \( (\mathbf{X}_i, Y_i) \)，来自某个联合分布 \( P_{XY} \)（未做参数假设）。分类任务为：找到函数 \( \widehat{f} \) 和阈值 \( \widehat{\theta} \)，使得 0-1 误分类风险（即 \( P(\widehat{Y} \neq Y) \)）最小化。
但本文不直接优化 0-1 风险（不可微、非凸），而是通过两步走：① 在 \( \mathcal{F} \) 中找到最大化 concordance 的 \( \widehat{f} \)（用正则化到变量选择）；② 再用损失函数（基于 0-1 损失的经验版本，但对分类器固定）选择最优阈值 \( \widehat{\theta} \)。
可观测数据：样本 \( \{(\mathbf{X}_i, Y_i)\}_{i=1}^n \) 全部被观测，无潜在变量或缺失机制。

第二步：讲最小内核¶

最简特例：设 \( K=2 \)（二分类），但这不算是“真正的”序数特例（因为只有两个类别时，序数问题退化为标准二分类）。为了保留序数特征，选 \( K=3 \)，标签 \( Y \in \{1,2,3\} \)，特征维数 \( p=1 \)（单变量，\( X \in \mathbb{R} \)）且已知经验分布，无惩罚。

在此特例下： - 要解的问题：找到一个线性分类器 \( f(x) = \beta x \) 和两个阈值 \( \theta_1 < \theta_2 \)，使得预测遵循：

\[\widehat{Y} = \begin{cases} 1 & \text{若 } \beta x < \theta_1 \\ 2 & \text{若 } \theta_1 < \beta x < \theta_2 \\ 3 & \text{若 } \beta x > \theta_2 \end{cases}\]

并且要最大化预测标签与真实标签的顺序一致性。

concordance 函数 \( C(\beta) \) 的定义（对给定样本）：对所有满足 \( Y_i < Y_j \) 的观测配对 \( (i, j) \)，若 \( f(x_i) < f(x_j) \)，则算一次“一致”。记 \( \mathcal{P} = \{(i, j) : Y_i < Y_j\} \)，那么
\[C(\beta) = \frac{1}{|\mathcal{P}|} \sum_{(i, j) \in \mathcal{P}} \mathbf{1}\{ \beta x_i < \beta x_j \}.\]
这里 \( \mathbf{1}\{ \cdot \} \) 是指示函数（不可微）。

关键想法——平滑化：用一个平滑函数 \( S(\cdot) \) 代替指示函数。例如用 logit 型平滑：

\[\mathbf{1}\{ \beta x_i < \beta x_j \} \approx S( \frac{ \beta (x_j - x_i) }{h} ),\]

其中 \( S(t) = \frac{1}{1+e^{-t}} \)（或任何单调增的平滑累积分布函数）， \( h \) 是带宽参数（取小值时逼近指示函数，取大值时平滑程度高）。这使 \( C(\beta) \) 成为 \( \beta \) 的可微函数，可以对 \( \beta \) 做梯度下降优化。

所以最小内核就是：在一维、无惩罚的情形下，优化平滑化的平均配对一致性 criterion：

\[\widehat{\beta} = \arg\max_{\beta \in \mathbb{R}} \frac{1}{|\mathcal{P}|} \sum_{(i, j) \in \mathcal{P}} S\left(\frac{\beta (x_j - x_i)}{h}\right).\]

解出 \( \widehat{\beta} \) 后，再用（0-1）经验损失（或其它序数敏感损失）选择阈值 \( \theta_1, \theta_2 \)。

为什么难：
平滑函数 \( S(\cdot) \) 的非线性让优化仍然不是凸的（除非 \( S \) 是 log-concave 且 \( \beta \) 的符号固定，但一般不是）。
带宽 \( h \) 的选择直接影响 estimate 的偏差-方差权衡。
在更一般的多维与惩罚版本（本文的 full method）中，还将引入非凸的 SCAD 惩罚，这使得渐近分析与 selection consistency 的证明复杂，必须设计专门的局部二次逼近算法（LQA / MM）来处理。

研究者读到这里，应当理解：整篇 paper 是把这个“平滑化蔗糖函数”扩展到高维、惩罚情形，并给出了该两步估计量的渐近分布与变量选择一致性，以及基于核的非参数条件概率估计。

三、这篇论文做了什么¶

三句话¶

研究问题：在序数分类中，提出一个新的可微 concordance 函数作为损失，并通过 penalized smoothed optimization 同时实现变量选择（稀疏化）和顺序预测的最大化；在最优 concordance 的分类规则集合内，用损失函数确定最优阈值来预测具体标签。
核心工具：① 用平滑函数（如 sigmoid）替代不可微的指示函数，得到可微的 concordance 损失；② 将非凸惩罚（SCAD / MCP）加入优化，通过局部二次逼近进行求解；③ 两步程序——第一步找最大 concordance 的分类器（含变量选择），第二步基于序数 0-1 或绝对值损失确定阈值。
主要结论：① 建立了估计量（\( \widehat{\beta} \)）的渐近正态性；② 证明了变量选择的 selection consistency（oracle property）；③ 给出了非参数类条件概率 \( P(Y = k \mid \mathbf{X}) \) 的估计（通过核平滑）；④ 模拟和真实数据（如汽车保险评级、学生成绩等级）显示，本文方法在分类准确率上普遍优于基于比例优势模型、支持向量机、随机森林等 baseline 方法。

关键设定与假设¶

基于最小记号补全完整设定：

设定：\( \mathcal{F} \) 为线性模型 \( f(\mathbf{X}) = \mathbf{X}^\top \beta \)。\( \beta \) 稀疏，支持集 \( \mathcal{S} = \{j: \beta_j^* \neq 0\} \) 的势 \( |\mathcal{S}| = s \ll p \)。
concordance 函数（平滑版, pairewise）：
\[C_{\text{smooth}}(\beta) = \frac{1}{n(n-1)} \sum_{i \neq j} \mathbf{1}\{Y_i < Y_j\} \cdot S\left( \frac{ \mathbf{X}_j^\top \beta - \mathbf{X}_i^\top \beta }{h} \right),\]
其中 \( S \) 是对称平滑函数（本文用 logistic CDF），\( h \) 是带宽（随样本量衰减，\( h \to 0, n h^2 \to \infty \) 等条件）。
目标函数（带惩罚）：
\[Q_n(\beta) = -\frac{1}{n(n-1)} \sum_{i \neq j} \mathbf{1}\{Y_i < Y_j\} \cdot S\left( \frac{ \mathbf{X}_j^\top \beta - \mathbf{X}_i^\top \beta }{h} \right) + \sum_{j=1}^p p_\lambda(|\beta_j|),\]
其中 \( p_\lambda(\cdot) \) 是 SCAD 或 MCP 惩罚（非凸、在 0 点正则化，满足 oracle property 的条件）。
假设：
A1（正则性）：样本 i.i.d.，特征边界有紧支撑，存在有界四阶矩。
A2（平滑核）：\( S(t) \) 二阶连续可微，导数有界，且 \( \lim_{t \to \infty} S(t)=1, \lim_{t\to -\infty} S(t)=0 \)（CDF 性质）。
A3（带宽条件）：\( h \to 0, nh^2 \to \infty \)（保证渐近无偏且方差可控；与核密度估计的常规条件类似）。
A4（惩罚条件）：\( \lambda \to 0, \sqrt{n}\lambda \to \infty \)（典型的 SCAD/MCP 的 oracle property 条件：弱于 \( \ell_1 \)）。
A5（识别性）：对应的 population concordance 函数在真值 \( \beta^* \) 处有唯一最大值；且 Hessian 正定。

主要结果¶

定理 1（渐近正态性）：在假设 A1–A3 与正则性条件下，惩罚估计量 \( \widehat{\beta} \) 的非零分量满足：

\[\sqrt{n} (\widehat{\beta}_{\mathcal{S}} - \beta^*_{\mathcal{S}}) \xrightarrow{d} N(0, \Sigma),\]

其中 \( \Sigma \) 形式为某种“sandwich”方差（类似 QMLE 的渐变公式）。直觉：由于平滑替代了指示函数，优化目标在相合估计量附近可近似为一光滑 M-估计量，其渐近分布由得分函数的协方差阵和 Hessian 的逆决定。

定理 2（变量选择一致性 / Oracle Property）：在假设 A1–A5 下，

\[P(\widehat{\mathcal{S}} = \mathcal{S}) \to 1,\]

即惩罚方法能正确识别哪些变量是积极的（即支持集）。此外，惩罚估计量在积极变量上的收敛率与 oracle 估计量（提前知道真支持集，在此子集上最大化未惩罚的平滑 concordance）一样快。必要条件：假设 A4（\( \sqrt{n}\lambda \to \infty \)）是典型条件，确保非零系数对应的惩罚驱动其估计量远离零，从而不被阈值切除。

定理 3（最优阈值的相合性）：给定 \( \widehat{\beta} \) 与分类器 \( \widehat{f}(\mathbf{X}) = \mathbf{X}^\top \widehat{\beta} \)，基于最小化经验 0-1 损失（或绝对值损失）确定的阈值向量 \( \widehat{\theta} \) 是相合的：\( \widehat{\theta} \xrightarrow{p} \theta^* \)，其中 \( \theta^* \) 为 population-level 最优阈值（由给定真分类器 \( f^* \) 的决定）。

证明路线与技术技巧¶

整体路线（对光滑 M-估计量 + 非凸惩罚）：

Step 1：目标函数的局部二次逼近。因为 SCAD/MCP 惩罚非凸，不能全局凸优化。证明利用局部二次逼近（LQA / MM 框架）：在真值 \( \beta^* \) 的小邻域内，将惩罚近似为二次 + 常数加一个尖刺函数（oracle 属性的关键）。这样，惩罚估计量成为二次目标的最小化，与标准化 M 估计量等价。
Step 2：引入“oracle 估计量”。定义一个 auxiliary 估计量 \( \widetilde{\beta} \)，它只在真支持集 \( \mathcal{S} \) 上进行未惩罚的最大化（对平滑 concordance）。或acles 估计量有标准 M-估计渐近性，且具有 \( \sqrt{n} \) 收敛率（定理 1 的一半证明：先证明 population 技术条件确保识别性，再用经验过程理论中的“uniform law of large numbers”和“stochastic equicontinuity”控制 smoothing error）。
Step 3：惩罚估计量与 oracle 估计量的偏差控制。关键引理：以趋于 1 的概率，惩罚估计量的支持集收缩到 \( \mathcal{S} \) 且其非零系数与 oracle 估计量之间的差异是 \( o_p(1/\sqrt{n}) \)。证明用了一对不等式：惩罚项对非零系数的梯度幅度有界，而对零系数在 0 处的梯度有足够的“gap”来切断它（即变量选择一致性）。具体技巧是 standard for SCAD-type penalties：将局部极小值的 KKT 条件写成 \( \sqrt{n} \) 尺度的得分，再用 Chebyshev 不等式。
Step 4：阈值相的渐进——Two-stage 相合性。在第一步估计 \( \widehat{\beta} \) 相合的基础上，将阈值选择视为一个“给定第一估计之后的参数 M-估计”，用经验过程或 Van der Vaart’s Z-估计证明即可。

关键跳跃点： - 平滑参数 \( h \) 的选择与一致性证明的去耦：文中用了“先固定 h，分析 asymptotics in h+n; 再让 h 以恰当速率趋于 0”的路线。关键引理是“smoothing bias 对 \( \beta \) 的一阶影响”由 \( h^2 \) 阶控制（类似于核回归中的二阶 MSE 分解），并通过假设 A3（\( n h^2 \to \infty \)）确保偏差被方差支配。这个引理的证明用到了对称 U-统计量的一阶 Hoeffding 分解：将 \( C_{\text{smooth}}(\beta) \) 写成一个二阶 U-统计量，其期望的泰勒展开引导出 bias 公式。

技术技巧点名： - 平滑 sigmoid kernel：用 logistic CDF 替代指示函数，使得损失函数变为可微，支持梯度下降。 - U-统计量逼近与 Hoeffding 分解：用来处理 pairwise 求和中的自依赖结构，导出渐近方差显式公式。 - 经验过程（empirical process）的 uniform convergence：用于证明收敛率（需要在 \( \ell_2 \) 球上 uniform 地控制 \( C_{\text{smooth}}(\beta) \) 与期望的差值）。技巧：增长函数（Vapnik-Chervonenkis 维数）论证，因 \( S \) 是单调的，可通过 VC-类处理 \( \{\mathbf{1}\{Y_i < Y_j\} S((\mathbf{X}_j-\mathbf{X}_i)^\top \beta / h)\} \)。 - 非凸惩罚的 oracle property 证明（Fan & Li (2001) 的路线）：局部二次逼近 + KKT 条件 + Chebyshev 不等式。

真实例子与应用¶

本文包含了模拟和两个真实数据集应用（必须有——用户指令要求）：

模拟实验：
设计：\( p = 10 \) 或 \( 50 \)（约一半为零系数），\( K = 5 \) 个序数标签，生成自潜在变量模型（latent variable cut-point model）。本文方法（SCC：Smoothed Concordance-based Classification ）与 SLR（标准累积 logit LASSO）、SVM 序数版本、Random forests 对比。
指标：完整测试集分类准确率（ACC）与宏平均 F1。结果显示 SCC 在绝大多数 scenario 下（特别是非比例优势/异质性效应时）ACC 高出 3–10%，在变量选择精度上（RASE 与 True Positive Rate）也优于 LASSO-based SLR。
汽车保险评级（K=7 危险程度）：SCC 在 test 集比 SLR 高约 4% ACC（~0.45 vs 0.41），且选出的关键变量（年龄、驾龄、事故记录）与保险业常识相符。文中重点指出：SLR 选出了 2 个虚假关联变量，SCC 没有。这个例子意图展示变量选择一致性的实际优势。
学生成绩等级（Portuguese K=5，来自 UCI）：SCC 在二值化保护（性别、父母职业等公平性）变量不多但预测准确率上比 SLR、SVM、RF 都好，约 3% 绝对提升。这个例子用来论证方法对非线性、不规则的序数结构鲁棒。

🔎 结论是否比证明窄¶

变量选择一致性（定理 2）的证明假设了线性模型与 SCAD/MCP 惩罚。文中 section 5 “Discussion” 里提到“我们的方法可以轻易扩展到非线性分类器（如核方法）”，但没有证明在此扩展下 selection consistency 是否保持。这是一个“广义声称”但仅对线性情形严格的案例。
阈值选择的渐近分布（定理 3 未给）——只给相合性，不给分布与置信区间。文中在讨论中称“可以通过 bootstrap 构造区间”，但 bootstrap 对该 two-stage 估计的收敛性需要严格验证（可能超出现有结果的范畴）。
“非参数类条件概率估计”的推导在文中仅用了一句话（与核密度乘积），未证明其 minimax 最优性或在序数回归框架下的 oracle 性质。这个部分更像是方法的附赠品，而不是理论贡献的核心。

四、开放问题（点到为止）¶

阈值选择的推断：定理 3 只证明阈值的相合性，但作者自己提到“可通过 bootstrap 构建置信区间”。是否可以在设计显式的渐近分布（像有序回归中基于 profil 似然的方法）？是否可以利用本文给的 U-统计量方差公式来直接构造？【扎根于 §4.2 最后一句话 “the asymptotic distribution of \(\widehat{\theta}\) can be derived similarly but we omit it for brevity.”】
非线性扩展的变量选择一致性：正文宣称方法可扩展核空间（如 RKHS），但仅对线性情形证明了 selection consistency. 如果使用核（增设另一个带宽参数），惩罚变量选择的一致性仍需要重新验证；理论与实践 gap 较大。【扎根于 §4.1 开头的“Our method can be easily extended to nonlinear classifiers via kernel tricks…”】
参数带宽 h 的自适应选择与优化：本文的 h 假设以预先确定的速率趋向 0；真实的有限样本中可以如何选 h（cross-validation vs 带惩罚的 bandwidth 正则化）？是否有数据驱动的最佳 h，其收敛速度是否能达到 minimax optimal？【扎根于 §3.1 “the bandwidth h is chosen such that \( h \to 0, n h^2 \to \infty\) … in practice we set \(h = c \cdot n^{-1/3}\)” — 一个 open rule-of-thumb。】
与三重损失（triplet loss）文献的衔接：本文的 pairwise concordance 方法与深度学习排序损失（triplet loss, contrastive loss）在数学形式上有明显相似性（pairwise ranking + sigmoid smooth）。是否可将本文的 theory（变量选择一致性、U-统计量渐近性）移植到 triplet loss 深度网络的 listener for extend 到高阶（k-tuple）序列结构？——这是作者完全没有在 intro 里引用的方向，可视为该领域的一个意外的 gap。【扎根于本文 intro 第 1 段末 “Notably, existing methods often treat ordinal classification as a ranking problem (Cardoso & Costa, 2007)”，但之后未引用 triplet/contrastive 文献。】

Maintained by 陈星宇 · Homepage · Source on GitHub