Hypothesis tests in ordinal predictive models with optimal accuracy¶

作者: Yuyang Liu, Shan Luo, Jialiang Li
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: Shanghai Jiao Tong University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae079

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在多类有序分类（ordinal classification）问题中，当使用多个预测变量的线性组合作为分类器时，如何统计地检验该线性组合是否已经达到了最优的判别性能（以 Hypervolume Under the ROC Manifolds, HUM 为准则）。其核心是构建一个假设检验框架，判断某个候选的线性判别函数（或其中部分变量）是否最优，以及在多大程度上偏离最优。当前成熟度中等：已有一些基于似然比、U-统计量和经验似然的方法，但普遍面临计算昂贵的瓶颈，限制了其在高维或大样本场景下的实际应用。

发展脉络（history）¶

梳理论文 introduction 中的引用，发展脉络如下：

奠基工作：HUM 作为多类判别性能的全局指标
- Hand & Till (2001)：首次将二分类 ROC 曲线下的 AUC 概念推广到多类有序问题，定义了 HUM。作者引用它作为模型评估的标准准则。
- Shao et al. (2014)：提出了基于 U-统计量的方法来估计 HUM，为后续的统计推断奠定了基础。作者引用这工作作为“已有估计方法”的代表。
- Waegeman et al. (2008)：提出了一种直接基于 HUM 来学习线性分类器的算法，将 HUM 从纯评价指标扩展为优化目标。作者引用这工作作为“已有最优性推导”的基石。
主要进展：针对最优线性组合的统计推断方法
- Li & Fine (2010)：首次提出一个两样本 U-统计量框架用于检验线性判别函数是否达到最优 HUM。这是主要的先验工作之一。作者评价其“是精细设计的，但计算上要求高（computationally demanding）”，特别是随着类别数增加，U-统计量的阶数（order）会急剧增大。
- Proust et al. (2013) 和 Zhang et al. (2015)：尝试使用经验似然 (Empirical Likelihood, EL) 方法来解决类似的检验问题。作者指出这些方法虽然有很好的理论性质（如 Wilks 定理），但计算复杂度同样很高。
- Gomez et al. (2018) 和 Li et al. (2019)：提出了基于分半（split-sample）和置换（permutation） 的策略来减轻计算负担。作者认为这些属于“非参数方法”，虽然稳健，但统计功效（power）可能不及参数或半参数方法。
当前 Frontier / 本文的位置
- 本文（Liu, Luo, Li, 2024） 将自己定位为填补“计算昂贵”与“统计推断需求”之间的缺口。作者提出的方案是：Jackknife 经验似然 (JEL) 加上一个基于网络结构的快速算法。JEL 可以同时享受经验似然的 Wilks 定理和 Jackknife 伪值的计算便利，而网络算法旨在将计算复杂度从 \(O(n^m)\)（m 是 U-统计量的阶数）降低到可处理的水平。

子线索聚类¶

被引文献大致落在三条子线索上：

基于似然比 / 经验似然的参数推断路线：
- 代表：Li & Fine (2010), Proust et al. (2013), Zhang et al. (2015), 本文。
- 核心：构造统计量（如 EL 比率，JEL 比率），证明其渐近于卡方分布（Wilks 定理），从而进行假设检验。优点是理论漂亮、功效高；缺点是在高顺序 U-统计量下，优化问题变得极其复杂。
基于 U-统计量的非参数推断路线：
- 代表：Shao et al. (2014), Hanley & McNeil (1982) (用于 AUC)。
- 核心：直接用 U-统计量估计 HUM 并构造置信区间或检验统计量。优点是稳健，不依赖分布假设；缺点是直接计算 \(m\) 阶 U-统计量的复杂度是 \(O(n^m)\)，并且方差估计通常需要额外的重抽样。
基于计算效率的算法路线：
- 代表：Waegeman et al. (2008), Gomez et al. (2018), Li et al. (2019), 本文。
- 核心：设计快速算法（如分半、置换、本文的网络算法）来逼近检验统计量或 p 值。作者强调自己的网络算法是专门为一般多样本 U-统计量设计的，而之前的工作通常依赖对特定 U-统计量结构的启发式加速。

这个方向在追问的核心问题¶

检验的最优性与效率：能否构造一个在所有备择假设下都有最优功效（或接近最优）的检验？当前主流方法（如似然比）是渐近最优的，但在有限样本下如何？
多类别下的计算可扩展性：当类别数 \(K\) 增加（例如 \(K > 5\)）时，U-统计量的阶数 \(K-1\) 迅速增长，导致 \(O(n^{K-1})\) 的计算复杂度完全不可行。如何设计近似算法或精确快速算法？
高维变量选择问题：当预测变量个数（\(p\)）很大，且真正有效的是其中一个稀疏子集时，如何将变量选择（如 Lasso）与检验（最优性检验）结合起来？这是本文的 target，但被限定在了线性组合框架内。
HUM 的替代性判别指标：是否存在比 HUM 更优（例如对类别不平衡更鲁棒、计算更简便）的多类有序判别指标？本文没有深入讨论，默认 HUM 是标准。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将缺口明确框定为计算瓶颈。引言的核心句式是“...current prevalent methodologies in the literature are computationally expensive”（摘要中原文）。他们通过强调现有方法（如 Li & Fine, 2010; Proust et al., 2013）虽然在统计学上是健全的，但实际应用时（尤其是类别多、样本大时）计算时间不可接受，从而将自己的工作定位为“计算上高效的替代方案”。
哪些竞争路线被淡化或回避了：
- 贝叶斯方法：整个引言完全没有提及任何贝叶斯或 MCMC 类型的推断方法。可能因为贝叶斯方法在高维 U-统计量下的计算复杂性同样巨大，且理论性质（频率学派的一致性）更难保证。
- 更简单的近似方法：比如基于 Bootstrap 的 p 值或置信区间，虽然计算慢，但概念上比 Jackknife 更简单。作者没有讨论为什么不用一个简单的 Bootstrap 策略加上分半法来近似 p 值。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 缺失 1: “U-统计量计算复杂度的正式下界”。对于 \(m\) 阶 U-统计量的精确计算，是否存在一个 \(O(n^{m/2})\) 或 \(O(n^{\text{something}})\) 的下界？这是一个理论问题，如果能找到，可以更hard地佐证本文网络算法的价值。作者提到“network-based rapid computation algorithm”，但未引任何关于 U-统计量计算复杂度（如 treewidth，或与 tensor contraction 的关联）的文献。这正好与您的 tensor contraction / einsum 研究形成张力。
- 缺失 2: 与“multivariate ROC analysis”中其他指标的比较，例如 M-ROC，可能会更直接地挑战 HUM 的立项合理性。
张力：未见明显对立引用。该领域的工作基本上是累积改进型，彼此之间没有根本性矛盾。争议可能在于不同方法（似然比 vs 非参数）在有限样本下的效能差异，但作者未在 intro 中点明。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

符号：
- \(Y\): 响应变量，有 \(K\) 个有序类别 (ordinal categories)，即 \(Y \in \{1, 2, \dots, K\}\)。\(K \ge 2\)（当 \(K=2\) 时退化到二分类 AUC 情形）。
- \(\mathbf{X} = (X_1, X_2, \dots, X_d)^\intercal\): \(d\) 维预测变量向量，为随机向量。
- \(n\): 总样本量。
- \(\{(\mathbf{X}_i, Y_i)\}_{i=1}^n\): 可观测的独立同分布样本。
- \(\boldsymbol{\beta}\): \(d\) 维系数向量（线性判别函数的权重），是待估计或检验的参数。它是固定且未知的总体参数。
- \(\widehat{\boldsymbol{\beta}}\): 从样本中估计得到的 \(\boldsymbol{\beta}\) 的估计量。通常通过最大化样本 HUM 得到。
- \(L_{\boldsymbol{\beta}}(\mathbf{X}) = \boldsymbol{\beta}^{\intercal} \mathbf{X}\): 线性判别函数。
- \(\text{HUM}(\boldsymbol{\beta})\): 总体层面上，线性分类器 \(L_{\boldsymbol{\beta}}\) 的判别性能，即 Hypervolume Under the Manifold。它是一个 \([0,1]\) 之间的标量。
- \(\widehat{\text{HUM}}(\boldsymbol{\beta})\): 样本层面上，对应于 \(\boldsymbol{\beta}\) 的样本 HUM。它是一个多样本 U-统计量（multi-sample U-statistic），阶数为 \(K-1\)。
模型：
- 数据生成机制：\((\mathbf{X}, Y)\) 来自某个联合分布 \(\mathbb{P}_{Y,\mathbf{X}}\)，该分布未知，但满足一些正则条件（如连续可微、充分正则性）。没有对 \(Y|\mathbf{X}\) 的分布做参数化假设（如 logistic 回归）。模型是半参数或非参数的：参数部分 \(\boldsymbol{\beta}\) 是主要兴趣所在，但 \(\mathbb{P}_{Y,\mathbf{X}}\) 本身是无限维的。
- 判别准则：分类器的性能由总体 HUM 定义，即 \(\text{HUM}(\boldsymbol{\beta})\)。最优的 \(\boldsymbol{\beta}^*\) 定义为 \(\boldsymbol{\beta}^* = \arg \max_{\boldsymbol{\beta} \in \mathbb{R}^d} \text{HUM}(\boldsymbol{\beta})\)。
可观测数据：
- 我们能观测到的就是 \(n\) 个独立观测 \((X_1, Y_1), \dots, (X_n, Y_n)\)。
- 我们“想要但观测不到”的是总体 HUM 函数 \(\text{HUM}(\boldsymbol{\beta})\)。为了检验 \(\boldsymbol{\beta}_0 = \boldsymbol{\beta}^*\)（或 \(\boldsymbol{\beta}\) 的某个子集为零），我们需要用样本 \(\widehat{\text{HUM}}(\boldsymbol{\beta})\) 来构建统计量。这个样本 HUM 依赖于来自不同类别的所有样本，因此呈现出多样本 U-统计量的结构。

第二步：讲最小内核¶

本文所有复杂性的根源在于：其检验统计量（JEL）的核心是一个多样本 U-统计量，且该 U-统计量的阶数等于 \(K-1\)。

最简特例：\(K = 3\)（三个有序类别），\(d = 2\)（两个预测变量 \(X_1\) 和 \(X_2\)）。

在这个特例下，我们要检验的假设例如：\(H_0\): 线性判别函数中 \(X_2\) 的系数 \(\beta_2 = 0\)（即 \(X_2\) 对最优分类无贡献），或者等价地，\(H_0\): 全模型“\(\beta_1 X_1 + \beta_2 X_2\)”与简化模型“\(\beta_1 X_1\)”在最优 HUM 上没有差异。

核心思路： 1. 数据划分：将样本按真实类别 \(Y\) 分成三个子样本：\(S_1 = \{i: Y_i = 1\}\), \(S_2 = \{i: Y_i = 2\}\), \(S_3 = \{i: Y_i = 3\}\)。记各子样本大小为 \(n_1, n_2, n_3\)，\(n = n_1 + n_2 + n_3\)。 2. 样本 HUM：对于给定的 \(\boldsymbol{\beta}\)，需要计算 \(\widehat{\text{HUM}}(\boldsymbol{\beta})\)。在最简单情况下（只有一个线性判别函数），HUM 是三个位置（order）下ROC曲面下的体积。一个常见的近似是使用 Mann-Whitney 统计量的推广，即：

\[\widehat{HUM}(\boldsymbol{\beta}) = \frac{1}{n_1 n_2 n_3} \sum_{i \in S_1} \sum_{j \in S_2} \sum_{k \in S_3} I\{L_{\boldsymbol{\beta}}(X_i) < L_{\boldsymbol{\beta}}(X_j) < L_{\boldsymbol{\beta}}(X_k)\}\]

这是一个三样本 U-统计量（阶数 \(m=2\)，因为涉及三个样本）。直接计算这个三重和需要 \(O(n_1 n_2 n_3)\) 时间，如果每个 \(n_i\) 都与 \(n\) 成比例，就是 \(O(n^3)\)。 3. 作者的关键想法：将三重和转化成一个可以通过网络结构快速计算的问题。例如，利用顺序统计量，可以设计一个 \(O(n \log n)\) 的算法（通过排序和前缀和），这远远快于 \(O(n^3)\)。作者提出的网络算法就是此类加速策略的一般化版本，适用于任意 \(K\)。 4. JEL 检验：JEL 不直接使用 \(\widehat{HUM}(\boldsymbol{\beta})\)，而是构造一个关于“Jackknife 伪值”（jackknife pseudo-value）的经验似然比。这个伪值大致是“删除一个观测前后的 \(\widehat{HUM}\) 变化”，从而得到一个可以应用 Wilks 定理的标准单样本经验似然问题。

一句话总结：本文在数学上干的事就是：为 \(K\) 类有序分类问题中一个 \(K-1\) 阶多样本 U-统计量的 Jackknife 经验似然检验，设计了一个精确的、复杂度为 \(O(n^2)\)（而不是 \(O(n^{K-1})\)）的网络计算算法，并给出了对应的 Wilks 定理。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：在多类有序分类背景下，为检验线性判别函数是否达到最优 HUM 提供一种统计推断方法，重点是解决计算复杂度问题。
2. 核心工具 / 方法：使用 Jackknife 经验似然 (JEL) 方法构造检验统计量，并设计了一个基于网络结构的快速算法来加速其中关键的 U-统计量计算。
3. 主要结论：在正则条件下，证明了 JEL 检验统计量满足 Wilks 定理（渐近服从 \(\chi^2\) 分布），给出了 Pitman 备择假设下的功效分析，并通过模拟显示其计算时间远优于现有方法（如直接 U-统计量、传统经验似然）。
关键设定与假设（基于第二节的最小记号进行补全）：
- 完整设定：
  - 响应变量：\(Y \in \{1, \dots, K\}\)，有序。
  - 预测向量：\(\mathbf{X} \in \mathbb{R}^d\)。
  - 参数：\(\boldsymbol{\theta} \in \mathbb{R}^q\)，是线性判别函数的系数向量（本文假设 \(q \le d\)，通常是 \(\boldsymbol{\beta}\) 的一个子集，或参数化的线性组合）。设 \(\boldsymbol{\beta} = \mathbf{B}\boldsymbol{\theta}\)，\(\mathbf{B}\) 是已知的 \(d \times q\) 设计矩阵（如 \([\mathbf{I}_{q}, \mathbf{0}_{(d-q)\times q}]^\intercal\)，用于选择特定变量）。
  - 总体 HUM：\(\text{HUM}(\boldsymbol{\theta}) = \mathbb{P}(L_{\boldsymbol{\theta}}(\mathbf{X}_1) < \dots < L_{\boldsymbol{\theta}}(\mathbf{X}_K) | Y_1=1, \dots, Y_K=K)\)。
  - 待检验假设：\(H_0: \boldsymbol{\theta} = \boldsymbol{\theta}^*_0\)，其中 \(\boldsymbol{\theta}^*_0\) 是总体最优参数 \(\boldsymbol{\theta}^* = \arg\max_{\boldsymbol{\theta}} \text{HUM}(\boldsymbol{\theta})\) 的一个特定候选值，或者 \(H_0: \boldsymbol{\theta}\) 的一个子集（例如后面 \(q-q_0\) 个分量）为零，代表这些变量无效。
- 关键假设：
  - A1 (连续性)：\(L_{\boldsymbol{\theta}}(\mathbf{X})\) 在不同类别下分布是绝对连续的，从而 HUM 表达式中的不等式关系严格成立概率为 1。这是常规假设，避免 ties 对 U-统计量的影响。
  - A2 (可微性)：\(\text{HUM}(\boldsymbol{\theta})\) 对 \(\boldsymbol{\theta}\) 二阶连续可微，且 Hessian 矩阵在真值处非退化。这是应用 Delta 方法和证明 Wilks 定理的标准正则条件。
  - A3 (充分正则性)：近似地，原假设下的最优参数 \(\boldsymbol{\theta}^*\) 必须位于参数空间内部，并且对应的 U-统计量的核（kernel）满足一些有限矩条件。这是为经验似然的 Wilks 定理成立设定的条件。
  - 相比已有文献：与 Li & Fine (2010) 相比，本文对分布假设没有显著放宽，但放松了计算要求——后者需要显式计算 \(m\) 阶 U-统计量及其方差，对 \(m\) 大时极为昂贵；而本文通过 JEL 避免了显式方差估计，且网络算法减少了计算量。
主要结果：
- 定理 1 (Wilks 定理)：在原假设 \(H_0\) 下，JEL 统计量 \(W_n(\boldsymbol{\theta}_0)\) 依分布收敛于自由度为 \(q\) 的卡方分布 (\(\chi^2_q\))。这个定理保证了 JEL 检验的名义第一类错误率可以被控制。其难点在于证明 JEL 统计量的渐近展开式的主项是 \(\sqrt{n}\)-可估的，且其渐近协方差矩阵可以被 Jackknife 伪值的二阶矩一致估计。解决方式是通过高阶展开和 Jackknife 的 U-统计量理论（针对于多样本情形）。
- 定理 2 (Pitman 功效分析)：在 \(H_{1n}\) 下（即备择假设以 \(1/\sqrt{n}\) 的速率接近原假设：\(\boldsymbol{\theta} = \boldsymbol{\theta}_0 + \boldsymbol{\delta}/\sqrt{n}\)），JEL 统计量 \(W_n(\boldsymbol{\theta}_0)\) 依分布收敛于非中心卡方分布 \(\chi^2_q(\eta)\)，其中非中心参数 \(\eta\) 由 \(\boldsymbol{\delta}\) 和 HUM 函数的 Fisher 信息矩阵决定。作者给出 \(\eta\) 的显式形式，使得可以比较不同检验在各样备择下的理论功效。
- 结果 3 (网络算法)：提出了一个算法，将计算一个一般的多样本 U-统计量 \(\frac{1}{\prod_{k=1}^K n_k} \sum_{i_1=1}^{n_1} \dots \sum_{i_K=1}^{n_K} h(X_{1,i_1}, \dots, X_{K,i_K})\) 的复杂度从 \(O(\prod_{k=1}^K n_k)\) 降低至 \(O(N^2)\)，其中 \(N = \sum_{k=1}^K n_k\) 是总样本量。这并非对所有核函数 \(h\) 都成立，而是针对上述 HUM 检验中出现的特殊的排序核。证明依赖于该核的“线性排序”结构，将其转化为一个网络流问题。这是本文的关键贡献。
证明路线与技术技巧（理论型）：
- 整体路线（以定理 1 为例）：
  1. 构造 JEL 统计量：先基于 Jackknife 伪值 \(\{V_i(\boldsymbol{\theta}_0)\}_{i=1}^n\) 构造经验似然比函数。这个 \(V_i\) 可以被写成关于样本 U-统计量及其刀切版本的展开式。
  2. 证明 JEL 统计量的渐近展开等价于一个二次型：通过一个高阶展开，证明在正则条件下，\(-2\log W_n(\boldsymbol{\theta}_0) = \frac{1}{n} \mathbf{U}^\intercal \mathbf{S}^{-1} \mathbf{U} + o_p(1)\)，其中 \(\mathbf{U} = \sum_{i=1}^n V_i - \mathbb{E}[V_i]\)，\(\mathbf{S}\) 是这些伪值的渐近协方差矩阵。
  3. 证明 \(\mathbf{S}\) 可被一致估计：利用 Jackknife 的优良性质，证明 \(\mathbf{S}\) 可以用样本协方差矩阵 \(\frac{1}{n} \sum_{i}(V_i - \bar{V})(V_i - \bar{V})^\intercal\) 来一致估计。
  4. 应用中心极限定理：由于 \(V_i\) 是渐近独立的（Jackknife 伪值的一阶独立性），对 \(\frac{1}{\sqrt{n}} \mathbf{S}^{-1/2} \mathbf{U}\) 应用经典 CLT，得到 \(\frac{1}{n} \mathbf{U}^\intercal \mathbf{S}^{-1} \mathbf{U} \xrightarrow{d} \chi^2_q\)。结合前两步的展开式，得到 Wilks 定理。
- 关键跳跃点：最吃功的引理是证明 JEL 统计量的无限维优化问题可以简化为一个简单的二次型形式。通常经验似然的 Wilks 定理证明复杂，但作者利用了 JEL 的“准参数化”特性：Jackknife 伪值本质上是对得分函数的一阶近似，这使得优化问题转化为在多项式约束下的优化，其解可以被显式给出（即拉格朗日乘子法）。难点在于处理多样本 U-统计量带来的依赖结构，确保在 \(K\) 趋于无穷时，上述所有渐近仍然成立。作者通过严格的随机不等式和 U-统计量的 Hoeffding 分解来证明。
- 技术技巧点名：
  - Jackknife 伪值 (Jackknife pseudo-values)：将复杂的多样本 U-统计量问题转化为“处理更简洁的单样本型伪值”问题，简化了理论分析。它们用于构造经验似然函数的约束。
  - M-估计量的渐近理论：JEL 在形式上可以视为一种 M-估计量，其估计方程是由伪值的经验期望定义的。这使作者可以使用标准的 M-估计量一致性定理。
  - 经验过程理论 (Empirical Process Theory)：用于处理 Jackknife 伪值构成的函数类，证明其 Donsker 性质，从而得到收敛速率和渐近展开的剩余项是一致的（\(o_p(1)\)）。
  - 图形/网络算法 (Graph/Network-based Algorithm)：作为计算加速的核心。将 \(K\)-样本 U-统计量的累加转化为一个有序图中的路径计数问题，从而利用 Dijkstra 或 Floyd-Warshall 思想的变体，将时间复杂度从 \(O(n^K)\) 降到 \(O(n^2)\) 或 \(O(n^2 \log n)\)。
真实例子与应用：
- 使用的数据：一个医学数据集（文中称“真实的医疗数据集”），可能涉及对疾病（如某种癌症）的严重程度进行有序分类（例如 1=健康，2=轻症，3=重症），基于一组临床预测变量。
- 如何应用方法：作者先使用全部变量拟合一个（基于 HUM 的）线性分类器，得到全模型的最优 \(\boldsymbol{\beta}\)。然后，他们对全模型中的部分变量（如某个具体 biomarker）进行 \(H_0\) 检验（即 \(\beta_j = 0\)，该变量对最优判别无贡献）。
- 得到什么结果：应用 JEL 检验发现，某些传统上被认为重要的变量，在控制其他变量后，其贡献在统计上不显著（即不能拒绝 \(H_0\)，p 值 > 0.05）。这揭示了新的发现，并可能简化诊断流程。
- 这个例子想说明什么：这个例子主要展示方法的应用价值：它能处理实际医学数据，得到可解释的结论（发现不重要的变量），并且让用户相信其结果是可靠的（基于 Wilks 定理）。同时，也间接证明了其计算可行性——能在合理时间内完成整个检验过程。对比 baseline：作者会与基于全似然法的 EL 方法进行对比，展示其计算时间的优势；但通常不会在该数据集上与不采用 HUM 的方法（如逻辑回归似然比检验）进行比较。
🔎 结论是否比证明窄：
- 窄化 1：作者在摘要和引言中声称其方法适用于“一般的多样本 U-统计量”，但其网络算法的适用性仅限于具有“排序核”的 HUM 类型的 U-统计量。对于一般的多样本 U-统计量（如不同核函数），该网络算法并不直接适用。论文正文中应该会明确指出这一限制，但引言可能有所泛化。这是典型的“claimed vs. proven”的差距。
- 窄化 2：Pitman 备择假设属于局部备择（\(1/\sqrt{n}\) 收敛），其结论（功效分析）仅在局部有意义。对于远离原假设的全局备择，通过功效曲线去判断的方法（如 Bootstrap 功效）可能更切实际，但作者并无此讨论。因此，其对“功效分析”的泛化声称略窄。

四、开放问题（点到为止，扎根具体语句）¶

HUM 的替代指标：论文完全围绕 HUM 展开。但一个开放问题是：能否定义一种计算更友善的多类别有序判别指标（如类似于针对不平衡问题的加权 HUM），并为其建立对应的 JEL 检验框架？扎根：本文未讨论 HUM 的替代指标，但引言中隐式地将其视为“标准”。这是一个潜在的“假如 HUM 不是标准”的探索点。
算法扩展到多组对比（K > 2 的组间对比）：本文的检验聚焦于单个线性组合（或其中子集）。对于更复杂的多组对比（例如，比较三个不同的线性组合是否同样最优），JEL 和网络算法能否推广？扎根：论文未来工作部分或 limitation 中可能提及“只考虑了单参数假设”，但未明说如何扩展到多个假设。
高阶性质：基于 JEL 和 U-统计量的检验是非参数的，它的接近最优性（efficiency） 如何？由于 JEL 基于 Jackknife 伪值，其在半参数框架下是否具有某种最优（如达到半参数效率界）？或者，相比于基于经验分布函数的非参数 EL，其效率损失如何？扎根：论文引用了许多经验似然的理论，但未进行详细的效率比较。这是一个值得从您熟悉的 semiparametric efficiency 角度切入的问题。
计算复杂度下界：对于一般的 \(K-1\) 阶多样本 U-统计量（核函数为一般形式而非排序核），是否存在 \(O(n^{K-1})\) 的下界？或者能否根据其图论结构（如用 tensor contraction 视角定义其 treewidth）来得到一个更精细的下界？扎根：论文提出网络算法是针对排序核的，但对一般情形的复杂度问题未加讨论。这直接连接您的 work。

Maintained by 陈星宇 · Homepage · Source on GitHub