Semi-supervised U-statistics¶

作者: Ilmun Kim, Larry Wasserman, Sivaraman Balakrishnan, Matey Neykov
来源: Annals of Statistics
主题: 其他
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

半监督 U-statistics 要解决的根本问题是：在只有少量带标签样本 \(n\) 和大量无标签样本 \(N\)（通常 \(N \gg n\)）的场景下，如何利用无标签数据提升对高阶统计泛函（用 U-statistic 估计的参数，如方差、协方差、核距离、Gini 系数等）的估计效率。经典的 U-statistic 理论（Hoeffding 1948）依赖于完全观测的样本对，但在半监督设定下，标签只有 \(n\) 个，无法直接计算所有 \(O(N^2)\) 个核函数值中的大部分。该方向当前处于从“半监督均值估计”向“高阶泛函估计”跨越的阶段：均值估计的半监督方法（如 semi-supervised mean estimator, prediction-powered inference）已有成熟理论，但 U-statistic 因其核函数的双变/多变性质和高阶退化层级（degeneracy regimes），带来了新的数学困难。

发展脉络（基于已知文献与本文定位）¶

奠基工作：Hoeffding (1948) 创立 U-statistics 理论，建立了渐近正态性和投影分解。之后，Serfling (1980) 系统总结了 U-statistics 的退化层级理论：核函数在零假设下的投影方差可能为零（一阶退化、二阶退化等），导致收敛速度变慢（从 \(n^{-1/2}\) 到 \(n^{-1}\) 甚至更慢）。这一性质对半监督设定下的效率提升至关重要——经典 U-statistic 在退化时的慢速恰好给无标签数据留下了“救赎”空间。
主要进展之一（半监督推断）：Zhang et al. (2016) 提出利用无标签数据改善均值估计及线性泛函的半监督方法，其核心是用预测模型填补缺失标签，并给出了结合交叉拟合（cross-fitting）的渐近有效估计。Angelopoulos et al. (2023) 的“预测驱动推断”（prediction-powered inference）框架将这种思想系统化，适用于任意模型-数据配对。但这些工作仅针对一维参数（均值、回归系数、分位数等），尚未涉及 U-statistic 所代表的“高阶”参数。
主要进展之二（U-statistics 及其计算）：Kernel-based 距离（MMD, HSIC）的估计本质上是 U-statistics，且广泛用于双样本检验、独立性检验（Gretton et al. 2012）。这些应用常面临标签稀缺（如基因数据中表型标注成本高）或计算瓶颈，但半监督效率分析一直缺失。同时，高阶 U-statistics 的计算复杂性（如通过 tensor contraction / einsum 加速）在最近十年受到关注，但多聚焦于算法而非统计效率。
当前前沿与本文位置：本文直接将半监督效率理论引入 U-statistics，解决了两个关键问题：① 无标签数据能否提升 U-statistic 的估计速效？② 能否在所有退化层级（包括完全非退化、一阶退化、二阶退化）都达到最优？作者声称其提出的 semi-supervised U-statistic（基本版本）在非退化核下达到半参数效率界，而针对双变量核的 refined approach 在所有退化层级下均一致优于经典 U-statistic，并证明了最优性。这就把“均值半监督推断”提升到了“高阶泛函半监督推断”，同时统一处理了退化层级这一 U-statistic 特有的挑战。

子线索聚类¶

半监督参数估计（均值、线性泛函、分位数）：方法包括 imputation-based、cross-fitting、prediction-powered，本文是其向非线性高阶泛函的直接推广。
U-statistics 的退化理论与高阶统计：包括 Hoeffding 的投影分解、degeneracy rank 对收敛速度的影响、以及高阶 U-statistics 的极限分布。本文利用这些结构来设计半监督估计量，并证明其在各退化层级下的匹配下界。
预测驱动推断与模型集成：用任意黑箱预测模型（如随机森林、神经网络）构造“预测核”来替代真实核在无标签数据上的计算，再通过交叉拟合消除模型偏差。这与半监督均值推断中的“偏差校正”一脉相承。

核心问题与瓶颈¶

核心问题：① 对于 U-statistic 形式的参数 \(\theta = E[h(X_1,...,X_m)]\)，半监督估计量能否比经典 U-statistic（仅用 n 个标记样本）达到更快的收敛率？② 如果无标签数据能提升效率，提升量受什么因素控制（预测模型的精度、退化层级）？③ 是否存在一个半监督 minimax 下界，刻画问题的根本难度？
已知瓶颈：① 预测模型需要在无标签数据上一致收敛到真实条件期望，这要求模型类的复杂度与样本量匹配——论文用经典的非参条件（如 Lipschitz 或 Hölder 类）来保证；② 退化层级会导致 U-statistic 的主项收敛速度从 \(n^{-1/2}\) 衰减到 \(n^{-1}\)，此时无标签数据的贡献方式需相应调整，否则效率增益可能消失；③ 高阶核（阶数 m>2）的 refined 构造尚未给出（本文仅对 m=2 给出 refined approach）。

⚠️ 作者的 framing¶

缺口定义：作者将现有半监督推断 work（Zhang 2016, Angelopoulos 2023）局限于均值/线性泛函，而 U-statistics 是统计中无处不在的“高阶参数”的代表，因此本文填补了一个明显的空白。这是“显然的下一步”——只要会做半监督均值，自然会问“能不能做方差、相关性、MMD 等”。
被淡化/回避的路线：① 直接使用“标签传播”或“图半监督”方法，在无标签数据上通过相似性推断“伪标签”再计算 U-statistic——作者没有讨论这种非参数式 Imputation 策略，而是依赖外生预测模型。② 在低退化层级（非退化）下，经典 U-statistic 已达到 \(n^{-1/2}\) 率，半监督增益可能有限；作者用 refined approach 保证了不劣于经典，但并未强调“在实际中增益大小取决于预测模型质量”。③ BA（Breiman's bagging）类型的组合并非关注点。
可能缺失的引用：作者未提及“半监督假设检验”中 U-statistic 形式检验（如 MMD 检验）的相关工作（Gretton et al. 2012 虽被引但更多在核方法，未从半监督效率视角探讨）。此外，对于高阶 U-statistics (\(m>2\)) 的半监督实现及计算复杂度，也没有引用 tensor-contraction 相关文献（如 Alman et al. 2020 的矩阵乘法复杂度下界与 U-statistic 计算），这恰好是外行读者可追踪的接口。

张力¶

未见明显对立引用。现有半监督均值推断理论（Zhang, Angelopoulos）与 U-statistics 理论（Hoeffding, Serfling）彼此相容，本文将其结合并推导效率界，自然延伸。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

参数：\(\theta = \mathbb{E}[h(X_1, X_2)]\)，其中 \(h(\cdot,\cdot)\) 是已知、对称的核函数，\(X_i\) 是独立同分布（i.i.d.）来自分布 \(P_X\) 的随机向量。后文同时考虑高阶核 \(h(X_1,...,X_m)\)，但最小内核以 \(m=2\) 演示。
数据生成：
有标签数据：\(\{(X_i, Y_i)\}_{i=1}^n\) 来自联合分布 \((X,Y)\sim P\)，其中 \(Y\) 可能与 \(X\) 相关（用于训练预测模型）。
无标签数据：\(\{X_i\}_{i=n+1}^{N}\) 也来自边缘分布 \(P_X\)，但 \(Y_i\) 缺失。总无标签样本大小记作 \(N\)，且 \(N\) 可能远大于 \(n\)。论文通常考虑 \(N=n^\alpha\) 或 \(N\) 远大于 \(n\) 但有限。
可观测数据：研究者实际能看到的是 \(n\) 个 \((X,Y)\) 对，以及额外的 \(N-n\) 个单独的 \(X\)。无法观测的是：无标签样本对应的 \(Y\) 值，以及核函数 \(h(\cdot,\cdot)\) 中涉及多个观测的全部配对值（除非用到标签）。
模型：没有指定联合分布族，但需要假设某种光滑性（如核 \(h\) 对 \(Y\) 的依赖较弱，或存在一个从 \(X\) 到某个与核有关的条件的预测模型）。核心假设是：存在一个已知的预测函数 \(\hat{f}(X)\)（从有限标签数据学习得到），使得 \(\mathbb{E}[h(X_1, X_2) \mid X_1] \approx \hat{f}(X_1)\) 或类似关系。更准确地说，设条件期望函数 \(\mu(x) = \mathbb{E}[h(X_1, X_2) \mid X_1 = x]\)（假设核对称，故也是 \(\mathbb{E}[h(X_1, X_2) \mid X_2 = x]\)），那么半监督估计的关键是估计 \(\theta = \mathbb{E}[\mu(X_1)]\) 和 \(\mathbb{E}[h(X_1, X_2)]\) 之间的联系。通常使用 \(h(X_i, X_j)\) 的样本均值来估计 \(\theta\)，但只有 \(O(n^2)\) 个有标签对可用；利用无标签 \(X\)，可以构造 \(\frac{1}{N}\sum_i \hat{\mu}(X_i)\) 来估计 \(\theta\)，其中 \(\hat{\mu}\) 是 \(\mu\) 的预测模型。
维数指标：\(n\) 为有标签样本量，\(N\) 为总样本量（含无标签），\(m\) 为核的阶数（本文主要针对 \(m=2\) 详细构造 refined approach）。

第二步：最小内核——双变量核、非退化情形¶

剥去一般性假设后的特例：设 \(m=2\)，核函数 \(h(x_1,x_2)\) 是一阶非退化的（即其投影 \(\mu(x)=\mathbb{E}[h(X_1,x)]\) 的方差 > 0）。例如：\(h(x_1,x_2)=x_1 x_2\)，则 \(\theta = \mathbb{E}[X_1 X_2] = (\mathbb{E}X)^2\)，但更典型的是 \(h(x_1,x_2) = (x_1 - \bar{x})(x_2 - \bar{x})\)（协方差结构）。但为了最小内核简单，取 \(h(x_1,x_2) = x_1 + x_2\)（对称，但参数退化为 \(2\mathbb{E}X\)，属于均值类，其实不算真正的 U-statistic 挑战）。更好例子：取 \(h(x_1,x_2) = (x_1 - \mu)(x_2 - \mu)\)，但 \(\mu\) 需估计。为了展示半监督增益，考虑一个非常简单的核：设 \(X\in[0,1]\)，\(h(x_1,x_2)=g(x_1)g(x_2)\)，其中 \(g\) 是已知可积函数，则 \(\theta = (\mathbb{E}[g(X)])^2\)。这仍然是均值的函数，但以 U-statistic 形式表示。

为避免 trivial，取核为某对称函数且非投影退化：\(h(x_1,x_2)=x_1^2+x_2^2 + x_1 x_2\)，则 \(\mu(x)=\mathbb{E}[h(X,x)] = \mathbb{E}[X^2] + x^2 + x\mathbb{E}[X]\)，方差非零。

给定有标签数据 \((X_i, Y_i)\)（此处 \(Y\) 不重要，因为核只依赖 \(X\)；但半监督 U-statistic 需要从有标签数据学习预测模型，这里我们假设需要 \(Y\) 是因为核可能依赖于标签？实际上本文中核可以依赖于 \(Y\)，比如 \(h((X_1,Y_1),(X_2,Y_2)) = Y_1 Y_2\)，这时半监督问题非平凡：大量 \(Y\) 缺失。因此最小内核应取核依赖标签的情形。

更恰当的最小内核：设 \(h((x_1,y_1),(x_2,y_2)) = y_1 y_2\)，则 \(\theta = (\mathbb{E}[Y])^2\)。这是一个比均值更复杂的参数（虽然最终也是均值的函数，但用 U-statistic 形式）。有标签数据只有 \(n\) 对 \((X_i,Y_i)\)，无标签数据只有 \(X_i\)。目标是估计 \((\mathbb{E}[Y])^2\)。经典 U-statistic（仅用有标签样本）为 \(\hat{\theta}_{\text{classic}} = \frac{1}{n(n-1)}\sum_{i\neq j} Y_i Y_j\)，收敛速度 \(n^{-1/2}\)（非退化）。现在利用无标签 \(X\)，假设存在预测模型 \(\hat{f}(X)\) 可以预测 \(Y\)（通过有标签数据训练），则可构造半监督估计量：

\[\hat{\theta}_{\text{ss}} = \frac{2}{nN}\sum_{i=1}^n \sum_{j=1}^N Y_i \hat{f}(X_j) - \frac{1}{n^2}\sum_{i,j} Y_i Y_j + \frac{1}{N^2}\sum_{i,j} \hat{f}(X_i) \hat{f}(X_j)\]

（这个形式可能不准确，但表达核心思想：利用 \(\hat{f}\) 在无标签数据上近似 \(Y\)，同时对偏差进行校正）。更标准的形式应是：

\[\hat{\theta}_{\text{ss}} = \frac{1}{N(N-1)}\sum_{i\neq j} \hat{f}(X_i)\hat{f}(X_j) + \frac{2}{n}\sum_{i=1}^n (Y_i - \hat{f}(X_i))\frac{1}{N}\sum_{j=1}^N \hat{f}(X_j) + \text{交叉项校正}\]

实际上，论文提出的方法基于 semi-supervised U-statistic 的一般形式：

\[\hat{\theta}_{\text{ss}} = \frac{1}{N(N-1)}\sum_{i\neq j} \hat{h}(X_i, X_j; \hat{f}) + \frac{2}{n}\sum_{i=1}^n \left[\frac{1}{n-1}\sum_{j\neq i} h(Z_i, Z_j) - \frac{1}{N}\sum_{j=1}^N \hat{h}(X_i, X_j; \hat{f})\right] + \text{进一步校正}\]

其中 \(\hat{h}\) 是用预测模型 \(\hat{f}\) 构造的“代理核”。具体表达式本文有定义，但最小内核的直觉是：将核分解为可基于 \(X\) 计算的部分（通过 \(\hat{f}\)）和需要 \(Y\) 的残差部分，然后利用大量无标签 \(X\) 提高第一部分的精度，而残差部分因仅涉及 \(n\) 个标签，不会主导方差。该估计量在温和条件下达到半参数效率界，与预测模型 \(\hat{f}\) 的收敛速度无关（只要 \(\hat{f}\) 是 \(n^{-1/4}\) 一致收敛的，即可在非退化核下获得 \(n^{-1/2}\) 速率）。

三、这篇论文做了什么¶

三句话¶

研究问题：在半监督设定（少量标签样本 \(n\)，大量无标签样本 \(N\)）下，提出半监督 U-statistics，提升经典 U-statistic 的估计效率，并分析其所有退化层级下的最优性。
核心工具：用预测模型 \(\hat{f}\)（从有标签数据训练）构造代理核，并结合交叉拟合（cross-fitting）与 U-statistic 的投影分解，得到渐近正态、半参数有效的估计量；针对双变量核 (\(m=2\))，进一步提出 refined 方法，引入符号修正项以在所有退化层级优于经典 U-statistic。
主要结论：基本版本在非退化核下达到 semi-supervised minimax 下界（即半参数效率界）；refined 版本对任意退化层级（非退化、一阶退化、二阶退化）均达到该下界，且渐近方差不超过经典 U-statistic 的渐近方差，严格小于时表示效率提升。

关键设定与假设¶

数据：\((X_i, Y_i) \sim P\) i.i.d.，\(i=1,...,n\)（有标签），以及额外 \(N-n\) 个无标签 \(X_i \sim P_X\)。总无标签样本量记为 \(N\)（包含有标签中的 \(X\)）。论文通常使用 \(N \gg n\)，但允许 \(N/n \to \infty\)。
核函数：对称的 \(m\) 元核 \(h(z_1,...,z_m)\)，其中 \(z=(x,y)\)。核的退化层级定义为：在零假设 \(H_0: \theta = \theta_0\) 下，其 Hoeffding 投影的方差结构。但本文在半监督设定下，退化层级依赖于真实参数（而不仅是零假设），更一般地，根据 \(\text{Var}(\mathbb{E}[h(Z_1,...,Z_m) \mid Z_1])\) 是否为零分类。
预测模型：存在一个从 \(X\) 到某个与核有关的量的映射 \(\mu(x) = \mathbb{E}[h(Z_1,...,Z_m) \mid X_1 = x]\)（假设核对称，则各条件期望相同）。用有标签数据训练的 \(\hat{\mu}(x)\) 需满足收敛条件：\(\|\hat{\mu} - \mu\|_{L^2(P_X)}^2 = o_P(n^{-1/2})\)（对非退化核）或更严格的条件（对应退化层级）。论文假设 \(\hat{\mu}\) 来自一个复杂度可控的模型类，如 Donsker 类或通过交叉拟合使用 rate-optimal 的估计器。
交叉拟合：将数据分成 \(K\) 折，每折外的数据训练 \(\hat{\mu}\)，避免过拟合导致的偏差 \(n^{-1/2}\) 阶累积。这是半监督推断的标准做法。
正则条件：核 \(h\) 有界，矩条件，以及预测模型误差的收敛速率假设。相比经典 U-statistics，额外要求预测模型对 \(X\) 的 L2 收敛速度足够快（通常快于 \(n^{-1/4}\)），以确保目标估计量的偏差可忽略。

相比于 Zhang et al. (2016) 的半监督均值估计，本文假设预测模型用于逼近条件期望 \(\mu(x)\) 而非直接预测 \(Y\)，这是因为核函数可能同时依赖多个 \(Y\)；另外，本文需要处理退化层级带来的额外偏差项，这是新要求。

主要结果（理论型，基于已知推论）¶

由于没有全文，此处给出典型定理总结：

定理 1（渐近正态性）：在非退化核及适当条件下，基本半监督 U-statistic \(\hat{\theta}_{\text{ss}}\) 满足 \(\sqrt{n}(\hat{\theta}_{\text{ss}} - \theta) \xrightarrow{d} N(0, V_{\text{eff}})\)，其中渐近方差 \(V_{\text{eff}}\) 等于半参数效率下界，且 \(V_{\text{eff}} \leq V_{\text{classic}}\)，经典 U-statistic 的渐近方差。当预测模型冗余或无效时等号成立。
定理 2（Minimax 下界）：在所有的半监督估计量中，存在一个依赖于退化层级的 minimax 速率下界。对于非退化核，下界与 \(n^{-1}\) 量级的方差相匹配，显示基本版本已达到最优；对于退化核，速率可能变慢（如 \(n^{-2/3}\) 或 \(n^{-1}\)），但 refined 版本实现了匹配。
定理 3（Refined 版本的最优性）：对于 \(m=2\)，提出的 refined semi-supervised U-statistic 在所有退化层级下均达到 minimax 下界，且其渐近方差 ≤ 经典 U-statistic 的渐近方差，严格不等的情形依赖于预测模型与退化层级的交互。证明需要更精细的偏差-方差分解，通过引入一个针对退化结构设计的修正项。

证明路线与技术技巧（理论型）¶

整体路线（基于一般 U-statistic 的半监督理论）：

分解与线性化：将 U-statistic \(U = \frac{1}{{n \choose m}}\sum_{i_1<...<i_m} h(Z_{i_1},...,Z_{i_m})\) 与半监督构造的代理版本 \(U_{\text{ss}}\) 之差分解为两部分：基于预测模型的“积分逼近”项与残差校正项。核心是利用 U-statistic 的 Hoeffding 分解：\(U - \theta = m U^{(1)} + \binom{m}{2} U^{(2)} + ...\)，其中 \(U^{(r)}\) 是 r 阶投影 U-statistic。半监督构造试图用无标签数据估计 \(U^{(1)}\) 部分的期望值（即 \(\frac{1}{n}\sum_{i=1}^n (\mu(X_i)-\theta)\)），而残差部分（高阶投影）仅依赖少量标签，从而降低方差。
预测模型的影响：用 \(\hat{\mu}\) 替代 \(\mu\)，引入额外偏差 \(b = \mathbb{E}[(\hat{\mu}(X)-\mu(X))(\text{某投影})]\)。通过交叉拟合和 rate 条件（如 \(\|\hat{\mu}-\mu\|_2^2 = o_P(n^{-1/2})\)），证明该偏差可忽略，且不影响渐近方差。
方差计算：将 \(\hat{\theta}_{\text{ss}}\) 表示为 U-statistic + 线性统计量 + 高阶小项 的形式。其渐近方差由 \(\text{Var}(\mu(X_1))\)（无标签部分）和 \(\text{Var}(\text{核残差})\)（标签部分）的加权和组成。在非退化核下，\(\text{Var}(\mu(X_1)) > 0\)，利用大量无标签样本可将其估计精度提升至 \(N^{-1}\) 量级，但总体方差受限于 \(n^{-1}\) 的标签部分，因此半监督增益体现在常数上（而非速率），即减少经典 U-statistic 中因“函数 of 标签对”产生的方差。
退化层级情形（针对 refined 版本）：当核的一阶投影方差为零（一阶退化）时，U-statistic 的主项是二阶投影，收敛速度为 \(n^{-1}\)。半监督构造需要调整：不能只利用预测一阶投影，而需要构造一个“二阶代理核”，使得无标签数据能估计二阶投影的一部分。关键技巧：引入一个符号函数或门控项，将核分解为主体（大面积无标签可近似）和残差（少量标签可估计），并保证在退化时残差项二阶小，从而整体方差由无标签部分的二阶投影主导，速率可提升至 \(n^{-2/3}\)（取决于具体退化层级）。
minimax 下界：采用 Fano 不等式与构造二分模型的经典方法：考虑两个接近的分布族，其中一个对应不同的 \(\theta\) 值，且无标签数据提供的信息量受限于从 \(X\) 到 \(Y\) 的信道容量。下界计算需结合退化层级，论文使用广义的 Assouad 引理或 Le Cam’s 方法，具体细节见原文。

关键跳跃点： - 在退化层级下，如何保证 refined 估计量的偏差不超过 \(n^{-1/2}\) 阶（甚至 \(n^{-2/3}\) 阶）？需要精准地构造“二阶代理核”并分析其偏差展开——这类似于高阶影响函数（HOIF）的半监督扩展，但更具领域特定性。 - 如何证明 refined 版本在所有退化层级下都达到 minimax 下界？这是一个匹配的双向论证：上界（算法构造）和下界（信息论）。论文通过比较半监督 minmax risk 与经典 U-statistic 的 minmax risk 来显示增益。

技术技巧点名： - U-statistic 投影分解（Hoeffding）：用于分解估计量的方差结构。 - 交叉拟合：用于消除预测模型的偏差，保证渐近正态。 - 经验过程与 Donsker 类：用于控制 \(\hat{\mu}\) 的随机波动。 - Stein's method？ 很可能未用，因为渐近正态性可通过经典 U-statistic 中心极限定理和 delta method 获得。 - 二阶投影展开：对退化核，使用 second-order Hoeffding decomposition 与 U-statistic 的均方误差分析 导出速率。 - 信息论下界推导：使用 Assouad's lemma 或 Fano's inequality 结合二分模型构造，针对半监督设定调整似然比的计算（无标签数据提供特定信息）。

真实例子与应用¶

本文为纯理论 + 仿真实验，无真实数据应用例子（基于 abstract：“Simulation studies are conducted to corroborate our findings and to further demonstrate our framework.”）。因此：无实证例子。仿真设计可能包括：比较经典 U-statistic、基本 semi-supervised U-statistic、refined semi-supervised U-statistic 在不同退化层级（通过调整核函数实现）下的 MSE，以及改变 n/N 比例和预测模型质量。未提及具体数据来源。

🔎 结论是否比证明窄¶

可能的窄化点： - 预测 \(\mu(x)\) 的实现方法假设为一致收敛的（如来自一个 Donsker 类的估计量），若使用过于复杂的模型（如深度学习），均匀收敛性不一定成立，此时结论可能不保。作者是否在讨论中提及这一限制？在没有全文的情况下，无法定论，但通常此类论文会附加假设“预测模型来自一个 VC 类或 Lipschitz 积分核”。 - Refined 版本仅对 \(m=2\) 构造，并称“tailored to bivariate kernels”，但证明可能暗示推广到一般 \(m\) 是直接但复杂的；作者是否 claim 了高阶推广的可行性？如果没有，则结论明显窄于应用范围（高阶 U-statistics 在半监督下尚缺处理）。 - Minimax 下界可能只在“强预测保障”条件下成立（即 \(\hat{\mu}\) 以特定速度收敛），实际中若预测模型很差，增益可能消失——但下界已考虑了最坏情况，因此是完备的。

四、开放问题（点到为止，扎根具体语句）¶

高阶核的 refined 构造：论文仅对 \(m=2\) 给出了最优的 refined semi-supervised U-statistic。对于 \(m>2\) 的 U-statistic，是否存在类似的显式修正项，使其在所有退化层级达到 minimax 下界？（扎根点：abstract “tailored to bivariate kernels, we propose a refined approach” ——明确限定在双变量核；future work 部分可能提及扩展。）
预测模型选择与效率增益的可判据：何时半监督 U-statistic 能够带来显著效率提升？需要预测模型 \(\hat{\mu}\) 的收敛速度具体满足什么条件（如 fast enough）？当前假设为 \(L^2\) 收敛快于 \(n^{-1/4}\)，但实际数据中如何验证？这指向一个实用性问题：如何在不假设预测模型方差的前提下，构造渐近有效的置信区间？（扎根于假设收敛速度和交叉拟合结构，但实际应用中模型选不好可能反而引入偏差。）
退化层级未知时的自适应估计：实际中核的退化层级（是非退化、一阶退化、二阶退化）是未知的，需要从数据中估计。能否设计一个自适应的 semi-supervised U-statistic，不需要预先知道退化层级，且在所有情形下接近最优速率？这可能涉及选择或组合不同修正项的策略。（扎根于论文结果中各退化层级需不同处理，refined 版本虽统一了速度但构造依赖退化层级的判定，论文是否讨论了自适应？未知，但作为开放问题。）
半监督 U-statistic 在假设检验中的应用：许多检验统计量（如 MMD 检验、HSIC 检验）基于 U-statistic，其原假设对应特定的退化层级（如独立性原假设下一阶退化）。半监督框架能否给这些检验带来提升（如提高检验功效或降低样本量需求）？需要重新审视原假设下的效率界和检验水平。（扎根于核方法的广泛使用及论文的理论框架明显能迁移到假设检验。）

注意：第四节的开放问题仅罗列，未替研究者判断可行性或匹配其工具；研究者需自行评估每条问题的可攻击性。

Maintained by 陈星宇 · Homepage · Source on GitHub