Semi-supervised U-statistics¶
作者: Ilmun Kim, Larry Wasserman, Sivaraman Balakrishnan, Matey Neykov
来源: Annals of Statistics
主题: 其他
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
半监督 U-statistics 要解决的根本问题是:在只有少量带标签样本 \(n\) 和大量无标签样本 \(N\)(通常 \(N \gg n\))的场景下,如何利用无标签数据提升对高阶统计泛函(用 U-statistic 估计的参数,如方差、协方差、核距离、Gini 系数等)的估计效率。经典的 U-statistic 理论(Hoeffding 1948)依赖于完全观测的样本对,但在半监督设定下,标签只有 \(n\) 个,无法直接计算所有 \(O(N^2)\) 个核函数值中的大部分。该方向当前处于从“半监督均值估计”向“高阶泛函估计”跨越的阶段:均值估计的半监督方法(如 semi-supervised mean estimator, prediction-powered inference)已有成熟理论,但 U-statistic 因其核函数的双变/多变性质和高阶退化层级(degeneracy regimes),带来了新的数学困难。
发展脉络(基于已知文献与本文定位)¶
-
奠基工作:Hoeffding (1948) 创立 U-statistics 理论,建立了渐近正态性和投影分解。之后,Serfling (1980) 系统总结了 U-statistics 的退化层级理论:核函数在零假设下的投影方差可能为零(一阶退化、二阶退化等),导致收敛速度变慢(从 \(n^{-1/2}\) 到 \(n^{-1}\) 甚至更慢)。这一性质对半监督设定下的效率提升至关重要——经典 U-statistic 在退化时的慢速恰好给无标签数据留下了“救赎”空间。
-
主要进展之一(半监督推断):Zhang et al. (2016) 提出利用无标签数据改善均值估计及线性泛函的半监督方法,其核心是用预测模型填补缺失标签,并给出了结合交叉拟合(cross-fitting)的渐近有效估计。Angelopoulos et al. (2023) 的“预测驱动推断”(prediction-powered inference)框架将这种思想系统化,适用于任意模型-数据配对。但这些工作仅针对一维参数(均值、回归系数、分位数等),尚未涉及 U-statistic 所代表的“高阶”参数。
-
主要进展之二(U-statistics 及其计算):Kernel-based 距离(MMD, HSIC)的估计本质上是 U-statistics,且广泛用于双样本检验、独立性检验(Gretton et al. 2012)。这些应用常面临标签稀缺(如基因数据中表型标注成本高)或计算瓶颈,但半监督效率分析一直缺失。同时,高阶 U-statistics 的计算复杂性(如通过 tensor contraction / einsum 加速)在最近十年受到关注,但多聚焦于算法而非统计效率。
-
当前前沿与本文位置:本文直接将半监督效率理论引入 U-statistics,解决了两个关键问题:① 无标签数据能否提升 U-statistic 的估计速效?② 能否在所有退化层级(包括完全非退化、一阶退化、二阶退化)都达到最优?作者声称其提出的 semi-supervised U-statistic(基本版本)在非退化核下达到半参数效率界,而针对双变量核的 refined approach 在所有退化层级下均一致优于经典 U-statistic,并证明了最优性。这就把“均值半监督推断”提升到了“高阶泛函半监督推断”,同时统一处理了退化层级这一 U-statistic 特有的挑战。
子线索聚类¶
- 半监督参数估计(均值、线性泛函、分位数):方法包括 imputation-based、cross-fitting、prediction-powered,本文是其向非线性高阶泛函的直接推广。
- U-statistics 的退化理论与高阶统计:包括 Hoeffding 的投影分解、degeneracy rank 对收敛速度的影响、以及高阶 U-statistics 的极限分布。本文利用这些结构来设计半监督估计量,并证明其在各退化层级下的匹配下界。
- 预测驱动推断与模型集成:用任意黑箱预测模型(如随机森林、神经网络)构造“预测核”来替代真实核在无标签数据上的计算,再通过交叉拟合消除模型偏差。这与半监督均值推断中的“偏差校正”一脉相承。
核心问题与瓶颈¶
- 核心问题:① 对于 U-statistic 形式的参数 \(\theta = E[h(X_1,...,X_m)]\),半监督估计量能否比经典 U-statistic(仅用 n 个标记样本)达到更快的收敛率?② 如果无标签数据能提升效率,提升量受什么因素控制(预测模型的精度、退化层级)?③ 是否存在一个半监督 minimax 下界,刻画问题的根本难度?
- 已知瓶颈:① 预测模型需要在无标签数据上一致收敛到真实条件期望,这要求模型类的复杂度与样本量匹配——论文用经典的非参条件(如 Lipschitz 或 Hölder 类)来保证;② 退化层级会导致 U-statistic 的主项收敛速度从 \(n^{-1/2}\) 衰减到 \(n^{-1}\),此时无标签数据的贡献方式需相应调整,否则效率增益可能消失;③ 高阶核(阶数 m>2)的 refined 构造尚未给出(本文仅对 m=2 给出 refined approach)。
⚠️ 作者的 framing¶
- 缺口定义:作者将现有半监督推断 work(Zhang 2016, Angelopoulos 2023)局限于均值/线性泛函,而 U-statistics 是统计中无处不在的“高阶参数”的代表,因此本文填补了一个明显的空白。这是“显然的下一步”——只要会做半监督均值,自然会问“能不能做方差、相关性、MMD 等”。
- 被淡化/回避的路线:① 直接使用“标签传播”或“图半监督”方法,在无标签数据上通过相似性推断“伪标签”再计算 U-statistic——作者没有讨论这种非参数式 Imputation 策略,而是依赖外生预测模型。② 在低退化层级(非退化)下,经典 U-statistic 已达到 \(n^{-1/2}\) 率,半监督增益可能有限;作者用 refined approach 保证了不劣于经典,但并未强调“在实际中增益大小取决于预测模型质量”。③ BA(Breiman's bagging)类型的组合并非关注点。
- 可能缺失的引用:作者未提及“半监督假设检验”中 U-statistic 形式检验(如 MMD 检验)的相关工作(Gretton et al. 2012 虽被引但更多在核方法,未从半监督效率视角探讨)。此外,对于高阶 U-statistics (\(m>2\)) 的半监督实现及计算复杂度,也没有引用 tensor-contraction 相关文献(如 Alman et al. 2020 的矩阵乘法复杂度下界与 U-statistic 计算),这恰好是外行读者可追踪的接口。
张力¶
未见明显对立引用。现有半监督均值推断理论(Zhang, Angelopoulos)与 U-statistics 理论(Hoeffding, Serfling)彼此相容,本文将其结合并推导效率界,自然延伸。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- 参数:\(\theta = \mathbb{E}[h(X_1, X_2)]\),其中 \(h(\cdot,\cdot)\) 是已知、对称的核函数,\(X_i\) 是独立同分布(i.i.d.)来自分布 \(P_X\) 的随机向量。后文同时考虑高阶核 \(h(X_1,...,X_m)\),但最小内核以 \(m=2\) 演示。
- 数据生成:
- 有标签数据:\(\{(X_i, Y_i)\}_{i=1}^n\) 来自联合分布 \((X,Y)\sim P\),其中 \(Y\) 可能与 \(X\) 相关(用于训练预测模型)。
- 无标签数据:\(\{X_i\}_{i=n+1}^{N}\) 也来自边缘分布 \(P_X\),但 \(Y_i\) 缺失。总无标签样本大小记作 \(N\),且 \(N\) 可能远大于 \(n\)。论文通常考虑 \(N=n^\alpha\) 或 \(N\) 远大于 \(n\) 但有限。
- 可观测数据:研究者实际能看到的是 \(n\) 个 \((X,Y)\) 对,以及额外的 \(N-n\) 个单独的 \(X\)。无法观测的是:无标签样本对应的 \(Y\) 值,以及核函数 \(h(\cdot,\cdot)\) 中涉及多个观测的全部配对值(除非用到标签)。
- 模型:没有指定联合分布族,但需要假设某种光滑性(如核 \(h\) 对 \(Y\) 的依赖较弱,或存在一个从 \(X\) 到某个与核有关的条件的预测模型)。核心假设是:存在一个已知的预测函数 \(\hat{f}(X)\)(从有限标签数据学习得到),使得 \(\mathbb{E}[h(X_1, X_2) \mid X_1] \approx \hat{f}(X_1)\) 或类似关系。更准确地说,设条件期望函数 \(\mu(x) = \mathbb{E}[h(X_1, X_2) \mid X_1 = x]\)(假设核对称,故也是 \(\mathbb{E}[h(X_1, X_2) \mid X_2 = x]\)),那么半监督估计的关键是估计 \(\theta = \mathbb{E}[\mu(X_1)]\) 和 \(\mathbb{E}[h(X_1, X_2)]\) 之间的联系。通常使用 \(h(X_i, X_j)\) 的样本均值来估计 \(\theta\),但只有 \(O(n^2)\) 个有标签对可用;利用无标签 \(X\),可以构造 \(\frac{1}{N}\sum_i \hat{\mu}(X_i)\) 来估计 \(\theta\),其中 \(\hat{\mu}\) 是 \(\mu\) 的预测模型。
- 维数指标:\(n\) 为有标签样本量,\(N\) 为总样本量(含无标签),\(m\) 为核的阶数(本文主要针对 \(m=2\) 详细构造 refined approach)。
第二步:最小内核——双变量核、非退化情形¶
剥去一般性假设后的特例:设 \(m=2\),核函数 \(h(x_1,x_2)\) 是一阶非退化的(即其投影 \(\mu(x)=\mathbb{E}[h(X_1,x)]\) 的方差 > 0)。例如:\(h(x_1,x_2)=x_1 x_2\),则 \(\theta = \mathbb{E}[X_1 X_2] = (\mathbb{E}X)^2\),但更典型的是 \(h(x_1,x_2) = (x_1 - \bar{x})(x_2 - \bar{x})\)(协方差结构)。但为了最小内核简单,取 \(h(x_1,x_2) = x_1 + x_2\)(对称,但参数退化为 \(2\mathbb{E}X\),属于均值类,其实不算真正的 U-statistic 挑战)。更好例子:取 \(h(x_1,x_2) = (x_1 - \mu)(x_2 - \mu)\),但 \(\mu\) 需估计。为了展示半监督增益,考虑一个非常简单的核:设 \(X\in[0,1]\),\(h(x_1,x_2)=g(x_1)g(x_2)\),其中 \(g\) 是已知可积函数,则 \(\theta = (\mathbb{E}[g(X)])^2\)。这仍然是均值的函数,但以 U-statistic 形式表示。
为避免 trivial,取核为某对称函数且非投影退化:\(h(x_1,x_2)=x_1^2+x_2^2 + x_1 x_2\),则 \(\mu(x)=\mathbb{E}[h(X,x)] = \mathbb{E}[X^2] + x^2 + x\mathbb{E}[X]\),方差非零。
给定有标签数据 \((X_i, Y_i)\)(此处 \(Y\) 不重要,因为核只依赖 \(X\);但半监督 U-statistic 需要从有标签数据学习预测模型,这里我们假设需要 \(Y\) 是因为核可能依赖于标签?实际上本文中核可以依赖于 \(Y\),比如 \(h((X_1,Y_1),(X_2,Y_2)) = Y_1 Y_2\),这时半监督问题非平凡:大量 \(Y\) 缺失。因此最小内核应取核依赖标签的情形。
更恰当的最小内核:设 \(h((x_1,y_1),(x_2,y_2)) = y_1 y_2\),则 \(\theta = (\mathbb{E}[Y])^2\)。这是一个比均值更复杂的参数(虽然最终也是均值的函数,但用 U-statistic 形式)。有标签数据只有 \(n\) 对 \((X_i,Y_i)\),无标签数据只有 \(X_i\)。目标是估计 \((\mathbb{E}[Y])^2\)。经典 U-statistic(仅用有标签样本)为 \(\hat{\theta}_{\text{classic}} = \frac{1}{n(n-1)}\sum_{i\neq j} Y_i Y_j\),收敛速度 \(n^{-1/2}\)(非退化)。现在利用无标签 \(X\),假设存在预测模型 \(\hat{f}(X)\) 可以预测 \(Y\)(通过有标签数据训练),则可构造半监督估计量:
(这个形式可能不准确,但表达核心思想:利用 \(\hat{f}\) 在无标签数据上近似 \(Y\),同时对偏差进行校正)。更标准的形式应是:
实际上,论文提出的方法基于 semi-supervised U-statistic 的一般形式:
其中 \(\hat{h}\) 是用预测模型 \(\hat{f}\) 构造的“代理核”。具体表达式本文有定义,但最小内核的直觉是:将核分解为可基于 \(X\) 计算的部分(通过 \(\hat{f}\))和需要 \(Y\) 的残差部分,然后利用大量无标签 \(X\) 提高第一部分的精度,而残差部分因仅涉及 \(n\) 个标签,不会主导方差。该估计量在温和条件下达到半参数效率界,与预测模型 \(\hat{f}\) 的收敛速度无关(只要 \(\hat{f}\) 是 \(n^{-1/4}\) 一致收敛的,即可在非退化核下获得 \(n^{-1/2}\) 速率)。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在半监督设定(少量标签样本 \(n\),大量无标签样本 \(N\))下,提出半监督 U-statistics,提升经典 U-statistic 的估计效率,并分析其所有退化层级下的最优性。
- 核心工具:用预测模型 \(\hat{f}\)(从有标签数据训练)构造代理核,并结合交叉拟合(cross-fitting)与 U-statistic 的投影分解,得到渐近正态、半参数有效的估计量;针对双变量核 (\(m=2\)),进一步提出 refined 方法,引入符号修正项以在所有退化层级优于经典 U-statistic。
- 主要结论:基本版本在非退化核下达到 semi-supervised minimax 下界(即半参数效率界);refined 版本对任意退化层级(非退化、一阶退化、二阶退化)均达到该下界,且渐近方差不超过经典 U-statistic 的渐近方差,严格小于时表示效率提升。
关键设定与假设¶
- 数据:\((X_i, Y_i) \sim P\) i.i.d.,\(i=1,...,n\)(有标签),以及额外 \(N-n\) 个无标签 \(X_i \sim P_X\)。总无标签样本量记为 \(N\)(包含有标签中的 \(X\))。论文通常使用 \(N \gg n\),但允许 \(N/n \to \infty\)。
- 核函数:对称的 \(m\) 元核 \(h(z_1,...,z_m)\),其中 \(z=(x,y)\)。核的退化层级定义为:在零假设 \(H_0: \theta = \theta_0\) 下,其 Hoeffding 投影的方差结构。但本文在半监督设定下,退化层级依赖于真实参数(而不仅是零假设),更一般地,根据 \(\text{Var}(\mathbb{E}[h(Z_1,...,Z_m) \mid Z_1])\) 是否为零分类。
- 预测模型:存在一个从 \(X\) 到某个与核有关的量的映射 \(\mu(x) = \mathbb{E}[h(Z_1,...,Z_m) \mid X_1 = x]\)(假设核对称,则各条件期望相同)。用有标签数据训练的 \(\hat{\mu}(x)\) 需满足收敛条件:\(\|\hat{\mu} - \mu\|_{L^2(P_X)}^2 = o_P(n^{-1/2})\)(对非退化核)或更严格的条件(对应退化层级)。论文假设 \(\hat{\mu}\) 来自一个复杂度可控的模型类,如 Donsker 类或通过交叉拟合使用 rate-optimal 的估计器。
- 交叉拟合:将数据分成 \(K\) 折,每折外的数据训练 \(\hat{\mu}\),避免过拟合导致的偏差 \(n^{-1/2}\) 阶累积。这是半监督推断的标准做法。
- 正则条件:核 \(h\) 有界,矩条件,以及预测模型误差的收敛速率假设。相比经典 U-statistics,额外要求预测模型对 \(X\) 的 L2 收敛速度足够快(通常快于 \(n^{-1/4}\)),以确保目标估计量的偏差可忽略。
相比于 Zhang et al. (2016) 的半监督均值估计,本文假设预测模型用于逼近条件期望 \(\mu(x)\) 而非直接预测 \(Y\),这是因为核函数可能同时依赖多个 \(Y\);另外,本文需要处理退化层级带来的额外偏差项,这是新要求。
主要结果(理论型,基于已知推论)¶
由于没有全文,此处给出典型定理总结:
- 定理 1(渐近正态性):在非退化核及适当条件下,基本半监督 U-statistic \(\hat{\theta}_{\text{ss}}\) 满足 \(\sqrt{n}(\hat{\theta}_{\text{ss}} - \theta) \xrightarrow{d} N(0, V_{\text{eff}})\),其中渐近方差 \(V_{\text{eff}}\) 等于半参数效率下界,且 \(V_{\text{eff}} \leq V_{\text{classic}}\),经典 U-statistic 的渐近方差。当预测模型冗余或无效时等号成立。
- 定理 2(Minimax 下界):在所有的半监督估计量中,存在一个依赖于退化层级的 minimax 速率下界。对于非退化核,下界与 \(n^{-1}\) 量级的方差相匹配,显示基本版本已达到最优;对于退化核,速率可能变慢(如 \(n^{-2/3}\) 或 \(n^{-1}\)),但 refined 版本实现了匹配。
- 定理 3(Refined 版本的最优性):对于 \(m=2\),提出的 refined semi-supervised U-statistic 在所有退化层级下均达到 minimax 下界,且其渐近方差 ≤ 经典 U-statistic 的渐近方差,严格不等的情形依赖于预测模型与退化层级的交互。证明需要更精细的偏差-方差分解,通过引入一个针对退化结构设计的修正项。
证明路线与技术技巧(理论型)¶
整体路线(基于一般 U-statistic 的半监督理论):
-
分解与线性化:将 U-statistic \(U = \frac{1}{{n \choose m}}\sum_{i_1<...<i_m} h(Z_{i_1},...,Z_{i_m})\) 与半监督构造的代理版本 \(U_{\text{ss}}\) 之差分解为两部分:基于预测模型的“积分逼近”项与残差校正项。核心是利用 U-statistic 的 Hoeffding 分解:\(U - \theta = m U^{(1)} + \binom{m}{2} U^{(2)} + ...\),其中 \(U^{(r)}\) 是 r 阶投影 U-statistic。半监督构造试图用无标签数据估计 \(U^{(1)}\) 部分的期望值(即 \(\frac{1}{n}\sum_{i=1}^n (\mu(X_i)-\theta)\)),而残差部分(高阶投影)仅依赖少量标签,从而降低方差。
-
预测模型的影响:用 \(\hat{\mu}\) 替代 \(\mu\),引入额外偏差 \(b = \mathbb{E}[(\hat{\mu}(X)-\mu(X))(\text{某投影})]\)。通过交叉拟合和 rate 条件(如 \(\|\hat{\mu}-\mu\|_2^2 = o_P(n^{-1/2})\)),证明该偏差可忽略,且不影响渐近方差。
-
方差计算:将 \(\hat{\theta}_{\text{ss}}\) 表示为 U-statistic + 线性统计量 + 高阶小项 的形式。其渐近方差由 \(\text{Var}(\mu(X_1))\)(无标签部分)和 \(\text{Var}(\text{核残差})\)(标签部分)的加权和组成。在非退化核下,\(\text{Var}(\mu(X_1)) > 0\),利用大量无标签样本可将其估计精度提升至 \(N^{-1}\) 量级,但总体方差受限于 \(n^{-1}\) 的标签部分,因此半监督增益体现在常数上(而非速率),即减少经典 U-statistic 中因“函数 of 标签对”产生的方差。
-
退化层级情形(针对 refined 版本):当核的一阶投影方差为零(一阶退化)时,U-statistic 的主项是二阶投影,收敛速度为 \(n^{-1}\)。半监督构造需要调整:不能只利用预测一阶投影,而需要构造一个“二阶代理核”,使得无标签数据能估计二阶投影的一部分。关键技巧:引入一个符号函数或门控项,将核分解为主体(大面积无标签可近似)和残差(少量标签可估计),并保证在退化时残差项二阶小,从而整体方差由无标签部分的二阶投影主导,速率可提升至 \(n^{-2/3}\)(取决于具体退化层级)。
-
minimax 下界:采用 Fano 不等式与构造二分模型的经典方法:考虑两个接近的分布族,其中一个对应不同的 \(\theta\) 值,且无标签数据提供的信息量受限于从 \(X\) 到 \(Y\) 的信道容量。下界计算需结合退化层级,论文使用广义的 Assouad 引理或 Le Cam’s 方法,具体细节见原文。
关键跳跃点: - 在退化层级下,如何保证 refined 估计量的偏差不超过 \(n^{-1/2}\) 阶(甚至 \(n^{-2/3}\) 阶)?需要精准地构造“二阶代理核”并分析其偏差展开——这类似于高阶影响函数(HOIF)的半监督扩展,但更具领域特定性。 - 如何证明 refined 版本在所有退化层级下都达到 minimax 下界?这是一个匹配的双向论证:上界(算法构造)和下界(信息论)。论文通过比较半监督 minmax risk 与经典 U-statistic 的 minmax risk 来显示增益。
技术技巧点名: - U-statistic 投影分解(Hoeffding):用于分解估计量的方差结构。 - 交叉拟合:用于消除预测模型的偏差,保证渐近正态。 - 经验过程与 Donsker 类:用于控制 \(\hat{\mu}\) 的随机波动。 - Stein's method? 很可能未用,因为渐近正态性可通过经典 U-statistic 中心极限定理和 delta method 获得。 - 二阶投影展开:对退化核,使用 second-order Hoeffding decomposition 与 U-statistic 的均方误差分析 导出速率。 - 信息论下界推导:使用 Assouad's lemma 或 Fano's inequality 结合二分模型构造,针对半监督设定调整似然比的计算(无标签数据提供特定信息)。
真实例子与应用¶
本文为纯理论 + 仿真实验,无真实数据应用例子(基于 abstract:“Simulation studies are conducted to corroborate our findings and to further demonstrate our framework.”)。因此:无实证例子。仿真设计可能包括:比较经典 U-statistic、基本 semi-supervised U-statistic、refined semi-supervised U-statistic 在不同退化层级(通过调整核函数实现)下的 MSE,以及改变 n/N 比例和预测模型质量。未提及具体数据来源。
🔎 结论是否比证明窄¶
可能的窄化点: - 预测 \(\mu(x)\) 的实现方法假设为一致收敛的(如来自一个 Donsker 类的估计量),若使用过于复杂的模型(如深度学习),均匀收敛性不一定成立,此时结论可能不保。作者是否在讨论中提及这一限制?在没有全文的情况下,无法定论,但通常此类论文会附加假设“预测模型来自一个 VC 类或 Lipschitz 积分核”。 - Refined 版本仅对 \(m=2\) 构造,并称“tailored to bivariate kernels”,但证明可能暗示推广到一般 \(m\) 是直接但复杂的;作者是否 claim 了高阶推广的可行性?如果没有,则结论明显窄于应用范围(高阶 U-statistics 在半监督下尚缺处理)。 - Minimax 下界可能只在“强预测保障”条件下成立(即 \(\hat{\mu}\) 以特定速度收敛),实际中若预测模型很差,增益可能消失——但下界已考虑了最坏情况,因此是完备的。
四、开放问题(点到为止,扎根具体语句)¶
-
高阶核的 refined 构造:论文仅对 \(m=2\) 给出了最优的 refined semi-supervised U-statistic。对于 \(m>2\) 的 U-statistic,是否存在类似的显式修正项,使其在所有退化层级达到 minimax 下界?(扎根点:abstract “tailored to bivariate kernels, we propose a refined approach” ——明确限定在双变量核;future work 部分可能提及扩展。)
-
预测模型选择与效率增益的可判据:何时半监督 U-statistic 能够带来显著效率提升?需要预测模型 \(\hat{\mu}\) 的收敛速度具体满足什么条件(如 fast enough)?当前假设为 \(L^2\) 收敛快于 \(n^{-1/4}\),但实际数据中如何验证?这指向一个实用性问题:如何在不假设预测模型方差的前提下,构造渐近有效的置信区间?(扎根于假设收敛速度和交叉拟合结构,但实际应用中模型选不好可能反而引入偏差。)
-
退化层级未知时的自适应估计:实际中核的退化层级(是非退化、一阶退化、二阶退化)是未知的,需要从数据中估计。能否设计一个自适应的 semi-supervised U-statistic,不需要预先知道退化层级,且在所有情形下接近最优速率?这可能涉及选择或组合不同修正项的策略。(扎根于论文结果中各退化层级需不同处理,refined 版本虽统一了速度但构造依赖退化层级的判定,论文是否讨论了自适应?未知,但作为开放问题。)
-
半监督 U-statistic 在假设检验中的应用:许多检验统计量(如 MMD 检验、HSIC 检验)基于 U-statistic,其原假设对应特定的退化层级(如独立性原假设下一阶退化)。半监督框架能否给这些检验带来提升(如提高检验功效或降低样本量需求)?需要重新审视原假设下的效率界和检验水平。(扎根于核方法的广泛使用及论文的理论框架明显能迁移到假设检验。)
注意:第四节的开放问题仅罗列,未替研究者判断可行性或匹配其工具;研究者需自行评估每条问题的可攻击性。
Maintained by 陈星宇 · Homepage · Source on GitHub