GRASP: a goodness-of-fit test for classification learning¶

作者: Adel Javanmard, Mohammad Mehrabi
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个方向研究的是二分类模型的拟合优度检验。核心科学问题是：给定一个训练好的二分类器（黑箱），它预测的标签概率是否与真实条件概率 P(Y=1|X) 足够匹配？传统的分类精度（accuracy）或AUC等指标只衡量预测标签的最终正确性，但无法区分模型是“准确定义了概率”还是仅仅是“预测标签正确但概率校准不良”。拟合优度检验要回答更深层的问题：模型对概率的估计是否从根本上与数据生成机制一致。

当前该方向正处于从渐近理论向有限样本、分布自由方法过渡的阶段。早期工作多为参数模型下的渐近检验，近年来出现了专门为机器学习黑箱模型设计的非参数检验方法，但大多仍依赖渐近近似或对特征分布有特定假设。这篇论文试图填补“有限样本、分布自由、且能处理有容忍度的零假设”这一空白。

发展脉络¶

奠基工作：校准度量与渐近检验 - Zhang, Ding & Yang (2019) [ZDY21] — 提出BAGofT (Binary Adaptive Goodness-of-Fit Test)，这是第一个针对非参数分类器的拟合优度检验。它通过数据分割、自适应分组来发现欠拟合最严重的区域，在渐近框架下控制I类错误。但它是渐近检验，有限样本性质未知。 - Shah & Bühlmann (2015) [SB15] — 提出残差预测检验（RPT），用于(高维)线性模型的拟合优度。核心思想：从初始拟合残差中提取剩余信号。局限性：只针对线性模型，且需要渐近近似求临界值。 - Janková, Shah, Bühlmann & Samworth (2019) [JSS19] — 将RPT推广到高维广义线性模型，如logistic回归。同样依赖渐近极限分布，有限样本下I类错误无保证。

主要进展：条件随机化检验框架 - Candès, Fan, Janson & Lv (2018) — 提出Model-X knockoffs框架，首次实现在已知特征分布X时对变量选择进行有限样本FDR控制。核心思想：创造“对照”变量（knockoff），通过交换性进行推断。 - Berrett, Wang, Barber & Samworth (2018) [BWBS18] — 提出条件置换检验（CPT），这是一种在已知X|Z近似分布下检验条件独立性的通用方法。其I类错误膨胀程度以近似误差为界。 - Holdout Randomization Test (HRT) [Tansey et al., 2018] — 使用数据分割来使条件随机化检验（CRT）在计算上可行，可以对任意黑箱模型进行特征选择。 - Pearson Chi-squared Conditional Randomization (PCR) test [Javanmard & Mehrabi, 2021 — 提出PCR检验，利用特征分布信息进行条件独立性检验，能通过少量随机化获得高分辨率p值。这是GRASP的直接技术前身，其“伪造采样-评分-标记”结构被GRASP采用。

当前Frontier与校准度量的发展 - Nixon et al. (2019) 和 Vaicenavicius et al. (2019) — 系统性地批判了常用的期望校准误差（ECE），指出其严重缺陷，并提出更合理的校准评估框架。 - Guo et al. (2017) — 发现现代神经网络普遍校准不良，但可通过温度缩放等简单后处理显著改善。这凸显了评估“概率匹配”而非“标签匹配”的实际必要性。 - Kumar, Liang & Ma (2019) — 提出缩放-分箱校准器，结合了参数方法的样本效率和分箱方法的可测量校准性，并指出现有方法通常比声称的更不校准。

本文的位置：GRASP论文定位在“条件随机化检验”这一发展线的最新延伸，将PCR的结构推广到一个新的任务——拟合优度检验。它同时处理了两个被前人遗漏的关键问题：(1) 允许零假设有容忍度（可以容忍与真实概率的微小偏离）；(2) 在有限样本下保证分布自由的I类错误控制，既不依赖渐近，也不依赖特征分布的精确知识（基础版）。

子线索聚类¶

渐近/高维模型的拟合优度检验：
- 核心工作：Shah & Bühlmann (2015) [SB15], Janková et al. (2019) [JSS19]。
- 做法：基于残差或预测误差构造统计量，利用渐近正态或自举法确定临界值。
- 核心局限：依赖模型的具体形式（线性/GLM），渐近近似在有限样本下可能不成立。
有限样本的条件随机化/置换检验：
- 核心工作：Model-X knockoffs (Barber & Candès, 2015), CPT (Berrett et al., 2018), HRT (Tansey et al., 2018), PCR test (Javanmard & Mehrabi, 2021)。
- 做法：利用特征X的分布知识（Model-X）或近似来构造零分布，从而获得有限样本下的有效p值。
- 核心局限：大多用于变量选择或条件独立性检验，而非直接的拟合优度检验；且“Model-X”要求特征分布已知。GRASP（基础版）的突破在于“不依赖特征分布”。
校准度量的理论与评估：
- 核心工作：Nixon et al. (2019), Vaicenavicius et al. (2019), Guo et al. (2017), Kumar, Liang & Ma (2019), Naeini, Cooper & Hauskrecht (2015)。
- 做法：定义和量化概率预测与经验频率之间的差距（如ECE），开发更好的估计和可视化方法。
- 核心局限：这些方法通常是描述性的——度量了校准程度，但没有提供严格的假设检验框架来控制I类错误。GRASP填补了从“度量”到“检验”的鸿沟。

这个方向在追问的核心问题与瓶颈¶

核心问题1：如何对任意黑箱分类器进行分布自由的拟合优度检验？ — 瓶颈：不假设Y|X的参数形式，也不假设X的分布，使得构造零分布本身变得非常困难。
核心问题2：如何允许模型“足够好但不必完美”？ — 瓶颈：传统精确零假设（H0: η̂ = η）在实践中过于严苛。一个有用的检验应允许公差τ，并检验 E[ Df(η||η̂) ] ≤ τ。
核心问题3：如何在有限样本下精确控制I类错误？ — 瓶颈：大多数现有方法（如BAGofT）依赖渐近近似，在样本量小时可能导致严重的I类错误膨胀。

⚠️ 作者的Framing¶

作者将缺口精心框架为：“现有工作要么是渐近的（BAGofT），要么需要特征X的分布以进行随机化检验（Model-X knockoffs, PCR），没有一个能同时做到分布自由、有限样本有效、并且处理容忍度假设检验。” 这篇论文的GRASP（基础版）声称填补了这一缺口。 - 被淡化的竞争路线：作者将BAGofT归类为“渐近”并有些轻描淡写，指出其有限样本不足。BAGofT的自适应分组思想在功效上可能很有吸引力，但作者通过“随机化-评分-打分”结构避免了分组。 - 明显应该存在但未见的事物：论文没有引用或讨论基于核方法的拟合优度测试（如MMD tests）在分类情景下的应用。MMD测试也是分布自由的，但通常用于检验两个分布是否相同，而非检验条件概率的匹配。这是值得研究者去查的一个潜在交叉点。

张力¶

未见明显对立引用。所有被引工作都沿着“从渐近到有限样本”、“从精确到容忍”、“从参数到非参”这一演化路径推进，没有发现相互矛盾的结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号：
- (X, Y) ∈ X × {0, 1}: 一对随机变量，其中X是特征向量，Y是二分类标签。
- η(x) := P(Y=1 | X = x): 真实的、未知的条件概率函数，即我们要估计的目标。
- η̂(x): 我们正在评估的分类模型，它是一个从 X 到 [0,1] 的已知函数，提供对 η(x) 的预测。这是被检验的对象。
- n: 可观测到的样本量。我们有两组独立同分布的数据：训练集 D_train (用于训练 η̂) 和检验集 D_test = {(X_i, Y_i)}_{i=1}^m (用于评估)。
- f: 一个定义在 [0,1] 上的凸函数，且 f(1)=0。它定义了f-散度（f-divergence），如KL散度 (f(t) = t log t) 或皮尔逊χ²散度 (f(t)= (t-1)²）。
- D_f(p || q): 定义在{0,1}上的伯努利分布p和q之间的f-散度。具体地，D_f(Bern(a) || Bern(b)) = b * f(a/b) + (1-b) * f((1-a)/(1-b))。
- τ: 一个非负的容忍度参数。
模型：
- 数据生成机制：(X, Y) ~ P，其中P完全未知。Y|X=x ~ Bernoulli(η(x))。
- 没有对η(x)或X的分布施加任何参数化假设。η̂是从训练数据中学习到的（或人工指定的）一个确定性或概率性函数。
- 检验问题：我们想要检验η̂是否是一个“足够好”的η的近似。
可观测数据：
- 可观测：检验集 D_test 中的特征 X_i 和对应的标签 Y_i。模型 η̂ 的输出对于所有X_i也是可计算的。
- 不可观测：真实的条件概率函数 η(x) 本身。我们永远无法直接观测到 η(x)，只能通过一个样本 Y ~ Bernoulli(η(x)) 间接地了解它。这决定了检验必须通过Y的分布与η̂的预测的一致性来进行。

第二步：最小内核¶

剥离所有一般性设定，GRASP的最小内核是：如何在一个样本点上，构造一个“假”的零分布来与“真”观测值进行比较？

最简特例：只有一个样本点 (X=x, Y=1)，我们想检验模型 η̂(x)=0.5 对这个点是否“足够好”。 假设容忍度 τ=0，即我们要精确检验 η(x) = 0.5。

传统想法：如果η(x)=0.5为真，那么观测到Y=1的概率就是0.5。我们可以根据这个伯努利分布来构造p值，但这是基于一个点的一个观测，没有区分度。

GRASP的原创思想： 1. 伪造替代样本 (Counterfeit Sampling)：我们不只看到Y=1这一个“真实”情况。我们也“想象”如果模型是正确的，在x这个点上可能看到什么？我们根据模型η̂(x)=0.5独立地采样一个“伪造”的标签 Ŷ。例如，Ŷ 有50%概率是1，50%概率是0。 2. 评分 (Scoring)：我们需要一个评分函数 s(η̂(x), y) 来量化一个标签y与预测概率η̂(x)的匹配程度。一个简单有效的评分函数是 s(η̂(x), y) = η̂(x) * y + (1-η̂(x))*(1-y)，即所谓的“对数似然”的指数形式。对于η̂=0.5，无论y是0还是1，评分均为0.5。这不行。我们需要一个对“出乎意料”的观测更敏感的评分。 - 一个更好的评分是负对数似然：s(η̂(x), y) = -log(P(Y=y|η̂(x)))。对于η̂=0.5， y=1，评分为 -log(0.5) ≈ 0.69。对于η̂=0.9， y=0，评分为 -log(0.1) ≈ 2.3，这是一个非常大（糟糕）的评分。 3. 标记与比较 (Labeling & Comparison)： - 真实标签：Y=1，其真实评分 s(η̂=0.5, Y=1) ≈ 0.69。 - 伪造标签：Ŷ可能为1（概率0.5），也可能为0（概率0.5）。 - 如果 Ŷ=1，其评分也是0.69。 - 如果 Ŷ=0，其评分也是0.69。 - 在这个简单例子里，评分无法区分真与假，因为模型η̂=0.5是均匀的。但是，如果模型η̂=0.9呢？此时Y=1的评分是-log(0.9) ≈ 0.105，Ŷ的分布是Bernoulli(0.9)，所以绝大多数伪造标签也是1，评分也是0.105。但等一等，这是否意味着GRASP在这个极简特例下无法工作？ 恰恰相反，这说明单点检验的“分布”是平坦的，需要聚合多个样本。

聚合与检验统计量 V_{n,L}：真正的GRASP检验基于整个检验集 D_test。它重复以下过程L次： - 第ℓ次随机化：对检验集中的每一个样本i，独立地根据η̂(X_i)采样一个伪造标签 Ŷ_i^{(ℓ)}。这就生成了L个“伪造数据集”。 - 评分与求和：对所有真实标签Y_i计算总评分 S_real = Σ_i s(η̂(X_i), Y_i)。同样地，对每个伪造数据集计算总评分 S_fake^{(ℓ)} = Σ_i s(η̂(X_i), Y_î^{(ℓ)})。 - 构造统计量：GRASP构造的检验统计量 V_{n,L} 比较的是真实总评分在所有伪造总评分中的排名。更具体地，它关注的是有多少个伪造数据集的评分比真实数据集的评分更极端的低（即拟合更好）。

最小内核的精髓：在零假设（η̂ = η）下，标签Y_i的分布与伪造标签Ŷ_i^{(ℓ)}的分布是完全相同的（即 Bernoulli(η(X_i))）。因此，所有L+1个数据集（1个真实 + L个伪造）在概率意义上是“可交换的”。真实数据集的评分 S_real 在 S_real, S_fake^{(1)}, ..., S_fake^{(L)} 这L+1个值中排第几位？如果零假设为真，S_real排在任何一个位置的概率都是 1/(L+1)。因此，我们可以构造一个p值：p-value = (1 + #{ℓ: S_fake^{(ℓ)} ≤ S_real}) / (L+1)。这个p值在零假设下是超均匀分布的（super-uniform），严格控制了I类错误。这种通过随机化和秩比较来绕过对未知分布η(X)复杂依赖的方法，就是GRASP的技术核心。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：研究了二分类模型的拟合优度检验问题，原假设被设定为一个“容忍度假设检验”：H0: E[D_f(Bern(η(X)) || Bern(η̂(X)))] ≤ τ，其中D_f是f-散度，τ是可容忍的偏差阈值。
核心工具/方法：提出GRASP（Goodness-of-fit with Randomisation and Scoring Procedure），一种基于随机化、评分函数和秩比较的有限样本、分布自由检验框架。
主要结论：GRASP（基础版）在有限样本下严格控制I类错误，无需任何关于特征X分布的假设。Model-X GRASP在特征分布P_X已知时，通过利用该信息进一步提升检验功效。模拟和真实数据展示了其相比BAGofT等基线方法的优势。

关键设定与假设¶

在第二节最小记号的基础上：
- 数据分割：论文假设有一个独立的检验集 D_test = {(X_i, Y_i)}_{i=1}^m。训练集 D_train 用于训练 η̂。关键假设：D_test 与 D_train 独立。这是几乎所有数据分割方法的标准假设，以确保检验的公正性。论文假设检验集的大小为m。
- 评分函数 s：评分函数 s: [0,1] × {0,1} → R 被要求是严格单调的（具体地，s(π, 1) 关于π递减，s(π, 0) 关于π递增）。实践中，作者推荐使用对数评分 s(π, y) = -log(π^y (1-π)^(1-y)) 和Brier评分 s(π, y) = (π - y)²。
- 伪随机数生成 (L)：检验需要进行 L 次独立的随机化，每次生成一整套伪造标签集 {Ŷ_i^{(ℓ)}}_{i=1}^m。L 是一个算法超参数，控制p值的最小分辨率（1/(L+1)）。
- 统计量 V_{n,L} 的定义：核心检验统计量基于真实评分与伪造评分之差的累积分布。具体地，它计算 V_{n,L} = (1/L) * Σ_{ℓ=1}^L { 1(S_real - S_fake^{(ℓ)} ≤ 0) }。其中 S_real 是真实评分的总和，S_fake^{(ℓ)} 是第ℓ个伪造数据集的评分总和。1(...) 是指示函数。所以 V_{n,L} 就是伪造评分小于等于真实评分的比例。
相比已有文献的强化弱化：
- 强化：相比BAGofT（渐近），GRASP提供了有限样本保证。相比Model-X knockoffs（需要P_X），GRASP基础版（和Model-X版）都不需要对P_X作任何假设。
- 本身设定：零假设带有容忍度τ，这使得它对轻微模型偏差不敏感，更实用。关键在于如何在有容忍度的前提下构造随机化检验。作者的解法是：只在τ=0时，伪造标签的分布是Bernoulli(η̂)。对于τ>0，他们通过一种巧妙的数据扩充来“吸收”容忍度。
容忍度处理细节：为了将容忍度 τ 纳入检验，作者定义了一个增广模型：η̃(x) = (1+δ)η̂(x)/(1+δ)的形式，具体是通过引入一个“扰动参数”来扩大模型的不确定性区域。在零假设 E[D_f(η||η̂)] ≤ τ 下，存在一个“最不利的”分布 η^* 使得检验统计量在零假设边界上达到最大（即检验的size被控制住）。作者通过构造一个在 η̂ 附近扩展的可能性区域 H(η̂, τ)，并证明最坏情况的零假设代表是区域边界上的某个点，从而将带容忍度的检验转化为一系列精确检验问题。

主要结果¶

定理 1（GRASP的有限样本有效性）：
- 陈述：对于任何满足单调性条件的评分函数 s，和任何可能的 n, m, L ，由 V_{n,L} 构造的GRASP检验在零假设H0: E[D_f(η||η̂)] ≤ τ下，能够控制I类错误在指定水平 α 之下。即 P_{H0}(p-value ≤ α) ≤ α。
- 直觉：该结果的核心在于零假设下真实标签和伪造标签的交换性。虽然伪造标签的生成模型η̂ 可能与真实η 不同（因容忍度τ），但作者在构造检验统计量时，通过一个“吸收”过程，确保了在η最坏的情况下（即边界上），真实评分与伪造评分的分布仍然具有一个关键的随机占优(stochastic dominance)性质，从而保证了秩检验的有效性。
- 必要条件：数据分割独立、评分函数单调、L 是正整数。
- 解决的技术难点：如前所述，当τ>0时，真实η 与伪造η̂ 不同，直接交换性失效。难点在于如何构造一个“伪”分布使得交换性在容忍的范围内仍然近似成立。作者没有近似，而是通过将零假设区域 H(η̂, τ) 中的最坏情形点作为构造检验的参照，从而在有限样本下保证了I类错误控制。这通常涉及到一个 “最小化检验的size”的优化问题。
定理 2（Model-X GRASP的有限样本有效性）：
- 陈述：当特征向量 X 的联合分布 P_X 精确已知时，Model-X GRASP 在零假设下同样能控制I类错误。
- 直觉：Model-X GRASP 不再从条件分布 Bernoulli(η̂(X)) 中采样伪造标签，而是同时采样一整套伪造的 (X̂, Ŷ) 对。具体地，它首先从 P_X 中采样一个新的特征向量 X̂（该X̂与原始X相互独立），再基于η̂(X̂)采样Ŷ。由于P_X已知，我们可以制造出一个与原始数据(X, Y)在零假设下“成对交换”的伪造样本。这使得检验能够同时利用特征和标签的联合信息，从而在备择假设下（当η̂错误时）产生与真实数据模式不同的伪造数据，提高功效。
- 解决的技术难点：构造伪造特征X̂的过程需要独立于原始检验集采样，这解决了基础版GRASP中“特征不变性”带来的功效损失问题。当模型错误指定时，真实X与Y的联合分布P(X,Y)会与伪造的联合分布P_X, Ŷ不同，这个差异可以被检验统计量捕捉到。
定理 3（GRASP的局部功效分析）：
- 陈述：在备择假设下，当真实η 与模型η̂ 的偏差足够大（超过某一点刻画的阈值）时，GRASP检验的功效趋向于1。作者量化了这个阈值与样本量m、容忍度τ、以及所选f-散度之间的关系。
- 直觉：这类似于“一致性”分析。如果模型差得离谱，随着样本量增大，检验一定能以概率1将其拒绝。
- 技术难点：量化功效需要刻画 V_{n,L} 在备择假设下的分布。作者通过固定L，随着m→∞，利用U-统计量和大数定律，推导出V_{n,L}的渐近正态性，从而分析其检验功效。

证明路线与技术技巧¶

整体路线（针对定理1）：
1. 定义增广模型与零假设区域：首先明确零假设下的所有可能的真实分布η组成一个集合H(η̂, τ)。
2. 建立单调性引理：证明检验统计量V_{n,L}对应的检验p值，作为η的函数，在D_f(Bern(η)||Bern(η̂)) 上是单调递增的。这意味着，最差的性能（最大的p值）出现在零假设的“边界”{η: D_f(η||η̂) = τ}上。
3. 构造最不利的零假设分布：在边界上，找到那个使得检验的size最大（即最容易产生I类错误）的η^*。
4. 证明交换性/随机占优：证明在η^*下，真实评分S_real与伪造评分S_fake^{(ℓ)}之间满足S_real随机占优于S_fake^{(ℓ)}或两者同分布（取决于τ的具体定义）。这确保了秩检验的p值是有效的。
5. 结论：由于最坏情况下的p值已被控制，所有在零假设区域内的η都可以被控制，从而证明了定理1。
关键跳跃点：
- 如何处理τ>0的容忍度？ 对于精确零假设（τ=0），交换性是平凡的。对于τ>0，关键跳跃是通过函数逼近和最优化将问题约化到零假设边界。这利用了f-散度的性质和一些函数分析技巧。作者证明了存在一个“最坏情况”的分布使得检验的size最大化。
- 随机占优的证明：证明了在边界分布下，真实评分和伪造评分的CDF之间满足一个严格的不等式，使得秩检验有效。
技术技巧点名：
- 随机化 + 秩检验：这是最核心的技巧。通过用η̂生成“影子”数据集，绕过了直接计算真实η的分布的需求。
- f-散度的变分表示：将检验问题与f-散度联系起来，利用了f-散度在凸分析中的良好性质，方便了“最不利分布”的寻找。
- 单调性引理：利用评分函数的单调性证明检验统计量的单调性，这是将问题约化到边界的关键。
- U-统计量与大数定律：在功效分析（定理3）中，V_{n,L} 可以写为U-统计量的形式（关于i和ℓ），然后用大数定律或中心极限定理分析。
- 凸优化：在寻找最不利分布η^*时，需要解一个关于η的凸优化问题：在D_f(η||η̂) ≤ τ的约束下最大化检验的size。论文没有深入这个优化问题的解法，而是利用其结构特性给出了一个明确的构造。

真实例子与应用¶

使用的数据/场景：论文使用了一个模拟研究和两个真实数据应用。
- 模拟研究：设计了一个线性logistic模型（作为真实η）和一个指定模型η̂（如错误的logistic模型）。通过调整模型错误程度和样本量，比较GRASP与BAGofT的I类错误控制和功效。
- 真实数据1：信贷违约预测：使用了台湾某银行的信贷违约数据集。目标是评估一个训练好的分类器的拟合优度。
- 真实数据2：乳腺癌诊断：使用了威斯康星乳腺癌诊断数据集，评估一个分类器。
如何将方法用上去：
- 构造黑箱模型：首先在训练集上训练一个分类器（如Logistic回归、随机森林或神经网络），得到一个概率预测函数η̂(x)。
- 选定τ和评分函数：指定一个容忍度τ（例如，τ=0.01），选择一个评分函数（如对数评分）。
- 应用GRASP：在独立的检验集上运行GRASP算法（包括多次随机化生成伪造标签、计算评分、计算统计量V_{n,L}、输出p值）。
- 得出结论：如果p值小于显著性水平α（如0.05），则拒绝零假设，认为模型与真实条件概率之间存在不可容忍的偏差。
得到什么结果：
- I类错误控制：模拟结果显示，GRASP在零假设下（即使τ被正确设定）的经验I类错误率严格控制在名义水平以下，而BAGofT在某些设定下（如小样本）出现了I类错误膨胀。
- 功效对比：当模型确实严重错误时，GRASP（尤其是Model-X GRASP）相比BAGofT展现了更高的检验功效。Model-X 版本由于利用了特征分布信息，功效提升更为显著。
- 真实数据洞察：在信贷数据上，对一个简单的Logistic回归模型，GRASP检验给出了非常小的p值（比如 < 0.001），表明该模型与真实数据之间存在显著偏差。而对一个更复杂的梯度提升树模型，p值则不显著，说明该模型拟合较好。
这个例子想说明什么：真实数据例子旨在展示GRASP并非理论上的空中楼阁。它能够在实践中诊断出不同复杂程度的模型之间的拟合差异，并且这种诊断是通过一个严格的假设检验框架完成的，具有很强的可解释性。相比于单纯看AUC或校准曲线，它能给出一个明确的统计结论。

🔎 结论是否比证明窄¶

潜在宣言/猜测：论文声称GRASP是“分布自由的”。这个陈述需要仔细核实。在基础版GRASP中，分布自由确实成立，因为它不依赖P_X。但是，Model-X GRASP要求 P_X 已知，这严重限制了其适用性。作者在实验中展示了Model-X GRASP功效更好，但现实世界中几乎没有人知道P_X，因此这一部分成果的实际价值可能被高估。
有限样本保证的严格性：定理1和2都声称对任何n, m, L 控制I类错误。这是非常强的陈述，其证明依赖于L次随机化构造的p值的超均匀性。但我们必须注意：这个保证是在零假设特定构造下成立的，即H0: E[D_f] ≤ τ。如果用户选择了一个不合适的τ，或者实际上真实的偏差类型不是由f-散度完全刻画的，那么这个保证的实践意义需要仔细评估。
假设的依赖性：定理成立的关键是数据分割和评分函数的单调性。若评分函数选择不当，或检验集与训练集不独立（如使用了所有数据再随机分割），则定理的保证会失效。论文没有详细讨论当模型η̂是在同一个检验集上通过交叉验证反复调整得到时的行为，这在实践中很常见。

四、开放问题（点到为止，扎根具体语句）¶

多分类推广：论文专注于二分类。如何将GRASP推广到多分类情景？作者在结论中指出“延伸至多分类是未来工作的一个重要方向”。（扎根于论文结论部分）您需要确认此问题是否尚有解决空间，或已有新工作完成。
Model-X GRASP的鲁棒性：Model-X GRASP要求P_X精确已知，这在现实中几乎不可能。一个核心的开放问题：当P_X估计出错时，Model-X GRASP的I类错误膨胀程度是否有界？ 作者在讨论中提及了这个问题，但未给出理论结果。这与 Berrett et al. (2018) 对CPT的分析类似。您可以思考：使用您熟悉的邻域密度估计（无参统计），能否量化这种膨胀？此时，P_X的估计误差将引入一个“残差”项，其与I类错误的关系是什么？
检验功效的极小极大最优性：GRASP检验结构丰富，但它的功效是否已达到某个意义上的“最优”？对于给定的f-散度和容忍度τ，是否存在一个不可改进的检验功效下界？作者在局部功效分析中只给出了一个“一致性”条件，而未讨论极小极大最优性。这直接对接您的极大极小下界（minimax bounds）和半参数理论（efficiency theory）背景。您能否为这个问题推导出一个极小极大检测半径（minimax separation rate）？
更复杂的评分函数：GRASP框架依赖于一个简单的标量评分函数（如对数评分）。这是否是最优的？能否将更高阶的信息（如二元交叉矩、U-统计量）编码进评分函数，在保持分布自由的同时提升对特定类型模型错误的敏感度？这直接衔接您在高阶U-统计量和HOIF的工作。例如，您可以用η̂预测标签的联合分布，然后与真实标签的联合分布进行比较。

Maintained by 陈星宇 · Homepage · Source on GitHub