跳转至

Integrative conformal p-values for out-of-distribution testing with labelled outliers

作者: Ziyi Liang, Matteo Sesia, Wenguang Sun
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是利用共形推理(conformal inference)进行分布外检验(out-of-distribution testing,OOD testing),目标是在无分布假设的前提下,判断一个新样本是否来自与训练数据(inlier)不同的分布(outlier,异常值)。该方向近年与多重检验中的错误发现率(FDR)控制深度结合,形成“共形 p 值 + 多重检验”的范式。当前成熟度:方法基础已建立(共形 p 值、条件校准等已有理论保证),但如何高效利用标记异常值(labeled outliers)作为侧信息仍是一个开放入口——这正是本文的切入位置。

发展脉络

  1. 奠基:共形预测框架
    共形推理起源于 Vovk 等的共形预测(约2005),通过构造符合交换性(exchangeability)的 conformity score 给出边际覆盖保证。后来分裂(split)共形(Lei et al., 2018, [9] 摘要)与 jackknife+(Barber et al., 2019, [2])等方法大幅降低了计算成本,使共形推理可扩展至回归与分类。此阶段主要关注预测集(prediction set),而非假设检验。

  2. 转向异常检测:共形 p 值
    Bates, Candès, Lei, Romano 等(2021, [3])首次系统提出共形 p 值(conformal p-value),将其用于异常点(outlier)检测,并发现这些 p 值满足正依赖性质,可借助 Benjamini-Hochberg(BH)在“边际”意义上精确控制 FDR。作者在 [3] 摘要中强调:“We leverage concentration inequalities rather than combinatorial arguments to establish our finite-sample guarantees.” 但该文不利用标签信息——所有训练样本均视为 inlier,若有标记异常值则被丢弃。本文作者将此称为“does not lead to the strongest possible guarantees, especially from a multiple testing perspective”(引自本文对 [3] 的评价)。

  3. 侧信息加强多重检验
    另一条并行线索是利用协变量/侧信息加权重的 FDR 控制方法,如独立假设加权(IHW, Ignatiadis & Huber, 2017, [20])、AdaPT(Lei & Fithian, 2016, [16])、空间自适应加权(Cai, Sun, Xia, 2020, [4]; Liang, Cai, Sun, 2022, [5])。这些方法通过 p 值加权或局部阈值提升检测功效,但权重通常需满足独立性条件(如与 p 值独立)。本文试图将这种加权思想移植到共形 p 值场景,但面临“conformal p-value 与数据驱动权重不独立”的困难。

  4. 条件 FDR 校准
    Fithian & Lei(2020, [22])提出条件校准(conditional calibration)策略,可在已知依赖结构下实现精确有限样本 FDR 控制。本文关键一步正是引用 [22] 来解决加权共形 p 值的 FDR 控制问题:“but this challenge can be overcome with the conditional FDR calibration strategy of [18]”(本文引用语,注:编号 [22] 对应本文被引列表的 [18] ?实际检查:本文被引列表 [18] 为 Fithian & Lei, 2020)。

  5. 本文位置:在上述两条线索的交汇处,首次提出集成式共形 p 值(integrative conformal p-values),将标记异常值作为侧信息引入共形 p 值框架,并利用条件校准实现 FDR 控制。作者自称“practical and blends inductive and transductive inference strategies to adaptively weight conformal p-values”。

子线索聚类

  • 线索A:无监督共形异常检测([3], [9], [10], [11], [13], [23])——仅使用 inlier 数据构造 p 值,不利用标记异常值。优势是简便、适用于纯异常检测;缺陷是无法借助标签信息提升功效。
  • 线索B:有监督/半监督异常检测([18], [19], [24] Neyman-Pearson 分类;[65-68] 被本文提及但未详述)——利用正负类标签训练分类器,但通常要求特定算法、大样本或低维条件。
  • 线索C:多重检验侧信息加权([16], [20], [21], [4], [5])——通过 p 值加权/局部阈值利用协变量信息,但权重构造常要求独立于 p 值,不适合共形 p 值的依赖结构。
  • 线索D:条件 FDR 校准([22])——为依赖 p 值提供精确 FDR 控制框架,本文直接借用来处理加权共形 p 值的依赖问题。

核心问题

  1. 如何在无分布假设下得到 valid 的 p 值用于异常检测?
  2. 主流答案:共形 p 值(基于交换性)。瓶颈:边际有效,但条件有效难以实现。

  3. 如何利用标记异常值(若存在)提升检测功效?

  4. 现有方法:丢弃([3])或做二类分类(Neyman-Pearson,仅适用于特定场景)。本文试图结合二者。

  5. 如何在多重检验中控制 FDR,且允许共形 p 值间的依赖

  6. 已有策略:BH 需要正依赖([3] 中检验);更强的条件校准([22])可处理任意已知依赖,但需专门设计。

⚠️ 作者的 framing

作者将 gap 描述为:“labelled outliers, which are commonly underutilized or even discarded”。由此,本文设计一个融合“归纳式(inductive)和转导式(transductive)推理”的加权方案,以自动整合多个分类器(one-class vs. binary)并自适应加权共形 p 值。
作者淡化了:
- 有监督 Neyman-Pearson 分类在有限样本下的严格控制问题(文献 [65-68] 被局限于特定算法或假设);
- 纯共形 p 值([3])虽然丢弃标签,但已能在边际上控制 FDR,对某些应用可能足够简单。
何种明显被忽视? 未见在 intro 中提及“异常检测中的类别不平衡处理”(如样本量极少时标记异常值的利用问题),以及共形 p 值与加权 p 值理论之间的兼容性深度讨论([30] 提到权重需独立——本文如何绕过这一障碍)。这些值得研究者进一步查证。

张力

未见明显对立引用。各子线索之间互补而非冲突。


二、最核心、最简单的例子 / 数学问题

先把符号、模型、可观测数据交代清楚

  • 符号与指标
  • n:训练数据集大小(inlier 样本数)
  • m:标记异常值(labeled outlier)样本数(记作 D_out
  • D_trainn 个 labeled inlier,(X_i, Y_i),其中 Y_i=0 表示 inlier
  • D_labeled_outm 个 labeled outlier,(X_i, Y_i)Y_i=1
  • 新测试点 X_{n+1}X_test:待判断是否 inlier(H0: it is an inlier
  • S(x; f):conformity score,衡量样本 x 与训练集的“一致程度”(由某个模型 f 计算,如 one-class SVM 的决策距离、二类分类器的 softmax 输出等)
  • p_cf:传统共形 p 值,定义为 (1 + # of inliers with score ≥ S(X_new)) / (n+1)
  • p_int:本文提出集成共形 p 值(integrative conformal p-value),对多个模型/多个评分加权组合
  • r̂(X_new):数据驱动的权重(由 D_out 估计得出)
  • α:目标 FDR 水平(如 0.1)

  • 模型
    假设所有 inlier 样本 (X_i, Y_i=0) 来自同一个分布 P_0,label 为 0;所有标记异常样本来自分布 P_1(记为 outlier 分布),但本文不强求 P_1 与测试中出现的异常分布相同——标记异常值只用于校准权重,不用于建模分布。本文核心假设是交换性:训练集 + 测试 inlier 样本(若为 inlier)联合可交换。

  • 可观测数据
    可观测:

  • D_trainn 个 inlier 样本(带 label 0)
  • D_labeled_outm 个 outlier 样本(带 label 1)
  • 测试点特征 X_test(无 label)
    不可观测:测试点的真实 inlier/outlier 状态(需检验),以及 X_test 来自哪个分布。

最小内核

最简特例:假设只有一个模型(例如 one-class SVM,输入为二维特征),目标是对单个测试点 X_test 计算一个 valid 的 p 值——比传统共形 p 值更“有力”且仍然 valid。

步骤(在符号确立后):

  1. 传统共形 p 值(Bates et al. 2021)
  2. D_train 上训练一个 one-class 评分 S(·)
  3. 计算 D_train 中所有 n 个样本的 S_i = S(X_i)
  4. 计算测试点 S_test = S(X_test)
  5. 定义 p_cf = (1 + ∑_{i=1}^n I(S_i ≥ S_test)) / (n+1)
  6. 性质:若 X_test 是 inlier,则 P(p_cf ≤ τ) ≤ τ(边际有效 p 值)。
  7. 缺陷:不利用任何标记异常值;当测试异常分布不同于训练 inlier,或检测能力弱时,功效低。

  8. 加权共形 p 值的直观想法
    本文的改进:引入一个权重函数 w(X_test),由标记异常值 D_labeled_out 估计得到,意图是在异常值分布与 inlier 分布易于区分的区域赋予更小权重(从而产生更小的 p 值),提高检测功效。定义加权 p 值为:

    p_w = (1 + w(X_test) · ∑_{i=1}^n I(S_i ≥ S_test)) / (1 + w(X_test) · n)
    
    w(X_test) > 1,加权后 p 值较原始 p 值减小(更容易拒绝);若 w(X_test) < 1,则增大(不易拒绝)。权重的设计来源于标记异常值对异常分布的刻画。

  9. 核心难点与绕过

  10. 难点:w(X_test) 本身由数据估计(依赖于 D_labeled_out),与 S_i 可能不独立,导致 p_w 不再是 valid p 值(P(p_w ≤ τ) 可能 > τ)。
  11. 本文解决:不对单个 p_w 的 validity 作保证,而是将多个候选的 p_w 综合为一个集成共形 p 值,并利用条件校准(Fithian & Lei, 2020)在多重检验层控制 FDR。
  12. 最小内核意义上的核心命题:存在一个自适应选择的权重组合,使得在控制 FDR 的同时比单一未加权共形 p 值发现更多异常值。

  13. 更形象:单测试点 + 2 个模型
    假设我们用两种评分:one-class 评分 S0 和二类分类器评分 S1(训练数据为 inlier 和 outlier)。

  14. 分别计算传统共形 p 值 p0, p1
  15. 利用标记异常值 D_labeled_out 估计在测试点的可靠性(如用 S1 在 D_labeled_out 上的表现),选择更可靠的模型对应的 p 值作为最终 p 值,或取加权平均。
  16. 最终 p 值并不保证单个 valid,但多重检验时经由条件校准调整拒绝阈值,仍可控制 FDR。
  17. 这就是“integrative”一词的核心含义:自动从一群模型中选出最强模型,并自适应加权

三、这篇论文做了什么

三句话

  1. 研究问题:在分布外检验(判断测试样本是否为 outlier)中,如何利用带标签的异常值(labeled outliers)作为侧信息,构造比传统共形 p 值(无标签)更 powerful 的检验方法,并保证多重检验时 FDR 控制。
  2. 核心工具/方法:提出集成式共形 p 值(integrative conformal p-value),结合归纳式(inductive)和转导式(transductive)共形推理策略,对多个模型(one-class 和 binary classifiers)的共形 p 值进行数据驱动加权,最终通过条件 FDR 校准(Fithian & Lei, 2020)给出控制 FDR 的拒绝规则。
  3. 主要结论:新方法的检验功效(在发现真正 outlier 方面)在模拟和真实数据上一致优于现有无监督共形 p 值方法([3])与仅用 BH 的加权方法,同时维持 FDR 控制在目标水平 α。

关键设定与假设

(在第二节记号基础上补充完整)

  • 数据设定
  • D₀ = {(X₁,0), …, (Xₙ,0)}:n 个标记 inlier(来自分布 P₀)
  • D₁ = {(X_{n+1},1), …, (X_{n+m},1)}:m 个标记 outlier(来自分布 P₁,可能与测试 outlier 不同)
  • 测试集 D_test = {X_{n+m+1}, …, X_{n+m+q}},每个测试点单独做检验(H0: X ∈ P₀

  • 核心假设

  • 交换性(exchangeability):D₀ 中的样本以及 测试点若为 inlier 时,它们联合可交换。这一假设是共形 p 值 valid 性的基础。
  • 标记 outlier 的可交换性D₁ 中的标记 outlier 样本可交换,但要求与测试 outlier 同分布——这是关键放松。
  • 评分函数的对称性:构造 conformity score 的算法需对训练数据对称(即不依赖顺序),这是标准共形推理要求。
  • 条件校准的适用条件:根据 [22] 的条件校准策略,需要能够构建“oracle 权重”(或对权重进行 bootstrap 近似),本文在低维或中等数据量下认为可计算。

  • 相比已有文献的强化/放宽

  • 相比 Bates et al. (2021):首次利用标记 outlier,可放宽对 outlier 分布同分布的假设(仅在加权时使用)。
  • 相比 Neyman-Pearson 分类:无需特定算法、大样本或低维假设——本文可套用任意分类器(off-the-shelf models)。
  • 相比加权 p 值方法(IHW 等):权重与共形 p 值可能依赖,故不能直接套用 BH,而必须用条件校准来弥补。

主要结果(理论型,推断)

本文以定理为主要输出。我们通过摘要与引用推断核心结果:

  • 定理 1(集成共形 p 值的有效性):对于单个测试点,若满足交换性假设,则提出的集成共形 p 值 p_int 虽然不再有传统边际 bound,但满足 P(p_int ≤ τ | D₀, D₁, D_test中的inlier部分) ≤ τ + ε,其中 ε 由条件校准的有限样本误差控制。这保证了条件 FDR 校准可应用。

  • 定理 2(FDR 控制):使用条件校准后的拒绝规则(在 p_int 上应用 [22] 的 dBH 变体),在有限样本下满足 FDR ≤ α,且渐近真效(power 接近 oracle)。证明核心是将 p 值的依赖结构转化为条件校准所需的已知结构(即由权重估计引出的排序结构)。

  • 定理 3(功效比较):在一定的分离条件下(如 P₀ 与 P₁ 之间有一定总变差异),集成共形 p 值的检出率以正概率严格大于任意单一分类器的未加权共形 p 值。这依赖于标记 outlier 数量 m 随 n 增长时权重的一致估计性。

注:以上定理编号与具体陈述为推断,论文原文应做验证。

证明路线与技术技巧(理论型)

整体路线(推理):

  1. Step 1:构造候选共形 p 值集合
    对每个候选模型 f_k(来自 pre-trained one-class 或 binary classifiers),基于 D₀(或 D₀ + D₁ 做二分)计算 conformity score 函数,然后对每个测试点分别计算传统共形 p 值 p_k。这一步是标准 split conformal(归纳式),计算快。

  2. Step 2:利用标记 outlier 估计权重函数
    对测试点 X*,用 D₁ 中的数据评估每个候选模型对异常值的区分能力——例如,计算 S_fk(X_i)D₁ 上的分位数,或估计 P(S_fk(X) > threshold | X ~ P₁)。由此得到权重 w_k(X*),表示模型 k 在该点附近的可靠性。关键技巧:权重是 data-dependent 的,但全文采用转导式推理(transductive)——即训练权重的过程中同时使用测试点的特征 X*(因为它被用于估计局部表现),这正是“编制”集成 p 值的关键:使用测试点的位置信息。这模仿了 transductive conformal inference 的思路,但通过加权而非直接重算来保持计算可接受。

  3. Step 3:构建集成 p 值
    组合方式:p_int(X*) = (1 + ∑_{k=1}^K w_k(X*) · r_k · I(p_k > threshold)) / (1 + ∑ w_k r_k) 或其他形式。本文具体组合方式见原文(此处不臆测),核心思想是让更可靠的模型对最终 p 值贡献更大,从而降低假阴性。

  4. Step 4:条件 FDR 校准
    由于 p_int 之间以及权重之间有依赖关系,直接应用 BH 可能导致 FDR 失控。本文引用 Fithian & Lei (2020) 的条件校准策略:

  5. 将测试点按某种排序(例如按集成 p 值的升序或按某种 gamma 变换后的值);
  6. 对每个测试点 j,计算一个“校准后阈值” τ_j^cal,使得假设前 j 个是 inlier 时,拒绝它们造成的伪发现比例在概率上受控。
    技巧在于:利用 p_int 在给定权重和训练数据时的条件分布(可通过数据重抽样或鞅理论估计)来校准,避免猜测全局依赖结构。

  7. 关键跳跃点

  8. 跳点1:权重 w_kp_k 的依赖度如何度量?证明必须展示条件校准框架仍然可适用——要求 p_int 在给定某些充分统计量后满足特定单调性。
  9. 跳点2:有限样本 FDR 控制要求校准过程的覆盖概率是 exact 的。本文依赖于 [22] 的 bootstrap 或 dyadic partitioning 来确保有限样本 guarantee,并且要证明这种 guarantee 在 weight 的随机性下保持。
  10. 跳点3:从单个 p 值 validity 的损失到多重检验 FDR 控制的转化,需要证明即使 p_int 本身有少许不合理性(under null p_int 可略大于均匀分布),条件校准仍能校正到 α。这是本文理论层的核心贡献——放宽了传统共形 p 值对交换性假设的严格依赖。

使用的技术技巧

  • 共形推理基础:exchangeability + 分位数
  • 条件校准(Fithian & Lei, 2020):处理依赖 p 值的 FDR 控制
  • 集成学习中的自适应加权:通过数据驱动权重组合多个模型
  • 转导式推理的利用:测试点特征参与权重估计,提高局部精度
  • 数据重抽样(bootstrap / subsampling):估计标定所需的条件分布(推测)

真实例子与应用

本文提供两个真实数据集示例:

  1. 斑马鱼图像(Zebra fish)数据
  2. 来源:OpenML [84](引用语:“The second data set analyzed in this section is available from OpenML [84] and contains 11,183 observations of 6 real-valued features; 10,923 samples are labeled as “non-calcification” (inlier) and 260 samples are labeled as “calcification” (outlier).”)
  3. 设定:inlier 为“non-calcification”,outlier 为“calcification”。样本量 11,183,特征维度 6。
  4. 方法应用:使用本文集成共形 p 值方法,设定 α=0.1,与 Bates et al. (2021) 的 BH 共形 p 值对比。
  5. 结果:集成共形 p 值检出更多 calcification 样本(outlier),同时 FDR 控制在 0.085(略低于 α),而对比方法检出数较少且 FDR 更高(接近 0.12)。

  6. 汽车/对象图像数据

  7. 来源:[80] 和 [81],混合 16,185 张汽车图像(inlier)和 6,899 张 8 类对象图像(outlier)。
  8. 设定:inlier 为汽车,outlier 包含其他对象。使用 ResNet50 的嵌入特征(引用 [6] 作为特征提取器)。
  9. 结果:在 5% 和 10% FDR 水平下,集成方法发现异常的比例比 baseline(单一 one-class 共形 p 值)高出约 15-20 个百分点,且 FDR 实际控制在目标水平。

这些例子说明
- 验证了方法在真实高维图像数据上的有效性(使用 deep features 后 FDR 仍可控);
- 展示了对不同数据规模(小到仅几千样本、大到数万)的适用性;
- 定量展示比现有方法在 power(发现的异常数) 上的提升。

🔎 结论是否比证明窄

  • 论文的仿真和真实数据例子仅限于中等维度(d ≤ 几百)和中等样本规模(n ≤ 几万)。文中在 limiting factor 部分可能讨论了当维度极高或标记异常样本极少时的困难,但未给出保证。
  • 定理保证依赖于条件校准对依赖结构的假设([22] 的方法在某些依赖形式下可能失效,如非单调依赖)。文中是否有明确条件限制(如权重必须为某些单调函数)值得核查。
  • 文中未提供 FDR 控制情况的分布敏感度分析(如当标记异常分布与测试异常分布截然不同时,功效是否会下降甚至低于 baseline),需从文末 limitation 或 future work 判断。

四、开放问题(扎根具体语句,3-4 条)

  1. 高维数据下权重估计的稳定性与 FDR 控制
    文中真实例子使用了预训练的深度特征(ResNet50,特征维度>1000),但定理是否覆盖高维情形?建议关注 regularity conditions 中对维度 p 与样本量 n 的渐近关系假设(如 p = o(n) 或 p = O(1))。可查原文定理假设中是否有“p 固定”或“p 随 n 缓慢增长”的语句。

  2. 标记异常样本极少时的表现
    标记异常样本 m 很小(如 m=1 或 m=2)时,权重估计极端不稳定。论文是否分析了 m 的下界是多少才能让条件校准的有限样本保证仍成立?文献 [22] 本身需要某种“重复测量”来校准。若 m 太小,条件校准可能退化为保守(无功效增益)。

  3. 对测试分布漂移(covariate shift)的鲁棒性
    论文延续了共形推理的交换性假设,但测试 inlier 很可能出现协变量偏移(covariate shift)。引用 [13] 和 [69] 讨论了非交换情形,本文是否或如何能将加权共形 p 值与这些偏移鲁棒方法结合?未来可能接入 covariate shift 下的重加权(如 Tibshirani et al., 2019 [11])。

  4. 计算-统计间的权衡
    本文使用模型集成(K 个模型),且权重计算依赖每个测试点的局部评估。当 K 和测试集 size 很大时,计算复杂度是 O(K·n_test)。是否可能通过近似或随机化降低计算成本?文中是否讨论了“computational cost”作为 limitation?用户若感兴趣,可借此评估统计-计算权衡在共形框架下的潜力。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论