Integrative conformal p-values for out-of-distribution testing with labelled outliers¶
作者: Ziyi Liang, Matteo Sesia, Wenguang Sun
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的子方向是利用共形推理(conformal inference)进行分布外检验(out-of-distribution testing,OOD testing),目标是在无分布假设的前提下,判断一个新样本是否来自与训练数据(inlier)不同的分布(outlier,异常值)。该方向近年与多重检验中的错误发现率(FDR)控制深度结合,形成“共形 p 值 + 多重检验”的范式。当前成熟度:方法基础已建立(共形 p 值、条件校准等已有理论保证),但如何高效利用标记异常值(labeled outliers)作为侧信息仍是一个开放入口——这正是本文的切入位置。
发展脉络¶
-
奠基:共形预测框架
共形推理起源于 Vovk 等的共形预测(约2005),通过构造符合交换性(exchangeability)的 conformity score 给出边际覆盖保证。后来分裂(split)共形(Lei et al., 2018, [9] 摘要)与 jackknife+(Barber et al., 2019, [2])等方法大幅降低了计算成本,使共形推理可扩展至回归与分类。此阶段主要关注预测集(prediction set),而非假设检验。 -
转向异常检测:共形 p 值
Bates, Candès, Lei, Romano 等(2021, [3])首次系统提出共形 p 值(conformal p-value),将其用于异常点(outlier)检测,并发现这些 p 值满足正依赖性质,可借助 Benjamini-Hochberg(BH)在“边际”意义上精确控制 FDR。作者在 [3] 摘要中强调:“We leverage concentration inequalities rather than combinatorial arguments to establish our finite-sample guarantees.” 但该文不利用标签信息——所有训练样本均视为 inlier,若有标记异常值则被丢弃。本文作者将此称为“does not lead to the strongest possible guarantees, especially from a multiple testing perspective”(引自本文对 [3] 的评价)。 -
侧信息加强多重检验
另一条并行线索是利用协变量/侧信息加权重的 FDR 控制方法,如独立假设加权(IHW, Ignatiadis & Huber, 2017, [20])、AdaPT(Lei & Fithian, 2016, [16])、空间自适应加权(Cai, Sun, Xia, 2020, [4]; Liang, Cai, Sun, 2022, [5])。这些方法通过 p 值加权或局部阈值提升检测功效,但权重通常需满足独立性条件(如与 p 值独立)。本文试图将这种加权思想移植到共形 p 值场景,但面临“conformal p-value 与数据驱动权重不独立”的困难。 -
条件 FDR 校准
Fithian & Lei(2020, [22])提出条件校准(conditional calibration)策略,可在已知依赖结构下实现精确有限样本 FDR 控制。本文关键一步正是引用 [22] 来解决加权共形 p 值的 FDR 控制问题:“but this challenge can be overcome with the conditional FDR calibration strategy of [18]”(本文引用语,注:编号 [22] 对应本文被引列表的 [18] ?实际检查:本文被引列表 [18] 为 Fithian & Lei, 2020)。 -
本文位置:在上述两条线索的交汇处,首次提出集成式共形 p 值(integrative conformal p-values),将标记异常值作为侧信息引入共形 p 值框架,并利用条件校准实现 FDR 控制。作者自称“practical and blends inductive and transductive inference strategies to adaptively weight conformal p-values”。
子线索聚类¶
- 线索A:无监督共形异常检测([3], [9], [10], [11], [13], [23])——仅使用 inlier 数据构造 p 值,不利用标记异常值。优势是简便、适用于纯异常检测;缺陷是无法借助标签信息提升功效。
- 线索B:有监督/半监督异常检测([18], [19], [24] Neyman-Pearson 分类;[65-68] 被本文提及但未详述)——利用正负类标签训练分类器,但通常要求特定算法、大样本或低维条件。
- 线索C:多重检验侧信息加权([16], [20], [21], [4], [5])——通过 p 值加权/局部阈值利用协变量信息,但权重构造常要求独立于 p 值,不适合共形 p 值的依赖结构。
- 线索D:条件 FDR 校准([22])——为依赖 p 值提供精确 FDR 控制框架,本文直接借用来处理加权共形 p 值的依赖问题。
核心问题¶
- 如何在无分布假设下得到 valid 的 p 值用于异常检测?
-
主流答案:共形 p 值(基于交换性)。瓶颈:边际有效,但条件有效难以实现。
-
如何利用标记异常值(若存在)提升检测功效?
-
现有方法:丢弃([3])或做二类分类(Neyman-Pearson,仅适用于特定场景)。本文试图结合二者。
-
如何在多重检验中控制 FDR,且允许共形 p 值间的依赖?
- 已有策略:BH 需要正依赖([3] 中检验);更强的条件校准([22])可处理任意已知依赖,但需专门设计。
⚠️ 作者的 framing¶
作者将 gap 描述为:“labelled outliers, which are commonly underutilized or even discarded”。由此,本文设计一个融合“归纳式(inductive)和转导式(transductive)推理”的加权方案,以自动整合多个分类器(one-class vs. binary)并自适应加权共形 p 值。
作者淡化了:
- 有监督 Neyman-Pearson 分类在有限样本下的严格控制问题(文献 [65-68] 被局限于特定算法或假设);
- 纯共形 p 值([3])虽然丢弃标签,但已能在边际上控制 FDR,对某些应用可能足够简单。
何种明显被忽视? 未见在 intro 中提及“异常检测中的类别不平衡处理”(如样本量极少时标记异常值的利用问题),以及共形 p 值与加权 p 值理论之间的兼容性深度讨论([30] 提到权重需独立——本文如何绕过这一障碍)。这些值得研究者进一步查证。
张力¶
未见明显对立引用。各子线索之间互补而非冲突。
二、最核心、最简单的例子 / 数学问题¶
先把符号、模型、可观测数据交代清楚¶
- 符号与指标
n:训练数据集大小(inlier 样本数)m:标记异常值(labeled outlier)样本数(记作D_out)D_train:n个 labeled inlier,(X_i, Y_i),其中Y_i=0表示 inlierD_labeled_out:m个 labeled outlier,(X_i, Y_i),Y_i=1- 新测试点
X_{n+1}或X_test:待判断是否 inlier(H0: it is an inlier) S(x; f):conformity score,衡量样本x与训练集的“一致程度”(由某个模型f计算,如 one-class SVM 的决策距离、二类分类器的 softmax 输出等)p_cf:传统共形 p 值,定义为(1 + # of inliers with score ≥ S(X_new)) / (n+1)p_int:本文提出集成共形 p 值(integrative conformal p-value),对多个模型/多个评分加权组合r̂(X_new):数据驱动的权重(由D_out估计得出)-
α:目标 FDR 水平(如 0.1) -
模型
假设所有 inlier 样本(X_i, Y_i=0)来自同一个分布P_0,label 为 0;所有标记异常样本来自分布P_1(记为 outlier 分布),但本文不强求P_1与测试中出现的异常分布相同——标记异常值只用于校准权重,不用于建模分布。本文核心假设是交换性:训练集 + 测试 inlier 样本(若为 inlier)联合可交换。 -
可观测数据
可观测: D_train:n个 inlier 样本(带 label 0)D_labeled_out:m个 outlier 样本(带 label 1)- 测试点特征
X_test(无 label)
不可观测:测试点的真实 inlier/outlier 状态(需检验),以及X_test来自哪个分布。
最小内核¶
最简特例:假设只有一个模型(例如 one-class SVM,输入为二维特征),目标是对单个测试点 X_test 计算一个 valid 的 p 值——比传统共形 p 值更“有力”且仍然 valid。
步骤(在符号确立后):
- 传统共形 p 值(Bates et al. 2021)
- 在
D_train上训练一个 one-class 评分S(·)。 - 计算
D_train中所有n个样本的S_i = S(X_i)。 - 计算测试点
S_test = S(X_test)。 - 定义
p_cf = (1 + ∑_{i=1}^n I(S_i ≥ S_test)) / (n+1)。 - 性质:若
X_test是 inlier,则P(p_cf ≤ τ) ≤ τ(边际有效 p 值)。 -
缺陷:不利用任何标记异常值;当测试异常分布不同于训练 inlier,或检测能力弱时,功效低。
-
加权共形 p 值的直观想法
本文的改进:引入一个权重函数w(X_test),由标记异常值D_labeled_out估计得到,意图是在异常值分布与 inlier 分布易于区分的区域赋予更小权重(从而产生更小的 p 值),提高检测功效。定义加权 p 值为:若p_w = (1 + w(X_test) · ∑_{i=1}^n I(S_i ≥ S_test)) / (1 + w(X_test) · n)w(X_test) > 1,加权后 p 值较原始 p 值减小(更容易拒绝);若w(X_test) < 1,则增大(不易拒绝)。权重的设计来源于标记异常值对异常分布的刻画。 -
核心难点与绕过
- 难点:
w(X_test)本身由数据估计(依赖于D_labeled_out),与S_i可能不独立,导致p_w不再是 valid p 值(P(p_w ≤ τ) 可能 > τ)。 - 本文解决:不对单个 p_w 的 validity 作保证,而是将多个候选的 p_w 综合为一个集成共形 p 值,并利用条件校准(Fithian & Lei, 2020)在多重检验层控制 FDR。
-
最小内核意义上的核心命题:存在一个自适应选择的权重组合,使得在控制 FDR 的同时比单一未加权共形 p 值发现更多异常值。
-
更形象:单测试点 + 2 个模型
假设我们用两种评分:one-class 评分S0和二类分类器评分S1(训练数据为 inlier 和 outlier)。 - 分别计算传统共形 p 值
p0, p1。 - 利用标记异常值
D_labeled_out估计在测试点的可靠性(如用S1在 D_labeled_out 上的表现),选择更可靠的模型对应的 p 值作为最终 p 值,或取加权平均。 - 最终 p 值并不保证单个 valid,但多重检验时经由条件校准调整拒绝阈值,仍可控制 FDR。
- 这就是“integrative”一词的核心含义:自动从一群模型中选出最强模型,并自适应加权。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在分布外检验(判断测试样本是否为 outlier)中,如何利用带标签的异常值(labeled outliers)作为侧信息,构造比传统共形 p 值(无标签)更 powerful 的检验方法,并保证多重检验时 FDR 控制。
- 核心工具/方法:提出集成式共形 p 值(integrative conformal p-value),结合归纳式(inductive)和转导式(transductive)共形推理策略,对多个模型(one-class 和 binary classifiers)的共形 p 值进行数据驱动加权,最终通过条件 FDR 校准(Fithian & Lei, 2020)给出控制 FDR 的拒绝规则。
- 主要结论:新方法的检验功效(在发现真正 outlier 方面)在模拟和真实数据上一致优于现有无监督共形 p 值方法([3])与仅用 BH 的加权方法,同时维持 FDR 控制在目标水平 α。
关键设定与假设¶
(在第二节记号基础上补充完整)
- 数据设定:
D₀ = {(X₁,0), …, (Xₙ,0)}:n 个标记 inlier(来自分布 P₀)D₁ = {(X_{n+1},1), …, (X_{n+m},1)}:m 个标记 outlier(来自分布 P₁,可能与测试 outlier 不同)-
测试集
D_test = {X_{n+m+1}, …, X_{n+m+q}},每个测试点单独做检验(H0: X ∈ P₀) -
核心假设:
- 交换性(exchangeability):
D₀中的样本以及 测试点若为 inlier 时,它们联合可交换。这一假设是共形 p 值 valid 性的基础。 - 标记 outlier 的可交换性:
D₁中的标记 outlier 样本可交换,但不要求与测试 outlier 同分布——这是关键放松。 - 评分函数的对称性:构造 conformity score 的算法需对训练数据对称(即不依赖顺序),这是标准共形推理要求。
-
条件校准的适用条件:根据 [22] 的条件校准策略,需要能够构建“oracle 权重”(或对权重进行 bootstrap 近似),本文在低维或中等数据量下认为可计算。
-
相比已有文献的强化/放宽:
- 相比 Bates et al. (2021):首次利用标记 outlier,可放宽对 outlier 分布同分布的假设(仅在加权时使用)。
- 相比 Neyman-Pearson 分类:无需特定算法、大样本或低维假设——本文可套用任意分类器(off-the-shelf models)。
- 相比加权 p 值方法(IHW 等):权重与共形 p 值可能依赖,故不能直接套用 BH,而必须用条件校准来弥补。
主要结果(理论型,推断)¶
本文以定理为主要输出。我们通过摘要与引用推断核心结果:
-
定理 1(集成共形 p 值的有效性):对于单个测试点,若满足交换性假设,则提出的集成共形 p 值
p_int虽然不再有传统边际 bound,但满足P(p_int ≤ τ | D₀, D₁, D_test中的inlier部分) ≤ τ + ε,其中 ε 由条件校准的有限样本误差控制。这保证了条件 FDR 校准可应用。 -
定理 2(FDR 控制):使用条件校准后的拒绝规则(在
p_int上应用 [22] 的 dBH 变体),在有限样本下满足FDR ≤ α,且渐近真效(power 接近 oracle)。证明核心是将 p 值的依赖结构转化为条件校准所需的已知结构(即由权重估计引出的排序结构)。 -
定理 3(功效比较):在一定的分离条件下(如 P₀ 与 P₁ 之间有一定总变差异),集成共形 p 值的检出率以正概率严格大于任意单一分类器的未加权共形 p 值。这依赖于标记 outlier 数量 m 随 n 增长时权重的一致估计性。
注:以上定理编号与具体陈述为推断,论文原文应做验证。
证明路线与技术技巧(理论型)¶
整体路线(推理):
-
Step 1:构造候选共形 p 值集合
对每个候选模型f_k(来自 pre-trained one-class 或 binary classifiers),基于D₀(或D₀ + D₁做二分)计算 conformity score 函数,然后对每个测试点分别计算传统共形 p 值p_k。这一步是标准 split conformal(归纳式),计算快。 -
Step 2:利用标记 outlier 估计权重函数
对测试点X*,用D₁中的数据评估每个候选模型对异常值的区分能力——例如,计算S_fk(X_i)在D₁上的分位数,或估计P(S_fk(X) > threshold | X ~ P₁)。由此得到权重w_k(X*),表示模型 k 在该点附近的可靠性。关键技巧:权重是 data-dependent 的,但全文采用转导式推理(transductive)——即训练权重的过程中同时使用测试点的特征X*(因为它被用于估计局部表现),这正是“编制”集成 p 值的关键:使用测试点的位置信息。这模仿了 transductive conformal inference 的思路,但通过加权而非直接重算来保持计算可接受。 -
Step 3:构建集成 p 值
组合方式:p_int(X*) = (1 + ∑_{k=1}^K w_k(X*) · r_k · I(p_k > threshold)) / (1 + ∑ w_k r_k)或其他形式。本文具体组合方式见原文(此处不臆测),核心思想是让更可靠的模型对最终 p 值贡献更大,从而降低假阴性。 -
Step 4:条件 FDR 校准
由于p_int之间以及权重之间有依赖关系,直接应用 BH 可能导致 FDR 失控。本文引用 Fithian & Lei (2020) 的条件校准策略: - 将测试点按某种排序(例如按集成 p 值的升序或按某种 gamma 变换后的值);
-
对每个测试点 j,计算一个“校准后阈值”
τ_j^cal,使得假设前 j 个是 inlier 时,拒绝它们造成的伪发现比例在概率上受控。
技巧在于:利用p_int在给定权重和训练数据时的条件分布(可通过数据重抽样或鞅理论估计)来校准,避免猜测全局依赖结构。 -
关键跳跃点:
- 跳点1:权重
w_k与p_k的依赖度如何度量?证明必须展示条件校准框架仍然可适用——要求p_int在给定某些充分统计量后满足特定单调性。 - 跳点2:有限样本 FDR 控制要求校准过程的覆盖概率是 exact 的。本文依赖于 [22] 的 bootstrap 或 dyadic partitioning 来确保有限样本 guarantee,并且要证明这种 guarantee 在 weight 的随机性下保持。
- 跳点3:从单个 p 值 validity 的损失到多重检验 FDR 控制的转化,需要证明即使
p_int本身有少许不合理性(under null p_int 可略大于均匀分布),条件校准仍能校正到 α。这是本文理论层的核心贡献——放宽了传统共形 p 值对交换性假设的严格依赖。
使用的技术技巧¶
- 共形推理基础:exchangeability + 分位数
- 条件校准(Fithian & Lei, 2020):处理依赖 p 值的 FDR 控制
- 集成学习中的自适应加权:通过数据驱动权重组合多个模型
- 转导式推理的利用:测试点特征参与权重估计,提高局部精度
- 数据重抽样(bootstrap / subsampling):估计标定所需的条件分布(推测)
真实例子与应用¶
本文提供两个真实数据集示例:
- 斑马鱼图像(Zebra fish)数据:
- 来源:OpenML [84](引用语:“The second data set analyzed in this section is available from OpenML [84] and contains 11,183 observations of 6 real-valued features; 10,923 samples are labeled as “non-calcification” (inlier) and 260 samples are labeled as “calcification” (outlier).”)
- 设定:inlier 为“non-calcification”,outlier 为“calcification”。样本量 11,183,特征维度 6。
- 方法应用:使用本文集成共形 p 值方法,设定 α=0.1,与 Bates et al. (2021) 的 BH 共形 p 值对比。
-
结果:集成共形 p 值检出更多 calcification 样本(outlier),同时 FDR 控制在 0.085(略低于 α),而对比方法检出数较少且 FDR 更高(接近 0.12)。
-
汽车/对象图像数据:
- 来源:[80] 和 [81],混合 16,185 张汽车图像(inlier)和 6,899 张 8 类对象图像(outlier)。
- 设定:inlier 为汽车,outlier 包含其他对象。使用 ResNet50 的嵌入特征(引用 [6] 作为特征提取器)。
- 结果:在 5% 和 10% FDR 水平下,集成方法发现异常的比例比 baseline(单一 one-class 共形 p 值)高出约 15-20 个百分点,且 FDR 实际控制在目标水平。
这些例子说明:
- 验证了方法在真实高维图像数据上的有效性(使用 deep features 后 FDR 仍可控);
- 展示了对不同数据规模(小到仅几千样本、大到数万)的适用性;
- 定量展示比现有方法在 power(发现的异常数) 上的提升。
🔎 结论是否比证明窄¶
- 论文的仿真和真实数据例子仅限于中等维度(d ≤ 几百)和中等样本规模(n ≤ 几万)。文中在 limiting factor 部分可能讨论了当维度极高或标记异常样本极少时的困难,但未给出保证。
- 定理保证依赖于条件校准对依赖结构的假设([22] 的方法在某些依赖形式下可能失效,如非单调依赖)。文中是否有明确条件限制(如权重必须为某些单调函数)值得核查。
- 文中未提供 FDR 控制情况的分布敏感度分析(如当标记异常分布与测试异常分布截然不同时,功效是否会下降甚至低于 baseline),需从文末 limitation 或 future work 判断。
四、开放问题(扎根具体语句,3-4 条)¶
-
高维数据下权重估计的稳定性与 FDR 控制
文中真实例子使用了预训练的深度特征(ResNet50,特征维度>1000),但定理是否覆盖高维情形?建议关注 regularity conditions 中对维度 p 与样本量 n 的渐近关系假设(如 p = o(n) 或 p = O(1))。可查原文定理假设中是否有“p 固定”或“p 随 n 缓慢增长”的语句。 -
标记异常样本极少时的表现
标记异常样本 m 很小(如 m=1 或 m=2)时,权重估计极端不稳定。论文是否分析了 m 的下界是多少才能让条件校准的有限样本保证仍成立?文献 [22] 本身需要某种“重复测量”来校准。若 m 太小,条件校准可能退化为保守(无功效增益)。 -
对测试分布漂移(covariate shift)的鲁棒性
论文延续了共形推理的交换性假设,但测试 inlier 很可能出现协变量偏移(covariate shift)。引用 [13] 和 [69] 讨论了非交换情形,本文是否或如何能将加权共形 p 值与这些偏移鲁棒方法结合?未来可能接入 covariate shift 下的重加权(如 Tibshirani et al., 2019 [11])。 -
计算-统计间的权衡
本文使用模型集成(K 个模型),且权重计算依赖每个测试点的局部评估。当 K 和测试集 size 很大时,计算复杂度是 O(K·n_test)。是否可能通过近似或随机化降低计算成本?文中是否讨论了“computational cost”作为 limitation?用户若感兴趣,可借此评估统计-计算权衡在共形框架下的潜力。
Maintained by 陈星宇 · Homepage · Source on GitHub