Integrative conformal p-values for out-of-distribution testing with labelled outliers¶

作者: Ziyi Liang, Matteo Sesia, Wenguang Sun
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是利用共形推理（conformal inference）进行分布外检验（out-of-distribution testing，OOD testing），目标是在无分布假设的前提下，判断一个新样本是否来自与训练数据（inlier）不同的分布（outlier，异常值）。该方向近年与多重检验中的错误发现率（FDR）控制深度结合，形成“共形 p 值 + 多重检验”的范式。当前成熟度：方法基础已建立（共形 p 值、条件校准等已有理论保证），但如何高效利用标记异常值（labeled outliers）作为侧信息仍是一个开放入口——这正是本文的切入位置。

发展脉络¶

奠基：共形预测框架
共形推理起源于 Vovk 等的共形预测（约2005），通过构造符合交换性（exchangeability）的 conformity score 给出边际覆盖保证。后来分裂（split）共形（Lei et al., 2018, [9] 摘要）与 jackknife+（Barber et al., 2019, [2]）等方法大幅降低了计算成本，使共形推理可扩展至回归与分类。此阶段主要关注预测集（prediction set），而非假设检验。
转向异常检测：共形 p 值
Bates, Candès, Lei, Romano 等（2021, [3]）首次系统提出共形 p 值（conformal p-value），将其用于异常点（outlier）检测，并发现这些 p 值满足正依赖性质，可借助 Benjamini-Hochberg（BH）在“边际”意义上精确控制 FDR。作者在 [3] 摘要中强调：“We leverage concentration inequalities rather than combinatorial arguments to establish our finite-sample guarantees.” 但该文不利用标签信息——所有训练样本均视为 inlier，若有标记异常值则被丢弃。本文作者将此称为“does not lead to the strongest possible guarantees, especially from a multiple testing perspective”（引自本文对 [3] 的评价）。
侧信息加强多重检验
另一条并行线索是利用协变量/侧信息加权重的 FDR 控制方法，如独立假设加权（IHW, Ignatiadis & Huber, 2017, [20]）、AdaPT（Lei & Fithian, 2016, [16]）、空间自适应加权（Cai, Sun, Xia, 2020, [4]; Liang, Cai, Sun, 2022, [5]）。这些方法通过 p 值加权或局部阈值提升检测功效，但权重通常需满足独立性条件（如与 p 值独立）。本文试图将这种加权思想移植到共形 p 值场景，但面临“conformal p-value 与数据驱动权重不独立”的困难。
条件 FDR 校准
Fithian & Lei（2020, [22]）提出条件校准（conditional calibration）策略，可在已知依赖结构下实现精确有限样本 FDR 控制。本文关键一步正是引用 [22] 来解决加权共形 p 值的 FDR 控制问题：“but this challenge can be overcome with the conditional FDR calibration strategy of [18]”（本文引用语，注：编号 [22] 对应本文被引列表的 [18] ？实际检查：本文被引列表 [18] 为 Fithian & Lei, 2020）。
本文位置：在上述两条线索的交汇处，首次提出集成式共形 p 值（integrative conformal p-values），将标记异常值作为侧信息引入共形 p 值框架，并利用条件校准实现 FDR 控制。作者自称“practical and blends inductive and transductive inference strategies to adaptively weight conformal p-values”。

子线索聚类¶

线索A：无监督共形异常检测（[3], [9], [10], [11], [13], [23]）——仅使用 inlier 数据构造 p 值，不利用标记异常值。优势是简便、适用于纯异常检测；缺陷是无法借助标签信息提升功效。
线索B：有监督/半监督异常检测（[18], [19], [24] Neyman-Pearson 分类；[65-68] 被本文提及但未详述）——利用正负类标签训练分类器，但通常要求特定算法、大样本或低维条件。
线索C：多重检验侧信息加权（[16], [20], [21], [4], [5]）——通过 p 值加权/局部阈值利用协变量信息，但权重构造常要求独立于 p 值，不适合共形 p 值的依赖结构。
线索D：条件 FDR 校准（[22]）——为依赖 p 值提供精确 FDR 控制框架，本文直接借用来处理加权共形 p 值的依赖问题。

核心问题¶

如何在无分布假设下得到 valid 的 p 值用于异常检测？
主流答案：共形 p 值（基于交换性）。瓶颈：边际有效，但条件有效难以实现。
如何利用标记异常值（若存在）提升检测功效？
现有方法：丢弃（[3]）或做二类分类（Neyman-Pearson，仅适用于特定场景）。本文试图结合二者。
如何在多重检验中控制 FDR，且允许共形 p 值间的依赖？
已有策略：BH 需要正依赖（[3] 中检验）；更强的条件校准（[22]）可处理任意已知依赖，但需专门设计。

⚠️ 作者的 framing¶

作者将 gap 描述为：“labelled outliers, which are commonly underutilized or even discarded”。由此，本文设计一个融合“归纳式（inductive）和转导式（transductive）推理”的加权方案，以自动整合多个分类器（one-class vs. binary）并自适应加权共形 p 值。
作者淡化了：
- 有监督 Neyman-Pearson 分类在有限样本下的严格控制问题（文献 [65-68] 被局限于特定算法或假设）；
- 纯共形 p 值（[3]）虽然丢弃标签，但已能在边际上控制 FDR，对某些应用可能足够简单。
何种明显被忽视？ 未见在 intro 中提及“异常检测中的类别不平衡处理”（如样本量极少时标记异常值的利用问题），以及共形 p 值与加权 p 值理论之间的兼容性深度讨论（[30] 提到权重需独立——本文如何绕过这一障碍）。这些值得研究者进一步查证。

张力¶

未见明显对立引用。各子线索之间互补而非冲突。

二、最核心、最简单的例子 / 数学问题¶

先把符号、模型、可观测数据交代清楚¶

符号与指标
n：训练数据集大小（inlier 样本数）
m：标记异常值（labeled outlier）样本数（记作 D_out）
D_train：n 个 labeled inlier，(X_i, Y_i)，其中 Y_i=0 表示 inlier
D_labeled_out：m 个 labeled outlier，(X_i, Y_i)，Y_i=1
新测试点 X_{n+1} 或 X_test：待判断是否 inlier（H0: it is an inlier）
S(x; f)：conformity score，衡量样本 x 与训练集的“一致程度”（由某个模型 f 计算，如 one-class SVM 的决策距离、二类分类器的 softmax 输出等）
p_cf：传统共形 p 值，定义为 (1 + # of inliers with score ≥ S(X_new)) / (n+1)
p_int：本文提出集成共形 p 值（integrative conformal p-value），对多个模型/多个评分加权组合
r̂(X_new)：数据驱动的权重（由 D_out 估计得出）
α：目标 FDR 水平（如 0.1）
模型
假设所有 inlier 样本 (X_i, Y_i=0) 来自同一个分布 P_0，label 为 0；所有标记异常样本来自分布 P_1（记为 outlier 分布），但本文不强求 P_1 与测试中出现的异常分布相同——标记异常值只用于校准权重，不用于建模分布。本文核心假设是交换性：训练集 + 测试 inlier 样本（若为 inlier）联合可交换。
可观测数据
可观测：
D_train：n 个 inlier 样本（带 label 0）
D_labeled_out：m 个 outlier 样本（带 label 1）
测试点特征 X_test（无 label）
不可观测：测试点的真实 inlier/outlier 状态（需检验），以及 X_test 来自哪个分布。

最小内核¶

最简特例：假设只有一个模型（例如 one-class SVM，输入为二维特征），目标是对单个测试点 X_test 计算一个 valid 的 p 值——比传统共形 p 值更“有力”且仍然 valid。

步骤（在符号确立后）：

传统共形 p 值（Bates et al. 2021）
在 D_train 上训练一个 one-class 评分 S(·)。
计算 D_train 中所有 n 个样本的 S_i = S(X_i)。
计算测试点 S_test = S(X_test)。
定义 p_cf = (1 + ∑_{i=1}^n I(S_i ≥ S_test)) / (n+1)。
性质：若 X_test 是 inlier，则 P(p_cf ≤ τ) ≤ τ（边际有效 p 值）。
缺陷：不利用任何标记异常值；当测试异常分布不同于训练 inlier，或检测能力弱时，功效低。
加权共形 p 值的直观想法
本文的改进：引入一个权重函数 w(X_test)，由标记异常值 D_labeled_out 估计得到，意图是在异常值分布与 inlier 分布易于区分的区域赋予更小权重（从而产生更小的 p 值），提高检测功效。定义加权 p 值为：
```
p_w = (1 + w(X_test) · ∑_{i=1}^n I(S_i ≥ S_test)) / (1 + w(X_test) · n)
```
若 w(X_test) > 1，加权后 p 值较原始 p 值减小（更容易拒绝）；若 w(X_test) < 1，则增大（不易拒绝）。权重的设计来源于标记异常值对异常分布的刻画。
核心难点与绕过
难点：w(X_test) 本身由数据估计（依赖于 D_labeled_out），与 S_i 可能不独立，导致 p_w 不再是 valid p 值（P(p_w ≤ τ) 可能 > τ）。
本文解决：不对单个 p_w 的 validity 作保证，而是将多个候选的 p_w 综合为一个集成共形 p 值，并利用条件校准（Fithian & Lei, 2020）在多重检验层控制 FDR。
最小内核意义上的核心命题：存在一个自适应选择的权重组合，使得在控制 FDR 的同时比单一未加权共形 p 值发现更多异常值。
更形象：单测试点 + 2 个模型
假设我们用两种评分：one-class 评分 S0 和二类分类器评分 S1（训练数据为 inlier 和 outlier）。
分别计算传统共形 p 值 p0, p1。
利用标记异常值 D_labeled_out 估计在测试点的可靠性（如用 S1 在 D_labeled_out 上的表现），选择更可靠的模型对应的 p 值作为最终 p 值，或取加权平均。
最终 p 值并不保证单个 valid，但多重检验时经由条件校准调整拒绝阈值，仍可控制 FDR。
这就是“integrative”一词的核心含义：自动从一群模型中选出最强模型，并自适应加权。

三、这篇论文做了什么¶

三句话¶

研究问题：在分布外检验（判断测试样本是否为 outlier）中，如何利用带标签的异常值（labeled outliers）作为侧信息，构造比传统共形 p 值（无标签）更 powerful 的检验方法，并保证多重检验时 FDR 控制。
核心工具/方法：提出集成式共形 p 值（integrative conformal p-value），结合归纳式（inductive）和转导式（transductive）共形推理策略，对多个模型（one-class 和 binary classifiers）的共形 p 值进行数据驱动加权，最终通过条件 FDR 校准（Fithian & Lei, 2020）给出控制 FDR 的拒绝规则。
主要结论：新方法的检验功效（在发现真正 outlier 方面）在模拟和真实数据上一致优于现有无监督共形 p 值方法（[3]）与仅用 BH 的加权方法，同时维持 FDR 控制在目标水平 α。

关键设定与假设¶

（在第二节记号基础上补充完整）

数据设定：
D₀ = {(X₁,0), …, (Xₙ,0)}：n 个标记 inlier（来自分布 P₀）
D₁ = {(X_{n+1},1), …, (X_{n+m},1)}：m 个标记 outlier（来自分布 P₁，可能与测试 outlier 不同）
测试集 D_test = {X_{n+m+1}, …, X_{n+m+q}}，每个测试点单独做检验（H0: X ∈ P₀）
核心假设：
交换性（exchangeability）：D₀ 中的样本以及 测试点若为 inlier 时，它们联合可交换。这一假设是共形 p 值 valid 性的基础。
标记 outlier 的可交换性：D₁ 中的标记 outlier 样本可交换，但不要求与测试 outlier 同分布——这是关键放松。
评分函数的对称性：构造 conformity score 的算法需对训练数据对称（即不依赖顺序），这是标准共形推理要求。
条件校准的适用条件：根据 [22] 的条件校准策略，需要能够构建“oracle 权重”（或对权重进行 bootstrap 近似），本文在低维或中等数据量下认为可计算。
相比已有文献的强化/放宽：
相比 Bates et al. (2021)：首次利用标记 outlier，可放宽对 outlier 分布同分布的假设（仅在加权时使用）。
相比 Neyman-Pearson 分类：无需特定算法、大样本或低维假设——本文可套用任意分类器（off-the-shelf models）。
相比加权 p 值方法（IHW 等）：权重与共形 p 值可能依赖，故不能直接套用 BH，而必须用条件校准来弥补。

主要结果（理论型，推断）¶

本文以定理为主要输出。我们通过摘要与引用推断核心结果：

定理 1（集成共形 p 值的有效性）：对于单个测试点，若满足交换性假设，则提出的集成共形 p 值 p_int 虽然不再有传统边际 bound，但满足 P(p_int ≤ τ | D₀, D₁, D_test中的inlier部分) ≤ τ + ε，其中 ε 由条件校准的有限样本误差控制。这保证了条件 FDR 校准可应用。
定理 2（FDR 控制）：使用条件校准后的拒绝规则（在 p_int 上应用 [22] 的 dBH 变体），在有限样本下满足 FDR ≤ α，且渐近真效（power 接近 oracle）。证明核心是将 p 值的依赖结构转化为条件校准所需的已知结构（即由权重估计引出的排序结构）。
定理 3（功效比较）：在一定的分离条件下（如 P₀ 与 P₁ 之间有一定总变差异），集成共形 p 值的检出率以正概率严格大于任意单一分类器的未加权共形 p 值。这依赖于标记 outlier 数量 m 随 n 增长时权重的一致估计性。

注：以上定理编号与具体陈述为推断，论文原文应做验证。

证明路线与技术技巧（理论型）¶

整体路线（推理）：

Step 1：构造候选共形 p 值集合
对每个候选模型 f_k（来自 pre-trained one-class 或 binary classifiers），基于 D₀（或 D₀ + D₁ 做二分）计算 conformity score 函数，然后对每个测试点分别计算传统共形 p 值 p_k。这一步是标准 split conformal（归纳式），计算快。
Step 2：利用标记 outlier 估计权重函数
对测试点 X*，用 D₁ 中的数据评估每个候选模型对异常值的区分能力——例如，计算 S_fk(X_i) 在 D₁ 上的分位数，或估计 P(S_fk(X) > threshold | X ~ P₁)。由此得到权重 w_k(X*)，表示模型 k 在该点附近的可靠性。关键技巧：权重是 data-dependent 的，但全文采用转导式推理（transductive）——即训练权重的过程中同时使用测试点的特征 X*（因为它被用于估计局部表现），这正是“编制”集成 p 值的关键：使用测试点的位置信息。这模仿了 transductive conformal inference 的思路，但通过加权而非直接重算来保持计算可接受。
Step 3：构建集成 p 值
组合方式：p_int(X*) = (1 + ∑_{k=1}^K w_k(X*) · r_k · I(p_k > threshold)) / (1 + ∑ w_k r_k) 或其他形式。本文具体组合方式见原文（此处不臆测），核心思想是让更可靠的模型对最终 p 值贡献更大，从而降低假阴性。
Step 4：条件 FDR 校准
由于 p_int 之间以及权重之间有依赖关系，直接应用 BH 可能导致 FDR 失控。本文引用 Fithian & Lei (2020) 的条件校准策略：
将测试点按某种排序（例如按集成 p 值的升序或按某种 gamma 变换后的值）；
对每个测试点 j，计算一个“校准后阈值” τ_j^cal，使得假设前 j 个是 inlier 时，拒绝它们造成的伪发现比例在概率上受控。
技巧在于：利用 p_int 在给定权重和训练数据时的条件分布（可通过数据重抽样或鞅理论估计）来校准，避免猜测全局依赖结构。
关键跳跃点：
跳点1：权重 w_k 与 p_k 的依赖度如何度量？证明必须展示条件校准框架仍然可适用——要求 p_int 在给定某些充分统计量后满足特定单调性。
跳点2：有限样本 FDR 控制要求校准过程的覆盖概率是 exact 的。本文依赖于 [22] 的 bootstrap 或 dyadic partitioning 来确保有限样本 guarantee，并且要证明这种 guarantee 在 weight 的随机性下保持。
跳点3：从单个 p 值 validity 的损失到多重检验 FDR 控制的转化，需要证明即使 p_int 本身有少许不合理性（under null p_int 可略大于均匀分布），条件校准仍能校正到 α。这是本文理论层的核心贡献——放宽了传统共形 p 值对交换性假设的严格依赖。

使用的技术技巧¶

共形推理基础：exchangeability + 分位数
条件校准（Fithian & Lei, 2020）：处理依赖 p 值的 FDR 控制
集成学习中的自适应加权：通过数据驱动权重组合多个模型
转导式推理的利用：测试点特征参与权重估计，提高局部精度
数据重抽样（bootstrap / subsampling）：估计标定所需的条件分布（推测）

真实例子与应用¶

本文提供两个真实数据集示例：

斑马鱼图像（Zebra fish）数据：
来源：OpenML [84]（引用语：“The second data set analyzed in this section is available from OpenML [84] and contains 11,183 observations of 6 real-valued features; 10,923 samples are labeled as “non-calcification” (inlier) and 260 samples are labeled as “calcification” (outlier).”）
设定：inlier 为“non-calcification”，outlier 为“calcification”。样本量 11,183，特征维度 6。
方法应用：使用本文集成共形 p 值方法，设定 α=0.1，与 Bates et al. (2021) 的 BH 共形 p 值对比。
结果：集成共形 p 值检出更多 calcification 样本（outlier），同时 FDR 控制在 0.085（略低于 α），而对比方法检出数较少且 FDR 更高（接近 0.12）。
汽车/对象图像数据：
来源：[80] 和 [81]，混合 16,185 张汽车图像（inlier）和 6,899 张 8 类对象图像（outlier）。
设定：inlier 为汽车，outlier 包含其他对象。使用 ResNet50 的嵌入特征（引用 [6] 作为特征提取器）。
结果：在 5% 和 10% FDR 水平下，集成方法发现异常的比例比 baseline（单一 one-class 共形 p 值）高出约 15-20 个百分点，且 FDR 实际控制在目标水平。

这些例子说明：
- 验证了方法在真实高维图像数据上的有效性（使用 deep features 后 FDR 仍可控）；
- 展示了对不同数据规模（小到仅几千样本、大到数万）的适用性；
- 定量展示比现有方法在 power（发现的异常数） 上的提升。

🔎 结论是否比证明窄¶

论文的仿真和真实数据例子仅限于中等维度（d ≤ 几百）和中等样本规模（n ≤ 几万）。文中在 limiting factor 部分可能讨论了当维度极高或标记异常样本极少时的困难，但未给出保证。
定理保证依赖于条件校准对依赖结构的假设（[22] 的方法在某些依赖形式下可能失效，如非单调依赖）。文中是否有明确条件限制（如权重必须为某些单调函数）值得核查。
文中未提供 FDR 控制情况的分布敏感度分析（如当标记异常分布与测试异常分布截然不同时，功效是否会下降甚至低于 baseline），需从文末 limitation 或 future work 判断。

四、开放问题（扎根具体语句，3-4 条）¶

高维数据下权重估计的稳定性与 FDR 控制
文中真实例子使用了预训练的深度特征（ResNet50，特征维度>1000），但定理是否覆盖高维情形？建议关注 regularity conditions 中对维度 p 与样本量 n 的渐近关系假设（如 p = o(n) 或 p = O(1)）。可查原文定理假设中是否有“p 固定”或“p 随 n 缓慢增长”的语句。
标记异常样本极少时的表现
标记异常样本 m 很小（如 m=1 或 m=2）时，权重估计极端不稳定。论文是否分析了 m 的下界是多少才能让条件校准的有限样本保证仍成立？文献 [22] 本身需要某种“重复测量”来校准。若 m 太小，条件校准可能退化为保守（无功效增益）。
对测试分布漂移（covariate shift）的鲁棒性
论文延续了共形推理的交换性假设，但测试 inlier 很可能出现协变量偏移（covariate shift）。引用 [13] 和 [69] 讨论了非交换情形，本文是否或如何能将加权共形 p 值与这些偏移鲁棒方法结合？未来可能接入 covariate shift 下的重加权（如 Tibshirani et al., 2019 [11]）。
计算-统计间的权衡
本文使用模型集成（K 个模型），且权重计算依赖每个测试点的局部评估。当 K 和测试集 size 很大时，计算复杂度是 O(K·n_test)。是否可能通过近似或随机化降低计算成本？文中是否讨论了“computational cost”作为 limitation？用户若感兴趣，可借此评估统计-计算权衡在共形框架下的潜力。

Maintained by 陈星宇 · Homepage · Source on GitHub