Confidence on the focal: conformal prediction with selection-conditional coverage¶
作者: Ying Jin, Zhimei Ren
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 这个子方向要解决的根本问题是:数据驱动选择后的不确定性量化与推断。在科学发现与决策流程中,研究者往往不是对随机抽取的一个个体做预测,而是先用算法(如挑预测值最大的 top-K、挑预测集最窄的、挑符合某 FDR 程序的)从大量候选中筛出“焦点单元”,再对它们做预测或推断。如果直接套用保证边际覆盖的常规预测集,选择偏差会使得焦点单元的实际覆盖概率远低于名义水平。当前该方向正处于从“特定模型/特定选择规则的渐近修正”向“分布无关、有限样本精确、任意置换不变选择规则通用框架”的成熟期过渡。
发展脉络 1. 奠基工作(参数/半参 post-selection inference):早期工作依赖强模型假设。Berk et al. (2013) 提出 POSI 框架,通过同时推断所有子模型系数来提供普遍有效的 post-selection 区间,但代价是区间过宽。Lee et al. (2016) 与 Tibshirani et al. (2014) 开创了“条件选择性推断”,在 Lasso 等特定选择事件下,利用估计量的正态性与选择事件的仿射约束,导出精确的条件分布。作者在 intro 中指出,这类方法“通常利用特定问题结构,如估计量的线性与分布”(引用句:Methods for this goal usually leverage specific problem structures such as linearity and distribution of the estimators (Zhong and Prentice, 2008; Lee et al., 2016...)),留下了“无分布假设下如何做”的口子。 2. 主要进展(渐近修正与 Winner's curse):为了放宽正态性假设,Tian & Taylor (2015) 与 Markovic et al. (2017) 将选择性推断推向渐近情形;Andrews et al. (2018) 针对“选最优”的 Winner's curse 给出条件有效置信区间。作者指出,这些渐近方法仍受限于特定结构与渐近逼近,有限样本下无保证。 3. 当前 frontier(Conformal 路径的 selective inference):近两年,Conformal prediction 被引入选择场景。Bates et al. (2021) 与 Jin & Candès (2023b) 用 conformal p-values 做异常检测与选择,控制 FDR;Bao et al. (2024) 提出 FCR 控制的 selective conformal prediction,但作者明确指出其局限:“作为特例,我们仅能恢复 Bao et al. (2024) 在测试数据 top-K 选择下的方法,并为他们尝试的其他基于排序的选择方法提供有效解”(引用句:As a special case, we recover the method of Bao et al. (2024) for top-K selection among test data, and provide valid solutions to other ranking-based selection methods attempted in their work)。这表明 Bao et al. 的框架在非 top-K 或非等变分类器下失效,构成了本文的直接切入点。 4. 本文的位置:本文将 Mondrian Conformal Prediction 推广至多测试单元与非等变分类器,在“选择规则对校准集置换不变”这一宽泛假设下,实现了任意选择规则下条件覆盖的有限样本精确性,填补了上述从特定结构/特定选择向通用框架的缺口。
子线索聚类 - 线索 A:参数/半参条件选择性推断:Lee et al. (2016); Markovic et al. (2017); Reid et al. (2017); Andrews et al. (2018)。这一簇在正态/渐近正态与仿射选择事件下,推导条件分布,构造精确/渐近有效的置信区间。 - 线索 B:Conformal 选择与多重检验:Bates et al. (2021); Jin & Candès (2023b); Liang et al. (2022); Bashari et al. (2024)。这一簇用 conformal p-values/e-values 做异常检测或 FDR 控制,关注的是“选哪些单元”,而非选完后的预测集覆盖。 - 线索 C:Conformal 选择性预测集(FCR/条件覆盖):Bao et al. (2024); Xu et al. (2022); Weinstein & Ramdas (2020)。这一簇关注选完后的预测集构造,Bao et al. 尝试了 FCR 控制与条件覆盖,但在非等变分类器与多测试单元下受阻;Xu et al. 用 e-values 做 FCR,但依赖 e-CI 的特殊结构。
这个方向在追问的核心问题 1. 选择后条件覆盖的可实现性:给定任意数据驱动选择规则,能否构造预测集,使得 \(P(Y \in C(X) \mid \text{selected}) = 1-\alpha\) 在有限样本下精确成立,而非仅渐近或边际成立? 2. 选择规则的通用性:条件覆盖能否不依赖选择规则的具体结构(如仿射约束、等变性),而是仅依赖一个温和的置换不变性? 3. 计算可行性:即使理论上通用,对于 top-K、基于 conformal p-value 的选择等现实规则,能否高效算出预测集,而非陷入不可行的组合计算?
⚠️ 作者的 framing - 作者把缺口 frame 成什么:作者将现有工作分为两类:一类依赖特定问题结构(正态性、线性、仿射选择),另一类(Bao et al. 2024)虽用 conformal 但受限于等变分类器与单测试单元。作者将自己定位为“显然的下一步”:只需假设选择规则对校准集置换不变,即可统一解决所有现实选择规则的条件覆盖。 - 哪些竞争路线被他淡化或回避了:作者淡化了半参数有效推断路线(如 Chernozhukov et al. 2015 的正交化/Debiased ML 路径),这条路线虽不保证有限样本精确覆盖,但在高维设定下能提供渐近有效估计,而本文的 conformal 路径在高维下可能因校准集样本量不足而区间过宽。此外,作者未讨论 e-value 路线(Xu et al. 2022)在条件覆盖下的潜力,仅将其归入 FCR 控制。 - 什么明显该被引/该存在、却没出现在 intro 里:高维半参数 post-selection 估计(如 Belloni et al. 的 double selection Lasso)未被引;这些工作在 \(p \gg n\) 下做选择后点估计与置信区间,与本文的预测集目标不同但问题同源,值得研究者去查其与 conformal 路径的互补或冲突。
张力 未见明显对立引用。各路线在不同假设下给出不同保证(参数路线给渐近有效点估计,conformal 路线给有限样本预测集覆盖),目标不同,暂无直接矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚 - 符号与 estimand: - \(\mathcal{I}_{\text{cal}} = \{1, \ldots, n\}\):校准集索引,样本量 \(n\)。 - \(\mathcal{I}_{\text{test}} = \{n+1, \ldots, n+m\}\):测试集索引,测试单元数 \(m\)。 - \((X_i, Y_i)\):第 \(i\) 个单元的协变量与潜在结果。对校准集,\((X_i, Y_i)\) 均可观测;对测试集,\(X_i\) 可观测,\(Y_i\) 不可观测(是要预测的目标)。 - \(S(x, y)\): conformity score 函数,由预训练模型 \(\hat{\mu}, \hat{\sigma}\) 等确定(如 \(S(x, y) = |y - \hat{\mu}(x)| / \hat{\sigma}(x)\)),视为固定函数。 - \(V_i = S(X_i, Y_i)\):第 \(i\) 个单元的 conformity score。校准集上 \(V_i\) 可观测,测试集上 \(V_i\) 不可观测(因 \(Y_i\) 未知)。 - \(\hat{C}_\alpha(X_i)\):对测试单元 \(i\) 构造的预测集,目标 estimand 是其条件覆盖概率 \(P(Y_i \in \hat{C}_\alpha(X_i) \mid E)\),其中 \(E\) 是选择事件。 - \(E\):选择事件,由选择规则 \(\mathcal{A}\) 作用于 \((X_{\text{test}}, V_{\text{cal}})\) 产生。 - 模型(数据生成机制): - 假设 \((X_1, Y_1), \ldots, (X_{n+m}, Y_{n+m})\) i.i.d. 服从某未知分布 \(P_{XY}\)。无任何参数或分布族假设。 - 预训练模型 \(\hat{\mu}, \hat{\sigma}\) 在一独立训练集上拟合,视为固定。因此 \(S(x, y)\) 是固定函数,\(V_i\) 的 i.i.d. 性质继承自 \((X_i, Y_i)\)。 - 可观测数据: - 校准集:\((X_i, Y_i)\) 对 \(i \in \mathcal{I}_{\text{cal}}\) 全部可观测,从而 \(V_i\) 可观测。 - 测试集:仅 \(X_i\) 对 \(i \in \mathcal{I}_{\text{test}}\) 可观测;\(Y_i\) 与 \(V_i\) 不可观测,需靠 \(X_i\) 与校准集的 \(V_{\text{cal}}\) 去预测/推断。 - 选择事件 \(E\):由规则 \(\mathcal{A}\) 作用于可观测的 \(X_{\text{test}}\) 与 \(V_{\text{cal}}\) 决定,因此 \(E\) 本身是可观测的事件。
第二步:最小内核——Top-1 选择下的精确条件覆盖 剥掉所有一般性设定(多测试单元、非等变分类器、复杂选择规则),考虑最简特例:\(m=1\)(单个测试单元 \(n+1\)),选择规则为“选预测值最大的 top-1”,score 函数为残差绝对值 \(S(x, y) = |y - \hat{\mu}(x)|\)。
- 问题退化成什么:我们要构造 \(\hat{C}_\alpha(X_{n+1})\),使得
\[P(Y_{n+1} \in \hat{C}_\alpha(X_{n+1}) \mid \hat{\mu}(X_{n+1}) \geq t) = 1 - \alpha,\]其中 \(t\) 是某个阈值(如校准集上某分位数),选择事件 \(E = \{\hat{\mu}(X_{n+1}) \geq t\}\) 仅依赖 \(X_{n+1}\) 与校准集,不依赖 \(Y_{n+1}\)。
- 常规 conformal 为什么失效:常规 split conformal 构造 \(\hat{C}_\alpha(X_{n+1}) = \{y : |y - \hat{\mu}(X_{n+1})| \leq Q_{1-\alpha}(V_{\text{cal}})\}\),保证边际覆盖 \(P(Y_{n+1} \in \hat{C}_\alpha) \geq 1-\alpha\)。但条件于 \(\hat{\mu}(X_{n+1}) \geq t\) 时,\(X_{n+1}\) 的分布偏向高预测值区域,若该区域噪声更大(异方差),残差 \(V_{n+1}\) 倾向更大,\(Q_{1-\alpha}(V_{\text{cal}})\) 作为全局分位数可能不够宽,导致条件覆盖 \(< 1-\alpha\)。
- 本文怎么破(最小内核证明路线):
- 置换不变性:在 top-1 选择下,选择事件 \(E = \{\hat{\mu}(X_{n+1}) \geq t\}\) 不涉及校准集 \(V_{\text{cal}}\) 的排序,因此对 \(V_{\text{cal}}\) 的任意置换 \(\pi\),\(E\) 不变。更一般地,若 \(E\) 依赖校准集的分位数(如 \(t = Q_{\beta}(V_{\text{cal}})\)),因分位数本身是置换不变的,\(E\) 仍对 \(V_{\text{cal}}\) 置换不变。
- 条件分位数的精确性:因 \((V_1, \ldots, V_n, V_{n+1})\) i.i.d.,且 \(E\) 仅依赖 \((X_{n+1}, V_{\text{cal}}\) 的置换不变统计量),条件于 \(E\) 下,\(V_{n+1}\) 在联合排序中的秩仍均匀分布。具体地,令 \(Q_{1-\alpha}^-(V_{\text{cal}})\) 为校准集 score 的 \(\lceil (1-\alpha)(n+1) \rceil / (n+1)\) 分位数,则
\[P(V_{n+1} \leq Q_{1-\alpha}^-(V_{\text{cal}}) \mid E) \geq 1 - \alpha.\]这是因为条件于 \(E\) 与 \(V_{\text{cal}}\) 的置换不变统计量,\((V_1, \ldots, V_{n+1})\) 的秩仍对称,\(V_{n+1}\) 落入前 \(1-\alpha\) 分位的概率精确为 \(1-\alpha\)(有限样本,无渐近逼近)。
- 预测集构造:取 \(\hat{C}_\alpha(X_{n+1}) = \{y : S(X_{n+1}, y) \leq Q_{1-\alpha}^-(V_{\text{cal}})\}\),即用校准集 score 的修正分位数做阈值。因 \(E\) 置换不变,上述秩论证精确成立,条件覆盖严格等于 \(1-\alpha\)(或 \(\geq 1-\alpha\),取决于分位数的取整)。
这个最小内核揭示了本文的核心洞见:只要选择事件 \(E\) 对校准集 score 置换不变,常规 conformal 的秩论证在条件分布下依然成立,从而无需知道 \(E\) 的具体结构,即可用校准集分位数构造精确条件覆盖预测集。一般情形的证明只是在这个秩论证上加壳:处理多测试单元(秩变为多维排序)、非等变 score(需修正分位数定义)、更复杂的 \(E\)(需验证置换不变性)。
三、这篇论文做了什么¶
三句话 ①研究了数据驱动选择规则选出焦点单元后,如何构造具有有限样本精确条件覆盖的预测集;②核心工具是推广 Mondrian Conformal Prediction 至多测试单元与非等变分类器,利用选择规则对校准集的置换不变性;③主要结论是在任意置换不变选择规则下,所构造预测集的条件覆盖概率精确达到 \(1-\alpha\),且对 top-K、基于 conformal p-value 等现实规则给出了高效计算实现。
关键设定与假设 在第二节最小记号基础上补全: - 多测试单元:测试集大小 \(m \geq 1\),焦点单元集合 \(\mathcal{S} \subseteq \mathcal{I}_{\text{test}}\) 由选择规则 \(\mathcal{A}\) 选出,\(|\mathcal{S}|\) 可随机。 - 选择规则 \(\mathcal{A}\):输入 \((X_{\text{test}}, V_{\text{cal}})\),输出 \(\mathcal{S}\)。核心假设是 \(\mathcal{A}\) 对 \(V_{\text{cal}}\) 置换不变:对任意置换 \(\pi\),\(\mathcal{A}(X_{\text{test}}, (V_{\pi(1)}, \ldots, V_{\pi(n)})) = \mathcal{A}(X_{\text{test}}, V_{\text{cal}})\)。统计含义:选择规则仅依赖校准集 score 的排序不变统计量(如分位数、经验分布),不依赖哪个具体样本取哪个值。这比 Lee et al. (2016) 的仿射约束或 Bao et al. (2024) 的等变性宽泛得多,涵盖了几乎所有现实选择规则。 - Score 函数:允许非等变分类器,即 \(S(x, y)\) 不必满足 \(S(x, y) = -S(x, -y)\) 等对称性。这对分类问题(如 Romano et al. 2020 的 adaptive prediction set)至关重要。 - Mondrian 分类:将校准集与测试集按某离散协变量 \(Z\)(如性别、疾病亚型)分组,组内 i.i.d.,组间可异质。本文允许 \(Z\) 为空(即无分组,退化为常规 conformal)或为多值。 - 可观测数据与潜在量:同第二节,校准集 \((X_i, Y_i, V_i)\) 全可观测,测试集仅 \(X_i\) 可观测,\(Y_i, V_i\) 不可观测。选择事件 \(E = \{\mathcal{S} = s\}\) 是可观测事件。
主要结果 1. 定理 1(通用条件覆盖保证):在上述设定下,对任意置换不变选择规则 \(\mathcal{A}\),本文构造的预测集 \(\hat{C}_\alpha(X_i)\)(对焦点单元 \(i \in \mathcal{S}\))满足
证明路线与技术技巧 - 整体路线: 1. 定义条件覆盖目标:明确 estimand 是 \(P(Y_i \in \hat{C}_\alpha(X_i) \mid \mathcal{S}=s, Z_i=z)\),而非边际覆盖或 FCR。 2. 验证选择规则的置换不变性:对每个现实选择规则,证明 \(\mathcal{A}(X_{\text{test}}, V_{\text{cal}}) = \mathcal{A}(X_{\text{test}}, V_{\pi(\text{cal})})\),从而 \(E = \{\mathcal{S}=s\}\) 是置换不变事件。 3. 秩均匀性论证:条件于 \(Z_i=z\) 与置换不变事件 \(E\),组 \(z\) 内的 \((V_{\text{cal},z}, V_i)\) 的联合秩仍均匀分布(因 i.i.d. + 置换不变事件不破坏对称性)。 4. 构造预测集:取组 \(z\) 内校准集 score 的修正分位数 \(Q_{1-\alpha}^-(V_{\text{cal},z})\) 作为阈值,构造 \(\hat{C}_\alpha(X_i) = \{y : S(X_i, y) \leq Q_{1-\alpha}^-(V_{\text{cal},z})\}\)(对非等变 score,需分别取上/下分位数构造双侧集)。 5. 覆盖保证:由秩均匀性,\(P(V_i \leq Q_{1-\alpha}^-(V_{\text{cal},z}) \mid E, Z_i=z) \geq 1-\alpha\),从而 \(P(Y_i \in \hat{C}_\alpha(X_i) \mid E, Z_i=z) \geq 1-\alpha\)。 - 关键跳跃点: - 多测试单元下的秩均匀性:当 \(m>1\) 且 \(\mathcal{S}\) 包含多个单元时,需证明每个焦点单元 \(i \in \mathcal{S}\) 的秩在条件分布下仍均匀。难点在于 \(\mathcal{S}\) 的选择可能依赖多个 \(X_j\),从而引入依赖结构。作者通过“条件于 \(\mathcal{S}=s\) 与 \(V_{\text{cal}}\) 的置换不变统计量,各焦点单元的 score 仍 i.i.d. 且与校准集对称”绕过,关键引理是 Lemma 2(条件秩均匀性),用置换群的不动点性质证明。 - 非等变 score 的分位数修正:常规 conformal 对等变 score 用单侧分位数;非等变 score(如分类的 APS score)需双侧修正。作者引入“上/下修正分位数”\(Q_{1-\alpha}^+, Q_{1-\alpha}^-\),分别控制 score 的上/下尾,关键引理是 Lemma 3(非等变 score 的条件覆盖),用秩均匀性分别论证上/下覆盖。 - 技术技巧点名: - 置换群与不动点论证:用校准集索引的置换群 \(\Pi_n\) 作用于 \(V_{\text{cal}}\),证明条件于置换不变事件后,秩分布不变。起作用:将条件覆盖问题转化为对称性下的秩问题,避开选择事件的具体结构。 - Mondrian 分组:将校准集与测试集按 \(Z\) 分组,组内用修正分位数。起作用:允许异质子群体下的条件覆盖,而非强制全局覆盖。 - 修正分位数(Conformal 分位数的有限样本修正):取 \(\lceil (1-\alpha)(n_z+1) \rceil / (n_z+1)\) 分位数而非 \(\lceil (1-\alpha)n_z \rceil / n_z\),补偿测试单元自身占的秩。起作用:保证有限样本精确覆盖,而非渐近逼近。 - 两步 Conformal:对基于初步预测集属性的选择,先构造初步集(用校准集分位数),再基于初步集属性选择,再构造最终集(仍用校准集分位数)。起作用:避免选择规则依赖未观测的 \(Y_i\),仅依赖可观测的 \(X_i\) 与校准集统计量。
真实例子与应用 - 药物发现(DAVIS 数据集,DeepPurpose 库): - 数据/场景:DAVIS 数据集包含药物-靶点相互作用亲和力数据。目标是预测新药物-靶点对的亲和力,并选出亲和力最高的 top-K 组合(最有潜力的药物)。 - 怎么用上去:用 DeepPurpose 预训练模型拟合 \(\hat{\mu}(x)\),构造残差 score \(S(x, y) = |y - \hat{\mu}(x)|\)。校准集用部分标注数据,测试集为未标注候选。选择规则为 top-K(选预测亲和力最高的 K 个)。用本文方法构造条件覆盖预测集,保证选出的 top-K 药物的真实亲和力落入预测集的概率精确为 \(1-\alpha\)。 - 得到什么结果:与常规 conformal 对比,常规方法在 top-K 下的条件覆盖远低于 \(1-\alpha\)(因高预测值区域噪声大),本文方法条件覆盖精确达标,且预测集宽度与常规方法相近(未因条件覆盖而过度变宽)。 - 想说明什么:验证条件覆盖的必要性与本文方法的精确性;展示在现实 top-K 选择下,常规 conformal 失效而本文有效。 - 健康风险预测(MIMIC-IV ICU 数据集): - 数据/场景:MIMIC-IV 电子健康记录数据,目标是预测 ICU 患者住院时长,并选出预测集最窄的患者(高置信预测对象,对应 Ren et al. 2023 的“机器人求助”逻辑:窄集=低不确定性=可自主决策)。 - 怎么用上去:用 Gupta et al. (2022) 的预处理管道提取特征,拟合 CQR 模型(Romano et al. 2019)构造 score \(S(x, y) = \max(\hat{q}_L(x) - y, y - \hat{q}_U(x))\)。选择规则为“选预测集宽度最小的 K 个患者”。用本文方法构造条件覆盖预测集。 - 得到什么结果:常规 conformal 在选窄集患者下条件覆盖不足(窄集患者可能恰是噪声小的亚群,全局分位数过宽导致覆盖虚高?实际是:选窄集=选低噪声亚群,全局分位数对低噪声亚群过宽,覆盖虚高但区间不必要地宽;本文方法用条件分位数,区间更窄且覆盖精确)。本文方法在条件覆盖精确达标的同时,区间宽度比常规 conformal 更短(因条件分位数更贴合低噪声亚群)。 - 想说明什么:展示本文在非 top-K 选择(基于预测集属性的选择)下的有效性,且在条件覆盖达标的同时可缩短区间(条件推断的效率优势)。
🔎 结论是否比证明窄 - 作者在定理陈述中明确区分了“精确等于 \(1-\alpha\)”(连续 score 下)与“\(\geq 1-\alpha\)”(一般 score 下,因分位数取整),未泛泛 claim 精确覆盖。 - 对优化选择规则,作者在 Section 4.4 给出了置换不变性验证,但计算实现仅给出了“搜索+分位数”的框架,未证明所有优化选择均可高效计算(可能存在 NP-hard 的优化选择,此时置换不变性成立但计算不可行)。作者在正文未 claim 所有优化选择均高效,但 framing 中暗示“通用框架涵盖优化选择”,研究者需注意计算可行性缺口。
四、开放问题(点到为止,扎根具体语句)¶
- 高维设定下的条件覆盖效率:本文保证有限样本精确覆盖,但预测集宽度依赖校准集样本量 \(n_z\)(组 \(z\) 内校准集大小)。在高维下(\(p \gg n_z\)),预训练模型 \(\hat{\mu}\) 可能过拟合,score \(V_i\) 方差大,导致预测集过宽。问题:能否结合半参数有效推断(如 Debiased ML + HOIF)缩小 score 方差,从而在高维下缩短条件覆盖预测集?扎根:本文 intro 淡化了 Chernozhukov et al. (2015) 的半参数路线,未讨论高维效率。
- 非置换不变选择规则:本文核心假设是 \(\mathcal{A}\) 对 \(V_{\text{cal}}\) 置换不变。若选择规则依赖校准集的具体值(如选“与校准集第 3 个样本最相似的测试单元”,相似度依赖 \(V_3\) 的具体值而非排序),置换不变性破坏,本文方法失效。问题:对非置换不变选择规则,能否构造有限样本条件覆盖预测集,或只能退回渐近修正?扎根:本文 Section 3.1 明确将置换不变性列为必要假设,未讨论违反时的补救。
- 条件覆盖与 FCR 的统一:本文保证单焦点单元的条件覆盖 \(P(Y_i \in \hat{C}_\alpha(X_i) \mid \mathcal{S}=s, Z_i=z) \geq 1-\alpha\),但未控制 FCR(选出的焦点单元中,预测集未覆盖的比例)。问题:能否在条件覆盖保证的同时控制 FCR,或两者需权衡?扎根:Bao et al. (2024) 与 Xu et al. (2022) 关注 FCR,本文关注条件覆盖,两者目标不同但场景重叠,intro 未讨论统一或权衡。
- 计算不可行的优化选择:对某些优化选择(如组合优化),\(\mathcal{A}\) 置换不变但计算不可行。问题:能否用近似算法(如贪心、松弛)做选择,再构造条件覆盖预测集,且覆盖保证对近似误差稳健?扎根:本文 Section 4.4 给出优化选择的框架,但未讨论近似算法的影响。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。例如,高维效率问题需查近期 conformal + high-dim 论文(如 conformalized debiased ML)是否已触及;非置换不变问题需查 selective inference 近期是否有人尝试用条件概率比(如 Lee et al. 的仿射约束推广)做 conformal。
Maintained by 陈星宇 · Homepage · Source on GitHub