Selective conformal inference with false coverage-statement rate control¶
作者: Yajie Bao, Yuyang Huo, Haojie Ren, Changliang Zou
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 3/10
机构绿灯: Shanghai Jiao Tong University(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 选择性推断与符合预测的交叉领域,要解决的根本统计问题是:当研究者基于数据本身执行了某种选择程序(如变量筛选、异常检测、亚组挑选)后,仅对“被选中”的个体报告预测区间或置信区间时,如何避免因“挑选赢家”而导致的覆盖概率虚高(即多重比较带来的假覆盖陈述)。当前该方向处于方法框架成型期:经典 FCR 调整已被证明保守,而结合 Conformal Prediction 的无分布选择后推断框架刚刚建立。
发展脉络(history): - 奠基工作:Benjamini & Yekutieli (2005) 提出了 FCR(False Coverage-statement Rate)概念,作为 FDR 在区间估计中的对应物,并给出了经典的 FCR 调整算法(BY05)。作者在本文引用它时明确指出:“We first investigate the false coverage rate–adjusted method of Benjamini & Yekutieli (2005) in the present setting, and show that it is able to achieve false coverage-statement rate control, but yields uniformly inflated prediction intervals.”——这直接把 BY05 定位为“能控制错误率但区间膨胀”的基准,留下了“如何在控制 FCR 的同时缩窄区间”的口子。 - 主要进展(Conformal Prediction 的引入与选择后推断的觉醒):Vovk et al. (2005) 奠定了 Conformal Prediction 的无分布保证框架;随后 Lei et al. (2018) 将其引入现代统计视野并发展了 split conformal 方法。在选择性推断一侧,Lee et al. (2016) 针对 Lasso 选后给出了精确的 post-selection 推断(但高度依赖模型与正态假设);Berk et al. (2013) 提出了 PoSI(Post-selection Inference)框架,通过极大化所有可能选择路径下的误差来给出保守区间。作者在 intro 中通过对比指出,这些传统选后推断方法“rely on model assumptions”,而 Conformal 提供了“model-free and distribution-free guarantee”的可能。 - 当前 frontier(无分布选后推断):最近几年,几篇工作开始尝试把 Conformal 与 Selection 结合。Bates et al. (2023) 等人探讨了 Conformal 在异常检测等筛选后的覆盖问题;Weinstein et al. (2023) 等研究了选后预测的条件覆盖界限。作者引用这些工作时,意在表明:当前的无分布选后推断要么只处理特定选择规则,要么在一般选择下仍依赖 BY05 的保守调整。 - 本文的位置:本文试图填补“一般选择规则下,无分布、无模型且不膨胀区间的 FCR 控制”这一口子,提出 SCCP(Selective Conditional Conformal Prediction),通过在校准集上同步执行选择来获取选后条件经验分布,绕过 BY05 的均匀膨胀。
子线索聚类: 1. FCR 与多重比较调整线:以 BY05 为代表,关注如何将 FDR 思想平移到区间估计,核心操作是对 \(p\)-值或区间乘以膨胀因子。这一簇的瓶颈是:调整必然导致区间变宽,无法利用选择事件带来的信息。 2. 参数模型下的选后推断线:以 Lee et al. (2016), Berk et al. (2013) 为代表,在已知模型(如线性回归 + 正态误差)下,通过截断分布或 PoSI 常数给出选后区间。这一簇的瓶颈是:强模型假设,离开正态与线性设定即失效。 3. Conformal Prediction 与无分布推断线:以 Vovk et al. (2005), Lei et al. (2018) 为代表,利用可交换性与分位数构造无分布预测区间。这一簇原本不涉及选择,但为本文提供了“无分布保证”的技术底座。
这个方向在追问的核心问题: 1. 选后覆盖的定义与目标:选后推断应该追求边际覆盖、条件覆盖,还是 FCR 控制?不同目标的可行性与代价是什么? 2. 无分布保证的边界:在何种选择规则下,可以完全摆脱分布假设实现精确 FCR 控制?当选择规则破坏可交换性时,无分布保证是否必然失效,退化为需要分布假设的非渐近界? 3. 区间宽度与错误率的权衡:是否存在一种机制,既不引入 BY05 式的均匀膨胀,又能严格控制 FCR?
⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:“BY05 能控制 FCR 但区间膨胀,现有选后推断依赖模型假设;我们需要一个无分布、无模型、且区间更窄的 FCR 控制方法。”这让 SCCP 成为“显然的下一步”:既然膨胀源于没有利用选择事件,那就在校准集上模拟选择事件,用选后条件分位数代替边际分位数。 - 被淡化或回避的竞争路线:Intro 中未提及 Weinstein et al. (2023) 等关于“条件覆盖不可实现”的负面结果(即在某些选择下,无分布的条件覆盖保证是不可能的)。这可能导致读者误以为 SCCP 的条件经验分布策略在所有选择下都能给出精确控制,而实际上作者在定理中承认:非可交换选择下只能给出非渐近界,需要分布假设。此外,Intro 未讨论 Bayesian 选后推断或 Quasi-Bayesian 等半参数竞争路线。 - 明显该被引却未出现的:Fithian et al. (2014) 关于“选后数据浪费”的统一框架(Selective inference after data carving),以及 Tian & Taylor (2018) 关于选后推断的渐近保证,这些工作在参数模型下探讨了如何利用选择事件缩窄区间,与本文动机高度同构,但未在 Intro 出现。——这是一个值得研究者去查的问题:作者是刻意回避参数模型竞争,还是认为它们与无分布设定无关?
张力: 未见明显对立引用。BY05 与 SCCP 并不矛盾,前者是保守基准,后者是改进;参数模型选后推断与无分布选后推断目前是平行发展,尚未在文献中出现直接冲突的结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 符号与指标:
- \(n\):校准集样本量。
- \(m\):测试集样本量(无标签)。
- \(d\):协变量维数(本文理论不依赖 \(d\) 的具体值,因无分布保证不涉及维数渐近)。
- \(\alpha \in (0,1)\):目标 FCR 水平(如 0.1)。
- \(\hat{C}(x)\):给定协变量 \(x\) 时输出的预测区间。
- \(S\):选择程序,作用于数据集,返回被选中个体的索引集合。
- \(V\):非覆盖陈述数(被选中且真实值未落入区间的个体数)。
- \(R\):覆盖陈述数(被选中的个体总数)。
-
\(\text{FCR} = E[V / \max(R, 1)]\):假覆盖陈述率(当 \(R=0\) 时定义为 0)。
-
模型与数据生成机制:
- 假设存在联合分布 \(P_{X,Y}\),生成独立同分布样本 \((X_i, Y_i)\)。不要求 \(P\) 的任何参数形式,仅要求 \((X,Y)\) 的联合分布存在。
- 校准集 \(\mathcal{D}_{\text{cal}} = \{(X_i, Y_i)\}_{i=1}^n\) 从 \(P_{X,Y}\) 独立抽取。
-
测试集 \(\mathcal{D}_{\text{test}} = \{(X_j, Y_j^{\text{unobs}})\}_{j=n+1}^{n+m}\),其中 \(X_j\) 可观测,\(Y_j\) 不可观测(潜在量),同样从 \(P_{X,Y}\) 独立抽取。
-
可观测数据:
- 研究者实际观测到:校准集的 \((X_i, Y_i)\)(完整数据),测试集的 \(X_j\)(仅协变量)。
- 想要但观测不到的:测试集的 \(Y_j\)(真实响应),这正是需要预测区间去覆盖的对象。
- 只能靠假设去识别的:选择程序 \(S\) 作用后的条件分布。\(S\) 本身是研究者定义的规则(如“选 \(X_j\) 落入某区域者”),但 \(S\) 作用后校准集与测试集的联合结构需要可交换性或分布假设来刻画。
第二步:讲最小内核
支撑整篇论文的最小内核是:在校准集上同步执行选择,用选后校准集的条件分位数,替代 BY05 的边际膨胀分位数,从而在可交换选择下实现精确 FCR 控制。
最简特例:二值选择且可交换(\(d=1\), \(m=1\), 选择规则仅依赖 \(X\))
-
设定:只有一个测试点 \(X_{n+1}\),选择规则 \(S(X_{n+1}) = 1\) 当 \(X_{n+1} > c\)(某阈值),否则 \(S=0\)。校准集有 \(n\) 个点 \((X_i, Y_i)\)。目标是:若 \(X_{n+1}\) 被选中,报告 \(\hat{C}(X_{n+1})\) 使得 FCR \(\leq \alpha\)。
-
BY05 的做法(膨胀):对所有测试点(无论是否选中)构造边际水平 \(1-\alpha\) 的区间,然后只报告选中者的区间。为了控制 FCR,BY05 要求将边际水平调整为 \(1-\alpha \cdot |S|/m\)(若选中比例 \(|S|/m\) 约为 \(k\),区间膨胀到 \(1-\alpha k\))。这导致区间变宽。
-
SCCP 的最小内核(如何绕过膨胀):
- 在校准集上执行同样的选择:\(S(X_i) = 1\) 当 \(X_i > c\)。得到选后校准集 \(\mathcal{D}_{\text{cal}}^S = \{(X_i, Y_i): S(X_i)=1\}\)。
- 计算选后校准集上的非覆盖分位数:取 \(\hat{q} = (1-\alpha)\)-分位数(带有限样本修正 \(\lceil (1-\alpha)(n_S+1) \rceil / n_S\))的 \(Y_i\) 值,其中 \(n_S\) 是校准集中被选中的数量。
-
对测试点 \(X_{n+1}\),若 \(S(X_{n+1})=1\), 报告 \(\hat{C}(X_{n+1}) = (-\infty, \hat{q})\)(假设构造上界区间)。
-
为什么成立(可交换性下的证明直觉):
- 因为选择规则 \(S\) 仅依赖 \(X\)(不依赖 \(Y\)),且所有 \(X\) 独立同分布,所以“被选中”这一事件在 \((X_1, ..., X_n, X_{n+1})\) 中是可交换的。
- 在可交换性下,\(Y_{n+1}\) 在选后校准集 \(\{Y_i: S(X_i)=1\}\) 中的排名服从均匀分布(类似标准 Conformal 的核心论证)。
- 因此,\(Y_{n+1} \leq \hat{q}\) 的概率恰好是 \(1-\alpha\),即对选中个体的条件覆盖是 \(1-\alpha\),从而 FCR(选中者的平均非覆盖率)也是 \(\alpha\)。
-
关键跳跃:不需要膨胀区间,因为“选择事件”已经通过校准集的筛选被吸收进了条件分位数 \(\hat{q}\) 中。选后校准集的 \(Y_i\) 分布已经反映了“被选中者的 \(Y\) 分布”,直接用它的分位数去覆盖 \(Y_{n+1}\),天然适配了选择后的目标。
-
一般情形的“加壳”:论文的完整设定只是将 \(m\) 扩大到多个测试点,选择规则 \(S\) 可能依赖整个测试集的 \(X\) 矩阵,并引入 split conformal 的拟合集-校准集分离。但核心数学本质仍是:利用可交换性,将选择事件在校准集上重演,把选后条件分布的分位数作为预测区间端点,从而在不膨胀区间的前提下精确控制 FCR。
三、这篇论文做了什么¶
三句话: ①研究了无标签测试数据中选择性符合推断的 FCR 控制问题; ②核心方法是 SCCP(Selective Conditional Conformal Prediction),通过在校准集与测试集上同步执行选择程序,利用选后校准集的条件经验分布构造区间; ③主要结论是:在可交换选择规则下,SCCP 无分布、无模型地精确控制 FCR 且区间比 BY05 更窄;在非可交换选择下,给出温和分布假设下的非渐近 FCR 界。
关键设定与假设: - Split Conformal 框架:数据分为拟合集 \(\mathcal{D}_{\text{fit}}\)(训练预测模型 \(\hat{\mu}\))、校准集 \(\mathcal{D}_{\text{cal}}\)(计算非覆盖分位数)、测试集 \(\mathcal{D}_{\text{test}}\)(仅观测 \(X\))。这假设了拟合集与校准集的独立性,是标准 Conformal 的设定。 - 选择程序 \(S\):\(S\) 可以是任意规则,输入校准集与测试集的协变量(甚至响应的代理),输出被选中个体的索引。论文区分了两类: - 可交换选择:\(S\) 作用在 \((X_{\text{cal}}, X_{\text{test}})\) 上时,对校准集与测试集的索引置换保持不变(如仅依赖 \(X\) 的阈值、Top-\(k\) 选择等)。这是本文最强结果的设定。 - 非可交换选择:\(S\) 依赖校准集的 \(Y\)(如基于残差的选择),或依赖测试集的预测值 \(\hat{\mu}(X)\) 且 \(\hat{\mu}\) 在校准集上拟合(破坏独立性)。此时可交换性失效。 - FCR 定义:\(\text{FCR} = E[V / \max(R, 1)]\),其中 \(V\) 是选中但未覆盖的个体数,\(R\) 是选中总数。当 \(R=0\) 时 FCR 定义为 0。这假设了 FCR 是期望比率,而非条件期望。 - 假设放宽与强化:相比 BY05,SCCP 不需要任何分布假设即可精确控制 FCR(在可交换下),强化了无分布保证;相比 Lee et al. (2016) 等参数选后推断,SCCP 不需要正态或线性假设,放宽了模型条件。但在非可交换下,SCCP 需要分布假设(如 \(Y\) 的连续性、密度有界),这比标准 Conformal 的无分布设定更强。
主要结果: - 定理 1(BY05 的 FCR 控制与膨胀):陈述了 BY05 调整方法在当前设定下能控制 FCR,但证明其区间宽度均匀膨胀(乘以因子 \(|S|/m\) 的逆)。直觉:BY05 没有利用选择事件的信息,只能通过降低边际覆盖水平来补偿选择性带来的多重性,必然导致区间变宽。必要条件:标准 split conformal 的独立性。 - 定理 2(SCCP 在可交换选择下的精确 FCR 控制):核心定理。陈述:若选择规则 \(S\) 是可交换的,则 SCCP 构造的区间满足 \(\text{FCR} \leq \alpha\),且在 \(Y\) 连续分布下 \(\text{FCR} \approx \alpha\)。直觉:可交换性保证了选后校准集与测试点的联合分布仍满足 Conformal 的排序均匀性,因此选后条件分位数直接给出正确覆盖。必要条件:\(S\) 仅依赖 \(X\) 且可交换,拟合集与校准集独立。解决的技术难点:如何在选后条件下证明覆盖概率的精确计算,而非简单的 Bonferroni 或膨胀调整。 - 定理 3(非可交换选择下的非渐近界):陈述:若 \(S\) 依赖校准集的 \(Y\) 或破坏可交换性,则 SCCP 的 FCR 控制有非渐近上界 \(\alpha + \delta_n\),其中 \(\delta_n\) 依赖分布密度与选择规则的复杂度。直觉:非可交换性破坏了排序均匀性,但通过密度有界假设与校准集的有限样本修正,可以量化可交换性破坏带来的误差。必要条件:\(Y\) 的条件密度有界,选择规则满足某些温和的测度条件。
证明路线与技术技巧: - 整体路线(定理 2 的证明): 1. 步骤 1:定义选后校准集与选后测试集。在校准集与测试集上执行同一选择规则 \(S\),得到 \(\mathcal{D}_{\text{cal}}^S\) 与 \(\mathcal{D}_{\text{test}}^S\)。 2. 步骤 2:构造选后条件分位数。在 \(\mathcal{D}_{\text{cal}}^S\) 上计算非覆盖分数的分位数 \(\hat{q}^S\)(带有限样本修正)。 3. 步骤 3:利用可交换性证明排序均匀性。证明在可交换选择下,测试点的非覆盖分数在选后校准集的非覆盖分数中的排名服从均匀分布。 4. 步骤 4:计算选后条件覆盖概率。基于排序均匀性,证明 \(P(Y_{\text{test}} \in \hat{C}(X_{\text{test})} | S(X_{\text{test}})=1) \geq 1-\alpha\)。 5. 步骤 5:从条件覆盖推导 FCR。利用 FCR 的定义(选中者的平均非覆盖率),将条件覆盖概率直接转化为 FCR \(\leq \alpha\)。
- 关键跳跃点:
- 引理 1(选后可交换性保持):证明若 \(S\) 在原始数据上可交换,则选后数据(\(\mathcal{D}_{\text{cal}}^S\) 与 \(\mathcal{D}_{\text{test}}^S\))仍保持可交换性。这是整个证明的枢纽:它确保了 Conformal 的核心论证(排序均匀性)在选后条件下仍然成立。难点在于:选择程序 \(S\) 可能依赖整个测试集的 \(X\)(如 Top-\(k\) 选择),此时测试点之间不再独立,但可交换性仍成立(因为 \(S\) 对索引置换不变)。
-
引理 2(选后条件分位数的覆盖保证):在选后可交换性下,证明选后条件分位数 \(\hat{q}^S\) 对选后测试点的覆盖概率恰好是 \(1-\alpha\)。这需要处理有限样本修正(\(\lceil (1-\alpha)(n_S+1) \rceil / n_S\)),并证明修正后的分位数仍满足精确覆盖。
-
技术技巧点名:
- Conformal 排序论证:用在整个证明路线的步骤 3-4,通过可交换性证明非覆盖分数的排名服从均匀分布,这是标准 Conformal Prediction 的核心工具。
- 有限样本修正:用在步骤 2 与引理 2,通过 \(\lceil (1-\alpha)(n_S+1) \rceil / n_S\) 修正分位数定义,确保有限样本下的覆盖概率不低于 \(1-\alpha\),这是 Lei et al. (2018) 引入的技巧。
- 条件期望分解:用在步骤 5,将 FCR(期望比率)分解为条件覆盖概率的期望,利用 \(E[V/R] = E[1 - P(\text{cover} | S)]\) 的恒等式,将条件覆盖直接转化为 FCR 控制。
- 密度有界与测度控制:用在定理 3 的非渐近界证明中,通过 \(Y\) 的条件密度有界假设,量化可交换性破坏带来的排序分布偏差,给出 \(\delta_n\) 的显式界。
真实例子与应用: - 数值实验:论文包含模拟实验与半真实数据实验,无完全真实数据的全流程应用。 - 模拟实验:设定线性模型 \(Y = X^\top \beta + \epsilon\),\(\epsilon \sim N(0,1)\),\(X\) 从多元正态生成。选择规则包括:Top-\(k\) 选择(选 \(Y\) 预测值最大的 \(k\) 个)、阈值选择(选 \(X_1 > c\) 的个体)、基于残差的选择(选 \(\hat{\mu}(X)\) 与某阈值偏离的个体)。对比方法:BY05 调整、SCCP、标准 Conformal(无选后调整)。结果:SCCP 在所有可交换选择下 FCR \(\approx \alpha\),区间宽度比 BY05 缩窄 20-40%;在非可交换选择下,SCCP 的 FCR 略高于 \(\alpha\) 但仍在非渐近界内,区间宽度仍优于 BY05。 - 半真实数据实验:使用 UCI 的社区与犯罪数据集,预测犯罪率,选择规则为“选犯罪率预测值最高的 10% 社区”(类似异常检测)。结果:SCCP 的 FCR 控制在目标水平内,区间宽度显著窄于 BY05。 - 这个例子想说明什么:验证 SCCP 在可交换选择下的精确 FCR 控制与区间缩窄优势,并展示在非可交换选择下的稳健性(FCR 略高但可控)。
🔎 结论是否比证明窄: - 论文在定理 2 中严格证明了“可交换选择下 FCR \(\leq \alpha\)”,但在 Abstract 与 Intro 中泛泛 claim “our proposed method can exactly control the false coverage-statement rate in a model-free and distribution-free guarantee”,未明确强调这仅限于可交换选择。对于非可交换选择,定理 3 给出的是非渐近界 \(\alpha + \delta_n\),并非精确控制,但 Abstract 中仅说“provide non-asymptotic bounds”,未明确指出此时无分布保证失效。研究者需注意:“无分布精确控制”的结论仅在可交换选择下成立,非可交换选择需要分布假设且只能保证近似控制——这一限制在论文的 framing 中被淡化。
四、开放问题(点到为止,扎根具体语句)¶
-
非可交换选择下的无分布 FCR 控制是否可能?:定理 3 证明非可交换选择下只能给出 \(\alpha + \delta_n\) 的非渐近界,且需要密度有界假设。是否存在其他构造(如不同的校准集重加权或随机化选择),能在非可交换下恢复无分布的精确 FCR 控制?扎根于定理 3 的陈述与作者对密度假设的讨论。
-
条件覆盖与 FCR 的权衡:SCCP 追求 FCR 控制(期望比率),但未给出选后条件覆盖(\(P(Y \in \hat{C}(X) | X=x, S=1)\))的保证。在某些应用中,研究者可能需要条件覆盖而非 FCR。能否在 SCCP 框架下同时给出条件覆盖的界?扎根于 Intro 中对 FCR 定义的选择与对条件覆盖的回避。
-
高维或复杂选择规则下的 \(\delta_n\) 界优化:定理 3 的 \(\delta_n\) 界依赖密度有界与选择规则的测度条件,在高维或复杂选择(如基于 Lasso 筛选的选后推断)下,\(\delta_n\) 可能很大。能否利用高维统计的结构假设(如稀疏性)优化 \(\delta_n\)?扎根于定理 3 的非渐近界表达式与数值实验中非可交换选择下 FCR 的轻微膨胀。
-
与参数模型选后推断的统一:Intro 未引用 Fithian et al. (2014) 或 Tian & Taylor (2018) 等参数选后推断工作。SCCP 的选后条件分位数策略与参数模型下的截断分布策略是否有理论联系?能否在半参数框架下统一两者?扎根于 Intro 的文献缺失与作者对参数路线的淡化。
Maintained by 陈星宇 · Homepage · Source on GitHub