Conformal prediction with local weights: randomization enables robust guarantees¶
作者: Rohan Hore, Rina Foygel Barber
来源: Journal of the Royal Statistical Society Series B
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of Chicago(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/jrsssb/qkae103
一、领域脉络与小综述¶
这个方向是什么¶
分布自由预测区间(distribution-free prediction intervals)旨在不假设数据生成分布的情况下,为回归或分类中的响应变量提供有限样本覆盖保证。共形预测(Conformal prediction, CP)是主流框架,但其经典保证是边际覆盖(marginal coverage):覆盖概率对训练集和测试集的联合分布平均成立。这意味着在某些特征子群(subpopulation)中可能严重欠覆盖。局部覆盖(local coverage)要求对每个可能的测试特征值(或足够小的邻域)保证覆盖概率,但这已被证明在非参数框架下不可能达到点态(pointwise)界限。因此,该子方向的核心问题是:在放松局部覆盖定义的前提下,能否构造出既有理论保证又在实际中改善局部性质的预测区间?
发展脉络(基于摘要和共形预测领域经典文献的合理重构;因未提供完整intro,以下引用为推断性定位,需要通过实际论文核实)¶
- 奠基工作:Vovk, Gammerman & Shafer (2005) 提出共形预测框架,利用交换性(exchangeability)证明有限样本边际覆盖。Shafer & Vovk (2008) 进一步阐释其作为假设检验对偶的性质。留下的口子:边际保证过于粗糙,无法保证特定子群的覆盖。
- 主要进展:
- Tibshirani, Barber & Candès (2019, Weighted conformal prediction) 通过引入权重处理协变量偏移(covariate shift),将边际保证扩展到加权交换性设定,但权重事先给定且非随机。
- Lei & Wasserman (2014, Distribution-free prediction bands) 提出局部共形预测(localized CP),用核权重近似条件分位数,但仅给出渐近(非有限样本)局部保证。
- Guan (2023, Localized conformal prediction) 进一步理论化局部CP的有限样本性质,但所获保证仍是松弛的(如对给定特征值的小邻域,而非单点),且依赖带宽选择。
- 当前frontier:如何在有限样本下、不依赖渐近近似地、对每个测试点给出明确的局部覆盖下界?同时保持边际有效性和对协变量偏移的鲁棒性。
- 本文位置:提出随机局部化共形预测(RLCP),通过显式引入随机权重(对测试点特征进行随机扰动)将对称性从“给定特征加权后的交换性”转化为“引入了随机变量后的联合交换性”,从而获得比现有局部CP方法更强的有限样本局部覆盖保证。
子线索聚类¶
将相关文献划分为三条线索(基于摘要和元数据的关键词推断): 1. 加权共形预测(Tibshirani et al. 2019, Barber et al. 2021):权重由分布偏移比定义,核心工具是加权分位数,保证边际覆盖在目标分布下的加权版本。局限性:权重假定已知且非随机,局部性由偏移比而非特征邻域引入。 2. 局部CP(确定性核方法)(Lei & Wasserman 2014, Guan 2023):用核给训练样本赋权,构造基于测试点特征邻域的区间。保证是渐近的或对条件分布的泛函而非覆盖概率本身。 3. 随机化共形预测(Kivaranovic & Leeb 2021, 以及本文):主动向测试过程注入随机性(如随机化非一致性得分、随机划分),以获得精确保证。这一簇还处在发展早期,RLCP是首个将随机化与局部权重结合的显式方法。
方向的核心问题与瓶颈¶
- Q1:能否以有限样本保证每个测试点预测区间的条件覆盖概率不低于某个下界?
瓶颈:Barber et al. (2021) 证明了点态局部覆盖在非参数意义下是统计不可识别的(除非对分布有强假设),故任何方法必须放松定义。 - Q2:怎么定量描述“局部覆盖的松弛程度”?
现有方案:度量测试点特征处的覆盖概率的条件期望、给定特征生成的“邻近区域”的平均覆盖、或对随机化取期望后的局部覆盖。本文采用后者。 - Q3:局部保证与区间长度(效率)之间的权衡如何?
主流认识:局部保证越强,区间往往越长,但理论上缺乏紧的下界。本文通过仿真展示RLCP的区间长度优于一些基准。
⚠️ 作者的framing¶
根据摘要和领域常识推断(需通过论文原文验证):
- 作者认定的缺口:现有局部CP要么只有渐近保证,要么缺乏理论下界;加权CP虽给出有限样本保证,但仅适用于协变量偏移场景下的边际覆盖,无法自然推广到局部覆盖。作者将自己framing为:“使用随机化这一简单技巧,可以一次性解决局部覆盖的有限样本保证、协变量偏移有效性,且保持区间效率。”
- 被淡化或回避的竞争路线:
- 确定性核局部CP(如Guan 2023)通过选择合适的带宽可以获得“松弛但不是必然随机”的局部保证,作者未具体说明为何确定性方法不够好(除了可能下界不紧)。
- 在线共形预测(Gibbs & Candès 2021)的适应性(adaptive)方法虽能改善局部覆盖,但设定不同(数据分布随时间改变)。
- 明显该被引但大概率未出现的问题:
1. 随机化的代价:注入随机性会增大预测区间的方差(每次推断结果不同),这种代价是否在理论上可量化?作者是否提供了区间变异性(如期望区间长度的方差上界)的分析?
2. 与“区间长且下界松”的贝叶斯非参数方法的对照:例如通过分位数回归森林导出条件预测区间,虽无有限样本保证但实际表现可能接近——作者是否需要更系统的基线比较?
张力¶
未见明显对立的引用。各条路线主要在保证类型(边际 vs 局部)和工具(加权 vs 核 vs 随机化)上互补,而非矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
设定一个标准共形预测的回归情形:
- 符号
- \((X_i, Y_i) \in \mathbb{R}^d \times \mathbb{R}\):第 \(i\) 个训练样本的特征和响应,\(i=1,\dots,n\)。
- \((X_{n+1}, Y_{n+1})\):新的测试点,特征 \(X_{n+1}\) 可观测,响应 \(Y_{n+1}\) 未知。
- 所有 \((n+1)\) 个观测交换(exchangeable),即它们的联合分布关于置换对称(本文核心假设)。
- 非一致性得分函数(nonconformity score)\(S(x,y;\mathcal{D}_{\text{train}})\),通常取 \(|y - \hat{\mu}(x)|\),其中 \(\hat{\mu}\) 是训练集拟合的回归模型。为不致混淆,记:\(\hat{\mu}\) 由训练集拟合,但之后得分视作对称函数(通过交叉拟合可保证交换性,但为简化先假设得分只依赖训练数据而不利用测试点顺序)。
- \(R_i = S(X_i, Y_i; \mathcal{D}_{-i})\) 或更简单:对每个 \(i\),取模型在移除第 \(i\) 点后拟合,再计算残差。但为最小例子,采用标准 split conformal:将训练集分成两部分,一部分拟合 \(\hat{\mu}\),另一部分计算残差。此时交换性只存在于第二个子集和测试点之间(称为校准集)。符号:令校准集样本量为 \(m\),测试点独立同分布(交换性更宽泛,此处取i.i.d.简单)。
- 模型:数据生成机制是任意分布 \(P_{XY}\),只要各观测是交换的(split conformal下校准集与测试点i.i.d.)。无分布假设。
- 可观测数据:
- 校准集:\(\{(X_j, Y_j): j \in \text{cal}\}\),共 \(m\) 对;
- 测试点特征:\(X_{n+1}\);
- 拟合函数 \(\hat{\mu}\)(从独立训练集得到)。
- 想要但观测不到:\(Y_{n+1}\),以及理论上的覆盖概率 \(P(Y_{n+1} \in C(X_{n+1}) \mid X_{n+1}=x)\) 这个条件概率。后者只能通过假设和构造来识别(在非参数意义下不可识别)。
第二步:最小内核——RLCP在一维特征、均匀核下的最简单情形¶
最简例子:设 \(d=1\)(特征为一维实数),校准集大小为 \(m\)。测试点特征 \(X_{n+1} = x_0\)(给定)。
RLCP核心思想:用随机权重替代确定性核权重,使得局部化后的区间覆盖概率可以借助随机变量的“交换性”直接计算。
具体构造:
1. 生成一个随机扰动 \(Z\),其分布为 \(Q\)(例如标准正态分布),与校准集和测试点独立。
2. 定义“伪特征” \(\widetilde{X}_j = X_j + \tau Z\),对所有校准样本 \(j\) 和测试点 \(j=n+1\)。此处 \(\tau>0\) 是局部化尺度参数,控制局部性的强弱。
3. 计算每个校准样本对测试点的局部权重:
其中核函数 \(K\) 取最简单的“矩形核”:
即:只有当 \(|X_j - x_0| \leq \tau\) 且 \(|Z| \leq \tau\)(因为z取值为0?实际要以距离形式写),但更简单:可以取 \(K(u, z) = 1\{|u| \leq 1\}\) (不依赖z) 但这样就退化。作者的具体形式是将Z作为额外的随机偏移加到特征上,即局部化基于新特征 \(\widetilde{X}_j\) 与 \(x_0\) 的比较,但这里为了简洁展示随机化机制,我们采用另一种等价表述:
更清晰的简化版本:
设 \(Z \sim \text{Uniform}[-1,1]\) 独立于所有数据。定义
\(W_j = \delta_j / \sum_{i=1}^m \delta_i\)(若分母为零则取均匀权重,本文应有处理)。
这样,每个校准样本的权重取决于 \(X_j\) 是否落在测试点的一个随机邻域(以 \(x_0+Z\tau\) 为中心,半径 \(\tau\))内。
- 构造预测区间:取 \(t_\alpha(x_0, Z) = \inf \{ t : \frac{1}{m+1} \sum_{j \in \text{cal}} W_j \cdot 1\{R_j \geq t\} + \frac{1}{m+1} \cdot 1\{\infty \geq t\} \leq \alpha \}\),即以加权分位数作为上界 \(\hat{Q}_{1-\alpha}\),区间为 \((-\infty, \hat{Q}_{1-\alpha}]\)(为简化假定单侧区间;双侧类似)。
为什么要加随机化?
如果没有 \(Z\),而是直接用特征 \(X_j\) 与 \(x_0\) 的接近程度(确定性核),那么对于固定 \(x_0\),权重是固定的,加权的校准集残差序列不再是交换的(因为权重不对称),无法直接应用分位数保证定理。加入一个与数据独立的 \(Z\) 后,可以只看给定 \(Z\) 的条件下的加权交换性?实际上,关键点在于:通过对所有 \(n+1\) 个点(校准集+测试点)施加相同的随机扰动,扰动后的伪特征序列是交换的(因为原始数据交换且扰动独立同分布作用于每个点)。然后,局部权重可以看作是伪特征与某个固定点的距离的指示函数,从而使加权CP中的权重成为可交换的随机变量。
证明的核心跳跃:给定 \(Z\) 后,原问题退化成一个在“伪数据”上的标准加权CP问题:数据对 \((\widetilde{X}_j, Y_j)\),测试点为 \((x_0, Y_{n+1})\),权重等于是否落在邻域内。由于伪数据是交换的(原始交换 + 独立同分布扰动),由加权CP的理论(Tibshirani et al. 2019),在给定 \(Z\) 下,区间覆盖 \(Y_{n+1}\) 的条件概率(对原始数据分布)至少为 \(1-\alpha\)。但这还不直接给出局部覆盖;需要再对 \(Z\) 取期望,得到 \(P(Y_{n+1} \in C(x_0, Z) \mid X_{n+1}=x_0) \geq 1-\alpha\),其中概率同时关于 \(Z\) 和原始数据。这就是松弛的局部覆盖保证:对每个固定的 \(x_0\),覆盖概率(关于随机化取平均)不低于 \(1-\alpha\)。
这个最小例子直观展示了:随机化使得本来看似不可能证的条件覆盖变成了一个边际保证的期望版本,证明变成了对 \(Z\) 的条件期望。
三、这篇论文做了什么¶
三句话¶
- 研究了在分布自由共形预测框架下,如何通过随机化权重为每个测试点提供有限样本条件覆盖保证(而非仅边际覆盖)。
- 提出了随机局部化共形预测(RLCP):对测试点的特征添加随机扰动,然后将其与训练样本的扰动特征进行局部匹配,产生一组依赖于随机量的权重,再用加权共形预测构造区间。
- 主要结论:RLCP在保持标准边际有效性的同时,满足一种松弛的局部覆盖下界(对每个测试点特征,覆盖概率关于随机化取平均不低于 \(1-\alpha\)),并在协变量偏移下保持类似保证。
关键设定与假设(在最小记号基础上补全)¶
- 假设 1(交换性):原始观测 \(\{(X_i, Y_i): i=1,\dots,n+1\}\) 交换。这是所有共形预测的基石。
- 假设 2(随机化独立性):随机扰动 \(Z\) 独立于所有观测。其分布 \(Q\) 可任意选择(如各向同性高斯、均匀分布),但通常选连续分布以保证邻域非空。
- 假设 3(对称局部化机制):局部权重函数 \(w: \mathcal{X} \times \mathcal{X} \times \mathcal{Z} \to [0,\infty)\) 满足:对任意测试点特征 \(x\) 和扰动 \(z\),权重的和为1(归一化),且对训练集和测试点是对称的(即同样的加权规则应用到所有 \((n+1)\) 个点后,若识别出测试点,则给出的测试点权重为1?这点要仔细看原文)。作者具体使用的是一类基于“扰动后的伪特征”的最近邻或核权重。
- 假设 4(非一致性得分):得分函数 \(S\) 定义在 \((X,Y)\) 上,可能依赖于训练集,但在 split conformal 下要求拟合器与校准集独立(通过样本分裂),从而校准集得分与测试点得分在给定训练集下条件独立。论文为一般性可能考虑了 exchangeable CP 下的更广义处理(交叉拟合等)。
相比于已有加权CP(Tibshirani et al. 2019),RLCP的权重是随机的(依赖 \(Z\))且局部化(微弱地依赖测试点特征);相比于确定性局部CP(Guan 2023),RLCP不需要做带宽选择的渐近分析,而是用随机化直接获得有限样本下界。
主要结果(基于摘要和该领域通用结构,具体定理编号待核实)¶
- 定理 1(边际有效性):对任何 \(1-\alpha \in (0,1)\),RLCP 构造的预测区间满足 \(P(Y_{n+1} \in \hat{C}(X_{n+1}, Z)) \geq 1-\alpha\),其中概率同时关于训练数据、测试点和随机化。证明本质上是因为给定 \(Z\) 后加权CP的边际保证,然后对 \(Z\) 积分不减性。
- 定理 2(松弛局部覆盖):对每个固定的测试特征值 \(x_0\),
\[P(Y_{n+1} \in \hat{C}(x_0, Z) \mid X_{n+1}=x_0) \geq 1-\alpha,\]
其中 \(Z\) 的分布由算法指定,概率关于训练数据和 \(Z\)。这是核心贡献:证明了条件期望(关于随机化)的下界,是点态局部覆盖不可能性的一个可行替代。直觉:给定 \(X_{n+1}=x_0\),在训练数据分布下,这个条件概率等于对 \(Z|X_{n+1}=x_0\) 的期望,由对称性可证明。 - 定理 3(协变量偏移下的有效性):若测试点来自新分布 \(P_X^*\),且似然比 \(\frac{dP_X^*}{dP_X}\) 已知,则 RLCP 通过纳入倾向权重仍可给出形如定理2的局部位下界(需要类似加权CP的适应性修改),保证在目标分布下的松弛局部覆盖。
- 区间长度分析:作者可能给出期望区间长度的上界,并与标准局部CP比较,展示随机化不会导致区间过度膨胀(常见担心)。这需从论文中核实。
证明路线与技术技巧¶
整体路线(理论型论文,基于对加权CP和随机化常见论证的重建):
-
固定扰动 \(Z\),构造伪数据:将原始校准数据替换为 \((\widetilde{X}_i, Y_i)\),其中 \(\widetilde{X}_i = T(X_i, Z)\),\(T\) 是某种确定的变换(如 \(X_i + \tau Z_i\),但注意 \(Z\) 是同一个?还是每个点独立的?作者的关键创新是每个点施加相同的随机偏移?这个细节决定证明结构。最常见的设计:对每个点 \(i\) 独立生成 \(Z_i\),但这会破坏交换性;正确的应该是对整个样本生成一个公共随机种子,然后每个点根据某种规则产生自己的偏移。为了避免混淆,我们假设作者采用如下技巧:生成一个随机向量 \(Z \in \mathbb{R}^d\),再定义每个点的新特征 \(\widetilde{X}_i = f(X_i, Z; x_0)\),使 \(f\) 对每个点相同。例如,\(\widetilde{X}_i = X_i + Z\)。这样,在给定 \(Z\) 下,\(\widetilde{X}_i\) 是交换的(因为原始 \(X_i\) 交换,加常数保持交换)。于是局部化可以基于 \(\widetilde{X}_i\) 与 \(x_0\) 的距离:如果一个点的 \(\widetilde{X}_i\) 落在 \(x_0\) 的 \(\tau\)-邻域内,则该点赋予非零权重。
-
利用加权共形预测的边际保证:给定 \(Z\),这个加权CP问题中,测试点是 \((x_0, Y_{n+1})\)(注意 \(Y_{n+1}\) 未受到扰动影响),权重 \(W_i = 1\{ \|\widetilde{X}_i - x_0\| \leq \tau \}\)(归一化后)。由于 \(\widetilde{X}_i\) 序列的交换性,并且转换函数不依赖 \(Y_i\),可以证明加权CP的分位数满足通常的覆盖性质:在给定 \(Z\) 和训练数据下,条件覆盖概率(对 \(Y_{n+1}\) 的条件分布)至少为 \(1-\alpha\)。具体证明是通过交换性引理(Lemma 2 of Tibshirani 2019)。
-
对 \(Z\) 取期望得到无条件结果:由全期望公式,\(P(Y_{n+1} \in C(x_0, Z) \mid X_{n+1}=x_0) = E_Z[ P(Y_{n+1} \in C(x_0, Z) \mid X_{n+1}=x_0, Z) ] \geq 1-\alpha\),因为对每个 \(Z\) 下界都成立。这里需要验证条件概率在给定 \(X_{n+1}, Z\) 下仍至少为 \(1-\alpha\),而这可由步骤2保证(因为给定 \(X_{n+1}=x_0, Z\),条件分布对训练数据仍保持交换性?需确认:训练数据与 \(X_{n+1}\) 边缘独立,但 \(X_{n+1}\) 已被条件化,可能会破坏交换性?实际上在 split conformal 下,校准集与测试点i.i.d.,条件化 \(X_{n+1}=x_0\) 不会影响校准集分布,所以交换性仍成立。在 exchangeable CP 下可能需要额外条件化,作者的证明会处理)。
关键跳跃点: - 随机化如何确保条件性:不加随机化时,权重依赖于 \(x_0\) 但非对称,导致交换性失效。随机化后,给定 \(Z\),权重成为一个对称函数(因为所有点的伪特征都用相同规则构造),从而恢复交换性。这是最巧妙的思路。 - 权重的归一化与分母为0的处理:当没有样本落入邻域时,RLCP应回退到均匀权重或其他规则以保证区间始终定义。作者必须证明回退规则不破坏保证(通常只需重新定义条件概率,或者在零分母事件上记概率为0)。
技术技巧点名:
- 加权共形预测的交换性引理:这是已被证明的工具(Tibshirani et al. 2019, Barber et al. 2021),本文直接引用。
- 随机化(数据扩充)技巧:将确定性核替换为随机邻域,使得“核密度”转化为一个指示函数,其积分具有交换性。
- 分位数估计的随机变分不等式:在处理非连续得分情况时,需要用到上下分位数的定义,涉及排序的随机性。
真实例子与应用¶
(需从论文原文确认,以下是基于摘要和领域经验的推断)
作者进行了一系列模拟和真实数据实验,典型场景包括:
- 模拟数据集:生成一维或低维特征下的高度不均匀异方差数据(例如响应方差随特征值剧烈变化),比较RLCP与标准CP、Split CP、局部CP(确定性核)、以及加权CP(假设已知偏移)。评估指标:局部覆盖(条件边际覆盖率)、区间长度、方差。
- 真实数据:可能使用了医疗数据集(如eICU)中预测住院时间、或UCI房价数据集等。在上述数据中,RLCP相比基线在局部覆盖上表现出更稳定的条件覆盖,且区间长度接近最优基线。
- 例子目的:验证理论上的松弛局部下界在实际中是可达到的(即覆盖概率不显著低于 \(1-\alpha\)),且随机化带来的长度惩罚可接受。
若论文不含实证,则写“本文为纯理论/无实证例子”,但根据摘要提到“through a series of simulations and real data experiments”,故有实例。
🔎 结论是否比证明窄¶
需从论文原文校验。常见的可能性: - 定理2的下界是对随机化取平均后的条件概率,而非条件概率本身(即 \(P(Y_{n+1} \in C(x_0, Z) | X_{n+1}=x_0) \geq 1-\alpha\) 是对随机化平均,但实际应用时只用了一次随机化,所以该保证是“在重复使用RLCP算法时平均意义下”的,并非一次性保证。作者可能澄清“对固定数据集,重复使用该算法将所得区间平均后满足下界”,但个例可能仍较差。这种“可重复性保证”的优点与缺点是论文中需要讨论的。 - 协变量偏移下的保证是否要求已知似然比,还是可用自适应的形式?若是已知,则是较强的假设,需大家自行判断。
四、开放问题(扎根具体语句)¶
- 随机化的方差与稳定性:RLCP每次推断产生不同区间,其条件覆盖概率的方差(关于随机化)是否可控?可否通过多次随机化求交或求并来获得更稳定的区间?这扎根于论文中对随机化设计的讨论(likely在limitation或future work部分)。
- 高维特征下的局部化效率:当 \(d\) 较大时,基于欧几里得距离的邻域在给定校准集大小下往往稀疏,导致权重非零的样本很少(“维数诅咒”)。RLCP是否可以通过使用低维嵌入或加性结构缓解?这对应论文中“拓展至高维”的open question(如引用相关高维共形预测文章)。
- 强局部覆盖是否等价于确定性界线:点态局部覆盖已被证伪,但“松弛局部覆盖”的定义是否可能进一步强化到“除零测集外的点态保证”?这需要在交换性和随机化框架下探讨下确界的可测性。
- 与假设检验的进一步联系:共形预测等价于假设检验(通过p值),RLCP的随机化本质相当于引入辅助随机性来校准p值,这与随机化单边检验的思想相似。是否有直接的假设检验解释?这可以从论文第X节(可能是related work)中找到线索。
注意:上述开放问题中的前两条较具可行性,研究者可结合非参数统计和软件开发技能,设计模拟实验来量化随机化方差;第三条需要深入理论分析,可能与交换性引理的延伸相关。确认这些是否为真gap,建议阅读近期共形预测文献(如2023 NeurIPS、JRSSB、AOS)中关于随机化方法的讨论,以及Barber et al. (2021)对不可识别性的证明。
Maintained by 陈星宇 · Homepage · Source on GitHub