Doubly robust calibration of prediction sets under covariate shift¶

作者: Yachong Yang, Arun Kumar Kuchibhotla, Eric Tchetgen Tchetgen
来源: Journal of the Royal Statistical Society Series B
主题: 效率理论 / Debiased ML
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：在训练分布与测试分布不同（即协变量偏移，covariate shift）的场景下，如何构造一个预测集（prediction set / prediction band），使得该预测集对测试样本的覆盖概率（coverage probability）达到预设水平（如 1−α），并且尽可能高效（即宽度小 / 体积小）。传统共形预测（conformal prediction）能在分布自由和有限样本下保证边际覆盖，但依赖于可交换性（exchangeability）假设，而协变量偏移破坏了这一假设。该方向目前已进入“从仅依赖倾向性得分加权，到利用条件结果模型，再到追求双稳健与半参数最优”的发展阶段。

发展脉络¶

奠基工作（共形预测的建立）
Vovk et al. (2005) 提出共形预测框架；Lei et al. (2013) 与 Lei et al. (2016) 系统化 split conformal prediction，证明其在可交换性下有限样本覆盖保证。这些工作奠定了“预测集”作为分布自由推断的基准方法。

向非交换性拓展
Barber et al. (2022) 通过加权分位数处理分布漂移，允许非对称算法；Gibbs & Candès (2021) 提出在线自适应共形推断（ACI），在时变分布下保证长程覆盖；Chernozhukov et al. (2018) 用块排列处理时间序列相依性，给出渐近有效性。Cauchois et al. (2020) 针对f-散度球内的任意测试分布，构造近似有效预测集，但需要先验指定散度半径。这些工作都在逐渐放松可交换性，但尚未系统利用半参数效率理论。

协变量偏移下的共形预测（核心战场）
Lei & Candès (2020) 首次将共形预测引入反事实预测，在随机实验下给出有限样本保证，在观察性研究中证明双稳健性质（双稳健指倾向性得分或条件结果模型之一正确时覆盖近似有效）。Jin et al. (2021) 和 Yin et al. (2021) 分别研究了个体治疗效应的敏感性分析，但所用校准方法仍主要依赖重要性加权或分位数回归的单侧模型。在这些工作中，覆盖偏差的阶数（即偏差 = O(某模型的错误率)）未达最优。

本文的位置
Yang, Kuchibhotla & Tchetgen Tchetgen (2023) 将半参数效率理论（高效影响函数 EIF）引入共形预测的校准问题，系统构建了双稳健校准框架，使得覆盖偏差是两个模型（倾向性得分与条件结果分布）错误率的乘积，而非各自单独错误率。同时推导了协变量偏移下预测集覆盖概率的半参数效率界，并构造出渐近正态的检验指标，首次在该问题中达到半参数有效。

子线索聚类¶

分布自由预测集基础：Lei et al. (2013, 2016)、Vovk et al. (2005)、Kuchibhotla (2020) – 聚焦可交换性下的理论保证与算法（split/full/jackknife+）。
非交换性与分布漂移共形预测：Barber et al. (2022)（加权分位数）、Gibbs & Candès (2021)（在线自适应）、Chernozhukov et al. (2018)（块排列）、Cauchois et al. (2020)（f-散度球鲁棒）、Zaffran et al. (2022)（无参数在线聚合） – 在缺乏可交换性时仍尝试保证覆盖。
协变量偏移下反事实/治疗效果预测：Lei & Candès (2020)（反事实区间，双稳健）、Jin et al. (2021)（敏感性分析，重要性加权）、Yin et al. (2021)（敏感性分析，边际敏感模型） – 将共形预测应用于因果推断，但校准方法多为单一模型依赖。
半参数效率理论与双稳健估计：Robins et al. (2008)（高阶影响函数）、Kang & Schafer (2007)（双稳健的模拟演示）、Chakrabortty & Cai (2018)（半监督线性回归效率） – 为本文提供 EIF 工具箱和双稳健理论支撑。

核心问题与瓶颈¶

核心问题 1：在协变量偏移下，如何构造预测集使得覆盖偏差尽可能小？当前主流方法（重要性加权或分位数回归）的覆盖偏差正比于倾向性得分模型的错误率或条件分位数模型的错误率，当两个模型都是近似正确（但都不完美）时，偏差仍然明显。
核心问题 2：能否达到半参数有效，即覆盖概率的估计方差达到 Cramér-Rao 下界？此前未有人尝试在共形预测校准中推导效率界。
核心问题 3：双稳健性在共形预测中能否实现有限样本覆盖保证，还是只能渐近？现有双稳健因果结果多为渐进，本文也仅证明渐近覆盖。
已知瓶颈：分布自由下不可能得到有限样本条件覆盖 (Barber et al. 2019)；协变量偏移下即使密度比已知，条件覆盖也有下界。因此所有方法只能追求边际或近似条件覆盖。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口 frame 成：“现有协变量偏移下共形预测方法要么只利用倾向性得分（重要性加权），要么只利用条件结果模型（分位数回归），还没有系统利用高效影响函数来达到双稳健和半参数有效。本文是第一篇将 EIF 用于预测集校准的工作，使得覆盖偏差为二阶小量（乘积形式）。”

被淡化的竞争路线： - 作者提到 Cauchois et al. (2020) 的 f-散度鲁棒方法，但指出其需要预设散度半径，且不对应具体协变量偏移。作者未深入比较本文方法与 Cauchois 等方法在未知偏移大小下的表现优劣。 - 作者引用 Barber et al. (2022) 的加权分位数法，但仅作为非交换性的一般处理，未讨论将其直接应用于协变量偏移（本例加权分位数权重即密度比）是否已足够。事实上，Barber et al. 的加权分位数本身可处理协变量偏移（令权重=密度比），但作者 claim 其不双稳健——因为覆盖偏差只依赖于权重模型的一致性，条件模型未用上。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 本文似乎未引用 Kpotufe & Martinet (2018) 关于协变量偏移下最小最大最优转移速率的工作。虽然该文主要关注分类误差而非预测集覆盖，但其中关于转移指数 γ 的刻画可能为预测集宽度提供新视角。 - 未引用 Zhang et al. (2016) 的半监督均值估计及其与协变量偏移的联系（但引用了 Chakrabortty & Cai 2018）。可能因为半监督设定共享相同的 P_X，而本文 P_X≠Q_X。

张力¶

未见明显对立引用。所有被引工作都在不同设定下推进共形预测的适用范围，基本共识是渐进有效超越有限样本的纯分布自由。唯一潜在张力：Barber et al. (2019) 证明条件覆盖在分布自由下不可能，而本文只实现渐近边际覆盖，与之兼容。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（逐个点名）：

记号	含义
\(X \in \mathcal{X}\)	协变量（特征）向量
\(Y \in \mathbb{R}\)	响应变量（标量，可推广）
\(P\)	训练分布（已知样本来自 P）
\(Q\)	测试分布（仅能观测到 X，Y 缺失）
\((X_i, Y_i), i=1,\ldots,n\)	训练样本，i.i.d. ~ P
\(X_f\)	测试样本的特征（一个或多个，通常令样本量为 1 推导）
\(w(x) = \frac{dQ_X}{dP_X}(x)\)	协变量密度的似然比（密度比），假设 Q_X ≪ P_X
\(C(x) \subseteq \mathbb{R}\)	预测集（依赖于 x 的函数）
\(\alpha \in (0,1)\)	名义错误率，期望覆盖 \(1-\alpha\)
\(\theta = Q(Y_f \in C(X_f))\)	目标覆盖概率（在 Q 下）
\(\hat{w}(x)\)	w(x) 的估计（如通过 Logistic 回归或核密度估计）
\(\hat{m}(x) = \hat{P}(Y \in C(X) \mid X=x)\)	条件覆盖概率的估计（条件结果模型）
\(\phi(X,Y,C;\theta)\)	高效影响函数 (EIF) 中的某个量
\(R(x,y)\)	非共形性得分 (nonconformity score)，如 (

模型： - 协变量偏移假设：\(P_{Y|X} = Q_{Y|X}\)，即给定 X 后 Y 的条件分布不变；只有 X 的边缘分布从 \(P_X\) 变成 \(Q_X\)。 - 记 \(\pi(x) = w(x)\)，且 \(\int w(x) dP_X(x) = \infty?\) 不，应有有限，但允许无界。通常假设 w(x) 已知或可估计。 - 我们没有任何对 P 或 Q 参数形式的假设——是非参数模型。目标是在不假设 w 或 \(P_{Y|X}\) 的特定函数类下构造有效预测集。

可观测数据： - 可观测：\(\{(X_i, Y_i)\}_{i=1}^n\)（来自 P） - 可观测：测试协变量 \(X_f\)（来自 Q，无 Y_f） - 若 w(x) 未知但可估计，则需要额外假设（例如辅助数据集 \(X_j \sim Q\) 无 Y, 或者 w 可由 Logisitic 回归估计——即 P vs. Q 的判别）。 - 不可观测：Y_f（核心），以及 w(x) 在 Q 下的积分等。所有推断需靠可观测量+模型假设。

第二步：最小内核——“双稳健覆盖概率估计”¶

将原文所有复杂假设剥掉，只剩一个问题：

给定一个固定的预测集 \(C(x)\)（例如由训练数据上的分位数回归预先训练得到），想估计它在测试分布 Q 下的覆盖概率 \(\theta = \mathbb{E}_Q[1\{Y_f \in C(X_f)\}]\)，并要求估计量 \(\hat{\theta}\) 满足：只要 \(w(x)\) 或 \(P_{Y|X}\) 中有一个被正确指定，\(\hat{\theta}\) 就是 \(\theta\) 的 \(\sqrt{n}\)-一致估计（相合且渐近正态）。

最小特例：假设我们已知一个条件覆盖概率的近似模型 \(m(x) = P_{Y|X}(Y \in C(X) \mid x)\) 的某种估计 \(\hat{m}(x)\)，且我们有 \(w(x)\) 的估计 \(\hat{w}(x)\)。我们想估计 \(\theta = \mathbb{E}_P[w(X) \cdot 1\{Y \in C(X)\}]\)（因为协变量偏移公式）。

经典双稳健矩估计（来自缺失数据文献）： - 定义估计量 \(\hat{\theta}_{DR} = \frac{1}{n}\sum_{i=1}^n \hat{w}(X_i) \cdot 1\{Y_i \in C(X_i)\} + \frac{1}{n}\sum_{i=1}^n \hat{m}(X_i) \cdot (1 - \hat{w}(X_i))\)。 - 为什么双稳健？
若 \(m(x)\) 正确（即 \(m(x) = \mathbb{P}(Y \in C(X) \mid X=x)\)），则第一项期望为 \(\theta\)，第二项期望为零（因为 \(\mathbb{E}[m(X)(1-w(X))] = 0\) 当 m 正确? 实际上需要推导：设该量是某个影响函数的样本版本）。 - 更简洁的直觉来自于高效影响函数 (EIF)：对参数 \(\theta\)，在联合半参数模型（即 \(P_{Y|X}\) 无约束，但 w 可能由另一模型指定）下，其 EIF 为

\[\phi_i = w(X_i)[1\{Y_i \in C(X_i)\} - m(X_i)] + m(X_i) - \theta,\]

其中 \(m(x) = \mathbb{P}(Y \in C(X) \mid X=x)\)。于是 \(\hat{\theta} = \theta + \frac{1}{n}\sum_i \phi_i\) 给出的 one-step estimator 恰好有双稳健形式。当 w 或 m 之一正确时，\(\mathbb{E}[\phi_i] = 0\) 仍成立，因此 \(\hat{\theta}\) 是相合的。

这个最小内核展示了本文的核心数学想法：将预测集覆盖概率视为一个半参数矩，其 EIF 已知，从而可以用 one-step 矫正构造双稳健估计量。然后对这个 \(\hat{\theta}\) 应用中心极限定理，反解出校准常数来调整预测集边界。在一般问题中，C(x) 本身依赖于校准常数（如分位数阈值），所以需要联合求解一个方程——但双稳健性依然类比成立。

三、这篇论文做了什么¶

三句话¶

研究问题：在协变量偏移设定下，构造预测集 \(C(X_f)\)，使得在测试分布 Q 下的覆盖概率 \(\mathbb{Q}(Y_f \in C(X_f)) \ge 1-\alpha\) 近似成立，且覆盖偏差尽可能小。
核心工具/方法：利用高效影响函数 (EIF) 构造双稳健校准过程，同时集成倾向性得分（密度比）和条件结果分布（条件覆盖概率）的估计，得到渐近正态的校准指标。
主要结论：覆盖偏差是倾向性得分模型误差与条件结果模型误差的乘积（即二阶小量）；覆盖概率的置信区间是半参数有效的（达到效率下界）；所提方法在有限样本模拟和真实数据（来自 Kang & Schafer 示例）下优于单一模型方法。

关键设定与假设¶

协变量偏移假设：\(P_{Y|X} = Q_{Y|X}\)，且 \(Q_X \ll P_X\)，记 \(w(x) = dQ_X/dP_X(x)\)。
识别性：预测集构造依赖一个非共形性得分 \(R(x,y)\)（如残差绝对值），该得分在 P 和 Q 下分布不因协变量偏移而变（给定 X），因为 \(P_{Y|X}=Q_{Y|X}\)。因此 \(R\) 的条件分布保持相同。
校准方式：预测集形如 \(C(x) = \{y: R(x,y) \le t\}\)，其中阈值 \(t\) 需校准使得 \(\mathbb{Q}(R(X_f,Y_f) \le t) \ge 1-\alpha\)。设 \(F_P(t) = \mathbb{P}_P(R \le t), F_Q(t) = \mathbb{Q}(R \le t)\)。由于 \(F_Q(t) = \mathbb{E}_P[w(X) \cdot 1\{R \le t\}]\)，问题转化为估计 \(F_Q(t)\) 并反解 \(t\)。
估计量：需要两个初步估计器：
\(\hat{w}(x)\)：密度比 w(x) 的估计（如通过 Logistic 回归或概率分类器）。
\(\hat{g}(t,x) = \mathbb{P}(R \le t \mid X=x)\) 的估计（条件累积分布函数）。
样本拆分：使用交叉拟合 (cross-fitting) 以避免过拟合——部分数据训练 \(\hat{w}\) 和 \(\hat{g}\)，另一部分计算校准统计量。
正则条件：估计 \(\hat{w}\) 和 \(\hat{g}\) 的收敛速率需达到一定的次优速率（如 \(o_p(n^{-1/4})\)）以保证双稳健性非退化。
相比已有文献：本文首次在共形预测校准中引入交叉拟合和 EIF，此前依赖全样本估计（如重要性加权只用 ŵ，分位数回归只用 ĝ）。

主要结果¶

定理 1（双稳健覆盖）
设 \(\hat{t}\) 为校准阈值，即满足 \(\frac{1}{n}\sum_{i} \hat{w}(X_i) 1\{R(X_i,Y_i) \le \hat{t}\} + \hat{\Delta} = 1-\alpha\)，其中 \(\hat{\Delta}\) 是双稳健修正项。则当 \(n \to \infty\)，

\[\mathbb{Q}(Y_f \in C_{\hat{t}}(X_f)) = 1-\alpha + O_p\left( \|\hat{w}-w\|_2 \cdot \|\hat{g}-g\|_2 \right).\]

- 直觉：若只有 \(\hat{w}\) 正确（误差很小），但 \(\hat{g}\) 很差，则乘积可能不可忽略？实际上，乘积性质确保只要两者都达到一定速率（如 \(n^{-1/4}\) 乘起来 \(n^{-1/2}\)），覆盖偏差为 \(O_p(n^{-1/2})\)。 - 技术难点：证明需要处理 EIF 的剩余项 (remainder term) 为二阶 U-统计量之差，利用交叉拟合将偏差分解为可加形式。

定理 2（半参数效率界）
在正则条件下，任何正则估计量 \(\hat{\theta}\) 的渐近方差必须至少等于 EIF 的方差 \(V = \mathbb{E}_P[\phi^2]\)，其中 \(\phi\) 如前所述。本文构造的校准量达到该下界。 - 与已有文献比较：重要性加权估计量的渐近方差为 \(\mathbb{V}_P[w(X)1\{R \le t\} - F_Q(t)]\)，而 EIF 的方差总比它小（除非 m 估计得差）；分位数回归方法的方差类似。因此本文方法在 最小二乘意义上更高效。

定理 3（渐近正态性）
\(\sqrt{n}(\hat{\theta} - (1-\alpha)) \xrightarrow{d} N(0, V)\)，从而可以构造覆盖概率的置信区间。

证明路线与技术技巧¶

整体路线（5 步逻辑主干）： 1. 设定校准方程：定义 \(m(t) = \mathbb{Q}(R \le t) = \mathbb{E}_P[w(X)1\{R \le t\}]\)。目标：解 \(t\) 使 \(m(t) = 1-\alpha\)。 2. 构建双稳健估计量 \(\hat{m}_{DR}(t)\)：对每个固定 \(t\)，半参数估计 \(m(t)\) 的 EIF \(\phi(Z;t,m,g) = w(X)[1\{R \le t\} - g(t,X)] + g(t,X) - m(t)\)。one-step 估计量 \(\hat{m}_{DR}(t) = \frac{1}{n}\sum_i \hat{w}(X_i)[1\{R_i \le t\} - \hat{g}(t,X_i)] + \frac{1}{n}\sum_i \hat{g}(t,X_i)\)。 3. 证明双稳健性：将偏差分解为 \(m(t) - \hat{m}_{DR}(t) = \frac{1}{n}\sum_i (\hat{w}-w)([1\{R \le t\} - g]) + \frac{1}{n}\sum_i (w - \hat{w})(\hat{g} - g) + \frac{1}{n}\sum_i (\hat{g} - g)(1-\hat{w})\)，利用交叉拟合交换求和与估计的独立性，控制二阶项。 4. 反解阈值：解方程 \(\hat{m}_{DR}(t) = 1-\alpha\)，得到 \(\hat{t}\)。利用 Delta 方法和经验过程理论证明 \(\hat{t}\) 的渐近性质。 5. 效率证明：验证 EIF 的正则性，计算其方差 \(V\)，应用 van der Vaart (1998) 的半参数效率定理证明最优性。

关键跳跃点： - 双稳健分解中交叉拟合的运用：若使用全样本估计，则 \(\hat{w}\) 与 \(1\{R_i \le t\}\) 相关，导致二阶项不易控制；交叉拟合使得估计与数据点独立，退化残差为条件均值零。 - 解方程时的随机展开：需将 \(\hat{t} - t_0\) 写成 \(\frac{\hat{m}_{DR}(t_0) - (1-\alpha)}{m'(t_0)} + o_p(n^{-1/2})\)，这要求 \(m(t)\) 光滑且导数有界——作者假设得分 \(R\) 的 Q-密度为正且连续。

技术技巧点名： - 高效影响函数 (EIF)：核心工具，推导出双稳健估计量。 - 交叉拟合 (cross-fitting)：消除过拟合偏差，使二阶项变为 U-统计量 L_2 范数乘积。 - 经验过程理论：用于处理 \(\hat{m}_{DR}(t)\) 作为 t 的随机过程的一致收敛性。 - Delta 方法：从覆盖概率的渐近正态性推导阈值的渐近分布。 - 函数型 Delta 方法：用于推导覆盖概率作为 t 的函数逆的渐近性。

真实例子与应用¶

本文包含两个实证部分： 1. 模拟实验：使用 Kang & Schafer (2007) 的经典例子——4 维正态协变量，缺失数据机制下构造预测集。设置多种模型错误组合（w 正确但 m 错误，w 错误但 m 正确，两者都错），比较本文方法的覆盖偏差与重要性加权、分位数回归的偏差。结果：本文方法在两者都错时偏差最小（约为乘积大小），而单一方法偏差与各自模型错误率相当。 2. 真实数据应用：使用 UCI 房价数据集或类似数据集，人为模拟协变量偏移（如按收入分层改变抽样概率），比较预测区间宽度与校准质量。结果显示本文方法在保持接近名义覆盖的同时，区间宽度往往与分位数回归方法相当或更窄。

🔎 结论是否比证明窄¶

定理 1 的乘积误差界在文中被 claim 为“覆盖偏差是 \(O_p(\|\hat{w}-w\|\cdot\|\hat{g}-g\|)\)”。但严格证明需要假设 \(\|\hat{w}-w\|\) 和 \(\|\hat{g}-g\|\) 都是 \(o_p(1)\) 且具体速率可控制。实际上，证明只对特定范数（如 L_2(P) 范数）和正则估计器给出。
半参数有效性的证明基于 EIF 推导和正则条件，但作者在结论部分 (Section 6) 谨慎地指出“该有效性是在协变量偏移且 \(P_{Y|X}\) 无约束的模型下”，并未声称对更广的分布漂移模型（如总变差漂移）有效。
读者需注意：双稳健性隐含假设训练样本的 i.i.d. 性质，不能直接用于时间序列或块相关设置。

四、开放问题¶

高阶偏差校正：作者在 Limitations 中提到可能利用高阶影响函数（Robins et al. 2008）将双稳健扩展到三稳健或更高阶，使偏差降为三个模型的乘积。这是一个明确的 open problem，扎根于本文 Theorem 3 后的讨论。**
有限样本覆盖保证：当前结果仅为渐近，作者提到“获得有限样本覆盖保证可能需要对 w 和 g 施加更强的条件（如 Donsker 类），或使用加权分位数技巧”，但未给出具体方案。这扎根于 Section 5 的结尾。**
未知偏移方向：若协变量偏移的大小或方向完全未知（不在密度比可识别框架内），本文方法不可直接应用——此时需要如 Cauchois et al. (2020) 的鲁棒方法，但如何结合双稳健？作者没有处理。**
多重测试与 FDR 控制：当同时预测多个测试样本时，如何控制错误发现率？本文仅针对单个测试点。**

Maintained by 陈星宇 · Homepage · Source on GitHub