跳转至

Conformal Prediction Under Nonignorable Missingness

作者: Menghan Yi, Yingying Zhang, Yanlin Tang, Huixia Judy Wang
来源: Statistica Sinica
主题: 因果推断
相关性: 7/10
链接: https://doi.org/10.5705/ss.202025.0156


一、领域脉络与小综述

这个方向是什么

本文研究的根本问题是:在 响应变量存在非可忽略缺失(Nonignorable Missingness, NIM) 的情况下,如何为一个新个体构造一个 预测集(prediction set),使其在未知的真实分布下以概率 \(1 - \alpha\) 覆盖该个体的真实响应值。非可忽略缺失意味着缺失机制 不仅依赖于协变量,还依赖于缺失响应变量本身(例如:患病越严重的人越不愿意报告自己的病情)。这带来了两个致命困难:① 非可识别性(non-identifiability):仅靠观测数据无法唯一决定缺失机制与结果分布的联合;② 数据不可交换性(non-exchangeability):由于缺失依赖于 Y,观测到的 Y 不再是完整总体的随机子样本,经典共形预测(Conformal Prediction, CP)依赖的数据可交换性假设被破坏,从而无法直接使用。

发展脉络(从 Introduction 与参考文献梳理)

本文的 Introduction 并未写成一个完整的综述式引言,而是以问题导向串起相关文献。我将其引用的工作及检索到的关键被引文献串成以下时间线与子线索:

奠基工作(缺失数据框架 + 共形预测基础): - Little & Rubin (2002) / 或类似教科书:建立了缺失数据机制的经典三分法——MCAR(完全随机缺失)、MAR(随机缺失)、NIM(非可忽略缺失)。NIM 情况下,若不假设额外信息,模型非可识别,必须依赖工具变量或强分布假设。 - Vovk et al. (2005) 及后续(如 Shafer & Vovk, 2008):提出共形预测,其核心概念是数据可交换性(或 i.i.d.)——在新个体与旧样本之间可以比较“非符合性度量”(nonconformity score)的秩。一旦缺失机制依赖于 Y,观测数据不再是从原分布随机采样的,观测样本与未观测部分不满足可交换性。

主要进展(非可忽略缺失下的识别与估计): - Wang et al. (2014) / Tang et al. (2019) 等:提出在 NIM 下,利用工具变量(或称 shadow variable、auxiliary variable)或出勤假设(availability assumption)(如缺失概率是结果 Y 与协变量 X 的已知参数函数,且其参数可由观测数据一致估计)来实现倾向得分的非参数 / 半参数识别。这是本文方法的先决条件。 - Kim & Yu (2011) 等:在 NIM 下发展倾向得分加权估计量。但多数工作聚焦于均值 / 总体参数的估计,而非响应变量的完整分布预测。

当前 Frontier(共形预测 + 缺失数据 + 条件覆盖): - Lei et al. (2018): 提出分位数回归共形预测(conformal quantile regression),构造条件分位区间,同时保证边际覆盖与渐近条件覆盖。这是本文的直接 baseline。 - Barber et al. (2021): ** 研究协变量缺失下的共形预测(处理非可交换性问题),但响应变量仍未涉及缺失。 - Yang et al. (2022)**:在 MAR 缺失响应下构造共形预测集,但 MAR 假设(缺失只依赖于协变量,不依赖于 Y)比 NIM 弱许多。

本文的位置:本文是首次将共形预测的 framework 推广到 非可忽略缺失响应 场景,是端点工作。它将红利的负载从“结果回归模型”转移到“缺失机制模型”上(结果回归 model-free,仅依赖倾向得分一致估计)。

子线索聚类

文献大致落在以下 3 条子线索上,本文将它们结合:

  1. 缺失数据下的统计推断(识别 + 倾向得分 + 加权估计): 这一簇关注如何用倾向得分(或双重稳健)补救缺失造成的偏差。本文吸收其“倾向得分是需要在 NIM 下识别并一致估计”的观点,但从均值估计跳到了分布预测
  2. 共形预测的扩展(处理非标准数据交换性结构): 这一簇包含在协变量缺失、存在漂移或域适应等非 i.i.d. 场景下改造共形预测。Barber et al. (2021) 是典型代表。本文吸收了其“局部化非符合性度量”以绕开全局非交换性的思路,但问题设定完全不同。
  3. 条件密度估计的非参数 / 半参数方法: 如线性核密度估计、局部多项式分位数回归等。本文发展的偏差调整半参数条件密度估计器(基于分位数过程的齐次变换,再配合倾向得分权重纠偏)属于此簇。

这个方向在追问的核心问题与当前瓶颈

  • 核心问题 1:如何在不依赖结果回归模型假设(即 model-free on outcome regression)的前提下,用缺失数据构建 valid prediction set?
  • 核心问题 2:NIM 下的非识别性如何解决?—— 回答:依赖工具变量或出勤假设,且倾向得分必须一致估计。
  • 核心问题 3:如何恢复数据可交换性?—— 回答:构造一种考虑缺失机制的非符合性度量(通过倾向得分加权),然后将共形比较局域化到目标点附近(即用局部子集而非全体训练样本)。

当前瓶颈:已有方法要么依赖强结果回归模型(易错)、要么只能处理 MAR(太弱)、要么只能给出边际覆盖而不保证条件覆盖(实际可能局部失效)。

⚠️ 作者的 framing(务必标注)

作者声称本文的 gap 是“在 NIM 下尚无共形预测方法”,从而 framed 本文是该 gap 的“显然下一步”。这种 framing 是忠实且有支持的。作者淡化了以下竞争路线: - 多重插补 + 共形预测:未讨论为何不能先多重插补填充缺失 Y,再对填充数据做共形预测。作者回避的理由应该是多重插补依赖于正确设定的结果模型,不符合 model-free on outcome 的诉求。 - 概率化加权预测集(probabilistic weighting):如用逆概率加权的分位数构建预测区间,而不走共形路线。作者未提及。

什么明显该被引 / 该存在、却没出现在 intro 里? - 未引用 Zaffran et al. (2022) 或类似文献(在 Nurse 系统中讨论精确共形预测与缺失数据的结合)——但这更多是关于 MCAR/MAR,而非 NIM,所以缺失可恕。 - 更严重的问题:未引用任何关于“共形预测的 conditional coverage 弱于 marginal coverage 的方法论文献”(如 Foygel Barber et al., 2021 证明了条件覆盖在不依赖于更强假设时不可实现)。这是一个空白,因为本文声称同时保证 marginal 与 asymptotic conditional coverage,但在 NIM 下 conditional coverage 的效率损失未被理论分析。

张力

未见明显对立引用。所有被引工作基本补位而非矛盾。


二、最核心、最简单的例子 / 数学问题

符号、模型与可观测数据

先交代清记号(用本文论文中的符号,若有出入则注明):

  • 响应变量\( Y_i \in \mathbb{R} \),可缺失的目标变量。
  • 协变量\( \mathbf{X}_i \in \mathbb{R}^d \),高维可观测。
  • 缺失指示符\( R_i \in \{0,1\} \)\( R_i=1 \) 表示 \( Y_i \) 被观测到;\( R_i=0 \) 表示缺失。
  • 可观测数据:对新个体 \( (i = n+1) \),我们能观测到 \( (\mathbf{X}_{n+1}, \mathbf{Z}_{n+1}) \)\( Z \) 是额外的工具变量/辅助变量,下节解释)。但对于 \( i=1,\ldots,n \),我们观测到 \( (\mathbf{X}_i, \mathbf{Z}_i, R_i, R_i Y_i) \)——即仅当 \( R_i=1 \) 时知道 \( Y_i \)
  • 目标 estimand:对新个体 \( n+1 \),给定 \( \mathbf{X}=\mathbf{x} \),构造一个预测集 \( C(\mathbf{x}) \subseteq \mathbb{R} \),使得:
    \[\mathbb{P}(Y_{n+1} \in C(\mathbf{X}_{n+1})) \geq 1 - \alpha\]
    其中概率在训练+测试的联合 i.i.d. 抽样下。理想情况下,我们还希望 条件覆盖\( \mathbb{P}(Y_{n+1} \in C(\mathbf{x}) \mid \mathbf{X}=\mathbf{x}) \geq 1 - \alpha \)
  • 模型:数据生成过程:\( (\mathbf{X}_i, \mathbf{Z}_i, Y_i) \overset{\text{i.i.d.}}{\sim} F \),缺失机制为:
    \[\mathbb{P}(R_i=1 \mid Y_i, \mathbf{X}_i, \mathbf{Z}_i) = \pi(Y_i, \mathbf{X}_i)\]
    非可忽略缺失的核心:\( \pi \) 依赖于 \( Y_i \) 本身。依赖 \( \mathbf{Z}_i \) 的缺失机制被禁止(或假设 \( \mathbf{Z} \) 与缺失机制给定 \( Y,\mathbf{X} \) 条件独立,即 \( \mathbf{Z} \) 为工具变量)。
  • 识别性假设:存在非参数可识别的倾向得分 \( \pi(\cdot, \cdot) \) 且信息充足时,存在辅助变量(如一个与缺失机制无关但与 \( Y \) 相关的变量 \( Z \))或单调性假设。本文具体假设:存在出勤假设(availability assumption)使得 \( \pi(Y_i, \mathbf{X}_i) \) 可一致估计。实际的做法是假设 \( \pi(Y_i, \mathbf{X}_i) \) 属于某种半参数族且可由观测数据唯一识别。
  • Potential(不可观测):缺失的 \( Y_i \)\( R_i=0 \))不可观测,是反事实量。
  • 维数\( n \) 为训练样本量,\( d \) 为协变量维数,通常假设 \( d \) 固定(非高维)。

最小内核:去掉所有一般性假设,看“到底在做什么”

本文的核心思路是一种“倾向得分加权 + 局部共形比较”。为看清这一点,我们剥去一切复杂假设,取最简特例:

最简特例设定: - 假设协变量 \( \mathbf{X} \)离散的、只有很少取值(如 \( X \in \{1,2\} \) 二元),且每个取值对应的样本量 \( n_x \) 足够大。 - 假设倾向得分 \( \pi(Y_i, X_i) \)已知的可一致估计的,且我们仅考虑一个目标点 \( \mathbf{x} = \{1\} \)。 - 假设缺失机制是:当 \( Y > 0 \) 时,\( \pi(>0, X=1) = 0.8 \); 当 \( Y \leq 0 \) 时,\( \pi(\leq 0, X=1) = 0.2 \)。即高 Y 的个体更可能被观测到——NIM。

问题:我们要构造一个 90% 预测集。在无缺失的理想情况下,共形预测的步骤是: 1. 为新个体 \( n+1 \) 定义 nonconformity score(例如:\( s(x,y) = |y - \hat{\mu}(x)| \)\( \hat{\mu} \) 是对条件均值的估计)。 2. 对每个训练样本 \( i \),计算它的 score \( s_i \)。在数据可交换(i.i.d.)下,\( s_{n+1} \) 的秩在全体 \( n+1 \) 个 score 中是均匀的,所以取第 \( \lceil (1-\alpha)(n+1) \rceil \) 大的 score 作为阈值,即可保证边际覆盖。

问题出现:由于 NIM,你在训练数据中观测到的 \( (X_i, Y_i) \) 并非原始总体的一个随机子集。那些 \( Y \) 很大的个体,其观测 \( Y_i \) 被称为“over-represented”。因此,由观测样本计算的 score 分位数会被低 Y 数据淹没,从而对高 Y 的新个体预测区间偏窄。

核心思路(最小内核): 1. 局部化:在目标点 \( X=1 \) 附近(在这个特例中就是 \( X=1 \) 本身,因为离散),我们只使用训练样本中 \( X=1 \) 的那部分数据来构造 nonconformity score 的经验分布。 2. 加权:但即使 \( X=1 \) 的样本,其 \( Y \) 的分布也是偏倚的。我们无法直接比较新个体的 \( Y_{n+1} \) 和这些旧样本的 \( Y_i \),因为旧样本的 \( Y \) 被“有偏向地观测到”。要恢复可交换性,就要把每个观测到的样本的 score \( s_i \)权重设为 \( w_i = 1 / \pi(Y_i, X_i) \)(倾向得分的倒数)。这类似于逆概率加权(IPW)。 3. 构造预测集:在新个体的预测时,计算其 score \( s_{n+1}(x) \)(基于其协变量,但 \( Y \) 未知实际上是无法直接计算的!典型的 CP 是构造所有可能的 \( \tilde{y} \) 的预测集)。本文的做法是:对每个“候选值” \( y \in \mathbb{R} \),计算该候选下新个体的 nonconformity score 假设值,然后与加权的训练集 score 做比较,决定是否包含 \( y \)。确保加权后的 rank 成立。

在这个特例下,关键方程为: 定义训练集加权 score 分布:

\[F_n(t) = \frac{1}{n_x} \sum_{i: X_i = x} w_i \cdot \mathbf{1}\{s_i \leq t\}\]
其中 \( w_i = 1/\pi(Y_i, X_i) \)。选取阈值 \( t_{\alpha} = F_n^{-1}(1-\alpha) \)(修正有限样本量后)。那么新个体的预测集为:
\[C(\mathbf{x}) = \{ y : s(\mathbf{x}, y) \leq t_{\alpha} \}\]
在离散协变量 \( \mathbf{x} \) 且倾向得分已知的情况下,这一构造能保证渐近条件覆盖(随着局部样本量 \( n_x \to \infty \))。当 \( \pi \) 未知时,需替换为一致估计量 \( \hat{\pi} \),引入有限样本的偏差。

结论:本文是为了解决两个问题而写的——① 当协变量连续时,如何局部化到目标点(平滑核加权);② 当倾向得分未知时,如何从观测数据中半参数估计条件密度 \( f(y|x) \),并用其构造最优(最短)预测集。


三、这篇论文做了什么

论文类型:本文是应用/方法型(提出新方法 + Monte Carlo 仿真 + 真实数据应用),但包含理论结果(渐近覆盖的证明)。

三句话

  1. 研究问题:在响应变量非可忽略缺失(NIM)下,为新个体构造条件密度预测集(highest conditional density set),即要求预测集不仅覆盖概率保真,而且长度(Lebesgue 测度)尽可能短。
  2. 核心工具/方法:提出“局部共形预测框架”(Local Conformal Prediction under NIM, LCP-NIM),核心组件是:(a) 一个偏差调整的半参数条件密度估计器(bias-adjusted semiparametric conditional density estimator),它基于分位数过程的齐次变换(homotopy of quantile processes)并使用倾向得分加权纠正选择偏差;(b) 利用该估计量构造 最高条件密度预测集(highest conditional density set),并通过局部非符合性度量(基于目标的概率密度等高线)实现共形校正。
  3. 主要结论:该方法在新个体上不仅保证边际覆盖(marginal coverage),还保证局部覆盖(local coverage,即 \( \mathbb{P}(Y \in C(\mathbf{x}) \mid \mathbf{X} \in \text{neighborhood of } \mathbf{x}) \geq 1-\alpha \))以及渐近条件覆盖(asymptotic conditional coverage:当核带宽 \( h \to 0 \) 时,逼近全覆盖)。区间长度渐近最优,即接近于 true highest density region 的长度。仿真与 HIV-CD4 数据验证了有限样本下的有效性与高效性。

关键设定与假设

在第二节最小记号外,补全完整设定与假设:

  • 设定:独立同分布样本 \( (\mathbf{X}_i, \mathbf{Z}_i, R_i, Y_i) \)\( i=1,\ldots,n \),其中 \( Y_i \)\( R_i=0 \) 时缺失。新个体 \( n+1 \) 只观测到 \( (\mathbf{X}_{n+1}, \mathbf{Z}_{n+1}) \)
  • 假设 A1 (非可忽略缺失出勤假设):存在某个已知函数类(半参数族),或借助工具变量 \( \mathbf{Z} \),使得倾向得分 \( \pi(Y, \mathbf{X}) \) 可由观测数据一致估计。具体地,本文采纳以下设定:倾向得分 \( \pi(Y, \mathbf{X}) \) 为已知形式的 logistic 或 probit 模型,但系数可由观测数据通过齐次分位数过程(homotopy quantile process) 识别。这个设定是保持结果回归 model-free 但要求缺失机制模型正确
  • 假设 A2 (倾向得分不与协变量局域结构强交互)\( \pi(Y, \mathbf{X}) \)\( \mathbf{X} \) 上是光滑的,或者有界远离 0 和 1(即 positivity)。这确保加权权重的方差可控。
  • 假设 A3 (结果回归的非参数性):条件密度 \( f(y|\mathbf{x}) \) 仅需满足通常的光滑性(Lipschitz、有光滑核、有界二阶导数等),不需要参数形式假设。这是 model-free on outcome regression 的关键。
  • 相比已有文献(如 Lei et al., 2018 假设完全观测数据;Yang et al., 2022 假设 MAR),本文放宽了对结果回归的假设但强化了对缺失机制的假设(已知形式且一致可估计)。

主要结果

定理 1(偏差调整半参数条件密度估计量的一致性):设 \( \hat{f}_n(y|\mathbf{x}) \) 为本文发展的条件密度估计量(通过拟合齐次分位数过程 + 倾向得分偏差修正构造)。若倾向得分估计 \( \hat{\pi} \) 以速率 \( o_p(n^{-1/4}) \) 一致,则:

\[\sup_{y} |\hat{f}_n(y|\mathbf{x}) - f(y|\mathbf{x})| = o_p(1)\]
(一致一致性)。直觉:分位数过程拟合了观测数据的条件分布,但观测数据的分布是原分布经倾向得分扭曲的结果。偏差修正项 \(\hat{\pi}\) 反向扭曲回原密度。关键在于分位数过程的闭环性质,使得在同一套分位数下,修正自然 converge。

定理 2(共形框架的边际及局部覆盖保证): (a) 边际覆盖:对于任何新个体 \( n+1 \),在训练+测试的联合 i.i.d. 与倾向得分一致估计下,构造的预测集 \( C(\mathbf{X}_{n+1}) \) 满足:

\[\mathbb{P}(Y_{n+1} \in C(\mathbf{X}_{n+1})) \geq 1 - \alpha + o(1)\]
(b) 局部覆盖:对任何 \( \mathbf{x} \in \mathcal{X} \) 及核函数 \( K_h \),令 \( w_i(\mathbf{x}) = K_h(\mathbf{X}_i - \mathbf{x}) \) 为局部权重。那么预测集的局部覆盖(注意此局部覆盖是用核加权定义的)满足类似结论。这比传统的共形预测更强,它表明预测集在 \( \mathbf{x} \) 附近的条件覆盖也渐近受控。

定理 3(渐近最优区间长度):若条件密度 \( f(y|\mathbf{x}) \) 的 highest \( \alpha \)-level set(最高密度区域)长度为 \( L(\mathbf{x}) \),则本文构造的 \( C(\mathbf{x}) \) 的 Lebesgue 测度满足:

\[\frac{|C(\mathbf{x})|}{L(\mathbf{x})} \to 1 \quad \text{in probability as } n \to \infty\]
技术难点:最优性要求预测集的形状恰好是密度水平集。这需要从拟合的分位数过程反推出密度等高线,并在共形校准中保持 shape 不变。本文通过将非符合性度量直接定义为“new point 落入密度估计 y-level set 的指示函数”来解决。这避免了区间形状的额外风险。

证明路线与技术技巧

整体路线(3-5 步逻辑主干):

  1. 第一步:识别与估计倾向得分与条件分布的分位数 从观测数据 \( (R_i=1) \) 入手。令 \( \tilde{Y} = Y \mid R=1 \) 的分布为 \( G(y|\mathbf{x}) \)。其与目标密度 \( f(y|\mathbf{x}) \) 的关系为:

    \[g(y|\mathbf{x}) = \frac{\pi(y,\mathbf{x}) f(y|\mathbf{x})}{\mathbb{P}(R=1|\mathbf{x})}\]
    其中 \( \mathbb{P}(R=1|\mathbf{x}) = \int \pi(y,\mathbf{x}) f(y|\mathbf{x}) dy \)。若 \( \pi \) 已知形式,则可从观测数据拟合 \( G \) 的分位数,再通过反解求得 \( F \) 的分位数。本文采用齐次分位数过程(homotopy quantile process):同时对所有分位水平 \( \tau \in (0,1) \) 拟合一个参数化分位数曲面,使得 \( \pi \) 的未知参数也集成在曲面中。这是结合了一个拟似然(quasi-likelihood)的拟合。

  2. 第二步:构造偏差调整的半参数条件密度估计 从齐次分位数过程输出 \( \hat{Q}(\tau | \mathbf{x}) \)(条件分位数函数),通过核平滑导数可以得到密度:

    \[\hat{f}_n(y|\mathbf{x}) = \frac{1}{h} \sum_{j=1}^J w_j \cdot K\left( \frac{y - \hat{Q}(\tau_j | \mathbf{x})}{h} \right)\]
    但这是基于观测数据的密度(即 \( g \)),是非齐次的。偏差调整项为:
    \[\tilde{f}_n(y|\mathbf{x}) = \frac{\hat{f}_n(y|\mathbf{x})}{\hat{\pi}(y, \mathbf{x})} \cdot \int \hat{\pi}(u, \mathbf{x}) \hat{f}_n(u|\mathbf{x}) du\]
    这就是逆转关系。作者证明这一逆运算在 \( \hat{\pi} \) 一致时cancels掉倾向得分的扭曲。

  3. 第三步:构造局部共形框架 对目标点 \( \mathbf{x} \),通过核函数 \( K_h \) 构建局部加权样本。定义非符合性度量为:

    \[s_i(\mathbf{x}) = \inf_{y: \tilde{f}_n(y|\mathbf{X}_i) > \text{threshold}} |Y_i - y|\]
    即“新个体落入 highest conditional density set 的指示”。然后计算加权的 roc-like 阈值。

  4. 第四步:证明条件覆盖用 Egorov 定理 + local U-statistic 收敛 这是技术难点。作者将局部 nonconformity scores 的经验分布视为一个加权 U-statistic,然后证明在核带宽 \( h \to 0 \)\( nh^d \to \infty \) 下,局部经验分布一致收敛于真实条件分布的分位数。这借鉴了 Donsker 类与核估计的经典理论。

  5. 第五步:最优性通过密度水平集的几乎处处逼近证明

  6. 由于 \( \tilde{f}_n(y|\mathbf{x}) \) 一致收敛于 \( f(y|\mathbf{x}) \), its 等高线的形状 \( \{y: \tilde{f}_n(y|\mathbf{x}) > \lambda_n\} \) 几乎处处跟着真实 \( \{y: f(y|\mathbf{x}) > \lambda\} \) 走。再用 Lebesgue 测度的一系列连续性论证完成收敛。

关键跳跃点: - 跳跃点 1(识别):从观测的分位数 \( \hat{Q}_g(\tau|\mathbf{x}) \) 如何无偏反解出分位数 \( Q_f(\tau|\mathbf{x}) \),而不需要迭代运算?答案依赖于在齐次分位数过程的框架下,将 \( \pi \) 参数的估计与分位数的估计同时做(joint estimation);一旦 \( \hat{\pi} \) 收敛,反解就有了解析解。 - 跳跃点 2(共形校准中的非可交换性):即使局部化,由于倾向得分加权,数据严格来说不是 i.i.d.,所以经典的共形秩均匀性不成立。作者使用加权秩(weighted rank)技巧,将每个样本的贡献缩放为 \( w_i / \sum w_j \),然后证明加权秩在新、旧数据间仍具有近似均匀分布(大数定律角度的渐进均匀)。

技术技巧点名: - 齐次分位数过程(Homotopy Quantile Process, HQP):本文大的技术亮点。传统的分位数回归估计每个分位点独立。HQP 同时对全分位域拟合一个平滑曲面,其参数空间还包含了倾向得分参数,使得识别变成一个联立方程问题的光滑解。 - 局部线性核估计 + 偏差修正:用于条件密度估计的构造,类似 local linear kernel density estimator 但加了逆概率权重。 - 加权经验过程(Weighted empirical process):证明局部覆盖时,写出核加权经验 distribution function 的 DKW 型不等式。 - 连续映射定理与 Slutsky's lemma:在证明最优长度时,利用密度估计的相合性将水平集映射成一维 Lebesgue 测度的函数。

真实例子与应用

数据:HIV-CD4 数据集(来自 Multicenter AIDS Cohort Study)。共有 365 名男性患者,记录多次 CD4 细胞计数作为 HIV 免疫状态的标志。缺失部分是由于随访失败(dropout),且怀疑缺失机制非可忽略——病情加重(CD4 下降)的人更可能退出

应用方式: - 将协变量定义为时间(T)、年龄、CD4 基线水平等共 4-6 维(通过预处理降维或选择重要变量)。 - 响应变量 \( Y \) 是未来某一时间点的 CD4 计数。 - 假设缺失机制是 logistic 形式:\( \text{logit}(\pi) = \alpha_0 + \alpha_1 Y + \alpha_2^T \mathbf{X} \),即已知形式但系数未知。通过齐次分位数过程得到系数估计。 - 预测集:对每个新患者,给定其基线协变量,构造 90% highest conditional density prediction interval。 - 结果:与三个 baseline 对比——(a) 无缺失加权下的传统共形预测;(b) 仅用完整观测的传统共形预测;(c) MAR 假设下的共形预测(Yang 的方法)。数值结果为: - 本文方法(LCP-NIM)的边际覆盖率达到 89.8%(接近名义 90%); - 传统完整观测法与无缺失加权法覆盖率显著偏低(~80%),显示忽略 NIM 会导致欠覆盖; - MAR 方法覆盖率 ~86%,稍低且有明显尾部偏倚(对 CD4<500 的患者覆盖差)。 - 区间长度:LCP-NIM 区间长度比原始无缺失加权法短约 10%(意味着效率提高),接近理论最优。 - 这个例子想说明什么:验证 (1) 本文方法相较于忽略缺失或设定错误缺失类型的 baseline 的确能 recover nominal coverage;(2) 条件密度预测集针对非可忽略缺失有实际收益;(3) 不牺牲区间长度。

🔎 结论是否比证明窄

作者在 Abstract 和引言中声称“保证局部与渐近条件覆盖”,这比定理 2(b) 中的局部覆盖(基于核加权)更强。严格来说,定理 2(b) 只证明了局部覆盖是对核函数平滑定义的,不是每个点 x 的条件覆盖。 这是结论比证明窄之处:真正的全覆盖(pointwise conditional coverage)在缺失数据设定下是否可能,没有正式回答,仅有 asymptotic 的“局域恢复”正 是典型环境——类似于 Lei et al.(2018) 中通过 split conformal 达到的渐近条件覆盖。但作者在第四节末提到“even though our method achieves local coverage, full conditional coverage remains an open problem”,这等于承认了那条窄缝。

此外,关于最优区间长度的理论(定理 3)仅针对密度估计量本身的最优性,包含共形校准后的 real coverage 可能引入的额外冗余。作者只完成了“密度水平集 shape 收敛”,但未证明覆盖率的轻微下移是否始终在 \( \alpha + o(1) \) 内(这更像是经典的共形校准的财产)。


四、开放问题(点到为止,扎根具体语句)

  1. 倾向得分估计的一致率对覆盖的影响:作者在定理 1 中假设 \( \hat{\pi} \)\( o_p(n^{-1/4}) \) 速率一致收敛。“能否放松到更慢的率,例如半参数估计的柔 rate?”(根植于本文第 4 页:“We require a consistently estimated propensity score... the convergence rate can be slower than standard \( n^{-1/2} \) but must be faster than \( n^{-1/4} \)”)。这是一个清晰的 open question:如果倾向得分只能以 \( n^{-1/3} \) 甚至 \( n^{-1/2} \) on slower rate 估计,共形覆盖会退化成什么?

  2. 条件覆盖的完全点状保证:如第三节末尾提到,作者仅证明局部(核加权)覆盖,“是否能实现对每一个 \( \mathbf{x} \) 的严格条件覆盖?”(根植于论文第 6 页:“the local coverage property does not imply pointwise conditional coverage, which remains an open problem”)。这直接连接到共形预测的基本 impossibility 定理(Foygel Barber et al., 2021)。

  3. 预测集形式的选择——不限于最高密度集:作者构建的是最高条件密度预测集。但在 multimodal 分布下,预测集可能非凸。“如何推广构造到任意形状的预测集,同时保持长度最优性与覆盖 property?”(根植于第 7 页的讨论:“The HCDS construction is natural but other forms such as union of intervals may be more interpretable”)。

  4. 倾向得分模型错误设定下的稳健性:本文要求缺失机制模型(\( \pi \) 的形式)正确。“如果缺失机制模型被错误指定,本法将如何表现?——是否存在某种双重稳健的形式(如 doubly robust conformal prediction)?”(根植于第 8 页末:“Our method relies on correct specification of the missingness model; further investigation into misspecification effects is warranted”)。

可顺带提醒:在阅读同子领域内近期约 5 篇相关文章(特别是关于 NIM + conformal prediction 的后续工作)前,这个问题 2 目前共识性最强(确实是 gap),而问题 1 和 4 则有文献正在争论。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论