Conformal Inference for Missing Data Under Multiple Robust Learning¶
作者: Wenlu Tang, Hongni Wang, Xingcai Zhou, Bei Jiang, Linglong Kong
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在数据存在缺失(特别是 Missing at Random, MAR)的情况下,如何为机器学习模型构建具有有限样本、分布自由(distribution-free)覆盖保证的预测区间。当前该方向的成熟度处于"方法初步成型、理论正在跟进"的阶段:Conformal Prediction (CP) 在完整数据下的有限样本覆盖理论已相对成熟,但在缺失数据下,如何修正 CP 的校准步骤以恢复覆盖保证,且不依赖所有模型均正确设定的强假设,是当前的前沿焦点。
发展脉络: - 奠基工作:Conformal prediction 的奠基由 Vovk et al. (2005) 完成,提供了完整数据下有限样本边际覆盖的分布自由保证;随后 Lei et al. (2018) 引入 split conformal 与 conditional conformal,将 CP 与现代机器学习结合,使得高维特征下的条件覆盖有了可操作的框架。 - 主要进展(缺失数据下的 CP):将 CP 推广到缺失数据是近期的进展。作者在 intro 中点名的核心工作是 Lei & Candes (2021) 与 Nair et al. (2022),它们处理了 censoring 与 missing data 下的 CP,但往往依赖单一模型(如 propensity score model)的正确设定,一旦该模型误设,覆盖保证即崩溃。 - 当前 frontier(多重稳健性):在因果推断与半参数估计领域,多重稳健估计已有深厚积累(Robins et al. 2001; Han & Wang 2014; Tan 2006; Smucler et al. 2019)。作者指出,当前 frontier 是将这种"即使部分模型误设仍保分布一致性"的多重稳健思想引入 CP 的校准步骤。本文即定位于此:填补"缺失数据下分布自由预测 + 多重稳健分布校准"的空白。
子线索聚类: 被引文献大致落在三条子线索上: 1. Conformal Prediction 基础与条件覆盖:Vovk et al. (2005); Lei et al. (2018)。这一簇在定义问题:什么是有限样本覆盖、split conformal 如何操作、条件覆盖的不可达性与近似方法。 2. 缺失 / 截断数据下的 CP:Lei & Candes (2021); Nair et al. (2022)。这一簇在尝试将 CP 推广到不完全数据,但依赖单一 nuisance model 的正确性,留下"模型误设即覆盖失效"的口子。 3. 半参数多重稳健估计:Robins et al. (2001); Han & Wang (2014); Tan (2006); Smucler et al. (2019)。这一簇在因果与半参数理论中已经解决了"多模型任一正确即保一致性"的问题,特别是 Han & Wang (2014) 与 Tan (2006) 提出的 empirical likelihood (EL) 重加权框架,为本文提供了核心工具。
这个方向在追问的核心问题: 1. 在 MAR 下,如何使 CP 的校准分布从 complete-case 的有偏分布恢复为全样本的无偏分布? 2. 恢复分布校准时,如何避免对单一 nuisance model(如 propensity score 或 outcome model)的强依赖,使得部分模型误设下仍保覆盖? 3. 在保证边际覆盖的前提下,能否进一步追求条件覆盖的近似有效性,并在区间长度上取得占优?
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为"现有缺失数据下的 CP 方法依赖单一模型正确设定,缺乏稳健性",从而让本文的 EL 重加权 + 多重稳健成为"显然的下一步"。 - 淡化或回避的竞争路线:作者未讨论基于 doubly robust moment condition 的直接估计路线(如基于 augmented inverse probability weighting, AIPW 的校准分数构造),而是直接锁定 EL 重加权路线。此外,intro 中未提及近年来在 high-dimensional missing data 下基于 debiased machine learning 的稳健推断路线(如 Chernozhukov et al. 2018 的 DML),这可能是一条被淡化的竞争路线。 - 明显该被引却未出现的:在讨论 empirical likelihood 用于多重稳健时,未引用近年来将 EL 与高维/机器学习结合的工作(如 Newey & Smith 2004 的 EL 渐近理论,或高维 EL 的最新进展);在讨论 conformal 条件覆盖时,未引用 Romano et al. (2019) 的 conditional conformal 核心工作。这些是研究者可以去查的潜在缺口。
张力: 未见明显对立引用。各路线在各自设定下成立:CP 在完整数据下保证覆盖;单一模型修正 CP 在模型正确时保证覆盖;多重稳健 EL 在部分模型正确时保证一致性。它们是递进的包容关系,而非矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 符号与指标:
- \(n\):样本量。
- \(d\):协变量维数。
- \(X \in \mathbb{R}^d\):特征向量(可观测)。
- \(Y \in \mathbb{R}\):响应变量(部分可观测)。
- \(R \in \{0, 1\}\):缺失指示变量,\(R=1\) 表示 \(Y\) 被观测到,\(R=0\) 表示 \(Y\) 缺失。
- \(\alpha\):目标覆盖水平(如 0.9)。
- \(q_{1-\alpha}\):校准分数在目标分布下的 \(1-\alpha\) 分位数。
-
\(\hat{q}_{1-\alpha}\):基于校准集估计的分位数。
-
参数 / estimand:
-
目标不是估计单一参数,而是构造预测区间 \(\hat{C}(X)\),使得 \(P(Y \in \hat{C}(X)) \ge 1-\alpha\)(边际覆盖)或在给定 \(X\) 下条件覆盖近似成立。
-
潜在 / 不可观测量:
-
当 \(R=0\) 时,\(Y\) 的真实值是潜在量,永远不可观测。我们想要的是 \(Y\) 在全样本(包括 \(R=0\) 者)下的分布,但只能看到 \(R=1\) 者的 \(Y\)。
-
模型与数据生成机制:
- MAR 假设:\(R \perp Y \mid X\)。即给定特征 \(X\) 后,缺失与否与真实响应无关。
- Working models:
- \(\hat{\pi}(X)\):propensity score 的 working model,估计 \(P(R=1 \mid X)\)。
- \(\hat{m}(X)\):outcome regression 的 working model,估计 \(E[Y \mid X, R=1]\)。
- \(\hat{\mu}(X)\):另一个辅助 working model(如 \(E[Y \mid X]\) 的边际均值模型,具体形式视多重稳健设定而定)。
-
这些 working model 可能误设,但只要其中至少一个正确,方法仍保有效性。
-
可观测数据:
- 训练集 \(\mathcal{I}_1\):用于拟合 working models \(\hat{\pi}, \hat{m}, \hat{\mu}\) 与基础预测器 \(\hat{f}(X)\)。
- 校准集 \(\mathcal{I}_2\):用于计算 conformal scores 并校准分位数。在校准集中,我们只观测到 \((X_i, R_i, R_i Y_i)\)。
- 测试集:只有 \(X\),需要给出 \(\hat{C}(X)\)。
第二步:讲最小内核
剥掉所有高维、一般分布与多重模型的复杂性,考虑最简特例:\(X\) 为一维(\(d=1\)),\(Y\) 连续,只有 propensity score model \(\hat{\pi}(X)\) 与 outcome model \(\hat{m}(X)\) 两个 working model,且 conformal score 取最简单的绝对残差 \(V_i = |Y_i - \hat{f}(X_i)|\)。
在这个特例下,核心数学困难与破法如下:
-
问题退化成什么: 在完整数据下,split conformal 只需在校准集上计算 scores \(V_i\),取其经验分位数 \(\hat{q}_{1-\alpha}\) 即可保证覆盖。但在 MAR 下,校准集上的 \(V_i\) 只在 \(R_i=1\) 时可见。由于 \(R\) 依赖 \(X\)(如 \(X\) 大者更易缺失),complete-case scores \(V_i \mid R_i=1\) 的分布偏向低残差样本,其分位数 \(q^{cc}_{1-\alpha}\) 低于全样本分位数 \(q_{1-\alpha}\)。直接用 complete-case 分位数会导致覆盖不足。
-
最小内核:EL 重加权如何破: 我们需要对 complete-case scores 进行重加权,使得重加权后的经验分布逼近全样本分布。在双重稳健设定下,EL 的目标函数构造为:
\[\max_{p_1, \ldots, p_{n_2}} \sum_{i \in \mathcal{I}_2, R_i=1} \log(p_i) \quad \text{subject to} \quad \sum_{i: R_i=1} p_i \hat{\pi}(X_i) = 1, \quad \sum_{i: R_i=1} p_i (1 - \hat{\pi}(X_i)) \hat{m}(X_i) / \hat{\mu}(X_i) = \text{const}\](此处约束的具体形式视 EL 的 moment conditions 而定,核心是让重加权后的 complete-case 样本在 propensity 与 outcome moment 上匹配全样本特征。)
解出 EL 概率 \(\hat{p}_i\) 后,重加权分位数为:
- 为什么多重稳健成立(最简直觉): 如果 \(\hat{\pi}\) 正确,重加权 \(\hat{p}_i \propto 1/\hat{\pi}(X_i)\) 直接恢复了全样本分布(IPW 思想);如果 \(\hat{\pi}\) 误设但 \(\hat{m}\) 正确,EL 的第二类约束通过 outcome regression 的 moment 修正了分布偏差。EL 的凸优化性质保证了只要约束中包含至少一个正确模型对应的 moment,解出的 \(\hat{p}_i\) 就能使重加权分布渐近一致。这就是"双重校准"的最小内核:用 EL 的两类 moment 约束同时校准 complete-case 分布,任一正确即保分布恢复,从而保覆盖。
三、这篇论文做了什么¶
三句话: ① 研究了 MAR 数据下 conformal prediction 的预测区间构造问题,目标是恢复边际与条件覆盖保证。 ② 核心方法是将 split conformal calibration 与 multiple robust empirical-likelihood (EL) 重加权结合,对 complete-case conformal scores 进行双重校准。 ③ 主要结论是:在至少一个 working model 正确时,CM-MRL 估计量渐近恢复全样本校准分布,提供可靠的边际与条件覆盖,并在区间长度上对单一模型方法占优。
关键设定与假设: - MAR 假设:\(R \perp Y \mid X\)。这是识别的基础,相比 MNAR (Missing Not at Random) 设定,MAR 是可处理的标准假设,本文未尝试放宽至 MNAR。 - Positivity 假设:\(P(R=1 \mid X) \ge \eta > 0\) 几乎处处成立。这是保证 complete-case 有足够信息重加权的基础,与因果推断中的 positivity / overlap 假设一致。 - Working models 误设设定:允许 \(\hat{\pi}, \hat{m}, \hat{\mu}\) 中部分误设,但至少一个正确。这是多重稳健的核心,相比 Lei & Candes (2021) 等依赖单一模型正确设定的路线,放宽了 nuisance model 的要求。 - Split conformal 设定:数据分为训练集、校准集、测试集,校准集上只使用 complete cases 进行 EL 重加权。这是标准 CP 的操作框架,未做交叉拟合的变体。
主要结果: 1. 渐近分布一致性(Theorem 1 类):在至少一个 working model 正确且 EL 约束满足条件下,CM-MRL 的重加权经验分布函数 \(\hat{F}(v) = \sum_{i: R_i=1} \hat{p}_i \mathbb{1}(V_i \le v)\) 在 \(n \to \infty\) 时渐近收敛于全样本真实分布 \(F(v) = P(V \le v)\)。这解决了 complete-case 分布有偏的核心问题。 - 直觉:EL 重加权相当于在 complete-case 子集上构造了一个"虚拟全样本分布",只要 moment 约束包含真实模型,虚拟分布渐近等于真实分布。 - 必要条件:working models 中至少一个一致,EL 解存在且唯一,positivity 成立。 - 解决的技术难点:在 missing data 下,经验分布函数的收敛不再是标准 Glivenko-Cantelli 定理,因为样本有偏且重加权概率 \(\hat{p}_i\) 依赖估计的 nuisance models。需要证明 \(\hat{p}_i\) 的估计误差不破坏分布函数的收敛。
- 覆盖保证(Theorem 2 类):基于渐近分布一致性,CM-MRL 构造的预测区间 \(\hat{C}(X) = [\hat{f}(X) - \hat{q}_{1-\alpha}, \hat{f}(X) + \hat{q}_{1-\alpha}]\)(以绝对残差 score 为例)满足:
- 边际覆盖:\(\lim_{n \to \infty} P(Y \in \hat{C}(X)) \ge 1-\alpha\)。
- 条件覆盖近似:在局部条件下,覆盖趋近于 \(1-\alpha\)。
-
解决的技术难点:从分布一致性到覆盖保证的跨越,需要控制分位数估计的渐近波动,特别是在重加权分布下分位数的收敛速率。
-
区间长度占优(Theorem 3 类):在多重稳健成立时,CM-MRL 的预测区间长度渐近不劣于(且通常优于)仅依赖单一正确模型的 IPW 重加权方法。
- 直觉:EL 重加权利用了更多 moment 信息,即使部分模型误设,也能更有效地校准分布,从而减少分位数估计的方差,缩短区间长度。
证明路线与技术技巧: - 整体路线: 1. 建立 EL 重加权的渐近性质:证明在 working models 估计误差下,EL 概率 \(\hat{p}_i\) 收敛于真实重加权概率 \(p_i^*\),且误差速率可控。 2. 证明重加权经验分布的收敛:利用 \(\hat{p}_i\) 的性质,通过 empirical process theory 证明 \(\hat{F}(v)\) 在 sup-norm 下收敛于 \(F(v)\)。 3. 从分布收敛推导分位数收敛:利用分布函数的单调性与收敛性,推导 \(\hat{q}_{1-\alpha}\) 收敛于 \(q_{1-\alpha}\)。 4. 从分位数收敛推导覆盖保证:将分位数收敛代入 conformal prediction 的覆盖公式,得到边际与条件覆盖的渐近保证。 5. 区间长度占优:比较 CM-MRL 与单一模型方法在分位数估计的渐近方差,利用 EL 的信息效率性质证明占优。
- 关键跳跃点:
-
从 \(\hat{p}_i\) 估计误差到 \(\hat{F}(v)\) 收敛的跳跃:这是最吃功夫的引理。难点在于 \(\hat{p}_i\) 是 EL 的非线性优化解,其误差与 nuisance models 的误差耦合,且 \(\hat{F}(v)\) 是 \(\hat{p}_i\) 与 \(\mathbb{1}(V_i \le v)\) 的乘积和,需要控制两者的交互误差。作者通过 EL 的凸优化性质与 Taylor 展开,将 \(\hat{p}_i\) 的误差分解为 nuisance models 误差的线性组合,从而绕过非线性耦合的困难。
-
技术技巧点名:
- Empirical process theory:用于证明重加权经验分布函数 \(\sup_v |\hat{F}(v) - F(v)|\) 的收敛,处理了重加权概率依赖估计值的情况(非标准 i.i.d. 经验过程)。
- Empirical likelihood (EL) 凸优化与 Taylor 展开:用于解耦 \(\hat{p}_i\) 的估计误差与 nuisance models 误差,是多重稳健性证明的核心工具。
- Donsker class / 测度集中:用于控制 nuisance models 估计误差在经验过程中的传播,保证分布函数收敛的速率。
真实例子与应用: - 用的什么数据 / 场景:论文包含数值实验(模拟数据与半真实数据),未提及全规模真实数据应用。模拟实验设定了 MAR 缺失机制,部分 working model 误设的场景。 - 怎么把本文方法用上去:在模拟数据上拟合 \(\hat{\pi}, \hat{m}, \hat{\mu}\)(部分故意误设),计算 conformal scores,用 CM-MRL 的 EL 重加权校准分位数,构造预测区间。 - 得到什么结果:在单一模型误设时,IPW 方法覆盖不足,CM-MRL 仍保覆盖;在所有模型正确时,CM-MRL 区间长度更短。 - 这个例子想说明什么:验证多重稳健性在覆盖保证上的实际效果,展示相对单一模型 baseline (IPW) 的区间长度占优。
🔎 结论是否比证明窄: - 论文在定理中严格证明了渐近覆盖保证(\(\lim_{n \to \infty}\)),但在 abstract 与 intro 中泛泛 claim 了"reliable coverage for our prediction intervals, both marginally and conditionally",未强调这是渐近保证而非有限样本保证。Conformal prediction 的核心吸引力本是有限样本覆盖,本文的覆盖保证在渐近层面,这一点在 framing 中被淡化。研究者需核验:定理是否在有限样本下给出任何显式界,还是纯渐近结论。
四、开放问题(点到为止,扎根具体语句)¶
-
有限样本覆盖保证的缺失:本文定理给出的是渐近覆盖保证(\(\lim_{n \to \infty} P(Y \in \hat{C}(X)) \ge 1-\alpha\)),但 conformal prediction 的核心优势是有限样本分布自由覆盖。能否在 CM-MRL 的 EL 重加权下,给出有限样本的覆盖界(即使带常数或高阶余项)?扎根于 abstract 中"reliable coverage"的 claim 与定理的渐近陈述之间的落差。
-
MNAR (Missing Not at Random) 下的推广:本文依赖 MAR 假设 (\(R \perp Y \mid X\)),但实际缺失常与未观测的 \(Y\) 本身相关。能否在 MNAR 下,利用 sensitivity analysis 或额外辅助变量(如 proxy / instrumental variable)构造类似的多重稳健 conformal 校准?扎根于 intro 中对 MAR 的设定与因果推断中 Proximal causal inference 对 MNAR 的处理路线之间的空白。
-
高维 working models 下的 EL 计算与理论:本文的 EL 重加权在理论上假设 working models 的估计误差速率可控,但在高维设定下(\(d\) 大于 \(n\) 或机器学习黑箱模型),EL 的凸优化约束可能不唯一或计算不可行,且 nuisance models 的收敛速率需满足 Donsker 条件。能否将 EL 与 cross-fitting / debiased ML 结合,放宽 Donsker 条件并保证高维下的计算可行性?扎根于证明中 empirical process theory 对 Donsker class 的依赖与当前高维因果推断中 DML 路线的对比。
Maintained by 陈星宇 · Homepage · Source on GitHub