Conformal Inference for Missing Data Under Multiple Robust Learning¶

作者: Wenlu Tang, Hongni Wang, Xingcai Zhou, Bei Jiang, Linglong Kong
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在数据存在缺失（特别是 Missing at Random, MAR）的情况下，如何为机器学习模型构建具有有限样本、分布自由（distribution-free）覆盖保证的预测区间。当前该方向的成熟度处于"方法初步成型、理论正在跟进"的阶段：Conformal Prediction (CP) 在完整数据下的有限样本覆盖理论已相对成熟，但在缺失数据下，如何修正 CP 的校准步骤以恢复覆盖保证，且不依赖所有模型均正确设定的强假设，是当前的前沿焦点。

发展脉络： - 奠基工作：Conformal prediction 的奠基由 Vovk et al. (2005) 完成，提供了完整数据下有限样本边际覆盖的分布自由保证；随后 Lei et al. (2018) 引入 split conformal 与 conditional conformal，将 CP 与现代机器学习结合，使得高维特征下的条件覆盖有了可操作的框架。 - 主要进展（缺失数据下的 CP）：将 CP 推广到缺失数据是近期的进展。作者在 intro 中点名的核心工作是 Lei & Candes (2021) 与 Nair et al. (2022)，它们处理了 censoring 与 missing data 下的 CP，但往往依赖单一模型（如 propensity score model）的正确设定，一旦该模型误设，覆盖保证即崩溃。 - 当前 frontier（多重稳健性）：在因果推断与半参数估计领域，多重稳健估计已有深厚积累（Robins et al. 2001; Han & Wang 2014; Tan 2006; Smucler et al. 2019）。作者指出，当前 frontier 是将这种"即使部分模型误设仍保分布一致性"的多重稳健思想引入 CP 的校准步骤。本文即定位于此：填补"缺失数据下分布自由预测 + 多重稳健分布校准"的空白。

子线索聚类：被引文献大致落在三条子线索上： 1. Conformal Prediction 基础与条件覆盖：Vovk et al. (2005); Lei et al. (2018)。这一簇在定义问题：什么是有限样本覆盖、split conformal 如何操作、条件覆盖的不可达性与近似方法。 2. 缺失 / 截断数据下的 CP：Lei & Candes (2021); Nair et al. (2022)。这一簇在尝试将 CP 推广到不完全数据，但依赖单一 nuisance model 的正确性，留下"模型误设即覆盖失效"的口子。 3. 半参数多重稳健估计：Robins et al. (2001); Han & Wang (2014); Tan (2006); Smucler et al. (2019)。这一簇在因果与半参数理论中已经解决了"多模型任一正确即保一致性"的问题，特别是 Han & Wang (2014) 与 Tan (2006) 提出的 empirical likelihood (EL) 重加权框架，为本文提供了核心工具。

这个方向在追问的核心问题： 1. 在 MAR 下，如何使 CP 的校准分布从 complete-case 的有偏分布恢复为全样本的无偏分布？ 2. 恢复分布校准时，如何避免对单一 nuisance model（如 propensity score 或 outcome model）的强依赖，使得部分模型误设下仍保覆盖？ 3. 在保证边际覆盖的前提下，能否进一步追求条件覆盖的近似有效性，并在区间长度上取得占优？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为"现有缺失数据下的 CP 方法依赖单一模型正确设定，缺乏稳健性"，从而让本文的 EL 重加权 + 多重稳健成为"显然的下一步"。 - 淡化或回避的竞争路线：作者未讨论基于 doubly robust moment condition 的直接估计路线（如基于 augmented inverse probability weighting, AIPW 的校准分数构造），而是直接锁定 EL 重加权路线。此外，intro 中未提及近年来在 high-dimensional missing data 下基于 debiased machine learning 的稳健推断路线（如 Chernozhukov et al. 2018 的 DML），这可能是一条被淡化的竞争路线。 - 明显该被引却未出现的：在讨论 empirical likelihood 用于多重稳健时，未引用近年来将 EL 与高维/机器学习结合的工作（如 Newey & Smith 2004 的 EL 渐近理论，或高维 EL 的最新进展）；在讨论 conformal 条件覆盖时，未引用 Romano et al. (2019) 的 conditional conformal 核心工作。这些是研究者可以去查的潜在缺口。

张力：未见明显对立引用。各路线在各自设定下成立：CP 在完整数据下保证覆盖；单一模型修正 CP 在模型正确时保证覆盖；多重稳健 EL 在部分模型正确时保证一致性。它们是递进的包容关系，而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号与指标：
\(n\)：样本量。
\(d\)：协变量维数。
\(X \in \mathbb{R}^d\)：特征向量（可观测）。
\(Y \in \mathbb{R}\)：响应变量（部分可观测）。
\(R \in \{0, 1\}\)：缺失指示变量，\(R=1\) 表示 \(Y\) 被观测到，\(R=0\) 表示 \(Y\) 缺失。
\(\alpha\)：目标覆盖水平（如 0.9）。
\(q_{1-\alpha}\)：校准分数在目标分布下的 \(1-\alpha\) 分位数。
\(\hat{q}_{1-\alpha}\)：基于校准集估计的分位数。
参数 / estimand：
目标不是估计单一参数，而是构造预测区间 \(\hat{C}(X)\)，使得 \(P(Y \in \hat{C}(X)) \ge 1-\alpha\)（边际覆盖）或在给定 \(X\) 下条件覆盖近似成立。
潜在 / 不可观测量：
当 \(R=0\) 时，\(Y\) 的真实值是潜在量，永远不可观测。我们想要的是 \(Y\) 在全样本（包括 \(R=0\) 者）下的分布，但只能看到 \(R=1\) 者的 \(Y\)。
模型与数据生成机制：
MAR 假设：\(R \perp Y \mid X\)。即给定特征 \(X\) 后，缺失与否与真实响应无关。
Working models：
- \(\hat{\pi}(X)\)：propensity score 的 working model，估计 \(P(R=1 \mid X)\)。
- \(\hat{m}(X)\)：outcome regression 的 working model，估计 \(E[Y \mid X, R=1]\)。
- \(\hat{\mu}(X)\)：另一个辅助 working model（如 \(E[Y \mid X]\) 的边际均值模型，具体形式视多重稳健设定而定）。
这些 working model 可能误设，但只要其中至少一个正确，方法仍保有效性。
可观测数据：
训练集 \(\mathcal{I}_1\)：用于拟合 working models \(\hat{\pi}, \hat{m}, \hat{\mu}\) 与基础预测器 \(\hat{f}(X)\)。
校准集 \(\mathcal{I}_2\)：用于计算 conformal scores 并校准分位数。在校准集中，我们只观测到 \((X_i, R_i, R_i Y_i)\)。
测试集：只有 \(X\)，需要给出 \(\hat{C}(X)\)。

第二步：讲最小内核

剥掉所有高维、一般分布与多重模型的复杂性，考虑最简特例：\(X\) 为一维（\(d=1\)），\(Y\) 连续，只有 propensity score model \(\hat{\pi}(X)\) 与 outcome model \(\hat{m}(X)\) 两个 working model，且 conformal score 取最简单的绝对残差 \(V_i = |Y_i - \hat{f}(X_i)|\)。

在这个特例下，核心数学困难与破法如下：

问题退化成什么：在完整数据下，split conformal 只需在校准集上计算 scores \(V_i\)，取其经验分位数 \(\hat{q}_{1-\alpha}\) 即可保证覆盖。但在 MAR 下，校准集上的 \(V_i\) 只在 \(R_i=1\) 时可见。由于 \(R\) 依赖 \(X\)（如 \(X\) 大者更易缺失），complete-case scores \(V_i \mid R_i=1\) 的分布偏向低残差样本，其分位数 \(q^{cc}_{1-\alpha}\) 低于全样本分位数 \(q_{1-\alpha}\)。直接用 complete-case 分位数会导致覆盖不足。
最小内核：EL 重加权如何破：我们需要对 complete-case scores 进行重加权，使得重加权后的经验分布逼近全样本分布。在双重稳健设定下，EL 的目标函数构造为：
\[\max_{p_1, \ldots, p_{n_2}} \sum_{i \in \mathcal{I}_2, R_i=1} \log(p_i) \quad \text{subject to} \quad \sum_{i: R_i=1} p_i \hat{\pi}(X_i) = 1, \quad \sum_{i: R_i=1} p_i (1 - \hat{\pi}(X_i)) \hat{m}(X_i) / \hat{\mu}(X_i) = \text{const}\]
（此处约束的具体形式视 EL 的 moment conditions 而定，核心是让重加权后的 complete-case 样本在 propensity 与 outcome moment 上匹配全样本特征。）

解出 EL 概率 \(\hat{p}_i\) 后，重加权分位数为：

\[\hat{q}_{1-\alpha} = \inf \left\{ v : \sum_{i: R_i=1} \hat{p}_i \mathbb{1}(V_i \le v) \ge 1-\alpha \right\}\]

为什么多重稳健成立（最简直觉）：如果 \(\hat{\pi}\) 正确，重加权 \(\hat{p}_i \propto 1/\hat{\pi}(X_i)\) 直接恢复了全样本分布（IPW 思想）；如果 \(\hat{\pi}\) 误设但 \(\hat{m}\) 正确，EL 的第二类约束通过 outcome regression 的 moment 修正了分布偏差。EL 的凸优化性质保证了只要约束中包含至少一个正确模型对应的 moment，解出的 \(\hat{p}_i\) 就能使重加权分布渐近一致。这就是"双重校准"的最小内核：用 EL 的两类 moment 约束同时校准 complete-case 分布，任一正确即保分布恢复，从而保覆盖。

三、这篇论文做了什么¶

三句话： ① 研究了 MAR 数据下 conformal prediction 的预测区间构造问题，目标是恢复边际与条件覆盖保证。 ② 核心方法是将 split conformal calibration 与 multiple robust empirical-likelihood (EL) 重加权结合，对 complete-case conformal scores 进行双重校准。 ③ 主要结论是：在至少一个 working model 正确时，CM-MRL 估计量渐近恢复全样本校准分布，提供可靠的边际与条件覆盖，并在区间长度上对单一模型方法占优。

关键设定与假设： - MAR 假设：\(R \perp Y \mid X\)。这是识别的基础，相比 MNAR (Missing Not at Random) 设定，MAR 是可处理的标准假设，本文未尝试放宽至 MNAR。 - Positivity 假设：\(P(R=1 \mid X) \ge \eta > 0\) 几乎处处成立。这是保证 complete-case 有足够信息重加权的基础，与因果推断中的 positivity / overlap 假设一致。 - Working models 误设设定：允许 \(\hat{\pi}, \hat{m}, \hat{\mu}\) 中部分误设，但至少一个正确。这是多重稳健的核心，相比 Lei & Candes (2021) 等依赖单一模型正确设定的路线，放宽了 nuisance model 的要求。 - Split conformal 设定：数据分为训练集、校准集、测试集，校准集上只使用 complete cases 进行 EL 重加权。这是标准 CP 的操作框架，未做交叉拟合的变体。

主要结果： 1. 渐近分布一致性（Theorem 1 类）：在至少一个 working model 正确且 EL 约束满足条件下，CM-MRL 的重加权经验分布函数 \(\hat{F}(v) = \sum_{i: R_i=1} \hat{p}_i \mathbb{1}(V_i \le v)\) 在 \(n \to \infty\) 时渐近收敛于全样本真实分布 \(F(v) = P(V \le v)\)。这解决了 complete-case 分布有偏的核心问题。 - 直觉：EL 重加权相当于在 complete-case 子集上构造了一个"虚拟全样本分布"，只要 moment 约束包含真实模型，虚拟分布渐近等于真实分布。 - 必要条件：working models 中至少一个一致，EL 解存在且唯一，positivity 成立。 - 解决的技术难点：在 missing data 下，经验分布函数的收敛不再是标准 Glivenko-Cantelli 定理，因为样本有偏且重加权概率 \(\hat{p}_i\) 依赖估计的 nuisance models。需要证明 \(\hat{p}_i\) 的估计误差不破坏分布函数的收敛。

覆盖保证（Theorem 2 类）：基于渐近分布一致性，CM-MRL 构造的预测区间 \(\hat{C}(X) = [\hat{f}(X) - \hat{q}_{1-\alpha}, \hat{f}(X) + \hat{q}_{1-\alpha}]\)（以绝对残差 score 为例）满足：
边际覆盖：\(\lim_{n \to \infty} P(Y \in \hat{C}(X)) \ge 1-\alpha\)。
条件覆盖近似：在局部条件下，覆盖趋近于 \(1-\alpha\)。
解决的技术难点：从分布一致性到覆盖保证的跨越，需要控制分位数估计的渐近波动，特别是在重加权分布下分位数的收敛速率。
区间长度占优（Theorem 3 类）：在多重稳健成立时，CM-MRL 的预测区间长度渐近不劣于（且通常优于）仅依赖单一正确模型的 IPW 重加权方法。
直觉：EL 重加权利用了更多 moment 信息，即使部分模型误设，也能更有效地校准分布，从而减少分位数估计的方差，缩短区间长度。

证明路线与技术技巧： - 整体路线： 1. 建立 EL 重加权的渐近性质：证明在 working models 估计误差下，EL 概率 \(\hat{p}_i\) 收敛于真实重加权概率 \(p_i^*\)，且误差速率可控。 2. 证明重加权经验分布的收敛：利用 \(\hat{p}_i\) 的性质，通过 empirical process theory 证明 \(\hat{F}(v)\) 在 sup-norm 下收敛于 \(F(v)\)。 3. 从分布收敛推导分位数收敛：利用分布函数的单调性与收敛性，推导 \(\hat{q}_{1-\alpha}\) 收敛于 \(q_{1-\alpha}\)。 4. 从分位数收敛推导覆盖保证：将分位数收敛代入 conformal prediction 的覆盖公式，得到边际与条件覆盖的渐近保证。 5. 区间长度占优：比较 CM-MRL 与单一模型方法在分位数估计的渐近方差，利用 EL 的信息效率性质证明占优。

关键跳跃点：
从 \(\hat{p}_i\) 估计误差到 \(\hat{F}(v)\) 收敛的跳跃：这是最吃功夫的引理。难点在于 \(\hat{p}_i\) 是 EL 的非线性优化解，其误差与 nuisance models 的误差耦合，且 \(\hat{F}(v)\) 是 \(\hat{p}_i\) 与 \(\mathbb{1}(V_i \le v)\) 的乘积和，需要控制两者的交互误差。作者通过 EL 的凸优化性质与 Taylor 展开，将 \(\hat{p}_i\) 的误差分解为 nuisance models 误差的线性组合，从而绕过非线性耦合的困难。
技术技巧点名：
Empirical process theory：用于证明重加权经验分布函数 \(\sup_v |\hat{F}(v) - F(v)|\) 的收敛，处理了重加权概率依赖估计值的情况（非标准 i.i.d. 经验过程）。
Empirical likelihood (EL) 凸优化与 Taylor 展开：用于解耦 \(\hat{p}_i\) 的估计误差与 nuisance models 误差，是多重稳健性证明的核心工具。
Donsker class / 测度集中：用于控制 nuisance models 估计误差在经验过程中的传播，保证分布函数收敛的速率。

真实例子与应用： - 用的什么数据 / 场景：论文包含数值实验（模拟数据与半真实数据），未提及全规模真实数据应用。模拟实验设定了 MAR 缺失机制，部分 working model 误设的场景。 - 怎么把本文方法用上去：在模拟数据上拟合 \(\hat{\pi}, \hat{m}, \hat{\mu}\)（部分故意误设），计算 conformal scores，用 CM-MRL 的 EL 重加权校准分位数，构造预测区间。 - 得到什么结果：在单一模型误设时，IPW 方法覆盖不足，CM-MRL 仍保覆盖；在所有模型正确时，CM-MRL 区间长度更短。 - 这个例子想说明什么：验证多重稳健性在覆盖保证上的实际效果，展示相对单一模型 baseline (IPW) 的区间长度占优。

🔎 结论是否比证明窄： - 论文在定理中严格证明了渐近覆盖保证（\(\lim_{n \to \infty}\)），但在 abstract 与 intro 中泛泛 claim 了"reliable coverage for our prediction intervals, both marginally and conditionally"，未强调这是渐近保证而非有限样本保证。Conformal prediction 的核心吸引力本是有限样本覆盖，本文的覆盖保证在渐近层面，这一点在 framing 中被淡化。研究者需核验：定理是否在有限样本下给出任何显式界，还是纯渐近结论。

四、开放问题（点到为止，扎根具体语句）¶

有限样本覆盖保证的缺失：本文定理给出的是渐近覆盖保证（\(\lim_{n \to \infty} P(Y \in \hat{C}(X)) \ge 1-\alpha\)），但 conformal prediction 的核心优势是有限样本分布自由覆盖。能否在 CM-MRL 的 EL 重加权下，给出有限样本的覆盖界（即使带常数或高阶余项）？扎根于 abstract 中"reliable coverage"的 claim 与定理的渐近陈述之间的落差。
MNAR (Missing Not at Random) 下的推广：本文依赖 MAR 假设 (\(R \perp Y \mid X\))，但实际缺失常与未观测的 \(Y\) 本身相关。能否在 MNAR 下，利用 sensitivity analysis 或额外辅助变量（如 proxy / instrumental variable）构造类似的多重稳健 conformal 校准？扎根于 intro 中对 MAR 的设定与因果推断中 Proximal causal inference 对 MNAR 的处理路线之间的空白。
高维 working models 下的 EL 计算与理论：本文的 EL 重加权在理论上假设 working models 的估计误差速率可控，但在高维设定下（\(d\) 大于 \(n\) 或机器学习黑箱模型），EL 的凸优化约束可能不唯一或计算不可行，且 nuisance models 的收敛速率需满足 Donsker 条件。能否将 EL 与 cross-fitting / debiased ML 结合，放宽 Donsker 条件并保证高维下的计算可行性？扎根于证明中 empirical process theory 对 Donsker class 的依赖与当前高维因果推断中 DML 路线的对比。

Maintained by 陈星宇 · Homepage · Source on GitHub

Conformal Inference for Missing Data Under Multiple Robust Learning¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论