Sensitivity Analysis of Individual Treatment Effects: A Robust Conformal Inference Approach¶

讲者: Zhimei Ren
讨论人: Stefan Wager
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-08
主题: 因果推断
视频: https://youtu.be/aM3auY7kgSA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2111.12161 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告属于个体因果效应推断与敏感性分析的交叉方向。该方向的核心追问是：在观测研究中，能否为每个个体的处理效应（而非平均效应）提供可靠的不确定性量化——当常规的“无未观测混杂”假设不再成立时，这个任务就变得更加困难。

奠基与主流路线：
潜在结果框架下的个体效应（ITE）推断：Höfler (2005) 等指出 ITE 因缺失反事实而根本不可识别，因此早期文献主要集中在 ATE 或 CATE 的推断上（Rosenbaum & Rubin 1983, Rubin 2005）。
共形推断用于反事实预测：Lei & Candès (2020) 首先将共形推断（Vovk et al., 1999）引入 ITE 预测，在无混杂假设下构造覆盖个体效应本身的预测区间——但这一步仍需要强可忽略性。
敏感性分析中的边际模型：Tan (2006) 与 Zhao et al. (2018) 提出了边际 Γ-选择条件（marginal Γ-selection），通过一个通勤参数 Γ 驾驭未观测混杂导致的分布偏移，该条件比 Rosenbaum 的经典 Γ 条件更强（对于该方法来说更弱，见报告 [0:19:58-0:20:13]）。不过这些方法主要集中在 ATE 的区间估计，而不是个体效应的预测区间。
当前 frontier（这场报告的站位）：
此报告将上述两条线索——共形推断的反事实预测能力与边际敏感性模型的分布偏移控制能力——加以整合，提出了稳健共形推断（Robust Conformal Inference）框架，使得在未观测混杂到一定程度时，仍能给出覆盖 ITE 的预测区间，并通过 Γ-值（本期报告的核心输出，Γ-value）提供一种可解释的因果稳健性度量。
关键背景工作：报告直接基于 Lei & Candès (2020) 的无混杂共形 ITE 推断（视频 [0:06:29-0:07:14]），并将其扩展至有混杂情形。在方法创新上，报告也触及了 PAC 型条件保证（conditional on calibration data），超越了常见的边际均程保证。

综合判断：这条工作线将共形推断的灵活性（模型自由、有限样本覆盖保证）与敏感性分析的实用工具（通勤参数 Γ）结合，开了一个新方向——个体层面的、对未观测混杂鲁棒的预测区间。该方向在报告时（2022）是较新的，后续引用和扩展可见于因果推断/共形推断的交叉文献。

注：报告对应论文为 Jin, Ren & Candès (2021)，arXiv:2111.12161（已验证幻灯片与摘要）。转写中人名“Lei and Candès”对应 Lei & Candès (2020)；Tibshirani et al. (2019) 对应加权共形；Vovk et al. (1999) 为基础共形来源。

二、最小内核 / 一个最简例子¶

符号与设定：

可观测数据：(X_i, T_i, Y_i), i=1,...,n，其中：
X_i ∈ ℝ^d：观测协变量（无未观测混杂部分）
T_i ∈ {0,1}：处理指示
Y_i = Y_i(T_i)：基于 SUTVA 观测到的结果（若 T=1，观测 Y(1)；若 T=0，观测 Y(0)）
潜在不可观测量：(Y_i(1), Y_i(0), U_i)：
Y_i(1), Y_i(0)：潜在结果
U_i：未观测混杂（可有可无，若存在则同时影响 T 与 (Y(1),Y(0))）
目标（estimand）：对于新样本 n+1，构造区间 Ĉ(X_{n+1}) 使得：
\[P\left[ Y_{n+1}(1) - Y_{n+1}(0) \in Ĉ(X_{n+1}) \right] \ge 1 - \alpha\]
即使在未观测混杂存在下也成立。

最简特例：d=1（X 为单协变量），二值处理，只考虑处理组的一个样本（即要预测它的反事实 Y(0)）。

无混杂（强可忽略性）：
给定 X，处理分配独立于潜在结果。因此：
\[P_{X,Y(0)|T=1} \neq P_{X,Y(0)|T=0}\]
但只有协变量偏移：密度比 w(x) = dP_{X|T=0} / dP_{X|T=1} ∝ (1 - e(x)) / e(x)，其中 e(x)=P(T=1|X=x) 是倾向得分。
报告直接利用加权共形（Tibshirani et al., 2019）解决此协变量偏移——阈值选择基于 w(x) 加权的经验分位数。
有未观测混杂（边际 Γ-选择）：
存在 U 使得 (Y(0),Y(1)) ⊥ T | (X,U)，但真实分布不可识别。
边际 Γ-选择条件（Tan 2006）限制混杂强度：
\[\frac{1}{\Gamma} \le \frac{P(T=1|X=x,U=u) / P(T=0|X=x,U=u)}{P(T=1|X=x) / P(T=0|X=x)} \le \Gamma\]
这导致密度比 w(x,y) = dP_{X,Y(0)|T=1} / dP_{X,Y(0)|T=0} 不是可观测量，而是被上下界函数约束：
\[\ell(x) \le w(x,y) \le u(x)\]
其中 ℓ(x) 和 u(x) 仅依赖于 X，可由倾向得分估计。
稳健共形推断的核心思想：
既然不知道精确的 w，但知道它在 [ℓ(x), u(x)] 内，则阈值 v̂ 的选择需要保守化：对所有可能的权重取上确界，等价于一个简单的排序组合——将校准集 residuals V[1] ≤ ... ≤ V[n] 排序，取：
\[k̂^* = \min\left\{ k : \frac{\sum_{i=1}^k ℓ̂(X_{[i]})}{\sum_{i=1}^k ℓ̂(X_{[i]}) + \sum_{i=k+1}^n û(X_{[i]}) + û(X_{n+1})} \ge 1 - \alpha \right\}\]
这种做法相当于：对小的 residuals 使用下界（使其权重尽可能小，阻拦它们进入分位数计算），对大的 residuals 使用上界（使其权重尽可能大，推高分位数），从而得到最保守的覆盖率保证。
直觉：为了防止由于未知权重 w 导致的覆盖不足，我们假设最坏情况下每个 residual 的权重——小 residual 的权重被低估，大 residual 的权重被高估，从而迫使阈值选择更保守。

输出：最终的预测区间形如：

\[Ĉ(x) = \{ y : V(x,y) \le V_{k̂^*} \}\]

其中 V(x,y) 是任意非契合性分数（如残差的绝对值或 CQR 的符号距离）。

三、报告主体：讲者讲了什么¶

以下按照大致时间点记录讲者报告的核心内容（口语转写与幻灯片结合，不区分两者）。

第一部分：背景与动机 [0:01:03 - 0:07:14] - [0:01:29-0:02:25] 引入“处理是否有效”的应用问题（阿尔茨海默药、疫苗）。介绍潜在结果框架：每个个体有 Y(1)、Y(0)，但只观测到 Y(T)，SUTVA 成立。符号定义：(X_i, Y_i(0), Yi(1), T_i) i.i.d.，观测值为 (X_i, T_i, Y_i(T_i))。 - [0:02:29-0:03:32] 自然地，通常先关注 ATE，然后是 CATE (τ(x) = E[Y(1)-Y(0)|X=x])，但这不能回答个别患者的问题（即使 τ(x)=1，某个体仍可能有奇异响应）。因此转向 ITE 的预测区间（而非点估计），引用 Lei & Candès (2020) 的工作，该工作假设强可忽略性。 - [0:04:00-0:07:14] 核心问题：移除强可忽略性后如何可靠地推断 ITE？

第二部分：方法概览与反事实预测问题 [0:07:42 - 0:11:30] - [0:07:42-0:09:58] 概要：在未观测混杂下的反事实分布表征 → 稳健共形预测区间 → 通过假设检验序列得到 Γ-值。强调反事实预测是基本构建块：若只有一项结果缺失（如处理组的 Y(0)），归结为预测缺失的反事实；若两项均缺失（新患者），需 Bonferroni 校正两个区间。 - [0:10:31-0:11:30] 正式定义问题：训练分布 = P_{X,Y(1)|T=1}（可观测），目标分布 = P_{X,Y(1)|T=0}（不可观测）；密度比 w(x,y) = dP_{target}/dP_{train}。

第三部分：加权共形推理（无混杂情形）[0:11:30 - 0:17:00] - [0:11:39-0:12:17] 引入共形推理框架（Vovk et al., 1999），解释样本分割（训练集+校准集）、非契合性分数 V(x,y)。给出 CQR 例子：拟合分位数回归 q̂_{α/2}(x), q̂_{1-α/2}(x)，V(x,y)=max{q̂_{α/2}(x)-y, y-q̂_{1-α/2}(x)}，然后从校准集残差中取 (1-α) 分位数得到阈值。 - [0:12:17-0:14:40] 加权情形（Tibshirani et al., 2019）：当存在分布偏移时，阈值变为 w 加权的经验分位数。如果 w(x,y)=w(x)（协变量偏移），阈值可计算。 - [0:15:10-0:17:00] 无混杂时（Lei & Candès 2020），通过贝叶斯公式得出密度比是协变量偏移：w(x) ∝ (1-e(x))/e(x)，其中 e(x)=P(T=1|X=x)。此情形可直接应用加权共形。

第四部分：未观测混杂与边际 Γ-选择模型 [0:18:00 - 0:20:13] - [0:18:00-0:19:08] 引入未观测混杂 U：(Y(0),Y(1)) ⊥ T | (X,U)（此条件总是成立，因为可令 U=潜在结果本身，实际无假设）。 - [0:19:08-0:20:13] 用边际 Γ-选择条件建模混杂强度：T 的、给定 U 的几率与给定 X 的几率之比限制在 [1/Γ, Γ] 内。该条件弱于 Rosenbaum 的 Γ 条件，因此任何在此条件下的保证也适用于 Rosenbaum 条件。基于此，推导出密度比 w(x,y) 的上下界仅为 X 的函数——因此分布偏移虽不可识别，但部分可识别。

第五部分：稳健共形推理 [0:22:00 - 0:27:30] - [0:22:00-0:24:00] 将上述问题抽象为一般设定：P_{train} ≠ P_{target}，但已知 ℓ(x) ≤ w(x,y) ≤ u(x)。目标：构造覆盖率达 1-α 的 Ĉ(X_{n+1})。 - [0:24:00-0:26:30] 核心操作：阈值选择时，对所有满足约束的 w 取上确界上确界加权分位数，得到一个保守的 v̂。幻灯片给出了清晰的排序公式 k̂^*，将 ℓ̂ 赋予小残差、û 赋予大残差。讲者强调此选择在已知约束下是最优的（最优保守性）。复杂度：排序加一遍扫描，O(n log n)。 - [0:26:40-0:27:30] 定理（Jin, Ren & Candès 2021）：若超总体满足边际 Γ-选择且上下界已知（或估计得足够好），则稳健共形区间可达 1 - α - Δ̂ 的边际覆盖，其中 Δ̂ 与界的估计误差相关。

第六部分：PAC 型条件保证 [0:28:31 - 0:31:50] - [0:28:31-0:29:30] 边际保证平均于所有训练/校准实现，但用户更关心“给定当前数据的条件覆盖概率”。因此提出 PAC 型保证：以至少 1-δ 的概率，条件覆盖 ≥ 1-α。 - [0:29:30-0:31:50] 方法：构造一个下包络函数 G(t), 使得 G(t) ≤ inf_{w∈S} F_{target}(t)（S 为所有满足 ℓ≤w≤u 的分布族）。然后从校准数据构建 G(t) 的 1-δ 下置信界 Ĝ(t)，再选取 v̂ = inf{ t : Ĝ(t) ≥ 1-α }。包络的显式构造：G(t) = max{P(V≤t)·ℓ(X), 1 - P(V>t)·u(X)}。需要的是单点 t 处的置信界，可用标准浓度不等式（如 DKW 或 Hoeffding）。 - 幻灯片给出定理：在上下界已知时，该程序给出精确的 PAC 覆盖；上下界估计时，覆盖误差由界估计误差主导。

第七部分：Γ-值与敏感度分析 [0:35:00 - 0:41:00] - [0:35:30-0:38:30] 定义 Γ-值 Γ̂：最小的 Γ 使得区间 Ĉ(X,Γ) 与预设集合 C（如 (-∞,0] 测试正效应）不交。若 Γ̂ 较大且根据背景知识排除如此强的混杂，则因果结论（如 ITE 为正）更可信。 - [0:38:30-0:41:00] 假设检验序列：H_0(Γ): ITE ∈ C 且真实混杂水平 ≤ Γ。使用稳健共形区间进行检验，同时控制家族错误率（FWER）≤ α。因为区间随 Γ 嵌套，拒绝集 R = [1, Γ̂)。关键保证（幻灯片 38）：当 H_0(Γ) 为真时，错误拒绝的概率 ≤ α。

第八部分：实验与数据集 [0:41:20 - 0:44:30] - [0:41:20-0:42:30] 模拟：对抗性设定（混杂导致虚假效应），比较了不同 Γ 值下稳健方法（实线）与忽略混杂的方法（虚线）的经验覆盖。稳健方法始终高于 45° 线（保守且有效），忽略混杂方法低于 45°（无效）。 - [0:42:30-0:44:30] 真实数据：NSLM（全国学习心态研究），分析处理组 ITE。对正效应测试，Γ=1 时约 20% 单元被识别；随 Γ 增大仍有阳性结果，暗示至少部分单元效应确实为正。展示 Γ-值与学校学业水平的关系。负效应测试仅 3.5% 单元被识别。

讨论环节 [0:45:01 - 1:02:14] - Stefan Wager 讨论： - 问题1：在未观测混杂下，点预测模型本身（如回归 E[Y(1)|X,T=1]）可能与目标分布下的最优预测不同，这会不会损失效率？（超似然均值不一定是此分布下最优的中心点）。讲者回应：在 paper 中用的是 GRF（无混杂感知），但理论上可考虑稳健点预测模型。 - 问题2：边际 Γ-选择模型不仅约束 w 的逐点界，还隐含 E[ w(X) X ] 已知（X 边际分布不变）。能否用矩约束（如 covariate balancing）收紧区间？讲者承认这值得进一步探索，但认为跨过分层条件分位数估计会丧失共形的无模型优点。 - 评论：ITE 的共形区间本质上已是 O(1) 长度，添加敏感性 O(1) 膨胀并非灾难——这与 ATE 情形形成鲜明对比（后者置信区间 O(1/√n), 敏感性膨胀 O(1) 巨大）。 - Emmanuel Candès 补充：好的基模型可提升非契合性分数质量，进而提高共形推断的效率（窄区间）。这与贝叶斯方法有潜在接口。

四、对应论文与开放问题¶

对应论文¶

项目	内容	不确定性
主论文	Jin, Y., Ren, Z., & Candès, E. J. (2021). Sensitivity Analysis of Individual Treatment Effects: A Robust Conformal Inference Approach. arXiv:2111.12161	已确认（幻灯片与转写高度吻合）
基础共形 ITE 工作	Lei, J., & Candès, E. J. (2020). Conformal inference of counterfactuals and treatment effects. JASA.	报告重复引用
加权共形	Tibshirani, R. J., Barber, R. F., Candès, E. J., & Ramdas, A. (2019). Conformal prediction under covariate shift. NeurIPS.	见于幻灯片
边际 Γ-选择模型	Tan, Z. (2006); Zhao, Q., & Small, D. S. (2018)	幻灯片引用
Rosenbaum 的 Γ-选择	Rosenbaum, P. R. (2002) Observational Studies	讲者提到其强度高于边际 Γ-选择

开放问题（均出自报告或讨论，每条注明“转写中某句”）¶

点预测的优化：在未观测混杂下，构建 ITE 点预测（非契合性分数的基模型）是否应调整以匹配目标分布，从而提升效率？（参见 Stefan Wager 讨论问题1, [0:53:30-0:54:20]；讲者回应 [0:59:00-0:59:30] 提到“未在此论文中探索”。）
利用边际矩约束提高精度：边际 Γ-选择条件隐含 E[w(X)|X] = 1（即 X-边缘相同），能否通过协变量平衡（如矩匹配）收紧区间，避免跨条件分位数回归？（Stefan Wager 问题2, [0:55:00-0:56:40]；讲者回应 [0:59:30-1:01:00] 认为此方向有吸引力但未深入。）
贝叶斯与共形接口：是否有方法将良好校准的贝叶斯预测模型转化为共形非契合性分数，以获得更窄区间？（随堂提问 [0:33:15-0:34:07] 及 Candès 补充 [1:01:20-1:02:00]。）
条件覆盖的进一步收紧：PAC 型保证仅需单个 t 的水平（如 Hoeffding），但可否利用 copula 方法或序贯检验使 Ĝ(t) 函数更紧？
复合反事实预测（两级条件）：报告只针对一缺失或全缺失情形（加 Bonferroni），是否存在更高效的方式融合 Y(1) 和 Y(0) 预测区间（如直接构造 ITE 的联合分数）？

注：提问中的“怎样做到更好 sharpness”出现在 Stefan Wager 的讨论段落 [0:56:50-1:00:50]。上述开放问题均直接在转写中能找到对应的具体句（标注了时间点），可作为研究者后续阅读论文或设计新问题的锚点。

Maintained by 陈星宇 · Homepage · Source on GitHub