Sensitivity Analysis of Individual Treatment Effects: A Robust Conformal Inference Approach¶
讲者: Zhimei Ren
讨论人: Stefan Wager
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-08
主题: 因果推断
视频: https://youtu.be/aM3auY7kgSA · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2111.12161 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告属于个体因果效应推断与敏感性分析的交叉方向。该方向的核心追问是:在观测研究中,能否为每个个体的处理效应(而非平均效应)提供可靠的不确定性量化——当常规的“无未观测混杂”假设不再成立时,这个任务就变得更加困难。
- 奠基与主流路线:
- 潜在结果框架下的个体效应(ITE)推断:Höfler (2005) 等指出 ITE 因缺失反事实而根本不可识别,因此早期文献主要集中在 ATE 或 CATE 的推断上(Rosenbaum & Rubin 1983, Rubin 2005)。
- 共形推断用于反事实预测:Lei & Candès (2020) 首先将共形推断(Vovk et al., 1999)引入 ITE 预测,在无混杂假设下构造覆盖个体效应本身的预测区间——但这一步仍需要强可忽略性。
-
敏感性分析中的边际模型:Tan (2006) 与 Zhao et al. (2018) 提出了边际 Γ-选择条件(marginal Γ-selection),通过一个通勤参数 Γ 驾驭未观测混杂导致的分布偏移,该条件比 Rosenbaum 的经典 Γ 条件更强(对于该方法来说更弱,见报告 [0:19:58-0:20:13])。不过这些方法主要集中在 ATE 的区间估计,而不是个体效应的预测区间。
-
当前 frontier(这场报告的站位):
- 此报告将上述两条线索——共形推断的反事实预测能力与边际敏感性模型的分布偏移控制能力——加以整合,提出了稳健共形推断(Robust Conformal Inference)框架,使得在未观测混杂到一定程度时,仍能给出覆盖 ITE 的预测区间,并通过 Γ-值(本期报告的核心输出,
Γ-value)提供一种可解释的因果稳健性度量。 - 关键背景工作:报告直接基于 Lei & Candès (2020) 的无混杂共形 ITE 推断(视频 [0:06:29-0:07:14]),并将其扩展至有混杂情形。在方法创新上,报告也触及了 PAC 型条件保证(conditional on calibration data),超越了常见的边际均程保证。
综合判断:这条工作线将共形推断的灵活性(模型自由、有限样本覆盖保证)与敏感性分析的实用工具(通勤参数 Γ)结合,开了一个新方向——个体层面的、对未观测混杂鲁棒的预测区间。该方向在报告时(2022)是较新的,后续引用和扩展可见于因果推断/共形推断的交叉文献。
注:报告对应论文为 Jin, Ren & Candès (2021),arXiv:2111.12161(已验证幻灯片与摘要)。转写中人名“Lei and Candès”对应 Lei & Candès (2020);Tibshirani et al. (2019) 对应加权共形;Vovk et al. (1999) 为基础共形来源。
二、最小内核 / 一个最简例子¶
符号与设定:
- 可观测数据:
(X_i, T_i, Y_i), i=1,...,n,其中: X_i ∈ ℝ^d:观测协变量(无未观测混杂部分)T_i ∈ {0,1}:处理指示Y_i = Y_i(T_i):基于 SUTVA 观测到的结果(若 T=1,观测 Y(1);若 T=0,观测 Y(0))- 潜在不可观测量:
(Y_i(1), Y_i(0), U_i): Y_i(1), Y_i(0):潜在结果U_i:未观测混杂(可有可无,若存在则同时影响 T 与 (Y(1),Y(0)))- 目标(estimand):对于新样本
n+1,构造区间Ĉ(X_{n+1})使得:\[P\left[ Y_{n+1}(1) - Y_{n+1}(0) \in Ĉ(X_{n+1}) \right] \ge 1 - \alpha\]即使在未观测混杂存在下也成立。
最简特例:d=1(X 为单协变量),二值处理,只考虑处理组的一个样本(即要预测它的反事实 Y(0))。
- 无混杂(强可忽略性):
- 给定
X,处理分配独立于潜在结果。因此:\[P_{X,Y(0)|T=1} \neq P_{X,Y(0)|T=0}\]但只有协变量偏移:密度比w(x) = dP_{X|T=0} / dP_{X|T=1} ∝ (1 - e(x)) / e(x),其中e(x)=P(T=1|X=x)是倾向得分。 -
报告直接利用加权共形(Tibshirani et al., 2019)解决此协变量偏移——阈值选择基于
w(x)加权的经验分位数。 -
有未观测混杂(边际 Γ-选择):
- 存在
U使得(Y(0),Y(1)) ⊥ T | (X,U),但真实分布不可识别。 -
边际 Γ-选择条件(Tan 2006)限制混杂强度:
\[\frac{1}{\Gamma} \le \frac{P(T=1|X=x,U=u) / P(T=0|X=x,U=u)}{P(T=1|X=x) / P(T=0|X=x)} \le \Gamma\]这导致密度比w(x,y) = dP_{X,Y(0)|T=1} / dP_{X,Y(0)|T=0}不是可观测量,而是被上下界函数约束:\[\ell(x) \le w(x,y) \le u(x)\]其中ℓ(x)和u(x)仅依赖于X,可由倾向得分估计。 -
稳健共形推断的核心思想:
- 既然不知道精确的
w,但知道它在[ℓ(x), u(x)]内,则阈值v̂的选择需要保守化:对所有可能的权重取上确界,等价于一个简单的排序组合——将校准集 residualsV[1] ≤ ... ≤ V[n]排序,取:\[k̂^* = \min\left\{ k : \frac{\sum_{i=1}^k ℓ̂(X_{[i]})}{\sum_{i=1}^k ℓ̂(X_{[i]}) + \sum_{i=k+1}^n û(X_{[i]}) + û(X_{n+1})} \ge 1 - \alpha \right\}\]这种做法相当于:对小的 residuals 使用下界(使其权重尽可能小,阻拦它们进入分位数计算),对大的 residuals 使用上界(使其权重尽可能大,推高分位数),从而得到最保守的覆盖率保证。 - 直觉:为了防止由于未知权重
w导致的覆盖不足,我们假设最坏情况下每个 residual 的权重——小 residual 的权重被低估,大 residual 的权重被高估,从而迫使阈值选择更保守。
输出:最终的预测区间形如:
V(x,y) 是任意非契合性分数(如残差的绝对值或 CQR 的符号距离)。
三、报告主体:讲者讲了什么¶
以下按照大致时间点记录讲者报告的核心内容(口语转写与幻灯片结合,不区分两者)。
第一部分:背景与动机 [0:01:03 - 0:07:14]
- [0:01:29-0:02:25] 引入“处理是否有效”的应用问题(阿尔茨海默药、疫苗)。介绍潜在结果框架:每个个体有 Y(1)、Y(0),但只观测到 Y(T),SUTVA 成立。符号定义:(X_i, Y_i(0), Yi(1), T_i) i.i.d.,观测值为 (X_i, T_i, Y_i(T_i))。
- [0:02:29-0:03:32] 自然地,通常先关注 ATE,然后是 CATE (τ(x) = E[Y(1)-Y(0)|X=x]),但这不能回答个别患者的问题(即使 τ(x)=1,某个体仍可能有奇异响应)。因此转向 ITE 的预测区间(而非点估计),引用 Lei & Candès (2020) 的工作,该工作假设强可忽略性。
- [0:04:00-0:07:14] 核心问题:移除强可忽略性后如何可靠地推断 ITE?
第二部分:方法概览与反事实预测问题 [0:07:42 - 0:11:30]
- [0:07:42-0:09:58] 概要:在未观测混杂下的反事实分布表征 → 稳健共形预测区间 → 通过假设检验序列得到 Γ-值。强调反事实预测是基本构建块:若只有一项结果缺失(如处理组的 Y(0)),归结为预测缺失的反事实;若两项均缺失(新患者),需 Bonferroni 校正两个区间。
- [0:10:31-0:11:30] 正式定义问题:训练分布 = P_{X,Y(1)|T=1}(可观测),目标分布 = P_{X,Y(1)|T=0}(不可观测);密度比 w(x,y) = dP_{target}/dP_{train}。
第三部分:加权共形推理(无混杂情形)[0:11:30 - 0:17:00]
- [0:11:39-0:12:17] 引入共形推理框架(Vovk et al., 1999),解释样本分割(训练集+校准集)、非契合性分数 V(x,y)。给出 CQR 例子:拟合分位数回归 q̂_{α/2}(x), q̂_{1-α/2}(x),V(x,y)=max{q̂_{α/2}(x)-y, y-q̂_{1-α/2}(x)},然后从校准集残差中取 (1-α) 分位数得到阈值。
- [0:12:17-0:14:40] 加权情形(Tibshirani et al., 2019):当存在分布偏移时,阈值变为 w 加权的经验分位数。如果 w(x,y)=w(x)(协变量偏移),阈值可计算。
- [0:15:10-0:17:00] 无混杂时(Lei & Candès 2020),通过贝叶斯公式得出密度比是协变量偏移:w(x) ∝ (1-e(x))/e(x),其中 e(x)=P(T=1|X=x)。此情形可直接应用加权共形。
第四部分:未观测混杂与边际 Γ-选择模型 [0:18:00 - 0:20:13]
- [0:18:00-0:19:08] 引入未观测混杂 U:(Y(0),Y(1)) ⊥ T | (X,U)(此条件总是成立,因为可令 U=潜在结果本身,实际无假设)。
- [0:19:08-0:20:13] 用边际 Γ-选择条件建模混杂强度:T 的、给定 U 的几率与给定 X 的几率之比限制在 [1/Γ, Γ] 内。该条件弱于 Rosenbaum 的 Γ 条件,因此任何在此条件下的保证也适用于 Rosenbaum 条件。基于此,推导出密度比 w(x,y) 的上下界仅为 X 的函数——因此分布偏移虽不可识别,但部分可识别。
第五部分:稳健共形推理 [0:22:00 - 0:27:30]
- [0:22:00-0:24:00] 将上述问题抽象为一般设定:P_{train} ≠ P_{target},但已知 ℓ(x) ≤ w(x,y) ≤ u(x)。目标:构造覆盖率达 1-α 的 Ĉ(X_{n+1})。
- [0:24:00-0:26:30] 核心操作:阈值选择时,对所有满足约束的 w 取上确界上确界加权分位数,得到一个保守的 v̂。幻灯片给出了清晰的排序公式 k̂^*,将 ℓ̂ 赋予小残差、û 赋予大残差。讲者强调此选择在已知约束下是最优的(最优保守性)。复杂度:排序加一遍扫描,O(n log n)。
- [0:26:40-0:27:30] 定理(Jin, Ren & Candès 2021):若超总体满足边际 Γ-选择且上下界已知(或估计得足够好),则稳健共形区间可达 1 - α - Δ̂ 的边际覆盖,其中 Δ̂ 与界的估计误差相关。
第六部分:PAC 型条件保证 [0:28:31 - 0:31:50]
- [0:28:31-0:29:30] 边际保证平均于所有训练/校准实现,但用户更关心“给定当前数据的条件覆盖概率”。因此提出 PAC 型保证:以至少 1-δ 的概率,条件覆盖 ≥ 1-α。
- [0:29:30-0:31:50] 方法:构造一个下包络函数 G(t), 使得 G(t) ≤ inf_{w∈S} F_{target}(t)(S 为所有满足 ℓ≤w≤u 的分布族)。然后从校准数据构建 G(t) 的 1-δ 下置信界 Ĝ(t),再选取 v̂ = inf{ t : Ĝ(t) ≥ 1-α }。包络的显式构造:G(t) = max{P(V≤t)·ℓ(X), 1 - P(V>t)·u(X)}。需要的是单点 t 处的置信界,可用标准浓度不等式(如 DKW 或 Hoeffding)。
- 幻灯片给出定理:在上下界已知时,该程序给出精确的 PAC 覆盖;上下界估计时,覆盖误差由界估计误差主导。
第七部分:Γ-值与敏感度分析 [0:35:00 - 0:41:00]
- [0:35:30-0:38:30] 定义 Γ-值 Γ̂:最小的 Γ 使得区间 Ĉ(X,Γ) 与预设集合 C(如 (-∞,0] 测试正效应)不交。若 Γ̂ 较大且根据背景知识排除如此强的混杂,则因果结论(如 ITE 为正)更可信。
- [0:38:30-0:41:00] 假设检验序列:H_0(Γ): ITE ∈ C 且真实混杂水平 ≤ Γ。使用稳健共形区间进行检验,同时控制家族错误率(FWER)≤ α。因为区间随 Γ 嵌套,拒绝集 R = [1, Γ̂)。关键保证(幻灯片 38):当 H_0(Γ) 为真时,错误拒绝的概率 ≤ α。
第八部分:实验与数据集 [0:41:20 - 0:44:30] - [0:41:20-0:42:30] 模拟:对抗性设定(混杂导致虚假效应),比较了不同 Γ 值下稳健方法(实线)与忽略混杂的方法(虚线)的经验覆盖。稳健方法始终高于 45° 线(保守且有效),忽略混杂方法低于 45°(无效)。 - [0:42:30-0:44:30] 真实数据:NSLM(全国学习心态研究),分析处理组 ITE。对正效应测试,Γ=1 时约 20% 单元被识别;随 Γ 增大仍有阳性结果,暗示至少部分单元效应确实为正。展示 Γ-值与学校学业水平的关系。负效应测试仅 3.5% 单元被识别。
讨论环节 [0:45:01 - 1:02:14]
- Stefan Wager 讨论:
- 问题1:在未观测混杂下,点预测模型本身(如回归 E[Y(1)|X,T=1])可能与目标分布下的最优预测不同,这会不会损失效率?(超似然均值不一定是此分布下最优的中心点)。讲者回应:在 paper 中用的是 GRF(无混杂感知),但理论上可考虑稳健点预测模型。
- 问题2:边际 Γ-选择模型不仅约束 w 的逐点界,还隐含 E[ w(X) X ] 已知(X 边际分布不变)。能否用矩约束(如 covariate balancing)收紧区间?讲者承认这值得进一步探索,但认为跨过分层条件分位数估计会丧失共形的无模型优点。
- 评论:ITE 的共形区间本质上已是 O(1) 长度,添加敏感性 O(1) 膨胀并非灾难——这与 ATE 情形形成鲜明对比(后者置信区间 O(1/√n), 敏感性膨胀 O(1) 巨大)。
- Emmanuel Candès 补充:好的基模型可提升非契合性分数质量,进而提高共形推断的效率(窄区间)。这与贝叶斯方法有潜在接口。
四、对应论文与开放问题¶
对应论文¶
| 项目 | 内容 | 不确定性 |
|---|---|---|
| 主论文 | Jin, Y., Ren, Z., & Candès, E. J. (2021). Sensitivity Analysis of Individual Treatment Effects: A Robust Conformal Inference Approach. arXiv:2111.12161 | 已确认(幻灯片与转写高度吻合) |
| 基础共形 ITE 工作 | Lei, J., & Candès, E. J. (2020). Conformal inference of counterfactuals and treatment effects. JASA. | 报告重复引用 |
| 加权共形 | Tibshirani, R. J., Barber, R. F., Candès, E. J., & Ramdas, A. (2019). Conformal prediction under covariate shift. NeurIPS. | 见于幻灯片 |
| 边际 Γ-选择模型 | Tan, Z. (2006); Zhao, Q., & Small, D. S. (2018) | 幻灯片引用 |
| Rosenbaum 的 Γ-选择 | Rosenbaum, P. R. (2002) Observational Studies | 讲者提到其强度高于边际 Γ-选择 |
开放问题(均出自报告或讨论,每条注明“转写中某句”)¶
-
点预测的优化:在未观测混杂下,构建 ITE 点预测(非契合性分数的基模型)是否应调整以匹配目标分布,从而提升效率?(参见 Stefan Wager 讨论问题1, [0:53:30-0:54:20];讲者回应 [0:59:00-0:59:30] 提到“未在此论文中探索”。)
-
利用边际矩约束提高精度:边际 Γ-选择条件隐含
E[w(X)|X] = 1(即 X-边缘相同),能否通过协变量平衡(如矩匹配)收紧区间,避免跨条件分位数回归?(Stefan Wager 问题2, [0:55:00-0:56:40];讲者回应 [0:59:30-1:01:00] 认为此方向有吸引力但未深入。) -
贝叶斯与共形接口:是否有方法将良好校准的贝叶斯预测模型转化为共形非契合性分数,以获得更窄区间?(随堂提问 [0:33:15-0:34:07] 及 Candès 补充 [1:01:20-1:02:00]。)
-
条件覆盖的进一步收紧:PAC 型保证仅需单个 t 的水平(如 Hoeffding),但可否利用 copula 方法或序贯检验使
Ĝ(t)函数更紧? -
复合反事实预测(两级条件):报告只针对一缺失或全缺失情形(加 Bonferroni),是否存在更高效的方式融合
Y(1)和Y(0)预测区间(如直接构造 ITE 的联合分数)?
注:提问中的“怎样做到更好 sharpness”出现在 Stefan Wager 的讨论段落 [0:56:50-1:00:50]。上述开放问题均直接在转写中能找到对应的具体句(标注了时间点),可作为研究者后续阅读论文或设计新问题的锚点。
Maintained by 陈星宇 · Homepage · Source on GitHub