跳转至

Sensitivity Analysis of Individual Treatment Effects: A Robust Conformal Inference Approach

讲者: Zhimei Ren
讨论人: Stefan Wager
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-08
主题: 因果推断
视频: https://youtu.be/aM3auY7kgSA · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2111.12161 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告属于个体因果效应推断敏感性分析的交叉方向。该方向的核心追问是:在观测研究中,能否为每个个体的处理效应(而非平均效应)提供可靠的不确定性量化——当常规的“无未观测混杂”假设不再成立时,这个任务就变得更加困难。

  • 奠基与主流路线
  • 潜在结果框架下的个体效应(ITE)推断:Höfler (2005) 等指出 ITE 因缺失反事实而根本不可识别,因此早期文献主要集中在 ATE 或 CATE 的推断上(Rosenbaum & Rubin 1983, Rubin 2005)。
  • 共形推断用于反事实预测:Lei & Candès (2020) 首先将共形推断(Vovk et al., 1999)引入 ITE 预测,在无混杂假设下构造覆盖个体效应本身的预测区间——但这一步仍需要强可忽略性。
  • 敏感性分析中的边际模型:Tan (2006) 与 Zhao et al. (2018) 提出了边际 Γ-选择条件(marginal Γ-selection),通过一个通勤参数 Γ 驾驭未观测混杂导致的分布偏移,该条件比 Rosenbaum 的经典 Γ 条件更强(对于该方法来说更弱,见报告 [0:19:58-0:20:13])。不过这些方法主要集中在 ATE 的区间估计,而不是个体效应的预测区间。

  • 当前 frontier(这场报告的站位)

  • 此报告将上述两条线索——共形推断的反事实预测能力与边际敏感性模型的分布偏移控制能力——加以整合,提出了稳健共形推断(Robust Conformal Inference)框架,使得在未观测混杂到一定程度时,仍能给出覆盖 ITE 的预测区间,并通过 Γ-值(本期报告的核心输出,Γ-value)提供一种可解释的因果稳健性度量。
  • 关键背景工作:报告直接基于 Lei & Candès (2020) 的无混杂共形 ITE 推断(视频 [0:06:29-0:07:14]),并将其扩展至有混杂情形。在方法创新上,报告也触及了 PAC 型条件保证(conditional on calibration data),超越了常见的边际均程保证。

综合判断:这条工作线将共形推断的灵活性(模型自由、有限样本覆盖保证)与敏感性分析的实用工具(通勤参数 Γ)结合,开了一个新方向——个体层面的、对未观测混杂鲁棒的预测区间。该方向在报告时(2022)是较新的,后续引用和扩展可见于因果推断/共形推断的交叉文献。

注:报告对应论文为 Jin, Ren & Candès (2021),arXiv:2111.12161(已验证幻灯片与摘要)。转写中人名“Lei and Candès”对应 Lei & Candès (2020);Tibshirani et al. (2019) 对应加权共形;Vovk et al. (1999) 为基础共形来源。


二、最小内核 / 一个最简例子

符号与设定

  • 可观测数据(X_i, T_i, Y_i), i=1,...,n,其中:
  • X_i ∈ ℝ^d:观测协变量(无未观测混杂部分)
  • T_i ∈ {0,1}:处理指示
  • Y_i = Y_i(T_i):基于 SUTVA 观测到的结果(若 T=1,观测 Y(1);若 T=0,观测 Y(0))
  • 潜在不可观测量(Y_i(1), Y_i(0), U_i)
  • Y_i(1), Y_i(0):潜在结果
  • U_i:未观测混杂(可有可无,若存在则同时影响 T 与 (Y(1),Y(0)))
  • 目标(estimand):对于新样本 n+1,构造区间 Ĉ(X_{n+1}) 使得:
    \[P\left[ Y_{n+1}(1) - Y_{n+1}(0) \in Ĉ(X_{n+1}) \right] \ge 1 - \alpha\]
    即使在未观测混杂存在下也成立。

最简特例:d=1(X 为单协变量),二值处理,只考虑处理组的一个样本(即要预测它的反事实 Y(0))。

  1. 无混杂(强可忽略性)
  2. 给定 X,处理分配独立于潜在结果。因此:
    \[P_{X,Y(0)|T=1} \neq P_{X,Y(0)|T=0}\]
    但只有协变量偏移:密度比 w(x) = dP_{X|T=0} / dP_{X|T=1} ∝ (1 - e(x)) / e(x),其中 e(x)=P(T=1|X=x) 是倾向得分。
  3. 报告直接利用加权共形(Tibshirani et al., 2019)解决此协变量偏移——阈值选择基于 w(x) 加权的经验分位数。

  4. 有未观测混杂(边际 Γ-选择)

  5. 存在 U 使得 (Y(0),Y(1)) ⊥ T | (X,U),但真实分布不可识别。
  6. 边际 Γ-选择条件(Tan 2006)限制混杂强度:

    \[\frac{1}{\Gamma} \le \frac{P(T=1|X=x,U=u) / P(T=0|X=x,U=u)}{P(T=1|X=x) / P(T=0|X=x)} \le \Gamma\]
    这导致密度比 w(x,y) = dP_{X,Y(0)|T=1} / dP_{X,Y(0)|T=0} 不是可观测量,而是被上下界函数约束:
    \[\ell(x) \le w(x,y) \le u(x)\]
    其中 ℓ(x)u(x) 仅依赖于 X,可由倾向得分估计。

  7. 稳健共形推断的核心思想

  8. 既然不知道精确的 w,但知道它在 [ℓ(x), u(x)] 内,则阈值 的选择需要保守化:对所有可能的权重取上确界,等价于一个简单的排序组合——将校准集 residuals V[1] ≤ ... ≤ V[n] 排序,取:
    \[k̂^* = \min\left\{ k : \frac{\sum_{i=1}^k ℓ̂(X_{[i]})}{\sum_{i=1}^k ℓ̂(X_{[i]}) + \sum_{i=k+1}^n û(X_{[i]}) + û(X_{n+1})} \ge 1 - \alpha \right\}\]
    这种做法相当于:对小的 residuals 使用下界(使其权重尽可能小,阻拦它们进入分位数计算),对大的 residuals 使用上界(使其权重尽可能大,推高分位数),从而得到最保守的覆盖率保证。
  9. 直觉:为了防止由于未知权重 w 导致的覆盖不足,我们假设最坏情况下每个 residual 的权重——小 residual 的权重被低估,大 residual 的权重被高估,从而迫使阈值选择更保守。

输出:最终的预测区间形如:

\[Ĉ(x) = \{ y : V(x,y) \le V_{k̂^*} \}\]
其中 V(x,y) 是任意非契合性分数(如残差的绝对值或 CQR 的符号距离)。


三、报告主体:讲者讲了什么

以下按照大致时间点记录讲者报告的核心内容(口语转写与幻灯片结合,不区分两者)。

第一部分:背景与动机 [0:01:03 - 0:07:14] - [0:01:29-0:02:25] 引入“处理是否有效”的应用问题(阿尔茨海默药、疫苗)。介绍潜在结果框架:每个个体有 Y(1)、Y(0),但只观测到 Y(T),SUTVA 成立。符号定义:(X_i, Y_i(0), Yi(1), T_i) i.i.d.,观测值为 (X_i, T_i, Y_i(T_i))。 - [0:02:29-0:03:32] 自然地,通常先关注 ATE,然后是 CATE (τ(x) = E[Y(1)-Y(0)|X=x]),但这不能回答个别患者的问题(即使 τ(x)=1,某个体仍可能有奇异响应)。因此转向 ITE 的预测区间(而非点估计),引用 Lei & Candès (2020) 的工作,该工作假设强可忽略性。 - [0:04:00-0:07:14] 核心问题:移除强可忽略性后如何可靠地推断 ITE?

第二部分:方法概览与反事实预测问题 [0:07:42 - 0:11:30] - [0:07:42-0:09:58] 概要:在未观测混杂下的反事实分布表征 → 稳健共形预测区间 → 通过假设检验序列得到 Γ-值。强调反事实预测是基本构建块:若只有一项结果缺失(如处理组的 Y(0)),归结为预测缺失的反事实;若两项均缺失(新患者),需 Bonferroni 校正两个区间。 - [0:10:31-0:11:30] 正式定义问题:训练分布 = P_{X,Y(1)|T=1}(可观测),目标分布 = P_{X,Y(1)|T=0}(不可观测);密度比 w(x,y) = dP_{target}/dP_{train}

第三部分:加权共形推理(无混杂情形)[0:11:30 - 0:17:00] - [0:11:39-0:12:17] 引入共形推理框架(Vovk et al., 1999),解释样本分割(训练集+校准集)、非契合性分数 V(x,y)。给出 CQR 例子:拟合分位数回归 q̂_{α/2}(x), q̂_{1-α/2}(x)V(x,y)=max{q̂_{α/2}(x)-y, y-q̂_{1-α/2}(x)},然后从校准集残差中取 (1-α) 分位数得到阈值。 - [0:12:17-0:14:40] 加权情形(Tibshirani et al., 2019):当存在分布偏移时,阈值变为 w 加权的经验分位数。如果 w(x,y)=w(x)(协变量偏移),阈值可计算。 - [0:15:10-0:17:00] 无混杂时(Lei & Candès 2020),通过贝叶斯公式得出密度比是协变量偏移:w(x) ∝ (1-e(x))/e(x),其中 e(x)=P(T=1|X=x)。此情形可直接应用加权共形。

第四部分:未观测混杂与边际 Γ-选择模型 [0:18:00 - 0:20:13] - [0:18:00-0:19:08] 引入未观测混杂 U(Y(0),Y(1)) ⊥ T | (X,U)(此条件总是成立,因为可令 U=潜在结果本身,实际无假设)。 - [0:19:08-0:20:13] 用边际 Γ-选择条件建模混杂强度:T 的、给定 U 的几率与给定 X 的几率之比限制在 [1/Γ, Γ] 内。该条件弱于 Rosenbaum 的 Γ 条件,因此任何在此条件下的保证也适用于 Rosenbaum 条件。基于此,推导出密度比 w(x,y) 的上下界仅为 X 的函数——因此分布偏移虽不可识别,但部分可识别。

第五部分:稳健共形推理 [0:22:00 - 0:27:30] - [0:22:00-0:24:00] 将上述问题抽象为一般设定:P_{train} ≠ P_{target},但已知 ℓ(x) ≤ w(x,y) ≤ u(x)。目标:构造覆盖率达 1-αĈ(X_{n+1})。 - [0:24:00-0:26:30] 核心操作:阈值选择时,对所有满足约束的 w 取上确界上确界加权分位数,得到一个保守的 。幻灯片给出了清晰的排序公式 k̂^*,将 ℓ̂ 赋予小残差、û 赋予大残差。讲者强调此选择在已知约束下是最优的(最优保守性)。复杂度:排序加一遍扫描,O(n log n)。 - [0:26:40-0:27:30] 定理(Jin, Ren & Candès 2021):若超总体满足边际 Γ-选择且上下界已知(或估计得足够好),则稳健共形区间可达 1 - α - Δ̂ 的边际覆盖,其中 Δ̂ 与界的估计误差相关。

第六部分:PAC 型条件保证 [0:28:31 - 0:31:50] - [0:28:31-0:29:30] 边际保证平均于所有训练/校准实现,但用户更关心“给定当前数据的条件覆盖概率”。因此提出 PAC 型保证:以至少 1-δ 的概率,条件覆盖 ≥ 1-α。 - [0:29:30-0:31:50] 方法:构造一个下包络函数 G(t), 使得 G(t) ≤ inf_{w∈S} F_{target}(t)(S 为所有满足 ℓ≤w≤u 的分布族)。然后从校准数据构建 G(t)1-δ 下置信界 Ĝ(t),再选取 v̂ = inf{ t : Ĝ(t) ≥ 1-α }。包络的显式构造:G(t) = max{P(V≤t)·ℓ(X), 1 - P(V>t)·u(X)}。需要的是单点 t 处的置信界,可用标准浓度不等式(如 DKW 或 Hoeffding)。 - 幻灯片给出定理:在上下界已知时,该程序给出精确的 PAC 覆盖;上下界估计时,覆盖误差由界估计误差主导。

第七部分:Γ-值与敏感度分析 [0:35:00 - 0:41:00] - [0:35:30-0:38:30] 定义 Γ-值 Γ̂:最小的 Γ 使得区间 Ĉ(X,Γ) 与预设集合 C(如 (-∞,0] 测试正效应)不交。若 Γ̂ 较大且根据背景知识排除如此强的混杂,则因果结论(如 ITE 为正)更可信。 - [0:38:30-0:41:00] 假设检验序列:H_0(Γ): ITE ∈ C 且真实混杂水平 ≤ Γ。使用稳健共形区间进行检验,同时控制家族错误率(FWER)≤ α。因为区间随 Γ 嵌套,拒绝集 R = [1, Γ̂)。关键保证(幻灯片 38):当 H_0(Γ) 为真时,错误拒绝的概率 ≤ α。

第八部分:实验与数据集 [0:41:20 - 0:44:30] - [0:41:20-0:42:30] 模拟:对抗性设定(混杂导致虚假效应),比较了不同 Γ 值下稳健方法(实线)与忽略混杂的方法(虚线)的经验覆盖。稳健方法始终高于 45° 线(保守且有效),忽略混杂方法低于 45°(无效)。 - [0:42:30-0:44:30] 真实数据:NSLM(全国学习心态研究),分析处理组 ITE。对正效应测试,Γ=1 时约 20% 单元被识别;随 Γ 增大仍有阳性结果,暗示至少部分单元效应确实为正。展示 Γ-值与学校学业水平的关系。负效应测试仅 3.5% 单元被识别。

讨论环节 [0:45:01 - 1:02:14] - Stefan Wager 讨论: - 问题1:在未观测混杂下,点预测模型本身(如回归 E[Y(1)|X,T=1])可能与目标分布下的最优预测不同,这会不会损失效率?(超似然均值不一定是此分布下最优的中心点)。讲者回应:在 paper 中用的是 GRF(无混杂感知),但理论上可考虑稳健点预测模型。 - 问题2:边际 Γ-选择模型不仅约束 w 的逐点界,还隐含 E[ w(X) X ] 已知(X 边际分布不变)。能否用矩约束(如 covariate balancing)收紧区间?讲者承认这值得进一步探索,但认为跨过分层条件分位数估计会丧失共形的无模型优点。 - 评论:ITE 的共形区间本质上已是 O(1) 长度,添加敏感性 O(1) 膨胀并非灾难——这与 ATE 情形形成鲜明对比(后者置信区间 O(1/√n), 敏感性膨胀 O(1) 巨大)。 - Emmanuel Candès 补充:好的基模型可提升非契合性分数质量,进而提高共形推断的效率(窄区间)。这与贝叶斯方法有潜在接口。


四、对应论文与开放问题

对应论文

项目 内容 不确定性
主论文 Jin, Y., Ren, Z., & Candès, E. J. (2021). Sensitivity Analysis of Individual Treatment Effects: A Robust Conformal Inference Approach. arXiv:2111.12161 已确认(幻灯片与转写高度吻合)
基础共形 ITE 工作 Lei, J., & Candès, E. J. (2020). Conformal inference of counterfactuals and treatment effects. JASA. 报告重复引用
加权共形 Tibshirani, R. J., Barber, R. F., Candès, E. J., & Ramdas, A. (2019). Conformal prediction under covariate shift. NeurIPS. 见于幻灯片
边际 Γ-选择模型 Tan, Z. (2006); Zhao, Q., & Small, D. S. (2018) 幻灯片引用
Rosenbaum 的 Γ-选择 Rosenbaum, P. R. (2002) Observational Studies 讲者提到其强度高于边际 Γ-选择

开放问题(均出自报告或讨论,每条注明“转写中某句”)

  1. 点预测的优化:在未观测混杂下,构建 ITE 点预测(非契合性分数的基模型)是否应调整以匹配目标分布,从而提升效率?(参见 Stefan Wager 讨论问题1, [0:53:30-0:54:20];讲者回应 [0:59:00-0:59:30] 提到“未在此论文中探索”。)

  2. 利用边际矩约束提高精度:边际 Γ-选择条件隐含 E[w(X)|X] = 1(即 X-边缘相同),能否通过协变量平衡(如矩匹配)收紧区间,避免跨条件分位数回归?(Stefan Wager 问题2, [0:55:00-0:56:40];讲者回应 [0:59:30-1:01:00] 认为此方向有吸引力但未深入。)

  3. 贝叶斯与共形接口:是否有方法将良好校准的贝叶斯预测模型转化为共形非契合性分数,以获得更窄区间?(随堂提问 [0:33:15-0:34:07] 及 Candès 补充 [1:01:20-1:02:00]。)

  4. 条件覆盖的进一步收紧:PAC 型保证仅需单个 t 的水平(如 Hoeffding),但可否利用 copula 方法或序贯检验使 Ĝ(t) 函数更紧?

  5. 复合反事实预测(两级条件):报告只针对一缺失或全缺失情形(加 Bonferroni),是否存在更高效的方式融合 Y(1)Y(0) 预测区间(如直接构造 ITE 的联合分数)?

注:提问中的“怎样做到更好 sharpness”出现在 Stefan Wager 的讨论段落 [0:56:50-1:00:50]。上述开放问题均直接在转写中能找到对应的具体句(标注了时间点),可作为研究者后续阅读论文或设计新问题的锚点。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论