跳转至

Conformal Policy Learning with Distribution-Free Safety Guarantees: Application to AI-Powered Interventions

讲者: Naoki Egami
讨论人: Eli Ben-Michael
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-05-19
主题: 因果推断
视频: https://youtu.be/Tdf05OYHVUU · 幻灯片

官方摘要:Generative AI is emerging as a new class of intervention in the social sciences, with applications designed to change attitudes and behaviors through scalable, personalized interactions. For example, conversational agents have been used to reduce political polarization and improve workplace productivity. At the same time, recent empirical studies highlight an important risk: while such interventions may benefit many individuals and tasks, they may also harm others. How, then, can AI interventions be deployed safely? In this paper, we develop a new statistical framework, conformal policy learning, to deliver pre-specified safety guarantees when deciding whether individuals should receive a new intervention or the status quo. For instance, a researcher may require that the probability that an individual is harmed by the chosen intervention is below 1%. Using tailored conformal hypothesis testing, our method provides finite-sample safety guarantees under the standard exchangeability assumption, without relying on any modeling assumptions. It also achieves asymptotically optimal power or welfare maximization when the conditional expectation functions of outcomes are correctly specified. Thus, our treatment assignment rule is guaranteed to be safe in finite samples while attaining optimality under standard modeling assumptions. In practice, our framework enables researchers to deploy AI safely by assigning AI interventions only to people and tasks that satisfy user-specified safety requirements, and by reverting to the status quo otherwise. This offers a middle ground between two undesirable extremes: unfiltered deployment that ignores AI risks and total avoidance due to safety concerns. We illustrate the method through extensive simulations and an experiment in which randomly assigned AI chatbots are used to reduce conspiracy beliefs. This is joint work with Ying Jin.

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告属于带安全性约束(safety constraint)的策略学习 / 治疗分配(policy learning / treatment choice) 这一子方向。

  • 子方向的基本问题:用观测数据(随机实验或观察性数据)学一个政策函数 \(\pi: \mathcal{X} \to \{0,1\}\),决定未来某个新个体应该被给予新干预(\(T=1\))还是维持现状(\(T=0\))。早期主流是福利最大化(welfare maximization),目标是最大化期望结果(或 ATE),并加上可解释性(政策树、线性规则)或成本类的约束(Kitagawa and Tetenov, 2018; Athey and Wager, 2021; Christensen et al, 2025 等)。
  • 当前 frontier 之一:在这基础上加入个体层面或整体层面的安全性(safety)保证——不只看平均福利,还要控制“新干预对某些个体有害”的概率或比例。这是近年兴起的小但活跃的小分支,原因是 AI 干预(聊天机器人做心理干预、AI 做客服)带来很大的生成内容不确定性,可能对一些个体有害而平均而言有益。
  • 已有安全策略学习工作的定位:报告中提到:
  • Ben-Michael et al (2025a, 2025b)、Zhang et al (2024) —— 亚组平均安全性保证(subgroup-level average safety guarantees),即先划分亚组,在亚组内控制平均风险;不是个体层次。
  • Li et al (2022/2023) —— 假设潜在结果非负相关 + 渐进安全性保证(不是有限样本无模型假定),需要很强的潜在结果相关性假定。
  • 这场报告的站位:作者(Naoki Egami, Ying Jin)提出 Conformal Policy Learning (CPL),用保形推断(conformal inference) 把安全性保证问题转化为一个对“个体有害”(一类随机原假设)的假设检验问题,从而:
  • 在标准可交换性假定下,对任意无模型假设(nonparametric, distribution-free),给出有限样本安全性保证(伤害率 \(\le \alpha\))。
  • 当条件期望函数(\(\mu_1(x), \mu_0(x)\))用任意方法被一致估计时,能渐近达到最优(最优功率—尽量多治疗,或最优福利)。
  • 与先行者关键区别:不要求亚组划分、不要求潜在结果相关假定,有限样本保证不依赖于模型规范;只要求随机实验或满足无混淆 + 可交换性。

背景工作: - 保形 p 值和保形选择(conformal p-values, conformal selection)的基础来自 Vovk et al (2005); Jin and Candès (2021)。 - 策略学习与福利最大化主流:Kitagawa and Tetenov (2018); Athey and Wager (2021)。


二、最小内核 / 一个最简例子

数据、变量与因果模型: - 观测到 \(n\) 个 i.i.d. 三重态 \((Y_i, T_i, X_i)\): - \(T_i \in \{0,1\}\):新的 AI 干预 (1) 或现状 (0)。 - \(Y_i \in \{0,1\}\):二值结果(1=好,0=不好)。 - \(X_i\):协变量(特征)。 - 潜在结果框架:\(Y_i(1)\) 是接受新干预的结果,\(Y_i(0)\) 是现状下的结果。观测结果 \(Y_i = T_i Y_i(1) + (1-T_i) Y_i(0)\)。 - 假定:无混淆\(\{Y_i(0), Y_i(1)\} \perp T_i \mid X_i\)),在随机实验中自动成立。 - 目标变量与约束: - 安全性保证:对未来的一个可交换个体 \(n+1\),希望控制

\[\Pr\big(Y_{n+1}(\pi(X_{n+1})) < Y_{n+1}(0)\big) \le \alpha.\]
即“新干预比现状更差(有害)”的概率不超过 \(\alpha\)。 - 优化目标:在满足该安全性约束前提下,最大化功率\(\Pr(\pi(X_{n+1})=1)\),即尽量多使用 AI)或最大化福利\(\mathbb{E}[Y_{n+1}(\pi(X_{n+1}))]\))。

一个最简特例(d=1, 平衡随机实验, 二值结果): - 设 \(X_i\) 是一维(比如个体对阴谋论的初始信念评分)。随机实验:\(\Pr(T_i=1)=0.5\)。 - 核心思想:我们不可能知道 \(Y_i(1),Y_i(0)\) 的联合分布(不具备识别性),但可以计算一个个体“潜在有害”的sharp bound

\[\gamma(x) = \min\{1-\mu_1(x),\ \mu_0(x)\},\]
其中 \(\mu_t(x)=\Pr(Y=1\mid T=t,X=x)\) 是条件期望函数(未知,需估计)。\(\gamma(x)\) 是“新干预比现状差”的条件概率的最优(最紧)上界。 - 等价的“决策问题”:若用 p 值来检验随机原假设“个体在 \(X_{n+1}=x\) 下是潜在有害的”(即 \(Y_{n+1}(1)=0, Y_{n+1}(0)=1\)),则在给定一个有效的 p 值 \(p_{n+1}\)(保证若原假设真则\(\Pr(p_{n+1}\le \alpha)\le \alpha\))后,决策规则为
\[\pi(X_{n+1}) = \mathbf{1}\{p_{n+1} \le \alpha\}.\]
- 直觉:若某个体在以往“被观测为潜在有害”的样本中显得异常“极端”(得分函数 \(V\) 很小),就拒绝原假设(认为该个体不是有害的类型),从而可以安全治疗。


三、报告主体:讲者讲了什么

[0:16]–[0:18] 开场与背景

  • [0:16] 介绍讲者 Naoki Egami (MIT),工作与 Ying Jin (Wharton) 合作。提到论文很快上 arXiv。
  • [0:18]–[0:20] 讲者用政治竞选广告、精准医疗、在线广告的例子引出政策学习问题——不仅是估计因果效应,而是决定“谁应该被治疗”。

[0:20]–[0:28] 安全政策学习的形式化

  • [0:20]–[0:26] 给出安全约束的定义:对于新个体 \(n+1\)
    \[\Pr\big(Y_{n+1}(\pi(X_{n+1})) < Y_{n+1}(0)\big) \le \alpha.\]
    线性性质使这等价于限制将来 M 个个体中被伤者的期望比例 \(\le \alpha\)
  • [0:26] 举了一个 60% 受益/40% 受害的亚组:福利最大化仍会治疗(因为平均利好),但安全视角不该治。说明了有限协变量下两者的分歧最大。

[0:28]–[0:33] AI 干预的动机

  • [0:28]–[0:33] AI 干预的特点:内容高度多变(不像固定文本干预),可能对很多人好但对特定个体/任务有害。举例:哈佛商学院关于咨询师使用 AI 的 RCT——简单任务 Ai 助益,前沿任务 AI 有害(员工过度依赖 AI)。

[0:33]–[0:44] 保形政策学习(CPL)核心思路

  • [0:33]–[0:36] 思路:先构造一个检验“该个体若治疗就会受害”这一随机原假设的 p 值。再定策略 \(\pi=1\)(治疗)当且仅当该 p 值 \(\le \alpha\)。关键:用sharp bound \(\gamma(x)\) 来推导最优决策形式,以避免过于保守。
  • [0:36]–[0:37] 两个问题:
  • 能否在不假设模型正确的情况下构建这样的 p 值?
  • 用 p 值阈值的策略是否在所有安全策略中是最优的?
  • [0:37]–[0:42] 初步想法:直接在平衡随机实验中,用保形 p 值 \(p_{n+1}^{(1)}\)(仅用治疗组)。具体地,令得分函数为 \(V(X_i,Y_i)=1-\hat\mu_1(X_i)\),则 p 值为
    \[p_{n+1}^{(1)} = \frac{1+\sum_{i=1}^n T_i \mathbf{1}\{V(X_i,0)\le V(X_{n+1},0)\}}{1+\sum_i T_i}.\]
    直观:看那些已被治疗且结果为 0(潜在有害)的样本中,新个体是否“极端”。
  • [0:42] 证明草图(幻灯片 13):
  • 定义oracle p 值 \(p^{*(1)}_{n+1}\)(用真实的 \(Y_{n+1}(1)\) 替代 0)。
  • 当原假设“\(Y_{n+1}(1)=0\)”真时,观测 p 值等于oracle p 值。
  • Oracle p 值在可交换性和随机化下服从均匀分布。

[0:44]–[0:50] 提出完整版 CPL

  • [0:44]–[0:47] 改进初步想法 2 点:
  • 选择性校准(Selective calibration):用 \(G_i\) 替代 \(T_i\),可以部分从治疗组、部分从对照组选取样本。关键的 \(Y_i^\dagger\)
    \[Y_i^\dagger = T_i Y_i + (1-T_i)(1-Y_i)\]
    编码了“潜在有害”(若 \(Y_i^\dagger=0\) 则意味着 \(Y_i(1)=0\)\(Y_i(0)=1\))。
  • 最优得分函数:不是任意的 \(V\),而是针对功率/福利最优的得分 \(s_{\text{power}}(x)=\hat\gamma(x)\)\(s_{\text{welfare}}(x)=-(\hat\mu_1(x)-\hat\mu_0(x))/\hat\gamma(x)\)
  • [0:47] 给出一般形式的 p 值(幻灯片 14):
    \[p_{n+1} = \frac{1+\sum_{i=1}^n G_i \mathbf{1}\{V(X_i, Y_i^\dagger) \le V(X_{n+1},0)\}}{1+\sum_i G_i}.\]
    其中 \(G_i\) 是校准选择指示(可依赖 \(X_i,T_i\),但假定其概率常数)。

[0:47]–[0:53] 定理 1:无模型安全性保证

  • [0:47]–[0:48] 假设 3(为简化):\(\Pr(G_i=1\mid X_i, Y_i(0),Y_i(1))\) 为常数。最优 \(G_i\) 自动满足这个假设。
  • [0:48]–[0:53] 定理 1(有效性):在假设 1(无混淆)、2(可交换性)、3 下,用 \(p_{n+1}\) 阈值的策略 \(\pi(X_{n+1})=\mathbf{1}\{p_{n+1}\le\alpha\}\) 满足有限样本安全性保证。证明草图(幻灯片 16):
  • 定义 \(Y_i^* = \max\{Y_i(1),1-Y_i(0)\}\)\(Y_i^*=0\) 等价于“个体有害”。
  • 定义oracle p 值 \(p_{n+1}^*\) 基于 \(Y_i^*\)
  • 证明当 \(Y_{n+1}^*=0\) 时,观测 \(p_{n+1}\le p_{n+1}^*\)(因为 \(Y_i^* \ge Y_i^\dagger\) 导致 oracle 得分更小)。
  • 在给定 \(\{G_i\}\) 的条件下,\((X_i,Y_i^*)\mid G_i=1\)\((X_{n+1},Y_{n+1}^*)\) 可交换,因此 \(\Pr(p_{n+1}^*\le\alpha\mid \{G_i\})\le\alpha\)
  • 整个证明对任意 \(V\) 成立,不依赖任何关于 \(\mu_t\) 的假设。

[0:53]–[0:58] 定理 2.1 与 2.2:最优策略的刻画

  • [0:53]–[0:58] 从所有可能的安全策略中(不限于保形)刻画最优:
  • 功率最大化\(\pi^*_{\text{power}}(x)=\mathbf{1}\{\gamma(x)\le \gamma^*\}\),其中 \(\gamma^*\)\(\mathbb{E}[\gamma(X)\mathbf{1}\{\gamma(X)\le\tilde\gamma\}]\le\alpha\) 的最大 \(\tilde\gamma\)
  • 福利最大化\(\pi^*_{\text{welfare}}(x)=\mathbf{1}\{\frac{\mu_1(x)-\mu_0(x)}{\gamma(x)}\ge r^*\}\),其中 \(r^*\) 类似。 关键见解:是Gamma 和 CATE/Gamma 比值的阈值,不是单纯的 CATE 阈值或 \(\gamma\) 阈值。

[0:58]–[1:01] 定理 3:CPL 渐近最优

  • [0:58]–[1:01] 优化版 CPL(幻灯片 19):
  • 使用上述最优得分 \(s_{\text{power}}=\hat\gamma(x)\)\(s_{\text{welfare}}=-(\hat\mu_1-\hat\mu_0)/\hat\gamma\)
  • 校准选择 \(G_i\) 的选择:若 \(\hat\gamma(x)\) 的 sharp 部分来自治疗组(\(1-\hat\mu_1(x)\le\hat\mu_0(x)\)),则取 \(G_i=T_i\),反之取 \(G_i=1-T_i\)
  • 定理 3(渐近最优):若 \(\|\hat\mu_t-\mu_t\|_{L^2} \xrightarrow{p} 0\)(任意一致估计),则用上述 \(p_{n+1}^{\text{opt}}\) 阈值得到的策略在功率/福利上渐近达到定理 2.1 和 2.2 刻画的最优解。注意:此处不需要对收敛速度提要求(随机试验下很宽松)。

[1:01]–[1:06] 扩展、模拟与实证

  • [1:01]–[1:02] 扩展:可推广到一般随机试验(propensity score 任意)、观察性研究(加权保形 p 值 + 渐近倍稳健性)、协变量偏移(covariate shift)。
  • [1:02]–[1:06] 模拟设计:
  • 4 种 DGP(线性/非线性/缺失协变量)。用预算 \(\alpha=0.1\)
  • 对比 Li et al (2023)(有假设 + 渐进)、Policy Tree(Athey & Wager, 2021,纯福利最大化)。
  • 伤害率(slide 22):Li 和 Policy Tree 经常超预算;CPL(功率与福利版)紧紧绑定在 0.1 线附近。
  • 福利(slide 23):Policy Tree 福利最高(因为它不管安全),但 CPL 紧随其后,且远高于 Trivially Safe 基准。
  • [1:06]–[1:09] 实证应用:Costello et al (2024) 的 AI 聊天机器人抗阴谋论实验。
  • 用 CPL(\(\alpha=0.025\)):治疗了 92% 的人(功率版)或 91%(福利版),伤害率严格控制在 2.1%~2.5%,福利约 0.25。
  • 对比基准:“全治疗”伤害率 3.9%(不安全),“只治 2.5%”福利低。
  • 可视化:治疗概率 vs 事前信念强度——分数越高的人越不被治疗(这与直觉一致:坚定信仰者更可能被 AI 恶化观点)。

讲者总结与未来方向

  • [1:07]–[1:09] 重复两点贡献:有限样本无模型安全性保证 + 在模型一致估计下的渐近最优。指出无特殊收敛速度要求(RCT)。
  • [1:09] 开放扩展:描述性伤害(如幻觉)、多结果安全约束、连续结果等。

四、对应论文与开放问题

对应论文

  • 报告对应的工作标题与摘要一致:“Conformal Policy Learning with Distribution-Free Safety Guarantees: Application to AI-Powered Interventions”,合作者 Ying Jin (Wharton) 与 Naoki Egami (MIT)。
  • 讲者在开场 [0:02] 说“soon on arXiv”,目前(2026-05-19)尚未公开。若需要查阅,请关注讲者个人页或 arXiv 搜索“Jin and Egami Conformal Policy Learning”。
  • 幻灯片脚注给出“Jin and Egami, 2026+”,因此该工作应该尚未发表在具体期刊 / 会议;在讲者研究议程中列为其在“AI as interventions”方面的当前成果。

开放问题(基于报告与讨论)

  1. 从安全约束到效用最大化(阈值选择的主观性) [讨论者 Eli Ben-Michael 的讨论,约 0:50–1:00]:
    基于 sharp 上界的最小化保守性方案。但能否使用minimax regret而不是minimax constraint?在基于约束的框架下,能否做一类更灵活的最坏情况后悔最小化?

  2. 无模型保证在观察性研究中的“褪色” [讨论中约 1:03–1:05]:
    观察性研究扩展提供了渐近倍稳健安全性保证(若预测倾向或结果模型二者之一正确)。但此时不再是“无模型有限样本”保证(若两个模型都错,安全性可能不保)。能否在观察性研究中也构造一个有限样本无模型的安全性保证(代价可能是更保守的界或更受限的识别)?

  3. Sharp 边界选择与估计不稳定性 [讨论中约 1:02–1:03]:
    \(\hat{\mu}_1(x)\)\(\hat{\mu}_0(x)\) 的两个候选上界相近时(即 \(1-\hat{\mu}_1(x) \approx \hat{\mu}_0(x)\)),判定哪个是 sharp 可能波动很大。是否需要类似margin 条件(如Athey & Imbens 中的 margin 假设)来保证渐近最优性证明中的“选择正确校准组”的成功率 \(\to 1\)

  4. 多结果与复合安全约束 [讲者开口 1:09]:
    如果同时关注多个结果(比如减少阴谋论信念且改善心理健康),是否需要 Bonferroni 式修正?能否用保形检验的 union intersection 法来同时控制多个属性的伤害概率?

  5. 连续结果的泛化 [讲者开口 1:09]:
    目前方法基于二值结果。若扩展到连续结果(如谈话时间、满意评分),安全性定义是“\(Y(1) - Y(0) < -\delta\)”),保形 p 值的构造需要多步调整。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论