Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment¶

讲者: Kosuke Imai
讨论人: Yifan Cui
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-03-01
主题: 因果推断
视频: https://youtu.be/Gd2-MxJQTKA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2109.11679 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

核心方向: 在确定性基线策略（Deterministic Baseline Policy）下进行安全的策略学习（Safe Policy Learning）。这是一个将策略学习（Policy Learning, a.k.a. 最优治疗/政策分配）与部分识别（Partial Identification）及稳健优化（Robust Optimization, Maximin）相结合的方法论工作。

这个方向在追问什么: 给定一个由历史数据（基于现有确定性规则产生）生成的数据集，如何学习一个新的、且有统计保障不会比现状更差的策略？传统的策略学习方法（如Athey & Wager, Kitagawa & Tetenov）通常要求数据来自随机化的策略（例如每个个体以一定概率被分配到不同治疗），这样才能通过逆概率加权或双稳健方法识别出反事实结果。但在许多高风险的公共政策（如本文的审前风险评估）和医疗决策中，现行策略是确定性的（例如“若风险得分≥4，则建议现金保释”），不存在随机化，因此传统的识别策略失效。
奠基与主流路线:
- 经典策略学习（Athey & Wager, 2017, 2021; Kitagawa & Tetenov, 2018）：依赖随机化或强可忽略性假设（positivity/unconfoundedness），通过治疗效应估计或加权方法学习最优策略。
- 稳健策略学习（Cui & Tchetgen Tchetgen, 2019; Kallus & Zhou, 2018）：考虑模型错误设定或未观测混杂，使用部分识别或Minimax方法进行学习。本报告的工作属于这一支，但特化了确定性基线策略这个场景。
- 离线强化学习（Offline RL）：本报告的工作与离线RL中的“悲观主义”（Pessimism）思想非常接近——通过限制Q函数或策略的置信区间，避免在不确定性高的区域采取过于激进的行动。本报告的方法相当于显式且可解释的悲观离线RL，但主要针对线性决策规则和离散状态/行动空间。
这场报告站在哪:
- 提出了一个方法论框架，结合了“基于模型类的部分识别”和“Maximin稳健优化”，专门为确定性基线策略设计。它不要求随机化，而是用模型假设（如Lipschitz连续性、可加性）来外推未观测到的反事实，然后在这个外推得到的“集合”上做最坏情况下的最优决策。
- 关键突破: 提供了可证明的统计安全保证（Statistical Safety Guarantee）——学习到的新策略，其期望效用（Expected Utility / Value）以高概率不低于现状策略的效用。这是一个非常强的实践属性，尤其在刑事诉讼等高风险领域，决策者必须确保新策略“首先不伤害”。
- 工作本身具有极强的实践导向，将方法论与一个珍稀而设计精良的实地实验（Field Experiment on PSA）紧密结合，展示了方法在真实世界中的应用和局限性。

二、最小内核 / 一个最简例子¶

设定、符号与可观测数据:

个体 \( i = 1, \dots, n \). 观测到协变量 \( X_i \in \mathcal{X} \) (离散风险因素), 现行策略下的行动 \( A_i \in \{0, 1\} \) (例如: 0=不触发NVCA旗标/建议签名保释, 1=触发/建议现金保释), 一元二元结果 \( Y_i \in \{0, 1\} \) (0=发生NVCA, 1=未发生)。
基线策略: 确定性的, 记为 \( \tilde{\pi}(x) \). 例如: \( \tilde{\pi}(x) = 1\{x \ge 4\} \). (风险得分 ≥4 时建议现金保释)
潜在结果: 在行动 \( a \) 下的潜在结果 \( Y(a) \). 条件均值函数 \( m(a, x) = \mathbb{E}[Y(a) | X=x] \). 这是部分不可识别的, 因为当 \( \tilde{\pi}(x) \neq a \) 时, 我们只能通过外推假设来推断它。
目标: 寻找一个新的确定性策略 \( \pi(x) \in \Pi \) (如另一个阈值 \( \pi(x) = 1\{x \ge \eta\} \)), 使其期望效用 \( V(\pi) \) 最大化。
效用函数: 假设一个简单的线性效用: \( V(\pi) = \mathbb{E}[c(A) + u \cdot Y] \).
- \( c(a) \) 是行动 \( a \) 的成本 (如现金保释对社会的经济和人身成本). 设 \( c(0)=0, c(1)=-1 \)。
- \( u \) 是成功结果的效用 (如避免NVCA). 设 \( u=1 \) 且对所有个体相同。
- 因此 \( V(\pi) = \mathbb{E}[- 1\{\pi(X)=1\} + 1\{Y=1, \text{ under policy } \pi\}] = \mathbb{E}[ - \pi(X) + m(\pi(X), X) ] \)。

最简特例: 单一二值X, 行动A, 阈值策略:

协变量: 单个风险得分 \( X \in \{0, 1, 2\} \). 基线策略 \( \tilde{\pi}(x) = 1\{x \ge 2\} \). 即在 \( x=2 \) 时行动为1 (现金保释), 在 \( x=0,1 \) 时行动为0 (签名保释).
可观测部分:
- 对于 \( x=0,1 \) (基线策略行动=0): 我们观察到 \( m(0, 0) \) 和 \( m(0, 1) \) 的无偏估计 (因为 \( Y = Y(0) \) 当 \( \tilde{\pi}(x)=0 \) 时).
- 对于 \( x=2 \) (基线策略行动=1): 我们观察到 \( m(1, 2) \) 的无偏估计.
不可观测部分:
- \( m(1, 0) \) 和 \( m(1, 1) \): 如果我们考虑一个新策略 \( \pi(x) = 1\{x \ge 1\} \), 它将建议行动1给 \( x=0,1 \) 的个体. 我们没有任何它们的 \( Y(1) \) 数据.
- \( m(0, 2) \): 如果我们考虑一个新策略 \( \pi(x) = 1\{x \ge 3\} \) 或 \( \pi(x)=0 \) 对所有 \( x \), 我们需要知道现金保释被撤掉后的反事实结果.

核心思想: 部分识别 + Maximin:

部分识别: 对未观测的 \( m(a, x) \) 施加一个简单模型类. 例如, 假设Lipschitz连续性 (在风险得分上):
- 如果 \( m(1, 2) \) 是已知的 (因为可观测), Lipschitz条件 \( |m(1, 2) - m(1, 1)| \le L \) 给出 \( m(1, 1) \) 的下界 \( m(1, 2) - L \) 和上界 \( m(1, 2) + L \). L越大, 边界越宽.
- 由此得到一组与可观测数据一致的函数:
  \[\mathcal{M} = \{ m \in \mathcal{F} \;|\; m(0, x_{<2}) = \mathbb{E}[Y|X=x], \; m(1, x=2) = \mathbb{E}[Y|X=2]; \; \text{且 Lipschitz 约束} \}.\]
Maximin 稳健优化: 我们要在策略类 \( \Pi \) 中寻找一个策略 \( \pi_{\text{safe}} \), 使得在最坏可能的 \( m \in \mathcal{M} \) 下, 其效用最大:
\[\pi_{\text{safe}} \in \arg\max_{\pi \in \Pi} \min_{m \in \mathcal{M}} V(\pi, m).\]
在这个例子中:
对于 \( \pi(x) = 1\{x \ge 2\} \) (维持现状), 其效用 \( V(\tilde{\pi}) \) 是完全可识别的.
对于 \( \pi(x) = 1\{x \ge 1\} \), 其最坏效用是: 它在 \( x=0,1 \) 处调用行动1, 并“被迫”使用 \( m(1, x) \) 的下界 (因为是悲观). 所以 \( \min_{m \in \mathcal{M}} V(\pi_{\text{new}}) = \text{(可识别部分)} + \Sigma_{x=0,1} \pi_{\text{new}}(x)(-c + u \cdot \text{下界}_{m(1,x)}) \).
安全保证: 因为 \( \tilde{\pi} \in \Pi \), 其效用 \( V(\tilde{\pi}) \) 是点可识别的 (由数据). 根据Maximin原理:
\[V(\pi_{\text{safe}}) \ge \min_{m\in\mathcal{M}} V(\pi_{\text{safe}}, m) \ge \min_{m\in\mathcal{M}} V(\tilde{\pi}, m) = V(\tilde{\pi}),\]
这里的最后一步是因为 \( \tilde{\pi} \) 只依赖于可识别的部分. 因此, \( V(\pi_{\text{safe}}) \ge V(\tilde{\pi}) \) — 新策略在最坏情况下不会比现状差. 这就是 “安全” 的含义.

一句话总结: 利用简单外推假设 (如Lipschitz性) 对不可识别的反事实结果进行部分识别, 然后以“悲观”方式 (取最坏情况) 学习一个策略, 这保证了学习到的策略的期望效用 (在最坏情况下) 不低于现有确定性的基线策略.

三、报告主体：讲者讲了什么¶

[0:00 - 0:04] 动机与问题: - 介绍背景: 算法推荐 (PSA) 对法官做出保释决定产生影响。 - 核心问题: 如何基于确定性的现行政策 (非随机化) 的观测数据, 学习一个更好且安全的新策略？现有方法依赖随机化或强可忽略性, 不适用。

[0:04 - 0:12] 应用背景: PSA与实地实验: - PSA: 审前公共安全评估工具, 给出FTA、NCA、NVCA三个风险得分, 以及一个总体的推荐 (签名保释 vs. 现金保释)。评分规则是完全公开、确定性的整数加权系统 (点系统)。 - 实地实验: 在WI州Dane郡进行。通过案件编号奇偶性随机化是否向法官提供PSA报告。这是一个独特且有价值的实验——它能识别提供工具相对于不提供工具的条件因果效应 (CATE)。

[0:12 - 0:27] 方法论框架: - 符号与设定 \( [0:12 - 0:19] \): 清晰给出了个体级观测数据 \( (X_i, A_i, Y_i) \), 确定性基线 \( \tilde{\pi} \), 价值函数 \( V(\pi) \), 以及部分识别的困境。 - 核心分解与Maximin原理 \( [0:19 - 0:24] \): - 将价值 \( V(\pi, m) \) 分解为: 可识别的成本与“策略一致”部分 + 不可识别的“策略不一致”部分 (需用到 \( m(a, x) \) )。 - Maximin 方法: 对 \( m \) 进行部分识别, 得到一个模型类 \( \mathcal{M} \), 然后求解 \( \arg\max_{\pi \in \Pi} \min_{m \in \mathcal{M}} V(\pi, m) \)。这等价于最小化相对于基线策略的最大遗憾 (Minimax Regret)。 - “安全”的核心: 如果基线策略 \( \tilde{\pi} \) 在策略类中, 则 \( V(\pi_{\text{safe}}) \ge V(\tilde{\pi}) \)。因为基线策略的价值是可被点识别的, 而新策略的最坏情况价值被悲观化处理。 - 部分识别技术细节 \( [0:24 - 0:27] \): - 通过选择模型类 \( \mathcal{F} \) (如Lipschitz、加法模型、线性模型) 并添加数据一致性约束 (在可观测点上匹配) 来构造 \( \mathcal{M} \)。 - 结果: 点状界 (Pointwise Bounds) \( B_{\ell}(a, x) \le m(a, x) \le B_u(a, x) \)。 - 扩展 \( [0:31 - 0:33] \): - 利用实验 (Treatment Effect) : 若有关注策略 \( \emptyset \) (无PSA) 的对照组, 则可识别治疗效应 \( \tau(a, x) = m(a, x) - m(\emptyset, x) \)。在效应上做外推 (如Lipschitz) 可能比在原结局上做更合理。 - 整合人类决策: 讲座主要关注确定性算法推荐, 但也提到了将法官的决策 (也是不确定的) 纳入框架的延伸。

[0:33 - 0:43] 实证应用: 学习一个更好的NVCA旗标: - 任务1: 学习新的NVCA旗标阈值 \( [0:33 - 0:37] \): - 目标: 找到一个新的整数阈值 \( \eta \in \{0,...,7\} \) 来触发NVCA旗标 (1{x \ge \eta})。 - 外推CATE: 利用实验来估计提供PSA对避免NVCA的CATE。施加一个Lipschitz约束在CATE上 (假设效应随风险得分变化平稳)。 - 结果: 对于“未触发旗标”组 (基线策略建议签名保释), CATE相对稳定, 因此外推铅垂向下的边界较窄; 对于“触发旗标”组 (基线建议现金保释), CATE波动很大, 外推边界非常宽。 - 结论: 在合理置信度下, 最优安全策略是将阈值从当前的4提升到6或7 (即更多样本人会被建议使用签名保释), 这使政策更宽容。在NVCA成本更低或置信度要求不高时, 政策可以更激进地改变。 - 任务2: 学习新的点系统 (权重) \( [0:37 - 0:41] \): - 目标: 保持“整数加权求和 ≥4 触发旗标”的结构, 但改变每个风险因素的权重。 - 模型类选择: 试验了可加性模型 (倾向效应) 和二阶交互模型。同样对CATE进行外推。 - 实证模型类大小: 展示了对不同置信水平, 模型类大小的相对变化。可加模型可完全识别 (模型类大小为0), 但高置信度下边界变宽, 模型类变大。 - 学习到的权重: 展示了在不同NVCA成本下, 新建议的权重变化。随着成本上升 (危害更大), 方法倾向于退回到原始权重 (安全第一)。 - 任务3: 学习新的DMF矩阵 \( [0:41 - 0:43] \): - 目标: 学习一个单调递增的FTA x NCA到“签名保释/现金保释”的映射矩阵, 替代现有的简单对角阈值。 - 结果: 数据显示, 在现有的实验和数据量下, 很难大幅度改变DMF矩阵除非置信度要求极低。这表明了方法的局限性——当不确定性 (外推边界宽) 太大时, 安全策略会保持现状。

[0:43 - 0:45] 总结: - 重申确定性策略的普遍性。强调提出的方法论框架提供了统计安全保证。对PSA的改进有初步证据, 但需要更多数据。 - 讨论者 (Yifan Cui) 的评论与互动 (\( [0:45 - 0:57] \)): - 崔一帆将本工作与Maximin决策理论的历史 (Abraham Wald) 和近期工作 (如Covariate Shift, Pessimism RL, IV下的决策) 联系起来, 赞扬了其对“安全”概念的新颖诠释。 - 提出了两个开放问题: (i) Minimax Regret 策略与当前Maximin策略的对比; (ii) 个体层面的安全性 (Individualized Safety, 确保大部分个体不被伤害) 如何实现。伊迈教授回应认为这两个方向都很有价值并提出了初步思路。 - 字幕可能有误导提示: 讨论部分中关于"counterfactual means"与"conditional means"的数学细节, 转写可能不准确, 建议查阅Yifan Cui的工作或论文原文[2]的补充材料。

四、对应论文与开放问题¶

(a) 对应论文

这场报告的核心方法论与应用结果对应于以下论文：

Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment.
- 作者: Eli Ben-Michael, D. James Greiner, Kosuke Imai, Zhichao Jiang.
- arXiv: 2109.11679 . (幻灯片第3页确认)
- 状态: 一篇完整的论文, 包含方法论细节、扩展、统计性质证明和全面的实证分析。
Experimental Evaluation of Algorithm-Assisted Human Decision-Making: Application to Pretrial Public Safety Assessment. (Companion Paper)
- 作者: Kosuke Imai, Zhichao Jiang, D. James Greiner, Ryan Halen, Sooahn Shin.
- arXiv: 2012.02845 (JRSS-A, 2022, with discussion)
- (幻灯片第3页确认). 这篇论文详细介绍了这个实地实验的设计、分析与结果, 是理解本报告应用背景与数据来源的关键入口。

(b) 报告留下的开放问题 (立足于转写与讨论)

个体化安全保证 (Individualized Safety Guarantee): 当前的“安全”定义是总体水平的 (期望效用)。Yifan Cui 在讨论中 \( [0:52:23] \) 提出了一个自然的开放问题: 能否将安全性保证降至个体/分位思想层面, 例如保证 X% 的个体不会因新政策而变差？伊迈教授反馈 \( [0:53:01] \) 这与个体治疗效应 (ITE) 的分位数估计有关, 是一个有挑战性的延伸, 但非常符合政策制定者的关切。
最大化遗憾 (Minimax Regret) 对比: 讨论者 \( [0:51:03] \) 提出了为何不直接使用相对于最优 (oracle) 策略的Minimax Regret (Savage准则), 而非本报告采用的相对于基线策略的Minimax pessimism。伊迈与Ben-Michael回应 \( [0:55:30] \) 指出: 基线策略的价值是可点识别的, 这提供了“基线可测量”这一关键特性, 简化了问题并获得了安全保证。若改用oracle作为参照点, 问题会立即变得“更纠结”(因为oracle的效用也是不可识别的)。
审前释放事件中的人类决策整合: 讲座主要聚焦于确定性算法推荐, 但其应用背景是“算法-人类混合决策”。转写中 \( [0:17:50] \) 和幻灯片 \( [0:47:50] \) 都提到了将法官的最终决策 (受不确定性影响) 纳入U函数扩展。这是一个有待充分探索的方向, 但伊迈提到论文中有初步处理。
连续协变量与模型类的选择: 讲座中的例子都以离散状态为主。当协变量连续时, 如何在特定模型类 (如更高阶的交互项或非参数估计) 下构造高效的界, 并控制其统计复杂度对安全保证的影响, 是一个技术上的开放挑战。

Maintained by 陈星宇 · Homepage · Source on GitHub