跳转至

Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

讲者: Angela Zhou
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-29
主题: 因果推断
视频: https://youtu.be/isWP1pdCI_U · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2302.00662 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

方向定位:离线强化学习(Offline RL)中的稳健策略评估与优化,当观测数据可能受时序外生未观测混杂(Sequentially Exogenous Unobserved Confounders, SE-UCs) 影响时,如何依然给出有意义的性能界。

该子方向追问的核心: - 在真实决策(如医疗)中,离线数据来自某个行为策略(behavior policy)π_b,该策略可能依赖未观测变量(如医生未记录的临床判断),导致标准 off-policy 估计(如 fitted Q-iteration)产生偏差。 - 如何引入敏感性分析——假设混杂强度被一个参数 Λ 所界定——从而将点识别替换为部分识别,得到 Q 函数和价值函数的下/上界? - 进一步,如何在这些界下进行稳健策略优化(worst-case optimal policy)?

奠基与主流路线: 1. 边际敏感性模型(Marginal Sensitivity Model, MSM):由 Zhao et al. (2019, JRSS-B) 系统化,比较未观察到的行为策略 π_b(a|s,u) 与观测可估计的“边际”概率 π_b^obs(a|s) 的 odds ratio 被 Λ 界定。该模型在单时间步因果推断中已有闭合形式下/上界(Dorn & Guo, 2022, Biometrika)。 2. 离线 RL 中的 fitted Q-iteration (FQI):通过递归回归估计 Q 函数,形式简单、实证表现好(Fu et al., 2021, ICLR 基准)。但标准 FQI 假定无未观测混杂(即 π_b 只依赖观测状态)。 3. 稳健 MDP:在转移概率的不确定性集上定义稳健 Bellman 算子,需要“s-rectangularity”以保证动态规划可行(Nilim & El Ghaoui, 2005; Iyengar, 2005)。

这场报告的站位: - 它将 MSM 从单时间步推广到多时间步时序设定,同时利用了 FQI 的计算简便性(仅需序列回归),避免了重要性采样(IS)在长 horizon 下的方差爆炸。 - 关键技术突破:证明了在 SE-UC 假设下,每个时间步的稳健 Bellman 算子可以写为闭合形式的条件期望短尾(conditional expected shortfall),然后通过添加正交化(orthogonalization)项来降低对条件分位数估计的敏感度(只需 n^{1/4} 收敛率),使整体估计达到 √n 收敛率的 regret。 - 与同类工作的关键区别:与 Bruns-Smith & Zhou (2023, 相近但未解决函数逼近的版本) 不同,本工作处理了函数逼近(deep learning / RKHS),并给出了有限样本界。

二、最小内核 / 一个最简例子

符号与模型: - 可观测数据:(S_t, A_t, R_t, S_{t+1}){t=0}^{T-1},其中 S_t ∈ S 是观测状态,A_t ∈ {0,1}(二值动作),R_t ∈ ℝ 是即时奖励。未观测混杂 U_t ∈ U 未被记录。 - 完整 MDP:状态 = (S_t, U_t),行为策略 π_b(a | s, u),转移概率 P(s', u' | s, u, a)。 - 目标:评估或优化一个仅依赖观测状态的评价策略 π_e(a | s) 的期望累积奖励 V_0^{π_e} = E[∑{t=0}^{T-1} R_t | π_e]。 - 关键假设(SE-UC):新一期的未观测混杂与历史独立,给定最新观测状态:U_{t+1} ⊥ (S_t, U_t, A_t) | S_{t+1},∀t。这使得边际观测转移 P_obs(s' | s, a) 是马尔可夫的,且可通过 π_b^obs(a|s) = ∫ π_b(a|s,u) dP(u|s) 描述——但 π_b^obs(a|s) 不能从数据中直接识别(因为混入了 U_t)。

最简特例:单时间步(T=1),二值动作 A∈{0,1},无后续状态。 - 那么 Q 函数退化为 E[R | S=s, A=a](即 CATE 的逆概率加权形式)。 - 标准识别假设(无混杂)下:E[R | s,a] = E_obs[R | s,a]。 - 在 MSM 下,混杂的偏差体现在:

\[\frac{π_b(a|s,u)}{π_b^{obs}(a|s)} \in [L(s,a), U(s,a)], \quad 其中 L,U 只依赖 π_b^{obs}(a|s) 和 Λ。\]
上界/下界可由 Dorn & Guo (2022) 的闭合形式得到:
\[Q^+(s,a) = E_obs[ R · w^+(s,a,R) | s,a ], \quad w^+ 是某种截断权重.\]
- 稳健 Bellman 算子在该特例下即为直接计算条件期望的极值,不涉及递归。

多步推广(T>1): - 在 SE-UC 假设下,每个时间步的稳健 Bellman 算子可以独立计算,因为 U_t 不跨期依赖。这使得稳健 FQI 可递归进行:从 t=T-1 开始,估计稳健 Q_T,然后将其作为 t-1 时刻的 Bellman 目标的一部分。 - 正交化项(orthogonalization)是为了减小对条件分位数 ν_t(s,a) 的依赖。该分位数出现在稳健算子的闭合形式中(因为涉及条件短尾),添加一个均值为零的修正项后,回归目标变为:

\[\tilde{Y}_t = α_t·(\text{outcome}) + (1-α_t)·(\text{tail part}) + \text{influence correction}.\]
其中 α_t 由 Λ 和条件分位数导出。

三、报告主体:讲者讲了什么

动机与问题 [0:01:05–0:06:15] - 以 sepsis 治疗为例,医疗 AI 论文(如“AI Clinician”在 Nature Medicine)因忽略未观测混杂而受批评。FDA 也关注算法对变化的临床输入是否稳健。 - 目标:从观测数据(MIMIC-III)出发,在混杂存在时仍能获得有效策略性能的界。

问题设置 [0:06:20–0:13:50] - 定义 MDP with full-information state (S_t, U_t):s 是观测患者 vitals,u 是医生脑中未记录的 clinical judgment。 - 假设奖励只依赖观测状态 R(s,a) —— 未观测混杂仅影响动作选择和状态转移,不直接影响奖励。 - SE-UC 假设:U_{t+1} ⊥ (S_t, U_t, A_t) | S_{t+1}(幻灯片第15页)。即 U_t 不随时间序列相关,是“外生”的。 - 观测数据来自 π_b(a|s,u),研究者只能得到 (S_t, A_t, R_t, S_{t+1}) 序列。 - 目标:作 bounds 而非点估计。

核心方法 [0:13:55–0:25:00] - 边际敏感性模型 (MSM)

\[\frac{1}{Λ} ≤ \frac{π_b(a|s,u)}{π_b^{obs}(a|s)} ≤ Λ, \quad ∀ s,a,u.\]
其中 π_b^{obs}(a|s) = E_{U|s}[π_b(a|s,U)] 可从数据估计。 - 权重函数 w_t(s,a) := π_b(a|s,u) / π_b^{obs}(a|s) 落在 [L(s,a), U(s,a)] 区间内。 - 稳健 Bellman 算子
\[\mathcal{T}^{rob} Q_{t+1}(s,a) = \inf_{w \in \mathcal{W}} E_obs[ w(s,a)·(R_t + E_{π_e}[Q_{t+1}]) | s,a ],\]
其中 \mathcal{W} 由 MSM 和 martingale condition(权重条件期望为1)定义。因为 u 被积分掉,这等价于对转移概率的 s-rectangular 不确定性集优化。 - 关键:该算子有闭合形式(基于 Dorn & Guo 2022 的结果):
\[\mathcal{T}^{rob} Q_{t+1}(s,a) = α_t(s,a) · E_obs[ R_t + ... | s,a ] + (1-α_t(s,a)) · E_obs[ R_t+... | R_t+... ≤ ν_t(s,a), s,a ],\]
其中 α_t 由 Λ 和条件分位数 ν_t 决定。

正交化回归 [0:25:05–0:35:30] - 直接使用上述闭合形式需要估计条件分位数 ν_t(s,a),这是一个高维 nuisance function。 - 提出正交化伪结果:构造 \(\tilde{Y}_t = α_t·(R_t + \hat{Q}_{t+1}) + (1-α_t)·(R_t + \hat{Q}_{t+1} - \text{tail correction}) + \text{influence term}\),使得对 ν_t 的估计误差在回归中仅产生二阶影响(只需 \(n^{-1/4}\) 收敛率)。 - 然后通过标准回归(如最小二乘)将 \(\tilde{Y}_t\) 投影到 Q 函数空间,得到稳健 Q 估计。

策略优化 [0:35:35–0:38:50] - FQI 框架:从 t=T-1 到 0,每步: 1. 用当前数据估计条件分位数 ν_t(单独模型)。 2. 构造正交化伪结果 \(\tilde{Y}_t\)。 3. 回归 \(\tilde{Y}_t \sim (S_t,A_t)\) 得到 \(\hat{Q}_t^{rob}\)。 - 对于优化,在每一步取 max 动作(exploit)——即 \(\hat{π}_t(s) = \arg\max_a \hat{Q}_t^{rob}(s,a)\)

理论保障 [0:38:55–0:41:10] - 核心挑战:离线 RL 需要两种假设:(1) concentrability(类似 overlap)——行为策略覆盖评价策略的状态访问分布;(2) realizability(近似闭性)——Q 函数类和分位数类在 Bellman 算子下接近封闭。 - 主要结论:在合理假设下,稳健 FQI 的 suboptimality(与最优稳健策略的差距)以 \(\sqrt{C / n}\) 的速率收敛(C 是 concentrability 系数),且正交化将 quantile 误差的影响降至二阶。 - 对于线性函数逼近,还有渐近正态结果(用于推断)。

实证:MIMIC 脓毒症数据 [0:41:15–0:47:00] - 动作空间:5×5=25 个离散化的 vasopressors & IV fluids 水平;状态包括 demographics 和动态 vitals (2M+1 维)。 - 比较:nominal policy(不稳健)vs. robust policy(Λ=2)。 - 发现:nominal policy 在稳健评价下估值极低(因为 LL 高估);robust policy 倾向于降低治疗量(减少方差),但对部分高风险患者仍加强治疗。 - 显示敏感性分析可用于评估 naive 策略的风险。

讨论与拓展 [0:47:00–1:06:30] - Qingyuan Zhao 讨论:将工作嵌入 MDP vs. DTR 的统一框架(ADMG 语言);指出 SE-UC 假设限制了未观测混杂的动态(无依赖),并提出三个问题: 1. 为何选择伪结果法?答:因为需估计整个 Q 函数用于优化,而 not just average value。 2. s-rectangularity 的含义?答:保证每个 (s,a) 的权重独立优化,否则需要更复杂的算法(如联合优化)。 3. 能否推广到 POMDP(如 u 有依赖)?答:可以但会丧失马尔可夫性,导致历史依赖般的 nuisance,需要不同的统计处理(引用 Zhang & Jiang 最近的工作)。

四、对应论文与开放问题

对应论文(依据 arXiv 2302.00662 和幻灯片确认): - 标题Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders - 作者:David Bruns-Smith, Angela Zhou - 年份:2023(arXiv 初版 2023-02-01,更新多次) - 发表/arXiv:2302.00662 - :讲者 Angela Zhou 提到“David 有一篇 prior paper on robust identification for FQE but not handling function approximation”,可确认该作者身份。

开放问题(基于报告及讨论): 1. 放松 SE-UC 假设:若 U_t 具有跨期依赖(即 POMDP),则当前方法不再适用。讲者提到[1:05:50]可以形式上写出bounds,但需与历史相关的 nuisance,统计速率会更差。Qingyuan Zhao 建议参考“well-mixing”近似(Huan W., 2024)。可能的问题:能否定量刻画 POMDP 下稳健估计的不可避免的代价(minimax lower bound)? 2. 改进 concentrability 依赖:当前 regret 界中的系数 C 可能随 horizon 指数增长。讲者[0:39:20]承认这一点,并说“可以用不同算法改善”。可能的问题:是否存在算法能在较弱 concentrability(如单步覆盖)下达到多项式样本复杂度? 3. s-rectangularity 的推广:如果约束是跨 (s,a) 的(如平均 odds ratio),则 robust Bellman 算子不再有简单形式。讲者[1:04:10]指出需要更高级算法。可能的问题:能否利用产生式 adversary 或 reparametrization 来近似非矩形集? 4. 与其它去偏方法的比较:Qingyuan Zhao 问为何伪结果法?讲者回应是因为政策优化需要整个 Q 函数。潜在开放:对于纯评估(不优化),是否可以用更简单的单步 IF 方法(如 DML for MSM)获得更好的效率? 5. 条件分位数估计的实践问题:当前方法需要估计高维条件分位数,虽然理论上只需 n^{-1/4} 速率,但实践中在深度网络下可能不稳定。可能的问题:是否有更稳健的分位数估计策略(如分位回归森林)在 RL 数据下的经验表现?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论