Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders¶

讲者: Angela Zhou
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-29
主题: 因果推断
视频: https://youtu.be/isWP1pdCI_U · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2302.00662 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

方向定位：离线强化学习（Offline RL）中的稳健策略评估与优化，当观测数据可能受时序外生未观测混杂（Sequentially Exogenous Unobserved Confounders, SE-UCs） 影响时，如何依然给出有意义的性能界。

该子方向追问的核心： - 在真实决策（如医疗）中，离线数据来自某个行为策略（behavior policy）π_b，该策略可能依赖未观测变量（如医生未记录的临床判断），导致标准 off-policy 估计（如 fitted Q-iteration）产生偏差。 - 如何引入敏感性分析——假设混杂强度被一个参数 Λ 所界定——从而将点识别替换为部分识别，得到 Q 函数和价值函数的下/上界？ - 进一步，如何在这些界下进行稳健策略优化（worst-case optimal policy）？

奠基与主流路线： 1. 边际敏感性模型（Marginal Sensitivity Model, MSM）：由 Zhao et al. (2019, JRSS-B) 系统化，比较未观察到的行为策略 π_b(a|s,u) 与观测可估计的“边际”概率 π_b^obs(a|s) 的 odds ratio 被 Λ 界定。该模型在单时间步因果推断中已有闭合形式下/上界（Dorn & Guo, 2022, Biometrika）。 2. 离线 RL 中的 fitted Q-iteration (FQI)：通过递归回归估计 Q 函数，形式简单、实证表现好（Fu et al., 2021, ICLR 基准）。但标准 FQI 假定无未观测混杂（即 π_b 只依赖观测状态）。 3. 稳健 MDP：在转移概率的不确定性集上定义稳健 Bellman 算子，需要“s-rectangularity”以保证动态规划可行（Nilim & El Ghaoui, 2005; Iyengar, 2005）。

这场报告的站位： - 它将 MSM 从单时间步推广到多时间步时序设定，同时利用了 FQI 的计算简便性（仅需序列回归），避免了重要性采样（IS）在长 horizon 下的方差爆炸。 - 关键技术突破：证明了在 SE-UC 假设下，每个时间步的稳健 Bellman 算子可以写为闭合形式的条件期望短尾（conditional expected shortfall），然后通过添加正交化（orthogonalization）项来降低对条件分位数估计的敏感度（只需 n^{1/4} 收敛率），使整体估计达到 √n 收敛率的 regret。 - 与同类工作的关键区别：与 Bruns-Smith & Zhou (2023, 相近但未解决函数逼近的版本) 不同，本工作处理了函数逼近（deep learning / RKHS），并给出了有限样本界。

二、最小内核 / 一个最简例子¶

符号与模型： - 可观测数据：(S_t, A_t, R_t, S_{t+1}){t=0}^{T-1}，其中 S_t ∈ S 是观测状态，A_t ∈ {0,1}（二值动作），R_t ∈ ℝ 是即时奖励。未观测混杂 U_t ∈ U 未被记录。 - 完整 MDP：状态 = (S_t, U_t)，行为策略 π_b(a | s, u)，转移概率 P(s', u' | s, u, a)。 - 目标：评估或优化一个仅依赖观测状态的评价策略 π_e(a | s) 的期望累积奖励 V_0^{π_e} = E[∑{t=0}^{T-1} R_t | π_e]。 - 关键假设（SE-UC）：新一期的未观测混杂与历史独立，给定最新观测状态：U_{t+1} ⊥ (S_t, U_t, A_t) | S_{t+1}，∀t。这使得边际观测转移 P_obs(s' | s, a) 是马尔可夫的，且可通过 π_b^obs(a|s) = ∫ π_b(a|s,u) dP(u|s) 描述——但 π_b^obs(a|s) 不能从数据中直接识别（因为混入了 U_t）。

最简特例：单时间步（T=1），二值动作 A∈{0,1}，无后续状态。 - 那么 Q 函数退化为 E[R | S=s, A=a]（即 CATE 的逆概率加权形式）。 - 标准识别假设（无混杂）下：E[R | s,a] = E_obs[R | s,a]。 - 在 MSM 下，混杂的偏差体现在：

\[\frac{π_b(a|s,u)}{π_b^{obs}(a|s)} \in [L(s,a), U(s,a)], \quad 其中 L,U 只依赖 π_b^{obs}(a|s) 和 Λ。\]

上界/下界可由 Dorn & Guo (2022) 的闭合形式得到：

\[Q^+(s,a) = E_obs[ R · w^+(s,a,R) | s,a ], \quad w^+ 是某种截断权重.\]

- 稳健 Bellman 算子在该特例下即为直接计算条件期望的极值，不涉及递归。

多步推广（T>1）： - 在 SE-UC 假设下，每个时间步的稳健 Bellman 算子可以独立计算，因为 U_t 不跨期依赖。这使得稳健 FQI 可递归进行：从 t=T-1 开始，估计稳健 Q_T，然后将其作为 t-1 时刻的 Bellman 目标的一部分。 - 正交化项（orthogonalization）是为了减小对条件分位数 ν_t(s,a) 的依赖。该分位数出现在稳健算子的闭合形式中（因为涉及条件短尾），添加一个均值为零的修正项后，回归目标变为：

\[\tilde{Y}_t = α_t·(\text{outcome}) + (1-α_t)·(\text{tail part}) + \text{influence correction}.\]

其中 α_t 由 Λ 和条件分位数导出。

三、报告主体：讲者讲了什么¶

动机与问题 [0:01:05–0:06:15] - 以 sepsis 治疗为例，医疗 AI 论文（如“AI Clinician”在 Nature Medicine）因忽略未观测混杂而受批评。FDA 也关注算法对变化的临床输入是否稳健。 - 目标：从观测数据（MIMIC-III）出发，在混杂存在时仍能获得有效策略性能的界。

问题设置 [0:06:20–0:13:50] - 定义 MDP with full-information state (S_t, U_t)：s 是观测患者 vitals，u 是医生脑中未记录的 clinical judgment。 - 假设奖励只依赖观测状态 R(s,a) —— 未观测混杂仅影响动作选择和状态转移，不直接影响奖励。 - SE-UC 假设：U_{t+1} ⊥ (S_t, U_t, A_t) | S_{t+1}（幻灯片第15页）。即 U_t 不随时间序列相关，是“外生”的。 - 观测数据来自 π_b(a|s,u)，研究者只能得到 (S_t, A_t, R_t, S_{t+1}) 序列。 - 目标：作 bounds 而非点估计。

核心方法 [0:13:55–0:25:00] - 边际敏感性模型 (MSM)：

\[\frac{1}{Λ} ≤ \frac{π_b(a|s,u)}{π_b^{obs}(a|s)} ≤ Λ, \quad ∀ s,a,u.\]

其中 π_b^{obs}(a|s) = E_{U|s}[π_b(a|s,U)] 可从数据估计。 - 权重函数 w_t(s,a) := π_b(a|s,u) / π_b^{obs}(a|s) 落在 [L(s,a), U(s,a)] 区间内。 - 稳健 Bellman 算子：

\[\mathcal{T}^{rob} Q_{t+1}(s,a) = \inf_{w \in \mathcal{W}} E_obs[ w(s,a)·(R_t + E_{π_e}[Q_{t+1}]) | s,a ],\]

其中 \mathcal{W} 由 MSM 和 martingale condition（权重条件期望为1）定义。因为 u 被积分掉，这等价于对转移概率的 s-rectangular 不确定性集优化。 - 关键：该算子有闭合形式（基于 Dorn & Guo 2022 的结果）：

\[\mathcal{T}^{rob} Q_{t+1}(s,a) = α_t(s,a) · E_obs[ R_t + ... | s,a ] + (1-α_t(s,a)) · E_obs[ R_t+... | R_t+... ≤ ν_t(s,a), s,a ],\]

其中 α_t 由 Λ 和条件分位数 ν_t 决定。

正交化回归 [0:25:05–0:35:30] - 直接使用上述闭合形式需要估计条件分位数 ν_t(s,a)，这是一个高维 nuisance function。 - 提出正交化伪结果：构造 \(\tilde{Y}_t = α_t·(R_t + \hat{Q}_{t+1}) + (1-α_t)·(R_t + \hat{Q}_{t+1} - \text{tail correction}) + \text{influence term}\)，使得对 ν_t 的估计误差在回归中仅产生二阶影响（只需 \(n^{-1/4}\) 收敛率）。 - 然后通过标准回归（如最小二乘）将 \(\tilde{Y}_t\) 投影到 Q 函数空间，得到稳健 Q 估计。

策略优化 [0:35:35–0:38:50] - FQI 框架：从 t=T-1 到 0，每步： 1. 用当前数据估计条件分位数 ν_t（单独模型）。 2. 构造正交化伪结果 \(\tilde{Y}_t\)。 3. 回归 \(\tilde{Y}_t \sim (S_t,A_t)\) 得到 \(\hat{Q}_t^{rob}\)。 - 对于优化，在每一步取 max 动作（exploit）——即 \(\hat{π}_t(s) = \arg\max_a \hat{Q}_t^{rob}(s,a)\)。

理论保障 [0:38:55–0:41:10] - 核心挑战：离线 RL 需要两种假设：(1) concentrability（类似 overlap）——行为策略覆盖评价策略的状态访问分布；(2) realizability（近似闭性）——Q 函数类和分位数类在 Bellman 算子下接近封闭。 - 主要结论：在合理假设下，稳健 FQI 的 suboptimality（与最优稳健策略的差距）以 \(\sqrt{C / n}\) 的速率收敛（C 是 concentrability 系数），且正交化将 quantile 误差的影响降至二阶。 - 对于线性函数逼近，还有渐近正态结果（用于推断）。

实证：MIMIC 脓毒症数据 [0:41:15–0:47:00] - 动作空间：5×5=25 个离散化的 vasopressors & IV fluids 水平；状态包括 demographics 和动态 vitals (2M+1 维)。 - 比较：nominal policy（不稳健）vs. robust policy（Λ=2）。 - 发现：nominal policy 在稳健评价下估值极低（因为 LL 高估）；robust policy 倾向于降低治疗量（减少方差），但对部分高风险患者仍加强治疗。 - 显示敏感性分析可用于评估 naive 策略的风险。

讨论与拓展 [0:47:00–1:06:30] - Qingyuan Zhao 讨论：将工作嵌入 MDP vs. DTR 的统一框架（ADMG 语言）；指出 SE-UC 假设限制了未观测混杂的动态（无依赖），并提出三个问题： 1. 为何选择伪结果法？答：因为需估计整个 Q 函数用于优化，而 not just average value。 2. s-rectangularity 的含义？答：保证每个 (s,a) 的权重独立优化，否则需要更复杂的算法（如联合优化）。 3. 能否推广到 POMDP（如 u 有依赖）？答：可以但会丧失马尔可夫性，导致历史依赖般的 nuisance，需要不同的统计处理（引用 Zhang & Jiang 最近的工作）。

四、对应论文与开放问题¶

对应论文（依据 arXiv 2302.00662 和幻灯片确认）： - 标题：Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders - 作者：David Bruns-Smith, Angela Zhou - 年份：2023（arXiv 初版 2023-02-01，更新多次） - 发表/arXiv：2302.00662 - 注：讲者 Angela Zhou 提到“David 有一篇 prior paper on robust identification for FQE but not handling function approximation”，可确认该作者身份。

开放问题（基于报告及讨论）： 1. 放松 SE-UC 假设：若 U_t 具有跨期依赖（即 POMDP），则当前方法不再适用。讲者提到[1:05:50]可以形式上写出bounds，但需与历史相关的 nuisance，统计速率会更差。Qingyuan Zhao 建议参考“well-mixing”近似（Huan W., 2024）。可能的问题：能否定量刻画 POMDP 下稳健估计的不可避免的代价（minimax lower bound）？ 2. 改进 concentrability 依赖：当前 regret 界中的系数 C 可能随 horizon 指数增长。讲者[0:39:20]承认这一点，并说“可以用不同算法改善”。可能的问题：是否存在算法能在较弱 concentrability（如单步覆盖）下达到多项式样本复杂度？ 3. s-rectangularity 的推广：如果约束是跨 (s,a) 的（如平均 odds ratio），则 robust Bellman 算子不再有简单形式。讲者[1:04:10]指出需要更高级算法。可能的问题：能否利用产生式 adversary 或 reparametrization 来近似非矩形集？ 4. 与其它去偏方法的比较：Qingyuan Zhao 问为何伪结果法？讲者回应是因为政策优化需要整个 Q 函数。潜在开放：对于纯评估（不优化），是否可以用更简单的单步 IF 方法（如 DML for MSM）获得更好的效率？ 5. 条件分位数估计的实践问题：当前方法需要估计高维条件分位数，虽然理论上只需 n^{-1/4} 速率，但实践中在深度网络下可能不稳定。可能的问题：是否有更稳健的分位数估计策略（如分位回归森林）在 RL 数据下的经验表现？

Maintained by 陈星宇 · Homepage · Source on GitHub