Distributional Off-Policy Evaluation in Reinforcement Learning¶

作者: Zhengling Qi, Chenjia Bai, Zhaoran Wang, Lan Wang
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 7/10
机构绿灯: Northwestern University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2506197

一、领域脉络与小综述¶

1.1 这个方向是什么¶

强化学习（RL）中的离策略评估（off-policy evaluation, OPE）关注的是：给定一个由行为策略（behavior policy）\( \pi_b \) 生成的历史数据集（轨迹集合），在无需与环境交互的前提下，估计目标策略（target policy）\( \pi_e \) 下某个状态-动作对的长期累积回报的数值（通常为期望值）。传统OPE聚焦于期望值及其置信区间。近年来，分布化强化学习（distributional RL）的进展表明，将累积回报视为一个随机变量、估计其完整分布（而非仅均值），能在许多应用（如风险敏感控制、多元奖励下的决策）中带来显著收益。该方向将OPE从“标量期望估计”推广到“分布估计”，本文正是这一推广在批处理（batch）设定下的统计方法贡献。

1.2 发展脉络¶

奠基工作：期望值OPE与重要性采样——早期的OPE方法（如Precup, 2000; Sutton & Barto, 2018 等）利用重要性采样（IS）对离策略数据加权，得到策略价值的无偏估计。该方向在统计上等价于因果推断中的逆概率加权（IPW），渐近方差为所熟知。留下口子：只估计均值，丢失了分布信息。
分布化RL的兴起——Bellemare et al. (2017) 提出C51算法，首次将深度Q网络中的回报分布用分类分布建模，实验效果显著。Dabney et al. (2018) 提出基于分位数回归的QR-DQN，将分布表示为均匀分位数。Rowland et al. (2019) 给出了分布化RL的理论基础：分布动态规划（distributional Bellman operator）和收缩性质。留下口子：这些方法主要在在线（online）或仿真（simulation）设定下工作，离策略分布估计的统计性质（尤其是点估计的误差界）尚未严格刻画。
离策略分布评估的探索——部分工作（如Chandak et al., 2021; Rowland et al., 2019）尝试在离策略下估计回报分布，但或局限于有限时域（horizon），或仅处理标量奖励且需要精确已知的状态转移概率。瓶颈：对多元奖励（multivariate reward）的联合分布估计、无限时域下Wasserstein距离的有限样本理论，仍基本空白。
本文的位置：本文在无限时域MDP、多元奖励、批数据设定下，提出一种基于Wasserstein距离的离策略分布估计方法，并给出了修正Wasserstein度量下的有限样本误差界（依赖于轨迹数\(N\)和每条轨迹的决策点数量\(T\)）。这是首次将分布化OPE的统计性质以有限样本形式建立起来，且允许奖励为多变量，直接对应实际多目标优化场景。

1.3 子线索聚类¶

线索1：基于重要性采样的OPE方法（如Precup 2000, junta de Leeuw等）——处理单变量或多变量期望值，方差可调控（如加权IS、自标准化IS），但无分布信息。
线索2：分布化RL的理论与算法（Bellemare 2017, Dabney 2018, Rowland 2019）——定义并分析distributional Bellman operator，证明Wasserstein距离下的收缩性，提供在线/仿真算法。本文直接沿用其中的Wasserstein距离框架。
线索3：离策略分布评估的批估计（Chandak 2021, Rowland 2020 arXiv等）——在有限时域或已知\(P\)假设下用IS估计分布，但均未处理无限时域下的联合多元分布及统计误差界。本文填补此空白。

1.4 核心追问问题¶

在无限时域MDP中，给定批数据，目标策略下累积回报的完整分布是否可识别？需要什么条件（覆盖性、平稳性）？
如何同时估计多变量奖励的联合分布？Wasserstein距离是否提供合适度量？
估计量的收敛速度如何？与轨迹数量\(N\)、轨迹长度\(T\)的关系？
是否存在比直接IS更有效的分布估计策略（例如用非参数分位回归替代密度估计）？

1.5 ⚠️ 作者的framing（基于abstract推断）¶

作者将其工作框架为：“现有OPE方法主要关注期望值，而分布化RL的成功表明分布估计有额外价值，但离策略分布估计的统计理论尚缺。我们首次在无限时域、多元奖励、批数据设定下给出带有有限样本误差界的方法。” 这种框架将本文塑造为“分布化OPE的第一个严格统计方法”。它有意淡化了： - 有限时域下的已有离策略分布估计工作（如Chandak 2021），强调“无限时域”与“多元奖励”两个扩展； - 在线分布化RL中已有Wasserstein收敛性质（Rowland 2019），将其视为理论背景而非竞争方法。

可能的缺失引用：在100篇引文中，若存在利用einstein-sum或张量收缩分析OPE计算复杂度的工作，本文未提及（这与研究者U统计量兴趣相关）。由于我们没有论文全文bibliography，此处仅为提醒：若本文参考文献中缺乏关于分布估计计算复杂度的讨论，值得留意。

1.6 张力¶

未见明显对立引用。分布化RL与期望OPE之间无根本矛盾，仅目标不同。在批设定下，分布估计的方差通常远大于期望估计，但需要权衡风险敏感度。本文未提供与期望估计的方差对比，这可能是一个潜在空白。

二、最核心、最简单的例子 / 数学问题¶

2.1 符号、模型、可观测数据¶

考虑一个最简单的 无限时域折扣MDP：

状态空间 \(\mathcal{S} = \{s_0, s_1\}\)（两个状态），动作空间 \(\mathcal{A} = \{a_0, a_1\}\)（两个动作）。
折扣因子 \(\gamma \in (0,1)\)。
奖励函数是二维的（multivariate）：\(\mathcal{R}: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}^2\)，例如 \(R(s,a) = (R_1, R_2)\)，其中 \(R_1, R_2\) 是独立的二进制变量（0/1）。
转移核 \(P(s' | s,a)\) 已知（本例中设定为确定性转移，以简化）。
目标策略 \(\pi_e(a|s)\) 已知，例如 \(\pi_e(a_0 | s) = 0.7\)，与行为策略 \(\pi_b\)不同。
行为策略 \(\pi_b(a|s)\) 用于生成数据。

可观测数据：我们收集了 \(N\) 条独立轨迹。每条轨迹由行为策略 \(\pi_b\) 生成，从某个初始分布 \(d_0\) 开始，运行 \(T+1\) 个时间步（即 \(T\) 个转移，观测到 \(T\) 个奖励向量）。具体地，第 \(i\) 条轨迹为：

\[\tau_i = \{s_0^{(i)}, a_0^{(i)}, r_0^{(i)}, s_1^{(i)}, a_1^{(i)}, r_1^{(i)}, \dots, s_T^{(i)}\}\]

其中 \(r_t^{(i)} \in \mathbb{R}^2\) 是时刻 \(t\) 的实际奖励向量。

潜在量（想要但观测不到）： - 在目标策略 \(\pi_e\) 下，从给定初始状态-动作对 \((s, a)\) 出发，后续累积折扣回报的分布：

\[G(s,a) = \sum_{t=0}^\infty \gamma^t R_t, \quad \text{其中 } R_t \text{ 是在 } \pi_e \text{ 下生成的}\]

这是一个 \(\mathbb{R}^2\) 上的随机向量。我们只能通过BS数据的加权估计来逼近它的分布。

估计目标：对于任意固定的 \((s,a)\)，构造 \(G(s,a)\) 的分布估计量 \(\hat{G}(s,a)\)，并在某种度量（如修正的2-Wasserstein距离）下衡量误差。

2.2 最小内核：二维奖励的二阶段简化¶

将无限时域截断为 \(H=2\) 步（horizon 2），即只考虑两步累积回报。设初始状态-动作为 \((s,a)\)，后续两步奖励分别为 \(R_0, R_1\)（均为二维0-1向量，独立?）。在 \(\pi_e\) 下，从 \((s,a)\) 出发，第一步按 \(R(s,a)\) 生成 \(R_0\)，然后转移到 \(s_1 \sim P(\cdot|s,a)\)，在 \(s_1\) 下按 \(\pi_e\) 选择动作后再生成 \(R_1\)，接着终止。累积回报 \(G = R_0 + \gamma R_1\)，取值于 \(\{0,1,2\}^2\) 共9种可能。

离策略数据：由 \(\pi_b\) 生成的大量轨迹，每条包含初始 \((s,a)\)（可多次出现）。对于其中每一条轨迹，若初始状态-动作正是我们关心的 \((s,a)\)，我们记录其后续两步的真实奖励（在 \(\pi_b\) 下产生），记作 \((\tilde R_0^{(j)}, \tilde R_1^{(j)})\)。

核心想法：使用重要性采样（IS）权重来纠正策略偏差。在第一步，重要性权重为 \(w_0 = \frac{\pi_e(a_0|s)}{\pi_b(a_0|s)}\)；第二步，给定第一步所选动作 \(a_0\) 和转移到的状态 \(s_1\)，权重为 \(w_1 = \frac{\pi_e(a_1|s_1)}{\pi_b(a_1|s_1)}\)。两步联合权重为 \(w_0 w_1\)。但分布估计不同于期望估计——我们不能简单加权平均，而是想要整个加权经验分布的估计。

作者的方法（在我们的简化中）：将每个观测到的二维累积回报点 \((\tilde R_0^{(j)} + \gamma \tilde R_1^{(j)})\) 赋予权重 \(w_0^{(j)} w_1^{(j)}\)，形成一个加权经验分布 \(\hat{P}_N\)（可能通过核平滑来变成连续分布）。然后用Wasserstein距离 \(\mathcal{W}_2(\hat{P}_N, \mu_e)\) 作为误差度量，其中 \(\mu_e\) 是真正的目标分布（连续型或离散型）。为了得到有限样本界，作者引入“修正Wasserstein度量”：例如对分布加上Lipschitz正则化或切比雪夫截断，使经验测度在紧支撑上收敛。

最小内核的数学：假设奖励分布是离散且支持已知，则分布估计问题退化为概率质量向量的估计。权重和形成一个对每个质点的概率估计。作者提供的误差界则给出 \(\max_{k} |\hat{p}_k - p_k|\) 的上界，以高概率成立，且依赖于 \(N\) 和 \(T\)。这一步抓住了整个论文的数学核心：用IS权重构造经验分布，然后利用U-统计量/经验过程理论控制Wasserstein距离。

三、这篇论文做了什么¶

3.1 三句话（基于abstract + 领域理解推断）¶

问题：在无限时域、多元奖励的MDP中，利用行为策略生成的轨迹数据，估计目标策略下任意初始状态-动作对的累积折扣回报的联合分布（而非仅期望）。
方法：提出一个基于重要性抽样加Wasserstein距离的离线估计器，通过对每条轨迹的累积回报赋予IS权重，形成加权经验分布，并以修正的2-Wasserstein距离作为误差度量。
结论：给出了该估计量在修正Wasserstein度量下的有限样本误差界，该界同时依赖于轨迹数 \(N\) 和每条轨迹的时间步数 \(T\)；数值实验显示 superior performance。

3.2 关键设定与假设（推断性，需对照原文验证）¶

无限时域折扣MDP：状态空间和动作空间可以是连续的（但方法可能需要在有限维参数化下实现）。折扣因子 \(\gamma <1\) 确保回报几乎必然有限。
奖励多元：每步奖励 \(R_t \in \mathbb{R}^d\)，假设各分量有界（或次高斯分布），使得Wasserstein距离良好定义。
覆盖性（coverage）假设：行为策略在目标策略下的状态-动作路径有非零概率支持，即 \(\pi_b(a|s)>0\) 当 \(\pi_e(a|s)>0\)，以确保IS权重有限。
Markov假设：轨迹满足Markov性质（即当前状态包含了决策所需全部信息）。
修正Wasserstein度量：作者可能采用 \(\mathcal{W}_2(\hat{P}, P)\) 加上一项经验似然惩罚或截断，以处理分布支撑的紧致性问题。

与已有文献对比：本文放宽了“有限时域”或“已知转移核”的限制，允许无限时域和多变量奖励，但对IS权重的尾部分布有一定要求（如权重矩有界）。

3.3 主要结果（基于abstract推测，详细内容需原文）¶

结果1（误差界形式）：存在常数 \(C\)（与 \(\gamma\)、奖励边界、策略覆盖度有关），使得对任意置信水平 \(\delta \in (0,1)\)，以至少 \(1-\delta\) 的概率，有

\[\mathcal{W}_{2,\text{mod}}(\hat{G}_{N,T}(s,a), G_*(s,a)) \le C \left( \frac{\log(1/\delta)}{N} \right)^{1/2} + \gamma^{T/2} \cdot (\text{截断误差})\]

第一项为IS引起的方差（随 \(N\) 以 \(1/\sqrt{N}\) 衰减），第二项为时域截断误差（随 \(T\) 指数衰减）。该界提供了一个权衡：有限轨迹长度 \(T\) 带来的偏差和IS方差。

结果2（多元奖励情况下的维数影响）：若奖励分量为 \(d\) 维，则误差界可能以 \(\sqrt{d}\) 或 \(d\) 增长（取决于Wasserstein距离对维度的敏感度）。作者可能通过修正度量或使用切片Wasserstein距离来缓解维度灾难。

3.4 证明路线与技术技巧（推断性）¶

整体路线（基于典型经验过程加Wasserstein界的思路）：

截断与分解：将无限时域截断至前 \(T\) 步，剩余部分视为截断误差项，利用 \(\gamma^{T}\) 约束其Wasserstein距离。
重要性抽样构造：对每条轨迹 \(i\)，计算累计IS权重 \(w_i = \prod_{t=0}^{T-1} \frac{\pi_e(a_t^{(i)}|s_t^{(i)})}{\pi_b(a_t^{(i)}|s_t^{(i)})}\)，并定义加权经验分布 \(\hat{P}_N = \frac{1}{N} \sum_{i=1}^N w_i \delta_{Z_i}\)，其中 \(Z_i = \sum_{t=0}^{T-1} \gamma^t r_t^{(i)}\)（注意这里奖励是向量，所以 \(Z_i \in \mathbb{R}^d\)）。
从经验测度到Wasserstein距离：使用平行四边形不等式将 \(\mathcal{W}_2(\hat{P}_N, P_*)\) 分解为 \(\mathcal{W}_2(\hat{P}_N, \tilde{P}_N) + \mathcal{W}_2(\tilde{P}_N, P_s)\)，其中 \(\tilde{P}_N\) 是基于目标策略下无限时域的理想经验分布（不可得），通过使用水平集（level set）或样本分割来处理IS权重带来的偏差。
经验过程界：利用 empirical process theory 和 weighted U-statistics 控制 \(\mathcal{W}_2(\hat{P}_N, \tilde{P}_N)\)。由于Wasserstein距离等价于对一类Lipschitz函数的 supremum，这归结为对函数类 \(\mathcal{F}_{\text{Lip}}\) 的 uniform bound。
矩界和浓度：假设IS权重对某个 \(p>1\) 有 \(p\) 阶矩有限，则可用 Bernstein 不等式或 Van der Vaart 的交换性引理。最终得到主项 \(O_p(N^{-1/2})\)。

关键跳跃点： - 如何处理重要性权重乘积的无界性？作者可能使用截断（truncation）或自我归一化（self-normalized IS）技巧，并在假设中要求权重矩有界。 - 有限时域截断误差与无限时域的理论对接需要利用distributional Bellman operator的收缩性质（Rowland 2019），这是分布化RL的核心工具。作者引用了该结果来证明截断后的分布与真实分布的Wasserstein距离以 \(\gamma^T\) 上界。

技术技巧点名： - Wasserstein distance的 Kantorovich-Rubinstein 对偶：将分布距离转化为函数 supremum。 - 重要性抽样与经验过程结合：在经验过程论文献中，加权经验度量（weighted empirical measure）的收敛性已经成熟，作者需针对权重尾部分布调整。 - 自我归一化重要性采样（SNIS）：可能用于避免权重爆炸，并得到更紧的界（但会引入偏差）。 - 分布化Bellman等式：利用 \(d_p(\pi_* \Pi, \mu) \le \gamma d_p(\mu, \nu)\) 来将截断误差缩小。

3.5 真实例子与应用（基于abstract及作者信息推断）¶

论文包含广泛的数值模拟（extensive numerical studies）。由于我们无具体内容，只能假设典型实验设计：

环境：使用Gym或自定义网格世界，奖励为二维（如速度与能量消耗）。行为策略为随机策略，目标策略为接近最优的贪婪策略。
比较基线：直接使用期望OPE方法（只能得到均值）以及分位数回归等分布估计简化版。
结果：文中指出“superior performance”，例如本文方法估计的分布更接近真实分布，尤其在多元奖励下联合分布更能捕获相关性。

例子说明的问题：验证了所提出的误差界（随 \(N,T\) 增加而衰减）在实际有限样本下成立，且相比不校正的IS或仅均值方法提供更丰富的分布信息。

3.6 🔎 结论是否比证明窄¶

在无限时域设定下，作者可能必须假定某个Horizon \(T\) 截断并给出误差上界。这意味着结论只适用于 有限记忆（\(T\) 步之后截断） 情形，而无限时域理论上的统一误差界需额外的平稳性假设（如状态分布混合）。若未明确说明，则结论比理论上宣称的“无限时域”窄。
另一个风险：修正Wasserstein度量可能只在奖励有界且支撑紧时等价于标准Wasserstein，对于无界奖励（如高斯奖励）结论可能不直接适用。abstract中未明确，需查原文假设。
多元奖励情况下，界中的维度影响可能被低估（例如以 \(d^{1/2}\) 形式出现），但若实际任务中 \(d\) 很大，该界可能很松散。论文可能未提供高维模拟验证。

四、开放问题（点到为止）¶

计算-统计权衡：本文方法需计算每条轨迹的IS权重乘积，当 \(T\) 大时权重方差指数增长。是否存在多项式时间算法能在保持统计精度的同时控制计算量？这与“多项式时间可能性”和“信息-计算缺口”相关，扎根于本文有限样本界中的方差项依赖于权重矩。（扎根点：误差界中权重矩的假设需要验证）
高维奖励下的Wasserstein估计：对 \(d \gg 1\)，经验Wasserstein距离有维度灾难（\(N^{-1/d}\) 速率）。本文是否引入了某种结构假设（如低维流形）来缓解？若没有，则直接适用于高维多元奖励的实际效果存疑。（扎根点：abstract中未注明维数限制）
分布化OPE的半分参数效率界：本文给出了有限样本界但未证明效率性（如半参数效率下界）。是否存在一个类似于均值估计中“IS+DR”的渐进有效分布估计量？这直接对接该研究者的半参数理论兴趣。（扎根点：本文标题含“distributional off-policy evaluation”，但未提效率界，属于自然拓展）
基于U统计量的高效实现：当奖励为多变量且维数中等时，加权IS估计量的计算复杂度可能很高，尤其是需要计算Wasserstein距离。能否利用研究者熟知的张量网络（einsum） 结构来加速权重加权累积回报的求值？（扎根点：若本文未探讨实现细节，则与研究者计算兴趣有可交叉之处）

⚠️ 本报告因缺乏论文完整引言、参考文献及主要被引摘要，部分内容基于abstract和领域通用知识推断。建议研究者获取原文后首先核对： - 第三节的假设列表与误差界的确切形式 - 证明中使用的Wasserstein距离对偶形式是否为2-Wasserstein（Kantorovich-Rubinstein对偶） - 多元奖励的维度是否被明确处理这些细节将直接影响该论文在研究者自己框架下的可推广性与可改进性。

Maintained by 陈星宇 · Homepage · Source on GitHub