Efficient evaluation of natural stochastic policies in off-line reinforcement learning¶

作者: Nathan Kallus, Masatoshi Uehara
来源: Biometrika
主题: 因果推断
相关性: 9/10
机构绿灯: Cornell University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asad059

一、领域脉络与小综述¶

这个方向是什么¶

离线强化学习（offline RL）中的离策略评估（off-policy evaluation, OPE）问题：给定由未知行为策略 \(\pi_b\) 产生的历史轨迹数据（状态-动作-奖励-下一状态序列），目标是估计某个评估策略 \(\pi_e\) 下的长期累积奖励。经典 OPE 假设 \(\pi_e\) 是预先完全指定的（例如一个确定的 target policy）。近年的一个分支——自然随机策略（natural stochastic policies）——将评估策略定义为对 \(\pi_b\) 的某种可参数化的随机偏离，例如倾斜（tilting）或修改（modification）。这类策略的好处是：(i) 可以缓解弱重叠（weak overlap）问题（当 \(\pi_e\) 与 \(\pi_b\) 在某个状态-动作对的覆盖极差时，重要性采样方差爆炸）；(ii) 构建的评估策略更接近实际，例如在医疗中，将现行治疗方案做微小倾斜以评估一个更保守的版本。然而，因为 \(\pi_e\) 本身依赖于未知的 \(\pi_b\)，评估任务变成了在 \(\pi_b\) 未知的条件下同时估计 \(\pi_e\)，这使得半参数效率界相对于已知 \(\pi_e\) 的情形被“膨胀”。本文就是为这类自然随机策略推导效率界并构造达到该界的高效估计量。

发展脉络（基于常见引用与摘要推断）¶

奠基工作：Precup (2000) 引入重要性采样（IS）估计器用于 OPE；Dudík et al. (2011) 提出了 doubly robust (DR) 估计器，将 IS 与回归估计结合。这阶段所有评估策略 \(\pi_e\) 都是预先指定的。
主要进展：Thomas & Brunskill (2016) 发展了更紧的置信区间和 IS 变体；Jiang & Li (2016) 提出 MAGIC 混合方法；Kallus & Uehara (2019, 2020) 在 Biometrika 和 JASA 上系统构建了 OPE 的半参数效率界，并给出了基于效率影响函数（EIF）的高效非参数估计量——这些估计量在预先指定 \(\pi_e\) 下达到半参数效率界（即 Cramér-Rao 下界渐近意义）。
当前 frontier：实际应用中，人们预先指定 \(\pi_e\) 往往不现实：更好的策略是让 \(\pi_e\) 基于 \(\pi_b\) 做调整，例如倾斜政策通过倾向性评分重新加权（Kallus & Zhou, 2019 关于 modified treatment policies），或者倾斜策略（Kallus, 2020 关于 tilting policies）。这些工作初步研究了这些自然随机策略的识别与估计，但效率界和最优估计量未知。
本文的位置：本文是第一个对两类自然随机策略（tilting policies 和 modified treatment policies）推导半参数效率界并构造达到效率界的高效非参数估计量的工作，填补了从“已知 \(\pi_e\)”到“\(\pi_e\) 部分未知且依赖于 \(\pi_b\)”的效率理论空缺。

子线索聚类¶

预先指定策略的 OPE 效率理论（Kallus & Uehara 2019, 2020; 另见 Robins et al. 2000 对 IPW 的效率界）：假设 \(\pi_e\) 已知，推导 EIF 和效率界。
自然随机策略的识别与估计（Kallus & Zhou 2019, Kallus 2020）：证明在这些策略下期望奖励的可识别性（通常不需要重要性权重极端），但未解决效率界。
弱重叠与稳健 OPE（Dudík et al. 2011 的 DR 已部分缓解；Swaminathan & Joachims 2015 的 normalized IS 等）：非直接针对自然随机策略，但与之动机相关。
离线策略优化（不是评估，但自然随机策略常被用于构建更安全的 policy gradient）：本文不直接涉及，但提供了评估的基础工具。

核心追问与瓶颈¶

核心问题：当评估策略未知且由 \(\pi_b\) 的函数定义时，最小渐近方差（效率界）相比已知 \(\pi_e\) 的膨胀量是多少？能否构造达到此界的估计量？
已知瓶颈：经典 OPE 假设 \(\pi_e\) 完全已知，这限制实际应用且易受弱重叠影响；现有自然随机策略的估计方法（如 IPW 变体或回归方法）是否最优？效率界缺失导致无法判断。

⚠️ 作者的 framing¶

作者的说法：作者将缺口 frame 为“尽管自然随机策略在实践中极具吸引力（缓解弱重叠、提升可实施性），但已有文献只给出了估计量，连效率界是什么都不知道”。这样一来，本文推导效率界并提出高效估计量就显然是“下一步”。
被淡化/回避的竞争路线：作者可能没有讨论那些不依赖效率理论的“实用方法”（比如将自然随机策略视为已知并直接用 DR 的那些 naive 方法，并说明它们的方差恶化）；同时，对 modified treatment policies 而言，是否存在其他非半参数但有限样本更稳健的方法（如 bootstrap 校正）未被提及。
什么明显该被引却没出现：我不确定，因为缺乏完整 intro。但理论上应引用 Robins (2004) 关于半参数模型效率界的经典（Newey, 1990 等），以及与非参数估计量交叉拟合等标准处理。

张力¶

未见明显对立引用。不同子线索基本是递进关系，而非冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

设
- \(\mathcal{S}\) = 状态空间，\(\mathcal{A}\) = 动作空间（有限离散），为简单取有限集。
- 可观测数据为离线轨迹：\(\mathcal{D} = \{(s_t, a_t, r_t, s_{t+1})\}_{t=0}^{H-1}\)，其中 \(H\) 为固定有限步长（后续可推广到折扣无限步）。
- 行为策略 \(\pi_b(a|s)\) = 产生动作的条件概率，未知，但可以通过数据估计（非参数或参数）。
- 定义评估策略为 \(\pi_e(a|s)\)，但这里 \(\pi_e\) 由 \(\pi_b\) 决定，不是预设的。
- 目标量 (estimand)：

\[J(\pi_e) = \mathbb{E}_{\pi_e}\left[ \sum_{t=0}^{H-1} \gamma^t r_t \right]\]

其中期望是关于按照 \(\pi_e\) 执行动作的轨迹（但数据是由 \(\pi_b\) 产生的）。 - 两类自然随机策略：
1. Tilting policy：\(\pi_e(a|s) \propto \pi_b(a|s) \cdot w(a,s)\)，其中 \(w\) 是已知倾斜因子（例如 \(w(a,s) = e^{\beta Q(s,a)}\)，\(\beta\) 给定）。
2. Modified treatment policy：将动作做某种已知的修正，例如始终把动作下降10%（在连续动作情形）。在离散动作下，可表示为对 \(\pi_b\) 的一个已知变换 \(g\)：\(\pi_e(a|s) = \sum_{a'} \pi_b(a'|s) \cdot \mathbb{1}\{g(a') = a\}\)（例如把政策向左偏移）。
- 可观测：轨迹 \((s_t, a_t, r_t, s_{t+1})\)；\(\pi_b\) 不可观测（只能估计）。
- 想要但观测不到：\(\pi_b\) 本身，以及反事实轨迹（若按 \(\pi_e\) 行动）。只能通过重要性权重或回归模型识别。

第二步：最小内核（最简例子）¶

考虑最简单步情形（\(H=1\)），且只有两个离散动作 \(a \in \{0,1\}\)，一个离散状态 \(s \in \{1,...,K\}\)。行为策略 \(\pi_b(a|s)\) 为未知参数（但可以非参数估计）。Tilting policy 定义：取已知常数 \(\tau>0\)，定义

\[\pi_e(1|s) = \frac{\pi_b(1|s) e^{\tau}}{\pi_b(1|s) e^{\tau} + \pi_b(0|s)},\quad \pi_e(0|s)=1-\pi_e(1|s).\]

这是基于当前 \(\pi_b\) 将动作 1 的倾向性倾斜了因子 \(e^\tau\)。那么目标量简化为：

\[J(\pi_e) = \mathbb{E}_{s\sim d_0}\left[ \mathbb{E}_{a\sim \pi_e(\cdot|s)}[r(s,a)] \right],\]

其中 \(d_0\) 是初始状态分布（可从数据中观测）。令 \(Q(s,a) = \mathbb{E}[r|s,a]\)（真实奖励函数）。则

\[J(\pi_e) = \mathbb{E}_{s}\left[ \pi_e(1|s) Q(s,1) + \pi_e(0|s) Q(s,0) \right].\]

因为 \(\pi_e(1|s)\) 是 \(\pi_b(1|s)\) 的已知函数，虽然 \(\pi_b\) 未知，但可估计。
核心困难：经典 OPE 若已知 \(\pi_e\)，可用 \(\mathbb{E}_{\pi_b}[\frac{\pi_e(A|S)}{\pi_b(A|S)} r]\) 做 IS；但这里 \(\pi_e\) 也依赖于未知 \(\pi_b\)，使得 IS 权重变成 \(\frac{\pi_e(A|S)}{\pi_b(A|S)}\)，其分母是 \(\pi_b\)，分子也需估计。一个 naive 做法是先用数据估计 \(\hat{\pi}_b\)，再代入计算 \(\hat{\pi}_e\)，然后做 IS。但方差会因\(\hat{\pi}_b\) 的估计误差膨胀。
本文要解决的问题：给出 \(J(\pi_e)\) 的最佳渐近方差（效率界），并构造一个估计量达到该界。该估计量综合了回归（对 \(Q\)）和 IS（对 \(\pi_b\)），并利用交叉拟合消除偏差。
在这个最简单步离散例子中，效率界可以显式写出：它等于

\[V_{\text{eff}} = \mathbb{E}_{s}\left[ \text{Var}_{a\sim \pi_b}\left( \frac{\pi_e(a|s)}{\pi_b(a|s)} (r - Q(s,a)) \right) \right] + \text{额外的项来自估计}\pi_b.\]

本文证明了这个膨胀项恰好是 \(\mathbb{E}_s \iiint \cdots\)（具体略）。关键点：膨胀量可写为 \(\mathbb{E}_s[ \text{Var}_{\pi_b} [\frac{\partial \pi_e}{\partial \pi_b} \cdot Q ] ]\) 的形式，体现了对 \(\pi_b\) 的敏感性。

三、这篇论文做了什么¶

三句话¶

① 针对两类自然随机策略（tilting policies 和 modified treatment policies），推导了离线 OPE 的半参数效率界，并证明该界比已知 \(\pi_e\) 情形下的界更大（膨胀）。
② 核心工具：分别在可忽略性（sequential ignorability）和 Markov 假设下，对每个自然策略，计算其有效影响函数（EIF），并利用交叉拟合（cross-fitting）与非参数回归估计构建估计量。
③ 主要结论：提出的估计量在所有满足条件（包括 \(\pi_b\) 的估计速度和模型设定）下渐近达到效率界，且具有部分双鲁棒性（partial double robustness：如果一方模型正确，即使另一方错误，估计量仍保持一致，但方差可能非最优）。

关键设定与假设¶

设定：有限水平 Markov 决策过程（MDP）或部分可观测（但假设隐含在 Markov 中）。数据由某行为策略 \(\pi_b\) 产生，各轨迹独立同分布。
假设：
可忽略性（ignorability）：\(a_t \perp (r_t, s_{t+1}) | s_t\) （在 \(\pi_b\) 下成立？实际应为无未观测混杂，文中应假设标准 sequential ignorability: \(\{(r_t, s_{t+1})\}_{t\geq 0} \perp a_t | s_t\) under \(\pi_b\)）。
重叠假设（overlap）：\(\pi_e(a|s) > 0 \Rightarrow \pi_b(a|s) > 0\)（这是为了重要性采样有效）。自然随机策略由于基于 \(\pi_b\)，自动满足大部分。
模型条件：\(\pi_b\) 可以用非参数方法一致估计（如 rate \(n^{-1/2}\) 或更慢但通过交叉拟合可容忍），\(Q\) 函数（或值函数）也可以非参数估计。
相比已有文献的放宽：经典 OPE 效率理论（如 Kallus & Uehara 2019）要求 \(\pi_e\) 已知，本文关键放宽为此处 \(\pi_e\) 未知但属于 \(\pi_b\) 的函数；另外，弱重叠问题被自然缓解。本文并未引入新的强硬假设，而是利用自然随机策略的构造来放松假设。

主要结果¶

定理 1（tilting policies 效率界）：给定 tilting policy 形式 \(\pi_e(a|s) = \pi_b(a|s) w(a,s) / Z(s)\)（\(w\) 已知，\(Z(s)\) 为归一化常数），半参数效率界为

\[V_{\text{eff}}(\pi_e) = V_{\text{eff}}^{\text{known}}(\pi_e) + \mathbb{E}_s\left[ \text{Cov}_{\pi_b}\left( \frac{w(A,S)}{Z(S)} Q(S,A), \frac{\partial \log Z}{\partial \pi_b}(S) \right) \right] \text{(具体表达式略)}.\]
直觉：\(V_{\text{eff}}^{\text{known}}\) 是当 \(\pi_e\) 已知时的效率界，第二项反映了对 \(\pi_b\) 的估计代价。
定理 2（modified treatment policies 效率界）：类似，但使用积分变换。
估计量构造：基于 EIF 的 one-step 估计；使用交叉拟合：将数据等分为 K 份，用 K-1 份估计 \(\hat{\pi}_b, \hat{Q}\)，用剩下 1 份计算估计量，最后平均。该估计量在 \(\hat{\pi}_b\) 和 \(\hat{Q}\) 都达到 \(o_p(n^{-1/2})\) 速率时达到半参效率。所谓部分双鲁棒性：若 \(\hat{Q}\) 正确，即使 \(\hat{\pi}_b\) 错误，估计量仍一致（但方差可能不最优）；反之亦然？实际上部分双鲁棒性是指：只有一个模型需要保持一致，另一个模型错误不会导致不一致，但不像经典 DR 那样两个中任一正确即一致——具体见文中定义。

证明路线与技术技巧¶

整体路线： 1. 信息论视角：将半参数模型的参数（\(J(\pi_e)\)）视为泛函，计算其在模型上的有效影响函数（EIF）。这需要先写出似然（或得分函数）的 tangent space。 2. 区分两种策略的 tangent space：对 tilting policies，\(\pi_e\) 依赖于 \(\pi_b\)，因此 tangent space 包含了 \(\pi_b\) 的参数化方向，EIF 是 \(J\) 在正交补上的投影。 3. 计算 EIF：利用 simple calculus（可通过 Gateaux 导数或路径扩展法），得到 EIF 的显式表达式。关键技巧：将 \(\pi_e\) 对 \(\pi_b\) 的变分导数转化为可积形式。 4. 证明半参数效率界：EIF 的方差即为效率界（满足 semiparametric efficiency bound = Var(ψ_eff)）。证明第二部分膨胀项非负且由偏差产生。 5. 估计量构造：给定 EIF 形式 ψ(Z; η) = ψ(Z; π_b, Q, …)，构造 one-step 估计 \(\hat{J} = n^{-1} \sum_i \psi(Z_i; \hat{\eta}_{-i})\)，配合交叉拟合。 6. 渐近正态性：利用 U-统计量展开或经验过程理论证明 \(\hat{J} - J = \frac{1}{n}\sum_i \psi_i + o_p(n^{-1/2})\)，并验证方差收敛。

关键跳跃点： - 计算 EIF 时，传统方法需要对达到 Q 和 π_b 的变分，但此处 Q 与 π_b 的相互影响（因为 \(\pi_e\) 是 \(\pi_b\) 的函数）导致直接差分复杂。作者可能使用了路径扩展，在扰动 π_b 时同时得到 π_e 的变分，并利用公式链式法则。 - 证明部分双鲁棒性：需要显示出偏差项可以分解成乘积形式，从而只要一个模型正确就能消掉主要偏差。这通常通过二次型展开得到。

技术技巧点名： - 路径导数 / 变分积分：用于推导 EIF 的闭合形式。 - 交叉拟合（cross-fitting）：用于允许慢速非参数估计（如 \(n^{-1/4}\) 速率）下的半参数效率。 - U-统计量或经验过程：证明一阶展开的余项为高阶小量。 - 丰富函数类条件（Donsker class）：通常用样本分割避免需要的复杂性条件，但交叉拟合更现代。

真实例子与应用（无实证例子）¶

本文为纯理论，未提供真实数据例子或数值模拟。摘要中未提及应用案例。结论：纯理论论文，无实证。

🔎 结论是否比证明窄¶

可能存在：定理中效率界的推导依赖于 \(\pi_b\) 的充分非参数估计（如核密度或随机森林），但论文可能只证明了在假定 \(\hat{\pi}_b\) 以 \(n^{-1/2}\) 率收敛时达到界，但实际非参数估计往往只能达到 \(n^{-2/5}\) 速率。交叉拟合的现代理论（如 Chernozhukov et al. 2018）允许 \(o_p(n^{-1/4})\)，从而非参数速率 \(n^{-1/4}\) 即可，本文应已涵盖此点。
需要注意：部分双鲁棒性的含义可能被泛化——它可能只适用于特定的模型规格，不能在任意模型错误下保持一致性。建议核对原文定义。

四、开放问题¶

有限样本表现：本文的估计量达到渐近效率，但在有限样本中，plot 方差与理论方差之比的衰减速度未知。能否在有限样本下构造可信区间的有限样本保证？（扎根于“under lax conditions”的措辞，未提有限样本界。）
高维状态动作空间：当 \(\mathcal{S}, \mathcal{A}\) 连续或高维时，非参数估计 \(\pi_b\) 和 \(Q\) 的速率会变慢，效率界是否改变？是否存在 minimax 最优率？这可直接扩展本文的 minimax 界分析（本文仅在半参数框架，而非 minimax）。
策略类别扩展：除了 tilting 和 modified，是否有其他形式的自然随机策略（例如基于随机搜索的）也可类似处理？其效率界形式是否统一？（本文没有讨论更多类。）
部分双鲁棒性的进一步解释：能否在更高层次上刻画“部分”的程度——是否存在完整双鲁棒的结构？或者需要特定的模型组合？（可能来自文中 partial double robustness 的定义并未在摘要中展开，需要进一步检查。）

注：以上开放问题均为基于常见论文结构的推测，具体 gap 需阅读原文引言与限制部分确认。

Maintained by 陈星宇 · Homepage · Source on GitHub