跳转至

Reinforcement Learning with Continuous Actions Under Unmeasured Confounding

作者: Yuhan Li, Eugene Han, Yifan Hu, Wenzhuo Zhou, Zhengling Qi et al.
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本子方向的核心统计问题是:在离线(offline)强化学习环境中,当存在不可观测的混淆变量(unmeasured confounders),并且动作空间(action space)是连续的而非离散时,如何非参数地识别并估计一个目标策略(target policy)的价值(value),并进一步学习出最优策略? 这是一个典型的"因果推断 + 强化学习"交叉问题。其根本困难在于:(1) 离线数据由某个未知的"行为策略"(behavior policy)生成,动作的选择可能受隐性变量影响,导致标准的面(held-out)策略评估产生混淆偏差(confounding bias);(2) 连续动作空间使得基于离散动作的复杂假设(如桥函数、近端推断的某些类型)不再直接适用,且估计器的构造面临维数诅咒(curse of dimensionality)。当前该子方向处于快速发展期,已有较多离散动作 + POMDP 的成果,但连续动作 + 未测量混淆 + 无限时域这一组合尚未被系统解决。

发展脉络(history)

以下脉络由论文引言及其参考文献重构:

  1. 奠基工作:静态单步(static/one-step)混杂下的识别与估计
  2. Robins (1986, 1999),van der Laan & Robins (2003):建立了 G-computation formula 与 IPTW(inverse probability of treatment weighting)用于处理单步混杂,假设无未测量混杂(no unmeasured confounders)。这一假设在因果推断中被称为序贯可忽略性(sequential ignorability)。
  3. 在此基础上,现有文献注意到单步无混杂假设在复杂动态环境中常不成立,从而进入 "POMDP 框架下的离线策略评估"。

  4. 主要进展:POMDP 与离散动作 + 未测量混杂的识别

  5. Zhang & Bareinboim (2016, 2017),Bennett & Kallus (2019, 2020):在有限状态、有限动作的部分可观察马尔可夫决策过程(POMDP)中,利用"桥梁函数"(bridge function)或"近端因果推断"(proximal causal inference,见 Miao, Geng & Tchetgen Tchetgen, 2018)建立策略值的识别。这些工作假定动作空间是离散的,或者状态空间是有限的。
  6. 被引用中的关键判断:"现有识别结果大多依赖强形式的结构假设,例如动作空间是离散的,或系统状态是有限的,从而可以用"桥函数"的线性方程来识别策略值。但在连续状态与动作中,这些方程变为积分方程,解的存在性和唯一性不再平凡。"(引自本文引言)

  7. 当前 Frontier:连续动作 + 未测量混杂

  8. 本文的位置:作者声称在上述工作的基础上,首次无限时域连续动作存在未测量混杂的 POMDP 中建立了策略值的非参数可识别性条件,并给出了"可估"(在 minimax 意义下)的 estimator。
  9. Kallus & Zhou (2018),Nie et al. (2021),Shi et al. (2022):相关工作处理了连续动作下的离线策略评估,但均假设无未测量混杂或仅处理有限时域(finite-horizon),且多数依赖参数模型或特定函数形式(如线性)。本文则强调无需参数假设,且针对无限时域设定。

  10. 本文被引文献中宣称的突破点:"Most existing works assume discrete action spaces or finite-horizon settings... We propose a new identification result that does not require discretization or parametric assumptions on the bridge function."

子线索聚类

  • 线索1:近端因果推断 / 桥函数方法(Proximal causal inference)
    这是一条从静态因果推断中发展出的主线,利用"带混淆变量的观测变量"(即"代理变量")来推断因果效应。放在 POMDP 语境下,就是利用可观测的状态 s_t 作为未测量状态 u_t 的代理。代表:Miao, Geng, Tchetgen Tchetgen (2018),Bennett, Kallus (2019, 2020)。
  • 在本文中,作者用"past states + action"作为工具变量(IV)和桥函数的目标,用"futures states"作为结果变量。

  • 线索2:非参数策略评估与 minimax 估计(Off-policy evaluation, OPE)
    从监督/半监督学习的 "function approximation" 角度,构建策略值的双边平滑估计(doubly robust / efficient estimation)。代表:Kallus & Zhou (2018),Shi et al. (2022),Tsiatis (2006)。

  • 本文的 minimax 估计量实际上是对"策略值"这个 funcional 进行双重鲁棒估计,利用了 neural network / RKHS 的逼近能力。

  • 线索3:连续动作空间下的策略梯度优化(Policy gradient with continuous actions)
    从强化学习算法角度,利用参数化策略族和梯度上升找到 in-class optimal policy。代表黑板上的 PG 算法改进,如 TRPO / PPO(Schulman et al., 2015, 2017)。

  • 本文的策略梯度基于估计出的策略价值,并给出了 regret bound。

本方向在追问的核心问题(2-4 个)

  1. 非参数可识别性:在连续 S, A, 存在不可观测 U 时,策略值 \(V(\pi)\) 是否唯一由可观测数据分布决定?若决定,需要怎样的"代理变量"条件(如桥方程解存在且唯一)?
  2. 有效(efficient)估计:给定识别,是否存在一个精确到 n^{-1/2} 的非参数估计量?其半参数效率界是多少?能否达到估计方差下界?
  3. 最优策略的 regret 界:当策略族为有限维参数族(如神经网络)时,基于估计的策略价值搜索得到的最优策略,其与真实最优策略的差距(regret)与样本量、函数类复杂度、误设定程度的关系如何?
  4. 稳健性与敏感性:若桥函数的存在性或唯一性假设被违背后(如模型中存在额外的未知混杂),识别结果如何变化?能否进行敏感性分析?

⚠️ 作者的 framing(必须明确标注成"这是作者的说法")

这是作者的说法:作者将现有工作的主要缺口 frame 为"离散动作或有限时域"以及"无未测量混杂"这两重限制。因此,本文的工作"显然地"成为下一个合理步骤:突破这两个限制,给出连续动作且无限时域下的识别 + 估计 + 策略优化全套结果。

  • 被淡化的竞争路线
  • 作者承认在非线性桥函数存在时,识别方程积分方程的解可能不唯一,也提到可以使用"条件函数回归"来近似,但回避了对特定函数空间(如 RKHS 或神经网络)的逼近效率与识别精度之间的 tradeoff 的详细讨论
  • 作者未深入讨论"如果实际数据的过程缺少足够长的历史信息来充当工具变量"时的替代识别方案(例如采用外生变量作为单独的工具变量,而非使用滞后状态)。

  • 什么明显该被引 / 该存在、却没出现在 intro 里?

  • 目前缺少引用关于连续动作空间的半参数效率理论(例如,在"无未测量混杂"但具有高维连续动作情景下的效率界,如 Hirano, Imbens, Ridder, 2003 关于连续 treatment 的 IPTW 的扩展)。这可能是作者有意忽略,因为他们的识别依赖于桥函数解决连续动作下的混杂,而不是无混杂下的 IPTW。
  • 关于随机过程与马丁格尔方法(martingale theory)在无限时域 OPE 中的应用(如 Meyn, 2007, Control Techniques for Complex Networks)的引用也未出现,但这不是强制缺失。

张力

未见明显对立引用。现有被引工作在无混杂假设下均认为 POMDP 识别成立,只在动作离散/连续、有无桥函数形式假设上有差异,没有彼此矛盾的核心结论

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

设整个系统为一个部分可观察马尔可夫决策过程 (POMDP),记元组为 \((\mathcal{S}, \mathcal{A}, \mathcal{U}, P, R, \gamma)\),其中: - \(\mathcal{S} \subseteq \mathbb{R}^{d_s}\):可观测的状态空间(连续)。 - \(\mathcal{A} \subseteq \mathbb{R}^{d_a}\):动作空间(连续)。 - \(\mathcal{U} \subseteq \mathbb{R}^{d_u}\):不可观测的潜在状态空间(unmeasured confounder, latent state)。 - \(P\):转移概率,具体地,在给定当前隐状态 \(u_t\) 和动作 \(a_t\) 下,下一时刻的隐状态分布为 \(u_{t+1} \sim P_{u}(u' | u_t, a_t)\);可观测状态 \(s_t\) 则通过观测模型 \(P_{s}(s | u_t)\) 生成。 - \(R(s_t, a_t)\):瞬时奖励 (reward) ,为确定函数(或可观测随机变量)。 - \(\gamma \in (0,1)\):折扣因子。

可观测数据(由行为策略 \(\pi_b\) 生成):研究者可以记录无限历史的轨迹 \(\{(s_t, a_t, r_t, s_{t+1})\}_{t=0}^{\infty}\)。其中: - \(s_t, a_t, r_t, s_{t+1}\) 均为可观测。 - \(u_t\)不可观测的。

目标策略:一个确定性的目标策略 \(\pi(a | s)\),表示在可观测状态 \(s\) 下采取动作 \(a\) 的决策规则(本文中为连续密度函数)。目标是估计 策略值

\[V(\pi) = \mathbb{E}^{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R(S_t, A_t) \right],\]
其中期望是在将目标策略 \(\pi\) 部署到系统后(即用 \(\pi\) 代替行为策略)的轨迹上,并且积分掉未观测状态 \(U_t\)

模型: 作者假设系统满足以下标准 POMDP 结构(由可观测状态 \(s_t\) 以及隐状态 \(u_t\)、动作 \(a_t\) 构成),但不假设 \(u_t\) 的分布已知或可识别;关键论点是对 \(V(\pi)\) 的识别仅需可观测数据,无需识别 \(u_t\)

可观测 vs 欲识别: - 可观测:\(s_t, a_t, r_t = R(s_t, a_t), s_{t+1}\) - 不可观测但想无条件地积分掉:\(u_t\) - 想识别(estimand):\(V(\pi)\)

第二步:最小内核——最简特例

为了看清核心识别逻辑,我们考虑最简特例: 1. 状态空间有限:设 \(\mathcal{S} = \{1, 2, \ldots, K\}\),即只有 \(K\) 个类别状态。 2. 动作空间连续\(\mathcal{A} = [0,1]\)(单位区间)。 3. 时间折扣因子 \(\gamma\) 足够小,使得长期奖励权重集中在最近的几步,但识别不依赖于此。 4. 一个最简的未测量混杂:假设隐状态 \(u_t\) 仅取两个值 \(\{0, 1\}\)(例如 "高风险 / 低风险"),并且对状态转移和动作的产生均有影响。

在此特例下,数据生成过程略写为: - \(s_t\) 如实观测;但 \(u_t\) 没被记录。 - 行为策略 \(\pi_b\) 的动作依赖于 \(u_t, s_t\):动作在 \(u_t=0\) 时更可能小,在 \(u_t=1\) 时大。 - 关键识别思想(本文定理的核心):找到一个"桥函数" \(h(s,a)\),使得对于任意的函数 \(\phi(s_{t+1})\),有:

\[\mathbb{E} \left[ \phi(S_{t+1}) \mid S_t=s, A_t=a \right] = \mathbb{E} \left[ h(S_t, A_t) \cdot \phi(S_{t+1}) \mid S_t=s, A_t=a \right],\]
其中左侧的条件期望是直接对可观测数据的(由数据所给),右侧的 \(h\) 需求解。这个桥函数 \(h(s,a)\)作用是:把"对 \(U\) 进行积分"吸收到一个乘子中。更直观地,\(h(s,a)\)份额比值(propensity ratio),校正了因混淆而导致的动作选择偏差。

在有限状态的特例下,桥函数 \(h(s,a)\) 的存在性等价于一个(稀疏的)可以求解的线性方程组。具体而言,对于每个 \((s,a)\),我们可以将所有可能的下一状态 \(s'\) 列出一系列条件概率,这些概率组成的矩阵可逆(由某个无知假设保证),从而唯一解出 \(h(s,a)\)

最小命题(退化为该特例):
命题:在有限状态、连续动作、隐状态二元的情况下,给定状态转移的可观测条件概率矩阵可逆,\(V(\pi)\) 可以被识别为:

\[V(\pi) = \sum_{t=0}^{\infty} \gamma^t \mathbb{E}_{(S_t, A_t) \sim \pi} \left[ R(S_t, A_t) \cdot h(S_t, A_t) \right],\]
其中内层期望是对目标策略 \(\pi\) 诱导的边际状态分布(但通过数据可观测的转移来递推)。证明核心:\(h\) 实现了“将不可观测的混淆效应因子内化至可观测的权重”。

三、这篇论文做了什么

三句话

  1. 研究了:在无限时域、连续动作空间、存在未测量混淆的 POMDP 设定下,离线策略评估与策略学习问题。
  2. 核心工具:基于"桥函数"的非参数识别 + 最小方差估计量(minimax estimator) + 策略梯度优化。
  3. 主要结论:① 建立了在无限时域下策略值的非参数可识别性条件;② 提出了一个 minimax 估计量,证明了其一致性、有限样本误差界;③ 通过策略梯度方法找到了 in-class 最优策略,并给出了该策略的后悔界(regret bound);④ 模拟与德国家庭面板数据的真实应用验证了方法。

关键设定与假设

完整设定(在第二节记号基础上补充):

  1. 协变量/状态序列:系统为齐次 POMDP,转移和观测概率不随时间变化。
  2. 策略值定义\(V(\pi) = \frac{1}{1-\gamma} \mathbb{E}^{\pi} \left[ R(S,A) \right]\),其中期望是对稳态分布(stationary distribution)下的策略 \(\pi\) 求取的。这是无限时域折扣情形下的标准定义。
  3. 数据来源:离线数据集由行为策略 \(\pi_b(a|s,u)\) 生成,已知 \(\pi_b\) 的密度形式未知(但需假设其支撑覆盖目标策略的支撑——共同支撑假设,overlap 假设)。

核心假设(论文 Assumptions 1—4 简化形式):

  • Assumption 1 (一致性,Consistency):观测数据 \((s_t, a_t, s_{t+1})\) 的联合分布可写作 \(\mathbb{P}(ds_{t+1} | s_t, a_t) \cdot \pi_b(da_t | s_t, u_t) \cdot \mathbb{P}(du_t | s_t)\),满足 POMDP 的二阶遗忘性质。
  • Assumption 2 (桥函数存在性与唯一性):存在唯一的可测函数 \(h: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\) 满足:对任意有界可测函数 \(f: \mathcal{S} \rightarrow \mathbb{R}\)
    \[\mathbb{E}[f(S_{t+1}) \mid S_t=s, A_t=a] = \mathbb{E}[h(S_t, A_t) f(S_{t+1}) \mid S_t=s, A_t=a].\]
    \(h\) 具有某种正则性(如属于某个 Sobolev 或 RKHS 空间)。这在有限状态下对应条件概率矩阵的可逆性;连续状态下需要额外的"近似完备性"(如可逆性近似于稀疏性假设)来保证解存在且可辨识。
  • Assumption 3 (无共线 / 同变性):桥函数 \(h\) 与目标政策无关,仅由观测数据可识别。本文未具体给出参数化的要求,而是假定可以从观察数据中对 \(h\) 进行非参数回归(条件矩条件为积分方程)。
  • Assumption 4 (共同支撑与收敛速度)\(\pi\) 的密度在行为密度支撑下闭包内,且最小特征值条件(如补紧条件)成立,从而积分方程的解是 Lipschitz 连续的;同时,估计量如矩估计使用的核函数/神经网络的逼近误差可用范数可控。

与已有文献的假设对比:
- 相较于 Bennett & Kallus (2020) ——要求动作空间离散(以便于建立线性方程的唯一解),本文将方程推广到连续动作并依靠"近似解空间维度有限"(如选择低维神经网络参数族)来规避任意函数空间解不唯一的困难。 - 相较于常规的无混杂 OPE(如 Kallus & Zhou, 2018),本文完全不假设"无隐状态",转而假设桥函数存在且唯一——代价是更复杂的积分方程求解。

主要结果

定理 1(非参数识别)
- 陈述:在 Assumptions 1-3 下,策略值可以写为

\[V(\pi) = \frac{1}{1-\gamma} \mathbb{E}_{S \sim \nu_{\pi}} \left[ \frac{\pi(A|S)}{\pi_b(A|S,S_{-}^{\infty})} R(S,A) \right]\]
或等价表达为通过 h 调整的逆概率加权估计:
\[V(\pi) = \frac{1}{1-\gamma} \mathbb{E}_{S \sim \mu} \left[ \frac{\pi(A|S)}{\pi_b(A|S)} h(S,A) R(S,A) \right],\]
其中 \(\mu\) 是离线数据所诱导的稳态分布。关键:这里的 \(h\) 起到替代无法观测的倾向得分的作用——它矫正了混淆偏差。 - 直觉:桥函数 \(h\) 本质上是"条件转移概率的密度比",它将对隐状态的积分吸收进来。

定理 2(有限样本误差界)
设使用核函数(或神经网络)作为函数空间 \(\mathcal{H}\) 来估计桥函数 \(\hat{h}\),回归函数通过最小化"条件矩"某个损失得到。定理给出:

\[| \hat{V}(\pi) - V(\pi) | \leq C_1 \cdot \mathsf{ApproxError}(\mathcal{H}) + C_2 \sqrt{\frac{\mathrm{VCdim}(\mathcal{H})}{n}} + \mathsf{small.o}(n^{-1/2}).\]
其中第一项是函数空间的逼近误差(bias),第二项是估计方差项,是标准的 VC or Rademacher 复杂度方法所给的。此处系数 \(C_1, C_2\) 依赖于 Assumption 2 中的正则性常数。这给出了估计量的一致性。

定理 3(最优策略后悔界)
\(\hat{\pi}_{\mathrm{opt}}\) 是在类策略参数空间 \(\Pi_\Theta\) 上通过最大化 \(\hat{V}(\pi)\) 找到的最优策略,\(\pi_{\mathrm{opt}}\) 是此类内真实最优策略。则

\[V(\pi_{\mathrm{opt}}) - V(\hat{\pi}_{\mathrm{opt}}) \leq C \cdot \sqrt{ \frac{\mathrm{VCdim}(\Pi_\Theta)}{n} } + \mathsf{bias}(\hat{h}).\]
这意味着后悔界由策略类复杂度与桥函数估计误差决定。

证明路线与技术技巧

整体路线(3-5 步逻辑主干)

  1. Step 1 (识别):证明存在唯一的 h 满足条件矩等式;将此等式代入目标函数 \(V(\pi)\) 的 PDF,通过 Inverse-Propensity + h,将待估量转变成仅依赖于可观测的状态、动作、奖励的无偏估计。
  2. Step 2 (估计):基于神经网络的泛化能力,通过极小化条件矩(条件期望为零的损失),即一个 "minimax" 形式:
    \[\hat{h} = \arg\min_{h \in \mathcal{H}} \max_{f \in \mathcal{F}} \left( \frac{1}{n} \sum \left[ f(S_t, A_t) \left\{ S_{t+1} - \mathbb{E}[S_{t+1}|S_t, A_t] \right\} \right] \right).\]
    这是个对抗性训练过程(adversarial training of h against a critic function family \(\mathcal{F}\)),被用于求解积分方程。
  3. Step 3 (策略值估计):用 \(\hat{h}\) 构造 plug-in 估计 \(\hat{V}(\pi)\)
  4. Step 4 (策略优化):将成本函数写成 \(\hat{V}(\pi_\theta)\),用 policy gradient 方法(reparameterization trick / score function)求梯度并更新 \(\theta\)
  5. Step 5 (最优性分析):对提出的算法给出后悔界。

关键跳跃点
- 在识别部分,从条件矩等式推导出唯一的 h,但极端依赖于 缺少 f 对 h 的对抗"对抗正确性"——必须确保函数族 \(\mathcal{F}\) 足够大到可以区分所有非零偏差,即类似"一致性敌军"(universally consistent critic)。作者引用理论研究(如 DGM / GAN 中的双抽样检验)来保证。 - 在估计误差界部分,需要将"积分方程解对估计误差的敏感度"转化为关于函数空间范数的 Lipschitz 条件。这类似于 ill-posed inverse problem 的正则化分析。本文引理 5(在附录)给出了这个转化:如果 \(y = T h\) 是某个紧算子,且 \(T\) 可逆(有界逆),则误差传递是有界的。

技术技巧点名: - Empirical process / U-process:用于分析 minimax 估计量的 Rademacher 复杂度(函数类 \(\mathcal{H} \times \mathcal{F}\) 的 U-过程)。技巧号:"对抗性损失是经验2范数的差异",用对称化技巧绑定。 - Chaining:处理 VC 维或 metric entropy 的中等度链。 - 条件矩的积分解:通过"条件期望算子"的稀疏/低秩逼近,转化为一个小规模线性问题(当使用有限基逼近时)。 - Reparametrization Gradient (策略梯度):对连续高斯策略族使用重参数化技巧来计算 \(\nabla_\theta \hat{V}(\pi_\theta)\)

真实例子与应用

数据德国家庭面板数据 (German Family Panel, pairfam)。这是一个大型纵向社会调查,追踪个体的家庭形成、伴侣关系等行为。
- 场景:作者关注"婚姻对收入的影响"(一个长期存在因果推断难题的问题)。他们将个体的婚姻状态动作(Action: 结婚 / 不结婚 的连续型"倾向性")处理为连续动作(一个 propensity score 越界简化地当作连续值),将收入作为奖励(reward)。
- 如何把本文方法用上去:设 \(S_t\) = 个体在 t 时的社会经济状态(e.g., 教育程度、工作状态等),动作 \(A_t\) = 婚姻倾向(连续指数),交互过程存在未知的社会性隐性混淆(如个人的婚姻偏好、健康状态等未记录)。他们用本文方法从观测数据估计"婚姻倾向对收入的长时折扣价值",并找出能最大化收入的最优"婚姻动用策略"。
- 结果:展示本文提出的策略相比于传统无混杂估计的策略有更低的 bias(通过自动化模拟验证部分),与传统标准 IPW 在存在混淆时相差显著。模拟验证:将真实数据投射到有混淆变量的设定上(使用隐藏变量模拟),本文方法在 RMSE 上均优于基于简单逆概率权重的 naive 方法。
- 为什么选择这个例子:展示 POMDP 形式(隐因子=未记录的婚姻偏好)的合理性,强调真实数据的"无穷时域"特征(婚姻是长期结果,分析需折扣总计)。

🔍 结论是否比证明窄

  • 定理 2 的有限样本误差界是在函数类 \(\mathcal{H}\)\(\mathcal{F}\) 的复杂度已知(如 VC 维固定)且积分算子可逆的假设下严格证明的。但作者在正文讨论中将其推广为 "任何可通过神经网络的逼近类"——而神经网络实际引入的是 capacity-control 的超参数选择问题,未给出具体自适应调整方法,故描述性泛化超过实际证明的假定范围
  • 定理 3 的后悔界中包含偏置项 \(\mathsf{bias}(\hat{h})\),而论文正文未承诺该项如何随着样本量或网络深度均匀衰减,实际部署时可能是个隐秘的偏差来源。对应原文: "the regret bound is primarily driven by the estimation error of h." ——但未证明对一个预先固定的有限维网络族,bias 项总会收敛。

四、开放问题(扎根具体语句)

  1. 桥函数解在连续动作下的非唯一性与非参数估计的效率损失:当积分方程解不唯一时(缺某种完备性),现有方法会学到哪个解?是否会造成估计量的方差膨胀?这扎根于论文 Assumption 2 中"We assume the unique solution exists",即对唯一性的假设。一个灵活但未解决的问题是:若解不唯一,是否能设计出非参数鲁棒估计量,其影响仅在 bias 而不在方差?
  2. minimax 估计量的半参数效率界:论文给出了有限样本误差界,但未给出该估计量的渐近方差(semiparametric efficiency bound),即在给定隐状态模型下,能否达到有效下界?扎根于结论部分:"further work could characterize the semiparametric efficiency bound for this POMDP setting."
  3. 构造更有效的策略梯度:本文策略梯度基于逐步的 plug-in 估计,是否可设计基于双重鲁棒估计(doubly robust)的策略梯度来减小方差?扎根于 Future Work 段落的"we will explore doubly robust policy gradient for continuous actions with confounders"。
  4. 桥函数可识别性与无混淆假设的敏感性分析:若实际数据并不满足桥函数存在假设(例如隐状态维度太大无法被滞后观测替代),偏差有多大?即识别失败时的 regret 界。这是论文在讨论假设中的一个暗口:Assumption 2 在真实数据中是强的。可尝试设计诊断统计量检验该假设,或给出区间估计。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论