Reinforcement Learning with Continuous Actions Under Unmeasured Confounding¶

作者: Yuhan Li, Eugene Han, Yifan Hu, Wenzhuo Zhou, Zhengling Qi et al.
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向的核心统计问题是：在离线（offline）强化学习环境中，当存在不可观测的混淆变量（unmeasured confounders），并且动作空间（action space）是连续的而非离散时，如何非参数地识别并估计一个目标策略（target policy）的价值（value），并进一步学习出最优策略？这是一个典型的"因果推断 + 强化学习"交叉问题。其根本困难在于：(1) 离线数据由某个未知的"行为策略"（behavior policy）生成，动作的选择可能受隐性变量影响，导致标准的面（held-out）策略评估产生混淆偏差（confounding bias）；(2) 连续动作空间使得基于离散动作的复杂假设（如桥函数、近端推断的某些类型）不再直接适用，且估计器的构造面临维数诅咒（curse of dimensionality）。当前该子方向处于快速发展期，已有较多离散动作 + POMDP 的成果，但连续动作 + 未测量混淆 + 无限时域这一组合尚未被系统解决。

发展脉络（history）¶

以下脉络由论文引言及其参考文献重构：

奠基工作：静态单步（static/one-step）混杂下的识别与估计
Robins (1986, 1999)，van der Laan & Robins (2003)：建立了 G-computation formula 与 IPTW（inverse probability of treatment weighting）用于处理单步混杂，假设无未测量混杂（no unmeasured confounders）。这一假设在因果推断中被称为序贯可忽略性（sequential ignorability）。
在此基础上，现有文献注意到单步无混杂假设在复杂动态环境中常不成立，从而进入 "POMDP 框架下的离线策略评估"。
主要进展：POMDP 与离散动作 + 未测量混杂的识别
Zhang & Bareinboim (2016, 2017)，Bennett & Kallus (2019, 2020)：在有限状态、有限动作的部分可观察马尔可夫决策过程（POMDP）中，利用"桥梁函数"（bridge function）或"近端因果推断"（proximal causal inference，见 Miao, Geng & Tchetgen Tchetgen, 2018）建立策略值的识别。这些工作假定动作空间是离散的，或者状态空间是有限的。
被引用中的关键判断："现有识别结果大多依赖强形式的结构假设，例如动作空间是离散的，或系统状态是有限的，从而可以用"桥函数"的线性方程来识别策略值。但在连续状态与动作中，这些方程变为积分方程，解的存在性和唯一性不再平凡。"（引自本文引言）
当前 Frontier：连续动作 + 未测量混杂
本文的位置：作者声称在上述工作的基础上，首次在无限时域、连续动作、存在未测量混杂的 POMDP 中建立了策略值的非参数可识别性条件，并给出了"可估"（在 minimax 意义下）的 estimator。
Kallus & Zhou (2018)，Nie et al. (2021)，Shi et al. (2022)：相关工作处理了连续动作下的离线策略评估，但均假设无未测量混杂或仅处理有限时域（finite-horizon），且多数依赖参数模型或特定函数形式（如线性）。本文则强调无需参数假设，且针对无限时域设定。
本文被引文献中宣称的突破点："Most existing works assume discrete action spaces or finite-horizon settings... We propose a new identification result that does not require discretization or parametric assumptions on the bridge function."

子线索聚类¶

线索1：近端因果推断 / 桥函数方法（Proximal causal inference）
这是一条从静态因果推断中发展出的主线，利用"带混淆变量的观测变量"（即"代理变量"）来推断因果效应。放在 POMDP 语境下，就是利用可观测的状态 s_t 作为未测量状态 u_t 的代理。代表：Miao, Geng, Tchetgen Tchetgen (2018)，Bennett, Kallus (2019, 2020)。
在本文中，作者用"past states + action"作为工具变量（IV）和桥函数的目标，用"futures states"作为结果变量。
线索2：非参数策略评估与 minimax 估计（Off-policy evaluation, OPE）
从监督/半监督学习的 "function approximation" 角度，构建策略值的双边平滑估计（doubly robust / efficient estimation）。代表：Kallus & Zhou (2018)，Shi et al. (2022)，Tsiatis (2006)。
本文的 minimax 估计量实际上是对"策略值"这个 funcional 进行双重鲁棒估计，利用了 neural network / RKHS 的逼近能力。
线索3：连续动作空间下的策略梯度优化（Policy gradient with continuous actions）
从强化学习算法角度，利用参数化策略族和梯度上升找到 in-class optimal policy。代表黑板上的 PG 算法改进，如 TRPO / PPO（Schulman et al., 2015, 2017）。
本文的策略梯度基于估计出的策略价值，并给出了 regret bound。

本方向在追问的核心问题（2-4 个）¶

非参数可识别性：在连续 S, A, 存在不可观测 U 时，策略值 \(V(\pi)\) 是否唯一由可观测数据分布决定？若决定，需要怎样的"代理变量"条件（如桥方程解存在且唯一）？
有效（efficient）估计：给定识别，是否存在一个精确到 n^{-1/2} 的非参数估计量？其半参数效率界是多少？能否达到估计方差下界？
最优策略的 regret 界：当策略族为有限维参数族（如神经网络）时，基于估计的策略价值搜索得到的最优策略，其与真实最优策略的差距（regret）与样本量、函数类复杂度、误设定程度的关系如何？
稳健性与敏感性：若桥函数的存在性或唯一性假设被违背后（如模型中存在额外的未知混杂），识别结果如何变化？能否进行敏感性分析？

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

这是作者的说法：作者将现有工作的主要缺口 frame 为"离散动作或有限时域"以及"无未测量混杂"这两重限制。因此，本文的工作"显然地"成为下一个合理步骤：突破这两个限制，给出连续动作且无限时域下的识别 + 估计 + 策略优化全套结果。

被淡化的竞争路线：
作者承认在非线性桥函数存在时，识别方程积分方程的解可能不唯一，也提到可以使用"条件函数回归"来近似，但回避了对特定函数空间（如 RKHS 或神经网络）的逼近效率与识别精度之间的 tradeoff 的详细讨论。
作者未深入讨论"如果实际数据的过程缺少足够长的历史信息来充当工具变量"时的替代识别方案（例如采用外生变量作为单独的工具变量，而非使用滞后状态）。
什么明显该被引 / 该存在、却没出现在 intro 里？
目前缺少引用关于连续动作空间的半参数效率理论（例如，在"无未测量混杂"但具有高维连续动作情景下的效率界，如 Hirano, Imbens, Ridder, 2003 关于连续 treatment 的 IPTW 的扩展）。这可能是作者有意忽略，因为他们的识别依赖于桥函数解决连续动作下的混杂，而不是无混杂下的 IPTW。
关于随机过程与马丁格尔方法（martingale theory）在无限时域 OPE 中的应用（如 Meyn, 2007, Control Techniques for Complex Networks）的引用也未出现，但这不是强制缺失。

张力¶

未见明显对立引用。现有被引工作在无混杂假设下均认为 POMDP 识别成立，只在动作离散/连续、有无桥函数形式假设上有差异，没有彼此矛盾的核心结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设整个系统为一个部分可观察马尔可夫决策过程 (POMDP)，记元组为 \((\mathcal{S}, \mathcal{A}, \mathcal{U}, P, R, \gamma)\)，其中： - \(\mathcal{S} \subseteq \mathbb{R}^{d_s}\)：可观测的状态空间（连续）。 - \(\mathcal{A} \subseteq \mathbb{R}^{d_a}\)：动作空间（连续）。 - \(\mathcal{U} \subseteq \mathbb{R}^{d_u}\)：不可观测的潜在状态空间（unmeasured confounder, latent state）。 - \(P\)：转移概率，具体地，在给定当前隐状态 \(u_t\) 和动作 \(a_t\) 下，下一时刻的隐状态分布为 \(u_{t+1} \sim P_{u}(u' | u_t, a_t)\)；可观测状态 \(s_t\) 则通过观测模型 \(P_{s}(s | u_t)\) 生成。 - \(R(s_t, a_t)\)：瞬时奖励 (reward) ，为确定函数（或可观测随机变量）。 - \(\gamma \in (0,1)\)：折扣因子。

可观测数据（由行为策略 \(\pi_b\) 生成）：研究者可以记录无限历史的轨迹 \(\{(s_t, a_t, r_t, s_{t+1})\}_{t=0}^{\infty}\)。其中： - \(s_t, a_t, r_t, s_{t+1}\) 均为可观测。 - \(u_t\) 是不可观测的。

目标策略：一个确定性的目标策略 \(\pi(a | s)\)，表示在可观测状态 \(s\) 下采取动作 \(a\) 的决策规则（本文中为连续密度函数）。目标是估计 策略值：

\[V(\pi) = \mathbb{E}^{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R(S_t, A_t) \right],\]

其中期望是在将目标策略 \(\pi\) 部署到系统后（即用 \(\pi\) 代替行为策略）的轨迹上，并且积分掉未观测状态 \(U_t\)。

模型： 作者假设系统满足以下标准 POMDP 结构（由可观测状态 \(s_t\) 以及隐状态 \(u_t\)、动作 \(a_t\) 构成），但不假设 \(u_t\) 的分布已知或可识别；关键论点是对 \(V(\pi)\) 的识别仅需可观测数据，无需识别 \(u_t\)。

可观测 vs 欲识别： - 可观测：\(s_t, a_t, r_t = R(s_t, a_t), s_{t+1}\) - 不可观测但想无条件地积分掉：\(u_t\) - 想识别（estimand）：\(V(\pi)\)

第二步：最小内核——最简特例¶

为了看清核心识别逻辑，我们考虑最简特例： 1. 状态空间有限：设 \(\mathcal{S} = \{1, 2, \ldots, K\}\)，即只有 \(K\) 个类别状态。 2. 动作空间连续：\(\mathcal{A} = [0,1]\)（单位区间）。 3. 时间折扣因子 \(\gamma\) 足够小，使得长期奖励权重集中在最近的几步，但识别不依赖于此。 4. 一个最简的未测量混杂：假设隐状态 \(u_t\) 仅取两个值 \(\{0, 1\}\)（例如 "高风险 / 低风险"），并且对状态转移和动作的产生均有影响。

在此特例下，数据生成过程略写为： - \(s_t\) 如实观测；但 \(u_t\) 没被记录。 - 行为策略 \(\pi_b\) 的动作依赖于 \(u_t, s_t\)：动作在 \(u_t=0\) 时更可能小，在 \(u_t=1\) 时大。 - 关键识别思想（本文定理的核心）：找到一个"桥函数" \(h(s,a)\)，使得对于任意的函数 \(\phi(s_{t+1})\)，有：

\[\mathbb{E} \left[ \phi(S_{t+1}) \mid S_t=s, A_t=a \right] = \mathbb{E} \left[ h(S_t, A_t) \cdot \phi(S_{t+1}) \mid S_t=s, A_t=a \right],\]

其中左侧的条件期望是直接对可观测数据的（由数据所给），右侧的 \(h\) 需求解。这个桥函数 \(h(s,a)\) 的作用是：把"对 \(U\) 进行积分"吸收到一个乘子中。更直观地，\(h(s,a)\) 是份额比值（propensity ratio），校正了因混淆而导致的动作选择偏差。

在有限状态的特例下，桥函数 \(h(s,a)\) 的存在性等价于一个（稀疏的）可以求解的线性方程组。具体而言，对于每个 \((s,a)\)，我们可以将所有可能的下一状态 \(s'\) 列出一系列条件概率，这些概率组成的矩阵可逆（由某个无知假设保证），从而唯一解出 \(h(s,a)\)。

最小命题（退化为该特例）：
命题：在有限状态、连续动作、隐状态二元的情况下，给定状态转移的可观测条件概率矩阵可逆，\(V(\pi)\) 可以被识别为：

\[V(\pi) = \sum_{t=0}^{\infty} \gamma^t \mathbb{E}_{(S_t, A_t) \sim \pi} \left[ R(S_t, A_t) \cdot h(S_t, A_t) \right],\]

其中内层期望是对目标策略 \(\pi\) 诱导的边际状态分布（但通过数据可观测的转移来递推）。证明核心：\(h\) 实现了“将不可观测的混淆效应因子内化至可观测的权重”。

三、这篇论文做了什么¶

三句话¶

研究了：在无限时域、连续动作空间、存在未测量混淆的 POMDP 设定下，离线策略评估与策略学习问题。
核心工具：基于"桥函数"的非参数识别 + 最小方差估计量（minimax estimator） + 策略梯度优化。
主要结论：① 建立了在无限时域下策略值的非参数可识别性条件；② 提出了一个 minimax 估计量，证明了其一致性、有限样本误差界；③ 通过策略梯度方法找到了 in-class 最优策略，并给出了该策略的后悔界（regret bound）；④ 模拟与德国家庭面板数据的真实应用验证了方法。

关键设定与假设¶

完整设定（在第二节记号基础上补充）：

协变量/状态序列：系统为齐次 POMDP，转移和观测概率不随时间变化。
策略值定义：\(V(\pi) = \frac{1}{1-\gamma} \mathbb{E}^{\pi} \left[ R(S,A) \right]\)，其中期望是对稳态分布（stationary distribution）下的策略 \(\pi\) 求取的。这是无限时域折扣情形下的标准定义。
数据来源：离线数据集由行为策略 \(\pi_b(a|s,u)\) 生成，已知 \(\pi_b\) 的密度形式未知（但需假设其支撑覆盖目标策略的支撑——共同支撑假设，overlap 假设）。

核心假设（论文 Assumptions 1—4 简化形式）：

Assumption 1 (一致性，Consistency)：观测数据 \((s_t, a_t, s_{t+1})\) 的联合分布可写作 \(\mathbb{P}(ds_{t+1} | s_t, a_t) \cdot \pi_b(da_t | s_t, u_t) \cdot \mathbb{P}(du_t | s_t)\)，满足 POMDP 的二阶遗忘性质。
Assumption 2 (桥函数存在性与唯一性)：存在唯一的可测函数 \(h: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\) 满足：对任意有界可测函数 \(f: \mathcal{S} \rightarrow \mathbb{R}\)，

\[\mathbb{E}[f(S_{t+1}) \mid S_t=s, A_t=a] = \mathbb{E}[h(S_t, A_t) f(S_{t+1}) \mid S_t=s, A_t=a].\]
且 \(h\) 具有某种正则性（如属于某个 Sobolev 或 RKHS 空间）。这在有限状态下对应条件概率矩阵的可逆性；连续状态下需要额外的"近似完备性"（如可逆性近似于稀疏性假设）来保证解存在且可辨识。
Assumption 3 (无共线 / 同变性)：桥函数 \(h\) 与目标政策无关，仅由观测数据可识别。本文未具体给出参数化的要求，而是假定可以从观察数据中对 \(h\) 进行非参数回归（条件矩条件为积分方程）。
Assumption 4 (共同支撑与收敛速度)： \(\pi\) 的密度在行为密度支撑下闭包内，且最小特征值条件（如补紧条件）成立，从而积分方程的解是 Lipschitz 连续的；同时，估计量如矩估计使用的核函数/神经网络的逼近误差可用范数可控。

与已有文献的假设对比：
- 相较于 Bennett & Kallus (2020) ——要求动作空间离散（以便于建立线性方程的唯一解），本文将方程推广到连续动作并依靠"近似解空间维度有限"（如选择低维神经网络参数族）来规避任意函数空间解不唯一的困难。 - 相较于常规的无混杂 OPE（如 Kallus & Zhou, 2018），本文完全不假设"无隐状态"，转而假设桥函数存在且唯一——代价是更复杂的积分方程求解。

主要结果¶

定理 1（非参数识别）：
- 陈述：在 Assumptions 1-3 下，策略值可以写为

\[V(\pi) = \frac{1}{1-\gamma} \mathbb{E}_{S \sim \nu_{\pi}} \left[ \frac{\pi(A|S)}{\pi_b(A|S,S_{-}^{\infty})} R(S,A) \right]\]

或等价表达为通过 h 调整的逆概率加权估计：

\[V(\pi) = \frac{1}{1-\gamma} \mathbb{E}_{S \sim \mu} \left[ \frac{\pi(A|S)}{\pi_b(A|S)} h(S,A) R(S,A) \right],\]

其中 \(\mu\) 是离线数据所诱导的稳态分布。关键：这里的 \(h\) 起到替代无法观测的倾向得分的作用——它矫正了混淆偏差。 - 直觉：桥函数 \(h\) 本质上是"条件转移概率的密度比"，它将对隐状态的积分吸收进来。

定理 2（有限样本误差界）：
设使用核函数（或神经网络）作为函数空间 \(\mathcal{H}\) 来估计桥函数 \(\hat{h}\)，回归函数通过最小化"条件矩"某个损失得到。定理给出：

\[| \hat{V}(\pi) - V(\pi) | \leq C_1 \cdot \mathsf{ApproxError}(\mathcal{H}) + C_2 \sqrt{\frac{\mathrm{VCdim}(\mathcal{H})}{n}} + \mathsf{small.o}(n^{-1/2}).\]

其中第一项是函数空间的逼近误差（bias），第二项是估计方差项，是标准的 VC or Rademacher 复杂度方法所给的。此处系数 \(C_1, C_2\) 依赖于 Assumption 2 中的正则性常数。这给出了估计量的一致性。

定理 3（最优策略后悔界）：
设 \(\hat{\pi}_{\mathrm{opt}}\) 是在类策略参数空间 \(\Pi_\Theta\) 上通过最大化 \(\hat{V}(\pi)\) 找到的最优策略，\(\pi_{\mathrm{opt}}\) 是此类内真实最优策略。则

\[V(\pi_{\mathrm{opt}}) - V(\hat{\pi}_{\mathrm{opt}}) \leq C \cdot \sqrt{ \frac{\mathrm{VCdim}(\Pi_\Theta)}{n} } + \mathsf{bias}(\hat{h}).\]

这意味着后悔界由策略类复杂度与桥函数估计误差决定。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

Step 1 (识别)：证明存在唯一的 h 满足条件矩等式；将此等式代入目标函数 \(V(\pi)\) 的 PDF，通过 Inverse-Propensity + h，将待估量转变成仅依赖于可观测的状态、动作、奖励的无偏估计。
Step 2 (估计)：基于神经网络的泛化能力，通过极小化条件矩（条件期望为零的损失），即一个 "minimax" 形式：
\[\hat{h} = \arg\min_{h \in \mathcal{H}} \max_{f \in \mathcal{F}} \left( \frac{1}{n} \sum \left[ f(S_t, A_t) \left\{ S_{t+1} - \mathbb{E}[S_{t+1}|S_t, A_t] \right\} \right] \right).\]
这是个对抗性训练过程（adversarial training of h against a critic function family \(\mathcal{F}\)），被用于求解积分方程。
Step 3 (策略值估计)：用 \(\hat{h}\) 构造 plug-in 估计 \(\hat{V}(\pi)\)。
Step 4 (策略优化)：将成本函数写成 \(\hat{V}(\pi_\theta)\)，用 policy gradient 方法（reparameterization trick / score function）求梯度并更新 \(\theta\)。
Step 5 (最优性分析)：对提出的算法给出后悔界。

关键跳跃点：
- 在识别部分，从条件矩等式推导出唯一的 h，但极端依赖于缺少 f 对 h 的对抗"对抗正确性"——必须确保函数族 \(\mathcal{F}\) 足够大到可以区分所有非零偏差，即类似"一致性敌军"（universally consistent critic）。作者引用理论研究（如 DGM / GAN 中的双抽样检验）来保证。 - 在估计误差界部分，需要将"积分方程解对估计误差的敏感度"转化为关于函数空间范数的 Lipschitz 条件。这类似于 ill-posed inverse problem 的正则化分析。本文引理 5（在附录）给出了这个转化：如果 \(y = T h\) 是某个紧算子，且 \(T\) 可逆（有界逆），则误差传递是有界的。

技术技巧点名： - Empirical process / U-process：用于分析 minimax 估计量的 Rademacher 复杂度（函数类 \(\mathcal{H} \times \mathcal{F}\) 的 U-过程）。技巧号："对抗性损失是经验2范数的差异"，用对称化技巧绑定。 - Chaining：处理 VC 维或 metric entropy 的中等度链。 - 条件矩的积分解：通过"条件期望算子"的稀疏/低秩逼近，转化为一个小规模线性问题（当使用有限基逼近时）。 - Reparametrization Gradient (策略梯度)：对连续高斯策略族使用重参数化技巧来计算 \(\nabla_\theta \hat{V}(\pi_\theta)\)。

真实例子与应用¶

数据：德国家庭面板数据 (German Family Panel, pairfam)。这是一个大型纵向社会调查，追踪个体的家庭形成、伴侣关系等行为。
- 场景：作者关注"婚姻对收入的影响"（一个长期存在因果推断难题的问题）。他们将个体的婚姻状态动作（Action: 结婚 / 不结婚的连续型"倾向性"）处理为连续动作（一个 propensity score 越界简化地当作连续值），将收入作为奖励（reward）。
- 如何把本文方法用上去：设 \(S_t\) = 个体在 t 时的社会经济状态（e.g., 教育程度、工作状态等），动作 \(A_t\) = 婚姻倾向（连续指数），交互过程存在未知的社会性隐性混淆（如个人的婚姻偏好、健康状态等未记录）。他们用本文方法从观测数据估计"婚姻倾向对收入的长时折扣价值"，并找出能最大化收入的最优"婚姻动用策略"。
- 结果：展示本文提出的策略相比于传统无混杂估计的策略有更低的 bias（通过自动化模拟验证部分），与传统标准 IPW 在存在混淆时相差显著。模拟验证：将真实数据投射到有混淆变量的设定上（使用隐藏变量模拟），本文方法在 RMSE 上均优于基于简单逆概率权重的 naive 方法。
- 为什么选择这个例子：展示 POMDP 形式（隐因子=未记录的婚姻偏好）的合理性，强调真实数据的"无穷时域"特征（婚姻是长期结果，分析需折扣总计）。

🔍 结论是否比证明窄¶

定理 2 的有限样本误差界是在函数类 \(\mathcal{H}\) 和 \(\mathcal{F}\) 的复杂度已知（如 VC 维固定）且积分算子可逆的假设下严格证明的。但作者在正文讨论中将其推广为 "任何可通过神经网络的逼近类"——而神经网络实际引入的是 capacity-control 的超参数选择问题，未给出具体自适应调整方法，故描述性泛化超过实际证明的假定范围。
定理 3 的后悔界中包含偏置项 \(\mathsf{bias}(\hat{h})\)，而论文正文未承诺该项如何随着样本量或网络深度均匀衰减，实际部署时可能是个隐秘的偏差来源。对应原文： "the regret bound is primarily driven by the estimation error of h." ——但未证明对一个预先固定的有限维网络族，bias 项总会收敛。

四、开放问题（扎根具体语句）¶

桥函数解在连续动作下的非唯一性与非参数估计的效率损失：当积分方程解不唯一时（缺某种完备性），现有方法会学到哪个解？是否会造成估计量的方差膨胀？这扎根于论文 Assumption 2 中"We assume the unique solution exists"，即对唯一性的假设。一个灵活但未解决的问题是：若解不唯一，是否能设计出非参数鲁棒估计量，其影响仅在 bias 而不在方差？
minimax 估计量的半参数效率界：论文给出了有限样本误差界，但未给出该估计量的渐近方差（semiparametric efficiency bound），即在给定隐状态模型下，能否达到有效下界？扎根于结论部分："further work could characterize the semiparametric efficiency bound for this POMDP setting."
构造更有效的策略梯度：本文策略梯度基于逐步的 plug-in 估计，是否可设计基于双重鲁棒估计（doubly robust）的策略梯度来减小方差？扎根于 Future Work 段落的"we will explore doubly robust policy gradient for continuous actions with confounders"。
桥函数可识别性与无混淆假设的敏感性分析：若实际数据并不满足桥函数存在假设（例如隐状态维度太大无法被滞后观测替代），偏差有多大？即识别失败时的 regret 界。这是论文在讨论假设中的一个暗口：Assumption 2 在真实数据中是强的。可尝试设计诊断统计量检验该假设，或给出区间估计。

Maintained by 陈星宇 · Homepage · Source on GitHub