跳转至

Wasserstein Policy Learning for Distributional Outcomes

作者: Yiyan Huang, Cheuk Hang Leung, Qi Wu, Zhiheng Zhang
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.19117


一、领域脉络与小综述

这个方向是什么

本方向研究的是离线政策学习(Offline Policy Learning) 中的一个子问题:当每个个体接受治疗后产生的结局本身是一个概率分布(分布值结局),而非一个标量时,如何从观测数据中学习一个从协变量到治疗(动作)的映射(即政策),从而最大化基于Wasserstein重心定义的效用。其核心挑战在于:政策评估与优化的对象不再是单个期望值,而是一条无限维的分位数曲线,这要求统计理论同时处理策略类的组合复杂度与结局空间的函数复杂度。当前该方向处于早期发展阶段,主要理论结果局限于一维分布结局,且几乎全部来自本文。

发展脉络(history)

  • 奠基工作:经典标量政策学习。Manski (2004) 将政策选择形式化为统计决策问题。Kitagawa 和 Tetenov (2018) 为二值治疗下的经验福利最大化(EWM)建立了 minimax 最优的 O(N^{-1/2}) 后悔界,依赖于政策类的VC维数。Athey 和 Wager (2021) 将此框架扩展到观测研究,使用交叉拟合与正交分数(Double Robust)来包容倾向得分与结局回归的估计误差。这些工作严格依赖于结局是标量随机变量,值域在低维欧氏空间中。

  • 主要进展1:分布性目标(但结局仍是标量)。Wang 等 (2018) 以及后续的 Cui 和 Han (2025)、Manski 和 Tetenov (2023) 等将目标从“平均福利”扩展为分位数、CVaR、基尼系数等分布性泛函。如作者所述:“While these methods optimize distributional criteria, the underlying potential outcome Y remains a scalar random variable”。这留下了第一个口子:结局本身是随机测度(概率分布),而非标量随机变量。

  • 主要进展2:非标量结局的因果推断(估计,而非学习)。这一簇工作包括 Hilbert 空间方法(功能ATE,如 Ecker 等人 2024; Testa 等人 2025)和度量空间方法(测地线ATE, GATE,如 Kurisu 等人 2024; Lin 等人 2023; Bhattacharjee 等人 2025)。前者将结局视为 L^2 空间的函数并使用线性平均,但“linear averaging fails to account for mass displacement”(Panaretos 和 Zemel, 2019)。后者(GATE)通过 Fréchet 均值估计处理效应,但只关注一个或两个政策的效应估计与推断。作者明确指出:“Our work differs from the GATE literature in its goal and theoretical scope. Existing GATE works focus on estimation and inference … In contrast, we address the policy learning problem, which requires selecting the optimal policy from a policy class Π”。这留下了第二个口子:现有的分布结局因果推断工作不涉及在复杂策略类中优化决策

  • 当前 frontier / 本文位置:本文首次将离线政策学习公式化推广到分布值结局P_2(R)中的概率测度),使用Wasserstein重心定义福利函数,并给出有限样本后悔上界与minimax下界。本文是第一个回答“分布值结局是否会给政策学习带来额外的非参数代价”的工作。

子线索聚类

  • 子线索1:经典标量政策学习(EWM框架)。包括Kitagawa 和 Tetenov (2018)、Athey 和 Wager (2021)、Kallus 和 Zhou (2018a/b, 2021)、Ai 等人 (2026)。核心工具:IPW / DR 构造代理价值函数,VC维 / Natarajan维控制复杂度,minimax下界。口子:结局必须是标量。

  • 子线索2:分布性福利目标(标量结局)。包括Wang 等人 (2018)、Cui 和 Han (2025)、Manski 和 Tetenov (2023)。核心方法:将分位数、CVaR等分布性泛函嵌入EWM目标,但不可规避线性排序(ranked-based statistics)。口子:结局本身不是分布,仅是目标泛函非线性。

  • 子线索3:非标量结局的因果推断(估计问题)。包括Hilbert空间路径(FATE,Ecker 等 2024; Testa 等 2025)和度量空间路径(GATE,Kurisu 等 2024; Lin 等 2023; Bhattacharjee 等 2025)。核心方法:Wasserstein/Fréchet均值、双稳健估计。口子:目的是估计固定政策的效应,不是在复杂策略类中优化。

核心追问问题(2-4个)

  1. 分布值结局的政策学习是否在领先阶上引入额外非参数代价? 即后悔率是否仍由 sqrt( 政策类复杂度 / N) 主导?——本文核心结果:是,在一维Wasserstein设定下,领先阶代价不增加。
  2. 如何构造有效的代理目标函数? 由于Wasserstein重心是优化问题的解,缺乏标量期望的闭式线性结构,必须借助分位数等距性将其转化为可处理的函数估计问题。
  3. 如何处理策略搜索(组合策略类)与函数空间(连续分位数域)的联合均匀控制? 这是技术上的核心困难。
  4. 当结局维度超过一维时,是否仍可保持类似领先阶结果? 本文将其作为未来工作,承认“substantially more challenging”。

⚠️ 作者的 framing

作者将缺口 frame 成“分布值结局 + 复杂策略类优化”这一交叉空白,强调: - 已有 GATE 工作只解决“估计与推断”问题(固定政策),而本文解决“学习与优化”问题(在策略类中搜索最优政策)。 - 目标 U(µ(π))(先聚合成重心、再算效用)与 E[U(Y[π(X)])](先算单位级效用、再平均)截然不同,前者评估的是政策诱导的总体分布形状而非个体效用的平均。

被淡化的竞争路线: - 使用 L^2 函数空间直接处理分布结局密度/累积分布函数的线性平均——作者在Introduction中已点明此类方法“destroy the intrinsic geometry”、“often yielding ‘barycenters’ that do not represent any individual realization”。 - 没有提及任何标量结局上的鲁棒政策学习(如 distributionally robust / worst-case welfare)与该分布性框架的可能联系。

什么该被引却未被引: - 其它因果框架(如工具变量 / 断点回归)下分布结局的处理——虽然方向不同,但可能已有关于分布处理效应的最优化思路。 - 更一般的非参数统计中关于 Fréchet 均值(在度量空间中)的收敛率理论——引用集中于 GATE 文献(Kurisu 2024 等),没有引用更早期的非参数 Fréchet 回归工作(如 Petersen & Müller 2019, JASA)。 - 关于分布分析与正交机器学习(DML)的结合——存在将 DML 用于分布型处理效应的工作吗?本文的 DR 估计继承了 Chernozhukov et al. 2018 的 DML 框架,但在引用中并未特别定位 DML 在分布结局时的适配性。

张力

未见明显对立引用。所有被引工作在同一设定(结局维度/目标类型)上方向一致,没有出现同设定下相反结论的情况。不同子路线(Hilbert空间 vs. 度量空间)只在方法论选择上竞争,不属于张力。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号(逐个点名)
  • X ∈ X ⊆ R^K:协变量,紧集。是可观测的随机向量
  • A ∈ A = {a_1, ..., a_d}:动作(治疗),有限集。是可观测的离散随机变量,由某个行为策略(behavior policy)f_0(a|x) 生成。
  • Y ∈ P_2(R):结局,是一个概率测度(随机元素),支持域在紧区间 I = [I_low, I_up] 上。可观测。但观测值是 Y 作为随机测度的一次实现(可观测其分位数函数 Y^{-1}(t) 沿 t∈[0,1] 的值)。
  • Y[a]:潜在结局(potential outcome)——如果个体接受了动作 a 会出现的结局分布。不可直接观测,是反事实量。
  • π: X → A:政策(策略),是一个确定性的映射。Π 为策略类。
  • µ(π):政策 π 诱导的 W_2-重心(Wasserstein barycenter),定义在 (1)。这是一个总体目标量(待估计)。
  • µ(π)^{-1}(t) = q_π(t) := E[Y[π(X)]^{-1}(t)]:重心的分位数函数,等价于潜在结局分位数函数的总体均值。这是本文的核心可估计对象
  • N:样本量。
  • J:分位数网格点数,η = 1/J 为网格步长。
  • V = N-dim(Π):Natarajan 维数,衡量策略类 Π 的组合复杂度。
  • U(ν):定义在概率测度 ν ∈ P_2(R) 上的效用泛函,Lipschitz w.r.t. W_2(Assumption 8)。

  • 模型(数据生成机制)

  • 潜在结局:对每个个体,各动作 a ∈ A 对应一个潜在分布 Y[a](随机测度),其分位数函数 Y[a]^{-1}(t) 是随机过程(随 X 变化)。
  • 观测过程:个体按协变量 X 采样,行为策略 f_0(a|x) 决定实际动作 A,观测结局 Y = Y[A](一致性假设)。
  • 标准识别假设:无混淆性 Y[a] ⊥⊥ A | X(Assumption 2)、重叠性 f_0(a|x) ≥ f > 0(Assumption 3)、结局范围/分位数正则性(Assumptions 4-5)。

  • 可观测数据:独立同分布数据 {(X_i, A_i, Y_i)}_{i=1}^N,其中每个 Y_i 作为概率测度的一次实现,可被等效视作一条分位数曲线 Y_i^{-1} : [0,1] → I,但这条曲线在 t 上是连续的(理论分析)。在实际算法中,它被离散化为 J 个网格点的值。

  • 不可直接观测
  • 反事实分位数曲线 Y[a]^{-1}, a ≠ A_i
  • 总体重心分位数曲线 q_π(t)(只有通过观测数据的加权估计间接获得)。

第二步:最小内核

本文的核心思路是一个特例推广型:整个证明框架本质上是对一个“二值动作 + 简单策略类”情形的直接推广与加壳。这个最小特例是:

设定: - A = {0, 1}d=2)。 - 策略类 Π有限类,比如所有“阈值型”策略 π_c(x) = 1{x[1] > c},其中 c ∈ [0, 1] 是阈值。此时 V = N-dim(Π) = 1。 - 效用泛函 U(ν) = ∫_0^α ν^{-1}(t) dtα 固定),它关于 W_2 是 Lipschitz 的(Lipschitz 常数 L_U = √α)。 - 所有潜在结局分布 Y[a]离散的两质点分布:只有两个可能的分位数曲线 q_-(t)q_+(t)(二者在 [0,α] 上有恒定正差距 ∆_Q)。

在这个特例下,要做什么?

  1. 目标:对每个输入的协变量 x,从阈值策略类中选 π 最大化 U(µ(π));这里 µ(π) 的重心分位数曲线是 q_π(t) = E[Y[π(X)]^{-1}(t)]
  2. 特例下的退化
  3. 由于 U 是线性泛函(积分 ∫_0^α),U(µ(π)) 退化为对 q_π(t)t ∈ [0,α] 的积分的期望。
  4. 由 Proposition 7,q_π(t) = E[Y[π(X)]^{-1}(t)],特例下 Y[a] 只取两个值 q_-, q_+
  5. 最优策略 π^* 一定是:对于协变量 x,比较动作 01 各自诱导的积分期望 ∫_0^α E[Y[0]^{-1}(t)|x] dt∫_0^α E[Y[1]^{-1}(t)|x] dt,选大的那个。在本文构造的 hard instance 中(Theorem 12 的证明),这退化成一个二分类问题:对于被 Natarajan 定量打碎的样本点,每个点上的最优动作由参数 v_i ∈ {±1} 决定。

  6. 证明怎么走(在这个特例下)

  7. 上界(IPW):构造 IPW 估计量 ˆq_π^{IPW}(t) = (1/N) Σ_i 1{A_i = π(X_i)} Y_i^{-1}(t) / f_0(A_i|X_i)。对于固定的 πt,这是无偏的。然后网格离散化 tJ 个点):在每个网格点用 Hoeffding 不等式 + 策略类的有限对应标签集(因为 Π 使有限的,m_Π(N) ≤ (eNd)^V = eN*2)做 union bound。离散化误差由 Assumption 5(分位数正则性)控制:|q_π(t) - q_π(s)| ≤ U|t-s|。综合得到 R(ˆπ^{IPW}) = O( √(V/N) + η ),选 η ≍ N^{-1/2} 得到 O(√(V/N))
  8. 下界(minimax):构造 Assouad 超方体。V 个点 x_1,...,x_V 被策略类 Natarajan 打碎,每个点上的真实最优动作由 v_i ∈ {±1} 编码(即 π^*(x_i) = f_2(x_i)v_i=+1,否则用 f_1(x_i)),从而将学习最优策略还原为从 N 个样本中识别 v ∈ {±1}^V。每个点上的观测仅来自其被分配的动作,且识别 v_i 的信噪比由 f(重叠)和 ∆_Q(分位数差距)决定。应用 KL 散度界和 Assouad 引理得到下界 min(1, √(V/(fN)))·∆_Q,匹配上界的领先阶。

  9. 为什么成立:核心洞察在于“Wasserstein距离通过分位数等距性变成了 L^2 距离,而 W_2-重心的分位数就是均值”,这使分布性政策学习在领先阶上变成了一个“标量函数(分位数曲线)”在 L^2 中的估计 + 策略搜索的组合优化问题,没有额外引入如函数空间的度量熵(即 t 方向的均匀控制只通过 discretization + Lipschitz 处理,仅贡献 log 因子)。因此,整篇论文的数学核心就是“将 W_2 重心转化为均值分位数曲线,然后证明组合搜索(Natarajan 维)与连续分位数域(Lipschitz)的乘积均匀偏差仍由策略类复杂度主导”。

三、这篇论文做了什么

三句话

  1. 研究问题:在离线政策学习中,当每个潜在结局是一个概率分布(P_2(R)中的随机测度)且福利定义为政策诱导的Wasserstein重心的效用泛函时,从观测数据学习最优政策的统计保障(有限样本后悔界与minimax下界)。
  2. 核心工具/方法:利用一维Wasserstein距离的分位数等距性(Proposition 6、7),将重心学习转化为均值分位数曲线的估计;构建IPW和交叉拟合DR估计量,并通过单调重排(projection onto monotone quantile functions)保证估计的重心是合法概率测度。
  3. 主要结论:有限样本后悔率的领先阶为 O(√(N-dim(Π)/N))(Theorem 10、11),且该领先阶关于 NN-dim(Π) 是 rate-sharp 的(Theorem 12);分布值结局在一维设定下不引入额外非参领先阶代价。

关键设定与假设

  • 政策诱导的福利目标π^* ∈ arg max U(µ(π)),其中 µ(π) 是 counterfactual 分布 Y[π(X)] 的Wasserstein重心(Frechet均值,1式)。关键区分:不同于 E[U(Y[π(X)])](先算单位级效用再平均),后者在 U 非线性时不同意。作者在第3.2节末尾用一个「一半 δ_0一半 δ_2 的例子」展示了两者的差异。
  • Assumption 1-3(标准因果识别):一致性、无混淆性、重叠性(f_0(a|x) ≥ f > 0)。与Athey & Wager (2021) 完全相同。
  • Assumption 4(结局范围和分位数曲线有界)q(t) ≤ Y[a]^{-1}(t) ≤ ıq(t),且有界 M。这是确保 Y[a]^{-1}(t) 的期望能良好定义且 Hoeffding 界能用的条件。
  • Assumption 5(分位数曲线关于 t 的 Lipschitz 性)|Y[a]^{-1}(t) - Y[a]^{-1}(s)| ≤ U|t-s| a.s.。相比于已有放宽/加强:经典标量政策学习中无此假设。它为 discretization 策略(将 t 从连续指数缩小到均匀网格)提供误差控制。
  • Assumption 8(效用泛函关于 W_2 的 Lipschitz 性)|U(ν_1) - U(ν_2)| ≤ L_U W_2(ν_1, ν_2)。这是“效用对重心误差稳定”的关键要求,涵盖如 ∫_0^α ν^{-1}(t) dt(积分型)、对抗性(-W_2)等。
  • Natarajan 维数定义(Def. 9):用于量化多类策略 Π: X → {a_1,...,a_d} 的组合复杂度。相比二值 VC 维,Natarajan 维是标准推广。N-dim(Π)ΠNatarajan 打碎X 的最大子集大小。

  • 相比已有强化或放宽

  • 相比 Kitagawa & Tetenov (2018):策略值由分位数函数 q_π(t)L^2 间接定义,而非 E[Y] 直接定义。策略搜索从 sup_π (1/N) Σ_i 1{A_i = π(X_i)}Y_i 变为 sup_π U(µ̂(π))
  • 相比 Athey & Wager (2021):建立了在 U(µ(π)) 结构下的 DR 估计,但交叉拟合的逻辑一致;多出的假设 (U-Lipschitz、分位数正则性) 是分布性框架所必需的。
  • 相比 Kurisu et al. (2024, GATE):本文不关心 µ(π) 的渐近正态性或置信区间,而是关注 sup_{π∈Π} 上的 uniform bound;且引入策略类复杂度(Natarajan 维)。

主要结果

  • Theorem 10(IPW 上界)
  • 在假设 1-5 下,以概率 ≥ 1-δ,R(ˆπ^{IPW}) ≤ (2L_U M/f) [ √(2Vlog(eNd)/N) + √(2log(2(J+1)/δ)/N ) ] + (4L_U U η / f)
  • 含义:后悔率分为统计误差(第一项)与离散化误差(第二项/第三项偏共线)。主要项 ∝ √(V/N) 与经典标量 IPW 结果(Kitagawa & Tetenov 2018)同阶。当选择 J ≍ √N,偏误项 O(η) = O(1/J) = O(1/√N),整体 Õ(√(V/N))
  • 解决的技术难点:将连续 t 域的均匀控制(sup_π sup_t |...|)转化为 sup_π sup_{t_j} |...|(离散化),并通过 Lipschitz 假设控制离散化误差。

  • Theorem 11(DR 上界)

  • 使用交叉拟合(L 折),在倾向得分 f_0 和条件分位数 m_0 的估计误差 r_f, r_m 满足适当收敛率(如 O(N^{-1/4}))时,R(ˆπ^{DR}) = Õ(√(V/N)),且 仅隐去 log 因子;Neyman 正交性使独立一阶偏差项(r_fr_m 单独)被消除,只剩乘积项 r_f r_m
  • 关键 insight:Theorem 11 的界形如 Cor·V_N(Π,δ) + C_grid·η + Rem_nuis,其中 Rem_nuis 包含 r_f r_m, r_f V_N, r_m V_Nr_f η。这意味着只要 驱动估计以 O(N^{-1/4}) 收敛(常见于非参回归),二阶项不会破坏领先阶。这在附录 C 中有细致的推导。
  • 相比 Theorem 10,DR 降低了对 f 较小的敏感度(倾向得分不为零时方差较小),并允许使用估计的倾向得分与条件分位数(实际场景必须)。

  • Theorem 12(Minimax 下界)

  • 存在常数 c_0 > 0,使得 inf_ˆπ sup_P E[R(ˆπ)] ≥ c_0 ∆_Q · min{1, √(V/(fN))}
  • 含义:领先阶 √(V/N) 是紧的;关于 NN-dim(Π) 的下界与上界匹配(仅差对数因子)。构造了基于 q_-/q_+ 差分的超方体分布族,并将策略学习归约为 Assouad 式假设检验。
  • 解决的技术难点:在度量空间(W_2重心)中构造 hard instance 并刻画 KL 散度,不引入额外的度量熵因子。证明在附录 D 中,构造中使用 Bernoulli 潜在变量 Z_{i, a} 来控制不同动作间的区分难度。

证明路线与技术技巧(理论型)

  • 整体路线(IPW)
  • 后悔率 → 最大Wasserstein误差:由 argmax 定义和 U 的Lipschitz性,R(ˆπ) ≤ 2L_U sup_π W_2(µ̂(π), µ(π))
  • W_2 误差 → 分位数曲线 L^2 误差:由分位数等距性,W_2(µ̂, µ) = ||̂q - q||_{L^2} ≤ ||̂q_raw - q||_{L^2},其中 ̂q_raw 是未经单调化的原始 IPW 估计,由于单调化(单调重排)是非扩张的,不增大误差。
  • L^2 误差 → L^∞ 误差:利用 ||·||_{L^2} ≤ ||·||_{L^∞},得到 R ≤ 2L_U sup_π sup_{t ∈ [0,1]} |̂q_π^{IPW}(t) - q_π(t)|
  • 连续 t 的控制:将 t 离散化为均匀网格(J点),用 Lipschitz 正则性(Assumption 5)控制网格点间的误差。
  • 网格点上组合控制:在固定网格点 t_j 上,|̂q_π^{IPW}(t_j) - q_π(t_j)|N 个 i.i.d. 有界变量的经验偏差。对 π 的联合控制:利用策略类 ΠX_1,...,X_N 上产生的不同标签模式最多 m_Π(N) ≤ (eNd)^V 个(多类Sauer引理)。对每个标签模式用 Hoeffding 不等式 + union bound。
  • 代价分解:统计偏差 ∝ √( (V log N + log J) / N ) + 离散化偏 ∝ Uη/f

  • 关键跳跃点/引理

  • Lemma 14(多类Sauer上界)m_Π(N) ≤ (eNd)^V,将 log m_Π(N) 化简为 V log(eNd)。这是从枚举指数多个策略转变到可控多项式因子数的关键。
  • Lemma 13(连续函数的离散化控制引理):如果函数在网格点上以高概率不大于 M - error,且是Lipschitz+Lipschitz-type均匀有界,则整个连续域的上确界以高概率不大于 M。这在式(21)附近的证明中使用。
  • Neyman正交性(DR证明的核心引理,式7、8):证明 E[{1{A=π(X)}g(A,X) - 1}·(m_0 - ̂m_0)|I_{-ℓ}] = 0E[1{A=π(X)}(Y^{-1} - m_0)(ĝ - g)|I_{-ℓ}] = 0。它确保了 DR 估计量的一阶偏差只以乘积形式((f̂ - f)(m̂ - m))出现。

  • 技术技巧点名

  • 经验过程 / Hoeffding + 成长函数:IPW上界的核心工具,适用于有界、独立同分布观测。
  • 多类Sauer引理(Haussler & Long, 1995):将 Natarajan 维转化为有限标签覆盖数。
  • 单调重排(projection onto monotone functions):保证 ̂µ(π) 合法且不恶化 L^2 估计误差。
  • Neyman正交性 / 交叉拟合(DML, Chernozhukov 2018):DR估计部分的核心,允许 ̂f, ̂m 以慢于 N^{-1/2} 的速率收敛。
  • Assouad引理 + KL散度界(Tsybakov, 2008):下界证明的标准入口工具,将策略学习归约为高维超方体假设检验。
  • 高阶偏差展开 / 乘积项控制:DR的 Rem_nuisr_f r_m 项的处理(附录C,式12等)。

真实例子与应用

本文为纯理论,无实证例子。 论文在随后的真实数据实验环节未出现(该论文发表后其他作者可能补了,但本文没有)。

🔎 结论是否比证明窄

  • 是的,可以点名
  • Assumption 5(分位数 Lipschitz 性):该假设在 IPW 和 DR 的证明中用于离散化误差控制(例如定理10中最后的 4L_U U η/f 项)。作者在结论(Conclusion)中提到“relax the quantile regularity conditions”是一个开放方向,暗示该条件可能可以弱化,而目前所有后悔界的理论保证都依赖它成立。
  • Theorem 12(下界):构造是基于一个特定形式的效用 ∫_0^α ν^{-1}(t) dt 和两质点 (q_-, q_+) 的硬实例。作者虽然在结论中认为该下界“sharp for one-dimensional construction”,但并未声称对任意 Lipschitz 效用或任意分位数曲线构造(比如更平滑的)都能达到最优——这存在从“特殊构造到一般性”的 gap。
  • 结论中的“leading dependence on (N-dim(Π), N)”:上界中有 log N, log J, log(1/δ) 等对数因子,而下界常数阶;因此,严密的说法是“leading 指数级依赖”匹配,而非完全匹配常数或对数项。

四、开放问题(点到为止,扎根具体语句)

  1. 多维Wasserstein空间的扩展。论文全部结果基于 Y ∈ P_2(R)(一维)。作者明确指出(Conclusion):“Extending the analysis to multivariate Wasserstein spaces is substantially more challenging, since there is no canonical quantile ordering and Wasserstein barycenters generally lack the explicit structure used in our proofs。”
  2. 扎根语句:Conclusion 节第2句。

  3. 弱化分位数正则性条件(Assumption 5)。当前后悔界的证明依赖于 Lipschitz-in-t (U) 假设来控制离散化误差。

  4. 扎根语句:Conclusion 节第3句:“Another important direction is to relax the quantile regularity conditions imposed here, for example by allowing weaker smoothness or tail behavior。”

  5. 随机策略、连续处理或序列决策问题。论文专注于确定性策略与有限动作集。

  6. 扎根语句:Conclusion 节第4句:“Stochastic policies, continuous treatments, and sequential decision problems involve different policy classes and complexity measures, and therefore require separate regret analyses。”

  7. 更弱的正定性条件(overlap 可允许更小的 f?):本文假设 f_0(a|x) ≥ f > 0。能否放松到“渐近趋于0但可控”?

  8. 扎根语句:IPW定理中 f 直接出现在分母(2L_U M / f),DR 定理中亦有 f 在首项分母。未直接讨论,但从上下界的构造看,f 构成了实质性瓶颈。这值得研究者进一步去查Khan et al. (2023) 或 Zhao et al. (2024) 关于弱重叠的政策学习,是否可在分布结局情形下有类似的“乐观/悲观”方法。

  9. 空重叠处理(Positivity violation):引用中提到了 Zhao et al. (2024) 的 positivity-free policy learning 工作,但本文并未尝试将其与分布结局框架结合。这不一定是 gap / bug,但若研究者对该方向感兴趣,可以查 Zhao et al. (2024) 能否与本文的 Wasserstein 结构结合——例如是否存在“未在重叠区域内观测”的风险,导致重心发生偏差。

提醒:要确认 (1)、(2)、(3)、(4) 究竟是真的 gap 还是 trivial,需要阅读同子领域约 5 篇近期的 GATE / policy learning with distributional objectives 论文的 intro。此步骤建议研究者自己执行。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论