A reinforcement learning framework for dynamic causal effects evaluation in A/B testing¶

讲者: Chengchun Shi
讨论人: Will Wei Sun
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-03-15
主题: 因果推断
视频: https://youtu.be/Zor1CmRyycw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的根本追问是：如何对具有动态系统特征的干预（如网约车平台订单派送策略）进行严格的因果假设检验？ 其核心挑战在于干预效果具有“携带效应（carryover effects）”——过去的行为会影响未来结果，且这种效应通过系统状态的动态演化而传递。报告直接切入的是在线A/B测试这一已有大量商业实践和统计方法的领域，但指出了现有方法在该场景下的三个关键缺口：

绝大多数经典A/B测试（如双样本t检验）和后续的机器学习增强方法（如DML，Chernozhukov et al., 2018）要求观测独立或即时效应，无法处理携带效应。
经典序贯检验（sequential tests）允许提前终止，但仍要求数据独立。
Bojinov & Shephard (2019) 的工作处理了长期奖励和携带效应，但使用逆概率加权（IPW），不适用于“交替时间间隔设计”（treatment deterministically alternates），且未考虑序贯监控。

报告所在的子方向是 “带有动态依赖结构的A/B测试”。针对“网约车平台”这类“双边市场”，其典型实验设计——交替时间间隔设计（switchback design）——在相邻时间窗交替使用新旧策略。这种设计天然避免了时间上相互污染（因为同一时刻只用一个策略），但它没有消除携带效应：上一个时间窗的派单策略影响了当前时间窗的司机分布（状态），从而改变了后续的匹配成功率（奖励）。

为了解决这三个挑战，讲者引入了一个强化学习（RL）框架，把A/B测试问题转写为“比较两个固定策略的值函数（value function）”。在这个框架下，携带效应被直接建模为马尔可夫决策过程（MDP）中的状态转移方程。这个思路的关键前身包括：

Luckett et al. (2020, "V-learning")：使用RL框架进行动态治疗效果的样本量评估，但未专门处理序贯监控和自适应设计。
Kallus & Uehara (2019, "Double Reinforcement Learning")：提出off-policy下值函数的双稳健估计，但同样未涉及序贯测试和确定性的switchback设计。
Shi et al. (2021, JRSSB)：为时间依赖（MDP）数据下值函数的高效估计提供了理论基础，本报告的核心工具之一即来自该工作（时间差分学习 + 筛法）。
Lan & DeMets (1983, α-spending approach)：经典序贯检验框架，原本设计用于临床实验（独立同分布数据）；本报告将其移植到存在携带效应的时间序列，并开发了**自助法（bootstrap）**来决定停止边界。

当前前沿：已经有一些工作开始用RL框架处理动态因果关系评估（例如“off-policy evaluation”），但将它们与自适应设计、序贯监控、switchback设计同时整合——正如报告所做——在报告时是新的。讨论部分进一步提出了一个自然的延伸方向：如何将海量的离线（offline / observational）数据与在线A/B测试数据相结合，以提高统计效率和设计更好的实验方案——这是这个子方向目前非常活跃的扩展方向（参见讨论者Sun Wei的评论[0:55:00]）。

二、最小内核 / 一个最简例子¶

可观测数据与符号： - 时间点：\( t = 1, 2, \dots, T \)（例如每30分钟一个时间单位，T=672，对应两周）。 - 每个时间点观测到：状态 \( S_t \)（如“当前在线司机数”、“当前订单需求量”）、动作 \( A_t \)（二元：0=旧派单策略，1=新派单策略，由switchback设计确定性交替或由自适应设计以概率方式决定）、即时奖励 \( R_t \)（如“被接单的订单比例”或“司机收入”）。 - 观测数据就是一条时间序列：\( \{(S_t, A_t, R_t)\}_{t=1}^T \)。

统计目标（estimand）： 我们要检验两个固定策略 \( \pi = a \)（一直使用策略a）的长期表现是否有差异。在RL中，用值函数（value function）来量化长期表现：

\[V^{\pi}(s) = \mathbb{E}^{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R_t \mid S_0 = s \right]\]

其中 \( \gamma \in [0,1) \) 是折扣因子。检验的是：

\[H_0: V^0(s) \ge V^1(s) \quad \text{对所有初始状态s} \quad \text{vs.} \quad H_1: V^1(s) > V^0(s) \quad \text{对某个s}\]

三组“看不见”的潜在成分： - 状态转移机制：\( \mathbb{P}(S_{t+1}, R_t \mid S_t, A_t) \) —— MDP假设的核心。正是通过这一转移方程，过去动作 \( A_{t-1} \) 经由 \( S_t \) 间接影响 \( R_t \)，产生携带效应。这个转移函数是未观测的。 - 策略：在实验中，\( A_t \) 的生成机制（是确定性交替还是概率性分配）是已知的（设计决定）。 - 据MDP假设：\( (S_{t+1}, R_t) \) 在给定 \( (S_t, A_t) \) 条件下，与历史 \( \{(S_j, A_j, R_j)\}_{j<t} \) 条件独立。

一个最简特例（d=1，状态为一维连续变量，动作二值，两个时间点）： 假设一维状态 \( S_t \in \mathbb{R} \)，转移方程为：

\[S_{t+1} = \rho S_t + \beta A_t + \epsilon_{t+1}, \quad \epsilon_{t+1} \sim N(0, \sigma^2)\]

即时奖励 \( R_t = S_t \)（即状态本身代表“运力充足度”或“服务质量”）。折扣因子 \( \gamma=0.9 \)。

无携带效应时：\( \beta=0 \)，则 \( S_{t+1} \) 不受 \( A_t \) 影响。此时即使使用switchback设计，t检验也可较好工作（因为 \( S_t \) 的序列依赖很弱且不含treatment信号）。
有携带效应时：\( \beta > 0 \)，例如 \( \beta=0.5 \)。这时过去一期的策略选择直接move了今天的司机分布（\( S_t \)），进而影响今天的奖励。但一个标准的t检验只比较 \( A_t=0 \) vs 1 时 \( R_t \) 的均值，而 \( R_t = S_t \) 此时含有滞后一期的 \( A_{t-1} \) 信息，因此t检验对“携带效应”驱动的差异非常不敏感——这正是报告第18/19页模拟所展示的（表1中t检验在例2中power仅0.04）。而RL方法通过拟合MDP并用值函数来累积这些延迟效应，就能检测出这种差异。在这个一维例子中，只要估计出转移参数 \( \beta \)、\( \rho \) 等，就能计算 \( V^1(s) - V^0(s) \)，并构造检验。

三、报告主体：讲者讲了什么¶

[0:04:50 - 0:07:14] 介绍项目动机与背景 讲者首先说明项目由网约车平台的“订单派送策略评估”问题驱动（幻灯片8-10）。这些平台（如滴滴/Uber）拥有海量数据（"over 500 million users, >100 TB trajectory data per day" [0:03:02]），面临一系列数据需求，如供需预测、策略评估与优化。报告聚焦第一个项目：提出一个基于强化学习的A/B测试框架，论文已接受了JASA（Shi et al., 2022）。讲者强调该项目从启动到完成有两年时间，说明这个方向需要一定积累。

[0:07:14 - 0:10:07] 数据描述与三大挑战 - 数据来源：两星期的在线实验，以30分钟或1小时为时间单元；采用交替时间间隔（switchback）设计，相邻时间窗新旧策略交替。 - 观测变量：状态 \( S_t \)（司机数、订单数量、供需平衡指标等时变变量），动作 \( A_t \)（二元），奖励 \( R_t \)（接单率、完成率、司机收入）。 - 三大挑战： 1. 携带效应：是由于过去行动改变未来司机分布与行为。讲者用了一个简单的司机位置例子进行动画演示（[0:11:48 - 0:14:15]）。 2. 早期终止需求：实验持续时间长（2周），提前终止可以节省成本。 3. 自适应随机化：有时需要在线动态调整策略的分配比例（如ε-greedy）以更快更有效地收集数据。 - 讲者强调：“to our knowledge, no existing test has addressed all three challenges simultaneously” [0:10:36]。

[0:15:00 - 0:17:24] 模拟数据展示现有方法的不足 讲者用两个对照模拟例子（幻灯片18页）： - 例1：\( S_t \sim N(0,0.25) \)，\( R_t = S_t + \delta A_t \)。无携带效应，三种方法（t检验、DML检验、RL方法）power均很高。 - 例2：\( S_t = 0.5 S_{t-1} + A_{t-1} + N(0,0.25) \)，\( R_t = S_t \)。有通过状态传导的携带效应。双样本t检验的power仅0.04，DML检验的power仅0.06，而RL方法的power达到0.73（T=500，δ=0.1）。

这个模拟非常清晰地展示了携带效应对经典检验方法的致命影响。

[0:17:32 - 0:29:30] 强化学习框架：引入与理由 讲者用幻灯片20-29逐步引入： - 介绍RL的基本框架（agent-envionment循环，幻灯片21-22）。 - 核心假设：马尔可夫决策过程（MDP）：\( S_{t+1}, R_t \perp\perp\) 过去的数据 | \( S_t, A_t \)；转移函数平稳性（stationarity）。 - 为什么用RL？ 1. 值函数（value function）直接衡量长期累积奖励（幻灯片27）。 2. MDP的动态转移方程自然建模携带效应：图中显示“\( A_{t-1} \to S_t \to R_t \)”路径（幻灯片28）。 3. MDP下的马尔可夫性和平稳性允许用一段长的时间序列一致估计策略的值函数（幻灯片29）。 - 讲者还提示了处理非平稳性的技巧：将“peak vs. off-peak hours”等哑变量纳入状态（[0:27:10]）。

[0:30:00 - 0:38:05] 主要方法工具 - 使用时间差分学习（temporal difference learning）+ 筛法（sieve method） 来估计值函数差异并给出不确定性量化（幻灯片32）。 - 序贯监控：采用 α-spending approach（Lan & DeMets, 1983），以指定的总I类误差函数 \( \alpha(t) \)（0→最终α）分布在数个时间点上。具体流程：在每一预先设定的监测点（如第一周末起每天），使用逐步增大的显著水平 \( \alpha(t_i) - \alpha(t_{i-1}) \) 进行检验，拒绝则提前停止。 - 关键技术洞察：无需欠平滑（undersmoothing）。传统筛法估计要求筛子基函数个数增长速率足够快以消除核估计的偏差。本文发现，由于筛估计的条件期望是idempotent（幂等算子，Shen et al., 1997），在时间依赖数据下，这一特性仍能保证值估计量的渐近正态性而无需精心选择基函数个数（交叉验证即可）（幻灯片38）。 - 提出自助程序确定停止边界（因为经典数值积分法无法处理存在携带效应的自适应设计）。 - 理论结果： - 在MDP设计、alternating-time-interval设计和自适应设计下，所提检验可以控制类型I错误且对以参数速率收敛到零假设的备择假设具有相合性（幻灯片37）。 - 值估计量是半参数有效的（幻灯片38）。

[0:38:05 - 0:41:47] 仿真与实际算例 - 仿真结果重复了模拟中的规律（幻灯片39-41）。 - 实际数据应用（幻灯片42-43）：数据来自某网约车平台某城市，两周（672个30分钟单元）。状态变量包括司机数、订单数、供需平衡指标。将新派单策略与旧策略进行比较，以司机收入为奖励。AA实验（新旧相同策略）中[0:40:08]，检验统计量未超过停止边界，结论合理。AB实验中[0:40:55]，检验在约第10天提前拒绝零假设，报告t检验的p值为0.18，不显著——进一步展示RL方法比t检验更敏感。

[0:42:56 - 0:45:09] 快速介绍项目二：Deeply-Debiased Off-Policy Interval Estimation - 目标与第一个项目不同：第一个项目比较两个已知策略（在线实验中）；第二个项目要离线评估一个任意目标策略，并给出置信区间。 - 核心方法：通过高阶影响函数（higher-order influence functions, Robins et al., 2017）迭代去偏（slide 45-46）。 - 成果：估计量是半参数有效的，且对三个朴素函数的收敛速率没有任何最低速率要求（只需Op(n⁻κ) for any κ>0）（slide 47-48）。在率要求上比double RL（Kallus & Uehara, 2019）的op(n⁻¹/⁴)要宽松。

[0:58:00 - 0:59:49] 讨论部分核心要点 讨论者Sun Wei提出了两个延伸方向：“全在线bootstrap推断”（每一时间点都能做推断）和“结合离线与在线数据”。讲者回应称“在线bootstrap”可以应用于自己的场景以获得更高频率的终止点（从每天到每个时间点），并指出结合离线数据也是一个非常重要的未来方向（尤其因为公司有大量旧策略的历史观测数据）。

四、对应论文与开放问题¶

(a) 对应论文（标注不确定性）： - 项目一（报告主体）：Shi, Wang, Luo, Zhu, Ye, & Song. Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework. 已被JASA接收（2022）。幻灯片第6页明确标注。 - 项目二（仅简要提及）：Wan, Shi, Chernozhukov, & Song. Deeply-Debiased Off-Policy Interval Estimation. 发表在ICML 2021（long talk, top 3%）。幻灯片第44页。 - 讲者还引用了自己的前导论文：Shi et al. (2021, JRSSB) —— “Sieve Estimation under Markov Processes” 用于值估计的不确定性量化。 - 引用的关键外部工作：Bojinov & Shephard (2019) [不确定是否Time-series Experiments and Causal Estimands]，Kallus & Uehara (2019 “Double RL”)，Luckett et al. (2020 “V-learning”)，Robins et al. (2017 “Higher-Order Influence Functions”)，Lan & DeMets (1983 “α-spending approach”)。

(b) 开放问题（每条基于转写/幻灯片具体对应）： 1. 完全在线序贯监控：当前工作只在“每天”末做检验（即批处理模式），讨论者Sun Wei介绍了一种全在线bootstrap方法（可在每个时间点立即做推断）。讲者承认“你的方法可以在我们的应用中被使用，来可能更早终止实验” [0:56:07]。开放问题：如何将全在线bootstrap方法与MDP下的值估计相结合，在保持覆盖率和功效的同时，尽可能早地终止实验？

离线-在线数据协同：讨论者Sun Wei提出“如何利用海量离线历史数据（旧策略的观测数据）来改进在线A/B测试的设计和样本效率” [0:55:00]。讲者回应：“这是一个非常有趣的问题……我们已经有很多旧策略的历史数据。” 开放问题：在在线A/B测试中，能否引入离线数据来估计部分MDP转移参数（如“状态转移函数”或“行为策略倾向得分”），从而降低在线数据需求的量，或者帮助更高效地选择“switch-back间隔、自适应分配比例”等设计参数？
高阶去偏方法的更快收敛率：项目二的“Deeply-Debiased”方法在理论中允许对三个阈值函数的任何速率（Op(n⁻κ), κ>0）。但具体到实际应用（例如本报告中的MDP场景），这三个函数（状态转移、奖励函数、策略比值）的最适宜选择与估计策略是怎样的？幻灯片47提到该方法“flexible as it achieves nominal coverage allowing nuisance function to converge at any rate”。开放问题：在当前RL框架下，能否将高阶去偏过程与时间差分学习结合，提供一个统一的“对三个阈值函数速率无要求”的两策略差异（值函数差异）置信区间与检验方法（同时在有携带效应的时间序列中）？
自适应设计下的、具有携带效应的序贯α-spending边界计算：幻灯片23提到“bootstrap procedure for determining the stopping boundary”是因为自适应设计带来马氏非可加方差结构，经典数值积分法（用于独立同分布序贯检验的）不适用。开放问题：能否给出一个更好的分析性方法或者更高效的重抽样方法，用于计算自适应设计与携带效应并存的情况下序贯检验的停止边界？

Maintained by 陈星宇 · Homepage · Source on GitHub