跳转至

Inference for Batched Bandits

讲者: Susan Murphy
讨论人: Stefan Wager
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-05-19
主题: 因果推断
视频: https://www.youtube.com/watch?v=iLJ1hC5k-IQ · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2002.03217 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告属于 「自适应数据收集 (adaptive data collection) 后的统计推断」 这一子方向。具体而言,它聚焦于批处理 (batched) 情境——赌博机算法不是逐个体地更新,而是在每收到一批 (batch) 大小为 n 的数据后才更新一次行动选择策略——并回答:当数据是由一个赌博机算法(如 Thompson sampling)收集时,我们还能不能用标准的「批内 OLS + 正态近似」来做假设检验和置信区间?如果不能,又该怎么做?

方向背景: - 奠基与主流路线:经典结果如 Lai & Wei (1982) 给出了在线性回归中回归系数的渐近正态性,但那些结果依赖「设计矩阵的某个随机比例收敛到一个非随机极限」这一条件。在赌博机设置中,当处理效应为零或很小时,这个条件往往不成立(见报告 [0:25:38] 附近),导致 OLS 估计量的渐近分布不为正态。之前的文献(Villar et al., 2015; Deshpande et al., 2018; Nie et al., 2018; Shin et al., 2019)已经观察到这种非均匀收敛问题。 - 当前 frontier:近期工作有两条进路:
(1)自适应加权方案(如 Hadad et al., 2019 的 AW-AIPW)——通过数据依赖的权重调整,使聚合后的估计量重新满足 CLT;
(2)批内单独推断 + 聚合——即本报告的核心思路:不试图对全部数据做整体 OLS,而是每批各自算 OLS,并证明每批内的标准化统计量是渐近正态的,再将它们按批组合(为检验统计量或联合估计)。 - 本报告立足点:报告对应论文 arXiv 2002.03217 (Zhang, Janson, Murphy, 2020)。它直接应对上述非均匀收敛问题,提出了 Batched OLS (BOLS) 估计量,并证明其在弱条件下(包括批次内动作选择概率被截断)是渐近正态的,且对基线非平稳性 (non-stationarity in baseline reward) 具有鲁棒性。报告还通过模拟对比了 BOLS、OLS、W-decorrelated (Deshpande et al., 2018) 和 AW-AIPW (Hadad et al., 2019) 的表现。

领域内的关键工作(按转写 + 幻灯片提及): - Lai & Wei (1982):线性回归自适应性数据的渐近正态性所需条件。 - Deshpande et al. (2018):W-decorrelated 估计量,一种调整版 OLS,需选择调参。 - Hadad et al. (2019):Adaptively-Weighted AIPW (AW-AIPW),通过自适应权重稳定方差。 - 本报告:Zhang, Janson, Murphy (2020),批内分治推断


二、最小内核 / 一个最简例子

2.1 符号与模型(固定于报告的两臂赌博机,批处理设置)

可观测数据: - 时间索引 \(t = 1, \dots, T\)(T 固定,批次数量),每个批次内有 \(i = 1, \dots, n\) 个独立个体(用户 / 试验对象),n 为批次大小(大样本渐近中取 \(n \to \infty\))。 - 对每个 (t,i):动作 \(A_{t,i} \in \{0,1\}\)(二值),由赌博机算法按概率 \(\pi_t^{(n)}\) 选择(\(\pi_t^{(n)}\) 是算法基于历史 \(H_{t-1}\) 计算出的概率;条件于历史,各 \(A_{t,i}\) 在该批次内 i.i.d. Bernoulli(\(\pi_t^{(n)}\)))。 - 潜在结果:\(Y_{t,i}(0), Y_{t,i}(1)\)(独立于所有批次间),但只观察到 \(R_{t,i} = Y_{t,i}(A_{t,i})\)(奖励)。 - 假设:\(Y_{t,i}(a) \overset{\text{i.i.d.}}{\sim} (\beta_a, \sigma^2)\),即均值 \(\beta_a\),方差 \(\sigma^2\)(可异方差,但报告假设同方差简化)。

参数 / 目标: - 处理效应 (treatment effect):\(\Delta = \beta_1 - \beta_0\)。 - 我们想要做关于 \(\Delta\) 的假设检验或构造置信区间。

潜在不可观测 / 关键概念: - 概率 \(\pi_t^{(n)}\) 是条件于历史的随机变量,不会(在 \(\Delta = 0\) 或很小的情况下)随 \(n \to \infty\) 集中于一个非随机极限——这是 OLS 出问题的根源。

2.2 最简特例(d=1 无协变量,T=2 批,二值动作)

情形: - 批 1(\(t=1\)):均匀随机化,\(\pi_1^{(n)} = 1/2\) 固定。 - 批 2(\(t=2\)):算法不截断,直接用后验概率 \(\pi_2^{(n)} = P(\beta_1 > \beta_0 \mid H_1)\)。 - 设真实 \(\Delta = 0\)(零处理效应)。

发生了什么 [0:20:02–0:21:24]: - 因为 \(\Delta = 0\),后验概率 \(\pi_2^{(n)}\) 在批 1 数据足够大时收敛到一个非退化的分布(均匀分布)。也就是说,不同模拟路径下,有的 \(\pi_2^{(n)} \to 0.9\),有的 \(\to 0.1\),有的停在 0.5——完全不集中。 - 此时,整个样本中动作 1 的比例 \(n^{-1} \sum_{t,i} A_{t,i}\) 无法被一个非随机常数标准化(这将导致 OLS 检验统计量的渐近分布不是正态)。 - 若我们坚持用「把两批数据合起来做 OLS + 用 CLT 近似」,检验会过度拒绝(Type-1 error inflation)[0:26:29–0:27:57]。

BOLS 思路 [0:31:40–0:33:30]: - 对每个批次单独计算 OLS(即分别估计 \(\hat{\beta}_{t,0}, \hat{\beta}_{t,1}\))。 - 在每批内部,条件于历史,\(A_{t,i}\) 是 i.i.d. Bernoulli(\(\pi_t^{(n)}\)),所以该批内的 OLS 估计量是条件无偏的,且其方差可被该批内动作选择比例的样本矩一致估计。 - 即使 \(\pi_t^{(n)}\) 不集中到常数,每批内的样本比例除以概率的比也会收敛到 1(即 \( \frac{\frac{1}{n}\sum_i A_{t,i}}{\pi_t^{(n)}} \overset{P}{\to} 1\)),这是 BOLS 渐近正态性的关键。 - 最后,对 T 个批次的正态统计量做加权合并(如取简单平均)即可得到关于 \(\Delta\) 的全局检验。

直觉:把赌博机数据视为 T 个独立的、带有历史条件随机化的实验,逐个处理每个实验,再用它们自身内部的正态近似,就能绕开跨批次的不均匀收敛问题。


三、报告主体:讲者讲了什么

开场与动机 [0:00:05–0:01:30]
- 介绍合作者 Kelly Zhang 和 Lucas Janson,并启动 Q&A 流程。

1. 赌博机与 Thompson sampling 简介 [0:01:51–0:08:25]
- 用广告、数字健康、在线教育三个例子说明赌博机在现实中的应用。 - 给出两臂赌博机的符号:\(\beta_0, \beta_1\) 为两臂的均值,\(\pi_t\) 为时间 t 选择动作 1 的概率(由历史决定)。
- 演示 Thompson sampling:用高斯先验 + 高斯似然,每一步计算后验概率 \(P(\beta_1 > \beta_0 \mid \text{history})\) 并以此概率做出动作选择。

2. 为什么 after-study 推断不简单 [0:08:20–0:11:10]
- 潜在结果缺失机制是 MAR,似然可分解,但实际推断困难(Villar, Deshpande, Nie, Shin 等已指出)。 - 原因:赌博机算法为了最大化累积奖励,必然在好臂上投入更多样本,导致另一个臂样本不足 → 有偏估计。

3. 批处理赌博机与问题定义 [0:11:38–0:17:20]
- 情境:每个时间 t,做一批大小为 n 的试验,算法只在每批结束时更新(T 固定,n → ∞ 为渐近框架)。 - 符号:\(\pi_t^{(n)}\) 是条件于历史的选择概率(该批次内 i.i.d. 条件于历史)。
- 报告强调:即使截断 \(\pi_t^{(n)}\)\([\pi_{\min}, \pi_{\max}]\) 内(常见于数字健康中),当 \(\Delta\) 很小时,\(\pi_t^{(n)}\) 仍不集中 [0:19:32–0:21:24]。

4. OLS 的非均匀收敛与非正态性 [0:23:14–0:27:20]
- 引述 Lai & Wei (1982) 的 CLT 要求:存在非随机常数序列 \(a_n\) 使得 \(\frac{\sum_{t,i} A_{t,i}}{a_n} \overset{P}{\to} 1\)
- 当 \(\Delta = 0\) 时,这个要求不成立(Kelly 证明)。
- 通过模拟(T=25 批,不同 n 与信噪比):OLS 的 95% CI 实际覆盖在信号弱时会严重低于名义水平(无论 n 多大,总存在某个小的 Δ 导致欠覆盖)[0:26:29–0:27:57]。

5. BOLS:核心思想与理论 [0:31:40–0:34:43]
- 关键观察:对每批内部,\(\frac{\frac{1}{n}\sum_i A_{t,i}}{\pi_t^{(n)}} \overset{P}{\to} 1\) (as n→∞),即使 \(\pi_t^{(n)}\) 本身不集中到常数 [0:31:55–0:33:05]。 - BOLS 估计量:对每批 t,用该批内数据分别做 OLS,得到 \(\hat{\Delta}_t = \hat{\beta}_{t,1} - \hat{\beta}_{t,0}\)。 - 定理(简单固定截断版)[0:33:10–0:34:00]:在截断 + 矩条件下,

\[\sqrt{\frac{\bar{A}_t^{(n)} (1-\bar{A}_t^{(n)})}{n}} (\hat{\Delta}_t - \Delta_t) \xrightarrow{d} N(0, \sigma^2)\]
不同 t 的标准化统计量在极限下独立。 - 用这个结果可以做全局检验:构造 \(Z = \sum_{t=1}^{T} Z_t / \sqrt{T}\)\(Z_t\) 是每批的 t-统计量),它渐近标准正态 [0:34:43–0:35:05]。

6. 模拟对比 [0:35:56–0:40:00]
- 对比方法:OLS(聚焦批内 CLT 近似)、W-decorrelated (Deshpande et al., 2018)、AW-AIPW (Hadad et al., 2019) 以及 BOLS。 - 平稳设置 [0:35:56–0:37:45]:
- OLS 的 Type-1 error 过高(未校正)。
- W-decorrelated 和 BOLS 的 Type-1 error 都很好(≤ 0.05),但 BOLS 的功率高于 W-decorrelated。
- AW-AIPW 在批数少时 Type-1 error 偏高。
- 非平稳基线(baseline 均值随时间变化,但处理效应固定) [0:38:15–0:39:45]:
- 只有 BOLS 保持了良好的 Type-1 error 控制(其他方法未针对非平稳设计)。
- 功率上 BOLS 依然不错。

7. 讨论与开放问题 [0:40:01–0:42:20]
- 再次强调非均匀收敛的根源——后验概率当作“非平滑函数”对待。
- 提出更广的问题:当团队想在赌博机数据上做中介分析矩法估计等多种事后分析时,如何利用 BOLS 的渐近联合正态为这些更复杂的估计提供推断?[0:42:08–0:42:20]

8. 讨论者 Stefan Wager 的评论 [0:43:03–0:55:24]
- 用「两阶段自适应样本量设计」的简例说明了自适应停止如何破坏合并估计的正态性。 - 总结已有进路:置信序列、自适应加权(Hadad et al.)与批内推断(本报告),指出两者在深层思想(对每批单独标准化再聚合)上是相通的。 - 提出一个有意思的统一视角:BOLS 的聚合测试统计量是对 确定性权重(等权)的批内 z-值的平均;而优化功率则导向类似 Hadad 等人的方差稳定策略。


四、对应论文与开放问题

对应论文
- Zhang, K. W., Janson, L., & Murphy, S. A. (2020). Inference for Batched Bandits. arXiv:2002.03217.
(报告唯一明确引用的论文,转写 [0:01:30] 和讲者简介中匹配。)

报告中提及的其它文献
- Deshpande et al. (2018):W-decorrelated 估计量(幻灯片第 25 页提到,但未给出 arXiv ID;转写 [0:35:18] 提到 "Deshpande et al.")。
- Hadad et al. (2019):AW-AIPW(幻灯片第 25 页;转写 [0:35:18] 提到 "Hadad et al.")。
- Lai & Wei (1982):作为 CLT 背景被引(幻灯片第 15 页)。

开放问题(每条来自转写/讨论的具体时间点)

  1. 研究更一般的「矩法事后分析」框架 [0:42:08–0:42:20]:
    讲者指出,研究者事后还想做中介分析等多种矩类型统计推断;能否把 BOLS 的“批内独立正态”思路推广到更一般的估计方程或 M-估计?
    (对用户:这刚好对接你熟悉的半参数理论与高阶影响函数——批内独立的联合正态性能否让跨批聚合高阶 U-统计量的推断变得可行?)

  2. BOLS vs. 自适应加权方法的统一与功率优化 [0:53:00–0:53:55](Stefan 讨论):
    等权批内 z-检验与 Hadad 等人的方差稳定检验在深层有联系;一个有系统性的 功率优化(在给定 Type-1 error 约束下) 框架是什么?最优权重的形式是什么,如何依数据估计?
    (用户:这涉及非渐近与渐近准则的权衡,可能用你的 minimax 与效率理论背景来切入。)

  3. 处理效应本身也随时间变化的非平稳性 [0:38:50–0:38:58]:
    讲者提到论文中考虑了基线非平稳,但还有“处理效应本身变化”的更一般情形——在这种情境下,BOLS 是否仍能提供有效的推断?如何定义检验假设的恰当目标?
    (用户:动态处理效应的因果推断正是你的领域。)

  4. 不截断赌博机概率的场景
    报告的大部分分析建立在概率截断假设上。如果实际算法不做截断(如标准 Thompson sampling),BOLS 的 CLT 是否仍然成立?需要何种新的正则性条件?
    (转写 [0:20:02] 中非截断例子的非集中行为暗示了风险。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论