Efficient Experimentation and Inference for Large Decision Spaces¶

讲者: Eytan Bakshy
讨论人: Dean Eckles
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-06-23
主题: 因果推断
视频: https://www.youtube.com/watch?v=z0cHeMEYpNU · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于贝叶斯优化（Bayesian optimization, BO）与在线实验（field experiments）的交叉领域。它回答的核心问题是：当决策空间很大（高维 / 连续 / 带上下文信息）、且有多个竞争目标时，如何高效地通过少量实验找到最优的「政策 / 处理方案」？

背景与主流路线：

传统 A/B 测试：一次只比较少数几个处理组（通常是 2–5 个 arm），用假设检验选最优。它在低维、离散、目标单一的场景下工作良好，但当处理空间有几十甚至上百个候选点时，需要的样本量会爆炸（每个 arm 都需要足够的统计功效）。这无法满足工业界（如 Facebook）每月运行数万实验的需求。
多臂赌博机（Contextual Bandits）：在线、逐个个体、逐次更新分配概率的策略。它理论上最优（如 regret 界），但在实践中面临日志记录、延迟反馈、人工干预等落地困难（讲者在 [0:54:00] 处明确说“bandits 和 RL 在现实中很难做好”）。讨论人 Dean Eckles 也指出 [0:44:00–0:46:00]，Batch 更新而不是逐次更新是更有现实基础的设定。
贝叶斯优化：原本用于无导数、黑箱、计算昂贵的全局优化（如调 ML 超参数）。它用一个高斯过程（GP） 对目标函数建模，通过获取函数（acquisition function） 平衡探索与利用。报告的贡献在于：将 BO 从仿真 / 单目标 / 确定性环境，移植到了在线实验 / 多目标 / 有噪声 / 批次约束的真实场景中。这里的“目标函数”不再是黑箱仿真器，而是随机实验估计出来的平均因果效应（或其它聚合指标）。

这条工作线的关键奠基工作：

贝叶斯优化框架：Jones, Schonlau, and Welch (1998) 提出的 Efficient Global Optimization（EGO）。
GP 建模与实验设计：Kennedy and O'Hagan (2001) 将 GP 用于计算机实验校准；Shahriari et al. (2016) 的综述《Taking the Human Out of the Loop》。
高维 BO 的结构化方法：如 Additive GP (Duvenaud et al., 2011)、REMBO (Wang et al., 2013)、TuRBO (Eriksson et al., 2019)——这些都是讲者在 [0:31:00–0:32:00] 与其结构化核方法对比的基线。

这场报告站在哪：

它站在方法论驱动 + 系统落地的位置。讲者的团队不是提出全新的因果推断或优化理论，而是将成熟的 BO 工具箱工程化到 Facebook 实时实验平台，并针对现实痛点（多目标、约束、仿真偏倚、短期替代指标）做了具体的扩展。这些扩展本身带有一定的统计贡献（噪声 EI、约束 EI、多任务核、替代模型的 meta 分析），但报告更侧重直觉、例子和结果展示，而非严格的理论证明（如 regret 界或半参效率）。

二、最小内核 / 一个最简例子¶

符号与设定：

输入（政策参数 / 处理）：\( \mathbf{x} \in \mathcal{X} \subset \mathbb{R}^d \)。比如 \(d=4\)：每个网络质量等级对应一个“预读取帖数”。
目标（可观测聚合结果）：\( y \in \mathbb{R} \)，如用户平均使用时长（engagement）。我们做随机实验，将用户随机分配到某个 \( \mathbf{x} \)，观测到 \( y_i(\mathbf{x}) \)。在聚合层面，我们得到 ATE 估计 \( \hat{\tau}(\mathbf{x}) = \bar{y}_{\text{trt}}(\mathbf{x}) – \bar{y}_{\text{control}} \) 及其标准误 \( \hat{se}(\mathbf{x}) \)。
黑箱函数：\( f(\mathbf{x}) = \mathbb{E}[Y(\mathbf{x})] \)，即政策 \( \mathbf{x} \) 对目标的无偏平均因果效应。
模型：假设 \( f \) 来自一个均值为 0，核函数为 \( k(\mathbf{x}, \mathbf{x}'|\ell) \) 的高斯过程（GP），其中 \( \ell \) 是长度尺度（控制平滑度）。
获取函数：期望改进（Expected Improvement, EI），用于选择下一个要试的 \( \mathbf{x} \)。

最简例子（\(d=1\)、单个目标、无约束）：

想象我们想选择一个数字（帖子预读取量）\( x \in [0, 20] \) 来最大化用户时长。初始批次我们随机测了 3 个点：\( x=4 \)（时长涨 2%）、\( x=10 \)（涨 1%）、\( x=16 \)（跌 1%）。用 GP 拟合这 3 个带噪声的观察值，得到：

后验均值：在 \( x=4 \) 附近高，向两端下降；
后验方差（不确定性）：在 3 个数据点处很小，离它们越远越大。
EI 函数：在均值最高点（约 \( x=5 \)）附近很小（因为改进空间不大），但在 \( x \in [15,20] \) 域很大（虽然均值低，但不确定性大，有可能找到比当前最好点 \( x=4 \) 更好的值）。

于是我们选 EI 最大的点（比如 \( x=18 \)）作为下一批次的候选。跑完实验、更新 GP，循环——这就是 BO 的 myopic 搜索过程。

三、报告主体：讲者讲了什么¶

[0:00–0:04] 开场与动机 - 讲者 Eytan Bakshy，Facebook Core Data Science。引出问题：Facebook 每月运行数万实验，如何在大型决策空间（高维连续政策、多目标）中识别最优处理方案？

[0:04–0:08] 贝叶斯优化基本流程 - 政策向量化：将带上下文的政策（如“按网络质量预读取不同帖数”）映射为普通欧氏向量（如 <5,5,6,8>）。相信目标函数对政策参数平滑。 - 模型：用高斯过程（GP）作为非参数先验。幻灯片展示 GP prior 与 posterior 的直觉——平滑性假设 + 后验不确定性随距离增长。 - 获取函数：期望改进（EI），\( EI(x)=\int [f(x)-f^*]_+ p(f|\mathcal{D}) df \)。幻灯片举例 EI 如何找到下一个需要试的点。

[0:08–0:12] Batch 贝叶斯优化与实例 - 现实限制：实时实验需要所有 arm 同时开始，而不是逐个点添加。所以用Batch EI。 - 实例：14 维 Instagram 排序实验。初始随机批次大多效果差；Batch EI 选出的候选全部优于 status quo，且平均等于首轮最优 arm。

[0:12–0:17] 多目标与约束优化 - 核心痛点：实验者通常同时关心多个指标（engagement ↑, CPU ↓）。直接问权重很难。 - 方案一：约束 BO，最大化一个指标，同时约束其它指标不跌过某一阈值（如 ΔObjective1 > -0.5%）。 - 讲者给出Noisy EI（发表于 Bayesian Analysis 2019, Letham, Karrer, Ottoni, & Bakshy），考虑到实验有噪声（非确定性），并支持批次与约束。 - 方案二（slide 展示，但转写只在结尾略提）：交互式偏好学习与Pareto前沿优化（Differentiable Expected Hypervolume Improvement, Daulton, Balandat, Bakshy 2020）。

[0:17–0:23] 突破黑箱：高维政策优化的挑战 - 纯 GP 在 d > 18–22 时遭遇维度诅咒。 - 方案：结构化核函数——假设政策在不同上下文（网络质量类别）间共享平滑度（长度尺度），用加性核：

\[\text{Cov}[f(\bar{x}), f(\bar{x}')] = \sum_{c=1}^C w_c^2 k_x(x_c, x_c')\]

- 结果：30 维策略的留一法预测从“垃圾（garbage）”变为合理。在视频播放控制的仿真中，结构化 GP（LCE-A）明显优于标准 GP 和各种嵌入方法（REMBO / HeSBO / TuRBO）。 - 前提（弱点）：假设策略不影响状态分布，且不同状态的回报独立。

[0:23–0:27] 利用偏倚仿真加速 - 问题：现实实验中信号弱、arm 多时，纯在线 BO 需要的样本数太大。 - 解法：多任务 BO（ICM 核）——将仿真器（偏倚）与真实实验视为两个任务，共享长度尺度，核心为：

\[\text{Cov}[f^d(x), f^{d'}(x')] = B_{d,d'} κ(x,x')\]

- 用大量仿真数据 + 少量在线数据拟合，能大幅降低 MSE（幻灯片展示“Online only” vs “Simulation-enriched”对比）。 - 遇到跨批次的非平稳性，用 rank-1 核作仿射变换校正。 - 算法：每轮：① 在线跑一批 N 个随机点 + 离线跑一批 M 个点；② 拟合多任务 GP；③ 用 Noisy EI 生成下一批候选；④ 在仿真上先跑候选，再用 NEI 选最终在线批。幻灯片展示几轮内快速收敛。

[0:27–0:36] 统计替代指标加速实验 - 问题：效果随时间变化（seasonality / novelty / population shift），早期结果不能反应长期效果（幻灯片显示 20 arm 实验中，前 24h 有正效果，120h 后全变负）。 - 解法：meta 分析的 Surrogate model——用历史实验数据训练一个从短期（1–2 天）的多指标向量到长期（7 天）目标的映射。 - 假设：Ignorable treatment assignment（随机实验保证）、Surrogacy/Prentice 准则、样本可比性、overlap。 - 训练：用 Gradient Boosted Regression Trees（GBRT）拟合 \( y_{i, t+h} = g(y_{., t}, t, h) \)，用分位数回归树获取预测区间。结果：R² 高，MSE 低于直接用粗数据（提供 shrinkage）。 - 开放问题：早期终止引入选择性偏差；建议用随机决策规则 + IPW 校正。

[0:36–0:42] 问答与讨论（Dean Eckles） - Eckles 强调批次更新的实用性优于逐次更新；指出 BO 直接优化政策参数 vs 标准 context bandits 方法的差异（可能效率损失）；提出用多重稳健（multiple robust） 估计器同时处理仿真和替代模型的偏差。

四、对应论文与开放问题¶

对应论文（从幻灯片可获得准确标题，转写有提及）：

Constrained Bayesian Optimization with Noisy Experiments (Letham, Karrer, Ottoni, & Bakshy. Bayesian Analysis, 2019)
Utilizing Biased Simulations with Multi-task Bayesian Optimization (Letham & Bakshy. JMLR, 2019)
Differentiable Expected Hypervolume Improvement for Parallel Multi-Objective Bayesian Optimization (Daulton, Balandat, Bakshy. arXiv 2020)
A Structured Kernel for Scaling Contextual Policy Search (Feng, Letham, & Bakshy, submitted)
Statistical Surrogacy for Accelerating Experimentation (Cai, Balandat, & Bakshy, 未明确标题，但已给出方法细节)
（关联参考）Athey et al. (2016) "Estimating Treatment Effects using Multiple Surrogates"

开放问题（每条扎根于转写具体位置）：

高维 BO 的理论保证：结构化核方法在 d>30 时 MSE 改善明显，但无 regret 界或 minimax 分析。可否为这个结构化 GP 推导出与 d 有关的 regret 上界？（幻灯片对比实验表明好于 REMBO / HeSBO，但没理论解释）
情境政策 vs 逐个体决策的效率损失：Dean Eckles [0:49:30–0:50:50] 指出用 BO 直接优化政策参数（聚合统计量）可能丢失上下文层面的精细化信息，导致效率损失。如何量化这种损失？是否可以用半参效率界来刻画它与使用个体层面信息的最优策略之间的 gap？
多模型的混合鲁棒估计：Dean Eckles [0:52:40–0:53:15] 提议在同时有仿真（有偏）和替代模型（可能 misspecified）时，构造多重稳健（multiple robust）估计器，使得只要至少一个模型正确就无偏。在 meta 分析式的替代模型 + 仿真结构中，能否构造类似 TMLE 或最小二乘双重稳健的估计量？ 这与研究员（星宇）的半参理论和HOIF技能高度相关。
替代模型下的自适应实验设计：讲者 [0:59:00–1:01:00] 提到“如果知道将要使用替代模型，是否可以预先设计不同的实验？”——例如，在初始批次中有意加入一些长程运行的“校准”arm 来 debias 替代模型。这近似于主动学习 + 偏倚校正的交叉设计，有无统计决策理论框架（如最优 exp design）可以捕获这样的 trade-off？
非平稳性与跨批次变换的自动发现：讲者 [0:35:00] 提到用 rank-1 核处理跨批次非平稳性。在更一般的情况下（未知非线性漂移），能否用 GP 的 deep kernel 或 warping 方法自动学习批间变换？
替代模型下的早停偏差：讲者 [0:40:30–0:41:00] 提到用随机停决策 + IPW。这本质上是一个截断 / 辍学问题。研究者（精于高维统计与 U-statistics）能否为此导出更紧的有限样本偏差界或更优的加权方案？

Maintained by 陈星宇 · Homepage · Source on GitHub

Efficient Experimentation and Inference for Large Decision Spaces¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论