跳转至

Experimental design in two-sided platforms: an analysis of bias

讲者: Ramesh Johari
讨论人: Panos Toulis
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-18
主题: 因果推断
视频: https://youtu.be/NDWuhbHtzMI · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2002.05670 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

本场报告位于因果推断中的干扰(interference)问题市场设计 / 运营管理的交叉地带,具体聚焦于双边平台(two-sided platforms)的实验设计

  • 这个子方向追问什么: 当实验单元之间因共享有限资源(如库存、注意力、匹配机会)而产生交互时,如何无偏估计“全局处理效应”(GTE)?传统的个体随机化(SUTVA)在此失效。
  • 奠基与主流路线: 因果推断社区处理干扰的主流工具是 暴露模型(exposure model)(Aronow & Samii, 2013),它用低维的“暴露函数”来刻画其他单元的处理状态如何影响本单元。应用于市场环境的代表作包括Bajari等人(2019)和Pouget-Abadie等人(2020)。这类方法的优势是与潜在结果框架紧密结合,理论上很清晰;缺点是依赖对暴露函数形式的强假设,可能无法捕捉市场动力学的结构性特征。
  • 当前frontier: 面对高度互联、库存动态实时变化的双边市场(如Airbnb、Uber、Upwork),如何设计实验并构建低偏估计量是活跃方向。另一条竞争路线是聚类随机化(cluster randomization, CRD),但其效果高度取决于聚类是否完美隔离。
  • 这场报告站在哪: 报告放弃暴露模型,转而采用结构模型(structural model) 的方法。讲者/Ramesh Johari 团队显式建模了库存动态(inventory dynamics)选择行为(discrete choice),并通过大系统平均场极限(mean field limit) 简化分析,借此揭示:传统单边随机化(CR 和 LR)的偏差主要由市场供需平衡度λ/τ)决定。在此基础上,他们提出了一种双边随机化(TSR) 的新设计,能在供需两端都达到无偏(在极端条件下),并降低中间区域的偏差。

要点: 这是运营管理视角对因果推断一场直接的、结构化的介入——不是去改进空间/时间暴露模型,而是说“如果你真的理解市场的动力学,你就能看清偏差的来源,并设计更好的实验”。它与主流因果推断的对话(如Panos Toulis的讨论)正是本报告的价值所在。

二、最小内核 / 一个最简例子

符号与模型

  • 市场实体: N 个 listings(供给侧,如房源/自由职业者),各自有类型 θ ∈ Θ;顾客(需求侧),各自有类型 γ ∈ Γ
  • 数据生成过程(简化为一个最简双边市场):
    1. 库存状态: 每个listing处于“空闲”或“已预约”状态。预约后,该listing经指数时间(参数 τ(θ))后恢复空闲。
    2. 顾客到达: 类型 γ 的顾客以Poisson率 Λγ 到达。
    3. 选择行为: 顾客到达时,观察到所有当前空闲的listings。他将每个空闲listing l(类型 θ)以概率 αγ(θ) 纳入考虑集;然后从考虑集中按多项Logit模型选择一项(包括一个外生选项)。效用 νγ(θ)
  • 可观测数据: 随时间推移记录的 booking 事件序列(谁预约了谁、什么时间)。稳态下,关键的 summary 是稳态预订率(steady-state booking rate)Q
  • 目标: 估计 全局处理效应(GTE) = Q(全局处理) - Q(全局对照),即:对全市场listings施加某个新功能/改变后,稳态预订率相对于什么都不做的变化。

一个超简例子:只有一个listing、两个顾客、顾客侧随机化

  • 设定: N=1 (一个listing),两个顾客A(处理组)和B(对照组),A先到达。
  • 实验: 顾客侧随机化(CR),即随机决定A和B谁看到“增强版”listing。
  • 机制: 处理使A更倾向于预订。A预订了唯一listing。B到达时listing已占用,无法预订。
  • 结果与偏差: 处理组的预订率被高估(A一到达就预订了),对照组的预订率被低估(B根本就没东西可订)。因此,CR估计量会高估GTE(因为低估了对照组的“自然”预订率)。
  • 关键洞察: 这里干扰的本质是顾客间的竞争(抢同一份库存)。如果库存恢复极快(τ→∞ 或顾客到达极慢 λ→0,即“需求受限市场”),B到达时listing已经恢复,干扰消失,CR估计无偏。这正是报告的核心定理。

对称情况:listing侧随机化(LR)

  • 设定: 两个listings(一个处理 ṽ>v,一个对照),一位顾客一次只能订一个。
  • 机制: 处理listing更有吸引力,顾客更可能选它。这就压低了对照listing的被选概率
  • 干扰本质: listings间的竞争(抢同一个顾客的需求)。如果市场“供给受限”(λ/τ→∞,即需求极大,库存永远不够用),顾客几乎会抢任何可用的listing,竞争效应减弱,LR估计偏小。

三、报告主体:讲者讲了什么

[0:01:07 - 0:02:50] 动机与定位

  • 讲者背景: 来自运筹学,过去十年专注于市场和平台设计(搜索、匹配、定价)。最近五年深度参与线上平台A/B测试。
  • 核心问题: 双边平台实验中的干扰(interference)导致的偏差。
  • 干扰的两来源:
    1. 顾客侧(CR): 顾客为有限的库存相互竞争(“内时”竞争)。
    2. listing侧(LR): listings为有限的顾客需求相互竞争。
  • 实地证据: 引用Blake & Coey (‘14) 和 Fradkin (‘15) 的研究,暗示偏差可能和效应本身一样大。
  • 方法论宣言: 不使用因果推断社区常见的“暴露模型”,而是采用结构模型,显式刻画库存动态。讲者强调,这是OR社区的标准做法,意在“用结构 insight 来指导实验设计”。

[0:04:01 - 0:05:20] 一个极简驱动例子

  • 图示:一个freelancer(listing) + 两个顾客(一人处理、一人对照)。处理顾客先到,预约了,对照顾客无货可订。这直接展示了CR的顾客间竞争干扰。

[0:05:20 - 0:06:10] 现有实践的盲点

  • 平台通常只用两种设计:顾客侧随机化(CR)和listing侧随机化(LR)。两者各自有其干扰源。此前缺乏对“何时哪种设计偏差大”的系统理解。

[0:06:30 - 0:11:00] 模型的正式描述

  • [0:06:30-0:11:00] 讲者详细介绍了随机库存模型:Poisson顾客到达 -> 形成考虑集 -> 多项Logit选择 -> 库存被占用 -> 指数时间后释放。该模型定义了一个连续时间马尔可夫链(CTMC)
  • [0:11:00-0:15:00] 分析策略:大系统平均场极限
    • 讲者取 N→∞,同时按比例缩放到达率等,将CTMC逼近为一组常微分方程(ODE)
    • ODE系统有唯一稳态,即平均场稳态(mean field steady state)
    • “现在我们可以在平均场稳态上讨论实验的偏差:全局处理、全局对照、以及实验设计各自对应一个平均场稳态,通过比较这些稳态,就能算出偏差,而无须分析复杂的有限系统。”
  • [0:15:00-0:17:00] Q&A 中断: 回答了模型假设(Poisson、指数释放)是否太强的问题。讲者承认每个假设都是对现实的偏离,但认为模型“抓住了第一阶效应”(库存约束和干扰),并指出这是结构建模的典型哲学。

[0:17:00 - 0:33:00] 主要结果 (1): CR 与 LR 的偏差分析

  • [0:17:00-0:27:00] CR 的定理: 在平均场稳态下,CR的naive Horvitz-Thompson估计量在需求受限极限(λ/τ → 0,即顾客到达极慢/库存刷新极快)下无偏
    • 直觉: 当顾客到达足够稀疏(或库存恢复足够快),不同顾客几乎没有机会竞争同一份额,干扰消失。
    • 类比: Netflix(无限库存模式) —— 你看一部电影不影响别人看同一部。
  • [0:27:00-0:33:00] LR 的定理: 在平均场稳态下,LR的naive HT估计量在供给受限极限(λ/τ → ∞)下(绝对)偏差趋于零
    • 重要注释: 这里绝对偏差趋于零,但相对偏差(相对GTE)可能不趋于零,且依赖于选择模型的具体细节。而CR在需求受限端相对偏差也归零。
    • 直觉: 供给极度受限时,顾客几乎会抢任何可用的listing,于是处理/对照listing之间的竞争减弱,干扰减少。

[0:33:00 - 0:42:00] 新设计:双边随机化(TSR)

  • [0:33:00-0:36:00] 设计: 将顾客和listings独立随机分配到处理/对照,但处理条件仅当顾客 AND listing同时为处理时应用(即2x2表格中的“处理-处理”格)。其余三格均为对照。
    • 这与Bajari et al. (2019) 的“双面随机化”独立工作。
  • [0:36:00-0:39:00] 估计: 提出TSRI-k估计量族。其核心思路不是简单插值CR/LR,而是利用TSR设计中的三个“对照”格来估计竞争效应并校正偏差
    • 直觉(以处理使listing吸引力增加为例):
      • CC(对照-对照)格 vs CT(对照-处理)格 的预订率差异 → 近似会员间竞争效应(competition among customers)
      • CC vs TC(处理-对照) 的差异 → 近似listing间竞争效应(competition among listings)
      • 再用这些校正项来调整naive比较。
  • [0:39:00-0:42:00] TSR vs 聚类随机化(CRD):
    • 模拟显示:若市场聚类完美分离,CRD更优;但只要存在跨集群重叠(这在现实中很常见),TSR的偏差更低、更稳健。
    • 讲者认为TSR的优点是不需要担心聚类是否隔离。

[0:42:00 - 0:44:00] 未来方向与开放问题

  • 推断(Inference): 如何获取标准误差和置信区间?(讲者坦承这是当前最大空白)。
  • 最优性(Optimality): 设计目标的MSE最小化(已有后续工作)。
  • 偏差校正(Debiasing): 可利用TSR设计来校正现有的、已被广泛使用的CR/LR实验的偏差。
  • 更广泛的设计空间: switchback、crossover等设计在双边市场中的对比。

[0:44:00 - 0:47:30] 讨论与Q&A(与讨论人Panos Toulis)

  • Panos 的评论主要分为四点:
    1. 框架言之有物: 特别表扬了 λ/τ 作为系统的“干扰参数”的洞察。
    2. 潜在结果视角: 尝试用潜在结果框架来形式化:作者实际上在定义一种“竞争条件下的SUTVA”,其中存在资源约束(一个listing不能被两个顾客同时订)。
    3. LR极限的困惑: Panos指出LR的“供给受限极限”似乎要求GTE本身为零(因为市场饱和了)。讲者回应:这确实是两个极限的非对称性,CR端更稳健,但LR端“比CR好”这个事实是稳健的。
    4. 结构假设的检验: 模型做了一些特定预测(如CC vs CT的差异应具有某种结构)。这些预测是否可在实验前用历史数据检验?讲者以“可用历史数据估计选择模型和库存动态来模拟全局处理/对照”回应,暗示这正处于与平台合作的前沿。

四、对应论文与开放问题

对应论文

  • 主论文: Johari, R., Li, H., Liskovich, I., & Weintraub, G. Y. (2020). Experimental Design in Two-Sided Platforms: An Analysis of Bias. arXiv:2002.05670.
    • 注释: 报告中提及的(slides引用的)。这也是OCIS正式安排的候选论文。应该精确无误。
  • 后续/相关论文(讲者在末尾提及):
    • 一篇关于TSR最优性与MSE的后续工作(作者包括Hannah Li, Geng Zhao, Gabriel Weintraub)——待核实具体标题和引用。
    • Bajari, P., et al. (2019). “Double/Debiased Machine Learning for Treatment and Structural Parameters.” 可能与TSR设计的另一独立发现者相关(slides中提及“Bajari et al., 2019”)(字幕可能有误,待核实具体引用)。
    • Pouget-Abadie, J., et al. (2020). “Bipartite Experiments on a Graph.” ——一家独立的工作(在双边市场环境下),报告末尾被提及。

开放问题(每条扎根于转写)

  1. [0:42:00] 推断(Inference):
    • 转写依据: “Looking ahead, three main areas of emphasis: 1. Inference: How do we estimate standard errors and confidence intervals?”
    • 问题: TSR设计及其估计量的方差分析置信区间构建完全未解决。现有理论停在大系统平均场极限(方差被消除),如何从有限样本中做推断?
  2. [0:42:00] 最优性(Optimality):
    • 转写依据: “2. Optimality: What are ‘optimal’ (i.e., MSE minimizing) TSR designs?”
    • 问题:a_c(顾客处理概率)和 a_l(listing处理概率)的2x2设计空间中,是否存在对MSE(偏差-方差权衡)的最优设计点?如何解决逼近极小值的计算问题?
  3. [0:42:00] 偏差校正(Debiasing):
    • 转写依据: “3. Debasing: Can we use TSR designs to debias naive LR and CR estimators?”
    • 问题: 平台已大量使用简单的CR/LR。可否利用TSR实验(比如同时跑很小的TSR子试验)来为CR/LR的naive估计量构造偏差校正项,同时保持其方差可控?
  4. [0:38:00] 结构检验:
    • 转写依据: Panos Toulis的讨论: “what if these predictions [from the model] are not validated in the data?”
    • 问题: 如何将结构模型中的关系(如 CC - CT 与竞争效应的线性关系)用作模型检验?在拿到TSR实验数据后,如何判断建模假设(如指数恢复时间、独立考虑集)的偏离程度?讲者回应(在实验外估计模型)暗示了一条检验路径,但这些路径具体如何形式化?
  5. [0:44:00] 与其他设计的对比:
    • 转写依据: Panos的问题: “Is TSR better than a crossover design?”; 报告末尾的列举: “not only TSR but cluster randomized and switch back and crossover designs.”
    • 问题: 在非稳态场景下(如metrics有时间趋势),TSR vs Switchback/Crossover design 的偏差-方差表现比较完全空白。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论