Experimental design in two-sided platforms: an analysis of bias¶

讲者: Ramesh Johari
讨论人: Panos Toulis
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-18
主题: 因果推断
视频: https://youtu.be/NDWuhbHtzMI · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2002.05670 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

本场报告位于因果推断中的干扰（interference）问题与市场设计 / 运营管理的交叉地带，具体聚焦于双边平台（two-sided platforms）的实验设计。

这个子方向追问什么： 当实验单元之间因共享有限资源（如库存、注意力、匹配机会）而产生交互时，如何无偏估计“全局处理效应”（GTE）？传统的个体随机化（SUTVA）在此失效。
奠基与主流路线： 因果推断社区处理干扰的主流工具是 暴露模型（exposure model）（Aronow & Samii, 2013），它用低维的“暴露函数”来刻画其他单元的处理状态如何影响本单元。应用于市场环境的代表作包括Bajari等人（2019）和Pouget-Abadie等人（2020）。这类方法的优势是与潜在结果框架紧密结合，理论上很清晰；缺点是依赖对暴露函数形式的强假设，可能无法捕捉市场动力学的结构性特征。
当前frontier： 面对高度互联、库存动态实时变化的双边市场（如Airbnb、Uber、Upwork），如何设计实验并构建低偏估计量是活跃方向。另一条竞争路线是聚类随机化（cluster randomization, CRD），但其效果高度取决于聚类是否完美隔离。
这场报告站在哪： 报告放弃暴露模型，转而采用结构模型（structural model） 的方法。讲者/Ramesh Johari 团队显式建模了库存动态（inventory dynamics） 和选择行为（discrete choice），并通过大系统平均场极限（mean field limit） 简化分析，借此揭示：传统单边随机化（CR 和 LR）的偏差主要由市场供需平衡度（λ/τ）决定。在此基础上，他们提出了一种双边随机化（TSR） 的新设计，能在供需两端都达到无偏（在极端条件下），并降低中间区域的偏差。

要点： 这是运营管理视角对因果推断一场直接的、结构化的介入——不是去改进空间/时间暴露模型，而是说“如果你真的理解市场的动力学，你就能看清偏差的来源，并设计更好的实验”。它与主流因果推断的对话（如Panos Toulis的讨论）正是本报告的价值所在。

二、最小内核 / 一个最简例子¶

符号与模型¶

市场实体： N 个 listings（供给侧，如房源/自由职业者），各自有类型 θ ∈ Θ；顾客（需求侧），各自有类型 γ ∈ Γ。
数据生成过程（简化为一个最简双边市场）：
1. 库存状态： 每个listing处于“空闲”或“已预约”状态。预约后，该listing经指数时间（参数 τ(θ)）后恢复空闲。
2. 顾客到达： 类型 γ 的顾客以Poisson率 Λγ 到达。
3. 选择行为： 顾客到达时，观察到所有当前空闲的listings。他将每个空闲listing l（类型 θ）以概率 αγ(θ) 纳入考虑集；然后从考虑集中按多项Logit模型选择一项（包括一个外生选项）。效用 νγ(θ)。
可观测数据： 随时间推移记录的 booking 事件序列（谁预约了谁、什么时间）。稳态下，关键的 summary 是稳态预订率（steady-state booking rate），Q。
目标： 估计 全局处理效应（GTE） = Q(全局处理) - Q(全局对照)，即：对全市场listings施加某个新功能/改变后，稳态预订率相对于什么都不做的变化。

一个超简例子：只有一个listing、两个顾客、顾客侧随机化¶

设定： N=1 (一个listing)，两个顾客A（处理组）和B（对照组），A先到达。
实验： 顾客侧随机化（CR），即随机决定A和B谁看到“增强版”listing。
机制： 处理使A更倾向于预订。A预订了唯一listing。B到达时listing已占用，无法预订。
结果与偏差： 处理组的预订率被高估（A一到达就预订了），对照组的预订率被低估（B根本就没东西可订）。因此，CR估计量会高估GTE（因为低估了对照组的“自然”预订率）。
关键洞察： 这里干扰的本质是顾客间的竞争（抢同一份库存）。如果库存恢复极快（τ→∞ 或顾客到达极慢 λ→0，即“需求受限市场”），B到达时listing已经恢复，干扰消失，CR估计无偏。这正是报告的核心定理。

对称情况：listing侧随机化（LR）¶

设定： 两个listings（一个处理 ṽ>v，一个对照），一位顾客一次只能订一个。
机制： 处理listing更有吸引力，顾客更可能选它。这就压低了对照listing的被选概率。
干扰本质： listings间的竞争（抢同一个顾客的需求）。如果市场“供给受限”（λ/τ→∞，即需求极大，库存永远不够用），顾客几乎会抢任何可用的listing，竞争效应减弱，LR估计偏小。

三、报告主体：讲者讲了什么¶

[0:01:07 - 0:02:50] 动机与定位¶

讲者背景： 来自运筹学，过去十年专注于市场和平台设计（搜索、匹配、定价）。最近五年深度参与线上平台A/B测试。
核心问题： 双边平台实验中的干扰（interference）导致的偏差。
干扰的两来源：
1. 顾客侧（CR）： 顾客为有限的库存相互竞争（“内时”竞争）。
2. listing侧（LR）： listings为有限的顾客需求相互竞争。
实地证据： 引用Blake & Coey (‘14) 和 Fradkin (‘15) 的研究，暗示偏差可能和效应本身一样大。
方法论宣言： 不使用因果推断社区常见的“暴露模型”，而是采用结构模型，显式刻画库存动态。讲者强调，这是OR社区的标准做法，意在“用结构 insight 来指导实验设计”。

[0:04:01 - 0:05:20] 一个极简驱动例子¶

图示：一个freelancer（listing） + 两个顾客（一人处理、一人对照）。处理顾客先到，预约了，对照顾客无货可订。这直接展示了CR的顾客间竞争干扰。

[0:05:20 - 0:06:10] 现有实践的盲点¶

平台通常只用两种设计：顾客侧随机化（CR）和listing侧随机化（LR）。两者各自有其干扰源。此前缺乏对“何时哪种设计偏差大”的系统理解。

[0:06:30 - 0:11:00] 模型的正式描述¶

[0:06:30-0:11:00] 讲者详细介绍了随机库存模型：Poisson顾客到达 -> 形成考虑集 -> 多项Logit选择 -> 库存被占用 -> 指数时间后释放。该模型定义了一个连续时间马尔可夫链（CTMC）。
[0:11:00-0:15:00] 分析策略：大系统平均场极限。
- 讲者取 N→∞，同时按比例缩放到达率等，将CTMC逼近为一组常微分方程（ODE）。
- ODE系统有唯一稳态，即平均场稳态（mean field steady state）。
- “现在我们可以在平均场稳态上讨论实验的偏差：全局处理、全局对照、以及实验设计各自对应一个平均场稳态，通过比较这些稳态，就能算出偏差，而无须分析复杂的有限系统。”
[0:15:00-0:17:00] Q&A 中断： 回答了模型假设（Poisson、指数释放）是否太强的问题。讲者承认每个假设都是对现实的偏离，但认为模型“抓住了第一阶效应”（库存约束和干扰），并指出这是结构建模的典型哲学。

[0:17:00 - 0:33:00] 主要结果 (1): CR 与 LR 的偏差分析¶

[0:17:00-0:27:00] CR 的定理： 在平均场稳态下，CR的naive Horvitz-Thompson估计量在需求受限极限（λ/τ → 0，即顾客到达极慢/库存刷新极快）下无偏。
- 直觉： 当顾客到达足够稀疏（或库存恢复足够快），不同顾客几乎没有机会竞争同一份额，干扰消失。
- 类比： Netflix（无限库存模式） —— 你看一部电影不影响别人看同一部。
[0:27:00-0:33:00] LR 的定理： 在平均场稳态下，LR的naive HT估计量在供给受限极限（λ/τ → ∞）下（绝对）偏差趋于零。
- 重要注释： 这里绝对偏差趋于零，但相对偏差（相对GTE）可能不趋于零，且依赖于选择模型的具体细节。而CR在需求受限端相对偏差也归零。
- 直觉： 供给极度受限时，顾客几乎会抢任何可用的listing，于是处理/对照listing之间的竞争减弱，干扰减少。

[0:33:00 - 0:42:00] 新设计：双边随机化（TSR）¶

[0:33:00-0:36:00] 设计： 将顾客和listings独立随机分配到处理/对照，但处理条件仅当顾客 AND listing同时为处理时应用（即2x2表格中的“处理-处理”格）。其余三格均为对照。
- 这与Bajari et al. (2019) 的“双面随机化”独立工作。
[0:36:00-0:39:00] 估计： 提出TSRI-k估计量族。其核心思路不是简单插值CR/LR，而是利用TSR设计中的三个“对照”格来估计竞争效应并校正偏差。
- 直觉（以处理使listing吸引力增加为例）：
  - CC（对照-对照）格 vs CT（对照-处理）格的预订率差异 → 近似会员间竞争效应（competition among customers）。
  - CC vs TC（处理-对照）的差异 → 近似listing间竞争效应（competition among listings）。
  - 再用这些校正项来调整naive比较。
[0:39:00-0:42:00] TSR vs 聚类随机化（CRD）：
- 模拟显示：若市场聚类完美分离，CRD更优；但只要存在跨集群重叠（这在现实中很常见），TSR的偏差更低、更稳健。
- 讲者认为TSR的优点是不需要担心聚类是否隔离。

[0:42:00 - 0:44:00] 未来方向与开放问题¶

推断（Inference）： 如何获取标准误差和置信区间？（讲者坦承这是当前最大空白）。
最优性（Optimality）： 设计目标的MSE最小化（已有后续工作）。
偏差校正（Debiasing）： 可利用TSR设计来校正现有的、已被广泛使用的CR/LR实验的偏差。
更广泛的设计空间： switchback、crossover等设计在双边市场中的对比。

[0:44:00 - 0:47:30] 讨论与Q&A（与讨论人Panos Toulis）¶

Panos 的评论主要分为四点：
1. 框架言之有物： 特别表扬了 λ/τ 作为系统的“干扰参数”的洞察。
2. 潜在结果视角： 尝试用潜在结果框架来形式化：作者实际上在定义一种“竞争条件下的SUTVA”，其中存在资源约束（一个listing不能被两个顾客同时订）。
3. LR极限的困惑： Panos指出LR的“供给受限极限”似乎要求GTE本身为零（因为市场饱和了）。讲者回应：这确实是两个极限的非对称性，CR端更稳健，但LR端“比CR好”这个事实是稳健的。
4. 结构假设的检验： 模型做了一些特定预测（如CC vs CT的差异应具有某种结构）。这些预测是否可在实验前用历史数据检验？讲者以“可用历史数据估计选择模型和库存动态来模拟全局处理/对照”回应，暗示这正处于与平台合作的前沿。

四、对应论文与开放问题¶

对应论文¶

主论文： Johari, R., Li, H., Liskovich, I., & Weintraub, G. Y. (2020). Experimental Design in Two-Sided Platforms: An Analysis of Bias. arXiv:2002.05670.
- 注释： 报告中提及的（slides引用的）。这也是OCIS正式安排的候选论文。应该精确无误。
后续/相关论文（讲者在末尾提及）：
- 一篇关于TSR最优性与MSE的后续工作（作者包括Hannah Li, Geng Zhao, Gabriel Weintraub）——待核实具体标题和引用。
- Bajari, P., et al. (2019). “Double/Debiased Machine Learning for Treatment and Structural Parameters.” 可能与TSR设计的另一独立发现者相关（slides中提及“Bajari et al., 2019”）（字幕可能有误，待核实具体引用）。
- Pouget-Abadie, J., et al. (2020). “Bipartite Experiments on a Graph.” ——一家独立的工作（在双边市场环境下），报告末尾被提及。

开放问题（每条扎根于转写）¶

[0:42:00] 推断（Inference）：
- 转写依据： “Looking ahead, three main areas of emphasis: 1. Inference: How do we estimate standard errors and confidence intervals?”
- 问题： TSR设计及其估计量的方差分析和置信区间构建完全未解决。现有理论停在大系统平均场极限（方差被消除），如何从有限样本中做推断？
[0:42:00] 最优性（Optimality）：
- 转写依据： “2. Optimality: What are ‘optimal’ (i.e., MSE minimizing) TSR designs?”
- 问题： 在 a_c（顾客处理概率）和 a_l（listing处理概率）的2x2设计空间中，是否存在对MSE（偏差-方差权衡）的最优设计点？如何解决逼近极小值的计算问题？
[0:42:00] 偏差校正（Debiasing）：
- 转写依据： “3. Debasing: Can we use TSR designs to debias naive LR and CR estimators?”
- 问题： 平台已大量使用简单的CR/LR。可否利用TSR实验（比如同时跑很小的TSR子试验）来为CR/LR的naive估计量构造偏差校正项，同时保持其方差可控？
[0:38:00] 结构检验：
- 转写依据： Panos Toulis的讨论： “what if these predictions [from the model] are not validated in the data?”
- 问题： 如何将结构模型中的关系（如 CC - CT 与竞争效应的线性关系）用作模型检验？在拿到TSR实验数据后，如何判断建模假设（如指数恢复时间、独立考虑集）的偏离程度？讲者回应（在实验外估计模型）暗示了一条检验路径，但这些路径具体如何形式化？
[0:44:00] 与其他设计的对比：
- 转写依据： Panos的问题： “Is TSR better than a crossover design?”; 报告末尾的列举: “not only TSR but cluster randomized and switch back and crossover designs.”
- 问题： 在非稳态场景下（如metrics有时间趋势），TSR vs Switchback/Crossover design 的偏差-方差表现比较完全空白。

Maintained by 陈星宇 · Homepage · Source on GitHub