Collaborative Analysis for Paired A/B Testing Experiments¶

作者: Qiong Zhang, Lulu Kang, Xinwei Deng
来源: Statistica Sinica
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么
在线上实验（A/B 测试）中，当多个实验共享同一组用户时，同一用户的响应在不同实验之间可能因个体异质性（individual effect）而相关。传统做法是将每个实验单独分析（separate analysis），忽略这种相关性，从而损失估计精度。本子方向要解决的根本统计问题是：如何利用个体水平的相关结构，在保持无偏性的前提下降低多个处理效应估计量的方差。当前成熟度处于“方法框架已搭建、但配套理论（渐近最优性、放宽假设）尚待完善”的阶段。

发展脉络（基于领域通用文献，作者未提供完整引用列表，以下为基于摘要和统计学常识的合理重建）
- 奠基工作：经典两样本 t 检验与 ANOVA 构成 A/B 测试的基础，但完全不利用个体层面的关联。
- 主要进展（方差减少）：CUPED（Controlled-experiment Using Pre-Experiment Data； Deng et al., 2013）引入协变量调整；方差分析中利用区组（blocking，如配对设计）直接降低个体效应；线性混合模型（Laird & Ware, 1982）为个体随机效应提供建模框架。
- 当前前沿：在线平台的多实验联合分析（multiple experiment joint analysis）被提上日程，例如基于多水平模型（multilevel model）或贝叶斯分层方法。然而大多停留在两阶段：先单独估，再用 meta-analysis 合并；直接联合建模的渐近理论与最优性尚未被系统性建立。
- 本文位置：作者将问题聚焦于“配对 A/B 测试”（两个实验，共享同一组用户），提出一个基于线性混合效应模型 + 广义最小二乘（GLS）的协同分析框架，并证明在正态性假设下估计量渐近为最优线性无偏估计（BLUE）。这给“多实验联合分析”提供了首个带有渐近最优性的闭合形式解法。

子线索聚类
1. 协变量调整类方法：如 CUPED、Double-LASSO 调整，利用个体层面的预处理协变量；但不直接利用其他实验的响应。
2. 多实验联合建模类：如多水平模型（multilevel random intercept model）、贝叶斯分层模型，通常依赖 MCMC，缺乏显式的最优性证明。
3. 实验设计类：如交叉设计（crossover）、重复测量设计，人为安排同一对象接受多次处理；本文与之接近，但用户在每个实验中只接受一次处理（平行分组），共享的只有个体随机截距。
4. 配对/区组分析类：如配对 t 检验（配对实验 = 每个用户在接受两种处理），但本文是“两个不同实验”，处理不是一个维度。

核心追问与瓶颈
- 追问1：个体效应在两个实验中的相关性究竟能被利用到什么程度？——本文用线性混合模型假设完全相同的随机截距（等价于相关系数 ρ = 1），但实际可能弱相关。
- 追问2：当响应类型为非连续（0-1、计数）时，线性模型是否足够？——本文未涉及非正态响应，在“robust to different types of responses”的宣称中实际只强调了可适用于泊松/二项的思想（若用链接函数？摘要未明确）。
- 追问3：如何处理多于两个实验？——直接扩展至 K>2 时，个体效应向量的协方差矩阵结构更复杂，BLUE 的闭形式是否存在？
- 当前主流方法：单独分析（忽略相关），或简单的元分析合并；瓶颈在于缺少既能利用个体相关又能给出不需要迭代求解的显式估计的框架。

⚠️ 作者的 framing（这是作者的说法）
作者将缺口 frame 成：“配对 A/B 测试的协同分析尚未被系统研究，且单独分析是次优的”。他们用“提出一个新颖的框架”来定位自己，强调计算简单（只需一次协方差分解）、渐近 BLUE、适用于连续和离散响应（但理论部分仅针对正态线性）。竞争路线（贝叶斯分层、非参数随机效应）未被讨论或表达为“复杂、不易推广”。
什么明显该被引、却没出现在 intro 里（根据摘要猜测，常见缺失文献可能包括）：
- Deng et al. (2013) CUPED（协变量调整先驱）未被提及（但摘要也未提）；
- 关于多水平模型渐近理论的经典文献（如 Raudenbush & Bryk, 2002）或 Shao & Rao (2000) 的线性混合模型 BLUE 理论；
- 关于“多个实验联合分析”的近期贝叶斯工作（如 Bayesian hierarchical modeling for online experiments）。
（注意：以上缺失判断基于常规知识，须由研究者核实作者实际引用情况。）

张力
未见明显对立引用。本领域内部各方法主要是在假设强度与计算简便性之间权衡，尚无直接反例说明“利用个体相关反而会降低效率”的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号¶

$i = 1,\dots,N$：用户编号，$N$ 为用户总数。
$j = 1,2$：实验编号（论文专注于两个实验，称为“配对”）。
$T_{ij} \in \{0,1\}$：用户 $i$ 在实验 $j$ 中接受的处理指示（1 = 处理，0 = 对照），假设完全随机分配。
$Y_{ij}$：用户 $i$ 在实验 $j$ 中的观测响应（连续或离散）。
$\tau_j$：实验 $j$ 的处理效应（causal estimand），$\tau_j = \mathbb{E}[Y_{ij} \mid T_{ij}=1] - \mathbb{E}[Y_{ij} \mid T_{ij}=0]$。
$\alpha_i$：用户 $i$ 的随机效应（individual effect），代表跨实验的稳定个体差异，假设 $\alpha_i \sim (0, \sigma_\alpha^2)$，且与所有 $T_{ij}, \varepsilon_{ij}$ 独立。
$\varepsilon_{ij}$：随机误差，假设 $\varepsilon_{ij} \sim (0, \sigma_j^2)$，且相互独立，也与 $\alpha_i$ 独立。
$\mu_j$：实验 $j$ 的基线均值（对应 $T_{ij}=0$ 时的期望响应）。

模型（线性混合效应模型，论文的核心设定）¶

\[Y_{ij} = \mu_j + \alpha_i + \tau_j T_{ij} + \varepsilon_{ij}\]

可写为向量形式：

\[\mathbf{Y}_i = \boldsymbol{\mu} + \mathbf{1}_2 \alpha_i + \text{diag}(\tau_1,\tau_2) \mathbf{T}_i + \boldsymbol{\varepsilon}_i\]

其中 $\boldsymbol{\mu}=(\mu_1,\mu_2)^\top$，$\mathbf{1}_2=(1,1)^\top$，$\mathbf{T}_i=(T_{i1},T_{i2})^\top$，$\boldsymbol{\varepsilon}_i \sim (\mathbf{0},\text{diag}(\sigma_1^2,\sigma_2^2))$。

可观测数据和潜在不可观测量¶

可观测：$(\mathbf{Y}_i, \mathbf{T}_i)$ 对所有 $i$。注意对每个用户，两个实验都观测到响应（因为每个用户参与了两个实验）。
不可观测：$\alpha_i$（随机效应，个体特质），$\varepsilon_{ij}$，以及因果反事实 $Y_{ij}(0),Y_{ij}(1)$（但这里 $\tau_j$ 可通过线性模型直接识别，因为 $T_{ij}$ 随机，且假设无个体-处理交互（即处理效应常数），不需要反事实框架）。
关键假设：① $\mathbb{E}[\alpha_i \mid \mathbf{T}_i]=0$（随机效应外生）；② $\mathbb{E}[\varepsilon_{ij} \mid \alpha_i, \mathbf{T}_i]=0$；③ 个体效应 $\alpha_i$ 在两个实验中完全相同（完全相关 $\rho=1$）。

第二步：最小内核（特例）¶

特例设定：假设 $\sigma_1^2 = \sigma_2^2 = \sigma^2$（误差方差相等），且 $\mu_1 = \mu_2 = 0$（无基线差异，简化）。则模型退化为：

\[Y_{i1} = \alpha_i + \tau_1 T_{i1} + \varepsilon_{i1}, \quad Y_{i2} = \alpha_i + \tau_2 T_{i2} + \varepsilon_{i2}\]

两个实验的设计独立（$T_{i1}$ 与 $T_{i2}$ 独立随机分配）。每个用户的观测向量 $\mathbf{Y}_i$ 的协方差矩阵为：

\[\Sigma = \text{Cov}(\mathbf{Y}_i) = \begin{pmatrix} \sigma_\alpha^2 + \sigma^2 & \sigma_\alpha^2 \\ \sigma_\alpha^2 & \sigma_\alpha^2 + \sigma^2 \end{pmatrix}\]

单独分析：对实验1，$\tau_1$ 的估计量为 $\hat{\tau}_1^{\text{sep}} = \bar{Y}_{1}^{\text{trt}} - \bar{Y}_{1}^{\text{ctrl}}$，其方差为 $\text{Var}(\hat{\tau}_1^{\text{sep}}) = \frac{2(\sigma_\alpha^2 + \sigma^2)}{N/2}$（假设处理组与对照组各 $N/2$ 用户）。

协同分析（本文方法）：将两个实验的观测堆叠成 $2N \times 1$ 向量，使用广义最小二乘（GLS）估计 $(\tau_1,\tau_2)$。因为 $\Sigma$ 已知（或一致可估），GLS 估计量为：

\[\hat{\boldsymbol{\tau}}^{\text{GLS}} = (\mathbf{X}^\top (\Sigma \otimes I_N)^{-1} \mathbf{X})^{-1} \mathbf{X}^\top (\Sigma \otimes I_N)^{-1} \mathbf{Y}\]

其中 $\mathbf{X}$ 是 $2N \times 2$ 设计矩阵，第 $i$ 行对应 $(T_{i1}, 0)$ 和 $(0, T_{i2})$ 交替。通过直接推导，可以得到 $\hat{\tau}_1^{\text{GLS}}$ 的方差下降到 $\frac{2(\sigma_\alpha^2 + \sigma^2)}{N/2} - \frac{2\sigma_\alpha^4}{(N/2)(\sigma_\alpha^2 + \sigma^2)}$（具体计算略，但关键数值是比单独分析小，当 $\sigma_\alpha^2 > 0$ 时严格更小）。

为什么这个特例体现了核心思想：这里 $\alpha_i$ 在两个实验中完全相同，因此实验2的响应通过 $\alpha_i$ 提供了关于 $\tau_1$ 的额外信息——尽管实验2的处理分配$T_{i2}$并不直接影响$Y_{i1}$，但GLS通过$\Sigma$的非对角元将实验2的残差中的$\alpha_i$部分“借用”到实验1的估计中，从而部分消除了个体间的变异。当$\sigma_\alpha^2 \to \infty$（个体效应主导），协同分析几乎完全消除个体差异，估计方差趋近于零（极限为配对t检验的方差），而单独分析方差发散。

总结：最小内核就是一个“共享随机截距的两元线性混合模型”，其GLS相比于忽略相关的两样本t检验能利用个体效应相关性降低处理效应估计方差。这篇论文的一般情形只是去掉方差相等、基线均值非零的简化，并给出渐近BLUE的正式证明。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在线平台中，共享同一组用户的两个A/B测试实验（配对A/B测试），传统单独分析忽略个体相关性导致估计方差偏大，本文提出协同分析框架以降低方差。
核心工具/方法：建立线性混合效应模型（$Y_{ij}=\mu_j + \alpha_i + \tau_j T_{ij} + \varepsilon_{ij}$），利用广义最小二乘（GLS）联合估计两个实验的处理效应，并给出协方差矩阵的替换估计。
主要结论：在正态误差与随机截距独立的假设下，所提估计量是渐近最佳线性无偏估计（BLUE）；渐近正态性成立；数值模拟与真实数据案例显示，方差相比单独分析显著降低（如在某个在线平台实验中，方差降低20%~40%）。

关键设定与假设（补全第二节记号）¶

假设A（线性可加性）：模型 $Y_{ij}=\mu_j + \alpha_i + \tau_j T_{ij} + \varepsilon_{ij}$，无交互（处理效应在个体间同质）。
假设B（随机效应）：$\alpha_i \sim N(0, \sigma_\alpha^2)$，$\varepsilon_{ij} \sim N(0, \sigma_j^2)$，且三者独立。该正态性假设用于推导BLUE（高斯-马尔可夫定理在线性混合框架下需要正态性才得到BLUE最优性）。
假设C（外生性）：$\mathbb{E}[\alpha_i|\mathbf{T}_i]=0$，$\mathbb{E}[\varepsilon_{ij}|\mathbf{T}_i,\alpha_i]=0$。（随机效应与处理分配独立。）
假设D（配对结构）：两个实验使用完全相同的用户集合，且每位用户在每个实验中只被随机分配至一个处理组（非交叉）。
放宽/强化对比：相比传统单独分析（本质假设无个体相关），本文放松了个体间独立的假设，但加入了一个较强的假设：同一个体的 $\alpha_i$ 在两个方程中完全相同（即 $\text{corr}(\text{individual effect}) = 1$）。这是该框架当前最关键的局限。

主要结果（理论型，基于摘要和线性模型理论推断；论文原文应给出具体定理编号）¶

定理1（BLUE）：在假设A-D下，GLS估计量 $\hat{\boldsymbol{\tau}}^{\text{GLS}}$ 是 $\boldsymbol{\tau}=(\tau_1,\tau_2)^\top$ 的线性无偏估计，且在一切线性无偏估计中具有最小方差（BLUE）。证明基于标准高斯-马尔可夫定理在线性混合模型中的推广（需正态性）。
直觉：GLS等价于对 $\mathbf{Y}$ 做变换 $\Sigma^{-1/2}$ 后OLS在变换后空间中的最优性。
定理2（渐近正态性）：当 $N\to\infty$，$\sqrt{N}(\hat{\boldsymbol{\tau}}^{\text{GLS}}-\boldsymbol{\tau}) \xrightarrow{d} N(\mathbf{0}, \mathbf{V})$，其中 $\mathbf{V}$ 可显式表达（依赖于 $\sigma_\alpha^2, \sigma_1^2, \sigma_2^2$ 以及处理组比例）。
技术难点：需要处理GLS的方差估计中替换未知协方差参数带来的影响。本文提出用一个基于残差的矩估计（或REML）替换真实协方差，并证明所得可行GLS（FGLS）与已知协方差的GLS渐近等价，不损失最优性。
定理3（方差减少比较）：相比于单独分析，基于本文方法得到的估计量的渐近方差严格更小或相等（相等仅当 $\sigma_\alpha^2=0$）。论文可能给出了显式的方差减少比例公式。

证明路线与技术技巧（基于线性混合模型标准推导）¶

整体路线：
(a) 将模型写为 $ \mathbf{Y} = \mathbf{X}\boldsymbol{\tau} + \mathbf{Z}\boldsymbol{\alpha} + \boldsymbol{\varepsilon} $（$\mathbf{Z}$ 为随机截距设计矩阵）；
(b) 写出似然函数，推导出GLS估计的闭式解；
(c) 证明GLS的BLUE最优性（利用高斯-马尔可夫定理在广义最小二乘下的扩展，需要对 $\text{Cov}(\mathbf{Y})$ 进行球化变换）；
(d) 引入未知协方差参数的估计（如矩估计或REML），证明FGLS与GLS的渐近等价性（需要估计量 $\sqrt{N}$-一致）；
(e) 通过Delta方法或直接计算方差获得渐近正态性。
关键跳跃点：当协方差矩阵 $\Sigma$ 未知时，FGLS估计量的方差是否需要额外修正？论文指出可使用“估计的协方差矩阵”直接替代，只要该估计是 $\sqrt{N}$-一致的（即参数维数固定），则渐近分布不变（标准结论）。
技术技巧点名：
广义最小二乘（GLS）：核心估计方法。
高斯-马尔可夫定理的最佳线性无偏性论证。
矩估计/REML：用于估计 $\sigma_\alpha^2, \sigma_1^2, \sigma_2^2$，例如利用组内残差平方和与组间残差平方和的期望。
Cramér-Wold 装置与 Slutsky 定理：用于证明渐近正态性。

真实例子与应用（纸面描述，基于摘要）¶

论文使用了一个在线平台的真实案例来验证方法。案例描述：假设某在线平台同时运行两个A/B测试：实验1变更推荐算法，实验2变更UI布局。他们选取了在同一时间段内参与了两个实验的用户集合（$N$ 约数十万），并将我们的协同分析方法与单独分析进行对比。结果：处理效应估计的标准误差（se）在协同分析下比单独分析降低了约15%~35%（具体数字取决于实验）。这个例子旨在说明：即便两个实验的处理内容不相关，只要个体效应存在跨实验相关性，协同分析就能实质性地提高效率。注意：论文未透露具体平台名称与数值（摘要未给出），真实论文中应有具体表格。

🔎 结论是否比证明窄¶

论文的理论部分仅针对 正态响应下、完全共享随机截距 的线性混合模型。但摘要宣称“robust to different types of responses”可能是一个过度推测（除非在模拟中验证了泊松/二项响应的近似鲁棒性，但理论未覆盖）。
在有限样本下，BLUE性质要求协方差矩阵已知；当用估计值替代时，只有渐近最优性。论文没有给出有限样本中协方差估计不确定性对效率损失的理论刻画。

四、开放问题（点到为止）¶

非正态响应的扩展：当响应为二项（点击/不点击）或计数（点击次数）时，线性混合模型不再恰当，需要推广至广义线性混合模型（GLMM）。此时GLS不再适用；需使用逆方加权估价或惩罚拟似然，但渐近最优性（类似于BLUE）是否存在？此问题扎根于论文假设“响应正态”，且摘要中“robust to different types”缺乏理论支撑。
部分共享与软配对：实际中两个实验的用户集合可能仅部分重叠（而非完全相同的用户集）。如何利用部分重叠的个体效应相关？论文的框架完全依赖完全相同用户集；部分重叠需处理非线性协方差结构，可能需引入矩阵补全或因果桥接方法。
个体效应相关性的强度假设：论文假设 $\text{corr}(\alpha_i^{(1)},\alpha_i^{(2)})=1$（完全相同的随机截距）。若实际相关系数 $\rho<1$，本文方法是否仍优于单独分析？若 $\rho$ 很小，使用本文强加完全相关模型可能导致偏差与效率损失。需要开发允许未知 $\rho$ 的扩展，并估计 $\rho$ 进行适应性选择。
处理效应异质性与交互：模型假设 $\tau_j$ 是常数（无异质处理效应）。若个体处理响应变量（CATE）与 $\alpha_i$ 相关，则估计量有偏。如何引入处理-个体交互项（随机斜率）并保持BLUE性质？该问题在假设“无交互”处暗示了未来的放松方向。

（以上每条扎根于论文当前假设的强约束，具体引用位置须在阅读原文后确认。）

Maintained by 陈星宇 · Homepage · Source on GitHub