Sequential Probability Ratio Test using Z-Statistics (SPRT-z): A Practical Approach for Online Experimentation¶

作者: Derek L. Ho, Emma G. Thomas
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.24871

一、领域脉络与小综述¶

这个方向是什么¶

本文解决的根本问题是：在在线A/B测试（在线实验）中，如何设计一个序贯检验，使其同时满足以下四个实际需求：(1) 允许因有效性和无效性而提前停止；(2) 基于业务相关的阈值（最小可检测效应量，MDE）设定清晰的启动决策标准；(3) 严格控制第一类错误（假阳性）；(4) 严格控制第二类错误（假阴性，即保证统计功效）。当前主流的“始终有效推断”（Always Valid Inference, AVI）方法（如mSPRT、E值方法）擅长处理(1a)和(3a)，但不原生支持无效性停止(1b)、基于MDE的启动标准(2)和第二类错误控制(3b)。本文的核心主张是：复活并改进Wald的序贯概率比检验（SPRT），因为SPRT是唯一被设计为同时满足所有这四个属性的序贯检验方法。

发展脉络（history）¶

奠基工作：Wald的SPRT (1947)
- 做了什么：提出了序贯概率比检验，在简单原假设和简单备择假设下，通过似然比与两个边界（A和B）的比较，实现有效性和无效性停止，并严格控制第一类和第二类错误。
- 留下的口子：要求简单假设（即H0: δ=δ0, H1: δ=δ1），当真实效应介于两者之间时，检验可能长时间悬而未决，导致运行时间远超固定视界检验（FHT）。此外，原始的SPRT假设连续监测，且其精确分布（如t分布）计算成本高。
主要进展：始终有效推断（AVI）方法的兴起
- mSPRT (Johari et al., 2022)：通过混合备择假设（对效应量取先验分布）解决了SPRT的简单假设限制，允许无限次“偷看”并控制第一类错误。留下的口子：不原生支持无效性停止和第二类错误控制。
- GAVI / E值方法 (Howard et al., 2021; Ramdas et al., 2023)：基于赌徒/投资视角，构建测试鞅（test martingale）或E值，提供时间一致的置信序列。留下的口子：同样不原生支持无效性停止和第二类错误控制。
- 贝叶斯方法 (Deng et al., 2016)：证明在适当停止规则下，贝叶斯检验的有效性。留下的口子：不原生提供第二类错误或无效性控制。
- 随机化决策 (Koning & van Meer, 2026)：通过随机化决策（抛硬币）构建序贯检验，理论上可以处理所有属性。留下的口子：随机化决策在实践中可能不被决策者接受。
当前Frontier与本文位置
- 当前AVI方法在“始终有效”和“第一类错误控制”上做得很好，但牺牲了第二类错误控制和无效性停止。本文认为，对于在线实验平台，无效性停止（因为70-90%的特性是失败的）和严格的第二类错误控制（让团队能校准业务风险）是至关重要的。
- 本文的位置：作者试图“复活”SPRT，通过三个工程创新（SPRT-z, SFHC, Brownian MUE）来解决其计算瓶颈、运行时间过长和估计偏差问题，使其成为满足所有四个实际需求的、可大规模部署的解决方案。

子线索聚类¶

精确序贯检验（Exact Sequential Tests）：以Wald的SPRT和Hajnal的序贯t检验为代表。优点是理论精确、同时控制两类错误。缺点是计算成本高、要求简单假设、对中间效应不高效。
始终有效推断（Always Valid Inference）：以mSPRT、GAVI、E值方法为代表。优点是允许无限次偷看、计算相对简单。缺点是不原生支持无效性停止和第二类错误控制。
组序贯检验（Group Sequential Tests, GST）：以Jennison & Turnbull (1999)为代表。优点是控制有限次偷看下的错误率，功效损失小。缺点是需要预先设定偷看计划，不适用于连续监测。
偏差校正与推断（Bias Correction & Inference）：以Tsiatis et al. (1984)的Stagewise Ordering和Lee & Shen (2018)的“赢家诅咒”校正为代表。前者是序贯检验后无偏推断的理论框架，但计算复杂；后者解决的是多重比较后的选择偏差。

这个方向在追问的核心问题¶

如何同时控制第一类和第二类错误？ 这是SPRT的天然优势，但AVI方法普遍放弃了对第二类错误的严格控制。
如何实现高效的无效性停止？ 在大多数实验无效的背景下，快速停止无效实验比停止有效实验更具商业价值。
如何校正序贯停止带来的估计偏差？ 早期停止会导致效应量估计向上偏倚（“赢家诅咒”的一种形式）。
如何在大规模、高频率的在线实验平台上实现计算高效的序贯检验？ 精确的似然比计算（如非中心t分布）成本过高。

⚠️ 作者的framing¶

作者的缺口frame：作者将当前AVI方法的“不原生支持无效性停止和第二类错误控制”定义为核心缺陷，而将SPRT的“简单假设”重新定义为实际优势（因为简单备择假设可以对应业务相关的MDE阈值）。通过这种方式，作者将SPRT包装成“显然的下一步”，即一个能满足所有实际需求的、被忽视的解决方案。
被淡化或回避的竞争路线：
- 组序贯检验（GST）：作者在引言中承认GST能控制有限次偷看下的错误率，但将其归为“另一个范式”，并因在线实验需要“连续监测”而选择聚焦于AVI。这回避了GST在功效和样本量节省上的优势，以及通过适当设计（如频繁但固定的偷看计划）也能近似连续监测的可能性。
- 对AVI方法的适应性改造：作者提到“Some of these methods can be adapted to allow early futility stopping... but they are not designed to do so while also guaranteeing power”。这轻描淡写地回避了AVI社区可能通过设计新的停止规则或置信序列来同时实现无效性停止和功效控制的可能性。
什么明显该被引/该存在、却没出现在intro里？
- 关于“Winner’s Curse”的更广泛文献：作者引用了Lee & Shen (2018)关于“赢家诅咒”的论文，但这是针对多重比较后的选择偏差。序贯停止导致的估计偏差（即本文要解决的问题）在序贯分析文献中已有大量讨论（如Jennison & Turnbull, 1999; Siegmund, 1985）。作者没有引用这些更基础的、关于序贯检验后条件偏差的文献，而是直接跳到自己的Brownian MUE方法。
- 关于“Safe Testing”的近期进展：作者引用了Grünwald et al. (2019)的“Safe Testing”论文，但该论文的核心是s-value和GROW e-values，这与本文的SPRT-z框架在哲学上（赌徒视角 vs. 似然比视角）有显著不同。作者没有深入讨论这种差异，也没有解释为什么在在线实验场景下，SPRT-z的框架优于基于e-value的“安全测试”框架。

张力¶

未见明显对立引用。所有被引工作都在解决序贯检验的不同方面，彼此之间是互补关系而非矛盾关系。作者的主要张力在于对“什么是最重要的实际需求”的判断上（AVI vs. SPRT）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- δ: 真实的处理效应（Treatment Effect），是我们要估计的参数。
- δ_MDE: 最小可检测效应量（Minimum Detectable Effect），是业务上认为有实际意义的效应阈值，也是SPRT的简单备择假设。
- α: 第一类错误率（假阳性率），通常设为0.05。
- β: 第二类错误率（假阴性率），通常设为0.20，即功效为80%。
- H0: 原假设，δ = 0。
- H1: 备择假设，|δ| = δ_MDE（对于双尾检验）。
- m: 监测步骤的索引（第m次偷看）。
- n_t,m, n_c,m: 到第m步为止，处理组和对照组的累积样本量。
- x̄_t,m, x̄_c,m: 到第m步为止，处理组和对照组的样本均值。
- s²_t,m, s²_c,m: 到第m步为止，处理组和对照组的样本方差。
- z_m: 第m步的累积Z统计量。
- ψ_m: 第m步的非中心参数，代表在δ_MDE下期望的累积信号强度。
- LLR: 对数似然比（Log-Likelihood Ratio）。
- A, B: Wald决策边界，A = ln((1-β)/α), B = ln(β/(1-α))。
- N_max: 通过SFHC校准的最大样本量。
- n_daily: 每日进入实验的样本量（批次大小）。
模型：
- 数据生成机制：每个实验单元i在固定观察窗口W（如7天）内产生一个度量值X_i。处理组和对照组的度量值来自两个分布，其均值差为δ。方差未知。
- 统计模型：在每一步m，我们观测到累积的样本均值差(x̄_t,m - x̄_c,m)。SPRT-z的核心模型假设是：累积Z统计量z_m近似服从均值为ψ_m、方差为1的正态分布，即z_m ~ N(ψ_m, 1)。这个近似依赖于大样本（中心极限定理）和用样本方差替代总体方差（Slutsky定理）。
- 已知/未知：δ是未知的待估参数。δ_MDE, α, β是已知的设计参数。总体方差σ²未知，用样本方差s²估计。
可观测数据：
- 可观测：在每个监测步骤m，我们可以观测到处理组和对照组的累积样本量(n_t,m, n_c,m)、累积样本均值(x̄_t,m, x̄_c,m)和累积样本方差(s²_t,m, s²_c,m)。由此可以计算出z_m。
- 不可观测/潜在：真实的处理效应δ是未知的。我们想要知道的是，如果实验不提前停止，最终会观测到什么效应量。序贯停止导致我们只能观测到“停止时刻”的效应量，这个量是有偏的。

第二步：讲最小内核¶

最简特例：单次偷看、已知方差、单侧检验

为了理解SPRT-z的核心思想，我们考虑一个极度简化的场景： * 单次偷看：我们只计划在收集了N个样本后进行一次分析。 * 已知方差：假设总体方差σ²是已知的。 * 单侧检验：我们只关心处理效应是否大于0，即H0: δ=0 vs H1: δ=δ_MDE > 0。

在这个特例下，SPRT-z退化为一个固定样本量的似然比检验。

数据与统计量：我们观测到处理组和对照组的样本均值差Δ̄ = x̄_t - x̄_c。由于方差已知，Z统计量为Z = Δ̄ / (σ * sqrt(2/N))。在H0下，Z ~ N(0, 1)；在H1下，Z ~ N(ψ, 1)，其中ψ = δ_MDE / (σ * sqrt(2/N))。
对数似然比：根据公式(6)，单侧检验的LLR为： LLR = Z * ψ - (1/2) * ψ²
决策规则：我们比较LLR与边界A = ln((1-β)/α)。
- 如果LLR >= A，则拒绝H0，接受H1（有效）。
- 否则，接受H0（无效）。
核心思路：这个决策规则等价于一个基于Z统计量的阈值检验。将LLR >= A展开： Z * ψ - (1/2) * ψ² >= ln((1-β)/α) Z >= [ln((1-β)/α) + (1/2) * ψ²] / ψ 这个阈值就是Z的临界值。SPRT-z的核心思想就是：将序贯监测问题转化为在每一步m上，对累积Z统计量z_m进行一系列这样的似然比检验。只要z_m的路径没有穿过任何边界，实验就继续。
为什么这个特例能说明问题：
- 计算简单：LLR的计算只涉及正态分布的密度函数，避免了非中心t分布的计算瓶颈。
- 可扩展性：这个单步检验可以自然地扩展到多步序贯监测。在每一步m，我们计算z_m和ψ_m，然后计算LLR_m，并与固定的边界A和B比较。只要LLR_m在(B, A)区间内，实验就继续。
- 揭示了核心困难：即使在这个特例中，ψ_m的计算也依赖于未知的总体方差σ²。在实际中，我们用样本方差s²_m来估计，这引入了近似误差。此外，当真实效应δ介于0和δ_MDE之间时，z_m的漂移不足，导致LLR_m可能长时间徘徊在边界之间，这正是SPRT需要截断（通过SFHC）的原因。

总结：这篇论文在数学上干了一件什么事？它构建了一个基于累积Z统计量的序贯似然比检验，通过大样本正态近似绕开了精确分布的计算，并设计了配套的样本量校准和偏差校正方法，使其成为一个可大规模部署的、同时控制两类错误的在线实验框架。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：如何设计一个适用于大规模在线A/B测试的序贯检验，使其同时支持有效性和无效性早期停止、基于业务MDE的启动标准，并严格控制第一类和第二类错误。
核心工具/方法：提出了SPRT-z（基于Z统计量的序贯概率比检验），并配套了Scale-Free Horizon Calibration (SFHC) 和 Brownian Median Unbiased Estimator (MUE) 两个工程方法。
主要结论：通过模拟实验表明，SPRT-z在控制第一类和第二类错误方面表现良好，相比固定视界检验（FHT）能显著减少样本量，并且Brownian MUE能有效校正早期停止带来的估计偏差，提供接近名义水平的置信区间覆盖。

关键设定与假设¶

独立增量假设：这是序贯检验的基石。本文通过固定观察窗口（每个实验单元在固定时间窗口后“成熟”才被纳入分析）来强制执行这一假设，确保每一步新增的样本与历史样本独立。这是对在线实验平台中常见的纵向面板数据的一种工程化处理。
大样本正态近似：SPRT-z的核心假设是累积Z统计量z_m近似服从N(ψ_m, 1)。这依赖于：(a) 中心极限定理，要求每个监测步骤的样本量足够大；(b) Slutsky定理，允许用样本方差s²替代总体方差σ²。作者建议了一个“burn-in”阶段（每臂至少100个样本），以确保近似有效。
简单假设：SPRT-z要求设定一个简单的备择假设H1: |δ| = δ_MDE。作者将其重新定义为业务优势，即δ_MDE是业务上认为有实际意义的效应阈值。
Prequential更新：对于相对MDE（如百分比提升），作者使用前一步的对照组样本均值x̄_c,m-1来动态更新ψ_m。这要求ψ_m是F_{m-1}可测的，从而保证似然比序列在H0下是一个鞅（martingale），维持第一类错误控制。
SFHC假设：SFHC假设累积Z统计量的路径可以用带漂移的布朗运动来近似，并且该漂移与样本量的平方根成正比。这要求实验平台的流量是稳定的（n_daily已知且恒定），且历史基线方差是可靠的。
Brownian MUE假设：MUE方法假设序贯检验的停止时间和最终统计量可以用连续时间布朗运动来近似。当监测次数很少（如n_daily=2500导致仅4次偷看）时，离散时间步长过大，布朗运动近似失效，导致MUE过度校正。

主要结果¶

第一类错误控制：在所有模拟场景下，SPRT-z的经验第一类错误率都严格低于名义水平5%（在2.2%到3.7%之间）。这表明离散监测和无效性停止使其变得保守。
统计功效：通过SFHC校准最大样本量后，SPRT-z在MDE处的功效（约75%-79%）与FHT（约74%-79%）基本匹配，验证了SFHC能有效补偿“偷看税”。
样本量节省：在零效应（δ=0）和强效应（δ=0.15）下，SPRT-z相比FHT节省了17%到45%的样本量。但在中间效应（δ=0.05）下，节省效果减弱，甚至在低频监测（n_daily=2500）时出现轻微惩罚（-1.5%）。
偏差校正：Brownian MUE在大多数场景下成功将中位数偏差校正到接近零。但在低频监测（n_daily=2500）和强效应（δ=0.15）的组合下，由于布朗运动近似失效，MUE出现了过度校正。
置信区间覆盖：95%置信区间的经验覆盖率在大多数场景下接近名义水平（93%-97%）。同样，在低频监测和强效应组合下，覆盖率出现偏差（如97.9%或94.6%）。

证明路线与技术技巧¶

本文是方法型论文，没有传统意义上的“定理-证明”结构。其“证明”主要体现在对方法有效性的论证上，包括理论论证和模拟验证。

整体路线：
1. 构建检验统计量：从Hajnal的序贯t检验出发，利用大样本近似，将检验统计量从非中心t分布简化为基于累积Z统计量z_m的正态分布。这一步的核心是计算效率。
2. 构建决策规则：基于Wald的SPRT框架，使用对数似然比LLR和固定边界A, B进行决策。对于双尾检验，使用50/50的混合备择假设，得到一个简洁的LLR公式（ln(cosh(z_m ψ_m)) - 0.5 ψ_m²）。
3. 处理未知基线：对于相对MDE，引入prequential更新机制，用前一步的对照组均值估计当前步的ψ_m。通过附录A的鞅论证，证明这种更新方式不破坏H0下的鞅性质，从而维持第一类错误控制。
4. 校准最大样本量：开发SFHC算法。其核心思想是：将序贯检验的路径映射为带漂移的布朗运动，通过蒙特卡洛模拟和二分搜索，找到能保证目标功效的最大样本量N_max。关键技巧是在标准化Z尺度上操作，使得校准结果与具体指标的方差无关。
5. 校正估计偏差：开发Brownian MUE。其核心思想是：利用布朗运动模拟，计算在给定真实效应Ψ下，观测到比当前结果更极端的序贯路径的概率（p值）。通过Common Random Numbers (CRN) 技术保证p值函数关于Ψ的单调性，从而可以通过二分搜索反演出中位数无偏估计量和置信区间。关键技巧是6区域样本空间划分和Stagewise Ordering，以处理不同停止类型（有效、无效、截断）的排序问题。
关键跳跃点：
- 从精确t分布到近似Z分布：这是整个方法可行性的基础。作者通过计算基准测试（38倍速度差异）和理论论证（大样本下t→z）来支持这一跳跃。这个跳跃的代价是从精确错误控制变为渐近错误控制。
- 从连续监测到离散监测：Wald的SPRT假设连续监测。本文通过SFHC算法，用离散的布朗运动模拟来校准N_max，从而将理论应用于离散监测的实践。这个跳跃的代价是SFHC的准确性依赖于布朗运动近似的质量，在监测次数很少时（如n_daily=2500）会失效。
- 从数值积分到蒙特卡洛模拟：经典的Stagewise Ordering需要高维数值积分，计算量随偷看次数指数增长。本文用蒙特卡洛模拟替代，并通过CRN保证单调性，使得计算可行。这个跳跃的代价是引入了模拟误差，但在大样本下可以接受。
技术技巧点名：
- Common Random Numbers (CRN)：用于稳定p值函数的单调性，是MUE二分搜索收敛的关键。
- Stagewise Ordering：用于定义“更极端”的序贯结果，是计算p值和构建置信区间的理论基础。
- Prequential Principle (Dawid, 1984)：用于证明动态更新ψ_m不破坏鞅性质，是处理相对MDE的理论保障。
- Brownian Motion Approximation：用于将离散的序贯检验路径映射为连续的随机过程，是SFHC和MUE的数学基础。
- Monte Carlo Bisection：用于在SFHC中搜索N_max，在MUE中搜索Ψ。

真实例子与应用¶

数据/场景：模拟数据。作者设计了两种数据生成过程（DGP）：
1. 负二项分布DGP：模拟非负、零膨胀、右偏的在线实验指标（如点击量、活跃天数）。每个用户的潜在行为率来自对数正态分布，日度计数来自负二项分布，并采用交错进入和固定观察窗口。
2. 伯努利DGP：模拟二值结果（如转化率），作为对照实验，以验证结果不是由负二项分布的厚尾特性驱动的。
如何应用：作者将SPRT-z、SFHC和Brownian MUE作为一个完整的工作流应用于这些模拟数据。他们设定了α=0.05, β=0.20, δ_MDE=0.10，并测试了不同的每日流量（n_daily=100, 500, 2500）和真实效应量（δ=0, 0.05, 0.10, 0.15）。
结果：见“主要结果”部分。核心发现是SPRT-z能有效控制错误率、节省样本量，但MUE在低频监测下会失效。
例子想说明什么：这些模拟实验旨在验证SPRT-z框架在接近真实世界的、非理想化的数据环境下的表现。负二项分布DGP测试了方法对厚尾、零膨胀数据的鲁棒性；伯努利DGP测试了方法对二值数据的适用性。通过改变n_daily，他们揭示了方法的一个关键局限性：布朗运动近似在信息时间分辨率低（即偷看次数少）时会失效。

🔎 结论是否比证明窄¶

是的，存在一些泛化或未充分验证的声明：

“SPRT-z... guarantees Type I error control at any arbitrary stopping time”：这个声明是渐近的，而非精确的。作者在2.3节明确承认“SPRT-z provides asymptotic rather than exact finite-sample error control”，并建议了burn-in阶段。但在引言和结论中，这种“渐近性”被弱化了。
“SFHC... is independent of the underlying metric’s variance”：这个声明在理论上是正确的，因为它在标准化Z尺度上操作。但它的准确性依赖于布朗运动近似的质量，而布朗运动近似的质量又依赖于n_daily的大小和N_max的长度。在n_daily=2500的场景下，SFHC校准出的N_max虽然能保证功效，但MUE的偏差校正却失败了，这表明布朗运动近似在整个框架的某些部分可能不够精确。
“The MUE eliminates median estimation bias across cells with adequate information-time resolution”：这个声明是准确的，但“adequate information-time resolution”这个条件在论文中并没有被严格定义。从模拟结果看，当n_daily=2500且δ=0.15时（仅4次偷看），分辨率就不够了。作者没有给出一个通用的准则（如“至少需要K次偷看”）来指导实践者判断何时MUE是可靠的。

四、开放问题¶

开放纵向面板数据：作者在结论中明确指出“Extending SPRT-z to open-window longitudinal panel data... remains an open area of research”。这是本文框架最直接的扩展。扎根于：结论部分最后一段。
MUE在低信息时间分辨率下的改进：当监测次数很少时（如n_daily很大），连续时间布朗运动近似失效，导致MUE过度校正。如何设计一个考虑离散时间步长和边界跨越（overshoot）的校正方法？扎根于：6.1节最后一段和附录D。
自适应MDE：本文的SPRT-z要求预先设定一个固定的δ_MDE。如果业务需求变化，或者实验者想同时检测多个效应量，如何设计一个自适应的SPRT？扎根于：引言中关于简单假设的讨论，以及作者将其重新定义为“业务优势”的framing。这暗示了固定MDE是一个设计选择，而非理论限制。
与“Safe Testing”框架的整合：作者引用了Grünwald et al. (2019)的“Safe Testing”，但并未深入探讨。SPRT-z的似然比框架与基于e-value的“安全测试”框架在哲学和数学上都有差异。是否存在一个统一的框架，能同时结合SPRT的第二类错误控制优势和e-value的“安全”特性（如可选继续）？扎根于：引言中对AVI方法的讨论，特别是对Koning & van Meer (2026)的引用。

Maintained by 陈星宇 · Homepage · Source on GitHub