跳转至

A minimum-risk and cost-efficient two-sample sequential testing framework for the shifted exponential models with application to precipitation data

作者: Ashwani Rajput, Neeraj Joshi
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.20069


一、领域脉络与小综述

这个方向是什么

本论文研究的子方向是在最小风险框架下,针对两样本位置参数的假设检验问题设计最优的序贯抽样方案。核心科学问题是:在保证第一类错误概率受控(预定水平)的前提下,如何通过序贯抽样策略同时最小化第二类错误概率和抽样成本?该方向当前成熟度中等——其理论基础(Chow-Robbins序贯分析、Stein两阶段)已建立六十余年,但将损失函数显式包含成本二阶渐近优化(风险效率、后悔)结合的工作直到最近才零星出现。

发展脉络

  • 奠基工作:两阶段与纯序贯方法
  • Stein (1945): 提出两阶段抽样,解决方差未知时固定宽度置信区间的构造,但平均样本量(ASN)与最优固定样本量的差无界,导致潜在的过度抽样。
  • Anscombe (1953), Chow & Robbins (1965), Starr (1966): 建立纯序贯估计与检验的理论 —— 每次只取一个观测,ASN能渐近达到最优固定样本量(一阶效率),但抽样操作次数等于样本量本身,实际开销大。
  • 这些工作构成了本论文方法的逻辑上游:① 最优固定样本量依赖于未知参数(无法用固定样本实现) → ② 序贯方案可以绕过此障碍 → ③ 但纯序贯的操作成本过高。

  • 主要进展:减少抽样操作次数的方案

  • Hall (1983): 提出“加速序贯抽样”——先纯序贯获取初步估计,然后一次性批量收集剩余观测。操作次数被压缩到约√(n),但批量阶段的过抽样(oversampling)难以消除。
  • Mukhopadhyay & Wang (2020): 引入分组序贯抽样(batch sequential),每组取k个观测而非逐个。仍会遭受终止阶段的过抽样问题。
  • Hu (2020): 提出“双序贯抽样”——第一阶段分组取数(k个/批),第二阶段逐个取数。既保留渐近最优的ASN(≈纯序贯),又将操作次数缩减到与加速/分组方案类似。这篇是论文直接引用并扩展的“双序贯”框架来源。

  • 当前frontier:两样本移位指数检验+风险优化

  • Zhuang & Bapat (2022) (⚠️ 作者的framing中的关键引用):用序贯方案检验两移位指数位置参数差,同时控制Type I & II误差概率。作者对此定位:“这些方法未在统一的决策理论框架下同时关注误差控制和成本优化”。
  • Mukhopadhyay & Zhuang (2019), Rajput & Joshi (2025): 均为其他设定下的两序贯检验,不含成本项。
  • 本文位置:以Hu (2020)的“双序贯”为平台,将其扩展到两样本移位指数模型的风险效率检验场景——在损失函数中同时编码第二类错误概率与采样成本,推导二阶渐近性质。

子线索聚类

  1. 纯粹序贯估计与检验(Chow & Robbins, Starr, Anscombe):强调最优ASN和渐近效率,忽略操作成本;证明路线是经典鞅停止+均匀可积性。
  2. 减少操作的序贯设计(Hall加速, Mukhopadhyay & Wang分组, Hu双序贯):在保持渐近效率前提下大幅降低抽样操作次数;技术核心是两阶段threshold的选取与事件分解。
  3. 带成本/风险函数的序贯检验(本文主体, 以及Mukhopadhyay & Bapat 2016关于Linex损失的工作):将损失函数同时包含误差项和成本项,追求“风险效率”而非单纯误差控制;二阶分析越来越精细。

核心问题与瓶颈

这个子方向正在追问的2-4个核心问题: 1. 成本与误差的平衡:如何在控制Type I error的前提下最小化一个由Type II error与成本构成的损失函数?现有的固定样本方案因未知尺度参数而不可行。 2. 二阶渐近性质:序贯方案在停止样本量的二阶展开、Type I error的二阶展开以及风险(后悔)的二阶展开都有多精确?这依赖于Woodroofe (1977)型二阶理论。 3. 适用分布族的扩展:目前的理论主要限于移位指数或正态——对于更一般的分布族(如伽马、对数正态),最优检验的序贯方案是否仍能保持类似的效率与后悔性质? 4. 多假设/多样本:当比较两组以上的位置参数时,序贯方法会遇到多重比较和停止规则的联合控制问题,目前几乎空白。

已知瓶颈:最优停止量显式涉及未知规模参数 → 纯序贯是唯一可实施路径 → 但纯序贯操作成本高 → 加速/分组/双序贯引入额外参数(k, ρ) → 这些参数的选取对有限样本性质的影响缺乏严密理论(仅凭经验设定)。

⚠️ 作者的framing

  • 作者把缺口frame成:Zhuang & Bapat (2022)等方法只控制误差概率,没有显式处理成本优化→因此本文的损失函数(含Type II error + 成本)和序贯风险效率是“显然的下一步”。
  • 被淡化或回避的竞争路线
  • 贝叶斯序贯方法(如贝叶斯sample size determination)完全被忽略。贝叶斯最优停止直接定义后验损失函数,也能天然处理成本。
  • 基于不断更新的无效分析(interim analysis)的临床试验方法(如O'Brien-Fleming边界、alpha-spending函数)不被引用。这些方法处理多个中间分析,而本文的双序贯也相当于两个阶段——但在框架上未与既有文献对话。
  • 非参数/半参数序贯(如基于empirical likelihood的序贯检验)未被提及。本文的模型局限于完全参数化(移位指数)。
  • 什么明显该被引/该存在、却没出现在intro里?
  • 没有引用Wald的序贯概率比检验经典工作——它是最直接讨论Type I & II误差权衡的序贯方法,但Wald SPRT处理的是简单vs简单假设,本文处理的是复合假设(尺度参数未知),且SPRT没有成本项。
  • 没有引用任何关于信息-计算权衡的序贯文献——研究者你可能对这部分敏感,但本文是纯经典渐近,完全不触及计算复杂度。

张力

未见对立引用。被引工作需要方向的作者如Mukhopadhyay、Zhuang、Bapat等彼此引用很密集 → 可以说这是一个“学派内部”的推进,缺少与外部路线的碰撞。值得注意:“加速序贯”和“分组序贯”的作者声称自己的方法在操作数上有显著优势,但本文采用Hu (2020)的双序贯后,在模拟中并未对这三种方案做并排比较(只与纯序贯= k=1对照),这留出了实证上的开放问题。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
  • 位置参数: \( \mu_1, \mu_2 > 0 \),是两个总体\(X, Y\)的最小保证持续时间(或基线位置的平移)。
  • 尺度参数: \( \sigma_1, \sigma_2 > 0 \),是两个总体指数尾部的平均递减率(等于方差均值比)。
  • 可观测随机样本: 来自\(X\)\(n_1\)独立观测\(\{X_1,\dots,X_{n_1}\}\),来自\(Y\)\(n_2\)独立观测\(\{Y_1,\dots,Y_{n_2}\}\),样本之间相互独立。
  • 最小次序统计量: \( X_{n_1}^{(1)} = \min\{X_1,\dots,X_{n_1}\}, Y_{n_2}^{(1)} = \min\{Y_1,\dots,Y_{n_2}\} \)——它们是\(\mu_1, \mu_2\)的MLE,也是检验统计量的构件。
  • UMVUE of σ:
    \[U_{n_1}^{(1)} = \frac{1}{n_1-1} \sum_{i=1}^{n_1}(X_i - X_{n_1}^{(1)}),\quad U_{n_2}^{(2)} = \frac{1}{n_2-1} \sum_{i=1}^{n_2}(Y_i - Y_{n_2}^{(1)})\]
  • 假设检验: \( H_0: \mu_1-\mu_2 = \Delta_0 \)\( H_1: \mu_1-\mu_2 = \Delta_1 (> \Delta_0) \)
  • 检验统计量: \( X_{n_1}^{(1)} - Y_{n_2}^{(1)} \)
  • 临界值: \( b \)(由误差概率和成本参数共同决定,公式(20))。
  • 损失函数: \( L_{\mathbf{n}}(\boldsymbol{\mu},\mathbf{c}) = A \cdot [\text{Type II error}] + C_{\mathbf{n}}(\boldsymbol{\sigma}) \), 其中成本函数 \( C_{\mathbf{n}}(\boldsymbol{\sigma}) = c_1 n_1\sigma_1^{-1} + c_2 n_2\sigma_2^{-1} \)(方差越大,单次观测成本越低)。
  • 风险(期望损失): \( R_{\mathbf{n}}(\boldsymbol{\mu},\mathbf{c}) = E_{\theta}[L_{\mathbf{n}}] \)
  • 最优固定样本量: \( n_1^*, n_2^* \)——最小化\(R_{\mathbf{n}}\)的解(公式(19)和(21)),依赖于未知的\(\sigma_1, \sigma_2\)
  • 双序贯停止规则中的关键量:
    • 设计常数:\(d_\alpha = \frac{1}{\Delta_1-\Delta_0} \log\left(\frac{A(\Delta_1-\Delta_0)}{4\alpha(c_1+c_2)}\right)\)
    • 第一阶段:批次大小 \(k_i\),比例参数 \(\rho_i \in (0,1)\)
    • 第一阶段停止:\( L_i = \inf\{n \ge 0: m + k_i n \ge \rho_i U_{m+k_i n}^{(i)} d_\alpha \} \)
    • 第二阶段停止:\( N_i = \inf\{n \ge T_i: n \ge U_n^{(i)} d_\alpha \} \),其中 \(T_i = m + k_i L_i\)
  • 潜在量: 固定的最优样本量\((n_1^*,n_2^*)\)在现实中观测不到(因为\(\sigma_1,\sigma_2\)未知)。

  • 模型

  • 两个总体独立,每个都服从两参数(移位)指数分布\( f(t; \mu, \sigma) = \frac{1}{\sigma} e^{-(t-\mu)/\sigma}, t \ge \mu \)
  • 位置参数\(\mu\)是截断点,尺度参数\(\sigma\)控制均值除μ后的尾巴。
  • 已知量:\( \Delta_0, \Delta_1, \alpha, A, c_1,c_2 \)(实验设计者指定)。

  • 可观测数据

  • 来自X的观测序列\(\{X_1,\dots,X_t\}\)和来自Y的\(\{Y_1,\dots,Y_t\}\)(随时间展开)。
  • 停止后,最终样本大小为\(N_1\)\(N_2\)
  • “想要但观测不到”:最优固定样本量\(n_1^*,n_2^*\)——因为依赖于未知尺度参数,不能固定计划。
  • “只能靠假设识别”:通过序贯停止规则在线估计尺度参数→在线调节样本量。

第二步:讲最小内核

本论文的整篇方法是一个特例的推广:假设\((c_1+c_2)\)很小(等价于\(q = \log(1/(c_1+c_2)) \to \infty\)),那么最优样本量变大,渐近理论可用。
最简特例 (取ki = 1退化为纯序贯):
- 我们从两个总体中单独且逐个地取样(k₁=k₂=1)。
- 停止规则:

\[N_i' = \inf\{n \ge m: n \ge U_n^{(i)} d_\alpha\}\]
其中\(U_n^{(i)}\)是第i个总体用前n个样估算的尺度参数UMVUE。
- 这意味着:每多取一个观察,我们就用当前样本更新尺度估计,如果当前的样本量n足够大(比起估计的尺度n*式),停下;否则继续。

在这个特例下: - 要证的命题退化为\( E_\theta[N_i'] = n_i^* - 1/4 + o(1) \)(二阶效率),且期望风险能达到最小固定样本风险的渐近等价(一阶风险效率)。 - 为什么成立:将停止规则重写为:

\[N_i' = \inf\{n \ge m: \sum_{i=1}^n W_i \le \frac{1}{n_i^*} n^2 (1+\frac{1}{n})\}\]
其中\(W_i\) i.i.d. ~ Exponential(1)。这正好是Woodroofe (1977)的规范形式(\(\alpha=2, \beta=1, \mu=1, \tau^2=1\))。Woodroofe定理直接给出: - \(E[N_i'] = n_i^* + \nu_{\alpha}(1,1) - 1 + o(1) \approx n_i^* - 0.25 + o(1)\)(因为\(\nu_\alpha(1,1) \approx 0.75\))。 - 且\((N_i' - n_i^*)/\sqrt{n_i^*} \xrightarrow{d} N(0,1)\)。 - 均匀可积性允许期望风险展开。

  • 扩展回双序贯:第一阶段用批次大小k(分组取数,取样次数从N次降到N/k + 少数逐个阶段),使得停止量渐近等价于纯序贯(Lemma 1 + Theorem 1证明差值可以忽略),从而同样达到二阶效率和风险效率。

所以,核心数学想法是:把序贯停止规则构造成Woodroofe规范形式,从而借用已有的渐近二阶理论,再将“双序贯”的额外阶段作为扰动,证明扰动是渐近可忽略的。

三、这篇论文做了什么

三句话

  1. 研究问题:针对两样本移位指数分布的位置参数比较问题,在控制Type I error概率为预定水平的同时,最小化一个包含Type II error概率和线性采样成本的损失函数。
  2. 核心方法:提出双组序贯抽样程序(第一阶段每组取k个,第二阶段逐个取),估计最优样本量以逼近最小固定样本风险。
  3. 主要结论:严格证明了该程序的一阶效率、二阶效率、一阶风险效率、二阶后悔(regret)的渐近展开式;模拟和降水数据验证了性质。

关键设定与假设

  • 符号同第二节,此处补全完整设定:
  • 待检验差距 \(\Delta_0, \Delta_1\) 固定。
  • 损失函数(9):\(L_{\mathbf{n}}(\boldsymbol{\mu},\mathbf{c})= A\cdot P_{\theta}(\text{Type II error}) + (c_1 n_1\sigma_1^{-1} + c_2 n_2\sigma_2^{-1})\)
  • 成本形式与“Fisher信息均衡准则”挂钩:要求两样本的位置参数的费舍信息相等 \(\Rightarrow n_1/n_2 = \sigma_1/\sigma_2\)
  • 双序贯停止:第一阶段\(L_i\)(分批取数),第二阶段\(N_i\)(逐个取数),参数\(k_i \ge 2, \rho_i \in (0,1)\)
  • 假设(28): 初始样本量m满足\(m = k_i m_{i0} + 1\),且\(m / n_i^* < \rho_i\)

  • 相比已有文献的放宽/强化

  • 放宽:允许两总体尺度参数未知且不等(之前如Mukhopadhyay & Hamdy 1984假设相等)。
  • 强化:损失函数中显式加入成本项(区别于Zhuang & Bapat 2022)。
  • 与Hu (2020)不同:后者使用双序贯做置信区间,此处做假设检验,且损失函数含Type II error。

主要结果

  • Lemma 1: 纯序贯停止量\(N_i'\)小于第一阶段停止量\(T_i\)的概率为\(O(n_i^{*-s/2})\)(需要\(m > s/2+1\))。这是连接双序贯与纯序贯性能的关键概率界。

  • Theorem 1 (效率):

  • (i) 一阶效率:\(E[N_i]/n_i^* \to 1\)
  • (ii) 二阶效率:\(E[N_i] = n_i^* - 1/4 + o(1)\)(若\(m > 5/2\))。
  • 核心:双序贯与纯序贯在均值的差异是\(o(1)\),而纯序贯已有Woodroofe二阶展开。

  • Theorem 2 (Type I error的二阶展开):

    \[P_{\theta,N}(\text{Type I error}) = \alpha + b_1 + o(q^{-1})\]
    其中\(b_1 \approx \frac{\alpha}{d_\alpha}\left[ \frac{3}{8\sigma_1} - \frac{3}{8\sigma_2} + \frac{l_1^2}{2\sigma_1} + \frac{3l_1}{4\sigma_1} - \frac{l_1}{32\sigma_1\sigma_2 d_\alpha} \right]\)\(l_1 = -\log(2\alpha)\)。需要\(m \ge 8\)

  • 直觉:当\(n_i^* \to \infty\)(即\(q\to\infty\)),\(b_1 \to 0\) ⇒ 渐近控制为\(\alpha\)

  • Theorem 3 (风险效率与后悔):

  • (i) 一阶风险效率:\(R_N / R_{n^*} \to 1\)
  • (ii) 后悔(regret):
    \[R_N - R_{n^*} = b_2 - \frac14\left(\frac{c_1}{\sigma_1} + \frac{c_2}{\sigma_2}\right) + o(q^{-1})\]
    其中\(b_2\)是式中的复杂常数(≈0当\(q\to\infty\))。需要\(m \ge 4\)
  • 关键:第二项负贡献表明简略低估(因\(n_i^*\)会被轻微低估)导致后悔为负(有利)。

证明路线与技术技巧(理论型)

  • 整体路线:
  • 先建立纯序贯(k=1)的完全渐近性(Woodroofe (1977) 规范形式)。
  • 证明“双序贯不比纯序贯需要更多样本”——Lemma 1给出\(N_i' < T_i\)概率衰减速度。
  • 用Holder不等式证明\(E[N_i] - E[N_i'] \to 0\)→得到效率。
  • 利用独立性:停止事件依赖于\(\{U_n^{(i)}\}\)序列,而检验统计量只取决于最小值→条件独立→期望嵌套。对Type I error和风险做Taylor展开到二阶,通过事件分解(四种情况)和边界引理(35)消化余项。
  • 双序贯与纯序贯的差异在二阶展开中可忽略(≤ o(q^{-1}))→最终定理。

  • 关键跳跃点:

  • 复杂二阶展开推导:直接对Type I error、风险做关于\((U,V)=(N_1/n_1^*, N_2/n_2^*)\)的多元Taylor展开到二阶,边量涉及\((U-1)^3\)等三阶项。关键技术是:
    • 使用bound (35)将负指数项与U,V幂函数绑在一起,得到各阶导数的控制。
    • 事件分解(\(E_1'\)\(E_4'\))将争议降到高概率集上(\(N_i > \epsilon n_i^*\)),剩余事件概率为\(O(n_i^{*- (m-1)})\),从而三阶项整体\(o(q^{-1})\)
  • Woodroofe规范的适配:纯序贯停止被写成\(\inf\{n \ge m: \sum W_i \le \frac{1}{n_i^*} n^2 (1+1/n)\}\)。这里的幂2来自指数分布UMVUE的二次型结构;论文比Woodroofe例子(\(\alpha=2,\beta=1\))完全相同,因此直接调出显式权威结果。

  • 技术技巧点名

  • Woodroofe (1977) 二阶停止理论:用于纯序贯\(N_i'\)的均值和分布收敛。
  • Holder不等式:用于将概率界转为期望差异(证明Lemma 1到定理1的连接)。
  • Taylor展开 + 均匀可积性:用于Type I error和风险的二阶展开。
  • 边际引理(35)\((X^{-1}+Y^{-1})^{-j} e^{-aY} \le \frac{i!}{a^i} Y^{i-j}\),用于控制高阶Taylor余项在低概率事件上的贡献。

真实例子与应用

  • 数据:GHCN-Daily中两个气象站(西雅图塔科马、波特兰)的1950-2026湿季日降水量,挑出≥20mm的“强降水日”,去丛聚后得到146和110个 episode间间隔时间。
  • 如何应用
  • 检验H0: μ1-μ2=0,α=0.05,A=10,k1=k2=3, ρ1=ρ2=0.6,两档(Δ1, c1+c2)组合。
  • 对总体数据执行双序贯抽取(无放回)。
  • 计算终端最小值的差值,与临界值b比较。
  • 结果:所有设定下未能拒绝H0(差值统计量=0或接近0)。BS均值显示稳定性。
  • 想说明什么:验证方法在真实数据中的实用可行性且结果符合生态预期(两站降雨模式相似)。

🔎 结论是否比证明窄

  • Theorem 2 的Type I error展开:在二阶段序贯下,展开式b1依赖于σ1,σ2 —— 但论文只声称“渐近控制为α”,并未证明有限样本不大于α。展开式的常数b1有正有负可能?论文没讨论这使得保守性无法预设。
  • Theorem 3 (ii)后悔的表达式中,b2在模拟和附录中被声称“趋于0”,但并未给闭式符号——也就是说,后悔可能在某些参数配置下为正(不利),不是全局负。
  • 数据演示只用了单个实现(一次抽样),没有像模拟那样做10,000重复——稳健性只能靠BS,不能算充分验证分布性质。
  • 论文纯理论证明依赖于Woodroofe(1977)对移位指数设置的特化,因此实际上线性假设(成本为n/σ)和非线性对数项\(d_\alpha\)的组合——一般分布族这块不能被自动平行,结论比技术上可能声称的窄得多。

四、开放问题

  1. 扩展到非指数分布族。论文未来工作提到“more general distributional settings”,但未提具体路径。A关键技术点:Woodroofe规范需要停止规则能写成关于i.i.d.随机和的形式(此处通过指数分布的UMVUE完成)。对于伽马、对数正态等分布,是否仍能推导显式的二阶展开?扎根:“Future research may focus on extending the proposed framework to more general distributional settings”(Section 7)。

  2. 双序贯参数(k, ρ)的自适应选择。目前模拟只试了几种组合,但Theorem 1-3假设了任意固定k≥2, 0<ρ<1。这些参数如何选择来优化有限样本性质(如使其保守/维稳)?是否存在最优的(k, ρ)?扎根:Section 4.1中有讨论“selection of k and ρ should be carried out carefully”但无理论指导。

  3. 多个假设检验(比较≥3个位置参数)。当比较多个总体时,序贯停止规则交织在一起,Type I error familywise控制与成本函数会复杂得多。扎根:论文只在Section 7 提到“multiple-comparison problems”。

  4. 🔎 确认真gap vs “学派内部”文献偏倚:本论文完全忽略贝叶斯序贯和基于SPRT的Wald框架。研究者你可能需阅读大约5篇近期引文(Zhuang & Bapat 2022, Mukhopadhyay & Aloufi 2024)和其他方向(Wald, Berger, Lorden)的intro来判断:是否大家都提出同一个缺口?还是只有这个学派内部自己指认?若后者就是你学习论文路线图的显示度价值。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论