A minimum-risk and cost-efficient two-sample sequential testing framework for the shifted exponential models with application to precipitation data¶

作者: Ashwani Rajput, Neeraj Joshi
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.20069

一、领域脉络与小综述¶

这个方向是什么¶

本论文研究的子方向是在最小风险框架下，针对两样本位置参数的假设检验问题设计最优的序贯抽样方案。核心科学问题是：在保证第一类错误概率受控（预定水平）的前提下，如何通过序贯抽样策略同时最小化第二类错误概率和抽样成本？该方向当前成熟度中等——其理论基础（Chow-Robbins序贯分析、Stein两阶段）已建立六十余年，但将损失函数显式包含成本与二阶渐近优化（风险效率、后悔）结合的工作直到最近才零星出现。

发展脉络¶

奠基工作：两阶段与纯序贯方法
Stein (1945): 提出两阶段抽样，解决方差未知时固定宽度置信区间的构造，但平均样本量（ASN）与最优固定样本量的差无界，导致潜在的过度抽样。
Anscombe (1953), Chow & Robbins (1965), Starr (1966): 建立纯序贯估计与检验的理论 —— 每次只取一个观测，ASN能渐近达到最优固定样本量（一阶效率），但抽样操作次数等于样本量本身，实际开销大。
这些工作构成了本论文方法的逻辑上游：① 最优固定样本量依赖于未知参数（无法用固定样本实现） → ② 序贯方案可以绕过此障碍 → ③ 但纯序贯的操作成本过高。
主要进展：减少抽样操作次数的方案
Hall (1983): 提出“加速序贯抽样”——先纯序贯获取初步估计，然后一次性批量收集剩余观测。操作次数被压缩到约√(n)，但批量阶段的过抽样（oversampling）难以消除。
Mukhopadhyay & Wang (2020): 引入分组序贯抽样（batch sequential），每组取k个观测而非逐个。仍会遭受终止阶段的过抽样问题。
Hu (2020): 提出“双序贯抽样”——第一阶段分组取数（k个/批），第二阶段逐个取数。既保留渐近最优的ASN（≈纯序贯），又将操作次数缩减到与加速/分组方案类似。这篇是论文直接引用并扩展的“双序贯”框架来源。
当前frontier：两样本移位指数检验+风险优化
Zhuang & Bapat (2022) (⚠️ 作者的framing中的关键引用)：用序贯方案检验两移位指数位置参数差，同时控制Type I & II误差概率。作者对此定位：“这些方法未在统一的决策理论框架下同时关注误差控制和成本优化”。
Mukhopadhyay & Zhuang (2019), Rajput & Joshi (2025): 均为其他设定下的两序贯检验，不含成本项。
本文位置：以Hu (2020)的“双序贯”为平台，将其扩展到两样本移位指数模型的风险效率检验场景——在损失函数中同时编码第二类错误概率与采样成本，推导二阶渐近性质。

子线索聚类¶

纯粹序贯估计与检验（Chow & Robbins, Starr, Anscombe）：强调最优ASN和渐近效率，忽略操作成本；证明路线是经典鞅停止+均匀可积性。
减少操作的序贯设计（Hall加速, Mukhopadhyay & Wang分组, Hu双序贯）：在保持渐近效率前提下大幅降低抽样操作次数；技术核心是两阶段threshold的选取与事件分解。
带成本/风险函数的序贯检验（本文主体, 以及Mukhopadhyay & Bapat 2016关于Linex损失的工作）：将损失函数同时包含误差项和成本项，追求“风险效率”而非单纯误差控制；二阶分析越来越精细。

核心问题与瓶颈¶

这个子方向正在追问的2-4个核心问题： 1. 成本与误差的平衡：如何在控制Type I error的前提下最小化一个由Type II error与成本构成的损失函数？现有的固定样本方案因未知尺度参数而不可行。 2. 二阶渐近性质：序贯方案在停止样本量的二阶展开、Type I error的二阶展开以及风险（后悔）的二阶展开都有多精确？这依赖于Woodroofe (1977)型二阶理论。 3. 适用分布族的扩展：目前的理论主要限于移位指数或正态——对于更一般的分布族（如伽马、对数正态），最优检验的序贯方案是否仍能保持类似的效率与后悔性质？ 4. 多假设/多样本：当比较两组以上的位置参数时，序贯方法会遇到多重比较和停止规则的联合控制问题，目前几乎空白。

已知瓶颈：最优停止量显式涉及未知规模参数 → 纯序贯是唯一可实施路径 → 但纯序贯操作成本高 → 加速/分组/双序贯引入额外参数（k, ρ） → 这些参数的选取对有限样本性质的影响缺乏严密理论（仅凭经验设定）。

⚠️ 作者的framing¶

作者把缺口frame成：Zhuang & Bapat (2022)等方法只控制误差概率，没有显式处理成本优化→因此本文的损失函数（含Type II error + 成本）和序贯风险效率是“显然的下一步”。
被淡化或回避的竞争路线：
贝叶斯序贯方法（如贝叶斯sample size determination）完全被忽略。贝叶斯最优停止直接定义后验损失函数，也能天然处理成本。
基于不断更新的无效分析（interim analysis）的临床试验方法（如O'Brien-Fleming边界、alpha-spending函数）不被引用。这些方法处理多个中间分析，而本文的双序贯也相当于两个阶段——但在框架上未与既有文献对话。
非参数/半参数序贯（如基于empirical likelihood的序贯检验）未被提及。本文的模型局限于完全参数化（移位指数）。
什么明显该被引/该存在、却没出现在intro里？：
没有引用Wald的序贯概率比检验经典工作——它是最直接讨论Type I & II误差权衡的序贯方法，但Wald SPRT处理的是简单vs简单假设，本文处理的是复合假设（尺度参数未知），且SPRT没有成本项。
没有引用任何关于信息-计算权衡的序贯文献——研究者你可能对这部分敏感，但本文是纯经典渐近，完全不触及计算复杂度。

张力¶

未见对立引用。被引工作需要方向的作者如Mukhopadhyay、Zhuang、Bapat等彼此引用很密集 → 可以说这是一个“学派内部”的推进，缺少与外部路线的碰撞。值得注意：“加速序贯”和“分组序贯”的作者声称自己的方法在操作数上有显著优势，但本文采用Hu (2020)的双序贯后，在模拟中并未对这三种方案做并排比较（只与纯序贯= k=1对照），这留出了实证上的开放问题。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
位置参数: \( \mu_1, \mu_2 > 0 \)，是两个总体\(X, Y\)的最小保证持续时间（或基线位置的平移）。
尺度参数: \( \sigma_1, \sigma_2 > 0 \)，是两个总体指数尾部的平均递减率（等于方差均值比）。
可观测随机样本: 来自\(X\)的\(n_1\)独立观测\(\{X_1,\dots,X_{n_1}\}\)，来自\(Y\)的\(n_2\)独立观测\(\{Y_1,\dots,Y_{n_2}\}\)，样本之间相互独立。
最小次序统计量: \( X_{n_1}^{(1)} = \min\{X_1,\dots,X_{n_1}\}, Y_{n_2}^{(1)} = \min\{Y_1,\dots,Y_{n_2}\} \)——它们是\(\mu_1, \mu_2\)的MLE，也是检验统计量的构件。
UMVUE of σ:
\[U_{n_1}^{(1)} = \frac{1}{n_1-1} \sum_{i=1}^{n_1}(X_i - X_{n_1}^{(1)}),\quad U_{n_2}^{(2)} = \frac{1}{n_2-1} \sum_{i=1}^{n_2}(Y_i - Y_{n_2}^{(1)})\]
假设检验: \( H_0: \mu_1-\mu_2 = \Delta_0 \) 对 \( H_1: \mu_1-\mu_2 = \Delta_1 (> \Delta_0) \)。
检验统计量: \( X_{n_1}^{(1)} - Y_{n_2}^{(1)} \)。
临界值: \( b \)（由误差概率和成本参数共同决定，公式(20)）。
损失函数: \( L_{\mathbf{n}}(\boldsymbol{\mu},\mathbf{c}) = A \cdot [\text{Type II error}] + C_{\mathbf{n}}(\boldsymbol{\sigma}) \)，其中成本函数 \( C_{\mathbf{n}}(\boldsymbol{\sigma}) = c_1 n_1\sigma_1^{-1} + c_2 n_2\sigma_2^{-1} \)（方差越大，单次观测成本越低）。
风险（期望损失）: \( R_{\mathbf{n}}(\boldsymbol{\mu},\mathbf{c}) = E_{\theta}[L_{\mathbf{n}}] \)。
最优固定样本量: \( n_1^*, n_2^* \)——最小化\(R_{\mathbf{n}}\)的解（公式(19)和(21)），依赖于未知的\(\sigma_1, \sigma_2\)。
双序贯停止规则中的关键量:
- 设计常数：\(d_\alpha = \frac{1}{\Delta_1-\Delta_0} \log\left(\frac{A(\Delta_1-\Delta_0)}{4\alpha(c_1+c_2)}\right)\)
- 第一阶段：批次大小 \(k_i\)，比例参数 \(\rho_i \in (0,1)\)。
- 第一阶段停止：\( L_i = \inf\{n \ge 0: m + k_i n \ge \rho_i U_{m+k_i n}^{(i)} d_\alpha \} \)。
- 第二阶段停止：\( N_i = \inf\{n \ge T_i: n \ge U_n^{(i)} d_\alpha \} \)，其中 \(T_i = m + k_i L_i\)。
潜在量: 固定的最优样本量\((n_1^*,n_2^*)\)在现实中观测不到（因为\(\sigma_1,\sigma_2\)未知）。
模型：
两个总体独立，每个都服从两参数（移位）指数分布：\( f(t; \mu, \sigma) = \frac{1}{\sigma} e^{-(t-\mu)/\sigma}, t \ge \mu \)。
位置参数\(\mu\)是截断点，尺度参数\(\sigma\)控制均值除μ后的尾巴。
已知量：\( \Delta_0, \Delta_1, \alpha, A, c_1,c_2 \)（实验设计者指定）。
可观测数据：
来自X的观测序列\(\{X_1,\dots,X_t\}\)和来自Y的\(\{Y_1,\dots,Y_t\}\)（随时间展开）。
停止后，最终样本大小为\(N_1\)和\(N_2\)。
“想要但观测不到”：最优固定样本量\(n_1^*,n_2^*\)——因为依赖于未知尺度参数，不能固定计划。
“只能靠假设识别”：通过序贯停止规则在线估计尺度参数→在线调节样本量。

第二步：讲最小内核¶

本论文的整篇方法是一个特例的推广：假设\((c_1+c_2)\)很小（等价于\(q = \log(1/(c_1+c_2)) \to \infty\)），那么最优样本量变大，渐近理论可用。
最简特例 (取ki = 1退化为纯序贯)：
- 我们从两个总体中单独且逐个地取样（k₁=k₂=1）。
- 停止规则：

\[N_i' = \inf\{n \ge m: n \ge U_n^{(i)} d_\alpha\}\]

其中\(U_n^{(i)}\)是第i个总体用前n个样估算的尺度参数UMVUE。
- 这意味着：每多取一个观察，我们就用当前样本更新尺度估计，如果当前的样本量n足够大（比起估计的尺度n*式），停下；否则继续。

在这个特例下： - 要证的命题退化为：\( E_\theta[N_i'] = n_i^* - 1/4 + o(1) \)（二阶效率），且期望风险能达到最小固定样本风险的渐近等价（一阶风险效率）。 - 为什么成立：将停止规则重写为：

\[N_i' = \inf\{n \ge m: \sum_{i=1}^n W_i \le \frac{1}{n_i^*} n^2 (1+\frac{1}{n})\}\]

其中\(W_i\) i.i.d. ~ Exponential(1)。这正好是Woodroofe (1977)的规范形式（\(\alpha=2, \beta=1, \mu=1, \tau^2=1\)）。Woodroofe定理直接给出： - \(E[N_i'] = n_i^* + \nu_{\alpha}(1,1) - 1 + o(1) \approx n_i^* - 0.25 + o(1)\)（因为\(\nu_\alpha(1,1) \approx 0.75\)）。 - 且\((N_i' - n_i^*)/\sqrt{n_i^*} \xrightarrow{d} N(0,1)\)。 - 均匀可积性允许期望风险展开。

扩展回双序贯：第一阶段用批次大小k（分组取数，取样次数从N次降到N/k + 少数逐个阶段），使得停止量渐近等价于纯序贯（Lemma 1 + Theorem 1证明差值可以忽略），从而同样达到二阶效率和风险效率。

所以，核心数学想法是：把序贯停止规则构造成Woodroofe规范形式，从而借用已有的渐近二阶理论，再将“双序贯”的额外阶段作为扰动，证明扰动是渐近可忽略的。

三、这篇论文做了什么¶

三句话¶

研究问题：针对两样本移位指数分布的位置参数比较问题，在控制Type I error概率为预定水平的同时，最小化一个包含Type II error概率和线性采样成本的损失函数。
核心方法：提出双组序贯抽样程序（第一阶段每组取k个，第二阶段逐个取），估计最优样本量以逼近最小固定样本风险。
主要结论：严格证明了该程序的一阶效率、二阶效率、一阶风险效率、二阶后悔（regret）的渐近展开式；模拟和降水数据验证了性质。

关键设定与假设¶

符号同第二节，此处补全完整设定：
待检验差距 \(\Delta_0, \Delta_1\) 固定。
损失函数(9)：\(L_{\mathbf{n}}(\boldsymbol{\mu},\mathbf{c})= A\cdot P_{\theta}(\text{Type II error}) + (c_1 n_1\sigma_1^{-1} + c_2 n_2\sigma_2^{-1})\)。
成本形式与“Fisher信息均衡准则”挂钩：要求两样本的位置参数的费舍信息相等 \(\Rightarrow n_1/n_2 = \sigma_1/\sigma_2\)。
双序贯停止：第一阶段\(L_i\)（分批取数），第二阶段\(N_i\)（逐个取数），参数\(k_i \ge 2, \rho_i \in (0,1)\)。
假设(28): 初始样本量m满足\(m = k_i m_{i0} + 1\)，且\(m / n_i^* < \rho_i\)。
相比已有文献的放宽/强化：
放宽：允许两总体尺度参数未知且不等（之前如Mukhopadhyay & Hamdy 1984假设相等）。
强化：损失函数中显式加入成本项（区别于Zhuang & Bapat 2022）。
与Hu (2020)不同：后者使用双序贯做置信区间，此处做假设检验，且损失函数含Type II error。

主要结果¶

Lemma 1: 纯序贯停止量\(N_i'\)小于第一阶段停止量\(T_i\)的概率为\(O(n_i^{*-s/2})\)（需要\(m > s/2+1\)）。这是连接双序贯与纯序贯性能的关键概率界。
Theorem 1 (效率):
(i) 一阶效率：\(E[N_i]/n_i^* \to 1\)。
(ii) 二阶效率：\(E[N_i] = n_i^* - 1/4 + o(1)\)（若\(m > 5/2\)）。
核心：双序贯与纯序贯在均值的差异是\(o(1)\)，而纯序贯已有Woodroofe二阶展开。
Theorem 2 (Type I error的二阶展开):
\[P_{\theta,N}(\text{Type I error}) = \alpha + b_1 + o(q^{-1})\]
其中\(b_1 \approx \frac{\alpha}{d_\alpha}\left[ \frac{3}{8\sigma_1} - \frac{3}{8\sigma_2} + \frac{l_1^2}{2\sigma_1} + \frac{3l_1}{4\sigma_1} - \frac{l_1}{32\sigma_1\sigma_2 d_\alpha} \right]\)，\(l_1 = -\log(2\alpha)\)。需要\(m \ge 8\)。
直觉：当\(n_i^* \to \infty\)（即\(q\to\infty\)），\(b_1 \to 0\) ⇒ 渐近控制为\(\alpha\)。
Theorem 3 (风险效率与后悔):
(i) 一阶风险效率：\(R_N / R_{n^*} \to 1\)。
(ii) 后悔（regret）：
\[R_N - R_{n^*} = b_2 - \frac14\left(\frac{c_1}{\sigma_1} + \frac{c_2}{\sigma_2}\right) + o(q^{-1})\]
其中\(b_2\)是式中的复杂常数（≈0当\(q\to\infty\)）。需要\(m \ge 4\)。
关键：第二项负贡献表明简略低估（因\(n_i^*\)会被轻微低估）导致后悔为负（有利）。

证明路线与技术技巧（理论型）¶

整体路线:
先建立纯序贯（k=1）的完全渐近性（Woodroofe (1977) 规范形式）。
证明“双序贯不比纯序贯需要更多样本”——Lemma 1给出\(N_i' < T_i\)概率衰减速度。
用Holder不等式证明\(E[N_i] - E[N_i'] \to 0\)→得到效率。
利用独立性：停止事件依赖于\(\{U_n^{(i)}\}\)序列，而检验统计量只取决于最小值→条件独立→期望嵌套。对Type I error和风险做Taylor展开到二阶，通过事件分解（四种情况）和边界引理(35)消化余项。
双序贯与纯序贯的差异在二阶展开中可忽略（≤ o(q^{-1})）→最终定理。
关键跳跃点:
复杂二阶展开推导：直接对Type I error、风险做关于\((U,V)=(N_1/n_1^*, N_2/n_2^*)\)的多元Taylor展开到二阶，边量涉及\((U-1)^3\)等三阶项。关键技术是：
- 使用bound (35)将负指数项与U,V幂函数绑在一起，得到各阶导数的控制。
- 事件分解（\(E_1'\)到\(E_4'\)）将争议降到高概率集上（\(N_i > \epsilon n_i^*\)），剩余事件概率为\(O(n_i^{*- (m-1)})\)，从而三阶项整体\(o(q^{-1})\)。
Woodroofe规范的适配：纯序贯停止被写成\(\inf\{n \ge m: \sum W_i \le \frac{1}{n_i^*} n^2 (1+1/n)\}\)。这里的幂2来自指数分布UMVUE的二次型结构；论文比Woodroofe例子(\(\alpha=2,\beta=1\))完全相同，因此直接调出显式权威结果。
技术技巧点名：
Woodroofe (1977) 二阶停止理论：用于纯序贯\(N_i'\)的均值和分布收敛。
Holder不等式：用于将概率界转为期望差异（证明Lemma 1到定理1的连接）。
Taylor展开 + 均匀可积性：用于Type I error和风险的二阶展开。
边际引理(35)：\((X^{-1}+Y^{-1})^{-j} e^{-aY} \le \frac{i!}{a^i} Y^{i-j}\)，用于控制高阶Taylor余项在低概率事件上的贡献。

真实例子与应用¶

数据：GHCN-Daily中两个气象站（西雅图塔科马、波特兰）的1950-2026湿季日降水量，挑出≥20mm的“强降水日”，去丛聚后得到146和110个 episode间间隔时间。
如何应用：
检验H0: μ1-μ2=0，α=0.05，A=10，k1=k2=3, ρ1=ρ2=0.6，两档(Δ1, c1+c2)组合。
对总体数据执行双序贯抽取（无放回）。
计算终端最小值的差值，与临界值b比较。
结果：所有设定下未能拒绝H0（差值统计量=0或接近0）。BS均值显示稳定性。
想说明什么：验证方法在真实数据中的实用可行性且结果符合生态预期（两站降雨模式相似）。

🔎 结论是否比证明窄¶

Theorem 2 的Type I error展开：在二阶段序贯下，展开式b1依赖于σ1,σ2 —— 但论文只声称“渐近控制为α”，并未证明有限样本不大于α。展开式的常数b1有正有负可能？论文没讨论这使得保守性无法预设。
Theorem 3 (ii)后悔的表达式中，b2在模拟和附录中被声称“趋于0”，但并未给闭式符号——也就是说，后悔可能在某些参数配置下为正（不利），不是全局负。
数据演示只用了单个实现（一次抽样），没有像模拟那样做10,000重复——稳健性只能靠BS，不能算充分验证分布性质。
论文纯理论证明依赖于Woodroofe(1977)对移位指数设置的特化，因此实际上线性假设（成本为n/σ）和非线性对数项\(d_\alpha\)的组合——一般分布族这块不能被自动平行，结论比技术上可能声称的窄得多。

四、开放问题¶

扩展到非指数分布族。论文未来工作提到“more general distributional settings”，但未提具体路径。A关键技术点：Woodroofe规范需要停止规则能写成关于i.i.d.随机和的形式（此处通过指数分布的UMVUE完成）。对于伽马、对数正态等分布，是否仍能推导显式的二阶展开？扎根：“Future research may focus on extending the proposed framework to more general distributional settings”（Section 7）。
双序贯参数(k, ρ)的自适应选择。目前模拟只试了几种组合，但Theorem 1-3假设了任意固定k≥2, 0<ρ<1。这些参数如何选择来优化有限样本性质（如使其保守/维稳）？是否存在最优的(k, ρ)？扎根：Section 4.1中有讨论“selection of k and ρ should be carried out carefully”但无理论指导。
多个假设检验（比较≥3个位置参数）。当比较多个总体时，序贯停止规则交织在一起，Type I error familywise控制与成本函数会复杂得多。扎根：论文只在Section 7 提到“multiple-comparison problems”。
🔎 确认真gap vs “学派内部”文献偏倚：本论文完全忽略贝叶斯序贯和基于SPRT的Wald框架。研究者你可能需阅读大约5篇近期引文（Zhuang & Bapat 2022, Mukhopadhyay & Aloufi 2024）和其他方向（Wald, Berger, Lorden）的intro来判断：是否大家都提出同一个缺口？还是只有这个学派内部自己指认？若后者就是你学习论文路线图的显示度价值。

Maintained by 陈星宇 · Homepage · Source on GitHub