Sequential Multiple Testing of Multiple Composite Hypotheses: an Asymptotic Optimality Theory with General Information Functions¶

作者: Yiming Xing
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.5705/ss.202025.0042

一、领域脉络与小综述¶

这个方向是什么：序贯多重检验研究的是：当有多个独立的数据流同时产生观测，且对每个数据流存在多个复合假设及一个无差异区时，如何在数据随时间逐步到达的过程中，动态地做出停止采样与决策的判定，同时全局控制各类误分类（misclassification）的风险。这个子方向结合了经典序贯分析（关注单数据流、两假设的停止时间与错误概率权衡）与多重比较（关注族错误率 FWER 或虚假发现率 FDR），其核心统计问题是：在给定的全局错误约束下，如何设计停止与决策规则，使得期望样本量（采样成本）达到最小。当前该方向在单数据流两假设的渐近最优性上已有成熟理论，但在多数据流、多复合假设、时间依赖与一般信息函数的联合设定下，理论仍存在缺口。

发展脉络（history）： - 奠基工作：Wald (1945) 提出序贯概率比检验（SPRT），在简单原假设对简单备择假设的设定下，证明了 SPRT 在给定错误概率约束下使期望样本量最小。作者引用此作为序贯分析的开端，但指出其仅限于简单假设。 - 主要进展（单数据流多假设）：对于多个简单假设，Chernoff (1959) 研究了渐近最优性；对于多个复合假设，Lai (2000) 与 Bartroff & Lai (2017) 建立了基于广义似然比（GLR）的序贯检验，但作者指出这些工作主要关注误分类概率，且对信息函数有线性限制。 - 主要进展（多数据流多重比较）：在多重检验领域，从经典 FWER 控制（Holm 1979）到 FDR 控制（Benjamini & Hochberg 1995），这些是固定样本量设计。序贯多重检验的进展包括 De & Baron (2012) 以及 Bartroff (2017)，作者指出这些工作虽处理了多数据流，但全局错误度量仍局限于经典的误分类概率，且未引入无差异区或一般信息函数。 - 当前 frontier 与本文位置：作者将当前 frontier 定位在：多数据流 + 多复合假设 + 无差异区 + 时间依赖 + 一般信息函数的联合设定。本文填补了这一设定下渐近最优性理论的空白，提出了一种包容经典与广义误分类概率的新全局错误度量，并证明了在此度量下期望样本量的渐近最小性。

子线索聚类： 1. 单数据流序贯检验的渐近最优性：从 Wald 的 SPRT 到 Lai 的复合假设 GLR 检验，这条线索致力于在单数据流下放宽假设的复合性，核心工具是 GLR 统计量与停止阈值的渐近设定。 2. 多数据流序贯多重检验的错误度量：从 FWER/FDR 的固定样本设计，到 De & Baron、Bartroff 的序贯 FWER/FDR 控制，这条线索致力于将多重比较的错误控制移植到序贯框架，但此前未触及无差异区与一般信息函数。 3. 信息函数与最优停止理论：传统文献多假设线性信息函数（即每步观测贡献恒定信息），作者将此线索扩展至一般信息函数（允许信息积累率随时间变化），这直接影响了期望样本量的计算与渐近下界的表达形式。

这个方向在追问的核心问题： 1. 在多数据流、多复合假设的序贯设定下，如何定义一个足够灵活且可操作的全局错误度量，使得它既能包容 FWER/FDR 等经典指标，又能控制不同数量的误分类概率于不同水平？ 2. 在上述全局错误度量约束下，期望样本量的渐近下界是什么？这个下界在一般信息函数（非线性、时间依赖）下如何表达？ 3. 是否存在一个序贯检验程序，能够在所有可能分布下渐近达到这个下界（即渐近最优），且该程序在有限样本下可操作？

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有文献要么只处理单数据流，要么只处理两假设，要么全局错误度量过于狭隘（仅经典误分类概率），要么假设线性信息函数。这使得本文的"多数据流 + 多复合假设 + 无差异区 + 新全局度量 + 一般信息函数"成为显然的下一步。 - 被淡化或回避的竞争路线：作者未引用任何基于 FDR 的序贯检验文献（如早期 Foster & Stine 的工作或后续基于 alpha-investing 的动态 FDR 控制），也未提及基于贝叶斯决策理论的序贯多重检验（如 Carlin & Louis 的贝叶斯停止规则）。这些路线在全局错误度量上采用了完全不同的哲学（FDR 控制虚假发现比例，贝叶斯控制后验风险），作者的全局度量本质上是 FWER 的精细化（控制不同误分类个数的概率），并未与 FDR 路线直接对话。 - 明显该被引却未出现的：序贯 FDR 控制的奠基工作（如 Foster & Stine 2007, Aharoni & Rosset 2014）未被引用；此外，处理时间依赖数据的序贯检验文献（如基于 martingale 的 FDR 控制，如 Ramdas et al. 2017 的工作）也未出现。这值得研究者去查：是这些路线与本文的复合假设设定不兼容，还是作者有意选择了 FWER-类度量而回避了 FDR-类度量？

张力：未见明显对立引用。各被引文献在不同设定（简单 vs 复合假设、单 vs 多数据流、线性 vs 一般信息函数）下推进，结论彼此兼容但设定互不覆盖，本文的设定是它们的联合推广，未产生逻辑冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(K\)：数据流的个数（如 \(K\) 个独立实验或传感器），为有限正整数。
\(k \in \{1, \dots, K\}\)：数据流索引。
\(X_{k,n}\)：第 \(k\) 个数据流在第 \(n\) 步的观测值，为随机变量。各数据流独立，但同一数据流内允许时间依赖（如 Markov 或平稳过程）。
\(F_k\)：第 \(k\) 个数据流的真实分布，属于某个分布族 \(\mathcal{P}_k\)。
\(m_k\)：第 \(k\) 个数据流面临的假设个数（如 \(m_k=3\) 表示有三个互斥假设 \(H_{k,1}, H_{k,2}, H_{k,3}\)）。
\(H_{k,i}\)：第 \(k\) 个数据流的第 \(i\) 个复合假设，对应分布子集 \(\mathcal{P}_{k,i} \subset \mathcal{P}_k\)，各 \(\mathcal{P}_{k,i}\) 互斥且覆盖 \(\mathcal{P}_k\)（或其主体）。
\(\mathcal{I}_k\)：第 \(k\) 个数据流的无差异区，是 \(\mathcal{P}_k\) 中不属于任何 \(\mathcal{P}_{k,i}\) 的分布子集。若 \(F_k \in \mathcal{I}_k\)，则任何决策都不算错误（允许"不表态"或容忍微小偏差）。
\(d_k\)：对第 \(k\) 个数据流的最终决策，取值于 \(\{1, \dots, m_k\}\)，表示选择 \(H_{k,d_k}\)。
\(N\)：全局停止时间，基于所有数据流的观测决定何时停止采样，为停时（stopping time）。
\(\delta = (d_1, \dots, d_K)\)：全局决策向量。
\((N, \delta)\)：一个序贯检验程序，由停止规则与决策规则组成。
\(M(F, \delta)\)：在真实分布向量 \(F = (F_1, \dots, F_K)\) 下，决策 \(\delta\) 产生的误分类个数，即 \(M(F, \delta) = \sum_{k=1}^K \mathbf{1}(F_k \notin \mathcal{P}_{k, \delta_k} \cup \mathcal{I}_k)\)。
\(\alpha_j\)：用户指定的水平，要求 \(P_F(M(F, \delta) \geq j) \leq \alpha_j\)，其中 \(j = 1, \dots, K\)。这组 \(\{\alpha_j\}\) 构成了全局错误度量。
\(I_k(F_k, i)\)：第 \(k\) 个数据流在真实分布 \(F_k\) 下，相对于假设 \(H_{k,i}\) 的信息函数（Kullback-Leibler 信息量或更一般的度量），表示从 \(F_k\) 区分出 \(H_{k,i}\) 的信息积累率。允许时间依赖与非线性。

可观测数据：研究者实际能观测到的是 \(\{X_{k,n}: k=1,\dots,K, n=1,2,\dots\}\)，即各数据流随时间逐步到达的样本。不可观测的是真实分布 \(F_k\)，只能通过序贯统计量（如广义似然比）去推断，且无差异区 \(\mathcal{I}_k\) 内的分布无法被有效区分（这是设计容忍度的核心）。

第二步：讲最小内核

最简特例：\(K=1\)（单数据流），\(m_1=2\)（两复合假设），无差异区 \(\mathcal{I}_1=\emptyset\)，线性信息函数，独立同分布观测。

在此特例下，问题退化为：对单个数据流，检验 \(H_{1,1}\) vs \(H_{1,2}\)（均为复合假设），要求误分类概率 \(P_{F_1}(d_1 \neq \text{true hypothesis}) \leq \alpha_1\)，寻找使 \(E_{F_1}[N]\) 最小的序贯检验。

要证的命题退化成：在 \(\alpha_1 \to 0\) 时，任何满足 \(P_{F_1}(\text{误分类}) \leq \alpha_1\) 的检验，其期望样本量 \(E_{F_1}[N]\) 满足渐近下界 \(\liminf_{\alpha_1 \to 0} \frac{E_{F_1}[N]}{-\log \alpha_1 / I(F_1)} \geq 1\)，其中 \(I(F_1)\) 是 \(F_1\) 到错误假设的最小 KL 信息量。且本文提出的 GLR 检验达到此下界，即 \(\limsup_{\alpha_1 \to 0} \frac{E_{F_1}[N]}{-\log \alpha_1 / I(F_1)} \leq 1\)。
证明怎么走（为什么成立）：
下界：利用 Wald 的经典思想，误分类概率 \(\leq \alpha_1\) 要求似然比在停止时必须积累足够证据，即 \(\log(\text{GLR})\) 必须跨越阈值 \(\approx -\log \alpha_1\)。由于信息积累率是 \(I(F_1)\)，跨越阈值所需时间至少为 \(-\log \alpha_1 / I(F_1)\)，这给出了期望样本量的渐近下界。
上界（可达性）：设计 GLR 检验，停止规则为 \(\max_i \log(\text{GLR}_{1,i}) \geq b\)，其中 \(b \approx -\log \alpha_1\)。决策规则为选择达到阈值的假设。由于信息函数线性，\(\log(\text{GLR}_{1,i})\) 的增长速率是 \(I(F_1)\)，故停止时间 \(\approx b / I(F_1) = -\log \alpha_1 / I(F_1)\)，达到下界。
一般情形的"加壳"：当 \(K>1\)、\(m_k>2\)、引入无差异区 \(\mathcal{I}_k\)、时间依赖与一般信息函数时，上述逻辑的内核不变（下界由信息积累率与阈值决定，上界由 GLR 检验达到），但技术难度剧增：全局错误度量 \(\{P_F(M \geq j) \leq \alpha_j\}\) 要求阈值 \(b_j\) 的设定必须同时满足 \(K\) 个不等式；无差异区使得 GLR 的定义必须排除 \(\mathcal{I}_k\) 的干扰；时间依赖与一般信息函数使得信息积累不再是线性，需用渐近理论替换 Wald 的线性近似。

三、这篇论文做了什么¶

三句话： ① 研究了多个独立数据流下、每个数据流面临多个复合假设与无差异区的序贯多重检验问题，提出了一种控制不同误分类个数概率于不同水平的新全局错误度量。 ② 核心工具是广义似然比（GLR）统计量与基于该统计量的阈值停止规则，结合一般信息函数的渐近理论。 ③ 主要结论是：在所有水平 \(\alpha_j \to 0\) 的渐近意义下，所提出的序贯检验程序在所有可能分布下达到最小期望样本量，且该渐近最优性允许时间依赖与一般信息函数。

关键设定与假设： - 设定：\(K\) 个独立数据流，第 \(k\) 个数据流有 \(m_k\) 个复合假设 \(H_{k,i}\)（对应分布子集 \(\mathcal{P}_{k,i}\)）与无差异区 \(\mathcal{I}_k\)。观测 \(X_{k,n}\) 允许时间依赖（如 Markov、平稳遍历）。 - 全局错误度量：\(P_F(M(F, \delta) \geq j) \leq \alpha_j\)，\(j=1,\dots,K\)。这要求误分类个数 \(\geq 1\) 的概率 \(\leq \alpha_1\)（类似 FWER），\(\geq 2\) 的概率 \(\leq \alpha_2\)，等等。当 \(\alpha_j = \alpha\) 对所有 \(j\)，退化为经典误分类概率 \(P_F(M \geq 1) \leq \alpha\)；当 \(\alpha_j\) 递减，允许对更多误分类更宽容。 - 信息函数假设：\(I_k(F_k, i)\) 为一般信息函数，满足渐近可加性或正则性条件（具体见论文 Assumption，如 \(\lim_{n \to \infty} \frac{1}{n} \log \text{GLR}_{k,i}(n) = I_k(F_k, i)\) a.s.），不限于 KL 信息量或线性信息函数。 - 无差异区假设：\(\mathcal{I}_k\) 为分布子集，若 \(F_k \in \mathcal{I}_k\)，则任何决策不算误分类。这放宽了传统要求 \(F_k\) 必须属于某个 \(\mathcal{P}_{k,i}\) 的假设，允许对微小偏差的容忍。 - 与已有文献的对比：相比 Bartroff & Lai (2017)，本文放宽了全局错误度量（从单一误分类概率到分层度量）、引入了无差异区、允许一般信息函数；相比 De & Baron (2012)，本文处理了多复合假设而非仅两假设。

主要结果： 1. 渐近下界（Theorem 1 类似）：对任何满足 \(P_F(M \geq j) \leq \alpha_j\) 的序贯检验 \((N, \delta)\)，在 \(\alpha_j \to 0\)（至少一个 \(\alpha_j \to 0\)）时，期望样本量满足

\[\liminf_{\min \alpha_j \to 0} \frac{E_{F_k}[N]}{-\log \alpha_j^* / I_k(F_k)} \geq 1,\]

其中 \(\alpha_j^*\) 是与 \(F_k\) 所在假设相关的最紧水平（具体取决于 \(F_k\) 属于哪个 \(\mathcal{P}_{k,i}\) 或 \(\mathcal{I}_k\)），\(I_k(F_k)\) 是 \(F_k\) 到最接近错误假设的信息量。直觉：要满足最紧的错误约束，必须积累足够的似然比证据，而信息积累率决定了最小时间。 2. 渐近最优性（Theorem 2 类似，核心定理）：本文提出的序贯检验程序 \((N^*, \delta^*)\)，其停止规则基于 GLR 统计量跨越阈值 \(b_j\)（\(b_j \approx -\log \alpha_j\)），决策规则为选择 GLR 最大的假设，满足：

\[\limsup_{\min \alpha_j \to 0} \frac{E_{F_k}[N^*]}{-\log \alpha_j^* / I_k(F_k)} \leq 1,\]

从而达到渐近下界，即在所有分布下渐近最优。必要条件：信息函数的渐近正则性（保证 GLR 的渐近行为）、无差异区的可分性（保证 GLR 不受 \(\mathcal{I}_k\) 干扰）、阈值设定的协调性（保证全局错误度量被控制）。 3. 技术难点解决：在多数据流设定下，全局错误度量 \(P_F(M \geq j) \leq \alpha_j\) 要求 \(K\) 个数据流的停止与决策必须协调，使得不同误分类个数的概率同时被控制。本文通过精心设计阈值 \(b_j\) 的递减序列（\(b_1 \geq b_2 \geq \dots\)），使得当 \(j\) 个数据流误分类时，至少有 \(j\) 个 GLR 统计量跨越了对应阈值，从而将全局错误控制转化为各数据流的局部阈值控制。

证明路线与技术技巧： - 整体路线： 1. 建立 GLR 统计量的渐近理论：在一般信息函数与时间依赖下，证明 \(\log \text{GLR}_{k,i}(n) / n \to I_k(F_k, i)\) a.s.，为停止阈值的设定提供基础。 2. 推导渐近下界：利用全局错误度量 \(P_F(M \geq j) \leq \alpha_j\)，通过似然比论证（类似 Wald 的基本不等式），证明任何满足该度量的检验必须让似然比积累至 \(\approx -\log \alpha_j^*\)，从而期望样本量 \(\geq -\log \alpha_j^* / I_k(F_k)\)。 3. 设计序贯检验程序：定义停止时间 \(N^* = \inf\{n: \text{存在 } j \text{ 使得 } \text{至少 } K-j+1 \text{ 个数据流的 GLR 跨越 } b_j\}\)，决策 \(\delta_k^*\) 为选择第 \(k\) 个数据流中 GLR 最大的假设。 4. 证明全局错误控制：利用 GLR 的跨越事件与误分类事件的对应关系，证明 \(P_F(M \geq j) \leq \alpha_j\) 在有限样本下成立（或渐近成立）。 5. 证明渐近最优性：计算 \(E_{F_k}[N^*]\)，利用 GLR 的渐近行为与停止阈值的设定，证明 \(E_{F_k}[N^*] \approx -\log \alpha_j^* / I_k(F_k)\)，达到下界。

关键跳跃点：
从局部错误到全局错误的跨越：单数据流的错误控制是直接的（GLR 跨越阈值即决策），但多数据流的全局错误 \(P_F(M \geq j) \leq \alpha_j\) 要求协调 \(K\) 个数据流的停止。难点在于：如何设计一个全局停止时间，使得当 \(j\) 个数据流误分类时，恰好有 \(j\) 个 GLR 跨越了对应阈值？作者通过"计数跨越事件"的设计（停止条件依赖于有多少数据流已跨越阈值）解决了这一难点。
无差异区的处理：当 \(F_k \in \mathcal{I}_k\) 时，GLR 的渐近行为可能不稳定（因为 \(\mathcal{I}_k\) 不属于任何假设）。作者通过在 GLR 定义中排除 \(\mathcal{I}_k\)（或设定 \(\mathcal{I}_k\) 的信息量为零），使得检验在无差异区内不产生误分类，且不影响渐近最优性。
技术技巧点名：
广义似然比（GLR）统计量：用于处理复合假设，替代简单假设下的似然比。在复合假设下，GLR 为 \(\sup_{P \in \mathcal{P}_{k,i}} \prod_{t=1}^n p(X_{k,t}) / \sup_{P \in \mathcal{P}_k} \prod_{t=1}^n p(X_{k,t})\)，其渐近行为由信息函数刻画。
Wald 的基本不等式 / 似然比论证：用于推导渐近下界，核心思想是误分类概率约束要求似然比积累至阈值。
停时理论 / 首达时间：用于计算 GLR 检验的期望停止时间，利用 GLR 的渐近线性增长（或一般信息函数的增长）与首达时间的渐近性质。
Bonferroni 型不等式 / 联合阈值控制：用于将全局错误度量 \(P_F(M \geq j) \leq \alpha_j\) 分解为各数据流的局部阈值控制，通过设定 \(b_j\) 使得联合跨越概率被控制。

真实例子与应用： - 例子 1：多数据流的均值检验：\(K\) 个独立数据流，每个观测 \(X_{k,n} \sim N(\mu_k, 1)\)，假设 \(H_{k,1}: \mu_k \leq 0\)，\(H_{k,2}: \mu_k \geq \delta\)，无差异区 \(\mathcal{I}_k: 0 < \mu_k < \delta\)。信息函数为 KL 信息量 \(I(\mu_k) = \min(\mu_k^2/2, (\mu_k-\delta)^2/2)\)。本文的 GLR 检验退化为序贯 \(t\)-检验的变体，停止阈值为 \(b_j = -\log \alpha_j\)，渐近最优性表现为 \(E[N^*] \approx -\log \alpha_j^* / I(\mu_k)\)。 - 例子 2：时间依赖数据流（Markov）：观测为 Markov 链，信息函数为 Markov 链的 KL 信息率（非简单线性）。本文理论允许此设定，GLR 的渐近行为由 Markov 链的大偏差理论保证。 - 数值研究：论文包含模拟实验，比较本文检验与固定样本量检验、以及未考虑无差异区的序贯检验，展示在有限样本下期望样本量的节省与错误概率的控制。具体数据与图表需看原文，但核心结论是：本文检验在有限样本下接近渐近最优，且无差异区的引入显著减少了在微小偏差下的停止时间。

🔎 结论是否比证明窄： - 作者在渐近最优性的陈述中，要求"至少一个 \(\alpha_j \to 0\)"，但证明中可能隐含了所有 \(\alpha_j\) 以相同速率趋于零的假设（或至少要求 \(\alpha_j\) 的相对速率受控）。若 \(\alpha_1 \to 0\) 而 \(\alpha_2\) 固定，证明的阈值协调可能失效。需核查原文定理的精确条件（是否有 \(\alpha_j / \alpha_1 \to c\) 的假设）。 - 作者声称渐近最优性在"所有可能分布"下成立，但证明可能依赖于 \(F_k \notin \mathcal{I}_k\) 的假设（即真实分布不在无差异区内）。若 \(F_k \in \mathcal{I}_k\)，期望样本量的渐近行为可能不同（因为检验可能快速停止或不停止），需核查原文是否对 \(\mathcal{I}_k\) 内的分布有单独陈述。

四、开放问题（点到为止，扎根具体语句）¶

\(\alpha_j\) 趋零速率的协调条件：本文渐近最优性要求"至少一个 \(\alpha_j \to 0\)"，但当 \(\alpha_j\) 以不同速率趋零时（如 \(\alpha_1 \to 0\) 极快而 \(\alpha_2\) 极慢），阈值 \(b_j\) 的设定是否仍能保证全局错误控制与渐近最优？需核查原文定理条件（是否有 \(\alpha_j / \alpha_1 \to c_j\) 的限制），若有限制，放宽此限制是开放问题。扎根点：定理陈述中"as any of these levels goes to zero"的精确数学表述。
无差异区内的期望样本量：本文主要结论关注 \(F_k \notin \mathcal{I}_k\) 的渐近最优性，但对 \(F_k \in \mathcal{I}_k\) 的分布，期望样本量的行为如何？是否仍有渐近界？扎根点：原文中关于 \(\mathcal{I}_k\) 的讨论（可能仅在例子中提及，未在主定理中刻画）。
FDR-类全局度量的序贯最优性：本文的全局度量是 FWER-类（控制误分类个数的概率），未触及 FDR-类（控制虚假发现比例）。在序贯设定下，是否存在类似 FDR 的全局度量及其渐近最优性理论？扎根点：作者未引用任何 FDR 序贯文献，这本身是一个缺口信号——需去查 Foster & Stine (2007) 或 Ramdas et al. (2017) 的 intro，看他们是否认为 FDR 与序贯最优性不可兼得。
有限样本下的阈值设定与常数优化：本文的阈值 \(b_j \approx -\log \alpha_j\) 是渐近设定，有限样本下可能需要修正（类似 Wald 的 SPRT 在有限样本下需调整阈值以精确控制错误概率）。有限样本下最优或近最优的阈值设定是什么？扎根点：原文数值研究中阈值的实际取值与理论值的偏差。

Maintained by 陈星宇 · Homepage · Source on GitHub

Sequential Multiple Testing of Multiple Composite Hypotheses: an Asymptotic Optimality Theory with General Information Functions¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论