High-Confidence Minimax Testing with Prescribed Errors¶

作者: Ilmun Kim
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2606.31593

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是预设错误概率的 minimax 检验（prescribed-error minimax testing）。它要解决的根本问题是：在复合假设检验中，当两类错误（type I error 和 type II error）的目标概率 α 和 β 可以任意小、且量级不同时，如何刻画 minimax 临界半径（critical radius）对 α 和 β 的依赖关系。经典 minimax 检验理论通常将 α 和 β 视为固定常数（如 α=0.05, β=0.2），而高置信度（high-confidence）结果则常假设两类错误共享同一个失败概率 δ。本文试图填补的 gap 是：当 α 和 β 可以独立地趋于 0 且量级不同时，minimax 分离速率如何依赖于这两个参数。

发展脉络¶

奠基工作：Neyman and Pearson (1933) 的经典框架已经区分了两类错误——固定 level 并最大化 power（等价于最小化 type II error）。这是整个领域的起点，但并未涉及 minimax 复合检验。
经典 minimax 检验理论：Ingster (1987, 1993) 和 Spokoiny (1996) 建立了非参数假设检验的 minimax 框架，通常将 α 和 β 视为固定常数（如 α=β=0.05），研究分离速率如何随样本量、维数或光滑度变化。Ingster and Suslina (2003) 的专著系统总结了 Gaussian 模型下的非参数拟合优度检验。这些工作奠定了技术基础，但未处理 α,β 独立变化的情形。
高置信度检验的兴起：Diakonikolas et al. (2018, 2021) 在分布检验（distribution testing）领域建立了高置信度（high-probability）的样本复杂度，但他们的设定是一个共同的失败概率 δ（即 α=β=δ）。Gerber et al. (2023) 通过分类方法（CAT）得到了离散分布、光滑密度和 Gaussian 序列模型下的 minimax 高概率样本复杂度，同样使用共同错误概率。这些工作让置信参数的角色变得明确，但没有区分两类错误的独立作用。
简单二元假设检验的精确刻画：Pensia et al. (2024) 对简单对简单假设检验（simple vs. simple）给出了样本复杂度的精确刻画（up to universal constants），允许 α 和 β 不相等。这是最接近本文的工作，但仅限于简单假设（两个已知分布），不涉及复合假设。
高概率 minimax 下界技术：Ma et al. (2026) 发展了 Le Cam 和 Fano 方法的高概率版本，用于下界 minimax 分位数（minimax quantile），在稳健均值估计、协方差矩阵估计等问题上得到新结果。但他们的框架关注的是估计问题的损失函数尾部行为，而非检验问题的两类错误。
本文的位置：本文在上述工作的交叉点上——将 Pensia et al. (2024) 的简单假设结果推广到复合假设，同时将 Diakonikolas et al. (2018) 和 Gerber et al. (2023) 的高置信度结果从共同错误概率推广到独立的两类错误。核心创新是提出一种二元约化（binary reduction） 技术，使得经典 minimax 下界构造（如 Ingster 的 least-favourable 先验）可以适配到预设错误设定。

子线索聚类¶

经典 minimax 检验理论（Ingster, Spokoiny, Balakrishnan & Wasserman）：固定 α,β，研究分离速率对 n, d, 光滑度的依赖。技术核心是 chi-square 第二矩方法和总变差约化。
高置信度分布检验（Diakonikolas et al., Gerber et al.）：允许错误概率 δ→0，但 α=β=δ。技术核心是二项式块界、分类器方法、以及样本复杂度对 log(1/δ) 的依赖。
简单假设的精确样本复杂度（Pensia et al.）：允许 α≠β，但仅限于两个已知分布。技术核心是 f-散度不等式和 Jensen-Shannon 散度。
高概率 minimax 下界（Ma et al.）：关注估计问题的尾部行为，而非检验问题。技术核心是 Le Cam/Fano 方法的高概率版本。

这个方向在追问的核心问题¶

α 和 β 如何独立地进入 minimax 临界半径？ 经典总变差约化将它们合并为 α+β，无法区分。
当 α 和 β 量级不同时（如 α 固定而 β→0），分离速率是否改变？
经典 least-favourable 先验构造能否适配到预设错误设定？ 需要控制两个方向的 KL 散度，而不仅仅是总变差。
是否存在不对称的检验问题，其中 α 和 β 的依赖关系本质不同？

已知瓶颈：标准先验约化（总变差、chi-square 第二矩）将两类错误聚合为 α+β，无法保留它们各自的角色。需要一种新的约化技术，能产生两个方向的信息需求。

⚠️ 作者的 framing¶

作者将缺口 frame 为："标准先验约化将两类错误聚合为 α+β，因此无法揭示 level 和 target type II error 的独立贡献"。本文的二元约化技术被呈现为"显然的下一步"——它保留了错误目标的独立角色，且许多经典 least-favourable 构造可以适配。

被淡化或回避的竞争路线： - Pensia et al. (2024) 的简单假设结果被引用，但作者没有讨论如何将其推广到复合假设（这可能是另一种路线）。 - Gerber et al. (2023) 的分类方法（CAT）被提及，但作者没有深入讨论 CAT 是否也能处理 α≠β 的情形。 - Ma et al. (2026) 的高概率下界技术被引用，但作者没有讨论这些技术是否可以直接用于检验问题。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 没有引用关于非对称错误代价的决策理论文献（如 Wald 的统计决策理论），这些文献可能已经处理过类似问题。 - 没有引用复合假设检验的 minimax 下界的经典综述（如 Lehmann & Romano 的 Testing Statistical Hypotheses），这些文献可能包含处理 α≠β 的早期尝试。 - 没有引用信息论下界（如 Fano 不等式、Assouad 引理）在检验问题中的高概率版本，这些可能提供另一种视角。

值得研究者去查的问题：检查 Pensia et al. (2024) 的简单假设结果是否可以通过某种"复合化"（如 least-favourable 对）推广到复合假设，以及这种推广与本文的二元约化有何关系。

张力¶

未见明显对立引用。所有被引工作都承认经典 minimax 检验理论在 α,β 固定时的有效性，且都认为高置信度设定是重要的扩展方向。本文与 Pensia et al. (2024) 的关系是互补的（简单 vs. 复合），而非冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - P₀：零假设类（null class），包含所有满足零假设的分布。 - P₁：备择假设类（alternative class），包含所有满足备择假设的分布。 - ϕ: 𝒳 → [0,1]：随机化检验（randomized test），ϕ(x) 表示拒绝零假设的条件概率。 - α ∈ (0,1)：预设的 type I error 上界（level），即 sup_{P∈P₀} ∫ ϕ dP ≤ α。 - β ∈ (0,1)：预设的 type II error 上界（target type II error），即 sup_{P∈P₁} ∫ (1-ϕ) dP ≤ β。 - Π₀, Π₁：分别支撑在 P₀ 和 P₁ 上的先验分布（priors）。 - Q₀ = ∫ P Π₀(dP), Q₁ = ∫ P Π₁(dP)：由先验诱导的混合分布（mixture laws）。 - KL(Q₀∥Q₁)：Kullback-Leibler 散度，从 Q₀ 到 Q₁。 - kl(u∥v) = u log(u/v) + (1-u) log((1-u)/(1-v))：二元 KL 散度（Bernoulli 分布之间的 KL）。 - J_{α,β} = kl(1-α∥β) + kl(1-β∥α)：二元 Jeffreys 散度，即 Bernoulli(1-α) 和 Bernoulli(β) 之间的对称 KL 散度。

模型： - 可观测数据 X 来自某个未知分布 P，P 要么属于零假设类 P₀，要么属于备择假设类 P₁。 - 检验的目标是：基于 X 构造一个检验 ϕ，使得当 P ∈ P₀ 时，拒绝概率 ≤ α；当 P ∈ P₁ 时，接受概率（即 type II error）≤ β。 - 这是一个复合假设检验问题：P₀ 和 P₁ 都是分布集合，而非单个分布。

可观测数据： - 可观测：X 的样本实现（可以是单个观测或多个 i.i.d. 观测）。 - 想要但观测不到：P 的真实身份（属于 P₀ 还是 P₁），以及 P 的具体形式。 - 关键识别假设：没有额外的识别假设——这是一个纯粹的假设检验问题，不需要因果推断中的可忽略性等假设。

第二步：最小内核¶

最简特例：考虑简单对简单假设检验（simple vs. simple），即 P₀ = {P₀} 和 P₁ = {P₁} 都是单点集。这是本文二元约化技术的本质所在。

在这个特例下： - 检验 ϕ 只需要区分两个已知分布 P₀ 和 P₁。 - 由 Neyman-Pearson 引理，最优检验是似然比检验。 - 但本文关心的不是构造最优检验，而是下界：给定 α 和 β，是否存在任何检验同时满足两类错误约束？

核心思路： 1. 任何检验 ϕ 都会诱导一个 Bernoulli 决策：以概率 ϕ(x) 拒绝 H₀，以概率 1-ϕ(x) 接受 H₀。 2. 在 P₀ 下，这个 Bernoulli 的均值 q₀ = ∫ ϕ dP₀ ≤ α。 3. 在 P₁ 下，这个 Bernoulli 的均值 q₁ = ∫ ϕ dP₁ ≥ 1-β（因为 type II error = ∫ (1-ϕ) dP₁ ≤ β）。 4. 因此，检验 ϕ 将两个分布 P₀ 和 P₁ 映射到两个 Bernoulli 分布：Bern(q₀) 和 Bern(q₁)，其中 q₀ ≤ α < 1-β ≤ q₁。 5. 由数据处理不等式（data-processing inequality），KL(P₀∥P₁) ≥ kl(q₀∥q₁) ≥ kl(α∥1-β) = kl(1-α∥β)。 6. 同理，KL(P₁∥P₀) ≥ kl(q₁∥q₀) ≥ kl(1-β∥α)。

结论：如果 KL(P₀∥P₁) < kl(1-α∥β) 或 KL(P₁∥P₀) < kl(1-β∥α)，则不存在任何检验能同时满足两类错误约束。

推广到复合假设：用先验 Π₀, Π₁ 将复合假设约化为简单假设（混合分布 Q₀, Q₁），然后应用上述简单对简单结果。如果存在先验使得 KL(Q₀∥Q₁) < kl(1-α∥β) 或 KL(Q₁∥Q₀) < kl(1-β∥α)，则任何 level-α 检验的 type II error 都 > β。

这个最小内核揭示了什么： - 两类错误分别对应两个方向的 KL 散度：level 约束对应 KL(Q₀∥Q₁) ≥ kl(1-α∥β)，type II error 约束对应 KL(Q₁∥Q₀) ≥ kl(1-β∥α)。 - 当两个方向都满足时，它们合并为 Jeffreys 散度 J_{α,β} = kl(1-α∥β) + kl(1-β∥α)，这解释了为什么临界半径对 log(1/α) 和 log(1/β) 有对数依赖。 - 经典总变差约化只给出 KL(Q₀∥Q₁) + KL(Q₁∥Q₀) ≥ 2 TV²(Q₀,Q₁) ≥ 2(1-α-β)²，丢失了方向信息。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在复合假设检验中，当预设的 type I error α 和 type II error β 可以独立地很小且量级不同时，如何刻画 minimax 临界半径对 α 和 β 的依赖关系。
核心工具/方法：提出一种二元约化（binary reduction） 技术，将检验问题约化为 Bernoulli 决策，导出两个方向的 KL 散度需求（分别对应 level 和 target type II error），并利用 Jeffreys 散度 J_{α,β} 统一刻画。
主要结论：在 Gaussian 序列检验、多项均匀性检验和 Hölder 球上连续均匀性检验中，得到的下界与高置信度上界匹配，建立了常数因子意义下最优的预设错误 minimax 速率。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 零假设类 P₀：可以是简单（如 Gaussian 序列模型中的 P₀ = {P₀}）或复合（如包含所有满足某种光滑性约束的密度）。 - 备择假设类 P₁(ρ)：嵌套族，ρ 越大分离越远。例如，Gaussian 序列中 P₁(ρ) = {θ: ∥θ∥₂ ≥ ρ}。 - 临界半径 ρ*(α,β)：使得存在 level-α 检验且 type II error ≤ β 的最小分离距离。 - 假设 α+β < 1：这是非平凡情形（否则可以构造平凡检验）。 - 对先验的假设：Π₀ 和 Π₁ 分别支撑在 P₀ 和 P₁ 上，诱导混合分布 Q₀, Q₁。

相比已有文献的放宽/强化： - 放宽：允许 α 和 β 独立变化，而非固定或相等。 - 强化：需要同时控制两个方向的 KL 散度，而经典方法只需控制总变差或 chi-square 散度。

主要结果¶

定理 2.1（混合下界）：如果存在 level-α 检验且 type II error ≤ β，则对任何先验 Π₀, Π₁，有 - KL(Q₀∥Q₁) ≥ kl(1-α∥β) - KL(Q₁∥Q₀) ≥ kl(1-β∥α) - 因此 KL(Q₀∥Q₁) + KL(Q₁∥Q₀) ≥ J_{α,β}

直觉：检验 ϕ 将混合分布 Q₀ 和 Q₁ 映射到 Bernoulli 分布，数据处理不等式给出下界。kl(1-α∥β) 和 kl(1-β∥α) 分别对应 level 和 type II error 的信息需求。

必要条件：α+β < 1（否则 J_{α,β} 可能为 0 或负）。

解决的技术难点：经典总变差约化将 α 和 β 合并为 α+β，无法区分。本文通过二元约化保留了方向信息。

定理 3.1（Gaussian 密集检验）：临界半径 ρ^G_{d,n}(α,β) ≍ max{(dJ_{α,β}/n²)^{1/4}, (J_{α,β}/n)^{1/2}}。

定理 3.2（Sobolev 椭球检验）：临界半径 ρ^{(τ,M)}n(α,β) ≍ max{n^{-2τ/(4τ+1)} J^{τ/(4τ+1)}{α,β}, (J_{α,β}/n)^{1/2}}。

定理 4.1（多项均匀性检验）：临界半径 δ^{unif}{d,n}(α,β) ≍ max{(dJ{α,β}/n²)^{1/4}, (J_{α,β}/n)^{1/2}}。

定理 5.1（Hölder 均匀性检验）：临界半径 ρ^{(s,M,B)}n(α,β) ≍ max{n^{-2s/(4s+q)} J^{s/(4s+q)}{α,β}, (J_{α,β}/n)^{1/2}}。

共同模式：所有结果中，临界半径由两个分支的最大值决定——密集混合分支（涉及 d 或光滑度）和参数分支（仅涉及 n）。J_{α,β} 以对数形式进入，且当 α,β 固定时退化为经典结果。

证明路线与技术技巧¶

整体路线（以 Gaussian 密集检验为例）：

下界：
如果参数分支占优（即 r = (J_{α,β}/n)^{1/2}），使用单坐标备择 θ = (ρ,0,...,0)。此时 KL(P₀∥P_{θ}) + KL(P_{θ*}∥P₀) = nρ² = c²J_{α,β} < J_{α,β}，由定理 2.1 得下界。
如果密集混合分支占优（即 r = (dJ_{α,β}/n²)^{1/4}），使用超立方体先验（每个坐标 ±ρ/√d）。引理 B.2 证明对称 KL 散度 ≤ (3/4)n²ρ⁴/d = (3/4)c⁴J_{α,β} < J_{α,β}，由定理 2.1 得下界。
上界：
使用卡方检验统计量 T = n∑Y_j²。在零假设下 T ~ χ²_d，在备择下 T 是非中心卡方。
拒绝域为 T > d + 2√(da) + 2a，其中 a = log(1/α)。由引理 B.1（Laurent-Massart 不等式），type I error ≤ α。
在备择下，type II error ≤ β 的条件转化为 nρ² ≥ C{√(da) + √(db) + a + b}，其中 b = log(1/β)。由引理 2.3，J_{α,β} ≍ a+b，因此条件等价于 ρ ≥ C max{(dJ_{α,β}/n²)^{1/4}, (J_{α,β}/n)^{1/2}}。

关键跳跃点： - 从总变差到方向 KL：经典方法用 TV(Q₀,Q₁) ≤ 1-(α+β) 给出下界，但 α 和 β 只以和的形式出现。本文的二元约化直接导出两个方向 KL 散度的下界，保留了 α 和 β 的独立角色。 - 密集混合构造的对称 KL 控制：引理 B.2 证明超立方体先验的对称 KL 散度 ≤ (3/4)n²ρ⁴/d。这需要精细的矩生成函数计算和 cosh 不等式。类似地，多项均匀性检验中的引理 C.1（二项式块界）和 Hölder 检验中的引理 D.1（光滑块混合）都是为控制对称 KL 散度而设计的。 - 参数分支与密集混合分支的切换：下界证明中，根据哪个分支占优选择不同的先验构造。上界证明中，通过截断（Sobolev）或分箱（Hölder）将问题约化为有限维情形，然后应用密集检验的上界。

技术技巧点名： - 数据处理不等式：用于将检验问题约化为 Bernoulli 决策（定理 2.1 的核心）。 - Laurent-Massart 不等式（引理 B.1）：用于控制卡方统计量的尾部概率，给出上界。 - cosh 不等式（引理 B.2 证明中）：log cosh x ≥ x²/2 - x⁴/12，用于上界 KL(P₀∥Q_ρ)。 - 二项式块界（引理 C.1）：通过 Rademacher 变量和 tanh 展开控制多项均匀性检验中的 KL 散度。 - 光滑块混合（引理 D.1）：通过对称化构造和 tanh 展开控制 Hölder 检验中的 KL 散度。 - 分箱策略（Hölder 上界）：将连续密度检验约化为离散多项检验，利用光滑性控制分箱误差。

真实例子与应用¶

本文为纯理论论文，无实证例子。所有结果都是数学定理和证明，没有模拟实验或真实数据分析。

🔎 结论是否比证明窄¶

定理 2.1 的逆命题未证明：定理 2.1 给出的是必要条件（如果存在检验，则 KL 散度必须满足下界），但没有证明充分性（即如果 KL 散度满足下界，则存在检验）。作者在后续例子中通过构造匹配的上界来间接证明充分性，但一般情形下的充分性未建立。
引理 2.3 的常数依赖：J_{α,β} 与 log(1/α) + log(1/β) 的等价性依赖于 α+β ≤ c < 1，且常数 c 依赖于 c。当 α+β 接近 1 时，等价性可能失效。
定理 3.1-5.1 的常数因子：所有结果都是"≍"（常数因子意义下最优），而非精确常数。这意味着对于实际应用，可能需要更精细的常数。
不对称检验的讨论：第 6 节提到"不对称检验问题可能表现出两个方向的不同缩放"，但没有给出任何具体例子或定理。这只是一个开放问题，而非已证明的结论。

四、开放问题（点到为止，扎根具体语句）¶

不对称检验问题：第 6 节提到"更一般地，不对称检验问题可能表现出两个方向的不同缩放，导致对 type I 和 type II error 要求的本质不同依赖"。扎根于："More generally, asymmetric testing problems may exhibit different scaling in the two directions, resulting in genuinely different dependence on the type I and type II error requirements." 这是一个明确的开放问题：是否存在自然的不对称检验问题，其中 KL(Q₀∥Q₁) 和 KL(Q₁∥Q₀) 的量级不同，导致临界半径对 α 和 β 的依赖不对称？
充分性的建立：定理 2.1 只给出了必要条件。扎根于：定理 2.1 的陈述是"如果存在检验，则 KL 散度满足下界"，但逆命题未证明。是否存在一般性的充分条件（如某种形式的似然比检验的 optimality）？
更复杂的非参数设定：本文只考虑了 Gaussian 序列、多项分布和 Hölder 球。扎根于：第 6 节提到"这里考虑的例子说明了一个更广泛的现象"，但未给出其他例子。能否将二元约化应用于更复杂的非参数检验问题，如密度估计的 goodness-of-fit、回归函数的检验、或因果推断中的检验问题？
精确常数的刻画：所有结果都是常数因子意义下的最优。扎根于：定理 3.1-5.1 的陈述中使用了"≍"符号。能否得到精确的 minimax 常数（如 Pensia et al. 2024 对简单假设所做的那样）？这可能需要对先验构造和上界进行更精细的优化。

Maintained by 陈星宇 · Homepage · Source on GitHub