Safe testing¶

作者: Peter Grünwald, Rianne de Heide, Wouter Koolen
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1093/jrsssb/qkae011

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：在数据收集过程具有适应性（即"是否继续抽样、是否合并新数据"依赖于已观测结果）的场景下，如何进行假设检验并严格控制第一类错误（Type-I error）。传统基于 p-value 的 Neyman-Pearson 检验在"optional stopping"（可选停止）或"optional continuation"（可选继续）下会破坏 Type-I error 保证；而经典 Bayes factor 虽然在主观贝叶斯框架下有解释，但缺乏频率学派意义上的错误率控制。当前该方向正从概念提出走向具体复合假设（含 nuisance parameter）下的最优性（GRO）表征与构造，成熟度处于"有一般理论框架，但具体检验的设计与效率刻画仍在展开"的阶段。

发展脉络 - 奠基工作：Shafer (2021) 与 Vovk & Shafer 的博弈化概率（game-theoretic probability）为 e-value 提供了哲学与数学基础，将概率视为对赌局中不破产的约束。作者在 intro 中明确引用并定位：e-value 的原始思想来自 Shafer 的"概率作为对赌"框架，但此前缺乏在标准统计检验问题（含 nuisance parameter）下的系统最优性理论。 - 主要进展：Howard et al. (2020, 2021) 构造了基于混合似然比的 sequential e-process，在序列检验中实现了 anytime-validity；Waudby-Smith & Ramdas (2023) 在估计问题中用 e-value 构造了置信序列。作者引用这些工作并指出：它们展示了 e-value 在序列设定下的可行性，但未在一般复合假设下定义并刻画"最优 e-variable"（即 GRO），也未系统处理 nuisance parameter。 - 当前 frontier：如何在复合 null/alternative 下构造 GRO e-variable，特别是 nuisance parameter 存在时如何避免先验选择导致的计算困难或最优性丧失。本文填补了这一空白：给出 GRO 的定义、表征（Bayes factor with special prior）、以及具体检验（safe t-test, 2×2 表）的构造。 - 本文的位置：在 Shafer/Vovk 的概念层与 Howard/Ramdas 的序列层之间，本文插入了一个"最优性层"——为复合假设下的 e-variable 提供了 GRO 准则与构造方法，将 e-value 从"安全但可能低效"推进到"安全且最优"。

子线索聚类 1. 博弈化概率与 e-value 基础（Shafer 2021, Vovk et al.）：将概率与检验重新解释为对赌，e-value 作为不破产约束。这一簇在做什么：为 e-value 提供哲学与基本数学定义（期望 ≤ 1），但未触及复合假设下的最优性。 2. 序列检验与 anytime-valid inference（Howard et al., Ramdas et al.）：构造具体的 e-process / 置信序列，在序列设定下实现 Type-I error 控制。这一簇在做什么：将 e-value 用于序列分析，但主要处理简单假设或特定模型，未给出一般复合假设的 GRO 理论。 3. Bayes factor 与主观贝叶斯（Jeffreys, Berger & Pericchi）：Bayes factor 在 optional stopping 下有贝叶斯解释，但频率派 Type-I error 无保证。这一簇在做什么：提供贝叶斯视角的证据度量，但与频率派错误控制脱节。

核心追问 1. 在 optional continuation 下，什么是最优的证据度量？（p-value 不安全；Bayes factor 无频率保证；e-value 安全但如何定义最优？） 2. 复合 null/alternative 下，GRO e-variable 的数学表征是什么？（是否总存在？取什么形式？如何处理 nuisance parameter？） 3. 如何将 GRO 理论落地到经典检验问题（t-test, 列联表），使得新方法在效率上不劣于传统检验？

⚠️ 作者的 framing（这是作者的说法） - 作者将缺口 frame 为：已有 e-value 工作保证了安全性，但缺乏在复合假设下的最优性理论（GRO），特别是 nuisance parameter 的处理是空白；本文填补此缺口，使 e-value 从"安全"变为"安全且最优"。 - 被淡化或回避的竞争路线：传统 Neyman-Pearson power 在 fixed-n 下的最优性（作者只说 optional continuation 下 power 不适用，但未深入比较在 fixed-n 下 GRO e-value 与 NP 最优检验的效率差距）；序列检验的 alpha-spending approach（作者未对比 e-value 与 alpha-spending 在实际序列试验中的 Type-I error 与 power tradeoff）。 - 明显该被引 / 该存在却未出现在 intro 里：半参数效率理论（semiparametric efficiency bounds）——当 null 或 alternative 含 infinite-dimensional nuisance 时，GRO 的定义与构造必然涉及半参数约束下的最优性，但 intro 未引用 van der Vaart/Bickel 等效率理论工作；高维统计中的 debiased ML / post-selection inference——这些也处理 adaptive 数据收集下的推断，但未被提及。这两条是研究者值得去查的方向。

张力未见明显对立引用。各被引工作在不同设定下互补：Shafer 提供概念，Howard/Ramdas 提供序列工具，本文提供复合假设最优性——无直接矛盾。但隐含张力：Bayes factor 在主观贝叶斯下被认为天然适合 optional stopping，而作者 claim GRO e-value 是"特殊先验的 Bayes factor"并具有频率保证——这隐含了对"标准 Bayes factor 先验选择"的批评（标准先验可能不满足 GRO），但未展开与 Berger 等的先验设计争论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X\)（或 \(X^n\)）：可观测随机变量（或样本），取值于样本空间 \(\mathcal{X}\)（或 \(\mathcal{X}^n\)）。分布属于某个统计模型 \(\mathcal{P}\)。
\(\Theta\)：参数空间，\(\mathcal{P} = \{P_\theta : \theta \in \Theta\}\) 为参数化模型。
\(\Theta_0, \Theta_1\)：null 与 alternative 的参数子集，\(\Theta_0 \cup \Theta_1 \subseteq \Theta\)（可能不相交，可能有 nuisance 部分）。
\(\Theta_0 = \Theta_{0,\text{simple}}\)：简单 null（单点），此时 \(P_0\) 为唯一 null 分布。
\(\Theta_0 = \Theta_{0,\text{composite}}\)：复合 null（含 nuisance parameter \(\eta\)），此时 null 分布族为 \(\{P_{\theta_0, \eta} : \eta \in \Lambda_0\}\)。
\(E\)（e-variable / e-value）：非负随机变量 \(E: \mathcal{X} \to [0, \infty)\)，满足在 null 下期望为 1：\(\sup_{\theta \in \Theta_0} E_{P_\theta}[E] \leq 1\)（复合 null 取 sup；简单 null 取期望 = 1）。
\(S\)（e-process）：序列设定下的非负过程 \((S_n)\)，满足对任意 optional stopping time \(\tau\)，\(E_{P_0}[S_\tau] \leq 1\)。
\(\text{GRO}\)（Growth Rate Optimality）：在 alternative \(\Theta_1\) 下最大化期望对数增长率：\(\inf_{\theta \in \Theta_1} E_{P_\theta}[\log E]\)（或对特定 \(\theta_1\) 最大化 \(E_{P_{\theta_1}}[\log E]\)）。
\(W\)（先验 / 混合权重）：定义在 \(\Theta_1\) 上的概率分布，用于构造混合似然比 \(E_W = \int_{\Theta_1} \frac{p_\theta(X)}{p_0(X)} dW(\theta)\)（简单 null）或更一般形式。
\(p_\theta, p_0\)：密度函数（相对于某个共同 dominating measure）。
可观测数据：研究者观测到 \(X^n = (X_1, \dots, X_n)\)，其分布由 \(P_\theta\) 生成，\(\theta\) 的某些分量是感兴趣参数，其余是 nuisance。在 optional continuation 下，\(n\) 本身可以是随机的（依赖于先前数据），但 e-value 的乘法合并保证 Type-I error 不受此影响。

第二步：最小内核——简单 null vs 简单 alternative

剥掉所有复合性、nuisance、序列性，最小内核是：

设定：\(X \sim P_\theta\)，null 为单点 \(\Theta_0 = \{\theta_0\}\)，alternative 为单点 \(\Theta_1 = \{\theta_1\}\)。可观测一个样本 \(X\)（或 \(X^n\)）。

要证的命题：在所有满足 \(E_{P_{\theta_0}}[E] \leq 1\) 的 e-variable 中，使 \(E_{P_{\theta_1}}[\log E]\) 最大化的 GRO e-variable 是似然比：

\[E^* = \frac{p_{\theta_1}(X)}{p_{\theta_0}(X)}\]

证明怎么走、为什么成立： 1. 目标：最大化 \(E_{\theta_1}[\log E]\)，约束 \(E_{\theta_0}[E] \leq 1\), \(E \geq 0\)。 2. 关键跳跃：利用 Gibbs' inequality / KL 散度性质。对任意满足约束的 \(E\)，定义 \(Q = E \cdot P_{\theta_0}\)（即 \(dQ/dP_{\theta_0} = E\)），则 \(Q\) 是一个概率测度（因为 \(E_{\theta_0}[E] \leq 1\)，且可取 = 1）。目标变为：最大化 \(E_{\theta_1}[\log \frac{dQ}{dP_{\theta_0}}]\)。 3. KL 散度拆解：

\[E_{\theta_1}[\log \frac{dQ}{dP_{\theta_0}}] = E_{\theta_1}[\log \frac{dP_{\theta_1}}{dP_{\theta_0}}] - D_{\text{KL}}(P_{\theta_1} \| Q)\]

第一项是常数（\(P_{\theta_1}\) 与 \(P_{\theta_0}\) 的 KL 散度），第二项非负且仅在 \(Q = P_{\theta_1}\) 时为 0。 4. 结论：最大化目标等价于最小化 \(D_{\text{KL}}(P_{\theta_1} \| Q)\)，最优 \(Q = P_{\theta_1}\)，对应 \(E^* = \frac{dP_{\theta_1}}{dP_{\theta_0}} = \frac{p_{\theta_1}}{p_{\theta_0}}\)。

这个最小内核揭示了什么：GRO e-variable 在简单假设下就是似然比——这是 Neyman-Pearson 最优检验的 e-value 版本。论文的一般情形（复合 null/alternative, nuisance parameter）只是这个内核的"加壳"：复合 alternative 下用混合似然比（Bayes factor），复合 null 下用 sup 或特殊先验处理约束。

三、这篇论文做了什么¶

三句话 ①研究了在 optional continuation 设定下基于 e-value 的假设检验理论，核心问题是如何在复合 null/alternative 下构造最优（GRO）的 e-variable。 ②核心工具是 GRO 准则（最大化 alternative 下期望对数增长率）与特殊先验下的 Bayes factor 表征。 ③主要结论是：GRO e-variable 在简单假设下为似然比，在复合 alternative 下为混合似然比（Bayes factor with special prior），在复合 null 下通过"最不利分布"（least favorable distribution）或条件化构造，统一了 Fisher（e-value 作为证据）、Neyman（Type-I error 控制）与 Jeffreys（Bayes factor）三派视角。

关键设定与假设

在第二节最小记号基础上补全：

Optional continuation 设定：研究者观测到第 1 批数据 \(X^{n_1}\)，计算 e-value \(E_1\)；根据 \(E_1\) 决定是否继续收集第 2 批 \(X^{n_2}_{n_1+1}\)，计算 \(E_2\)；合并证据为 \(E_{\text{total}} = E_1 \cdot E_2\)。关键假设：各批数据在 null 下独立（或至少 \(E_i\) 在给定先前数据下是 conditional e-variable），使得乘法合并后 \(E_{P_0}[E_{\text{total}}] \leq 1\) 仍成立。统计含义：允许 adaptive 数据收集，不破坏 Type-I error——这是对传统 p-value 检验的核心改进（p-value 在 optional continuation 下 Type-I error 失控）。
e-variable 定义：\(E \geq 0\), \(\sup_{\theta \in \Theta_0} E_{P_\theta}[E] \leq 1\)。复合 null 取 sup——统计含义：对所有 null 分布均保证期望 ≤ 1，比简单 null 的 \(E_{P_0}[E] = 1\) 更严格。
GRO 定义：对特定 \(\theta_1 \in \Theta_1\)，GRO e-variable \(E^*\) 满足 \(E_{P_{\theta_1}}[\log E^*] \geq E_{P_{\theta_1}}[\log E]\) 对所有合法 e-variable \(E\)。对复合 alternative，定义 \(\theta_1\)-GRO（针对特定 alternative）或 \(\Theta_1\)-GRO（针对混合先验下的 alternative）。统计含义：GRO 是 optional continuation 下 power 的类比——期望对数增长率越高，越快积累证据拒绝 null。
复合 null 的处理：两种路线——(a) 最不利分布（REG）：将复合 null \(\{P_\eta : \eta \in \Lambda_0\}\) 替换为单一最不利分布 \(P_{\eta^*}\)，使 \(\eta^* = \arg\min_{\eta \in \Lambda_0} E_{P_{\theta_1}}[\log \frac{p_{\theta_1}}{p_\eta}]\)（即最小化 alternative 对 null 的 KL 散度），然后构造似然比 \(\frac{p_{\theta_1}}{p_{\eta^*}}\)；(b) 条件化（COND）：找到充分统计量 \(S\) 使得 \(S\) 在 null 下参数自由，构造条件 e-variable \(E(X) = \frac{p_{\theta_1}(X \mid S)}{p_0(X \mid S)}\)。统计含义：REG 路线类似 Neyman-Pearson 的 least favorable distribution；COND 路线类似 Fisher 的条件检验（如 Fisher exact test）。
Nuisance parameter 的处理：当 null 和 alternative 共享 nuisance parameter \(\eta\)（如 t-test 中 \(\eta = \sigma^2\)），GRO e-variable 需在 \(\eta\) 未知下构造。作者提出：在 alternative 上对感兴趣参数 \(\theta\) 混合、对 nuisance \(\eta\) 取特定先验（如右 Haar measure），得到 Bayes factor 形式的 e-variable。统计含义：右 Haar 先验保证 e-variable 在 null 下期望 ≤ 1（无论 \(\eta\) 取何值），这是对 Berger & Pericchi 的 intrinsic Bayes factor 的改进——后者在 optional continuation 下不保证 Type-I error。

主要结果

定理（简单假设 GRO）：在 \(\Theta_0 = \{\theta_0\}\), \(\Theta_1 = \{\theta_1\}\) 下，GRO e-variable 为似然比 \(\frac{p_{\theta_1}}{p_{\theta_0}}\)，且 \(E_{\theta_1}[\log E^*] = D_{\text{KL}}(P_{\theta_1} \| P_{\theta_0})\)。直觉：KL 散度是证据积累的最大速率，似然比达到此速率。必要条件：null 与 alternative 均简单，密度存在。技术难点：无（直接由 KL 散度性质得出）。
定理（复合 alternative GRO = Bayes factor with special prior）：在 \(\Theta_0 = \{\theta_0\}\), \(\Theta_1\) 复合下，对特定 \(\theta_1\) 的 GRO e-variable 仍为似然比 \(\frac{p_{\theta_1}}{p_{\theta_0}}\)；对复合 alternative 的 GRO（最大化 \(\inf_{\theta_1} E_{\theta_1}[\log E]\) 或加权平均）为混合似然比 \(E_W = \int_{\Theta_1} \frac{p_\theta}{p_{\theta_0}} dW(\theta)\)，其中 \(W\) 是特定先验（对 \(\theta_1\)-GRO，\(W\) 集中于 \(\theta_1\)；对 \(\Theta_1\)-GRO，\(W\) 是 Jeffreys-type 或用户指定先验）。直觉：混合似然比在复合 alternative 下平均最优。必要条件：先验 \(W\) 的选择影响增长率——\(W\) 集中于"近 null"的 \(\theta_1\) 时增长率低，集中于"远 null"时增长率高但可能错过弱信号。技术难点：证明 \(E_W\) 确实是 e-variable（\(E_{\theta_0}[E_W] \leq 1\) 由似然比期望 = 1 + 积分线性性保证）。
定理（复合 null GRO：REG 与 COND）：在复合 null \(\Theta_0\) 下，REG 路线的 GRO e-variable 为 \(\frac{p_{\theta_1}}{p_{\eta^*}}\)（\(\eta^*\) 为 least favorable distribution）；COND 路线的 GRO e-variable 为条件似然比 \(\frac{p_{\theta_1}(X \mid S)}{p_0(X \mid S)}\)。作者证明：在许多标准模型（如位置-尺度族）中，REG 与 COND 给出相同结果。直觉：least favorable null 使得 alternative 最难区分，条件化消除 nuisance 的干扰。必要条件：REG 要求 \(\eta^*\) 存在（KL 散度最小化有解）；COND 要求充分统计量 \(S\) 存在且条件分布参数自由。技术难点：证明 REG e-variable 确实满足 \(\sup_{\eta} E_{P_\eta}[E] \leq 1\)——这需要 \(\eta^*\) 的全局最优性，而非局部。

证明路线与技术技巧

整体路线（5 步）：
定义 e-variable 与 GRO 准则，建立基本性质（期望 ≤ 1, 乘法合并, optional continuation 保证）。
简单假设下：用 KL 散度拆解证明似然比为 GRO。
复合 alternative 下：构造混合似然比，证明其为 e-variable（线性性），证明其 GRO（变分论证 / Gibbs' inequality 推广）。
复合 null 下：REG 路线——证明 least favorable distribution 存在且对应 e-variable 满足约束；COND 路线——证明条件似然比为 e-variable（条件期望 ≤ 1 无条件期望 ≤ 1）。
落地到具体检验（t-test, 2×2 表）：计算 GRO e-variable 的显式形式，验证与经典检验的联系。
关键跳跃点：
复合 null REG 的 least favorable distribution 存在性：需要证明 \(\inf_{\eta \in \Lambda_0} D_{\text{KL}}(P_{\theta_1} \| P_\eta)\) 的最小值可达。作者在一般设定下未给严格存在性证明，而是在具体模型（如 Gaussian 位置-尺度族）中显式计算 \(\eta^*\)。这是一个技术缺口——一般条件下 \(\eta^*\) 可能不存在（如 \(\Lambda_0\) 开集）。
COND 路线中条件 e-variable 的合法性：需证明 \(E_{P_\eta}[E(X \mid S)] \leq 1\) 对所有 \(\eta\)。关键引理：\(E_{P_\eta}[E(X \mid S)] = E_{P_\eta}[E_{P_\eta}[E(X \mid S) \mid S]] = E_{P_\eta}[\text{const}] \leq 1\)（因为条件分布参数自由，条件期望不依赖 \(\eta\)）。这个引理的严格证明依赖充分统计量的定义与条件密度的参数自由性。
技术技巧点名：
KL 散度拆解 / Gibbs' inequality：用于简单假设 GRO 证明，将目标拆为常数 - KL 散度，最小化 KL 得最优。
变分论证 / 凸对偶：用于复合 alternative GRO，证明混合似然比优于任意单一似然比（对数期望的凸性）。
右 Haar 先验：用于 nuisance parameter 下构造 e-variable，保证期望 ≤ 1 对所有 \(\eta\) 成立——这是 Berger & Pericchi intrinsic Bayes factor 技术的移植，但用于 e-value 约束而非 Bayes factor 的主观解释。
条件化与充分统计量：用于 COND 路线，消除 nuisance parameter——经典 Fisher 条件检验技术的 e-value 版本。
Optional continuation 的乘法合并：\(E_{\text{total}} = E_1 \cdot E_2\)，利用独立下期望的乘法性质（\(E[E_1 E_2] = E[E_1] E[E_2]\) 当 \(E_2\) 为 conditional e-variable）——这是 e-value 框架的核心机制，区别于 p-value 的加法合并（失败）。

真实例子与应用

Safe t-test：
数据 / 场景：\(X_1, \dots, X_n \sim \mathcal{N}(\mu, \sigma^2)\)，null \(\mu = 0\)（\(\sigma^2\) 未知为 nuisance），alternative \(\mu = \delta\)（特定效应量）或 \(\mu > 0\)（复合）。
方法：构造 GRO e-variable。对 \(\mu = \delta\) vs \(\mu = 0\)，作者证明 REG 与 COND 均给出 e-variable \(E = \exp\left(\delta \sum X_i / \sigma^2 - n\delta^2 / (2\sigma^2)\right)\) 的条件化版本（给定样本方差 \(S^2\)），其中 \(\sigma^2\) 用右 Haar 先验 \((1/\sigma^2)\) 积分消除，得到显式形式涉及非中心 t 分布的密度比。
结果：safe t-test 在 optional continuation 下 Type-I error 严格 ≤ \(\alpha\)（通过阈值 \(E > 1/\alpha\) 判断），且在 fixed-n 下与经典 t-test 的 power 可比（作者给出数值比较：在 \(n\) 中等时 power 差距小，在 \(n\) 很小或很大时略有损失）。
说明什么：验证 GRO e-variable 在经典检验问题中可行，且效率不劣于传统检验——这是"安全且最优"的实证支撑。
2×2 列联表：
数据 / 场景：两组 \((X_{1i}, X_{2i})\) 二值数据，构造 2×2 表，null 为组间无差异（\(p_1 = p_2\)），alternative 为 \(p_1 \neq p_2\)。
方法：用 COND 路线构造条件 e-variable（给定总成功数 \(S\)），形式为条件概率比（类似 Fisher exact test 的 e-value 版本）。
结果：safe 2×2 test 在 optional continuation 下 Type-I error 安全，且与 Fisher exact test 的 power 可比。
说明什么：展示 e-value 框架对离散数据的适用性，以及与经典条件检验的自然对应。

🔎 结论是否比证明窄 - 作者在一般设定下 claim GRO e-variable "取 Bayes factor with special prior 形式"，但严格证明只在特定模型类（位置-尺度族、离散模型）中给出。一般复合 null 下 least favorable distribution 的存在性未严格证明（只在具体例子中验证）。研究者应核验：定理陈述是否假设了 \(\Lambda_0\) 的紧性或 KL 散度的连续性以确保 \(\eta^*\) 存在——若未假设，则结论比证明宽。 - 作者 claim e-value "统一 Fisher, Neyman, Jeffreys 三派"，这是 framing 而非严格定理——Fisher 派的条件检验与 Neyman 派的 power 最优性在 e-value 下有类比，但"统一"需要更多哲学论证，非数学证明。

四、开放问题（点到为止，扎根具体语句）¶

半参数 / 无限维 nuisance 下的 GRO：本文处理 nuisance parameter 限于有限维（\(\eta \in \Lambda_0 \subset \mathbb{R}^k\)）。当 null 或 alternative 含无限维 nuisance（如半参数模型 \(P \in \mathcal{P}\) 仅约束均值 = 0），GRO 的定义与构造如何？REG 路线的 \(\inf_{P \in \mathcal{P}_0} D_{\text{KL}}(P_1 \| P)\) 是否可达？COND 路线是否需要半参数充分统计量？扎根点：作者在 Section 3.2 讨论 nuisance 时仅考虑参数化 \(\eta\)，未提及无限维情形。
GRO e-variable 与 NP power 在 fixed-n 下的效率差距刻画：作者在 safe t-test 例子中数值展示 power 可比，但未给出理论界（GRO e-value 的 power 与 NP 最优检验的 power 差距的上界 / 下界）。扎根点：Section 5.2 的数值比较未给出理论分析，且 intro 未引用 minimax power 理论。
Optional continuation 下的多重检验 / 选择性推断：e-value 的乘法合并处理了序列合并，但若同时进行多个检验（如高维变量选择），如何控制 family-wise error 或 FDR？扎根点：intro 未引用多重检验文献（如 Benjamini-Hochberg），且 e-value 的乘法合并不直接适用于 FDR 控制（需新机制）。
计算可行性：复合 alternative 下混合似然比的积分：\(E_W = \int_{\Theta_1} \frac{p_\theta}{p_0} dW(\theta)\) 在高维 alternative 下积分可能不可计算。作者在 t-test 中用右 Haar 先验得到显式形式，但一般模型下是否总有闭式？扎根点：Section 4.3 的构造依赖特定先验的解析可积性，未讨论数值近似或 MCMC 对 e-value 约束（期望 ≤ 1）的影响。

Maintained by 陈星宇 · Homepage · Source on GitHub

Safe testing¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论