E-values as unnormalized weights in multiple testing¶

作者: Nikolaos Ignatiadis, Ruodu Wang, Aaditya Ramdas
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 多重检验旨在同时检验大量（\(K\) 个）假设时，控制整体错误发现率（FDR，即错误拒绝数占总拒绝数的期望比例）或家族错误率（FWER）。经典方法（如 Benjamini-Hochberg (BH) 过程）仅依赖 \(p\)-values。然而，现代高维数据分析（基因组学、神经科学等）中，研究者往往拥有关于每个假设的额外信息（协变量、辅助数据、先验等）。如何将这些额外信息转化为“权重”以提升检验功效，同时保证 FDR 的有限样本控制，是过去二十年的核心子方向。近年来，\(e\)-values（期望在原假设下不超过 1 的非负随机变量）作为 \(p\)-values 的替代/补充被提出，它天然对应赌局得分、贝叶斯因子与似然比，为多重检验提供了不受依赖结构限制的新工具。本文所在的子方向正是：当每个假设同时拥有 \(p\)-value 和 \(e\)-value 时，如何设计结合两者的多重检验程序，并借此打破传统加权检验的归一化约束。

发展脉络 - 奠基工作：Benjamini & Hochberg (1995) 提出基于 \(p\)-values 的 BH 过程，在正回归依赖（PRDS）下控制 FDR；Benjamini & Yekutieli (2001) 证明在任意依赖下 BH 乘以常数 \(\log K\) 仍控制 FDR。Genovese & Wasserman (2004, 2006) 将 FDP 视为随机过程，给出了 FDP 的置信包络与超越控制。 - 加权检验进展：Roeder & Wasserman (2009) 与 Ignatiadis et al. (2016, 2017) 发展了数据驱动的加权 BH（weighted BH），要求权重确定性加和为 \(K\)（归一化）。Lei & Fithian (2016) 提出 AdaPT，利用掩蔽 \(p\)-values 与协变量进行交互式检验；Li & Barber (2015) 提出有序假设的累积检验。这些方法均依赖“辅助信息与原假设下的 \(p\)-value 独立”这一关键假设。 - \(e\)-values 的兴起：Shafer (2021) 与 Vovk & Wang (2019, 2021) 从赌局论与检验鞅角度系统化了 \(e\)-values。Wang & Ramdas (2020) 提出 \(e\)-BH 过程，证明其在任意依赖下无需修正即可控制 FDR。Wasserman et al. (2020) 的 Universal Inference 利用样本分裂构造 \(e\)-values，为复合原假设提供了首个无正则性条件的检验。Ren & Barber (2022) 利用 \(e\)-values 对 Model-X Knockoffs 进行去随机化。 - 本文的位置：本文站在 \(e\)-values 与加权多重检验的交汇点。作者指出，传统加权 BH 的归一化约束严重限制了数据驱动权重的变异性；而 \(e\)-values 作为权重时，只要与 \(p\)-values 独立，即可免除归一化约束，从而允许权重具有极大的变异性（如非零假设的权重可达数百），进而大幅提升功效。

子线索聚类 1. 加权 \(p\)-value 检验（数据驱动权重）：Ignatiadis et al. (2016, 2017) 的 IHW，Lei & Fithian (2016) 的 AdaPT，Roeder & Wasserman (2009)。核心是利用与原假设 \(p\)-value 独立的协变量构造归一化权重，提升功效。 2. 纯 \(e\)-value 检验与组合：Wang & Ramdas (2020) 的 \(e\)-BH，Vovk & Wang (2021) 的 \(e\)-merging 函数（算术平均合并 \(e\)-values），Shafer (2021) 的赌局论框架。核心是利用 \(e\)-values 在任意依赖下的鲁棒性与可加性。 3. \(p\)-value 与 \(e\)-value 的交互/结合：Du & Zhang (2014) 的 SIM（双变量 \(p\)-value 投影到单指标），Ren & Barber (2022) 的去随机化 Knockoffs（本质是 \(e\)-BH 的应用）。本文属于此线索，但首次明确将 \(e\)-values 作为 \(p\)-values 的非归一化权重系统化。

核心追问与瓶颈 - 追问 1：如何在不牺牲 FDR 有限样本控制的前提下，赋予数据驱动权重尽可能大的变异性，以最大化功效？ - 追问 2：\(p\)-values（具有精确尾部概率控制）与 \(e\)-values（具有期望控制与任意依赖鲁棒性）在同一假设上可用时，最优的组合策略是什么？ - 当前瓶颈：传统加权 BH 要求权重确定性加和为 \(K\)，这迫使大权重必须伴随小权重，严重削弱了对强信号假设的放大能力；而纯 \(e\)-BH 虽无需归一化，但 \(e\)-values 本身在弱信号下可能不如 \(p\)-values 敏感（\(e\)-value 需期望 \(\le 1\)，而 \(p\)-value 可极小）。

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“传统加权 BH 的归一化约束是人为且不必要的限制，只要权重是独立于 \(p\)-values 的 \(e\)-values，归一化即可废除”。这使得本文的“独立 \(e\)-value 加权 BH”成为“显然的下一步”。 - 淡化/回避的竞争路线：作者淡化了纯 \(e\)-BH 的竞争（仅在 Section 4 简略对比功效），也未深入讨论 AdaPT/IHW 等交互式方法在协变量连续时的功效优势——本文的方法在元分析（两组独立数据）中自然成立，但在单数据集样本分裂下，功效损失（样本量减半）被轻描淡写。 - 缺失的引用：Intro 中未引用任何关于样本分裂功效损失的经典文献（如 Wasserman et al. 2020 的 Universal Inference 已承认样本分裂的功效代价），也未引用关于依赖结构下 \(p\)-value 与 \(e\)-value 联合分布的半参数效率界文献——这可能是作者刻意回避的理论难点，也是研究者值得去查的缺口。

张力未见明显对立引用。各路线在不同设定下互补：加权 BH 在独立协变量下优；纯 \(e\)-BH 在任意依赖下优；本文在“独立 \(e\)-value + \(p\)-value”下优。但隐含张力在于：当 \(e\)-value 与 \(p\)-value 不完全独立时（如单数据集样本分裂下存在微弱依赖），本文的 FDR 控制是否崩溃？作者在 Section 5.2 提到 IHW 的交叉加权可缓解，但未给出严格理论保证。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据 - \(K\)：假设的总数（维数/指标）。 - \(H_k\)：第 \(k\) 个假设，\(k \in \{1, \ldots, K\}\)。\(H_k=0\) 表示原假设真，\(H_k=1\) 表示非零假设真。 - \(\mathcal{H}_0\)：原假设集合，\(K_0 = |\mathcal{H}_0|\)，\(\pi_0 = K_0/K\)。 - \(P_k\)：第 \(k\) 个假设的 \(p\)-value（随机变量）。在 \(H_k=0\) 下，\(P_k\) 服从超均匀分布（\(\Pr(P_k \le t) \le t\)）。 - \(E_k\)：第 \(k\) 个假设的 \(e\)-value（随机变量）。在 \(H_k=0\) 下，\(\mathbb{E}[E_k] \le 1\)。 - \(W_k\)：第 \(k\) 个假设的权重。本文中 \(W_k = E_k\)。 - \(P_k^w\)：加权 \(p\)-value，定义为 \(P_k^w = P_k / W_k\)（若 \(W_k=0\) 则定义为 \(1\)）。 - \(R\)：拒绝集合，\(R_k = \{k : P_k^w \le t\}\)，\(|R|\) 为拒绝数。 - \(V\)：错误拒绝数，\(V = |R \cap \mathcal{H}_0|\)。 - FDP：错误发现比例，\(\text{FDP} = V / \max(1, |R|)\)。 - FDR：错误发现率，\(\text{FDR} = \mathbb{E}[\text{FDP}]\)。 - \(\alpha\)：目标 FDR 水平。 - 可观测数据：研究者对每个假设 \(k\) 可观测到一对 \((P_k, E_k)\)。\(P_k\) 来自主数据集，\(E_k\) 来自辅助数据集（元分析）或同数据集的样本分裂。\(H_k\) 是不可观测的潜在状态。

第二步：最小内核——独立 \(e\)-value 加权 BH 的最简特例 考虑 \(K=2\)，\(H_1=0\)（原假设），\(H_2=1\)（非零假设）。设 \(P_1, P_2\) 为 \(p\)-values，\(E_1, E_2\) 为 \(e\)-values，且 \((E_1, E_2)\) 与 \((P_1, P_2)\) 独立。 - 传统加权 BH 的困境：若权重 \(W_1, W_2\) 需满足 \(W_1+W_2=2\)（归一化），则给 \(H_2\) 大权重（如 \(W_2=1.9\)）必迫使 \(H_1\) 权重极小（\(W_1=0.1\)），导致 \(P_1^w = P_1/0.1\) 极易被拒绝，增加错误发现。 - 本文的最简内核：令 \(W_k = E_k\)，无需归一化。假设 \(E_1=1\)（原假设下期望为 1），\(E_2=10\)（非零假设下 \(e\)-value 远大于 1）。计算加权 \(p\)-values：\(P_1^w = P_1/1 = P_1\)，\(P_2^w = P_2/10\)。 - FDR 控制的证明直觉：对任意阈值 \(t\)，错误拒绝数 \(V(t) = \sum_{k \in \mathcal{H}_0} \mathbf{1}_{P_k/E_k \le t}\)。由于 \(E_k\) 与 \(P_k\) 独立，且 \(\mathbb{E}[E_k] \le 1\)，有：

\[\mathbb{E}[V(t)] = \sum_{k \in \mathcal{H}_0} \mathbb{E}[\mathbf{1}_{P_k \le t E_k}] = \sum_{k \in \mathcal{H}_0} \mathbb{E}_{E_k}[\Pr(P_k \le t E_k | E_k)] \le \sum_{k \in \mathcal{H}_0} \mathbb{E}_{E_k}[t E_k] = t K_0 \mathbb{E}[E_k] \le t K_0.\]

这与标准 BH 的 \(\mathbb{E}[V(t)] \le t K_0\) 完全一致！因此，将 \(P_k^w\) 代入标准 BH 过程，FDR 仍控制在 \(\pi_0 \alpha \le \alpha\)。关键在于：独立性使得期望可分解，\(e\)-value 的期望 \(\le 1\) 使得权重 \(E_k\) 在期望意义下“自我归一化”，无需确定性加和约束。 - 功效提升的直觉：\(H_2\) 的 \(E_2=10\) 使得 \(P_2^w = P_2/10\)，阈值被大幅放大，非零假设极易被拒绝；而 \(H_1\) 的 \(E_1=1\) 不改变其 \(p\)-value，错误拒绝概率不增。这就是非归一化权重的威力：大权重只放大信号，不惩罚其他假设。

三、这篇论文做了什么¶

三句话 ①研究了每个假设同时拥有 \(p\)-value 和独立 \(e\)-value 时的多重检验问题；②核心方法是令 \(e\)-values 作为非归一化权重构造加权 \(p\)-values，并代入 BH 或闭包检验；③主要结论是此程序在弱假设下控制 FDR/FWER，且当非零假设的 \(e\)-values 远大于 1 时，功效可大幅超越传统归一化加权 BH 与纯 \(e\)-BH。

关键设定与假设 - 设定：对 \(K\) 个假设，观测到 \((P_1, E_1), \ldots, (P_K, E_K)\)。 - 假设 1（\(p\)-value 超均匀性）：\(H_k=0\) 下，\(\Pr(P_k \le t) \le t\)。这是标准假设，比连续均匀分布更弱。 - 假设 2（\(e\)-value 期望约束）：\(H_k=0\) 下，\(\mathbb{E}[E_k] \le 1\)。这是 \(e\)-value 的定义，允许任意分布与依赖。 - 假设 3（独立性）：\((E_1, \ldots, E_K)\) 与 \((P_1, \ldots, P_K)\) 独立。这是本文的核心假设，在元分析（主数据集算 \(P_k\)，辅助数据集算 \(E_k\)）中自然成立。在单数据集下，需通过样本分裂或交叉加权（IHW）构造。 - 假设 4（PRDS，可选）：若加权 \(p\)-values \(P_k^w\) 满足正回归依赖（PRDS），则 FDR 控制在 \(\pi_0 \alpha\)；若仅满足任意依赖，则 FDR 控制在 \(\pi_0 \alpha \log K\)（与 Benjamini & Yekutieli 2001 一致）。本文在 PRDS 假设上引用了 Finner et al. (2009) 与 Barber & Ramdas (2017) 的稍弱版本。 - 放宽的约束：取消了权重的确定性归一化约束 \(\sum W_k = K\)。这是对 Roeder & Wasserman (2009) 与 Ignatiadis et al. (2016) 的核心突破。

主要结果 - 定理 1（独立 \(e\)-value 加权 BH 的 FDR 控制）：在假设 1-3 下，若 \(P_k^w\) 满足 PRDS，则加权 BH 过程（阈值 \(P_k^w \le \alpha k / K\)）的 FDR \(\le \pi_0 \alpha\)；若任意依赖，则 FDR \(\le \pi_0 \alpha \ell_K\)（\(\ell_K = \sum_{i=1}^K 1/i \approx \log K\)）。直觉：独立性使得 \(\mathbb{E}[V] \le \alpha K_0\)，与标准 BH 的证明同构；PRDS/任意依赖的修正与经典结果一致。 - 定理 2（闭包检验的 FWER 控制）：将 \(P_k^w\) 代入 Holm 型闭包检验，在假设 1-3 下控制 FWER \(\le \alpha\)。这是加权 Holm 的直接推广，无需归一化。 - 定理 3（功效优势的量化）：当非零假设的 \(e\)-values 期望 \(\mathbb{E}[E_k] \gg 1\) 时，加权 BH 的拒绝数期望可远超纯 \(p\)-BH 与纯 \(e\)-BH。具体地，若 \(\mathbb{E}[E_k] = c > 1\)，则 \(P_k^w\) 的有效阈值放大 \(c\) 倍，而纯 \(e\)-BH 需 \(E_k \ge K/\alpha\) 才拒绝，对弱信号不敏感。 - 推论（元分析中的自然应用）：在元分析中，主研究算 \(P_k\)，辅助研究算 \(E_k\)（如似然比或赌局得分），两者独立。本文程序直接适用，无需辅助研究的 \(p\)-values 校正。

证明路线与技术技巧 - 整体路线（以定理 1 为例）： 1. 定义加权 \(p\)-values \(P_k^w = P_k / E_k\)，构造 BH 阈值序列 \(t_k = \alpha k / K\)。 2. 计算错误拒绝数的期望：\(\mathbb{E}[V] = \sum_{k \in \mathcal{H}_0} \mathbb{E}[\mathbf{1}_{P_k \le t_k E_k}]\)。 3. 利用独立性分解期望：\(\mathbb{E}[\mathbf{1}_{P_k \le t_k E_k}] = \mathbb{E}_{E_k}[\Pr(P_k \le t_k E_k | E_k)] \le \mathbb{E}_{E_k}[t_k E_k] = t_k \mathbb{E}[E_k] \le t_k\)。 4. 得到 \(\mathbb{E}[V] \le \sum_{k \in \mathcal{H}_0} t_k\)，与标准 BH 的 \(\mathbb{E}[V]\) 上界一致。 5. 代入 FDR 的超均匀-马尔可夫不等式论证（如 Benjamini & Yekutieli 2001 的 FDR-linking），完成 FDR \(\le \pi_0 \alpha\)（PRDS）或 \(\pi_0 \alpha \ell_K\)（任意依赖）的证明。 - 关键跳跃点：步骤 3 的期望分解是全文的基石。它要求 \((E_k, P_k)\) 独立，且 \(\mathbb{E}[E_k] \le 1\)。一旦此步成立，后续论证完全复用经典 BH 的工具，无需新发明。 - 技术技巧点名： - 条件期望分解：用于将 \(\mathbb{E}[\mathbf{1}_{P_k \le t E_k}]\) 分解为 \(\mathbb{E}_{E_k}[t E_k]\)，是独立性假设的数学化身。 - 超均匀性：用于 \(\Pr(P_k \le t E_k | E_k) \le t E_k\)，是 \(p\)-value 的标准性质。 - FDR-linking 定理（Su 2018）：用于在 PRDS 下将 FDR 表达为 \(\pi_0 \alpha\)，复用经典框架。 - \(e\)-merging 函数（Vovk & Wang 2021）：在 Section 3（掩蔽交互检验）中，用于合并多个 \(e\)-values（算术平均），保证合并后仍为 \(e\)-value。

真实例子与应用 - RNA-Seq 基因表达数据（Bottomly et al. 2011）：比较 C57BL/6J 与 DBA/2J 小鼠品系的基因表达，共 14 个样本、约 14k 基因。作者将数据随机分裂为两半：一半算 \(p\)-values（差异表达检验），一半算 \(e\)-values（似然比或赌局得分）。通过 50 次随机分裂的重复，展示独立 \(e\)-value 加权 BH 的平均拒绝数高于纯 \(p\)-BH 与纯 \(e\)-BH，且 FDR 控制在 \(\alpha=0.1\) 以下。 - Airway 基因组数据（IHW 包内置）：展示如何用 IHW 的交叉加权（cross-weighting）构造近似独立的 \(e\)-values 与 \(p\)-values，避免样本分裂的功效损失。具体地，将假设分为 2 折，用折 1 算 \(e\)-values 作为折 2 的权重，反之亦然，最后合并拒绝集。此方法在 FDR 控制上略有放松（需假设折间独立），但功效显著优于纯 \(p\)-BH。 - 例子想说明什么：验证理论（FDR 控制），展示相对 baseline 的优势（拒绝数增加），并给出单数据集下的实用构造（交叉加权避免样本量减半）。

🔎 结论是否比证明窄 - 窄结论：定理 1 的 FDR 控制严格依赖于 \((E_k, P_k)\) 的独立性。在单数据集样本分裂下，独立性成立，但功效因样本量减半而受损；在交叉加权下，独立性仅近似成立（折间微弱依赖），FDR 控制无严格证明。作者在 Section 5.2 承认“交叉加权的 FDR 控制是经验验证，理论保证需进一步研究”。 - 泛泛 claim：Intro 中声称“我们的程序可导致功效的大幅提升”，但定理 3 仅给出期望拒绝数的比较，未给出功效（\(\Pr(\text{reject } H_k | H_k=1)\)）的严格下界或 minimax 界。功效提升的量化依赖“\(\mathbb{E}[E_k] \gg 1\)”的假设，这在弱信号下可能不成立。

四、开放问题（点到为止）¶

依赖结构下的 FDR 控制：当 \(E_k\) 与 \(P_k\) 存在微弱依赖（如交叉加权、或元分析中研究间的重叠样本）时，FDR 控制的理论保证是什么？扎根在 Section 5.2 的“交叉加权无严格 FDR 保证”与 Intro 的“独立性假设”。
功效的 minimax 界：在独立 \(e\)-value 加权 BH 下，非零假设的功效最优下界是什么？与纯 \(p\)-BH、纯 \(e\)-BH 的 minimax 界比较如何？扎根在定理 3 的期望拒绝数比较（未给 minimax 界）。
\(e\)-value 的最优构造：在单数据集下，如何构造与 \(p\)-value 独立且 \(\mathbb{E}[E_k]\) 尽可能大的 \(e\)-value，以最大化功效？样本分裂损失如何量化？扎根在 Section 5.1 的样本分裂讨论与 Wasserman et al. (2020) 的 Universal Inference 局限。
半参数效率界：在元分析设定下，结合 \(p\)-value 与 \(e\)-value 估计 \(\pi_0\) 或 FDP 的半参数效率界是什么？扎根在 Intro 缺失的半参数引用与 Genovese & Wasserman (2004) 的 FDP 估计框架。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

E-values as unnormalized weights in multiple testing¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论