E-values as unnormalized weights in multiple testing¶
作者: Nikolaos Ignatiadis, Ruodu Wang, Aaditya Ramdas
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 多重检验旨在同时检验大量(\(K\) 个)假设时,控制整体错误发现率(FDR,即错误拒绝数占总拒绝数的期望比例)或家族错误率(FWER)。经典方法(如 Benjamini-Hochberg (BH) 过程)仅依赖 \(p\)-values。然而,现代高维数据分析(基因组学、神经科学等)中,研究者往往拥有关于每个假设的额外信息(协变量、辅助数据、先验等)。如何将这些额外信息转化为“权重”以提升检验功效,同时保证 FDR 的有限样本控制,是过去二十年的核心子方向。近年来,\(e\)-values(期望在原假设下不超过 1 的非负随机变量)作为 \(p\)-values 的替代/补充被提出,它天然对应赌局得分、贝叶斯因子与似然比,为多重检验提供了不受依赖结构限制的新工具。本文所在的子方向正是:当每个假设同时拥有 \(p\)-value 和 \(e\)-value 时,如何设计结合两者的多重检验程序,并借此打破传统加权检验的归一化约束。
发展脉络 - 奠基工作:Benjamini & Hochberg (1995) 提出基于 \(p\)-values 的 BH 过程,在正回归依赖(PRDS)下控制 FDR;Benjamini & Yekutieli (2001) 证明在任意依赖下 BH 乘以常数 \(\log K\) 仍控制 FDR。Genovese & Wasserman (2004, 2006) 将 FDP 视为随机过程,给出了 FDP 的置信包络与超越控制。 - 加权检验进展:Roeder & Wasserman (2009) 与 Ignatiadis et al. (2016, 2017) 发展了数据驱动的加权 BH(weighted BH),要求权重确定性加和为 \(K\)(归一化)。Lei & Fithian (2016) 提出 AdaPT,利用掩蔽 \(p\)-values 与协变量进行交互式检验;Li & Barber (2015) 提出有序假设的累积检验。这些方法均依赖“辅助信息与原假设下的 \(p\)-value 独立”这一关键假设。 - \(e\)-values 的兴起:Shafer (2021) 与 Vovk & Wang (2019, 2021) 从赌局论与检验鞅角度系统化了 \(e\)-values。Wang & Ramdas (2020) 提出 \(e\)-BH 过程,证明其在任意依赖下无需修正即可控制 FDR。Wasserman et al. (2020) 的 Universal Inference 利用样本分裂构造 \(e\)-values,为复合原假设提供了首个无正则性条件的检验。Ren & Barber (2022) 利用 \(e\)-values 对 Model-X Knockoffs 进行去随机化。 - 本文的位置:本文站在 \(e\)-values 与加权多重检验的交汇点。作者指出,传统加权 BH 的归一化约束严重限制了数据驱动权重的变异性;而 \(e\)-values 作为权重时,只要与 \(p\)-values 独立,即可免除归一化约束,从而允许权重具有极大的变异性(如非零假设的权重可达数百),进而大幅提升功效。
子线索聚类 1. 加权 \(p\)-value 检验(数据驱动权重):Ignatiadis et al. (2016, 2017) 的 IHW,Lei & Fithian (2016) 的 AdaPT,Roeder & Wasserman (2009)。核心是利用与原假设 \(p\)-value 独立的协变量构造归一化权重,提升功效。 2. 纯 \(e\)-value 检验与组合:Wang & Ramdas (2020) 的 \(e\)-BH,Vovk & Wang (2021) 的 \(e\)-merging 函数(算术平均合并 \(e\)-values),Shafer (2021) 的赌局论框架。核心是利用 \(e\)-values 在任意依赖下的鲁棒性与可加性。 3. \(p\)-value 与 \(e\)-value 的交互/结合:Du & Zhang (2014) 的 SIM(双变量 \(p\)-value 投影到单指标),Ren & Barber (2022) 的去随机化 Knockoffs(本质是 \(e\)-BH 的应用)。本文属于此线索,但首次明确将 \(e\)-values 作为 \(p\)-values 的非归一化权重系统化。
核心追问与瓶颈 - 追问 1:如何在不牺牲 FDR 有限样本控制的前提下,赋予数据驱动权重尽可能大的变异性,以最大化功效? - 追问 2:\(p\)-values(具有精确尾部概率控制)与 \(e\)-values(具有期望控制与任意依赖鲁棒性)在同一假设上可用时,最优的组合策略是什么? - 当前瓶颈:传统加权 BH 要求权重确定性加和为 \(K\),这迫使大权重必须伴随小权重,严重削弱了对强信号假设的放大能力;而纯 \(e\)-BH 虽无需归一化,但 \(e\)-values 本身在弱信号下可能不如 \(p\)-values 敏感(\(e\)-value 需期望 \(\le 1\),而 \(p\)-value 可极小)。
⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“传统加权 BH 的归一化约束是人为且不必要的限制,只要权重是独立于 \(p\)-values 的 \(e\)-values,归一化即可废除”。这使得本文的“独立 \(e\)-value 加权 BH”成为“显然的下一步”。 - 淡化/回避的竞争路线:作者淡化了纯 \(e\)-BH 的竞争(仅在 Section 4 简略对比功效),也未深入讨论 AdaPT/IHW 等交互式方法在协变量连续时的功效优势——本文的方法在元分析(两组独立数据)中自然成立,但在单数据集样本分裂下,功效损失(样本量减半)被轻描淡写。 - 缺失的引用:Intro 中未引用任何关于样本分裂功效损失的经典文献(如 Wasserman et al. 2020 的 Universal Inference 已承认样本分裂的功效代价),也未引用关于依赖结构下 \(p\)-value 与 \(e\)-value 联合分布的半参数效率界文献——这可能是作者刻意回避的理论难点,也是研究者值得去查的缺口。
张力 未见明显对立引用。各路线在不同设定下互补:加权 BH 在独立协变量下优;纯 \(e\)-BH 在任意依赖下优;本文在“独立 \(e\)-value + \(p\)-value”下优。但隐含张力在于:当 \(e\)-value 与 \(p\)-value 不完全独立时(如单数据集样本分裂下存在微弱依赖),本文的 FDR 控制是否崩溃?作者在 Section 5.2 提到 IHW 的交叉加权可缓解,但未给出严格理论保证。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据 - \(K\):假设的总数(维数/指标)。 - \(H_k\):第 \(k\) 个假设,\(k \in \{1, \ldots, K\}\)。\(H_k=0\) 表示原假设真,\(H_k=1\) 表示非零假设真。 - \(\mathcal{H}_0\):原假设集合,\(K_0 = |\mathcal{H}_0|\),\(\pi_0 = K_0/K\)。 - \(P_k\):第 \(k\) 个假设的 \(p\)-value(随机变量)。在 \(H_k=0\) 下,\(P_k\) 服从超均匀分布(\(\Pr(P_k \le t) \le t\))。 - \(E_k\):第 \(k\) 个假设的 \(e\)-value(随机变量)。在 \(H_k=0\) 下,\(\mathbb{E}[E_k] \le 1\)。 - \(W_k\):第 \(k\) 个假设的权重。本文中 \(W_k = E_k\)。 - \(P_k^w\):加权 \(p\)-value,定义为 \(P_k^w = P_k / W_k\)(若 \(W_k=0\) 则定义为 \(1\))。 - \(R\):拒绝集合,\(R_k = \{k : P_k^w \le t\}\),\(|R|\) 为拒绝数。 - \(V\):错误拒绝数,\(V = |R \cap \mathcal{H}_0|\)。 - FDP:错误发现比例,\(\text{FDP} = V / \max(1, |R|)\)。 - FDR:错误发现率,\(\text{FDR} = \mathbb{E}[\text{FDP}]\)。 - \(\alpha\):目标 FDR 水平。 - 可观测数据:研究者对每个假设 \(k\) 可观测到一对 \((P_k, E_k)\)。\(P_k\) 来自主数据集,\(E_k\) 来自辅助数据集(元分析)或同数据集的样本分裂。\(H_k\) 是不可观测的潜在状态。
第二步:最小内核——独立 \(e\)-value 加权 BH 的最简特例 考虑 \(K=2\),\(H_1=0\)(原假设),\(H_2=1\)(非零假设)。设 \(P_1, P_2\) 为 \(p\)-values,\(E_1, E_2\) 为 \(e\)-values,且 \((E_1, E_2)\) 与 \((P_1, P_2)\) 独立。 - 传统加权 BH 的困境:若权重 \(W_1, W_2\) 需满足 \(W_1+W_2=2\)(归一化),则给 \(H_2\) 大权重(如 \(W_2=1.9\))必迫使 \(H_1\) 权重极小(\(W_1=0.1\)),导致 \(P_1^w = P_1/0.1\) 极易被拒绝,增加错误发现。 - 本文的最简内核:令 \(W_k = E_k\),无需归一化。假设 \(E_1=1\)(原假设下期望为 1),\(E_2=10\)(非零假设下 \(e\)-value 远大于 1)。计算加权 \(p\)-values:\(P_1^w = P_1/1 = P_1\),\(P_2^w = P_2/10\)。 - FDR 控制的证明直觉:对任意阈值 \(t\),错误拒绝数 \(V(t) = \sum_{k \in \mathcal{H}_0} \mathbf{1}_{P_k/E_k \le t}\)。由于 \(E_k\) 与 \(P_k\) 独立,且 \(\mathbb{E}[E_k] \le 1\),有:
三、这篇论文做了什么¶
三句话 ①研究了每个假设同时拥有 \(p\)-value 和独立 \(e\)-value 时的多重检验问题;②核心方法是令 \(e\)-values 作为非归一化权重构造加权 \(p\)-values,并代入 BH 或闭包检验;③主要结论是此程序在弱假设下控制 FDR/FWER,且当非零假设的 \(e\)-values 远大于 1 时,功效可大幅超越传统归一化加权 BH 与纯 \(e\)-BH。
关键设定与假设 - 设定:对 \(K\) 个假设,观测到 \((P_1, E_1), \ldots, (P_K, E_K)\)。 - 假设 1(\(p\)-value 超均匀性):\(H_k=0\) 下,\(\Pr(P_k \le t) \le t\)。这是标准假设,比连续均匀分布更弱。 - 假设 2(\(e\)-value 期望约束):\(H_k=0\) 下,\(\mathbb{E}[E_k] \le 1\)。这是 \(e\)-value 的定义,允许任意分布与依赖。 - 假设 3(独立性):\((E_1, \ldots, E_K)\) 与 \((P_1, \ldots, P_K)\) 独立。这是本文的核心假设,在元分析(主数据集算 \(P_k\),辅助数据集算 \(E_k\))中自然成立。在单数据集下,需通过样本分裂或交叉加权(IHW)构造。 - 假设 4(PRDS,可选):若加权 \(p\)-values \(P_k^w\) 满足正回归依赖(PRDS),则 FDR 控制在 \(\pi_0 \alpha\);若仅满足任意依赖,则 FDR 控制在 \(\pi_0 \alpha \log K\)(与 Benjamini & Yekutieli 2001 一致)。本文在 PRDS 假设上引用了 Finner et al. (2009) 与 Barber & Ramdas (2017) 的稍弱版本。 - 放宽的约束:取消了权重的确定性归一化约束 \(\sum W_k = K\)。这是对 Roeder & Wasserman (2009) 与 Ignatiadis et al. (2016) 的核心突破。
主要结果 - 定理 1(独立 \(e\)-value 加权 BH 的 FDR 控制):在假设 1-3 下,若 \(P_k^w\) 满足 PRDS,则加权 BH 过程(阈值 \(P_k^w \le \alpha k / K\))的 FDR \(\le \pi_0 \alpha\);若任意依赖,则 FDR \(\le \pi_0 \alpha \ell_K\)(\(\ell_K = \sum_{i=1}^K 1/i \approx \log K\))。直觉:独立性使得 \(\mathbb{E}[V] \le \alpha K_0\),与标准 BH 的证明同构;PRDS/任意依赖的修正与经典结果一致。 - 定理 2(闭包检验的 FWER 控制):将 \(P_k^w\) 代入 Holm 型闭包检验,在假设 1-3 下控制 FWER \(\le \alpha\)。这是加权 Holm 的直接推广,无需归一化。 - 定理 3(功效优势的量化):当非零假设的 \(e\)-values 期望 \(\mathbb{E}[E_k] \gg 1\) 时,加权 BH 的拒绝数期望可远超纯 \(p\)-BH 与纯 \(e\)-BH。具体地,若 \(\mathbb{E}[E_k] = c > 1\),则 \(P_k^w\) 的有效阈值放大 \(c\) 倍,而纯 \(e\)-BH 需 \(E_k \ge K/\alpha\) 才拒绝,对弱信号不敏感。 - 推论(元分析中的自然应用):在元分析中,主研究算 \(P_k\),辅助研究算 \(E_k\)(如似然比或赌局得分),两者独立。本文程序直接适用,无需辅助研究的 \(p\)-values 校正。
证明路线与技术技巧 - 整体路线(以定理 1 为例): 1. 定义加权 \(p\)-values \(P_k^w = P_k / E_k\),构造 BH 阈值序列 \(t_k = \alpha k / K\)。 2. 计算错误拒绝数的期望:\(\mathbb{E}[V] = \sum_{k \in \mathcal{H}_0} \mathbb{E}[\mathbf{1}_{P_k \le t_k E_k}]\)。 3. 利用独立性分解期望:\(\mathbb{E}[\mathbf{1}_{P_k \le t_k E_k}] = \mathbb{E}_{E_k}[\Pr(P_k \le t_k E_k | E_k)] \le \mathbb{E}_{E_k}[t_k E_k] = t_k \mathbb{E}[E_k] \le t_k\)。 4. 得到 \(\mathbb{E}[V] \le \sum_{k \in \mathcal{H}_0} t_k\),与标准 BH 的 \(\mathbb{E}[V]\) 上界一致。 5. 代入 FDR 的超均匀-马尔可夫不等式论证(如 Benjamini & Yekutieli 2001 的 FDR-linking),完成 FDR \(\le \pi_0 \alpha\)(PRDS)或 \(\pi_0 \alpha \ell_K\)(任意依赖)的证明。 - 关键跳跃点:步骤 3 的期望分解是全文的基石。它要求 \((E_k, P_k)\) 独立,且 \(\mathbb{E}[E_k] \le 1\)。一旦此步成立,后续论证完全复用经典 BH 的工具,无需新发明。 - 技术技巧点名: - 条件期望分解:用于将 \(\mathbb{E}[\mathbf{1}_{P_k \le t E_k}]\) 分解为 \(\mathbb{E}_{E_k}[t E_k]\),是独立性假设的数学化身。 - 超均匀性:用于 \(\Pr(P_k \le t E_k | E_k) \le t E_k\),是 \(p\)-value 的标准性质。 - FDR-linking 定理(Su 2018):用于在 PRDS 下将 FDR 表达为 \(\pi_0 \alpha\),复用经典框架。 - \(e\)-merging 函数(Vovk & Wang 2021):在 Section 3(掩蔽交互检验)中,用于合并多个 \(e\)-values(算术平均),保证合并后仍为 \(e\)-value。
真实例子与应用 - RNA-Seq 基因表达数据(Bottomly et al. 2011):比较 C57BL/6J 与 DBA/2J 小鼠品系的基因表达,共 14 个样本、约 14k 基因。作者将数据随机分裂为两半:一半算 \(p\)-values(差异表达检验),一半算 \(e\)-values(似然比或赌局得分)。通过 50 次随机分裂的重复,展示独立 \(e\)-value 加权 BH 的平均拒绝数高于纯 \(p\)-BH 与纯 \(e\)-BH,且 FDR 控制在 \(\alpha=0.1\) 以下。 - Airway 基因组数据(IHW 包内置):展示如何用 IHW 的交叉加权(cross-weighting)构造近似独立的 \(e\)-values 与 \(p\)-values,避免样本分裂的功效损失。具体地,将假设分为 2 折,用折 1 算 \(e\)-values 作为折 2 的权重,反之亦然,最后合并拒绝集。此方法在 FDR 控制上略有放松(需假设折间独立),但功效显著优于纯 \(p\)-BH。 - 例子想说明什么:验证理论(FDR 控制),展示相对 baseline 的优势(拒绝数增加),并给出单数据集下的实用构造(交叉加权避免样本量减半)。
🔎 结论是否比证明窄 - 窄结论:定理 1 的 FDR 控制严格依赖于 \((E_k, P_k)\) 的独立性。在单数据集样本分裂下,独立性成立,但功效因样本量减半而受损;在交叉加权下,独立性仅近似成立(折间微弱依赖),FDR 控制无严格证明。作者在 Section 5.2 承认“交叉加权的 FDR 控制是经验验证,理论保证需进一步研究”。 - 泛泛 claim:Intro 中声称“我们的程序可导致功效的大幅提升”,但定理 3 仅给出期望拒绝数的比较,未给出功效(\(\Pr(\text{reject } H_k | H_k=1)\))的严格下界或 minimax 界。功效提升的量化依赖“\(\mathbb{E}[E_k] \gg 1\)”的假设,这在弱信号下可能不成立。
四、开放问题(点到为止)¶
- 依赖结构下的 FDR 控制:当 \(E_k\) 与 \(P_k\) 存在微弱依赖(如交叉加权、或元分析中研究间的重叠样本)时,FDR 控制的理论保证是什么?扎根在 Section 5.2 的“交叉加权无严格 FDR 保证”与 Intro 的“独立性假设”。
- 功效的 minimax 界:在独立 \(e\)-value 加权 BH 下,非零假设的功效最优下界是什么?与纯 \(p\)-BH、纯 \(e\)-BH 的 minimax 界比较如何?扎根在定理 3 的期望拒绝数比较(未给 minimax 界)。
- \(e\)-value 的最优构造:在单数据集下,如何构造与 \(p\)-value 独立且 \(\mathbb{E}[E_k]\) 尽可能大的 \(e\)-value,以最大化功效?样本分裂损失如何量化?扎根在 Section 5.1 的样本分裂讨论与 Wasserman et al. (2020) 的 Universal Inference 局限。
- 半参数效率界:在元分析设定下,结合 \(p\)-value 与 \(e\)-value 估计 \(\pi_0\) 或 FDP 的半参数效率界是什么?扎根在 Intro 缺失的半参数引用与 Genovese & Wasserman (2004) 的 FDP 估计框架。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub