Multiple testing under negative dependence¶
作者: Ziyu Chi, Aaditya Ramdas, Ruodu Wang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 多重检验中的相依性调整旨在回答:当 \(K\) 个假设的 \(p\)-值或 \(e\)-值不独立时,全局零检验(如 Simes)与 FDR 控制(如 BH)的误差率(Type I error / FDR)上界会膨胀多少?当前文献对独立、正回归相依(PRDS)与任意相依已有成熟理论,但对负相依(检验统计量互相抑制同时显著)的系统定量分析几乎空白。本方向处于“已知现象、缺理论刻画”的阶段:实践与模拟早发现负相依下 BH 反保守,但无一般性上界。
发展脉络 - 奠基工作:Benjamini & Yekutieli (2001) 证明 BH 在 PRDS 下控制 FDR,在任意相依下需乘 \(\sum_{i=1}^K 1/i\) 的修正因子;Simes (1986) 给出独立下全局零检验的临界值。 - 主要进展: - 任意相依下的紧界与合并:Hommel (1986) 给出 Simes 在任意相依下的最差 Type I error 上界 \(\sum_{i=1}^K 1/i\);Vovk & Wang (2012/2020) 系统研究任意相依下 \(p\)-值合并的容许性与效率权衡(IC-balance、price for validity),指出 Simes 与 Cauchy 是唯一满足独立-共单调平衡的合并方法。 - PRDS 的放宽与 FDR-linking:Su (2018) 提出 FDR-linking 定理,证明 BH 的 FDR 主要由零假设 \(p\)-值决定,并引入仅涉及零假设 \(p\)-值的相依结构,将 FDR 上界降至不随 \(K\) 增长的常数(且证明该常数最优)。 - \(e\)-值体系:Vovk & Wang (2019/2020) 与 Wang & Ramdas (2020) 引入 \(e\)-值(期望 \(\le 1\) 的证据度量)与 e-BH 程序,证明 e-BH 在任意相依下无需修正因子即控制 FDR,为复杂相依提供新工具;Ignatiadis et al. (2022) 将 \(e\)-值作为非标准化权重引入多重检验。 - 当前 frontier:对负相依的定量刻画。Puccetti & Wang (2015) 综述了极值负相依概念( pairwise counter-monotonicity、negative association 等),但未连接到多重检验误差率;Malinovsky & Rinott (2022) 在竞赛模型中证明负关联,但仅是具体例子;Kluger & Owen (2021) 在因子模型下研究 BH 的 FDP 突发行为,指出强长程正相关导致突发,但负相关下的定量界仍缺。 - 本文的位置:填补“负相依下 Simes/BH 的反保守性定量上界”这一空白,给出不随 \(K\) 增长的上界因子,并将负相依 \(e\)-值的合并性质纳入同一框架。
子线索聚类 1. \(p\)-值合并与相依修正:Hommel (1986)、Vovk & Wang (2012/2020)、Chen et al. (2020)——研究任意相依下合并函数的最差上界与容许性,关注“有效性-效率权衡”。 2. FDR 控制的相依放宽:Benjamini & Yekutieli (2001)、Su (2018)——从 PRDS 放宽到仅约束零假设 \(p\)-值的相依,追求不随 \(K\) 增长的 FDR 上界。 3. \(e\)-值与 e-BH:Vovk & Wang (2019/2020)、Wang & Ramdas (2020)、Ignatiadis et al. (2022)——用 \(e\)-值绕开 \(p\)-值的相依修正难题,在任意相依下无修正控制 FDR。 4. 负相依的概率概念与实例:Puccetti & Wang (2015)、Karlin & Rinott (1980)、Malinovsky & Rinott (2022)、Lauzier et al. (2023)——定义与识别负关联、负正交相依、pairwise counter-monotonicity 等概念,提供具体生成场景。
这个方向在追问的核心问题 1. 在负相依下,Simes 全局零检验的 Type I error 与 BH 的 FDR 膨胀因子是否可以不随 \(K\) 增长?(对比任意相依下的 \(\sum 1/i\)) 2. 负相依 \(e\)-值的合并(平均、凸组合)是否保持有效性?其最差上界是什么? 3. 哪些实际场景自然生成负相依的检验统计量,使得这些理论界有应用落脚点?
⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“多重检验文献只处理了独立、正相依、任意相依,负相依是明显的空白”,并强调“Simes/BH 在负相依下已知反保守,但无定量上界”,从而让本文的“不随 \(K\) 增长的上界因子”成为显然的下一步。 - 被淡化的竞争路线:\(e\)-值体系(e-BH 在任意相依下无修正控制 FDR)被作者作为对比基准提及,但未深入讨论“既然 e-BH 已解决任意相依,为何还要研究负相依下 \(p\)-值的修正?”——可能的回答是 \(p\)-值仍是主流输出、且负相依下 \(p\)-值的界比任意相依更紧,但作者未显式论证这一动机。 - 缺失的引用:Intro 未引用 Benjamini & Yekutieli (2001) 的原始 PRDS 论文(只提了 Su 2018 的放宽),也未引用 FDR 突发行为的相关工作(如 Kluger & Owen 2021 只在后面出现)。更关键的是,高维渐近视角下的经验分布函数(如 Delattre & Roquain 2012)在负 Gauss 相依下有 CLT,但 Intro 未连接——这可能意味着作者刻意保持“初等/非渐近”的 framing,而回避了渐近精细性。
张力 未见明显对立引用。各子线索在不同相依假设下给出不同上界,逻辑自洽。唯一隐含张力:Su (2018) 的 FDR-linking 定理将 FDR 上界归结为零假设 \(p\)-值的相依,而本文的负相依界也主要利用零假设 \(p\)-值的负相依性质——两条路线在“只约束零假设 \(p\)-值”上汇合,但 Su 的框架更一般(不要求负相依),本文的界更紧(在负相依下给出常数因子)。两者是否可统一?作者未讨论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- \(K\):假设个数(维数),整数 \(\ge 2\)。
- \(H_1, \ldots, H_K\):\(K\) 个零假设。
- \(\mathcal{N} \subseteq \{1, \ldots, K\}\):真实零假设的索引集,\(|\mathcal{N}| = K_0\)。
- \(P_1, \ldots, P_K\):\(K\) 个 \(p\)-变量(随机变量),满足对每个 \(i \in \mathcal{N}\),\(\mathbb{P}(P_i \le \alpha) \le \alpha\) 对所有 \(\alpha \in (0,1)\)。
- \(E_1, \ldots, E_K\):\(K\) 个 \(e\)-变量(随机变量),满足对每个 \(i \in \mathcal{N}\),\(\mathbb{E}[E_i] \le 1\)。
- \(\mathbf{P} = (P_1, \ldots, P_K)\), \(\mathbf{E} = (E_1, \ldots, E_K)\):\(p\)-值向量与 \(e\)-值向量。
- \(P_{(1)} \le \ldots \le P_{(K)}\):\(p\)-值的升序排列。
- \(S_K(\mathbf{P}) = \min_{k=1,\ldots,K} \frac{K P_{(k)}}{k}\):Simes 统计量。
- \(\alpha\):目标显著性水平 / FDR 水平,\(\alpha \in (0,1)\)。
- \(V\):BH 程序产生的假阳性个数,\(R\) 为总拒绝个数,\(\text{FDP} = V/R\)(\(R=0\) 时定义 FDP=0),\(\text{FDR} = \mathbb{E}[\text{FDP}]\)。
- 可观测数据:研究者观测到 \(\mathbf{P}\) 或 \(\mathbf{E}\) 的一个样本(通常是检验统计量 \(T_1, \ldots, T_K\) 的单调变换,如 \(P_i = 1 - F_i(T_i)\) 或 \(E_i = \phi(P_i)\))。\(\mathcal{N}\) 未知,是欲通过程序识别的对象。
第二步:最小内核——负 Gauss 相依下 Simes 的 Type I error 上界
剥掉所有一般性设定(多种负相依定义、BH 的 FDR、\(e\)-值合并),最小内核是:
命题(负 Gauss 相依下 Simes 的 Type I error 上界):设 \(\mathbf{P}\) 由多元正态检验统计量 \(\mathbf{X} \sim \mathcal{N}(\mathbf{0}, \Sigma)\) 生成(\(P_i = 1 - \Phi(X_i)\)),且 \(\Sigma\) 的非对角元 \(\le 0\)(即 \(\mathbf{X}\) 负 Gauss 相依)。则在全局零(所有 \(H_i\) 为真)下,
为什么成立(证明直觉): 1. Simes 统计量 \(S_K(\mathbf{P}) \le \alpha\) 等价于 \(\exists k: P_{(k)} \le \alpha k / K\)。 2. 在负 Gauss 相依下,\(P_1, \ldots, P_K\) 作为 \(\mathbf{X}\) 的分量单调减变换,继承负 Gauss 相依(Karlin & Rinott 1980 的 MTP2 理论:\(\Sigma\) 非对角元 \(\le 0\) \(\Rightarrow\) \(\mathbf{X}\) 的密度是 MTP2 的反情形,即负 Gauss 相依)。 3. 关键跳跃:利用负 Gauss 相依的排斥性——多个 \(P_i\) 同时很小的概率被抑制。具体地,将 Simes 事件分解为 \(P_i \le \alpha\) 的子事件,用负相依下的 Bonferroni 型上界(但比独立下的加法更紧,因为负相依使交集概率 \(\le\) 乘积概率)。 4. 作者的初等技巧:直接计算 \(\mathbb{P}(S_K \le \alpha) = \mathbb{P}(\cup_{k} \{P_{(k)} \le \alpha k/K\})\),用负正交相依(NOD)的性质 \(\mathbb{P}(P_i \le x, P_j \le y) \le \mathbb{P}(P_i \le x) \mathbb{P}(P_j \le y)\) 将联合概率拆解,最终归结为 \(\alpha\) 的多项式上界 \(\alpha + \alpha^2 - \alpha^3\)。
核心数学困难:在负相依下,Simes 事件的概率大于 \(\alpha\)(反保守),但需要证明它不超过一个不依赖 \(K\) 的常数倍 \(\alpha\)。困难在于 Simes 事件是 \(K\) 个有序事件的并,且 \(P_{(k)}\) 的分布依赖全向量的联合结构,不能简单用一维边际。作者的关键想法是用 NOD 将联合概率拆解到边际,再用 Simes 临界值的递增结构(\(\alpha k/K\) 随 \(k\) 递增)控制剩余项。
三、这篇论文做了什么¶
三句话 ①研究了多重检验在多种负相依结构(负 Gauss 相依、负回归相依、负关联、负正交相依、弱负相依)下 Simes 全局零检验与 BH 程序的反保守性定量上界,以及负相依 \(e\)-值的合并性质。②核心工具是负相依定义的排斥性(联合概率 \(\le\) 边际乘积)与初等概率拆解,结合 Simes/BH 的有序临界值结构。③主要结论:在负相依下,Simes 的 Type I error 上界为 \(\alpha + \alpha^2 - \alpha^3\)(不依赖 \(K\)),BH 的 FDR 上界为 \(\alpha + \alpha^2 - \alpha^3\)(同样不依赖 \(K\)),远优于任意相依下的 \(\alpha \sum 1/i\);负相依 \(e\)-值的平均与凸组合是容许的合并函数。
关键设定与假设
在第二节记号基础上,补全完整设定:
- 负相依定义(5 种,逐条列出统计含义):
- 负 Gauss 相依(NGD):\(\mathbf{X} \sim \mathcal{N}(\mathbf{0}, \Sigma)\),\(\Sigma\) 的非对角元 \(\le 0\)。统计含义:正态检验统计量互相抑制同时取大值(负相关)。
- 负回归相依(NRD):对任意 \(i \ne j\),\(\mathbb{P}(P_i \le t \mid P_j = s)\) 关于 \(s\) 递增。统计含义:给定一个 \(p\)-值很小,另一个 \(p\)-值倾向于更大(更不显著)。
- 负关联(NA):对任意可分协调函数 \(f, g\)(关于不同坐标集递增),\(\text{Cov}(f(\mathbf{P}), g(\mathbf{P})) \le 0\)。统计含义:最强的负相依概念,蕴含 NOD 与 NRD,保证协调函数的方差被独立情形上界控制。
- 负正交相依(NOD):\(\mathbb{P}(P_i \le x_i, P_j \le x_j) \le \mathbb{P}(P_i \le x_i) \mathbb{P}(P_j \le x_j)\) 对所有 \(x_i, x_j\)(下正交相依),且 \(\mathbb{P}(P_i > x_i, P_j > x_j) \le \mathbb{P}(P_i > x_i) \mathbb{P}(P_j > x_j)\)(上正交相依)。统计含义:同时显著或同时不显著的概率被独立情形上界控制。
-
弱负相依(WND):作者新引入,定义为 \(\mathbb{E}[S_K(\mathbf{P})] \le 1\)(对全局零 \(\mathbf{P}\))。统计含义:Simes 统计量的期望被独立情形上界控制,是最弱的要求,仅约束一阶矩。
-
假设的层级关系:NA \(\Rightarrow\) NRD \(\Rightarrow\) NOD \(\Rightarrow\) WND(部分蕴含需具体条件,如 Lauzier et al. 2023 证明 pairwise counter-monotonicity \(\Rightarrow\) NA \(\Rightarrow\) NRD)。NGD \(\Rightarrow\) NOD(Karlin & Rinott 1980)。
-
相比已有文献的放宽/强化:Benjamini & Yekutieli (2001) 要求 PRDS(正回归相依),本文要求负回归相依(NRD),方向相反;Su (2018) 的 FDR-linking 框架只约束零假设 \(p\)-值的相依,本文的 NOD/NRD 也主要作用于零假设 \(p\)-值,但给出更紧的常数上界。
主要结果
-
定理 1(Simes 在 NOD 下的 Type I error 上界):设 \(\mathbf{P}\) 的零假设分量满足 NOD,则全局零下 \(\mathbb{P}(S_K(\mathbf{P}) \le \alpha) \le \alpha + \alpha^2 - \alpha^3\)。直觉:NOD 的排斥性将 Simes 事件的联合概率拆解为边际乘积,剩余项归结为 \(\alpha^2 - \alpha^3\)。必要条件:NOD(下正交相依足够,上正交相依用于 BH 的 FDR)。技术难点:Simes 事件是 \(K\) 个有序事件的并,需用 NOD 将 \(P_{(k)}\) 的联合分布拆解到一维边际。
-
定理 2(BH 在 NOD 下的 FDR 上界):设 \(\mathbf{P}\) 的零假设分量满足 NOD(下与上正交相依),则 BH 程序的 \(\text{FDR} \le \alpha + \alpha^2 - \alpha^3\)。直觉:用 Su (2018) 的 FDR-linking 思想,将 FDR 归结为零假设 \(p\)-值的 Simes 型事件概率,再用定理 1 的上界。技术难点:BH 的 FDR 涉及非零假设 \(p\)-值的随机阈值,需用上正交相依控制“非零 \(p\)-值小”与“零 \(p\)-值小”的联合概率。
-
定理 3(负相依 \(e\)-值的合并):设 \(\mathbf{E}\) 的分量满足 NOD(对 \(e\)-值定义:\(\mathbb{P}(E_i \ge x_i, E_j \ge x_j) \le \mathbb{P}(E_i \ge x_i) \mathbb{P}(E_j \ge x_j)\)),则平均 \(E_1 + \ldots + E_K / K\) 是有效的 \(e\)-值合并函数(期望 \(\le 1\)),且凸组合类是容许的合并函数。直觉:NOD 使大 \(e\)-值同时出现的概率被抑制,平均的期望被边际期望的加法控制。
证明路线与技术技巧
- 整体路线(定理 1):
- 将 Simes 事件 \(S_K \le \alpha\) 分解为 \(K\) 个子事件 \(A_k = \{P_{(k)} \le \alpha k / K\}\) 的并。
- 用容斥原理展开 \(\mathbb{P}(\cup_k A_k) = \sum_k \mathbb{P}(A_k) - \sum_{k<l} \mathbb{P}(A_k \cap A_l) + \ldots\)。
- 用 NOD 将高阶交集概率拆解:\(\mathbb{P}(A_k \cap A_l) \le \mathbb{P}(P_i \le \alpha k/K, P_j \le \alpha l/K) \le \mathbb{P}(P_i \le \alpha k/K) \mathbb{P}(P_j \le \alpha l/K)\)。
-
将边际概率 \(\mathbb{P}(P_i \le \alpha k/K) \le \alpha k/K\) 代入,得到上界为 \(\alpha\) 的多项式,最高阶项为 \(\alpha^2\),负项为 \(-\alpha^3\),最终归结为 \(\alpha + \alpha^2 - \alpha^3\)。
-
整体路线(定理 2):
- 用 Su (2018) 的 FDR-linking:\(\text{FDR} \le \mathbb{E}[V / R] \le \mathbb{E}[\text{零假设 } p\text{-值 的 Simes 型比例}]\)。
- 将 FDP 表达为 \(V/R = \sum_{i \in \mathcal{N}} \mathbf{1}_{P_i \le c R} / R\),其中 \(c = \alpha / K\) 是 BH 临界值参数。
- 用上 NOD 控制 \(\mathbb{P}(P_i \le c R, P_j \le c R) \le \mathbb{P}(P_i \le c R) \mathbb{P}(P_j \le c R)\),将联合期望拆解。
-
归结为定理 1 的 Simes 上界,得到 \(\text{FDR} \le \alpha + \alpha^2 - \alpha^3\)。
-
关键跳跃点:
- 定理 1 的跳跃:如何从 NOD 的二阶排斥性(\(\mathbb{P}(P_i \le x, P_j \le y) \le \mathbb{P}(P_i \le x) \mathbb{P}(P_j \le y)\))控制 \(K\) 阶交集?作者用容斥原理的交替正负项与 NOD 的乘积上界,使高阶项被 \(\alpha\) 的高次幂控制,且负项抵消部分正项,最终上界不随 \(K\) 增长。
-
定理 2 的跳跃:如何将 BH 的随机阈值 \(c R\) 与 NOD 结合?作者用上 NOD(\(\mathbb{P}(P_i > x, P_j > y) \le \mathbb{P}(P_i > x) \mathbb{P}(P_j > y)\))控制“非零 \(p\)-值不显著”与“零 \(p\)-值不显著”的联合概率,从而将 FDR 归结为零假设 \(p\)-值的 Simes 型事件。
-
技术技巧点名:
- 容斥原理:用于展开 Simes 事件的并概率,引入交替正负项。
- NOD 的乘积上界:将联合概率拆解为边际乘积,是负相依的核心概率性质。
- FDR-linking(Su 2018):将 FDR 归结为零假设 \(p\)-值的 Simes 型事件概率,避免处理非零假设 \(p\)-值的分布。
- \(e\)-值的校准与凸组合:用 Vovk & Wang (2020) 的校准器 \(\phi\) 将 \(p\)-值转为 \(e\)-值,再用 NOD 控制凸组合的期望。
真实例子与应用
- 负相依的生成场景(作者列举):
- 竞赛模型:\(K\) 个选手的得分矩阵,行和固定,得分负关联(Malinovsky & Rinott 2022)。
- 多元正态负相关:\(\Sigma\) 非对角元 \(\le 0\),如资产回报的负相关(金融中分散化风险)。
- 条件独立下的负相依:给定混杂 \(Z\),\(X\) 与 \(Y\) 独立,但边际负相关(Simpson 悖论的反向)。
-
Chernoff \(e\)-变量:Howard et al. (2018) 的检验鞅,在负相依下生成负相依 \(e\)-值。
-
模拟实验:作者模拟了负 Gauss 相依(\(\Sigma\) 非对角元 \(= -\rho\),\(\rho > 0\))下的 Simes 与 BH,比较 Type I error / FDR 的经验值与理论上界 \(\alpha + \alpha^2 - \alpha^3\),以及与任意相依下界 \(\alpha \sum 1/i\) 的对比。结果显示:经验误差率在 \(\alpha\) 与 \(\alpha + \alpha^2 - \alpha^3\) 之间,远低于 \(\alpha \sum 1/i\);e-BH 在负相依下无修正控制 FDR,但比修正后的 BH 更保守(因 \(e\)-值校准损失信息)。
-
例子想说明什么:验证理论上界的紧性(经验值接近但不达到上界),展示负相依下 BH 的反保守性远小于任意相依,以及 e-BH 作为替代的保守性代价。
🔎 结论是否比证明窄 - 定理 1 的上界 \(\alpha + \alpha^2 - \alpha^3\) 在 NOD 下证明,但作者在 NGD 与 NRD 下也声称同一上界(因 NGD/NRD \(\Rightarrow\) NOD)。这是严格的。 - 定理 2 的 FDR 上界 \(\alpha + \alpha^2 - \alpha^3\) 要求零假设 \(p\)-值满足下 NOD 与上 NOD,但作者在 NA 与 NRD 下也声称同一上界(因 NA/NRD \(\Rightarrow\) NOD)。这是严格的。 - 弱负相依(WND)下的 Simes 期望上界 \(\mathbb{E}[S_K] \le 1\) 是单独证明的,但作者未给出 WND 下 Type I error 或 FDR 的上界,仅说“WND 是最弱要求,可能不足以控制误差率”——这是谨慎的,未过度 claim。 - 模拟中 \(\rho\) 的取值范围有限(\(-0.1\) 到 \(-0.5\)),未探索极强负相依(\(\rho \to -1/(K-1)\),即 \(\Sigma\) 半正定的边界),上界在该边界的紧性未验证——这是一个可查的 gap。
四、开放问题(点到为止,扎根具体语句)¶
-
上界 \(\alpha + \alpha^2 - \alpha^3\) 的紧性:作者在模拟中显示经验误差率低于上界,但未给出达到上界的分布实例。要证/估:是否存在负相依分布使 \(\mathbb{P}(S_K \le \alpha)\) 或 FDR 逼近 \(\alpha + \alpha^2 - \alpha^3\)?扎根在定理 1/2 的陈述与模拟节的讨论(“经验值在上界之下”)。
-
弱负相依(WND)下的误差率控制:WND 仅保证 \(\mathbb{E}[S_K] \le 1\),但 Type I error 与 FDR 的上界未知。要证:WND 下 \(\mathbb{P}(S_K \le \alpha)\) 是否有不依赖 \(K\) 的上界?扎根在定义 7(WND)与作者的说法“WND 可能不足以控制误差率”。
-
极强负相依的边界行为:当 \(\rho \to -1/(K-1)\)(负 Gauss 相依的极值),Simes/BH 的误差率是否趋于某个极限?扎根在模拟节未探索 \(\rho\) 的极端值,以及 Puccetti & Wang (2015) 的 pairwise counter-monotonicity(极值负相依)未在多重检验中分析。
-
负相依下 \(p\)-值合并的容许性:作者给出负相依 \(e\)-值凸组合的容许性,但负相依下 \(p\)-值合并函数(如 Simes、Bonferroni)的容许性与最优性未讨论。要查:Vovk et al. (2020) 的容许性框架在负相依下是否改变?扎根在定理 3 的 \(e\)-值合并与 Vovk et al. (2020) 的引用。
提醒:要确认上界紧性是否为真 gap,读近期 5 等多重检验负相依的 intro——若都指向“紧性未知”,则为共识;若有人给出紧的实例,则为机会(可改进)。
Maintained by 陈星宇 · Homepage · Source on GitHub