Multiple testing under negative dependence¶

作者: Ziyu Chi, Aaditya Ramdas, Ruodu Wang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 多重检验中的相依性调整旨在回答：当 \(K\) 个假设的 \(p\)-值或 \(e\)-值不独立时，全局零检验（如 Simes）与 FDR 控制（如 BH）的误差率（Type I error / FDR）上界会膨胀多少？当前文献对独立、正回归相依（PRDS）与任意相依已有成熟理论，但对负相依（检验统计量互相抑制同时显著）的系统定量分析几乎空白。本方向处于“已知现象、缺理论刻画”的阶段：实践与模拟早发现负相依下 BH 反保守，但无一般性上界。

发展脉络 - 奠基工作：Benjamini & Yekutieli (2001) 证明 BH 在 PRDS 下控制 FDR，在任意相依下需乘 \(\sum_{i=1}^K 1/i\) 的修正因子；Simes (1986) 给出独立下全局零检验的临界值。 - 主要进展： - 任意相依下的紧界与合并：Hommel (1986) 给出 Simes 在任意相依下的最差 Type I error 上界 \(\sum_{i=1}^K 1/i\)；Vovk & Wang (2012/2020) 系统研究任意相依下 \(p\)-值合并的容许性与效率权衡（IC-balance、price for validity），指出 Simes 与 Cauchy 是唯一满足独立-共单调平衡的合并方法。 - PRDS 的放宽与 FDR-linking：Su (2018) 提出 FDR-linking 定理，证明 BH 的 FDR 主要由零假设 \(p\)-值决定，并引入仅涉及零假设 \(p\)-值的相依结构，将 FDR 上界降至不随 \(K\) 增长的常数（且证明该常数最优）。 - \(e\)-值体系：Vovk & Wang (2019/2020) 与 Wang & Ramdas (2020) 引入 \(e\)-值（期望 \(\le 1\) 的证据度量）与 e-BH 程序，证明 e-BH 在任意相依下无需修正因子即控制 FDR，为复杂相依提供新工具；Ignatiadis et al. (2022) 将 \(e\)-值作为非标准化权重引入多重检验。 - 当前 frontier：对负相依的定量刻画。Puccetti & Wang (2015) 综述了极值负相依概念（ pairwise counter-monotonicity、negative association 等），但未连接到多重检验误差率；Malinovsky & Rinott (2022) 在竞赛模型中证明负关联，但仅是具体例子；Kluger & Owen (2021) 在因子模型下研究 BH 的 FDP 突发行为，指出强长程正相关导致突发，但负相关下的定量界仍缺。 - 本文的位置：填补“负相依下 Simes/BH 的反保守性定量上界”这一空白，给出不随 \(K\) 增长的上界因子，并将负相依 \(e\)-值的合并性质纳入同一框架。

子线索聚类 1. \(p\)-值合并与相依修正：Hommel (1986)、Vovk & Wang (2012/2020)、Chen et al. (2020)——研究任意相依下合并函数的最差上界与容许性，关注“有效性-效率权衡”。 2. FDR 控制的相依放宽：Benjamini & Yekutieli (2001)、Su (2018)——从 PRDS 放宽到仅约束零假设 \(p\)-值的相依，追求不随 \(K\) 增长的 FDR 上界。 3. \(e\)-值与 e-BH：Vovk & Wang (2019/2020)、Wang & Ramdas (2020)、Ignatiadis et al. (2022)——用 \(e\)-值绕开 \(p\)-值的相依修正难题，在任意相依下无修正控制 FDR。 4. 负相依的概率概念与实例：Puccetti & Wang (2015)、Karlin & Rinott (1980)、Malinovsky & Rinott (2022)、Lauzier et al. (2023)——定义与识别负关联、负正交相依、pairwise counter-monotonicity 等概念，提供具体生成场景。

这个方向在追问的核心问题 1. 在负相依下，Simes 全局零检验的 Type I error 与 BH 的 FDR 膨胀因子是否可以不随 \(K\) 增长？（对比任意相依下的 \(\sum 1/i\)） 2. 负相依 \(e\)-值的合并（平均、凸组合）是否保持有效性？其最差上界是什么？ 3. 哪些实际场景自然生成负相依的检验统计量，使得这些理论界有应用落脚点？

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“多重检验文献只处理了独立、正相依、任意相依，负相依是明显的空白”，并强调“Simes/BH 在负相依下已知反保守，但无定量上界”，从而让本文的“不随 \(K\) 增长的上界因子”成为显然的下一步。 - 被淡化的竞争路线：\(e\)-值体系（e-BH 在任意相依下无修正控制 FDR）被作者作为对比基准提及，但未深入讨论“既然 e-BH 已解决任意相依，为何还要研究负相依下 \(p\)-值的修正？”——可能的回答是 \(p\)-值仍是主流输出、且负相依下 \(p\)-值的界比任意相依更紧，但作者未显式论证这一动机。 - 缺失的引用：Intro 未引用 Benjamini & Yekutieli (2001) 的原始 PRDS 论文（只提了 Su 2018 的放宽），也未引用 FDR 突发行为的相关工作（如 Kluger & Owen 2021 只在后面出现）。更关键的是，高维渐近视角下的经验分布函数（如 Delattre & Roquain 2012）在负 Gauss 相依下有 CLT，但 Intro 未连接——这可能意味着作者刻意保持“初等/非渐近”的 framing，而回避了渐近精细性。

张力未见明显对立引用。各子线索在不同相依假设下给出不同上界，逻辑自洽。唯一隐含张力：Su (2018) 的 FDR-linking 定理将 FDR 上界归结为零假设 \(p\)-值的相依，而本文的负相依界也主要利用零假设 \(p\)-值的负相依性质——两条路线在“只约束零假设 \(p\)-值”上汇合，但 Su 的框架更一般（不要求负相依），本文的界更紧（在负相依下给出常数因子）。两者是否可统一？作者未讨论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(K\)：假设个数（维数），整数 \(\ge 2\)。
\(H_1, \ldots, H_K\)：\(K\) 个零假设。
\(\mathcal{N} \subseteq \{1, \ldots, K\}\)：真实零假设的索引集，\(|\mathcal{N}| = K_0\)。
\(P_1, \ldots, P_K\)：\(K\) 个 \(p\)-变量（随机变量），满足对每个 \(i \in \mathcal{N}\)，\(\mathbb{P}(P_i \le \alpha) \le \alpha\) 对所有 \(\alpha \in (0,1)\)。
\(E_1, \ldots, E_K\)：\(K\) 个 \(e\)-变量（随机变量），满足对每个 \(i \in \mathcal{N}\)，\(\mathbb{E}[E_i] \le 1\)。
\(\mathbf{P} = (P_1, \ldots, P_K)\), \(\mathbf{E} = (E_1, \ldots, E_K)\)：\(p\)-值向量与 \(e\)-值向量。
\(P_{(1)} \le \ldots \le P_{(K)}\)：\(p\)-值的升序排列。
\(S_K(\mathbf{P}) = \min_{k=1,\ldots,K} \frac{K P_{(k)}}{k}\)：Simes 统计量。
\(\alpha\)：目标显著性水平 / FDR 水平，\(\alpha \in (0,1)\)。
\(V\)：BH 程序产生的假阳性个数，\(R\) 为总拒绝个数，\(\text{FDP} = V/R\)（\(R=0\) 时定义 FDP=0），\(\text{FDR} = \mathbb{E}[\text{FDP}]\)。
可观测数据：研究者观测到 \(\mathbf{P}\) 或 \(\mathbf{E}\) 的一个样本（通常是检验统计量 \(T_1, \ldots, T_K\) 的单调变换，如 \(P_i = 1 - F_i(T_i)\) 或 \(E_i = \phi(P_i)\)）。\(\mathcal{N}\) 未知，是欲通过程序识别的对象。

第二步：最小内核——负 Gauss 相依下 Simes 的 Type I error 上界

剥掉所有一般性设定（多种负相依定义、BH 的 FDR、\(e\)-值合并），最小内核是：

命题（负 Gauss 相依下 Simes 的 Type I error 上界）：设 \(\mathbf{P}\) 由多元正态检验统计量 \(\mathbf{X} \sim \mathcal{N}(\mathbf{0}, \Sigma)\) 生成（\(P_i = 1 - \Phi(X_i)\)），且 \(\Sigma\) 的非对角元 \(\le 0\)（即 \(\mathbf{X}\) 负 Gauss 相依）。则在全局零（所有 \(H_i\) 为真）下，

\[\mathbb{P}(S_K(\mathbf{P}) \le \alpha) \le \alpha + \alpha^2 - \alpha^3.\]

右端不依赖 \(K\)，且 \(\alpha + \alpha^2 - \alpha^3 < 2\alpha\)（对 \(\alpha \in (0,1)\)），远优于任意相依下的 \(\alpha \sum_{i=1}^K 1/i\)。

为什么成立（证明直觉）： 1. Simes 统计量 \(S_K(\mathbf{P}) \le \alpha\) 等价于 \(\exists k: P_{(k)} \le \alpha k / K\)。 2. 在负 Gauss 相依下，\(P_1, \ldots, P_K\) 作为 \(\mathbf{X}\) 的分量单调减变换，继承负 Gauss 相依（Karlin & Rinott 1980 的 MTP2 理论：\(\Sigma\) 非对角元 \(\le 0\) \(\Rightarrow\) \(\mathbf{X}\) 的密度是 MTP2 的反情形，即负 Gauss 相依）。 3. 关键跳跃：利用负 Gauss 相依的排斥性——多个 \(P_i\) 同时很小的概率被抑制。具体地，将 Simes 事件分解为 \(P_i \le \alpha\) 的子事件，用负相依下的 Bonferroni 型上界（但比独立下的加法更紧，因为负相依使交集概率 \(\le\) 乘积概率）。 4. 作者的初等技巧：直接计算 \(\mathbb{P}(S_K \le \alpha) = \mathbb{P}(\cup_{k} \{P_{(k)} \le \alpha k/K\})\)，用负正交相依（NOD）的性质 \(\mathbb{P}(P_i \le x, P_j \le y) \le \mathbb{P}(P_i \le x) \mathbb{P}(P_j \le y)\) 将联合概率拆解，最终归结为 \(\alpha\) 的多项式上界 \(\alpha + \alpha^2 - \alpha^3\)。

核心数学困难：在负相依下，Simes 事件的概率大于 \(\alpha\)（反保守），但需要证明它不超过一个不依赖 \(K\) 的常数倍 \(\alpha\)。困难在于 Simes 事件是 \(K\) 个有序事件的并，且 \(P_{(k)}\) 的分布依赖全向量的联合结构，不能简单用一维边际。作者的关键想法是用 NOD 将联合概率拆解到边际，再用 Simes 临界值的递增结构（\(\alpha k/K\) 随 \(k\) 递增）控制剩余项。

三、这篇论文做了什么¶

三句话 ①研究了多重检验在多种负相依结构（负 Gauss 相依、负回归相依、负关联、负正交相依、弱负相依）下 Simes 全局零检验与 BH 程序的反保守性定量上界，以及负相依 \(e\)-值的合并性质。②核心工具是负相依定义的排斥性（联合概率 \(\le\) 边际乘积）与初等概率拆解，结合 Simes/BH 的有序临界值结构。③主要结论：在负相依下，Simes 的 Type I error 上界为 \(\alpha + \alpha^2 - \alpha^3\)（不依赖 \(K\)），BH 的 FDR 上界为 \(\alpha + \alpha^2 - \alpha^3\)（同样不依赖 \(K\)），远优于任意相依下的 \(\alpha \sum 1/i\)；负相依 \(e\)-值的平均与凸组合是容许的合并函数。

关键设定与假设

在第二节记号基础上，补全完整设定：

负相依定义（5 种，逐条列出统计含义）：
负 Gauss 相依（NGD）：\(\mathbf{X} \sim \mathcal{N}(\mathbf{0}, \Sigma)\)，\(\Sigma\) 的非对角元 \(\le 0\)。统计含义：正态检验统计量互相抑制同时取大值（负相关）。
负回归相依（NRD）：对任意 \(i \ne j\)，\(\mathbb{P}(P_i \le t \mid P_j = s)\) 关于 \(s\) 递增。统计含义：给定一个 \(p\)-值很小，另一个 \(p\)-值倾向于更大（更不显著）。
负关联（NA）：对任意可分协调函数 \(f, g\)（关于不同坐标集递增），\(\text{Cov}(f(\mathbf{P}), g(\mathbf{P})) \le 0\)。统计含义：最强的负相依概念，蕴含 NOD 与 NRD，保证协调函数的方差被独立情形上界控制。
负正交相依（NOD）：\(\mathbb{P}(P_i \le x_i, P_j \le x_j) \le \mathbb{P}(P_i \le x_i) \mathbb{P}(P_j \le x_j)\) 对所有 \(x_i, x_j\)（下正交相依），且 \(\mathbb{P}(P_i > x_i, P_j > x_j) \le \mathbb{P}(P_i > x_i) \mathbb{P}(P_j > x_j)\)（上正交相依）。统计含义：同时显著或同时不显著的概率被独立情形上界控制。
弱负相依（WND）：作者新引入，定义为 \(\mathbb{E}[S_K(\mathbf{P})] \le 1\)（对全局零 \(\mathbf{P}\)）。统计含义：Simes 统计量的期望被独立情形上界控制，是最弱的要求，仅约束一阶矩。
假设的层级关系：NA \(\Rightarrow\) NRD \(\Rightarrow\) NOD \(\Rightarrow\) WND（部分蕴含需具体条件，如 Lauzier et al. 2023 证明 pairwise counter-monotonicity \(\Rightarrow\) NA \(\Rightarrow\) NRD）。NGD \(\Rightarrow\) NOD（Karlin & Rinott 1980）。
相比已有文献的放宽/强化：Benjamini & Yekutieli (2001) 要求 PRDS（正回归相依），本文要求负回归相依（NRD），方向相反；Su (2018) 的 FDR-linking 框架只约束零假设 \(p\)-值的相依，本文的 NOD/NRD 也主要作用于零假设 \(p\)-值，但给出更紧的常数上界。

主要结果

定理 1（Simes 在 NOD 下的 Type I error 上界）：设 \(\mathbf{P}\) 的零假设分量满足 NOD，则全局零下 \(\mathbb{P}(S_K(\mathbf{P}) \le \alpha) \le \alpha + \alpha^2 - \alpha^3\)。直觉：NOD 的排斥性将 Simes 事件的联合概率拆解为边际乘积，剩余项归结为 \(\alpha^2 - \alpha^3\)。必要条件：NOD（下正交相依足够，上正交相依用于 BH 的 FDR）。技术难点：Simes 事件是 \(K\) 个有序事件的并，需用 NOD 将 \(P_{(k)}\) 的联合分布拆解到一维边际。
定理 2（BH 在 NOD 下的 FDR 上界）：设 \(\mathbf{P}\) 的零假设分量满足 NOD（下与上正交相依），则 BH 程序的 \(\text{FDR} \le \alpha + \alpha^2 - \alpha^3\)。直觉：用 Su (2018) 的 FDR-linking 思想，将 FDR 归结为零假设 \(p\)-值的 Simes 型事件概率，再用定理 1 的上界。技术难点：BH 的 FDR 涉及非零假设 \(p\)-值的随机阈值，需用上正交相依控制“非零 \(p\)-值小”与“零 \(p\)-值小”的联合概率。
定理 3（负相依 \(e\)-值的合并）：设 \(\mathbf{E}\) 的分量满足 NOD（对 \(e\)-值定义：\(\mathbb{P}(E_i \ge x_i, E_j \ge x_j) \le \mathbb{P}(E_i \ge x_i) \mathbb{P}(E_j \ge x_j)\)），则平均 \(E_1 + \ldots + E_K / K\) 是有效的 \(e\)-值合并函数（期望 \(\le 1\)），且凸组合类是容许的合并函数。直觉：NOD 使大 \(e\)-值同时出现的概率被抑制，平均的期望被边际期望的加法控制。

证明路线与技术技巧

整体路线（定理 1）：
将 Simes 事件 \(S_K \le \alpha\) 分解为 \(K\) 个子事件 \(A_k = \{P_{(k)} \le \alpha k / K\}\) 的并。
用容斥原理展开 \(\mathbb{P}(\cup_k A_k) = \sum_k \mathbb{P}(A_k) - \sum_{k<l} \mathbb{P}(A_k \cap A_l) + \ldots\)。
用 NOD 将高阶交集概率拆解：\(\mathbb{P}(A_k \cap A_l) \le \mathbb{P}(P_i \le \alpha k/K, P_j \le \alpha l/K) \le \mathbb{P}(P_i \le \alpha k/K) \mathbb{P}(P_j \le \alpha l/K)\)。
将边际概率 \(\mathbb{P}(P_i \le \alpha k/K) \le \alpha k/K\) 代入，得到上界为 \(\alpha\) 的多项式，最高阶项为 \(\alpha^2\)，负项为 \(-\alpha^3\)，最终归结为 \(\alpha + \alpha^2 - \alpha^3\)。
整体路线（定理 2）：
用 Su (2018) 的 FDR-linking：\(\text{FDR} \le \mathbb{E}[V / R] \le \mathbb{E}[\text{零假设 } p\text{-值的 Simes 型比例}]\)。
将 FDP 表达为 \(V/R = \sum_{i \in \mathcal{N}} \mathbf{1}_{P_i \le c R} / R\)，其中 \(c = \alpha / K\) 是 BH 临界值参数。
用上 NOD 控制 \(\mathbb{P}(P_i \le c R, P_j \le c R) \le \mathbb{P}(P_i \le c R) \mathbb{P}(P_j \le c R)\)，将联合期望拆解。
归结为定理 1 的 Simes 上界，得到 \(\text{FDR} \le \alpha + \alpha^2 - \alpha^3\)。
关键跳跃点：
定理 1 的跳跃：如何从 NOD 的二阶排斥性（\(\mathbb{P}(P_i \le x, P_j \le y) \le \mathbb{P}(P_i \le x) \mathbb{P}(P_j \le y)\)）控制 \(K\) 阶交集？作者用容斥原理的交替正负项与 NOD 的乘积上界，使高阶项被 \(\alpha\) 的高次幂控制，且负项抵消部分正项，最终上界不随 \(K\) 增长。
定理 2 的跳跃：如何将 BH 的随机阈值 \(c R\) 与 NOD 结合？作者用上 NOD（\(\mathbb{P}(P_i > x, P_j > y) \le \mathbb{P}(P_i > x) \mathbb{P}(P_j > y)\)）控制“非零 \(p\)-值不显著”与“零 \(p\)-值不显著”的联合概率，从而将 FDR 归结为零假设 \(p\)-值的 Simes 型事件。
技术技巧点名：
容斥原理：用于展开 Simes 事件的并概率，引入交替正负项。
NOD 的乘积上界：将联合概率拆解为边际乘积，是负相依的核心概率性质。
FDR-linking（Su 2018）：将 FDR 归结为零假设 \(p\)-值的 Simes 型事件概率，避免处理非零假设 \(p\)-值的分布。
\(e\)-值的校准与凸组合：用 Vovk & Wang (2020) 的校准器 \(\phi\) 将 \(p\)-值转为 \(e\)-值，再用 NOD 控制凸组合的期望。

真实例子与应用

负相依的生成场景（作者列举）：
竞赛模型：\(K\) 个选手的得分矩阵，行和固定，得分负关联（Malinovsky & Rinott 2022）。
多元正态负相关：\(\Sigma\) 非对角元 \(\le 0\)，如资产回报的负相关（金融中分散化风险）。
条件独立下的负相依：给定混杂 \(Z\)，\(X\) 与 \(Y\) 独立，但边际负相关（Simpson 悖论的反向）。
Chernoff \(e\)-变量：Howard et al. (2018) 的检验鞅，在负相依下生成负相依 \(e\)-值。
模拟实验：作者模拟了负 Gauss 相依（\(\Sigma\) 非对角元 \(= -\rho\)，\(\rho > 0\)）下的 Simes 与 BH，比较 Type I error / FDR 的经验值与理论上界 \(\alpha + \alpha^2 - \alpha^3\)，以及与任意相依下界 \(\alpha \sum 1/i\) 的对比。结果显示：经验误差率在 \(\alpha\) 与 \(\alpha + \alpha^2 - \alpha^3\) 之间，远低于 \(\alpha \sum 1/i\)；e-BH 在负相依下无修正控制 FDR，但比修正后的 BH 更保守（因 \(e\)-值校准损失信息）。
例子想说明什么：验证理论上界的紧性（经验值接近但不达到上界），展示负相依下 BH 的反保守性远小于任意相依，以及 e-BH 作为替代的保守性代价。

🔎 结论是否比证明窄 - 定理 1 的上界 \(\alpha + \alpha^2 - \alpha^3\) 在 NOD 下证明，但作者在 NGD 与 NRD 下也声称同一上界（因 NGD/NRD \(\Rightarrow\) NOD）。这是严格的。 - 定理 2 的 FDR 上界 \(\alpha + \alpha^2 - \alpha^3\) 要求零假设 \(p\)-值满足下 NOD 与上 NOD，但作者在 NA 与 NRD 下也声称同一上界（因 NA/NRD \(\Rightarrow\) NOD）。这是严格的。 - 弱负相依（WND）下的 Simes 期望上界 \(\mathbb{E}[S_K] \le 1\) 是单独证明的，但作者未给出 WND 下 Type I error 或 FDR 的上界，仅说“WND 是最弱要求，可能不足以控制误差率”——这是谨慎的，未过度 claim。 - 模拟中 \(\rho\) 的取值范围有限（\(-0.1\) 到 \(-0.5\)），未探索极强负相依（\(\rho \to -1/(K-1)\)，即 \(\Sigma\) 半正定的边界），上界在该边界的紧性未验证——这是一个可查的 gap。

四、开放问题（点到为止，扎根具体语句）¶

上界 \(\alpha + \alpha^2 - \alpha^3\) 的紧性：作者在模拟中显示经验误差率低于上界，但未给出达到上界的分布实例。要证/估：是否存在负相依分布使 \(\mathbb{P}(S_K \le \alpha)\) 或 FDR 逼近 \(\alpha + \alpha^2 - \alpha^3\)？扎根在定理 1/2 的陈述与模拟节的讨论（“经验值在上界之下”）。
弱负相依（WND）下的误差率控制：WND 仅保证 \(\mathbb{E}[S_K] \le 1\)，但 Type I error 与 FDR 的上界未知。要证：WND 下 \(\mathbb{P}(S_K \le \alpha)\) 是否有不依赖 \(K\) 的上界？扎根在定义 7（WND）与作者的说法“WND 可能不足以控制误差率”。
极强负相依的边界行为：当 \(\rho \to -1/(K-1)\)（负 Gauss 相依的极值），Simes/BH 的误差率是否趋于某个极限？扎根在模拟节未探索 \(\rho\) 的极端值，以及 Puccetti & Wang (2015) 的 pairwise counter-monotonicity（极值负相依）未在多重检验中分析。
负相依下 \(p\)-值合并的容许性：作者给出负相依 \(e\)-值凸组合的容许性，但负相依下 \(p\)-值合并函数（如 Simes、Bonferroni）的容许性与最优性未讨论。要查：Vovk et al. (2020) 的容许性框架在负相依下是否改变？扎根在定理 3 的 \(e\)-值合并与 Vovk et al. (2020) 的引用。

提醒：要确认上界紧性是否为真 gap，读近期 5 等多重检验负相依的 intro——若都指向“紧性未知”，则为共识；若有人给出紧的实例，则为机会（可改进）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Multiple testing under negative dependence¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论