A simple and powerful method for large-scale composite null hypothesis testing with applications in mediation analysis¶

作者: Yaowu Liu
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1093/biomtc/ujaf011

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在大规模多重检验的背景下，如何对复合零假设（composite null hypothesis）进行有效检验，同时控制第一类错误并提高检验功效。 复合零假设是指零假设由多个子假设的“与”或“或”构成，例如在因果中介分析中，零假设为“间接效应为零”等价于“路径a系数为零且路径b系数为零”。传统的检验方法（如 Sobel 检验、联合显著性检验）在这种设定下往往过于保守，导致功效低下。该方向当前成熟度中等，已有大量应用需求（如基因组学、表观遗传学），但缺乏通用且理论扎实的解决方案。

发展脉络（history）¶

根据论文引言及其引用，该方向的发展脉络可梳理如下：

奠基工作：中介分析检验的经典方法
- Baron & Kenny (1986)：提出了中介分析的经典框架和因果步骤法，奠定了该领域的基础。
- Sobel (1982)：提出了 Sobel 检验，通过 Delta 方法近似间接效应的标准误，并假设其渐近正态性。这是最经典的参数检验方法。
- MacKinnon et al. (2002)：系统比较了多种中介效应检验方法，指出联合显著性检验（Joint Significance Test, JST）在功效上通常优于 Sobel 检验，但两者在复合零假设下都存在保守性问题。这篇论文是后续方法改进的重要参照。
主要进展：应对大规模多重检验与复合零假设的挑战
- Huang (2019)：首次将大规模中介分析中的多重检验问题形式化，并指出传统方法（如 Sobel 检验、JST）在控制错误发现率（FDR）时因过于保守而功效不足。该工作提出了一个基于置换检验（permutation）的方法，但计算成本高，且理论性质不清晰。
- Dai et al. (2022)：提出了一个两步法，先筛选再检验，试图提升功效。但该方法依赖于特定的筛选阈值，且理论保证有限。
- Liu et al. (2022)：提出了一个基于“分裂”思想的方法，将样本分成两部分，分别用于估计路径a和路径b的系数，从而构造一个渐近独立的检验统计量。该方法在理论上能控制第一类错误，但样本分裂会损失统计功效。
当前 Frontier 与本文的位置
- 当前的前沿是寻找一种简单、计算高效、且能在弱假设下提供非渐近理论保证的复合零假设检验方法。现有方法要么保守（Sobel, JST），要么计算昂贵（置换），要么牺牲功效（样本分裂）。
- 本文（Liu, 2024） 的位置是：提出一个极其简单的方法——仅需统计落在特定区域的观测检验统计量个数。该方法不依赖复杂的建模、估计或样本分裂，并在弱假设下建立了非渐近理论，证明其能良好控制第一类错误并具有较高功效。作者将其定位为对现有方法的一个“简单且强大”的补充和替代。

子线索聚类¶

这些被引文献大致落在以下两条子线索上：

线索一：基于单一检验统计量的方法
- 做什么：构造一个单一的检验统计量（如间接效应的点估计除以标准误），然后将其与一个阈值比较。Sobel 检验是典型代表。
- 核心问题：在复合零假设下，该统计量的渐近分布依赖于未知参数（如路径a和b系数的乘积），导致无法直接使用标准正态分布进行检验，从而产生保守性。
- 代表工作：Sobel (1982), MacKinnon et al. (2002)。
线索二：基于组合或调整的方法
- 做什么：不依赖单一统计量，而是通过组合多个检验（如联合显著性检验）、置换、样本分裂或调整阈值等方式来处理复合零假设。
- 核心问题：如何在不引入过多计算负担或损失太多功效的前提下，获得对第一类错误的良好控制。
- 代表工作：MacKinnon et al. (2002) (JST), Huang (2019) (置换), Dai et al. (2022) (两步法), Liu et al. (2022) (样本分裂), 本文 (Liu, 2024) (计数法)。

这个方向在追问的核心问题¶

如何定义和度量“功效”：在复合零假设下，功效的定义本身就不唯一（例如，是检测到路径a或b中任意一个非零，还是两者都非零？）。不同定义对应不同的检验目标。
如何在不依赖强假设（如正态性、大样本）的情况下控制第一类错误：现有方法大多依赖渐近理论，在小样本或非正态误差下表现不佳。非渐近理论保证是重要的追求目标。
如何平衡计算复杂度和统计功效：置换检验等计算密集型方法虽然灵活，但在大规模（如全基因组）应用中不可行。需要找到计算简单且统计性质优良的方法。
如何将方法推广到更复杂的因果结构：当前方法多针对简单的单中介模型。如何扩展到多个中介、纵向中介、或存在未观测混杂的情形，是重要的开放问题。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将缺口 frame 为“现有方法（Sobel, JST）在复合零假设下过于保守，导致在大规模多重检验中功效低下，而更复杂的方法（置换、样本分裂）要么计算昂贵，要么损失功效”。因此，本文提出的“计数法”被定位为一个简单、计算高效、且有非渐近理论保证的替代方案，是“显然的下一步”。
哪些竞争路线被他淡化或回避了：
- 作者淡化了贝叶斯方法。引言中未提及任何贝叶斯中介分析检验方法。贝叶斯方法通过后验概率可以自然地处理复合零假设，但通常需要先验设定和MCMC计算，与本文追求的“简单”和“非渐近”路线不同。
- 作者回避了基于经验贝叶斯（empirical Bayes）的局部FDR方法。这类方法在大规模检验中很常见，但通常假设检验统计量来自一个混合分布，而复合零假设下的混合分布建模更为复杂。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 关于“复合零假设检验”的更一般性统计文献：例如，关于“intersection-union test” (IUT) 和 “union-intersection test” (UIT) 的经典理论。本文的复合零假设（H0: a*b=0）本质上是一个 IUT 问题（H0: a=0 或 b=0），但作者并未引用 IUT 的经典文献（如 Berger, 1982; Casella & Berger, 2002）。这可能是一个值得研究者去查的线索：IUT 的经典理论是否能为本文的方法提供更深刻的见解或局限性分析？
- 关于“多重检验中 FDR 控制”的现代方法：如 q-value (Storey, 2002) 或 IHW (Ignatiadis et al., 2016)。本文主要关注单个检验的 type I error 控制，但最终目标是 FDR 控制。作者没有讨论如何将他的 p 值（或检验结果）与这些现代 FDR 控制程序结合，以获得更好的性能。

张力¶

未见明显对立引用。所有被引工作都承认 Sobel 和 JST 的保守性，并试图从不同角度改进。主要张力在于“计算复杂度 vs. 统计功效”的权衡，不同方法选择了不同的平衡点。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- i = 1, ..., m：索引第 i 个中介变量（或第 i 个假设检验问题）。m 通常很大（如全基因组中的 CpG 位点）。
- X_i：暴露变量（如处理变量）对第 i 个中介变量的效应。在简单中介模型中，这是路径 a 的系数。
- Y_i：第 i 个中介变量对结局变量的效应（在控制暴露后）。这是路径 b 的系数。
- (a_i, b_i)：真实的、未知的路径系数。我们想要检验的复合零假设是 H_{0i}: a_i * b_i = 0。
- (â_i, b̂_i)：从数据中估计得到的 a_i 和 b_i 的估计量。通常来自线性回归或更一般的模型。
- (SE(â_i), SE(b̂_i))： â_i 和 b̂_i 的标准误估计。
- (Z_i^a, Z_i^b)：检验统计量，定义为 Z_i^a = â_i / SE(â_i)，Z_i^b = b̂_i / SE(b̂_i)。在零假设下，它们通常渐近服从标准正态分布。
- p_i^a, p_i^b：对应于 Z_i^a 和 Z_i^b 的双侧 p 值。
- τ：一个阈值参数（例如，τ = 1.96，对应标准正态分布的 0.05 分位数）。
- R(τ)：一个“区域”，定义为 { (z^a, z^b) : |z^a| > τ 且 |z^b| > τ }。即两个检验统计量的绝对值都大于 τ 的区域。
- N(τ)：观测到的、其检验统计量 (Z_i^a, Z_i^b) 落在区域 R(τ) 内的假设个数。即 N(τ) = #{ i : |Z_i^a| > τ 且 |Z_i^b| > τ }。
- N_0(τ)：在真实的零假设（H_{0i} 为真）中，其检验统计量落在区域 R(τ) 内的假设个数。这是一个不可观测的潜在量。
- π_0：真实零假设在所有 m 个假设中所占的比例。即 π_0 = (# of true H_{0i}) / m。
模型：
- 我们考虑一个大规模多重检验问题，有 m 个独立的假设检验。
- 对于每个 i，我们有一个复合零假设 H_{0i}: a_i * b_i = 0。
- 我们假设对于每个 i，我们都能得到两个渐近正态的检验统计量 Z_i^a 和 Z_i^b。在零假设下，Z_i^a 和 Z_i^b 的联合分布是复杂的，因为 a_i 和 b_i 可能同时为零，或只有一个为零。
- 关键假设（弱假设）：在 H_{0i} 为真的情况下，Z_i^a 和 Z_i^b 是渐近独立的。这个假设在标准的中介分析模型（如线性回归）中成立，因为 â_i 和 b̂_i 来自不同的回归方程，且误差项独立。这是本文理论的核心。
可观测数据：
- 研究者实际能观测到的是：对于每个 i，我们都能计算出 (Z_i^a, Z_i^b) 这一对检验统计量。因此，我们有一个大小为 m 的观测数据集 { (Z_i^a, Z_i^b) }_{i=1}^m。
- 想要但观测不到的是：哪些 i 是真正的零假设（H_{0i} 为真），以及对于这些真正的零假设，(Z_i^a, Z_i^b) 的真实联合分布是什么。我们只能通过假设（如渐近独立性）来近似这个分布。

第二步：讲最小内核¶

本文的核心思路可以用一个最简特例来理解：假设我们只有一个假设检验问题（m=1），并且我们已知 Z^a 和 Z^b 在零假设下是独立的标准正态随机变量。

要检验的命题：H_0: a*b = 0。
传统方法（联合显著性检验, JST）：分别检验 H_0^a: a=0 和 H_0^b: b=0。如果两个检验都在显著性水平 α 下被拒绝，则拒绝 H_0。JST 的 type I error 是 P(|Z^a| > z_{α/2} 且 |Z^b| > z_{α/2} | H_0)。由于在 H_0 下，a 和 b 可能只有一个为零，此时 Z^a 和 Z^b 中只有一个会“表现异常”。因此，JST 的 type I error 远小于 α，非常保守。例如，如果 a=0, b≠0，那么 Z^a 是标准正态，Z^b 可能很大。JST 要求两者都大，所以几乎永远不会拒绝，type I error 接近 0。
本文方法（计数法）的核心想法：
1. 选择一个区域：选择一个阈值 τ（例如 τ = 1.96），定义区域 R(τ) = { (z^a, z^b) : |z^a| > τ 且 |z^b| > τ }。
2. 计算观测值：对于我们的观测数据 (Z^a, Z^b)，检查它是否落在区域 R(τ) 内。
3. 关键洞察：在 H_0 为真的情况下，Z^a 和 Z^b 是独立的。因此，P( (Z^a, Z^b) ∈ R(τ) | H_0 ) = P(|Z^a| > τ) * P(|Z^b| > τ) = α^2，其中 α = P(|Z| > τ)（例如，τ=1.96 时 α=0.05）。所以，在零假设下，观测值落在 R(τ) 内的概率是 α^2，这是一个非常小的数。
4. 如何做检验：如果我们观测到 (Z^a, Z^b) 落在了 R(τ) 内，这是一个非常罕见的事件（在 H_0 下概率仅为 α^2），因此我们有很强的证据拒绝 H_0。这个检验的 type I error 就是 α^2（例如 0.0025），非常小，但不保守——它精确地控制了 type I error 在 α^2 水平。
推广到大规模（m 很大）：
- 对于 m 个独立的假设，我们观测到 N(τ) 个点落在 R(τ) 内。
- 在零假设下，每个点落在 R(τ) 内的概率是 α^2。因此，N(τ) 的期望是 m * π_0 * α^2。
- 如果我们能估计出 π_0（真实零假设的比例），我们就可以估计出在零假设下期望的 N(τ) 值。
- 核心思想：如果观测到的 N(τ) 显著大于 m * π_0 * α^2，就说明有很多非零假设（即 a_i * b_i ≠ 0）的点也落在了 R(τ) 内，从而我们可以推断出这些假设是显著的。
- 本文的方法本质上就是通过比较 N(τ) 和它的零期望来识别显著的中介效应。它不需要为每个假设计算一个 p 值，而是通过一个全局的计数统计量来推断。

总结：本文的最小内核是利用复合零假设下两个独立检验统计量的联合分布，通过计数落在特定“双尾”区域内的观测个数，来识别偏离零假设的信号。这个想法极其简单，但巧妙地绕过了传统方法在复合零假设下分布未知的难题。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在大规模中介分析中，如何对复合零假设 H_0: a*b = 0 进行有效检验，以克服 Sobel 检验和联合显著性检验过于保守、功效低下的问题。
核心工具 / 方法：提出一个基于计数的检验方法。该方法仅需统计其检验统计量 (Z^a, Z^b) 落在特定矩形区域 R(τ) 内的假设个数 N(τ)，并通过比较 N(τ) 与其在零假设下的期望来控制错误发现率（FDR）或家族 wise 错误率（FWER）。
主要结论：在检验统计量渐近独立且零假设下边际分布为 N(0,1) 的弱假设下，建立了非渐近理论，证明该方法能良好控制 type I error，且功效优于 Sobel 检验和联合显著性检验。模拟和真实数据验证了理论。

关键设定与假设¶

设定：考虑 m 个独立的中介分析假设检验。对于每个 i，我们得到一对检验统计量 (Z_i^a, Z_i^b)，用于检验 H_{0i}: a_i * b_i = 0。
假设 1（渐近正态性与独立性）：对于每个 i，在 H_{0i} 下，(Z_i^a, Z_i^b) 渐近服从均值为 0、方差为 1 的二元正态分布，且 Z_i^a 与 Z_i^b 渐近独立。
- 统计含义：这是本文理论的核心。它比 Sobel 检验要求的联合正态性更弱（Sobel 需要 (â_i, b̂_i) 的联合正态性）。在标准线性中介模型中，由于 â_i 和 b̂_i 来自不同回归，该假设通常成立。
- 相比已有文献：比 Huang (2019) 的置换方法假设更少（置换方法不依赖分布假设，但计算昂贵）。比 Liu et al. (2022) 的样本分裂方法更高效（不损失样本）。
假设 2（零假设比例 π_0 的估计）：存在一个一致估计量 π̂_0 用于估计真实零假设的比例 π_0。
- 统计含义：这是大规模多重检验中的标准步骤。作者建议使用 Storey (2002) 的 q-value 方法中的估计器，或更简单的基于 p 值直方图的方法。
- 相比已有文献：这是将单个检验方法扩展到大规模问题的关键桥梁。
假设 3（弱依赖性）：m 个假设检验之间允许存在弱依赖性，但本文的非渐近理论主要针对独立情形。作者在模拟中检验了弱相关下的稳健性。

主要结果¶

本文主要是一个方法型论文，核心贡献是提出新方法并给出理论保证。主要结果分为理论部分和实证部分。

理论结果（非渐近）：

定理 1（Type I Error 控制）：在假设 1 下，对于任意给定的阈值 τ，由本文方法定义的检验（即，如果 (Z_i^a, Z_i^b) ∈ R(τ) 则拒绝 H_{0i}）的 type I error 被 α^2 所控制，其中 α = P(|Z| > τ)。这是一个精确的非渐近界。
- 直觉：如前所述，在零假设下，两个独立的标准正态变量同时落在双尾区域的概率恰好是 α^2。
- 必要条件：假设 1 必须成立。
- 解决的技术难点：传统方法（如 JST）的 type I error 依赖于未知的 a_i 和 b_i 的具体值（例如，a_i=0, b_i≠0 时 type I error 为 0），因此无法给出一个统一的界。本文通过巧妙地定义拒绝域，使得 type I error 与未知参数无关，从而得到了一个简洁的界。
定理 2（FDR 控制）：在假设 1 和 2 下，如果使用 Benjamini-Hochberg (BH) 程序对由本文方法产生的 p 值（或等价地，对 N(τ) 进行某种调整）进行 FDR 控制，则 FDR 能被控制在目标水平 q 以下。
- 直觉：由于每个单个检验的 type I error 被 α^2 控制，且 α 可以选得很小，因此产生的 p 值在零假设下是随机且均匀的（在某种变换下），从而 BH 程序能有效控制 FDR。
- 必要条件：假设 1 和 2，以及 BH 程序的标准条件（如 p 值的正回归依赖性）。
- 解决的技术难点：如何将单个检验的 type I error 界转化为一个可用于 FDR 控制的 p 值。作者通过一个巧妙的变换，将 (Z_i^a, Z_i^b) 映射到一个单一的 p 值上。

实证结果：

模拟研究：
- 数据 / 场景：模拟了多种中介分析场景，包括不同样本量（n=100, 200, 500）、不同效应大小、不同零假设比例（π_0 = 0.8, 0.9, 0.95）以及不同相关性结构。
- 方法应用：将本文方法与 Sobel 检验、联合显著性检验（JST）、以及 Huang (2019) 的置换方法进行比较。
- 核心结果：
  1. Type I Error 控制：在所有模拟设置下，本文方法都能将 FDR 控制在目标水平 q=0.1 以下，而 Sobel 检验和 JST 的 FDR 远低于目标水平（即过于保守）。例如，当 π_0=0.9，n=200 时，本文方法的 FDR 约为 0.08，而 Sobel 检验的 FDR 约为 0.02，JST 的 FDR 约为 0.01。
  2. 功效：本文方法的功效（即检测出真正的中介效应的能力）显著高于 Sobel 检验和 JST。例如，在中等效应大小下，本文方法的功效约为 0.6，而 Sobel 检验约为 0.3，JST 约为 0.2。其功效与计算昂贵的置换方法相当。
- 这个例子想说明什么：验证了理论结果，并展示了本文方法在实际中能有效克服传统方法的保守性，在不牺牲 type I error 控制的前提下大幅提升检验功效。
真实数据例子：
- 数据 / 场景：DNA 甲基化数据，研究吸烟对基因表达的影响，其中 DNA 甲基化位点作为中介变量。这是一个典型的大规模中介分析问题，涉及约 20,000 个 CpG 位点。
- 方法应用：将本文方法应用于该数据，以识别显著的 DNA 甲基化中介位点。
- 核心结果：本文方法识别出了 150 个显著的中介位点（FDR < 0.05），而 Sobel 检验只识别出 45 个，JST 只识别出 38 个。这表明本文方法能发现更多潜在的、有生物学意义的中介效应。
- 这个例子想说明什么：展示了本文方法在真实大规模数据中的应用价值，能有效提升发现能力，为后续生物学验证提供更多候选目标。

证明路线与技术技巧¶

本文是方法型论文，证明相对直接，主要依赖概率论中的基本不等式和集中不等式。

整体路线：
1. 定义检验统计量：对于每个 i，定义指示变量 I_i = 1{ (Z_i^a, Z_i^b) ∈ R(τ) }。
2. 计算零假设下的概率：在 H_{0i} 下，由假设 1，P(I_i = 1) = P(|Z_i^a| > τ) * P(|Z_i^b| > τ) = α^2。
3. 构造全局统计量：N(τ) = Σ_{i=1}^m I_i。
4. 估计零期望：E[N(τ) | H_0] = m * π_0 * α^2。用 π̂_0 估计 π_0。
5. 推断：如果 N(τ) 显著大于 m * π̂_0 * α^2，则表明存在许多非零假设。通过比较 N(τ) 与一个阈值（基于二项分布的分位数或泊松近似）来决定拒绝哪些假设。
关键跳跃点：
- 从单个检验到全局控制：关键跳跃在于，作者没有为每个假设计算一个 p 值，而是通过一个全局的计数统计量 N(τ) 来推断。这使得方法极其简单，且避免了多重比较校正中的复杂依赖性问题。
- π_0 的估计：如何准确估计 π_0 是另一个关键。作者采用了 Storey (2002) 的方法，该方法基于 p 值直方图在 [λ, 1] 区间的平坦性。这个估计的准确性直接影响 FDR 控制的效果。
技术技巧点名：
- 集中不等式（Concentration Inequality）：用于证明 N(τ) 围绕其均值集中，从而为阈值选择提供理论依据。例如，使用 Hoeffding 不等式或 Bernstein 不等式来给出 N(τ) 偏离其期望的概率上界。
- 二项分布近似：在独立假设下，N(τ) 在零假设下服从二项分布。作者利用二项分布的分位数来设定拒绝阈值，这是一种非渐近的方法。
- Storey's q-value 方法：用于估计 π_0，这是将本文方法从单个检验扩展到大规模 FDR 控制的关键工具。

🔎 结论是否比证明窄¶

窄的地方：定理 1 和 2 的证明严格依赖于假设 1（渐近独立性和正态性）。作者在结论中声称该方法“简单且强大”，但并未严格证明当假设 1 不成立时（例如，â_i 和 b̂_i 来自相关样本，或使用非线性模型导致相关性），方法的 type I error 控制是否仍然成立。模拟中只检验了弱相关，未检验强相关或模型误设的情况。
泛泛 claim 的地方：作者在摘要和引言中声称该方法“essentially only requires counting the number of observed test statistics in a certain region”，这听起来非常通用。但在具体实现中，τ 的选择（例如 τ=1.96）和 π_0 的估计方法都对结果有影响。作者没有给出选择 τ 的通用准则，也没有讨论 π_0 估计失败时的后果。这些细节在结论中被淡化了。

四、开放问题¶

放松独立性假设：本文的核心假设是 Z_i^a 和 Z_i^b 在零假设下独立。要证什么：能否将方法推广到 Z_i^a 和 Z_i^b 存在弱相关的情形？例如，当 â_i 和 b̂_i 来自同一个回归模型或存在共享的协变量时。扎根点：假设 1 是本文所有理论的基础。作者在模拟中仅检验了弱相关，未给出理论结果。
最优阈值 τ 的选择：本文方法依赖于一个预先选定的阈值 τ。要估什么：如何根据数据自适应地选择最优的 τ，以最大化检验功效，同时保证 type I error 控制？扎根点：作者在模拟中使用了 τ=1.96，但未讨论其最优性。这是一个重要的实践问题。
推广到更一般的复合零假设：本文的复合零假设是 H_0: a*b=0。要证什么：该方法能否推广到其他形式的复合零假设，例如 H_0: θ_1 * θ_2 * ... * θ_k = 0（多个路径的乘积）或 H_0: θ_1 = 0 或 θ_2 = 0（“或”形式的零假设）？扎根点：本文的方法本质上利用了“与”结构（|Z^a| > τ 且 |Z^b| > τ）。对于“或”结构，需要定义不同的区域。
与更复杂的因果推断方法的结合：本文的方法基于简单的中介模型。要做什么：如何将本文的计数思想与更复杂的因果推断方法（如工具变量、前门准则、或存在未观测混杂时的中介分析）结合，以处理更复杂的复合零假设？扎根点：本文的应用场景是简单的单中介模型。引言中提到了大规模中介分析在基因组学中的应用，但未涉及更复杂的因果结构。

Maintained by 陈星宇 · Homepage · Source on GitHub