Ranking and selection in large-scale inference of heteroscedastic units¶

作者: Bowen Gang, Luella Fu, Gareth M. James, Wenguang Sun
来源: Annals of Applied Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：大规模多重比较与排序选择要解决的根本统计问题是：在同时检验成千上万个假设时，如何在控制整体误发现率（FDR/FWER）的前提下，尽可能多地找出真正有意义的信号，并按其“实际重要性”给出客观排序。当前该方向已从早期同方差下的 p 值阈值调整（如 BH 程序），发展到异方差、协变量辅助、经验贝叶斯（EB）与复合决策理论深度融合的成熟阶段，核心瓶颈在于异方差导致的“标准化信息损失”与“统计显著性 vs 实际重要性”的错位。

发展脉络： - 奠基工作：Robbins (1956) 提出经验贝叶斯（EB）框架处理复合决策；Benjamini & Hochberg (1995) 提出 FDR 控制程序，成为大规模检验的操作标准；Efron (2011) 用 Tweedie's formula 处理选择偏差（回归到均值），指出大规模推断中最大的 z 值往往高估了真实均值。 - 主要进展（异方差与 EB 估计）：Xie et al. (2012) 与 Weinstein et al. (2015) 分别提出 SURE 与 Group-linear EB 估计器，处理异方差正态均值估计，试图恢复不等方差下的收缩有效性；Jiang & Zhang (2009) 证明 GMLEB 在均方误差意义下渐近达到 Oracle 风险；Kwon & Zhao (2018) 从 F-modeling 角度做方差的 EB 估计。 - 当前 frontier（大规模推断中的排序与异方差调整）：Henderson & Newton (2013) 提出最大化期望重叠的 EB 排序，指出局部 MLE 倾向高方差单元；Gu & Koenker (2020) 将排序视为复合决策，用 NPMLE 构造最优规则；Fu et al. (2019) 提出 HART，绕过标准化直接用方差信息做 FDR 控制；Banerjee et al. (2020) 提出 NEST，用非参 EB 平滑 Tweedie 处理异质数据；Gang & Banerjee (2023) 处理复合零假设下的异方差调整。 - 本文的位置：在 HART（2019）与 NEST（2020）的基础上，将异方差调整从“多重检验/估计”推向“排序与选择”的复合决策框架，引入修正 power（优先选重要效应）与排序度量（评估相对重要性），试图在 FDR/FWER 控制下达到最优性。

子线索聚类： 1. 异方差下的经验贝叶斯估计：Xie (2012), Weinstein (2015), Kwon (2018), Banerjee (2020) NEST。这一簇在处理不等方差下的均值/方差收缩估计，核心是恢复异方差下的对称性或构造更优的 Oracle 风险基准。 2. 大规模多重检验的 FDR 控制与加权/异方差调整：Genovese & Wasserman (2004) FDP 随机过程，Basu et al. (2015) 加权 FDR，Fu et al. (2019) HART，Gang & Banerjee (2023) 复合零假设。这一簇在绕过标准化，利用方差/协变量作为辅助信息提升 power。 3. 排序与选择的复合决策理论：Henderson & Newton (2013) 期望重叠最大化，Gu & Koenker (2020) NPMLE 排序，Ni et al. (2015) 并行计算下的 R&S。这一簇从决策论/EB 角度定义“最优排序”，而非仅看 p 值或 z 值。

这个方向在追问的核心问题： 1. 如何定义与优化“实际重要性”的发现率？ 传统 power 只看拒绝 \(H_0\) 的概率，不区分效应量 \(\mu_i\) 是 0.01 还是 10。如何构造修正 power，使得程序优先发现 \(\mu_i\) 大的单元？ 2. 异方差下标准化统计量导致的信息损失如何量化与弥补？ \(z_i = x_i/\sigma_i\) 丢失了 \(\sigma_i\) 的尺度信息，导致高方差噪声被过度选择。如何直接利用 \((x_i, \sigma_i)\) 的联合信息？ 3. 排序的客观度量是什么？ 在 \(\mu_i\) 与 \(\sigma_i\) 可能存在依赖时，如何构造既反映统计显著性又反映实际重要性的排序度量 \(R_i\)，并在决策论下证明其最优性？

⚠️ 作者的 framing（这是作者的说法）：作者把缺口 frame 为“传统方法过度代表高方差子群体中的噪声，且传统 power 只关注统计显著性而非实际重要性”。作者认为现有多重比较程序（如 BH）和排序方法（如按 z 值排）在这两点上存在双重错位，因此引入修正 power 与排序度量是“显然的下一步”。 被淡化或回避的竞争路线：纯决策论路线（如 Gu & Koenker 2020 的 NPMLE 排序）被整合而非对比，作者强调必须在 FDR 控制框架下做排序，而非仅做估计或排序；纯加权 FDR 路线（Basu 2015）被视作外部权重注入，而本文强调从数据内部挖掘 \(\mu_i\) 与 \(\sigma_i\) 的依赖结构。 明显该被引/该存在却没出现的：效应量阈值（\(\delta\)-minimal power）的早期决策论文献（如 Lehmann 1957 对 power 函数的严格定义），以及近年关于“practical significance” vs “statistical significance”的争论（如 Wasserstein & Lazar 2016 ASA statement）。这值得研究者去查：作者对修正 power 的定义是否是决策论中的标准做法，还是新创？

张力： Henderson & Newton (2013) 指出局部 MLE 倾向高方差单元，而传统检验倾向低方差单元；Fu et al. (2019) HART 试图在 FDR 框架下平衡，本文进一步在排序度量上平衡。未见明显对立引用，但存在“倾向高方差 vs 倾向低方差”的张力——本文的排序度量是否在所有异方差设定下都能避免这两种极端，需核对定理条件。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(m\)：总单元数（假设检验的维数/样本量）。
\(\mu_i\)：第 \(i\) 个单元的真实效应（参数/estimand），不可观测。
\(\sigma_i^2\)：第 \(i\) 个单元的方差（已知或可估的噪声水平）。
\(X_i\)：第 \(i\) 个单元的观测统计量（随机变量），\(X_i \sim N(\mu_i, \sigma_i^2)\)。
\(H_{0i}\)：零假设，通常为 \(\mu_i \leq \delta\)（或 \(\mu_i = 0\)）；\(H_{1i}\)：对立假设，\(\mu_i > \delta\)。
\(\mathcal{S}\)：被选择的单元集合（拒绝 \(H_0\) 的集合）。
FDP, FDR, FNP, FNR：误发现比例/率、误未发现比例/率。
\(\delta\)：重要效应的阈值（区分“统计显著”与“实际重要”的界限）。
\(R_i\)：排序度量，评估单元 \(i\) 相对重要性的得分。
模型：数据生成机制为 \(X_i = \mu_i + \sigma_i Z_i\), \(Z_i \sim N(0,1)\) 独立。真实效应 \(\mu_i\) 来自某个未知先验分布 \(G(\mu)\)。关键设定：\(\mu_i\) 与 \(\sigma_i\) 可能存在依赖（即效应大小与噪声水平相关，这是异方差推断的核心难点）。要估的对象是 \(\mu_i\) 的后验分布或后验均值，以及基于此的排序度量 \(R_i\)。
可观测数据：研究者实际能观测到的是 \((X_i, \sigma_i)\) for \(i=1,...,m\)。\(\sigma_i\) 常被当作已知（或从外部样本估得）。\(\mu_i\) 是潜在/不可观测的，只能靠 \((X_i, \sigma_i)\) 的联合结构去识别。传统方法只看 \(Z_i = X_i/\sigma_i\)（标准化统计量），本文强调必须看 \((X_i, \sigma_i)\) 的完整数据。

第二步：讲最小内核

最简特例：二值方差设定下的“高方差噪声 vs 低方差信号”错位

假设 \(m\) 很大，\(\sigma_i\) 只取两个值：\(\sigma_{small}\)（低方差组）和 \(\sigma_{large}\)（高方差组）。我们要选出“真正重要”的单元（\(\mu_i > \delta\)），而非仅仅“统计显著”的（\(Z_i > c\)）。

传统 BH 程序的错位：基于 \(Z_i = X_i/\sigma_i\) 排序并选 top-k。
高方差组中，即使 \(\mu_i\) 很小（不重要，如 \(\mu_i = 0.1\)），只要 \(X_i\) 碰巧大（如 \(X_i = 3\sigma_{large}\)），\(Z_i\) 就可能极大（\(Z_i = 3\)），排到前列，导致“高方差噪声被过度选择”。
低方差组中，即使 \(\mu_i\) 很大（重要，如 \(\mu_i = 5\)），如果 \(X_i\) 略低于均值（如 \(X_i = 4\sigma_{small}\)），\(Z_i\) 可能不显著（\(Z_i = 4\)，若阈值更严则可能落选），导致“低方差重要信号被遗漏”。
本文最小内核：定义排序度量 \(R_i = P(\mu_i > \delta | X_i, \sigma_i)\)（即后验概率，或某种结合了 \(X_i\) 和 \(\sigma_i\) 的修正得分）。按 \(R_i\) 排序，从大到小选，直到控制 FDR。
高方差组中，\(X_i = 3\sigma_{large}\) 但 \(\mu_i\) 小，由于 \(\sigma_{large}\) 大，回归到均值效应强，\(P(\mu_i > \delta | X_i=3\sigma_{large}, \sigma_{large})\) 实际很低（因为大方差下大观测值很常见，不保证 \(\mu_i\) 大），排序靠后。
低方差组中，\(X_i = 4\sigma_{small}\) 且 \(\mu_i\) 大，由于 \(\sigma_{small}\) 小，观测值 \(X_i\) 对 \(\mu_i\) 的定位很准，\(P(\mu_i > \delta | X_i=4\sigma_{small}, \sigma_{small})\) 很高，排序靠前。
修正 power：只计算 \(\mu_i > \delta\) 的真发现数。这样，选出的集合 \(\mathcal{S}\) 既控制了 FDR，又最大化了“实际重要”的发现数，避免了高方差噪声的污染。

在这个特例下，要证的命题退化为：按 \(R_i\) 排序并选 top-k 的程序，在 FDR 控制下，其修正 power 达到最大。证明的核心直觉是：\(R_i\) 是 \(\mu_i > \delta\) 的充分统计量（在后验意义下），按 \(R_i\) 排序等价于按 Neyman-Pearson 最优检验排序，因此自然最大化修正 power。论文的一般情形只是将 \(\sigma_i\) 从二值推广到连续异方差，并将 \(R_i\) 的构造从已知先验推广到非参 EB 估计。

三、这篇论文做了什么¶

三句话： ①研究了异方差单元大规模排序与选择中，传统方法过度代表高方差噪声且忽视效应重要性的问题； ②核心工具是修正 power 概念（优先选重要效应 \(\mu_i > \delta\)）与基于非参经验贝叶斯后验的排序度量 \(R_i\)； ③主要结论是提出的 oracle 与 data-driven 算法在 FDR/FWER 控制下达到渐近最优性，且排序更客观。

关键设定与假设： - 模型设定：\(X_i \sim N(\mu_i, \sigma_i^2)\)，\(\mu_i \sim G\)（未知先验），\(\sigma_i\) 已知。\(\mu_i\) 与 \(\sigma_i\) 可依赖（关键假设，与 HART/NEST 一致）。 - 零/对立假设：\(H_{0i}: \mu_i \leq \delta\) vs \(H_{1i}: \mu_i > \delta\)。\(\delta\) 是重要效应阈值，可设为 0 或正数。 - 修正 Power (AMP)：\(AMP(\delta) = E[\sum_{i: \mu_i > \delta} I(i \in \mathcal{S})] / E[\sum_{i: \mu_i > \delta} 1]\)。只算效应量大于 \(\delta\) 的真发现，忽略 \(\mu_i \in (0, \delta]\) 的微弱信号。 - 排序度量 \(R_i\)：基于 Tweedie's formula 或 NPMLE 得到的后验概率/后验均值，如 \(R_i = P(\mu_i > \delta | X_i, \sigma_i)\) 或 \(R_i = E[\mu_i | X_i, \sigma_i]\)。 - 假设放宽/强化：相比 BH 程序要求同方差或标准化，本文直接用异方差结构；相比 Gu & Koenker (2020) 的纯排序，本文强化了 FDR 控制的约束；相比 HART (2019)，本文将排序度量从检验阈值推广到全局排序。

主要结果： 1. Oracle 规则的最优性：在已知先验 \(G\) 和 \(\mu_i-\sigma_i\) 依赖结构下，按 \(R_i\) 排序并选 top-k 的 Oracle 规则，在控制 FDR/FWER 下最大化修正 Power AMP。直觉：\(R_i\) 是后验最优得分，按其排序等价于最优复合决策。 2. Data-driven 规则的渐近有效性：用非参 EB（如 NEST/NPMLE）估计 \(G\) 和 \(\mu_i\) 的后验，构造 \(\hat{R}_i\)。证明在 \(m \to \infty\) 下，data-driven 规则的 FDR 渐近控制在目标水平 \(\alpha\)，且修正 Power 渐近达到 Oracle 水平（渐近最优性）。 3. 排序的客观性：证明 \(\hat{R}_i\) 的排序避免了高/低方差子群体的过度代表，且在效应量-方差依赖下仍保持一致性。

证明路线与技术技巧： - 整体路线： 1. 定义修正 Power 与排序度量的决策论框架，将排序选择问题转化为约束优化（最大化 AMP，约束 FDR \(\leq \alpha\)）。 2. 在 Oracle 设定下，利用复合决策理论（参考 Robbins 1956, Gu & Koenker 2020），证明按后验得分 \(R_i\) 排序并选 top-k 是最优解。 3. 构造 Data-driven 估计：用 NPMLE (Kiefer-Wolfowitz) 或 NEST (Banerjee 2020) 估计先验 \(G\)，用广义 Tweedie's formula (Efron 2011) 计算后验得分 \(\hat{R}_i\)。 4. 证明 FDR 控制：利用 Genovese & Wasserman (2004) 的 FDP 随机过程框架或类似阈值选择技术，证明 \(\hat{R}_i\) 排序下的 top-k 阈值渐近控制 FDR。 5. 证明渐近最优性：利用 Jiang & Zhang (2009) GMLEB 或 Banerjee (2020) NEST 的收敛率，证明 \(\hat{R}_i\) 收敛到 Oracle \(R_i\)，从而 AMP 收敛到 Oracle AMP。 - 关键跳跃点： - \(\mu_i\) 与 \(\sigma_i\) 的依赖处理：如果 \(\mu_i\) 与 \(\sigma_i\) 独立，Tweedie's formula 直接用边际密度即可；如果依赖，需要联合分布的 NPMLE 或条件 EB 估计。这是本文与 HART (2019) 的关键区别，也是技术难点。作者用非参 EB 联合估计 \(\mu_i\) 与 \(\sigma_i\) 的依赖结构，绕过了参数化假设。 - 修正 Power 的优化：传统 FDR 程序优化的是“拒绝数”，本文优化“重要拒绝数”。需要证明在 FDR 约束下，按 \(R_i\) 排序不仅控制 FDR，还最大化 AMP——这需要将 Neyman-Pearson 类似理推广到复合决策设定。 - 技术技巧点名： - NPMLE (Kiefer-Wolfowitz)：用于估计 \(\mu_i\) 的非参先验 \(G\)，避免参数化误设。 - Tweedie's formula (Efron 2011)：用于从边际密度 \(f(x|\sigma)\) 计算后验均值 \(E[\mu_i | X_i, \sigma_i]\)，无需显式算出 \(G\)。 - FDP 随机过程/阈值选择：用于证明 data-driven 阈值的 FDR 渐近控制。 - 渐近风险收敛：利用 GMLEB/NEST 的收敛率，桥接 Oracle 与 data-driven 规则。

真实例子与应用： - 模拟实验：比较 BH, HART, Storey's q-value, 本文方法。在异方差且 \(\mu_i\) 与 \(\sigma_i\) 相关的设定下，展示本文修正 Power 更高，且选出的单元效应量更大（避免高方差噪声）。 - 真实数据：根据作者之前的工作（HART, NEST），大概率用 Baseball data (Brown 2008) 或 GWAS 数据。本文可能用了类似数据，展示排名的合理性（如不再过度选择高方差噪声球员，而是选择打击率真正高且稳定的球员）。摘要提到"simulated and real data"，具体数据集需核对正文。

🔎 结论是否比证明窄：摘要声称"optimality"，但具体是哪类最优？是 minimax 最优还是 Oracle 最优？根据作者系列工作（HART, NEST）的惯例，证明的通常是“渐近达到 Oracle 规则的风险/Power”，而非全局 minimax 最优。需核对定理陈述：是否在某个先验类（如弱 \(\ell_p\) 球）下证明 minimax 最优，还是仅证明 Oracle 达到性。此外，修正 Power 的定义依赖阈值 \(\delta\)，定理是否对所有 \(\delta\) 成立，还是仅对 \(\delta=0\)（传统 power）成立？需核对。

四、开放问题（点到为止，扎根具体语句）¶

修正 Power 中 \(\delta\) 的客观选择：本文定义修正 Power 为 \(AMP(\delta)\)，但 \(\delta\) 的选择依赖主观判断。如何从数据中客观估计“重要效应”的阈值 \(\delta\)？（扎根在修正 Power 的定义与摘要中"prioritize the selection of important effects"的说法）。
非正态/非参数模型的扩展：本文模型设定为 \(X_i \sim N(\mu_i, \sigma_i^2)\)，排序度量依赖 Tweedie's formula。如果观测非正态（如计数数据、生存数据），Tweedie's formula 不直接适用，如何构造排序度量？（扎根在模型设定与 Tweedie's formula 的引用）。
依赖结构下的 FDR 控制与排序：本文假设 \(X_i\) 独立，但实际数据常有因子结构相关（如 GWAS 中的 LD 结构）。在 \(X_i\) 相关且异方差下，排序度量 \(R_i\) 的最优性与 FDR 控制是否仍成立？（扎根在 Genovese & Wasserman 2004 的独立假设或大规模推断的常见设定）。
计算复杂度与高维方差的估计：Data-driven 算法需估计 \(\mu_i\) 与 \(\sigma_i\) 的联合分布（NPMLE），在 \(m\) 极大时计算成本高。如何用快速算法（如变分 EM）近似 NPMLE，且不损失渐近最优性？（扎根在 NPMLE 的计算瓶颈与 Banerjee 2020 NEST 的实现细节）。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Ranking and selection in large-scale inference of heteroscedastic units¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论