Calibration without labels in multiple testing¶

作者: Adway S. Wadekar, Jake A. Soloff
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.19737

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是大规模多重检验中概率声明（如局部假发现率 lfdr）的校准问题。传统多重检验聚焦于控制全局错误率（FDR），而经验贝叶斯传统则估计每个假设的后验错误概率（lfdr）。校准（calibration）要求当预测器给出数值 \(g(p)\) 时，该数值应等于实际 null 为真的条件概率。校准在气象学、机器学习、博弈论等领域是成熟概念，但在多重检验中几乎未被研究，因为真实标签（null 是否为真）永远不可观测。本文致力于在标签缺失条件下实现校准的评估与后验校准，从而让 lfdr 等概率声明即使在模型误设下也具有可解释性。

发展脉络（history）¶

奠基工作：Robbins (1951, 1956) 开创经验贝叶斯方法，将大规模检验视为资源。Efron 等人 (2001, 2007, 2008) 系统发展了“两群模型”（two-groups model）与局部假发现率 lfdr，将其定义为 \( \text{lfdr}(p)=P\{Y=1\mid p\} \)。同期，Benjamini & Hochberg (1995) 提出 FDR 控制范式，确立多重检验的主流框架。Genovese & Wasserman (2002, 2004) 将多重检验视为标签隐藏的二元分类问题。
主要进展：在校准领域，Brier (1950)、Dawid (1982)、DeGroot & Fienberg (1983)、Gneiting & Raftery (2007) 等建立了预测校准的理论与度量体系。在经验贝叶斯多重检验中，Strimmer (2008) 使用 Grenander 估计量（单调递减密度估计）估计 lfdr；Soloff 等人 (2024) 提出“支持线程序”（support line procedure），并在严格单调假设下证明加权分类风险的渐近最优性。
当前 frontier：Xiang 等人 (2025) 观察到 lfdr 本身是完美校准的预测器，但未讨论近似校准的度量与控制。Panagiotou & Ioannidis (2012) 曾用类似校准思想作为阈值选择的诊断工具，但未系统化。机器学习社区中，Błasiok & Nakkiran (2024) 提出平滑可靠性图，Guo 等人 (2017) 指出现代神经网络常严重失校。但这些工具的迁移受阻于多重检验中标签的不可观测性。
本文的位置：作者证明，通过构造伪标签（pseudo-labels），可以借用监督学习中的全套校准工具来评估和实现多重检验的校准。论文在理论上证明等渗校准（isotonic calibration）与 Grenander 估计量的等价性，并给出 Brier 遗憾的有限样本上界（定理4），且该上界不要求真实 lfdr 单调。在实证中，作者发现心理学/神经科学文献中常用的 q 值（Storey, 2002）严重失校，而本文的等渗校准估计量 \(\widehat{\text{lfdr}}^\uparrow\) 则校准良好。

子线索聚类¶

被引文献可归纳为以下 4 条子线索： 1. 经验贝叶斯多重检验：Robbins 系列；Efron 系列；Xiang, Soloff & Fithian (2025)；Soloff, Xiang & Fithian (2024)。核心是估计 lfdr 及其应用。 2. 校准理论与度量：Brier (1950)；Dawid (1982)；DeGroot & Fienberg (1983)；Gneiting 等人 (2007)；Błasiok & Nakkiran (2024)；Błasiok 等人 (2023)；Okoroafor 等人 (2025)；Qiao & Zhao (2025)；Rossellini 等人 (2025)。核心是定义、估计与优化校准误差。 3. 形状约束密度估计：Grenander (1956)；Groeneboom & Jongbloed (2014)；Samworth (2026)。Grenander 估计量作为等渗 lfdr 的等价物出现。 4. FDR 控制与决策理论：Benjamini & Hochberg (1995)；Storey (2002)；Sun & Cai (2007)；Genovese & Wasserman (2002, 2004)。关注多重检验的决策规则与错误率。

这个方向在追问的核心问题¶

如何在没有标签的条件下定义、度量和实现概率声明的校准？
多重检验中常用的误差测度（如 q 值、p 值）是否校准？若否，如何通过后验校准得到可解释的概率？
当真实 lfdr 不满足单调性时，等渗 lfdr \(\text{lfdr}^\uparrow\) 是否仍可作为合适的校准基准？其估计是否仍一致？
校准误差如何与传统的 FDR 控制、加权分类风险等决策问题联系起来？

⚠️ 作者的 framing（必须明确标注为“作者的说法”）¶

作者将缺口 frame 成：校准是多重检验的关键推断目标，但标签缺失阻碍了标准校准工具的应用；通过构造伪标签，可以“解锁现有工具”（原文：“unlocks existing tools for assessing and performing post-hoc calibration”）。作者将等渗校准经验贝叶斯 lfdr 估计和伪标签回归视为三种等价视角，从而将论文定位为这些方法的统一与理论保证。

被淡化或回避的竞争路线： - 直接估计 lfdr 的方法（如 fdrtool, locfdr）可同样用于校准评估，但作者指出这些方法依赖于模型假设（如零密度均匀、备择密度参数形式），而本文的校准视角“不依赖模型”（原文：“This framing does not assume any model for the alternative densities”）。 - 与交叉验证、数据分裂等标准监督学习策略的接口被放在“未来工作”中，未详细比较。 - 作者未讨论当 null 密度非均匀时（如 z 分数、高维检验统计量）对应的校准策略，仅作为开放问题提出。

明显该被引/该存在、却未出现在 intro 里： - 未提及“多重检验中校准”的早期直接讨论（如 Ioannidis (2008) 的“calibration of credibility”虽在参考文献中，但 intro 未强调其与本文方法的关联）。 - 未引用关于“post-hoc calibration”的通用方法（如 Platt scaling, isotonic regression in ML）在多重检验中的已有应用（可能极少）。 - 未提及“empirical null distribution”（Efron, 2004, 2007）的一些估计方法，这与伪标签依赖均匀 null 假设直接相关。

张力¶

被引文献之间未见明显对立结论。Xiang 等人 (2025) 的“lfdr 完美校准”是本文的起点，Soloff 等人 (2024) 的支持线程序是本文决策风险定理的特例。校准文献内部关于 ECE 估计的争论（如 Błasiok & Nakkiran 2024 vs. 传统直方图）被作者平滑处理：他们同时给出了直方图和平滑可靠性图，并指出两个版本定性一致。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \(i = 1, \dots, m\)：假设编号/实验编号。 - \(Y_i \in \{0,1\}\)：未观测的二元标签，\(Y_i=1\) 表示第 \(i\) 个零假设为真（null true）。注意本文反转了常见记号（通常 \(H_i=0\) 表示 null true），以便类比分类问题。 - \(p_i \in [0,1]\)：可观测的 p 值，来自第 \(i\) 个假设检验。 - \(\pi_{\text{null}} = P\{Y_i=1\}\)：总体中 null 所占比例（先验概率）。 - \(f(t)\)、\(F(t)\)：p 值的边际密度和边际 CDF。 - \(\text{lfdr}(p) = P\{Y=1\mid p\}\)：局部假发现率，即回归函数。 - \(g: [0,1] \to [0,1]\)：预测器（calibrator），可任意函数，本文主要限制为单调非降类 \(\mathcal{G}^\uparrow\)。 - \(\mathcal{G}^\uparrow = \{g: [0,1]\to[0,1] \mid g \text{ 非降}\}\)：单调预测器类。 - \(\text{lfdr}^\uparrow\)：等渗 lfdr，即 \(\text{lfdr}\) 在 \(L^2(F)\) 下到 \(\mathcal{G}^\uparrow\) 的投影。 - \(p_{(1)} \le \cdots \le p_{(m)}\)：有序 p 值，\(p_{(0)} = 0\)。 - \(R_i\)：\(p_i\) 的秩，即 \(p_i = p_{(R_i)}\)。 - \(\widehat{\pi}_{\text{null}}\)：\(\pi_{\text{null}}\) 的估计（通常使用 Storey 估计量）。 - \(\widetilde{Y}_i = m \widehat{\pi}_{\text{null}} (p_{(R_i)} - p_{(R_i-1)})\)：伪标签，由 p 值间距构造，可观测。 - \(\widehat{\text{lfdr}}^\uparrow\)：本文提出的等渗校准估计量，定义见式 (13)。 - \(F_m(t) = \frac{1}{m} \sum_{i=1}^m \mathbf{1}\{p_i \le t\}\)：经验 CDF。 - \(\text{BS}(g) = \mathbb{E}[(Y - g(p))^2]\)：Brier 分数。 - \(\text{Reg}_{\mathcal{G}^\uparrow}(g) = \text{BS}(g) - \inf_{h \in \mathcal{G}^\uparrow} \text{BS}(h)\)：Brier 遗憾。 - \(R_\alpha(g)\)：加权分类风险，见式 (14)。

模型：假设数据服从 i.i.d. 两群模型（two-groups model）：

\[(p_i, Y_i) \overset{\text{i.i.d.}}{\sim}, \quad p_i \mid Y_i=1 \sim \text{Unif}([0,1]), \quad Y_i \sim \text{Bernoulli}(\pi_{\text{null}}).\]

备择密度 \(f_1(p) = f(p \mid Y=0)\) 无任何参数形式限制，仅要求边际密度 \(f\) 连续且在支撑上为正（以便 Pyke 定理适用）。

可观测数据：研究者仅观测到 p 值向量 \((p_1, \dots, p_m)\)。标签 \(Y_i\) 永远不可观测。伪标签 \(\widetilde{Y}_i\) 完全由 p 值（及 \(\widehat{\pi}_{\text{null}}\)）计算得到，因此也是可观测的。

想要但观测不到的：真实标签 \(Y_i\)、真实 lfdr、真实 null 比例 \(\pi_{\text{null}}\)、真实边际 CDF \(F\)。

第二步：讲最小内核¶

剥去所有技术外衣，支撑整篇论文的最小内核是以下观察：

在 i.i.d. 两群模型下，有序 p 值的间距 \(p_{(r)} - p_{(r-1)}\) 经适当缩放后，其条件期望趋近于 \(\text{lfdr}(p_{(r)})\)，因而可作为回归的“伪响应”。

具体地，固定一个观测到的有序 p 值 \(p_{(r)}\)。令 \(\Delta_r = p_{(r)} - p_{(r-1)}\)。设 \(\widehat{\pi}_{\text{null}} \approx \pi_{\text{null}}\)。Pyke (1965) 定理指出，若 \(r/m \to \tau\)，则 \(m f(p_{(r)}) \Delta_r \xrightarrow{d} \text{Exp}(1)\)，且 \(f(p_{(r)}) \approx \pi_{\text{null}} / \text{lfdr}(p_{(r)})\)（因为 \(\text{lfdr}(p) = \pi_{\text{null}} / f(p)\)）。因此

\[\widetilde{Y}_r := m \widehat{\pi}_{\text{null}} \Delta_r \approx \text{lfdr}(p_{(r)}) \cdot E_r, \quad \mathbb{E}[E_r \mid p_{(r)}] \approx 1,\]

从而

\[\mathbb{E}[\widetilde{Y}_r \mid p_{(r)}] \approx \text{lfdr}(p_{(r)}).\]

这个最小内核使得我们可以在只有 p 值的情况下，假装 \(\widetilde{Y}_i\) 是 \(Y_i\) 的替代品，运行标准的监督校准方法。例如： - 评估校准：将 p 值按某个预测器 \(g(p)\) 分箱，计算每箱内 \(\widetilde{Y}_i\) 的平均值作为 null 占比的估计，与箱内平均得分比较，得到可靠性图。 - 后验校准：对 \((\widetilde{Y}_i, p_i)\) 做等渗回归（isotonic regression of \(\widetilde{Y}\) on \(p\)），得到单调非降的校准器 \(\widehat{\text{lfdr}}^\uparrow\)。

为什么这是最小内核：去掉一切为一般性服务的技术假设（如备择密度光滑性、\(\pi_{\text{null}}\) 的估计方法、Brier 遗憾的有限样本界等），剩下的就是“通过间距构造伪标签、将 lfdr 视为回归目标”这一核心想法。所有后续技术结果（定理 1-5）都是在这个想法上叠加等渗回归、Brier 分数、经验 CDF 等标准工具得到的。

三、这篇论文做了什么（重心）¶

三句话¶

研究问题：在大规模多重检验中，如何在真实标签（null 是否成立）从未被观测的条件下，评估概率声明（如 lfdr、q 值）的校准程度，并对其进行后验校准。
核心工具/方法：基于有序 p 值间距构造伪标签 \(\widetilde{Y}_i = m \widehat{\pi}_{\text{null}} (p_{(R_i)} - p_{(R_i-1)})\)，将多重检验转化为一个可用监督校准工具的“伪回归”问题；提出等渗校准估计量 \(\widehat{\text{lfdr}}^\uparrow\)，并证明其与 Grenander 估计量、伪标签 MLE 三者等价。
主要结论：\(\widehat{\text{lfdr}}^\uparrow\) 的 Brier 遗憾满足有限样本上界 \(\sqrt{2\pi/m} + 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|\)（定理 4），且其诱导的阈值决策规则（支持线程序）的加权分类风险遗憾也满足类似上界（定理 5）；在心理学/神经科学大规模元分析数据中，q 值和 p 值严重失校，而 \(\widehat{\text{lfdr}}^\uparrow\) 校准良好。

关键设定与假设¶

两群模型（i.i.d.）：\((p_i, Y_i)\) 独立同分布，且 \(p_i \mid Y_i =1 \sim \text{Unif}([0,1])\)。这是伪标签构造的理论基础（null 密度均匀）。
\(\pi_{\text{null}}\) 可估计：论文假设存在某个估计量 \(\widehat{\pi}_{\text{null}} \in (0,1]\)，且在 \(L^1\) 意义下收敛到 \(\pi_{\text{null}}\)。Storey 估计量是一自然选择。
p 值边际 CDF 一致收敛：对于定理 4、5，作者指出 i.i.d. 假设可放宽为经验 CDF \(F_m\) 一致收敛到 \(F\)（如通过 DKW 不等式确保），这是证明中唯一使用独立性之处。
\(g \in \mathcal{G}^\uparrow\)（单调预测器）：限制预测器为非降函数，这是“更小 p 值代表更强证据”的自然编码。注意论文并不假设真实 lfdr 单调（定理 4 证明中未使用该条件）。
Brier 分数作为主要度量：论文选择 Brier 分数（均方误差）作为校准与锐度的综合度量，其优势在于可分解为校准误差 + 锐度（式 5），且通过 Schervish 表示与加权分类风险联系。

相比已有文献： - Soloff 等人 (2024) 假设真实 lfdr 单调以证明支持线程序的最优性；本文定理 4 不要求此假设，因此放宽了条件。 - Strimmer (2008) 使用 Grenander 估计量但未给出校准意义上的有限样本保证；本文提供 Brier 遗憾界。 - 校准文献（如 Błasiok & Nakkiran 2024）依赖真实标签；本文通过伪标签将工具迁移至多重检验。

主要结果¶

定理 1：等渗 lfdr \(\text{lfdr}^\uparrow\) 是完美校准的。证明基于 Brunk (1965) 的自洽性。

定理 4（核心理论结果）：

\[\mathbb{E}\left[ \text{Reg}_{\mathcal{G}^\uparrow}(\widehat{\text{lfdr}}^\uparrow) \right] \le \sqrt{\frac{2\pi}{m}} + 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|.\]

- 直觉：随着检验数量 \(m\) 增大，\(\widehat{\text{lfdr}}^\uparrow\) 的 Brier 分数收敛到单调预测器可达到的最优值。上界由两部分组成：估计边际 CDF 的误差（通过 DKW 不等式控制）和估计 \(\pi_{\text{null}}\) 的误差。即便真实 lfdr 不单调，上界同样成立，因为 \(\text{lfdr}^\uparrow\) 本身是完美校准的，而 \(\widehat{\text{lfdr}}^\uparrow\) 收敛到 \(\text{lfdr}^\uparrow\)（而非 lfdr）。 - 必要条件：\(p_i\) 的分布使得 DKW 不等式适用（如 i.i.d.，或至少经验 CDF 一致收敛）；\(\widehat{\pi}_{\text{null}}\) 是一致估计（或至少是 \(L^1\) 相合）。例如保守地取 \(\widehat{\pi}_{\text{null}}=1\) 会引入 \(2(1-\pi_{\text{null}})\) 的偏差，这在稀疏情形下可接受。 - 解决的技术难点：伪标签 \(\widetilde{Y}_i\) 既不独立也不同分布（因间距之和为 1，存在全局约束），无法直接应用标准回归的遗憾界。绕过办法：证明 \(\widehat{\text{lfdr}}^\uparrow\) 的优化目标可以重写为仅依赖经验 CDF \(F_m\) 的形式（引理 6），从而将问题转化为函数估计的遗憾界（empirical process 标准技巧）。

定理 5（决策风险遗憾界）：

\[\mathbb{E}[R_\alpha(\widehat{\text{lfdr}}^\uparrow)] - \inf_{g \in \mathcal{G}^\uparrow} R_\alpha(g) \le 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}| + 2\alpha \sqrt{\frac{\pi}{2m}}.\]

- 相比于定理 4，\(\alpha\) 乘以 \(\sqrt{\pi/(2m)}\)，意味着当误判代价 \(\alpha\)（假阴性相对成本）很小时，校准的遗憾界更紧。 - 与 Soloff 等人 (2024) 的关系：后者给出支持线程序的无偏渐近最优性（假设 lfdr 单调），本文给出有限样本上界且不要求单调性，但遗憾界比 \(\sqrt{2\pi/m}\) 更慢（Soloff 结果是 \(O(1/m)\) 但仅渐近）。

模拟实验（Section 5.1）： - 比较 p 值、q 值、\(\widehat{\text{lfdr}}^\uparrow\) 的 Brier 遗憾（500 次 Monte Carlo，\(m \in \{10^2, 10^3, 10^4, 5 \times 10^4\}\)，\(\pi_{\text{null}} \in \{0.5,0.75,0.9\}\)，备择 Beta 参数 \(\alpha \in \{0.5,0.95,1.5\}\)，\(\beta=2.3\)）。 - 结果：\(\widehat{\text{lfdr}}^\uparrow\) 的遗憾随 \(m\) 增长显著下降（估计速率约为 \(m^{-0.6}\) 左右，见表 1），p 值遗憾平坦（不依赖 \(m\)），q 值遗憾一般大于 \(\widehat{\text{lfdr}}^\uparrow\) 且在大多数场景下不趋近 0。当真实 lfdr 非单调时（\(\alpha=1.5\)），\(\widehat{\text{lfdr}}^\uparrow\) 仍然收敛，验证了定理 4 的稳健性。

真实例子（Section 5.2）： - 数据：Szucs & Ioannidis (2017) 收集的 \(m \approx 27,000\) 个 t 统计量和自由度，来自 18 种认知神经科学与实验心理学期刊（2011-2014）。 - 方法：使用 Storey 估计 \(\widehat{\pi}_{\text{null}}\)，将数据分裂为训练集和测试集，利用伪标签构造可靠性图（直方图分箱+平滑核版本）。 - 结果：p 值和 q 值的点严重偏离对角线（例如，在平均得分约 0.2 的箱中，估计 null 占比近 0.8），表明严重失校。而 \(\widehat{\text{lfdr}}^\uparrow\) 的点接近对角线。平滑可靠性图（附录 B.2）展示相同定性模式。 - 说明意图：验证校准工具的可迁移性，并指出现有标准方法（q 值）在实际元分析中的巨大校准误差，突显后验校准的实用价值。

证明路线与技术技巧¶

定理 4 的证明路线（从论文附录 A.2 复原）： 1. 重写优化目标（引理 6）：证明 \(\widehat{\text{lfdr}}^\uparrow\) 是如下问题的解：

\[\min_{g \in \mathcal{G}^\uparrow} \left\{ \int g^2 dF_m - 2 \widehat{\pi}_{\text{null}} \int g dp \right\}.\]

关键是证明该目标（忽略常数）等价于均方误差 \(\frac{1}{m} \sum_i (g(p_i) - \widetilde{Y}_i)^2\)。推导中利用了伪标签的求和性质 \(\sum_{r=1}^m \widetilde{Y}_r = \widehat{\pi}_{\text{null}}\) 以及 Riemann-Stieltjes 积分近似。 2. 分解 Brier 遗憾：将 \(\text{Reg}_{\mathcal{G}^\uparrow}(\widehat{\text{lfdr}}^\uparrow)\) 分解为三项之和： - 第一项：\(\int \widehat{\text{lfdr}}^\uparrow^2 dF_m - \int \text{lfdr}^\uparrow^2 dF_m + 2\widehat{\pi}_{\text{null}}(\int \text{lfdr}^\uparrow dp - \int \widehat{\text{lfdr}}^\uparrow dp)\)。由引理 6 的极小性，该项 ≤ 0。 - 第二项：\(\int \widehat{\text{lfdr}}^\uparrow^2 d(F - F_m) - \int \text{lfdr}^\uparrow^2 d(F - F_m)\)。 - 第三项：\(2(\pi_{\text{null}} - \widehat{\pi}_{\text{null}})(\int \text{lfdr}^\uparrow dp - \int \widehat{\text{lfdr}}^\uparrow dp)\)。 3. 控制第二项：由于 \(g^2 \in [0,1]\)，分部积分得 \(\left| \int g^2 d(F_m - F) \right| \le \| F_m - F \|_\infty\)。利用 Dvoretzky–Kiefer–Wolfowitz (DKW) 不等式 \(P\{ \|F_m - F\|_\infty \ge t \} \le 2e^{-2mt^2}\)，再积分尾部得 \(\mathbb{E}\|F_m - F\|_\infty \le \sqrt{\pi/(2m)}\)。 4. 控制第三项：由于 \(0 \le \int g dp \le 1\)，该项绝对值 ≤ \(2|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|\)。 5. 合成：整体遗憾 ≤ \(2 \sqrt{\pi/(2m)} + 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|\)。

关键跳跃点： - 从伪标签回归到仅依赖 \(F_m\) 的目标表达（引理 6）。这是整个证明最巧妙的一步：它避开了伪标签的相依性结构，将遗憾界化归为经典的经验过程问题。 - 利用单调性将积分差转化为 \(\|F_m - F\|_\infty\) 乘以全变差。具体地，对任意 \(g \in \mathcal{G}^\uparrow\)，\(\int g^2 d(F_m - F) = \int (F_m - F) d(g^2)\)，且 \(d(g^2) \le 2g dg \le 2 dg\)，从而 \(\left| \int g^2 d(F_m - F) \right| \le \|F_m - F\|_\infty \int d(g^2) \le \|F_m - F\|_\infty\)。

技术技巧点名： - DKW 不等式（Massart, 1990）：用于控制 \(\|F_m - F\|_\infty\) 的期望。直接给出 \(O(1/\sqrt{m})\) 界。 - Bregman 散度/等渗回归的普适性（Robertson 等人, 1988）：用于证明伪标签回归（平方误差）与伪标签 MLE（Itakura-Saito 距离）以及 Grenander 估计量的等价性（定理 3）。这是将三种观点统合起来的理论桥梁。 - 重写目标函数为积分形式：利用 Riemann 和近似，将离散求和转化为 Lebesgue-Stieltjes 积分，从而与经典经验过程对接。

定理 5 的证明沿同一路线，只需将分类风险分解中的常数部分抵消，然后对 t 取上界，得到 \(\le 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}| + 2\alpha \mathbb{E}\|F_m - F\|_\infty\)。

🔎 结论是否比证明窄¶

定理 4 的陈述假设 i.i.d. 两群模型，但证明中仅用到“经验 CDF \(F_m\) 一致收敛到 \(F\)”和“\(\widehat{\pi}_{\text{null}}\) 是 \(L^1\)-相合的”。作者在注释中已指出“independence is not strictly necessary”，但未给出非独立情形的具体条件（如 α-混合序列是否仍适用 DKW）。因此结论在形式上比证明实际需要的条件窄。
定理 5 类似，要求 i.i.d. 但实际只需一致收敛。
论文未讨论当 null 密度非均匀（如 z 分数）时的校准问题，但结论中明确声明“p-values”是核心输入。因此在伪标签构造上，结论严格限于 null 均匀下界。

四、开放问题（点到为止，扎根具体语句）¶

非均匀 null 密度下的伪标签构造：本文所有理论依赖 null 下 p 值 Uniform[0,1] 的假设。作者写道：“We pose it as an open question for how to construct similar pseudo-labels when the class-conditional null density is not uniform, for example with z-scores or high-dimensional test statistics.”（Section 6）。这直接对应研究者感兴趣的假设检验与高维统计。
经验零分布与校准的衔接：当零分布未知或受估计影响（如基因组学中常见的基因间相关性），伪标签的构造需融入经验零分布（Efron, 2004）的估计。作者暗示：“connections to estimating the empirical null distribution may be explored”（Section 6）。这是一个未开发的交叉点。
多类校准（multi-class assignments）：作者指出“there are other connections to supervised learning that can be explored, including multi-class assignments”（Section 6）。在多重检验中，可能涉及多类假设（如三种基因表达模式），此时标签是多元的，目前的伪标签构造仅适用于二分类。
交叉验证与样本分裂的接口：论文在评估校准时间测试集/训练集分裂，但未深入讨论交叉验证在多重检验中的应用。作者将其列为未来方向：“it is of interest to see how approaches commonly deployed in supervised learning such as cross-validation interface with our methods”（Section 6）。对于有数据分裂限制的应用场景（如小 \(m\)），这可能是实质性的扩展点。
更紧的遗憾界：定理 4 的界为 \(O(1/\sqrt{m})\)，远慢于 Soloff 等人 (2024) 在单调 lfdr 假设下的渐近 \(O(1/m)\)。能否在非单调情形下得到更优的收敛速率（如 \(O(1/m)\) 但依赖某些关于 lfdr 的 Hölder 条件）？文中未讨论，但研究者擅长 minimax 界，可直接切入。

Maintained by 陈星宇 · Homepage · Source on GitHub