跳转至

Calibration without labels in multiple testing

作者: Adway S. Wadekar, Jake A. Soloff
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.19737


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是大规模多重检验中概率声明(如局部假发现率 lfdr)的校准问题。传统多重检验聚焦于控制全局错误率(FDR),而经验贝叶斯传统则估计每个假设的后验错误概率(lfdr)。校准(calibration)要求当预测器给出数值 \(g(p)\) 时,该数值应等于实际 null 为真的条件概率。校准在气象学、机器学习、博弈论等领域是成熟概念,但在多重检验中几乎未被研究,因为真实标签(null 是否为真)永远不可观测。本文致力于在标签缺失条件下实现校准的评估与后验校准,从而让 lfdr 等概率声明即使在模型误设下也具有可解释性。

发展脉络(history)

  • 奠基工作:Robbins (1951, 1956) 开创经验贝叶斯方法,将大规模检验视为资源。Efron 等人 (2001, 2007, 2008) 系统发展了“两群模型”(two-groups model)与局部假发现率 lfdr,将其定义为 \( \text{lfdr}(p)=P\{Y=1\mid p\} \)。同期,Benjamini & Hochberg (1995) 提出 FDR 控制范式,确立多重检验的主流框架。Genovese & Wasserman (2002, 2004) 将多重检验视为标签隐藏的二元分类问题。
  • 主要进展:在校准领域,Brier (1950)、Dawid (1982)、DeGroot & Fienberg (1983)、Gneiting & Raftery (2007) 等建立了预测校准的理论与度量体系。在经验贝叶斯多重检验中,Strimmer (2008) 使用 Grenander 估计量(单调递减密度估计)估计 lfdr;Soloff 等人 (2024) 提出“支持线程序”(support line procedure),并在严格单调假设下证明加权分类风险的渐近最优性。
  • 当前 frontier:Xiang 等人 (2025) 观察到 lfdr 本身是完美校准的预测器,但未讨论近似校准的度量与控制。Panagiotou & Ioannidis (2012) 曾用类似校准思想作为阈值选择的诊断工具,但未系统化。机器学习社区中,Błasiok & Nakkiran (2024) 提出平滑可靠性图,Guo 等人 (2017) 指出现代神经网络常严重失校。但这些工具的迁移受阻于多重检验中标签的不可观测性。
  • 本文的位置:作者证明,通过构造伪标签(pseudo-labels),可以借用监督学习中的全套校准工具来评估和实现多重检验的校准。论文在理论上证明等渗校准(isotonic calibration)与 Grenander 估计量的等价性,并给出 Brier 遗憾的有限样本上界(定理4),且该上界不要求真实 lfdr 单调。在实证中,作者发现心理学/神经科学文献中常用的 q 值(Storey, 2002)严重失校,而本文的等渗校准估计量 \(\widehat{\text{lfdr}}^\uparrow\) 则校准良好。

子线索聚类

被引文献可归纳为以下 4 条子线索: 1. 经验贝叶斯多重检验:Robbins 系列;Efron 系列;Xiang, Soloff & Fithian (2025);Soloff, Xiang & Fithian (2024)。核心是估计 lfdr 及其应用。 2. 校准理论与度量:Brier (1950);Dawid (1982);DeGroot & Fienberg (1983);Gneiting 等人 (2007);Błasiok & Nakkiran (2024);Błasiok 等人 (2023);Okoroafor 等人 (2025);Qiao & Zhao (2025);Rossellini 等人 (2025)。核心是定义、估计与优化校准误差。 3. 形状约束密度估计:Grenander (1956);Groeneboom & Jongbloed (2014);Samworth (2026)。Grenander 估计量作为等渗 lfdr 的等价物出现。 4. FDR 控制与决策理论:Benjamini & Hochberg (1995);Storey (2002);Sun & Cai (2007);Genovese & Wasserman (2002, 2004)。关注多重检验的决策规则与错误率。

这个方向在追问的核心问题

  1. 如何在没有标签的条件下定义、度量和实现概率声明的校准?
  2. 多重检验中常用的误差测度(如 q 值、p 值)是否校准?若否,如何通过后验校准得到可解释的概率?
  3. 当真实 lfdr 不满足单调性时,等渗 lfdr \(\text{lfdr}^\uparrow\) 是否仍可作为合适的校准基准?其估计是否仍一致?
  4. 校准误差如何与传统的 FDR 控制、加权分类风险等决策问题联系起来?

⚠️ 作者的 framing(必须明确标注为“作者的说法”)

作者将缺口 frame 成:校准是多重检验的关键推断目标,但标签缺失阻碍了标准校准工具的应用;通过构造伪标签,可以“解锁现有工具”(原文:“unlocks existing tools for assessing and performing post-hoc calibration”)。作者将等渗校准经验贝叶斯 lfdr 估计和伪标签回归视为三种等价视角,从而将论文定位为这些方法的统一与理论保证。

被淡化或回避的竞争路线: - 直接估计 lfdr 的方法(如 fdrtool, locfdr)可同样用于校准评估,但作者指出这些方法依赖于模型假设(如零密度均匀、备择密度参数形式),而本文的校准视角“不依赖模型”(原文:“This framing does not assume any model for the alternative densities”)。 - 与交叉验证、数据分裂等标准监督学习策略的接口被放在“未来工作”中,未详细比较。 - 作者未讨论当 null 密度非均匀时(如 z 分数、高维检验统计量)对应的校准策略,仅作为开放问题提出。

明显该被引/该存在、却未出现在 intro 里: - 未提及“多重检验中校准”的早期直接讨论(如 Ioannidis (2008) 的“calibration of credibility”虽在参考文献中,但 intro 未强调其与本文方法的关联)。 - 未引用关于“post-hoc calibration”的通用方法(如 Platt scaling, isotonic regression in ML)在多重检验中的已有应用(可能极少)。 - 未提及“empirical null distribution”(Efron, 2004, 2007)的一些估计方法,这与伪标签依赖均匀 null 假设直接相关。

张力

被引文献之间未见明显对立结论。Xiang 等人 (2025) 的“lfdr 完美校准”是本文的起点,Soloff 等人 (2024) 的支持线程序是本文决策风险定理的特例。校准文献内部关于 ECE 估计的争论(如 Błasiok & Nakkiran 2024 vs. 传统直方图)被作者平滑处理:他们同时给出了直方图和平滑可靠性图,并指出两个版本定性一致。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: - \(i = 1, \dots, m\):假设编号/实验编号。 - \(Y_i \in \{0,1\}\):未观测的二元标签,\(Y_i=1\) 表示第 \(i\) 个零假设为真(null true)。注意本文反转了常见记号(通常 \(H_i=0\) 表示 null true),以便类比分类问题。 - \(p_i \in [0,1]\):可观测的 p 值,来自第 \(i\) 个假设检验。 - \(\pi_{\text{null}} = P\{Y_i=1\}\):总体中 null 所占比例(先验概率)。 - \(f(t)\)\(F(t)\):p 值的边际密度和边际 CDF。 - \(\text{lfdr}(p) = P\{Y=1\mid p\}\):局部假发现率,即回归函数。 - \(g: [0,1] \to [0,1]\):预测器(calibrator),可任意函数,本文主要限制为单调非降类 \(\mathcal{G}^\uparrow\)。 - \(\mathcal{G}^\uparrow = \{g: [0,1]\to[0,1] \mid g \text{ 非降}\}\):单调预测器类。 - \(\text{lfdr}^\uparrow\):等渗 lfdr,即 \(\text{lfdr}\)\(L^2(F)\) 下到 \(\mathcal{G}^\uparrow\) 的投影。 - \(p_{(1)} \le \cdots \le p_{(m)}\):有序 p 值,\(p_{(0)} = 0\)。 - \(R_i\)\(p_i\) 的秩,即 \(p_i = p_{(R_i)}\)。 - \(\widehat{\pi}_{\text{null}}\)\(\pi_{\text{null}}\) 的估计(通常使用 Storey 估计量)。 - \(\widetilde{Y}_i = m \widehat{\pi}_{\text{null}} (p_{(R_i)} - p_{(R_i-1)})\):伪标签,由 p 值间距构造,可观测。 - \(\widehat{\text{lfdr}}^\uparrow\):本文提出的等渗校准估计量,定义见式 (13)。 - \(F_m(t) = \frac{1}{m} \sum_{i=1}^m \mathbf{1}\{p_i \le t\}\):经验 CDF。 - \(\text{BS}(g) = \mathbb{E}[(Y - g(p))^2]\):Brier 分数。 - \(\text{Reg}_{\mathcal{G}^\uparrow}(g) = \text{BS}(g) - \inf_{h \in \mathcal{G}^\uparrow} \text{BS}(h)\):Brier 遗憾。 - \(R_\alpha(g)\):加权分类风险,见式 (14)。

模型:假设数据服从 i.i.d. 两群模型(two-groups model):

\[(p_i, Y_i) \overset{\text{i.i.d.}}{\sim}, \quad p_i \mid Y_i=1 \sim \text{Unif}([0,1]), \quad Y_i \sim \text{Bernoulli}(\pi_{\text{null}}).\]
备择密度 \(f_1(p) = f(p \mid Y=0)\) 无任何参数形式限制,仅要求边际密度 \(f\) 连续且在支撑上为正(以便 Pyke 定理适用)。

可观测数据:研究者仅观测到 p 值向量 \((p_1, \dots, p_m)\)。标签 \(Y_i\) 永远不可观测。伪标签 \(\widetilde{Y}_i\) 完全由 p 值(及 \(\widehat{\pi}_{\text{null}}\))计算得到,因此也是可观测的。

想要但观测不到的:真实标签 \(Y_i\)、真实 lfdr、真实 null 比例 \(\pi_{\text{null}}\)、真实边际 CDF \(F\)

第二步:讲最小内核

剥去所有技术外衣,支撑整篇论文的最小内核是以下观察:

在 i.i.d. 两群模型下,有序 p 值的间距 \(p_{(r)} - p_{(r-1)}\) 经适当缩放后,其条件期望趋近于 \(\text{lfdr}(p_{(r)})\),因而可作为回归的“伪响应”。

具体地,固定一个观测到的有序 p 值 \(p_{(r)}\)。令 \(\Delta_r = p_{(r)} - p_{(r-1)}\)。设 \(\widehat{\pi}_{\text{null}} \approx \pi_{\text{null}}\)。Pyke (1965) 定理指出,若 \(r/m \to \tau\),则 \(m f(p_{(r)}) \Delta_r \xrightarrow{d} \text{Exp}(1)\),且 \(f(p_{(r)}) \approx \pi_{\text{null}} / \text{lfdr}(p_{(r)})\)(因为 \(\text{lfdr}(p) = \pi_{\text{null}} / f(p)\))。因此

\[\widetilde{Y}_r := m \widehat{\pi}_{\text{null}} \Delta_r \approx \text{lfdr}(p_{(r)}) \cdot E_r, \quad \mathbb{E}[E_r \mid p_{(r)}] \approx 1,\]
从而
\[\mathbb{E}[\widetilde{Y}_r \mid p_{(r)}] \approx \text{lfdr}(p_{(r)}).\]

这个最小内核使得我们可以在只有 p 值的情况下,假装 \(\widetilde{Y}_i\)\(Y_i\) 的替代品,运行标准的监督校准方法。例如: - 评估校准:将 p 值按某个预测器 \(g(p)\) 分箱,计算每箱内 \(\widetilde{Y}_i\) 的平均值作为 null 占比的估计,与箱内平均得分比较,得到可靠性图。 - 后验校准:对 \((\widetilde{Y}_i, p_i)\) 做等渗回归(isotonic regression of \(\widetilde{Y}\) on \(p\)),得到单调非降的校准器 \(\widehat{\text{lfdr}}^\uparrow\)

为什么这是最小内核:去掉一切为一般性服务的技术假设(如备择密度光滑性、\(\pi_{\text{null}}\) 的估计方法、Brier 遗憾的有限样本界等),剩下的就是“通过间距构造伪标签、将 lfdr 视为回归目标”这一核心想法。所有后续技术结果(定理 1-5)都是在这个想法上叠加等渗回归、Brier 分数、经验 CDF 等标准工具得到的。


三、这篇论文做了什么(重心)

三句话

  1. 研究问题:在大规模多重检验中,如何在真实标签(null 是否成立)从未被观测的条件下,评估概率声明(如 lfdr、q 值)的校准程度,并对其进行后验校准。
  2. 核心工具/方法:基于有序 p 值间距构造伪标签 \(\widetilde{Y}_i = m \widehat{\pi}_{\text{null}} (p_{(R_i)} - p_{(R_i-1)})\),将多重检验转化为一个可用监督校准工具的“伪回归”问题;提出等渗校准估计量 \(\widehat{\text{lfdr}}^\uparrow\),并证明其与 Grenander 估计量、伪标签 MLE 三者等价。
  3. 主要结论\(\widehat{\text{lfdr}}^\uparrow\) 的 Brier 遗憾满足有限样本上界 \(\sqrt{2\pi/m} + 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|\)(定理 4),且其诱导的阈值决策规则(支持线程序)的加权分类风险遗憾也满足类似上界(定理 5);在心理学/神经科学大规模元分析数据中,q 值和 p 值严重失校,而 \(\widehat{\text{lfdr}}^\uparrow\) 校准良好。

关键设定与假设

  • 两群模型(i.i.d.)\((p_i, Y_i)\) 独立同分布,且 \(p_i \mid Y_i =1 \sim \text{Unif}([0,1])\)。这是伪标签构造的理论基础(null 密度均匀)。
  • \(\pi_{\text{null}}\) 可估计:论文假设存在某个估计量 \(\widehat{\pi}_{\text{null}} \in (0,1]\),且在 \(L^1\) 意义下收敛到 \(\pi_{\text{null}}\)。Storey 估计量是一自然选择。
  • p 值边际 CDF 一致收敛:对于定理 4、5,作者指出 i.i.d. 假设可放宽为经验 CDF \(F_m\) 一致收敛到 \(F\)(如通过 DKW 不等式确保),这是证明中唯一使用独立性之处。
  • \(g \in \mathcal{G}^\uparrow\)(单调预测器):限制预测器为非降函数,这是“更小 p 值代表更强证据”的自然编码。注意论文并不假设真实 lfdr 单调(定理 4 证明中未使用该条件)。
  • Brier 分数作为主要度量:论文选择 Brier 分数(均方误差)作为校准与锐度的综合度量,其优势在于可分解为校准误差 + 锐度(式 5),且通过 Schervish 表示与加权分类风险联系。

相比已有文献: - Soloff 等人 (2024) 假设真实 lfdr 单调以证明支持线程序的最优性;本文定理 4 不要求此假设,因此放宽了条件。 - Strimmer (2008) 使用 Grenander 估计量但未给出校准意义上的有限样本保证;本文提供 Brier 遗憾界。 - 校准文献(如 Błasiok & Nakkiran 2024)依赖真实标签;本文通过伪标签将工具迁移至多重检验。

主要结果

定理 1:等渗 lfdr \(\text{lfdr}^\uparrow\) 是完美校准的。证明基于 Brunk (1965) 的自洽性。

定理 4(核心理论结果)

\[\mathbb{E}\left[ \text{Reg}_{\mathcal{G}^\uparrow}(\widehat{\text{lfdr}}^\uparrow) \right] \le \sqrt{\frac{2\pi}{m}} + 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|.\]
- 直觉:随着检验数量 \(m\) 增大,\(\widehat{\text{lfdr}}^\uparrow\) 的 Brier 分数收敛到单调预测器可达到的最优值。上界由两部分组成:估计边际 CDF 的误差(通过 DKW 不等式控制)和估计 \(\pi_{\text{null}}\) 的误差。即便真实 lfdr 不单调,上界同样成立,因为 \(\text{lfdr}^\uparrow\) 本身是完美校准的,而 \(\widehat{\text{lfdr}}^\uparrow\) 收敛到 \(\text{lfdr}^\uparrow\)(而非 lfdr)。 - 必要条件\(p_i\) 的分布使得 DKW 不等式适用(如 i.i.d.,或至少经验 CDF 一致收敛);\(\widehat{\pi}_{\text{null}}\) 是一致估计(或至少是 \(L^1\) 相合)。例如保守地取 \(\widehat{\pi}_{\text{null}}=1\) 会引入 \(2(1-\pi_{\text{null}})\) 的偏差,这在稀疏情形下可接受。 - 解决的技术难点:伪标签 \(\widetilde{Y}_i\) 既不独立也不同分布(因间距之和为 1,存在全局约束),无法直接应用标准回归的遗憾界。绕过办法:证明 \(\widehat{\text{lfdr}}^\uparrow\) 的优化目标可以重写为仅依赖经验 CDF \(F_m\) 的形式(引理 6),从而将问题转化为函数估计的遗憾界(empirical process 标准技巧)。

定理 5(决策风险遗憾界)

\[\mathbb{E}[R_\alpha(\widehat{\text{lfdr}}^\uparrow)] - \inf_{g \in \mathcal{G}^\uparrow} R_\alpha(g) \le 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}| + 2\alpha \sqrt{\frac{\pi}{2m}}.\]
- 相比于定理 4,\(\alpha\) 乘以 \(\sqrt{\pi/(2m)}\),意味着当误判代价 \(\alpha\)(假阴性相对成本)很小时,校准的遗憾界更紧。 - 与 Soloff 等人 (2024) 的关系:后者给出支持线程序的无偏渐近最优性(假设 lfdr 单调),本文给出有限样本上界且不要求单调性,但遗憾界比 \(\sqrt{2\pi/m}\) 更慢(Soloff 结果是 \(O(1/m)\) 但仅渐近)。

模拟实验(Section 5.1): - 比较 p 值、q 值、\(\widehat{\text{lfdr}}^\uparrow\) 的 Brier 遗憾(500 次 Monte Carlo,\(m \in \{10^2, 10^3, 10^4, 5 \times 10^4\}\)\(\pi_{\text{null}} \in \{0.5,0.75,0.9\}\),备择 Beta 参数 \(\alpha \in \{0.5,0.95,1.5\}\)\(\beta=2.3\))。 - 结果:\(\widehat{\text{lfdr}}^\uparrow\) 的遗憾随 \(m\) 增长显著下降(估计速率约为 \(m^{-0.6}\) 左右,见表 1),p 值遗憾平坦(不依赖 \(m\)),q 值遗憾一般大于 \(\widehat{\text{lfdr}}^\uparrow\) 且在大多数场景下不趋近 0。当真实 lfdr 非单调时(\(\alpha=1.5\)),\(\widehat{\text{lfdr}}^\uparrow\) 仍然收敛,验证了定理 4 的稳健性。

真实例子(Section 5.2): - 数据:Szucs & Ioannidis (2017) 收集的 \(m \approx 27,000\) 个 t 统计量和自由度,来自 18 种认知神经科学与实验心理学期刊(2011-2014)。 - 方法:使用 Storey 估计 \(\widehat{\pi}_{\text{null}}\),将数据分裂为训练集和测试集,利用伪标签构造可靠性图(直方图分箱+平滑核版本)。 - 结果:p 值和 q 值的点严重偏离对角线(例如,在平均得分约 0.2 的箱中,估计 null 占比近 0.8),表明严重失校。而 \(\widehat{\text{lfdr}}^\uparrow\) 的点接近对角线。平滑可靠性图(附录 B.2)展示相同定性模式。 - 说明意图:验证校准工具的可迁移性,并指出现有标准方法(q 值)在实际元分析中的巨大校准误差,突显后验校准的实用价值。

证明路线与技术技巧

定理 4 的证明路线(从论文附录 A.2 复原): 1. 重写优化目标(引理 6):证明 \(\widehat{\text{lfdr}}^\uparrow\) 是如下问题的解:

\[\min_{g \in \mathcal{G}^\uparrow} \left\{ \int g^2 dF_m - 2 \widehat{\pi}_{\text{null}} \int g dp \right\}.\]
关键是证明该目标(忽略常数)等价于均方误差 \(\frac{1}{m} \sum_i (g(p_i) - \widetilde{Y}_i)^2\)。推导中利用了伪标签的求和性质 \(\sum_{r=1}^m \widetilde{Y}_r = \widehat{\pi}_{\text{null}}\) 以及 Riemann-Stieltjes 积分近似。 2. 分解 Brier 遗憾:将 \(\text{Reg}_{\mathcal{G}^\uparrow}(\widehat{\text{lfdr}}^\uparrow)\) 分解为三项之和: - 第一项:\(\int \widehat{\text{lfdr}}^\uparrow^2 dF_m - \int \text{lfdr}^\uparrow^2 dF_m + 2\widehat{\pi}_{\text{null}}(\int \text{lfdr}^\uparrow dp - \int \widehat{\text{lfdr}}^\uparrow dp)\)。由引理 6 的极小性,该项 ≤ 0。 - 第二项:\(\int \widehat{\text{lfdr}}^\uparrow^2 d(F - F_m) - \int \text{lfdr}^\uparrow^2 d(F - F_m)\)。 - 第三项:\(2(\pi_{\text{null}} - \widehat{\pi}_{\text{null}})(\int \text{lfdr}^\uparrow dp - \int \widehat{\text{lfdr}}^\uparrow dp)\)。 3. 控制第二项:由于 \(g^2 \in [0,1]\),分部积分得 \(\left| \int g^2 d(F_m - F) \right| \le \| F_m - F \|_\infty\)。利用 Dvoretzky–Kiefer–Wolfowitz (DKW) 不等式 \(P\{ \|F_m - F\|_\infty \ge t \} \le 2e^{-2mt^2}\),再积分尾部得 \(\mathbb{E}\|F_m - F\|_\infty \le \sqrt{\pi/(2m)}\)。 4. 控制第三项:由于 \(0 \le \int g dp \le 1\),该项绝对值 ≤ \(2|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|\)。 5. 合成:整体遗憾 ≤ \(2 \sqrt{\pi/(2m)} + 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}|\)

关键跳跃点: - 从伪标签回归到仅依赖 \(F_m\) 的目标表达(引理 6)。这是整个证明最巧妙的一步:它避开了伪标签的相依性结构,将遗憾界化归为经典的经验过程问题。 - 利用单调性将积分差转化为 \(\|F_m - F\|_\infty\) 乘以全变差。具体地,对任意 \(g \in \mathcal{G}^\uparrow\)\(\int g^2 d(F_m - F) = \int (F_m - F) d(g^2)\),且 \(d(g^2) \le 2g dg \le 2 dg\),从而 \(\left| \int g^2 d(F_m - F) \right| \le \|F_m - F\|_\infty \int d(g^2) \le \|F_m - F\|_\infty\)

技术技巧点名: - DKW 不等式(Massart, 1990):用于控制 \(\|F_m - F\|_\infty\) 的期望。直接给出 \(O(1/\sqrt{m})\) 界。 - Bregman 散度/等渗回归的普适性(Robertson 等人, 1988):用于证明伪标签回归(平方误差)与伪标签 MLE(Itakura-Saito 距离)以及 Grenander 估计量的等价性(定理 3)。这是将三种观点统合起来的理论桥梁。 - 重写目标函数为积分形式:利用 Riemann 和近似,将离散求和转化为 Lebesgue-Stieltjes 积分,从而与经典经验过程对接。

定理 5 的证明沿同一路线,只需将分类风险分解中的常数部分抵消,然后对 t 取上界,得到 \(\le 2\mathbb{E}|\widehat{\pi}_{\text{null}} - \pi_{\text{null}}| + 2\alpha \mathbb{E}\|F_m - F\|_\infty\)

🔎 结论是否比证明窄

  • 定理 4 的陈述假设 i.i.d. 两群模型,但证明中仅用到“经验 CDF \(F_m\) 一致收敛到 \(F\)”和“\(\widehat{\pi}_{\text{null}}\)\(L^1\)-相合的”。作者在注释中已指出“independence is not strictly necessary”,但未给出非独立情形的具体条件(如 α-混合序列是否仍适用 DKW)。因此结论在形式上比证明实际需要的条件
  • 定理 5 类似,要求 i.i.d. 但实际只需一致收敛。
  • 论文未讨论当 null 密度非均匀(如 z 分数)时的校准问题,但结论中明确声明“p-values”是核心输入。因此在伪标签构造上,结论严格限于 null 均匀下界。

四、开放问题(点到为止,扎根具体语句)

  1. 非均匀 null 密度下的伪标签构造:本文所有理论依赖 null 下 p 值 Uniform[0,1] 的假设。作者写道:“We pose it as an open question for how to construct similar pseudo-labels when the class-conditional null density is not uniform, for example with z-scores or high-dimensional test statistics.”(Section 6)。这直接对应研究者感兴趣的假设检验与高维统计。

  2. 经验零分布与校准的衔接:当零分布未知或受估计影响(如基因组学中常见的基因间相关性),伪标签的构造需融入经验零分布(Efron, 2004)的估计。作者暗示:“connections to estimating the empirical null distribution may be explored”(Section 6)。这是一个未开发的交叉点。

  3. 多类校准(multi-class assignments):作者指出“there are other connections to supervised learning that can be explored, including multi-class assignments”(Section 6)。在多重检验中,可能涉及多类假设(如三种基因表达模式),此时标签是多元的,目前的伪标签构造仅适用于二分类。

  4. 交叉验证与样本分裂的接口:论文在评估校准时间测试集/训练集分裂,但未深入讨论交叉验证在多重检验中的应用。作者将其列为未来方向:“it is of interest to see how approaches commonly deployed in supervised learning such as cross-validation interface with our methods”(Section 6)。对于有数据分裂限制的应用场景(如小 \(m\)),这可能是实质性的扩展点。

  5. 更紧的遗憾界:定理 4 的界为 \(O(1/\sqrt{m})\),远慢于 Soloff 等人 (2024) 在单调 lfdr 假设下的渐近 \(O(1/m)\)。能否在非单调情形下得到更优的收敛速率(如 \(O(1/m)\) 但依赖某些关于 lfdr 的 Hölder 条件)?文中未讨论,但研究者擅长 minimax 界,可直接切入。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论