跳转至

Estimating the local false discovery rate under an unknown symmetric null

作者: Daniel Xiang, William Fithian, Nikolaos Ignatiadis, Jake A. Soloff, Asaf Weinstein
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.11548


一、领域脉络与小综述

这个方向是什么: 本论文研究的子方向是:在“两群组模型”(two-groups model)下,基于一个仅假设零分布关于零点对称的半参数设定,来估计局部错误发现率(local false discovery rate, lfdr)。这一设定的核心动机来自现代多重检验方法(如knockoffs和Gaussian Mirrors),这些方法不产传统的p值,而是生成在零假设下对称分布(且符号与绝对值条件独立)的W-统计量;备择假设则倾向于产生较大的正值。在这一框架下,传统的FDR控制无法保证每个发现的质量(即落入拒绝集的弱信号可能有很高的真实lfdr),因此需要一个可直接估计lfdr、且仅依赖“零对称”假设的方法。该子方向当前成熟度较低——此前最接近的工作Soloff et al. (2024) 要求已知零分布(p值框架),而本论文首次将问题扩展到零分布仅知对称、其余未知的情形。

发展脉络(history): 1. 奠基工作:两群组模型与FDR。Benjamini & Hochberg (1995) 提出FDR,成为多重检验的标准准则。Efron等人(Efron et al., 2001; Efron, 2004, 2008)引入两群组模型和局部错误发现率(lfdr),并发展了经验Null方法来处理未知零分布问题(通常假设零为正态,用数据估计其均值和方差)。 2. 从p值到对称统计量:Knockoffs的突破。Barber & Candès (2015) 提出knockoff框架,彻底绕开了对p值和已知零分布的需求,只要求构造出的W-统计量在零下对称。这一框架随后被Candès et al. (2018) 扩展为model-X knockoffs,并被Xing et al. (2023)、Dai et al. (2023a,b) 和Wang et al. (2026) 等推广。作者在introduction中指出:“these methods all rely on generating artificial null counterparts rather than deriving the null distribution of importance statistics.” Arias-Castro & Chen (2017) 明确提出应研究一个仅假设零对称的一般模型,作者称其为本文的起点。 3. 质疑FDR的标准和转向lfdr。Soloff et al. (2024) 指出FDR容许低质量发现与高质量发现相互补偿,在阈值附近的较弱信号质量问题严重(论文Figure 1用HIV数据实证展示了这一异质性)。他们提出“max-lfdr”准则和相应的“support line”过程,但要求p值设定下零分布已知、备择密度非增。 4. 本论文的位置。作者试图填补一个明确的缺口:在Soloff et al. (2024) 的max-lfdr准则与knockoff等“零对称但不全知”框架之间。作者写道:“our impetus in the current paper is to design methods that target the lfdr, instead of the FDR, but move beyond the classical independent p-values setup to the flexible controlled variable selection setup. This means that we relax the assumption of a fully known null distribution to merely symmetry about zero.”

子线索聚类: - Knockoffs和相关方法:Barber & Candès 2015, Candès et al. 2018, Xing et al. 2023, Dai et al. 2023a,b, Xia & Cai 2023, Wang et al. 2026. 这一簇的工作专注于构造对称W-统计量,实现FDR控制,但均不涉及lfdr估计。 - lfdr估计与经验Null:Efron et al. 2001, Efron 2004, 2008, Rice & Spiegelhalter 2008, Klaus & Strimmer 2011. 这一簇假定零分布已知,或在全参数族(如高斯)内估计。 - 估计密度比:Sugiyama et al. 2012, 以及Efron et al. 2001中通过分类来估计lfdr的已有做法。本论文的方法——用logistic回归估计f(-w)/f(w)——属于这一条线索,但针对的是零分布对称但形状完全未知的新设定。

这个方向在追问的核心问题: 1. 如何从边际分布f(w)出发,在零分布仅知对称的设定下识别/逼近lfdr? 论文的答案是clar(w)=f(-w)/f(w)是一个可识别的保守上界。 2. 这个上界有多紧? 论文在Arias-Castro & Jiang (2021)基础上指出:在“最大对称零”分解下,clar与lfdr重合;此外,当备择的负侧尾部f1(-w)相对于零尾部f0(w)衰减更快时,不等式接近于等式。 3. 如何高效、稳定地估计clar? 直接核密度估计会因除很小的f(w)而放大噪声;logistic分类框架可将估计转化为对条件概率P(W<0 | |W|)的回归。 4. 用估计的clar设定阈值能否实现渐近控制? 论文在弱依赖条件下给出了肯定回答(Theorem 4)。

⚠️ 作者的framing: 作者将缺口frame为:FDR容忍低质量发现→需要控制max-lfdr→但Soloff et al. 需要已知零分布→本论文将问题推广到零仅知对称。论文淡化了两种竞争路线:(i) 直接在零对称假设下用平均核密度估计f然后直接计算ˆf(-w)/ˆf(w),作者指出去除稳定性隐患(除小的f(w)),但仍检验了KDE法的一致性(Theorem 3);(ii) 采用更灵活的非参数工具(如AdaPT,Lei & Fithian, 2018),作者只在related work中提及Lei & Fithian (2018) 简要讨论了类似想法。明显该被引、却没出现在intro里:没有详细对比Grenander (1956) 的经典工作用于单调lfdr假设的full理论,也没有讨论在p值框架外如何使用Benjamini & Hochberg (1995) 的BH过程直接适配对称统计量(尽管这在直觉上是可能的)。这些值得证实。

张力:未见明显对立引用。Soloff et al. (2024) 与本文在目标上一致(控制个体发现质量),但设定不同;Arias-Castro & Jiang (2021) 是对称两群组模型识别性的理论支撑,无矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号与estimands
  • \( W_j \):第 \( j \) 个检验的W-统计量(观测到的随机变量),\( j=1,\dots,p \)
  • \( H_j \):真实状态,\( H_j=0 \)(零假设为真),\( H_j=1 \)(备择为真),为潜在的(不可观测的)二元变量。
  • \( f_0(w) \):零分布密度(未知),假设关于零点对称:\( f_0(w)=f_0(-w) \)
  • \( f_1(w) \):备择分布密度(未知)。
  • \( \pi_0 = P(H_j=0) \):先验零概率(未知)。
  • \( f(w) = \pi_0 f_0(w) + (1-\pi_0) f_1(w) \):边际密度(可直接从W_j估计)。
  • \( \text{lfdr}(w) = P(H_j=0 | W_j=w) = \pi_0 f_0(w)/f(w) \):目标量(不可识别,因\( \pi_0 \)\( f_0 \)未知且与\( f_1 \)耦合)。
  • \( \text{clar}(w) = f(-w)/f(w), \quad w>0 \):被提出的替身量(可识别,仅依赖于边际密度)。
  • \( \overline{\rho}_0, \overline{h}_0, \overline{h}_1 \):“最大对称分解”中的参数,其中\(\overline{h}_0(w)\propto f(w)\wedge f(-w)\)(可识别量)。

  • 模型: 两群组模型(2):

    \[P(H_j=0)=\pi_0,\quad P(H_j=1)=1-\pi_0,\quad W_j|H_j=0\sim f_0,\quad W_j|H_j=1\sim f_1,\]
    其中对\( f_0 \)的唯一假设是对称性;\( \pi_0, f_1 \)完全未知。作者假定(W_j, H_j) 同分布但不要求独立(论文标注在(2)后:"identically, but not necessarily independently, distributed")。

  • 可观测数据: 可直接观测到的是一个大小为 \( p \) 的样本 \( \{W_1, \dots, W_p\} \),取自边际密度 \( f \)不能直接观测的是每个 \( W_j \) 对应的状态 \( H_j \)、零分布 \( f_0 \)、备择分布 \( f_1 \),以及混合权重 \( \pi_0 \)。所有这些未观测的量仅能通过假设(对称、稀疏)部分识别。

第二步:最小内核

这篇论文的核心思路本质上可归结于一个分类特例,在p值设定下Efron et al. (2001)已有使用,但此处的应用场景不同。

最简特例:假设\( p \)很大,\( W_j \)独立取自一个简单的对称混合模型:

\[W_j \sim 0.9 \cdot \text{Unif}[-1,1] + 0.1 \cdot \text{Unif}[0.5, 1.5]\]
(零密度是[-1,1]上的均匀分布,对称;备择密度在[0.5,1.5]上均匀)。这里重要的是:零分布关于0对称,备择分布集中在正半轴。边际密度\( f(w) \)是一个“驼峰”——在正侧较高(因备择叠加)、负侧只是零的贡献。

关键想法(阅读最小内核): - 定理1(逻辑):对于任意 \( w>0 \),将 \( W_j \) 的符号视为“标签”(负=“成功”),绝对值 \( |W_j| \) 视为“特征”。考虑条件概率:

\[P(W_j<0 | |W_j|=w) = \frac{f(-w)}{f(-w)+f(w)}.\]
因此,\( 1 / \text{odds} = \frac{f(-w)}{f(w)} = \text{clar}(w) \)。于是估计clar就等价于估计一个二分类问题(预测负号)的条件几率(\( P/(1-P) \))。一旦我们能估计 \( \hat{p}(w) \),则 \( \widehat{\text{clar}}(w) = \hat{p}(w)/(1-\hat{p}(w)) \)

  • 为什么这比直接估计\( f \)更稳定:分类问题的损失函数(如Logistic似然)天然对\( f \)的稀疏区域有平滑作用;直接核密度比可能会除一个很小的\( \hat{f}(w) \)而放大误差。

  • 去掉“仅为说明”的假设后:上述特例中备择集中在[0.5,1.5],事实只要备择对负侧的贡献小于正侧,该逻辑就成立。该论文考虑的更一般情形允许\( f_1 \)灵活,但核心等式仍成立,因为

    \[\frac{男女}{女人} = \frac{女人}{男人}.\]
    不,此处正确的推导仅在零的对称性保证 \( f_0(-w)=f_0(w) \) 下,有:
    \[\text{lfdr}(w) = \frac{\pi_0 f_0(w)}{f(w)} = \frac{\pi_0 f_0(-w)}{f(w)} \leq \frac{f(-w)}{f(w)} = \text{clar}(w),\]
    其中不等式用到 \( \pi_0 \leq 1\)\( f(-w) = \pi_0 f_0(-w) + (1-\pi_0) f_1(-w) \geq \pi_0 f_0(-w) \)
    等号在“最大对称分解”中可达到**(即当备择的负侧无贡献时)。

一句话总结该最小内核: 论文把估计不可识别的lfdr,转化为估计可识别的密度比f(-w)/f(w),而后者可以通过对(符号|绝对值)做一个logistic回归来估计——这等价于对P(W<0 | |W|)建模,完全利用可观测数据,且不需要知道零分布的具体形状,只需零对称性。

三、这篇论文做了什么(重心,务必讲透)

三句话: - ① 在仅假设零分布对称的两群组模型下,研究了局部错误发现率(lfdr)的估计问题,提出用可识别的替代量 clar(w) := f(-w)/f(w)作为lfdr的上界并估计它。 - ② 核心工具是将clar的估计转化为对符号与绝对值之间的条件概率做Logistic回归(自然立方样条基),并与核密度估计(KDE)和保序回归(Grenander)方法比较。 - ③ 主要结论:在弱依赖(ecdf一致收敛到cdf)条件下,证明所提出的logistic估计量以及KDE、保序回归估计量都是clar的一致性估计(Theorem 1-3);进一步,用一致的clar估计设定拒绝阈值(ˆτ = inf{w≥0: dclar(w)≤α}),可以实现边界(阈上药的一个小邻域)的渐近FDR控制(Theorem 4)。

关键设定与假设: - 模型:同上节(两群组、零对称但未知、备择任意)。注意不要求独立(仅同分布)。 - 主要假设: - 零对称f_0(w)=f_0(-w)(贯穿全文)。 - 弱依赖(Assumption 3.1)\\|F_p - F\\|_\infty \to_p 0\\|F_{0p} - F_0\\|_\infty \to_p 0,其中F_p是全体W的ecdf,F_{0p}是纯零的ecdf。论文主要为一类不满足独立性的W(如knockoff生产的)提供了渐近分析框架。 - Logistic回归的额外条件(Assumption 3.2, 3.3):特征协方差矩阵正定、无线性预测器能完美分离符号(保证β^*唯一和存在性)。 - 保序回归的单调性µ(w) = P(W<0 | |W|=w)非增(即clair随|w|增大而减小),这在“正侧富集”下是合理的。 - 渐近边界控制的进一步条件(Theorem 4): clar在某零点w^*连续且在该邻域非增;密度f, f_0w^*附近正连续;dclar在含w^*的开区间上一致一致于clar;p_0/p\to\pi_0

  • 与已有文献比较:相比Soloff et al. (2024)(需已知具体f_0和独立性),本文放宽了零分布假设(仅对称),但增强条件到弱依赖ecdf收敛,并为此构造了新的渐近定理(Theorem 4)。相比传统Efron经验Null(假设零为正态),本论文完全放开了参数形式。

主要结果(理论型): - Theorem 1(Logistic一致性): - 陈述:在Assumption 3.1-3.3下,logistic回归的系数估计\(\hat{\beta}\)(用自然样条基或多项式基)依概率收敛于其最优近似\(\beta^*\)。 - 直觉:Logistic似然是凹的且系数空间紧化(强制函数使最大化唯一);弱保证足够了,因为ecdf收敛保证经验似然逐点趋于其期望;然后利用凸性在整个参数球上提升为一致收敛。 - 必要条件:有界连续特征;总体协方差非奇异;不可完美可分离性。 - 技术难点:证明步骤需先展示β^*的存在唯一(用concavity + coerciveness);通过Skorokhod表示将“收敛于概率”提升到“几乎必然收敛”,从而点态提升为一致。

  • Theorem 2(保序回归一致性)
  • 陈述:若µ(w)=P(W<0||W|=w)非增,且Assumption 3.1成立,则对任意w>0,Grenander型估计量\( \widehat{\text{clar}}^{\text{iso}}(w) \)一致收敛到clar(w)
  • 关键步骤:方法是将H(t)=F^{-}(G^{-1}(t))凸化,其斜率即是期望的µ(G^{-1}(t))。用Marshall的不等式:\\| \hat{H}_p - H\\|_\infty \leq \\|H_p - H\\|_\infty(对凹化的保序回归成立),再把斜率差控制在ε_p = max(\\|F_p-F\\|_\infty^{1/2}, \\|F_{0p}-F_0\\|_\infty^{1/2})量级。

  • Theorem 3(KDE一致性)

  • 陈述:存在适当带宽序列h_p→0,使dclar_{h_p}(w) = \hat{f}_{h_p}(-w) / \hat{f}_{h_p}(w) \to \text{clar}(w) in probability.
  • 证明思路:用分部积分把偏差写成\\|\cdot\\|_\infty / h量级,从而通过选择h_p = o(1)\\|F_p-F\\|_\infty / h_p \to 0保证一致性。
  • 局限性:更稳定的除0问题靠KDE本身也有(论文在正文中论述其不稳定性)。

  • Theorem 4(渐近边界FDR控制)

  • 陈述:在均值wf上的条件下,用dclar定的阈值ˆτ的右侧小邻域内的经验FDP不概率超过α+δ
  • 验证路线:(i) 通过一致一致性证明clar(ˆτ)→α;(ii) 用均值定理和弱依赖把FDP([ˆτ,ˆτ+ε_p])控制在lfdr(ˆτ)(1+o_p(1))以内;(iii) lfdr(ˆτ) ≤ clar(ˆτ)→α

证明路线与技术技巧(理论型,具体): - 整体路线(以Logistic回归为主): 1. 定义目标:M^*(β) = E[log-likelihood per obs]。展示β^*的唯一性(Lemma 10,凸性和非分离性)。 2. 证明M_p(β) →_p M^*(β)点态(通过F_p→F弱收,注意W=0的点测度为0)。 3. 用凸函数一致收敛引理,提升到\\|M_P-M^*\\|_∞ → 0在某紧球内。 4. 利用β^*的分离性(M^*\\|β-β^*\\|=δ上严格小),结合均匀收敛,显示经验最大值的轨迹落入\\|β\\| < R,且与β^*距离→0。 - 关键跳跃点: - 跳跃1:在一维点态下如何升到一致。解法是Skorokhod表示+均匀Lipschitz(g_β(w) = β^T h(|w|)1{w<0} - log(1+e^{β^T h(|w|)})对β是Lipschitz的,在整个有界β球上一致)。 - 跳跃2:从β的一致一致性到clar一致性。clar_β(w) = exp\{β^T h(w)\} 连续,所以通过连续映射定理可直接传递。 - 技术技巧点名: - Skorokhod表示定理:将“依概率收敛”转化为几乎必然收敛的辅助构造(Remark C.1)。 - 凸函数的Epi-convergence(Lemma 11-12隐含):利用斜率序列与原始凸函数的一致收敛性 \\|H_p - H\\|_∞→0,追溯到Marshall不等式。 - 分步积分Bound:将密度估计偏差|∫ψ_w dF_p - ∫ψ_w dF| bound为(2L/h)·\\|F_p - F\\|_∞(KDE的导数界),通过选择h_p极慢衰减消除。 - 结合均值定理与中偏差渐佳控制:Theorem 4 用ε_p同时控制两个ecdf偏差与谱宽,使三角不等式中的分子分母均线性于ε_p

真实例子与应用(有就一定要讲): 本文有两个最真实的例子: - 5.1 高吞吐量半胱氨酸蛋白谱(SLC-ABPP): - 数据:14,747个半胱氨酸位点的竞争比(CR)对数,三重复对照和处理的测量。 - 方法应用:假设log_2 CR在零下对称,大值表示结合活性。 - 结果:在常规阈值(log_2 CR > 2)下,估计的clar=0.506(bootstrap CI [0.449, 0.563]),表明约50%的阳性发现可能是假。 - 意在说明:本方法开箱即用,产生合理保守估计,实际意义直观。 - 5.2 HIV突变药抗性数据: - 数据:Barber & Candès (2015)的经典knockoff例子。16种抗病毒药,630-850样本/药,用knockoff + Lasso-sign-max 统计量。 - 方法应用:对每种药物的W统计量估计clar,并与TSM(治疗选择突变)面板的实证FDP做比较。 - 结果(Figure 2, 11, 17):clar估计总体上保守(估计值>真实FDP),在大多数bin中有效;可判断阈值边的精确度。Figure 11用跨药物归一化汇总的交叉验证效应最好。 - 意在说明:与现有标准(knockoff)兼容,可直接嵌入真实药物筛选流程。

🔎 结论是否比证明窄: - Theorem 1的结论是 \(\hat{\beta} \to_p \beta^*\)(目标逼近),但不是 \(\widehat{\text{clar}}(w) \to_p \text{clar}(w)\)——这需要进一步假设所选的logistic模型是“正确指定”的,即存在某个\(\beta^*\)使得\(f(-w)/f(w)=\exp(\beta^{*T}h(w))\)几乎一定成立。论文未对该模型正确定性做任何可检验的条件(如“log clar应是自然样条的线性函数”),因此Theorem 1只保证收敛到“最优logistic近似”,而非真clar(除非模型正确)。论文在Theorem 2和3中有更强的“直接收敛于真clar”的断言,但那里的限制更大(单调noise/核密度)。读者应注意到:论文只是含蓄地宣称(在走向Theorem 4的语句中“when the estimator dclar is uniformly consistent for clar”)把一致一致性的条件的一部分——但是否logistic估计量真正一致于真clar并没有严格证明,只说在模型正确指定下端点结论成立。事实上,论文的反向依据是Figure 5和6用真实分布计算的clar与logistic估计的对比,这属于模拟验证,并非理论证明。

四、开放问题(点到为止,扎根具体语句)

  1. 在模型误指定下,logistic回归的clar估计是否是**真clar**的一致估计? 论文的Theorem 1收敛到\(\beta^*\)(最优logistic逼近),但未给出\(\widehat{\text{clar}}_{\beta^*}(w)\)与真clar(w)的一致收敛性条件。扎根于定理1的陈述:“\(\hat{\beta}\) exists with probability tending to 1 and \(\hat{\beta} \to \beta^*\) in probability as \(p\to\infty\)”,和定理4条件(v) “\(\widehat{\text{clar}}\) is uniformly consistent for clar”, 两者之间有明显的间隙需要填补**。
  2. 能否建立clar估计的收敛速率(minimax rate / parametric rate)和半参数效率界? 论文仅证明了p→∞的一致性,未提供收敛速度或semiparametric efficiency bound。扎根于论文的相关中提到Rice & Spiegelhalter (2008) 质疑“Must one compare the marginal f to an f0... might some advanced form of cross-validation offer a model-free approach?”——该伪参数设定的效率边界亟待推演。
  3. 在正侧富集假设不成立(备择在负侧有实质性贡献)时,clar不再是lfdr的保守上界——如何修正? 论文仅在Appendix B(Proposition 5)中假设f_1(w) ≥ f_1(-w)确保满足,但未讨论实质违反此条件的情况。
  4. knockoff产生的W-statistic之间存在强依赖时,ecdf一致收敛是否仍成立?论文中的Assumption 3.1及其在knockoff setting中的验证仅限于部分模拟(Figure 12-13)。在高相关设计矩阵下是否仍然成立,以及能否在理论上证明,仍是开放的。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论