Estimating the local false discovery rate under an unknown symmetric null¶

作者: Daniel Xiang, William Fithian, Nikolaos Ignatiadis, Jake A. Soloff, Asaf Weinstein
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.11548

一、领域脉络与小综述¶

这个方向是什么：本论文研究的子方向是：在“两群组模型”(two-groups model)下，基于一个仅假设零分布关于零点对称的半参数设定，来估计局部错误发现率(local false discovery rate, lfdr)。这一设定的核心动机来自现代多重检验方法（如knockoffs和Gaussian Mirrors），这些方法不产传统的p值，而是生成在零假设下对称分布（且符号与绝对值条件独立）的W-统计量；备择假设则倾向于产生较大的正值。在这一框架下，传统的FDR控制无法保证每个发现的质量（即落入拒绝集的弱信号可能有很高的真实lfdr），因此需要一个可直接估计lfdr、且仅依赖“零对称”假设的方法。该子方向当前成熟度较低——此前最接近的工作Soloff et al. (2024) 要求已知零分布（p值框架），而本论文首次将问题扩展到零分布仅知对称、其余未知的情形。

发展脉络（history）： 1. 奠基工作：两群组模型与FDR。Benjamini & Hochberg (1995) 提出FDR，成为多重检验的标准准则。Efron等人（Efron et al., 2001; Efron, 2004, 2008）引入两群组模型和局部错误发现率(lfdr)，并发展了经验Null方法来处理未知零分布问题（通常假设零为正态，用数据估计其均值和方差）。 2. 从p值到对称统计量：Knockoffs的突破。Barber & Candès (2015) 提出knockoff框架，彻底绕开了对p值和已知零分布的需求，只要求构造出的W-统计量在零下对称。这一框架随后被Candès et al. (2018) 扩展为model-X knockoffs，并被Xing et al. (2023)、Dai et al. (2023a,b) 和Wang et al. (2026) 等推广。作者在introduction中指出：“these methods all rely on generating artificial null counterparts rather than deriving the null distribution of importance statistics.” Arias-Castro & Chen (2017) 明确提出应研究一个仅假设零对称的一般模型，作者称其为本文的起点。 3. 质疑FDR的标准和转向lfdr。Soloff et al. (2024) 指出FDR容许低质量发现与高质量发现相互补偿，在阈值附近的较弱信号质量问题严重（论文Figure 1用HIV数据实证展示了这一异质性）。他们提出“max-lfdr”准则和相应的“support line”过程，但要求p值设定下零分布已知、备择密度非增。 4. 本论文的位置。作者试图填补一个明确的缺口：在Soloff et al. (2024) 的max-lfdr准则与knockoff等“零对称但不全知”框架之间。作者写道：“our impetus in the current paper is to design methods that target the lfdr, instead of the FDR, but move beyond the classical independent p-values setup to the flexible controlled variable selection setup. This means that we relax the assumption of a fully known null distribution to merely symmetry about zero.”

子线索聚类： - Knockoffs和相关方法：Barber & Candès 2015, Candès et al. 2018, Xing et al. 2023, Dai et al. 2023a,b, Xia & Cai 2023, Wang et al. 2026. 这一簇的工作专注于构造对称W-统计量，实现FDR控制，但均不涉及lfdr估计。 - lfdr估计与经验Null：Efron et al. 2001, Efron 2004, 2008, Rice & Spiegelhalter 2008, Klaus & Strimmer 2011. 这一簇假定零分布已知，或在全参数族（如高斯）内估计。 - 估计密度比：Sugiyama et al. 2012, 以及Efron et al. 2001中通过分类来估计lfdr的已有做法。本论文的方法——用logistic回归估计f(-w)/f(w)——属于这一条线索，但针对的是零分布对称但形状完全未知的新设定。

这个方向在追问的核心问题： 1. 如何从边际分布f(w)出发，在零分布仅知对称的设定下识别/逼近lfdr？ 论文的答案是clar(w)=f(-w)/f(w)是一个可识别的保守上界。 2. 这个上界有多紧？ 论文在Arias-Castro & Jiang (2021)基础上指出：在“最大对称零”分解下，clar与lfdr重合；此外，当备择的负侧尾部f1(-w)相对于零尾部f0(w)衰减更快时，不等式接近于等式。 3. 如何高效、稳定地估计clar？ 直接核密度估计会因除很小的f(w)而放大噪声；logistic分类框架可将估计转化为对条件概率P(W<0 | |W|)的回归。 4. 用估计的clar设定阈值能否实现渐近控制？ 论文在弱依赖条件下给出了肯定回答（Theorem 4）。

⚠️ 作者的framing：作者将缺口frame为：FDR容忍低质量发现→需要控制max-lfdr→但Soloff et al. 需要已知零分布→本论文将问题推广到零仅知对称。论文淡化了两种竞争路线：(i) 直接在零对称假设下用平均核密度估计f然后直接计算ˆf(-w)/ˆf(w)，作者指出去除稳定性隐患（除小的f(w)），但仍检验了KDE法的一致性（Theorem 3）；(ii) 采用更灵活的非参数工具（如AdaPT，Lei & Fithian, 2018），作者只在related work中提及Lei & Fithian (2018) 简要讨论了类似想法。明显该被引、却没出现在intro里：没有详细对比Grenander (1956) 的经典工作用于单调lfdr假设的full理论，也没有讨论在p值框架外如何使用Benjamini & Hochberg (1995) 的BH过程直接适配对称统计量（尽管这在直觉上是可能的）。这些值得证实。

张力：未见明显对立引用。Soloff et al. (2024) 与本文在目标上一致（控制个体发现质量），但设定不同；Arias-Castro & Jiang (2021) 是对称两群组模型识别性的理论支撑，无矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与estimands：
\( W_j \)：第 \( j \) 个检验的W-统计量（观测到的随机变量），\( j=1,\dots,p \)。
\( H_j \)：真实状态，\( H_j=0 \)（零假设为真），\( H_j=1 \)（备择为真），为潜在的（不可观测的）二元变量。
\( f_0(w) \)：零分布密度（未知），假设关于零点对称：\( f_0(w)=f_0(-w) \)。
\( f_1(w) \)：备择分布密度（未知）。
\( \pi_0 = P(H_j=0) \)：先验零概率（未知）。
\( f(w) = \pi_0 f_0(w) + (1-\pi_0) f_1(w) \)：边际密度（可直接从W_j估计）。
\( \text{lfdr}(w) = P(H_j=0 | W_j=w) = \pi_0 f_0(w)/f(w) \)：目标量（不可识别，因\( \pi_0 \)和\( f_0 \)未知且与\( f_1 \)耦合）。
\( \text{clar}(w) = f(-w)/f(w), \quad w>0 \)：被提出的替身量（可识别，仅依赖于边际密度）。
\( \overline{\rho}_0, \overline{h}_0, \overline{h}_1 \)：“最大对称分解”中的参数，其中\(\overline{h}_0(w)\propto f(w)\wedge f(-w)\)（可识别量）。
模型：两群组模型（2）：
\[P(H_j=0)=\pi_0,\quad P(H_j=1)=1-\pi_0,\quad W_j|H_j=0\sim f_0,\quad W_j|H_j=1\sim f_1,\]
其中对\( f_0 \)的唯一假设是对称性；\( \pi_0, f_1 \)完全未知。作者假定(W_j, H_j) 同分布但不要求独立（论文标注在(2)后："identically, but not necessarily independently, distributed"）。
可观测数据：可直接观测到的是一个大小为 \( p \) 的样本 \( \{W_1, \dots, W_p\} \)，取自边际密度 \( f \)。不能直接观测的是每个 \( W_j \) 对应的状态 \( H_j \)、零分布 \( f_0 \)、备择分布 \( f_1 \)，以及混合权重 \( \pi_0 \)。所有这些未观测的量仅能通过假设（对称、稀疏）部分识别。

第二步：最小内核

这篇论文的核心思路本质上可归结于一个分类特例，在p值设定下Efron et al. (2001)已有使用，但此处的应用场景不同。

最简特例：假设\( p \)很大，\( W_j \)独立取自一个简单的对称混合模型：

\[W_j \sim 0.9 \cdot \text{Unif}[-1,1] + 0.1 \cdot \text{Unif}[0.5, 1.5]\]

（零密度是[-1,1]上的均匀分布，对称；备择密度在[0.5,1.5]上均匀）。这里重要的是：零分布关于0对称，备择分布集中在正半轴。边际密度\( f(w) \)是一个“驼峰”——在正侧较高（因备择叠加）、负侧只是零的贡献。

关键想法（阅读最小内核）： - 定理1（逻辑）：对于任意 \( w>0 \)，将 \( W_j \) 的符号视为“标签”（负=“成功”），绝对值 \( |W_j| \) 视为“特征”。考虑条件概率：

\[P(W_j<0 | |W_j|=w) = \frac{f(-w)}{f(-w)+f(w)}.\]

因此，\( 1 / \text{odds} = \frac{f(-w)}{f(w)} = \text{clar}(w) \)。于是估计clar就等价于估计一个二分类问题（预测负号）的条件几率（\( P/(1-P) \)）。一旦我们能估计 \( \hat{p}(w) \)，则 \( \widehat{\text{clar}}(w) = \hat{p}(w)/(1-\hat{p}(w)) \)。

为什么这比直接估计\( f \)更稳定：分类问题的损失函数（如Logistic似然）天然对\( f \)的稀疏区域有平滑作用；直接核密度比可能会除一个很小的\( \hat{f}(w) \)而放大误差。
去掉“仅为说明”的假设后：上述特例中备择集中在[0.5,1.5]，事实只要备择对负侧的贡献小于正侧，该逻辑就成立。该论文考虑的更一般情形允许\( f_1 \)灵活，但核心等式仍成立，因为
\[\frac{男女}{女人} = \frac{女人}{男人}.\]
不，此处正确的推导仅在零的对称性保证 \( f_0(-w)=f_0(w) \) 下，有：
\[\text{lfdr}(w) = \frac{\pi_0 f_0(w)}{f(w)} = \frac{\pi_0 f_0(-w)}{f(w)} \leq \frac{f(-w)}{f(w)} = \text{clar}(w),\]
其中不等式用到 \( \pi_0 \leq 1\) 和 \( f(-w) = \pi_0 f_0(-w) + (1-\pi_0) f_1(-w) \geq \pi_0 f_0(-w) \)。等号在“最大对称分解”中可达到**（即当备择的负侧无贡献时）。

一句话总结该最小内核: 论文把估计不可识别的lfdr，转化为估计可识别的密度比f(-w)/f(w)，而后者可以通过对（符号|绝对值）做一个logistic回归来估计——这等价于对P(W<0 | |W|)建模，完全利用可观测数据，且不需要知道零分布的具体形状，只需零对称性。

三、这篇论文做了什么（重心，务必讲透）¶

三句话： - ① 在仅假设零分布对称的两群组模型下，研究了局部错误发现率(lfdr)的估计问题，提出用可识别的替代量 clar(w) := f(-w)/f(w)作为lfdr的上界并估计它。 - ② 核心工具是将clar的估计转化为对符号与绝对值之间的条件概率做Logistic回归（自然立方样条基），并与核密度估计(KDE)和保序回归(Grenander)方法比较。 - ③ 主要结论：在弱依赖（ecdf一致收敛到cdf）条件下，证明所提出的logistic估计量以及KDE、保序回归估计量都是clar的一致性估计（Theorem 1-3）；进一步，用一致的clar估计设定拒绝阈值（ˆτ = inf{w≥0: dclar(w)≤α}），可以实现边界（阈上药的一个小邻域）的渐近FDR控制（Theorem 4）。

关键设定与假设： - 模型：同上节（两群组、零对称但未知、备择任意）。注意不要求独立（仅同分布）。 - 主要假设： - 零对称：f_0(w)=f_0(-w)（贯穿全文）。 - 弱依赖（Assumption 3.1）：\\|F_p - F\\|_\infty \to_p 0 且 \\|F_{0p} - F_0\\|_\infty \to_p 0，其中F_p是全体W的ecdf，F_{0p}是纯零的ecdf。论文主要为一类不满足独立性的W（如knockoff生产的）提供了渐近分析框架。 - Logistic回归的额外条件（Assumption 3.2, 3.3）：特征协方差矩阵正定、无线性预测器能完美分离符号（保证β^*唯一和存在性）。 - 保序回归的单调性：µ(w) = P(W<0 | |W|=w)非增（即clair随|w|增大而减小），这在“正侧富集”下是合理的。 - 渐近边界控制的进一步条件（Theorem 4）: clar在某零点w^*连续且在该邻域非增；密度f, f_0在w^*附近正连续；dclar在含w^*的开区间上一致一致于clar；p_0/p\to\pi_0。

与已有文献比较：相比Soloff et al. (2024)（需已知具体f_0和独立性），本文放宽了零分布假设（仅对称），但增强条件到弱依赖ecdf收敛，并为此构造了新的渐近定理（Theorem 4）。相比传统Efron经验Null（假设零为正态），本论文完全放开了参数形式。

主要结果（理论型）： - Theorem 1（Logistic一致性）： - 陈述：在Assumption 3.1-3.3下，logistic回归的系数估计\(\hat{\beta}\)（用自然样条基或多项式基）依概率收敛于其最优近似\(\beta^*\)。 - 直觉：Logistic似然是凹的且系数空间紧化（强制函数使最大化唯一）；弱保证足够了，因为ecdf收敛保证经验似然逐点趋于其期望；然后利用凸性在整个参数球上提升为一致收敛。 - 必要条件：有界连续特征；总体协方差非奇异；不可完美可分离性。 - 技术难点：证明步骤需先展示β^*的存在唯一（用concavity + coerciveness）；通过Skorokhod表示将“收敛于概率”提升到“几乎必然收敛”，从而点态提升为一致。

Theorem 2（保序回归一致性）：
陈述：若µ(w)=P(W<0||W|=w)非增，且Assumption 3.1成立，则对任意w>0，Grenander型估计量\( \widehat{\text{clar}}^{\text{iso}}(w) \)一致收敛到clar(w)。
关键步骤：方法是将H(t)=F^{-}(G^{-1}(t))凸化，其斜率即是期望的µ(G^{-1}(t))。用Marshall的不等式：\\| \hat{H}_p - H\\|_\infty \leq \\|H_p - H\\|_\infty（对凹化的保序回归成立），再把斜率差控制在ε_p = max(\\|F_p-F\\|_\infty^{1/2}, \\|F_{0p}-F_0\\|_\infty^{1/2})量级。
Theorem 3（KDE一致性）：
陈述：存在适当带宽序列h_p→0，使dclar_{h_p}(w) = \hat{f}_{h_p}(-w) / \hat{f}_{h_p}(w) \to \text{clar}(w) in probability.
证明思路：用分部积分把偏差写成\\|\cdot\\|_\infty / h量级，从而通过选择h_p = o(1)和\\|F_p-F\\|_\infty / h_p \to 0保证一致性。
局限性：更稳定的除0问题靠KDE本身也有（论文在正文中论述其不稳定性）。
Theorem 4（渐近边界FDR控制）：
陈述：在均值wf上的条件下，用dclar定的阈值ˆτ的右侧小邻域内的经验FDP不概率超过α+δ。
验证路线：(i) 通过一致一致性证明clar(ˆτ)→α；(ii) 用均值定理和弱依赖把FDP([ˆτ,ˆτ+ε_p])控制在lfdr(ˆτ)(1+o_p(1))以内；(iii) lfdr(ˆτ) ≤ clar(ˆτ)→α。

证明路线与技术技巧（理论型，具体）： - 整体路线（以Logistic回归为主）： 1. 定义目标：M^*(β) = E[log-likelihood per obs]。展示β^*的唯一性（Lemma 10，凸性和非分离性）。 2. 证明M_p(β) →_p M^*(β)点态（通过F_p→F弱收，注意W=0的点测度为0）。 3. 用凸函数一致收敛引理，提升到\\|M_P-M^*\\|_∞ → 0在某紧球内。 4. 利用β^*的分离性（M^*在\\|β-β^*\\|=δ上严格小），结合均匀收敛，显示经验最大值的轨迹落入\\|β\\| < R，且与β^*距离→0。 - 关键跳跃点： - 跳跃1：在一维点态下如何升到一致。解法是Skorokhod表示+均匀Lipschitz（g_β(w) = β^T h(|w|)1{w<0} - log(1+e^{β^T h(|w|)})对β是Lipschitz的，在整个有界β球上一致）。 - 跳跃2：从β的一致一致性到clar一致性。clar_β(w) = exp\{β^T h(w)\} 连续，所以通过连续映射定理可直接传递。 - 技术技巧点名： - Skorokhod表示定理：将“依概率收敛”转化为几乎必然收敛的辅助构造（Remark C.1）。 - 凸函数的Epi-convergence（Lemma 11-12隐含）：利用斜率序列与原始凸函数的一致收敛性 \\|H_p - H\\|_∞→0，追溯到Marshall不等式。 - 分步积分Bound：将密度估计偏差|∫ψ_w dF_p - ∫ψ_w dF| bound为(2L/h)·\\|F_p - F\\|_∞（KDE的导数界），通过选择h_p极慢衰减消除。 - 结合均值定理与中偏差渐佳控制：Theorem 4 用ε_p同时控制两个ecdf偏差与谱宽，使三角不等式中的分子分母均线性于ε_p。

真实例子与应用（有就一定要讲）：本文有两个最真实的例子： - 5.1 高吞吐量半胱氨酸蛋白谱（SLC-ABPP）： - 数据：14,747个半胱氨酸位点的竞争比（CR）对数，三重复对照和处理的测量。 - 方法应用：假设log_2 CR在零下对称，大值表示结合活性。 - 结果：在常规阈值（log_2 CR > 2）下，估计的clar=0.506（bootstrap CI [0.449, 0.563]），表明约50%的阳性发现可能是假。 - 意在说明：本方法开箱即用，产生合理保守估计，实际意义直观。 - 5.2 HIV突变药抗性数据： - 数据：Barber & Candès (2015)的经典knockoff例子。16种抗病毒药，630-850样本/药，用knockoff + Lasso-sign-max 统计量。 - 方法应用：对每种药物的W统计量估计clar，并与TSM(治疗选择突变)面板的实证FDP做比较。 - 结果（Figure 2, 11, 17）：clar估计总体上保守（估计值>真实FDP），在大多数bin中有效；可判断阈值边的精确度。Figure 11用跨药物归一化汇总的交叉验证效应最好。 - 意在说明：与现有标准（knockoff）兼容，可直接嵌入真实药物筛选流程。

🔎 结论是否比证明窄： - Theorem 1的结论是 \(\hat{\beta} \to_p \beta^*\)（目标逼近），但不是 \(\widehat{\text{clar}}(w) \to_p \text{clar}(w)\)——这需要进一步假设所选的logistic模型是“正确指定”的，即存在某个\(\beta^*\)使得\(f(-w)/f(w)=\exp(\beta^{*T}h(w))\)几乎一定成立。论文未对该模型正确定性做任何可检验的条件（如“log clar应是自然样条的线性函数”），因此Theorem 1只保证收敛到“最优logistic近似”，而非真clar（除非模型正确）。论文在Theorem 2和3中有更强的“直接收敛于真clar”的断言，但那里的限制更大（单调noise/核密度）。读者应注意到：论文只是含蓄地宣称（在走向Theorem 4的语句中“when the estimator dclar is uniformly consistent for clar”）把一致一致性的条件的一部分——但是否logistic估计量真正一致于真clar并没有严格证明，只说在模型正确指定下端点结论成立。事实上，论文的反向依据是Figure 5和6用真实分布计算的clar与logistic估计的对比，这属于模拟验证，并非理论证明。

四、开放问题（点到为止，扎根具体语句）¶

在模型误指定下，logistic回归的clar估计是否是**真clar**的一致估计？论文的Theorem 1收敛到\(\beta^*\)（最优logistic逼近），但未给出\(\widehat{\text{clar}}_{\beta^*}(w)\)与真clar(w)的一致收敛性条件。扎根于定理1的陈述：“\(\hat{\beta}\) exists with probability tending to 1 and \(\hat{\beta} \to \beta^*\) in probability as \(p\to\infty\)”，和定理4条件(v) “\(\widehat{\text{clar}}\) is uniformly consistent for clar”, 两者之间有明显的间隙需要填补**。
能否建立clar估计的收敛速率（minimax rate / parametric rate）和半参数效率界？ 论文仅证明了p→∞的一致性，未提供收敛速度或semiparametric efficiency bound。扎根于论文的相关中提到Rice & Spiegelhalter (2008) 质疑“Must one compare the marginal f to an f0... might some advanced form of cross-validation offer a model-free approach?”——该伪参数设定的效率边界亟待推演。
在正侧富集假设不成立（备择在负侧有实质性贡献）时，clar不再是lfdr的保守上界——如何修正？ 论文仅在Appendix B（Proposition 5）中假设f_1(w) ≥ f_1(-w)确保满足，但未讨论实质违反此条件的情况。
knockoff产生的W-statistic之间存在强依赖时，ecdf一致收敛是否仍成立？论文中的Assumption 3.1及其在knockoff setting中的验证仅限于部分模拟（Figure 12-13）。在高相关设计矩阵下是否仍然成立，以及能否在理论上证明，仍是开放的。

Maintained by 陈星宇 · Homepage · Source on GitHub

Estimating the local false discovery rate under an unknown symmetric null¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论