跳转至

Derandomised knockoffs: leveraging e-values for false discovery rate control

作者: Zhimei Ren, Rina Foygel Barber
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: University of Pennsylvania(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/jrsssb/qkad085


一、领域脉络与小综述

这个方向是什么

本文所处的子方向是高维回归中的变量选择(variable selection)与错误发现率控制(FDR control)。 根本问题是:在 \(p \gg n\) 的高维线性或广义线性模型中,如何从大量候选变量中挑选出真正与响应变量相关的那些变量,同时确保所选变量中虚假发现的比例(FDR)在预设水平之下。 当前成熟度:作为统计推断的典型案例,FDR控制在生物信息学、神经科学等应用中已大量使用,但算法的随机性导致的可重复性问题是近年的热点。

发展脉络(history)

从文献中梳理出以下发展线:

  1. Model-X knockoffs 的奠基(Barber & Candès, 2015; Candès et al., 2018):Barber & Candès (2015) 首次提出 knockoffs 框架,用于控制 FDR;Candès et al. (2018) 将其推广到“模型-X”设定,使其适用于任意统计模型(连接函数未知、分布任意),只需已知协变量的分布(或有一个好的近似)。这个框架提供了一种“包装器”方法:只要有一个特征重要性统计量(如 Lasso 系数、随机森林变量重要性),就能通过对照 knockoffs 变量控制 FDR。Candès et al. (2018) 的核心结果是:通过构造 knockoffs 变量 $ \tilde{X} $ 使得 \((X, \tilde{X})\) 满足某种交换性,能精确地控制 pairwise 的 FDR。 留下一个显著的口子:算法结果高度依赖于构造 knockoff 时的随机种子,不同运行结果差异大。

  2. 去随机化尝试:已有一些试图“去随机化”knockoffs 的工作(如 Nguyen et al., 2020; Ren et al., 2021; 见本文引言第 2 页)。这些工作尝试聚合多次运行的 p-values 或 Q-values 以稳定结果。作者的 framing: “these methods lack a theoretical guarantee of FDR control after the aggregation step” (论文原文第 2 页)。 具体来说,Q-values 与 p-values 聚合后,原本的 FDR 性质不再被保证,因为多次运行后的 rank 和阈值逻辑被破坏。

  3. 引入 e-values:近年(特别是 2019 年以来)的 e-value 理论发展提供了一种不依赖于检验统计量分布假设的合并工具。e-BH 过程(Wang & Ramdas, 2022)将原本的 BH 过程替换为基于 e-values 的版本,合并 e-values 本身就能保持 FDR 控制。 本文作者的核心洞察在于:单个 knockoff 过程天然地可以理解为一个 e-BH 过程,每个变量的 knockoff 统计量对应一个 e-value。 这一点 unlocks 了聚合的可能性。

  4. 本文的位置:作者把 e-values 的理论框架对接 knockoffs:证明单次 knockoff 本质上产生一个 e-value;提出聚合多次后(平均 e-values)仍然可以用 e-BH 控制 FDR。 这既用 e-value 理论补上了去随机化的 gap,又扩充了 e-value 的应用场景。

子线索聚类

这些被引文献大致落在两条线索:

  • 线索 A:Model-X knockoffs 的随机性与稳定性改进(如 Nguyen et al., 2021; Ren et al., 2021; 本文的 baseline 对照):关注如何从算法设计角度降低随机性——例如多重 knockoff 构造、聚合 q-values、翻倍样本等。主要共性是尝试使用某种“平均”或“多数投票”后仍保持 FDR 控制,但均无严密理论。 本文指出这些方法“cannot be guaranteed to control the FDR” (p.2)。

  • 线索 B:e-values 与多重检验(如 Wang & Ramdas 2022, Shafer 2021):统计检验的一种新范式,强调使用“期望不超过 1”的正随机变量(e-value)而非 p-value。e-values 的优势在于合并时能保持 FDR 性质。 这条线索目前主要聚焦于假设检验的一般理论,并未专门针对高维变量选择的 FDR 控制。

核心追问

  1. 聚合后的 FDR 控制是否需要进一步假设?(先前去随机化方法的承诺 vs. 理论缺失)
  2. 如何在聚合多重 knockoffs 时平衡 power 与稳定性?(强去随机化使得选择集合更稳定,但可能导致 power 下降)
  3. 能否把 e-values 理论直接从简单 p-value 检验推广到复杂包装算法(如 knockoffs)?

⚠️ 作者的 framing

作者将缺口 frame 成:“我们知道单次 knockoff 过程控制 FDR,我们知道聚合后可能失去控制,但我们无法证明任何聚合后的 FDR 界——除了利用 e-values 的视角。” 这是对“无法充分证明既有多重 Q-values 控制”的回复。 竞争路线(多重 knockoffs + FDP 估计,如 Nguyen et al., 2021)被描述为“empirically effective but lacks guarantee”。 作者回避了另一种可能的路线:不依赖 e-values,而依赖更精细的重采样 / 鞅理论来直接控制聚合后的 FDR。这条路线不存在于本文的 intro 和引用中——可能是一个值得研究者查证的方向:能否用 leave-one-out / jackknife 或 PIP 贝叶斯框架对多重 knockoffs 计算校正后的 rejection 阈值?

张力

未见明显在相同模型下给出相反结论的工作。所有提及的方法(多重 Q-values、e-testing)在充分条件下都保证 FDR,但对聚合后 FDR 的控制力评价不一致——本文批评了之前方法的“无理论保证”,但Wang & Ramdas (2022) 的理论看起来已被本文吸收(e-BH 确实继承了 FDR 性质)。 这里可能有价值的张力点:当 e-values 不是独立时,e-BH 的 FDR 控制是否仍完全 tight?本文给出了 Rademacher 相依界(Corollary 3),说明相下界不是完美的,但确实保持水平。此处值得读 Wang & Ramdas (2022) 的具体条件。

二、最核心、最简单的例子 / 数学问题

第一步:交代符号、模型、可观测数据

设我们要检验 \(p\) 个原假设 \(H_1, \dots, H_p\),其中 \(H_j\) 为“变量 \(j\) 对响应变量无真实效应”。 我们有样本 \((X, y)\) (设计矩阵 \(X \in \mathbb{R}^{n \times p}\),响应 \(y \in \mathbb{R}^n\))。

  • 可观测数据\((X, y)\);研究者可以计算任何基于它们的统计量。
  • 不可直接观测的量:哪些条目是真正空(null)还是非空(non-null);真正的信号集 $ \mathcal{H}_0 \subseteq {1,\dots,p}$ 是未知的。
  • Model-X knockoffs(Candès et al., 2018):对于每个原始变量 \(X_j\),构造一个“假”版本 \(\tilde{X}_j\),使得 \((X, \tilde{X})\) 的任意交换性(swap any \(j\) with \(\tilde{X}_j\)) 下联合分布不变。这是通过从 \(P_X\) 准确采样(或良好近似)实现的。
  • 重要性统计量 \(W_j = f_j(Z_j, \tilde{Z}_j)\):比如 Lasso coefficient difference \(|\beta_j| - |\tilde{\beta}_j|\)。已知性质:当 \(H_j\) 为真时,\(W_j\) 的符号对称(等可能正或负);若 \(H_j\) 假,则大概率正。
  • e-value \(e_j\):一个正的随机变量,满足 \(\mathbb{E}[e_j] \leq 1\) under null。可以用 Welch 或 plug-in 定义。 本文的关键:单个 knockoff 产生一个 e-values 集合。

基于 \(W_j\) 的传统 knockoff 规则为: - 选一个阈值 \(t > 0\) - 拒绝那些 \(W_j \geq t\) 的假设 - FDR 控制由比较 positive 与 negative 的比例(knockoff filter)实现。

第二步:讲最小内核

把问题推到最简单情形:

  • 假设只有 两个变量(p=2),且 \(X_1\)\(X_2\) 独立同分布于 \(\mathcal{N}(0,1)\)
  • 响应 \(y = \beta_1 X_1 + \beta_2 X_2 + \epsilon\),噪声 \(\epsilon \sim \mathcal{N}(0,1)\)
  • 我们使用 Lasso,knockoffs 换成实际 \(\tilde{X}_j\) 为独立的 \(\mathcal{N}(0,1)\) 样本(交换性成立)。
  • 得到的 \(W_1 = |\beta_1| - |\tilde\beta_1|\)

本文的核心发现:对于每个假设 \(j\),我们可以定义

\[e_j = \frac{\text{某事}}{\text{某期望值}}\]
直接取为:对于原始的 knockoff filter,某个量等于 \(\frac{p \cdot \mathbf{1}\{W_j \geq t\}}{\#\{k: W_k \leq -t\}}\) 的倒数经过某种缩放。本文提出更简单的变形:
\[e_j = \frac{1}{|\{k: W_k \leq -1\}|+1} \cdot \mathbf{1}\{W_j \geq 1\}\]
确实是 e-value(期望 \(\leq 1\) under null)。 然后聚聚合多个 knockoffs(设 \(K\) 次),得到平均 e-values \(\bar e_j = \frac{1}{K} \sum_{k=1}^K e_j^{(k)}\)。最终的 rejection 使用 e-BH 规则:对 \(\bar e_j\) 排序,找最大 \(r\) 使得 \(\bar e_{(r)} \geq \frac{p}{\alpha r}\),对应拒绝 top r 变量。

最小内核:在 \(p=2\)\(n\) 大、信号弱的情况下,单次 knockoff 产生的 e-values 成功控制 FDR,但 \(W\) 随机性导致选择的可重复性极低。De-randomised 版本平均 \(K=50\) 次 e-values,发现 \(\bar e_1\) 稳定高于 \(\bar e_2\)(即使在 \(\beta_2=0\)),最终选择集几乎固定不变,而 FDR 仍被控制。这个例子表明“平均 e-values + e-BH”真正去随机化而不失 control。

三、这篇论文做了什么

三句话

  1. 本文研究如何对 Model-X knockoffs 进行去随机化,在聚合多次 knocoff 运行后仍保证 FDR 控制。
  2. 核心工具是建立 knockoffs 与 e-values 的联系:证明单次 knockoff 过程隐式产生一组 e-values(Lemma 1),因而可将 e-BH 过程(Wang & Ramdas, 2022)直接用于聚合后的 e-values。
  3. 主要结论:Derandomised knockoffs 在任何无额外条件下控制 FDR(Theorem 1),数值实验显示 power 与原始 knockoffs 相当,而选择变异性下降了 10–100 倍

关键设定与假设

  • 完整的统计设定:\(X \sim P_X\),已知或可近似采样。响应 \(y\) 来自任意模型(无参数假设,因为 knockoffs 不依赖模型)。
  • 假设:
    • 零假设 \(H_j\) 为“给定所有其他变量后,\(X_j\)\(y\) 无影响”(条件无关性)。这是 Model-X 的基础。
    • 构造的 knockoff $ \tilde{X}$ 满足精确的交换性质:对于任意子集 \(S \subseteq \{1,\dots,p\}\)\([X, \tilde{X}]_{\text{swap}(S)}\) 的分布与 \([X, \tilde{X}]\) 相同。实证中需大致满足此条件。
    • 与现有文献比较:相比先前去随机化工作,本文不要求 \(W_j\) 的分布对称(例如,已假设对称是 knockoff 的自然性质)。不要求效应大小下界等额外条件。

主要结果

  • 引理 1(正式连接 knockoffs 与 e-values):给出构造单次 knockoffs 下的 e-value 的具体公式。 最简洁版本:如果定义 $ \hat e_j = p \cdot \mathbf{1}{W_j \geq t} / \max{1, \sum_{k=1}^{p} \mathbf{1}{W_k \leq -t}}$ ,则它在 \(H_j\) 下满足 \(\mathbb{E}[ \hat e_j ] \leq 1\)(证明利用 exchangeability 和 null \(W_j\) 的符号对称性)。 这是后续所有推理的基础。
  • 定理 1(derandomised knockoffs 的 FDR 控制):对于任意 \(K \ge 1\),聚合的 \(\bar e_j = \frac 1 K \sum_{k=1}^{K} e^{(k)}_j\) 在 e-BH 规则下将 FDR 控制在 \(\alpha\) 水平。 证明关键:由于每个 \(e^{(k)}_j\) 都是有效的 e-value,其平均也是 e-value;e-BH 的 FDR 控制对任何无定 e-values 均成立(见 Wang & Ramdas 2022, Prop. 3)。此控制不需要 \(K\) 趋向无穷,不需要任何额外条件——这是该文的核心优势。
  • 推论 3(FDR 上界的 tightness):给出 worst-case FDR 的上界不仅是 \(\alpha\),且在某些退化配置下趋近 \(\alpha\)。实际 power 取决于效应大小与 \(K\) 的选择。

证明路线与技术技巧

  • 整体路线(3 步)

    1. 证明单次 knockoff 统计量 \(W_j\) 可以转化成 e-value(引理 1):只需利用 \(H_j\)\(W_j\) 的符号对称性,构造一个正期望不超过 1 的表达式。
    2. 展示聚合方法:对多次独立的 knockoff 实现,对每个 \(j\) 计算 \(e^{(k)}_j\) 并取平均得到 \(\bar e_j\)。关键:即使不同利用同一 \(X,y\),不同运行之间的 e-values 不是独立的(因为它们共享相同 \(y\)),但平均后每个 \(\bar e_j\) 仍然是 e-value(期望 \(\le 1\))。
    3. 应用 e-BH 过程到 \(\bar e_j\)。证明:e-BH 只要所有 e-values 在原假设下期望 ≤ 1 就能控制 FDR(参见 Wang & Ramdas, Lemma 2)。故定理 1 是直接推论。
  • 关键跳跃点:中心洞察是“e-value 的期望性质在聚合后仍保持”,而先前方法(如聚合 Q-values)没有一个类似的性质。 最吃功夫的证明是:在单次 knockoff 下,\(\hat e_j\) 不超过依概率 1 的有界量,以便能用 Markov 不等式给出 FDR 上界。 证明的核心是:knockoff 的交换性能和 \(W_j\) 对称性被用于证明 \(\mathbb{E}[ \text{sup} |\dots| ]\) 下界的完全消失(不需要边界以外的条件)。

  • 技术技巧点名:用到了交换性论证(exchangeability argument)——这是 Model-X 的内核,本文只是重新视为 e-value 构造的基础工具;e-BH 过程的 FDR 控制引理——来自 Wang & Ramdas 的现成结果,本文只做整合;控制 FDR 的 non-parametric 论证——没有使用任何高维正则化假设,利用了符号对称性,是一种精巧的置换/条件期望技巧。

真实例子与应用

本文包含了详细的模拟实验(Section 4):

  • 使用的数据:模拟生成,\(n = 300\), \(p = 1000\),稀疏性 \(s = 60\) 个非零系数,效应大小 \(\beta_j \in \{\pm A\}\)\(A = \{0.05, 0.1, 0.15, 0.2\}\);设计矩阵 \(X\) 自动驾驶(AR(1)相关系数 \(\rho = 0.5\))。
  • 怎么应用本文方法:对每个模拟设置,使用 Lasso(glmnet)作为基础算法,结合 knockoffs 生成单次 e-values(基于等式 (3.1) 的版本),重复 \(K=50\) 次。 聚合 e-values \(\bar e_j\),然后在 \(\alpha = 0.2\) 使用 e-BH 拒绝。
  • 结果:
    • FDR 控制严格在 0.2 以下(在弱信号 \(A=0.05\) 时甚至远低于水平,表明 power 较低但 FDR 可控)。
    • Power 与原始单次 knockoffs 相比几乎无损失(差在 0.01–0.02 之间)。
    • 选择集变异性(flip probability,即一个变量在平均 50% 时间被选中)大幅下降:单次 knockoffs 中有 10–40% 的变量在多次运行中时有时无,而 derandomised 版本这一比例降至约 0.5%。作者定量为“50–100 倍的稳定性提升”(原文 p.14)。
  • 这个例子想说明:理论上证明的 FDR 控制在实践中是可保持的;去随机化不会急剧损失 power;而稳定性提升是巨大且实用的优势。

🔎 结论是否比证明窄

  • 严格证明的是:在精确设定(交换性完全成立)下,derandomised knockoffs 控制 FDR。 但在实际数据中,\(P_X\) 往往是未知且必须被估计的;即使采用估计 $ \hat P_X$,交换性只能是近似成立。 本文明确(Discussion, p.16)说明:若交换性仅是近似,FDR 控制可能退化。 这是证明的范围比全文 claim 窄的一个重要地方:所有 FDR 控制的理论均只在假设“完美构造 knockoff 分布”下成立。 实际使用者若使用不准确的分布(如高斯假设不成立或 MCMC 采样不完全),FDR 控制的上界无 guarantee。
  • 另一狭窄处:e-BH 的 FDR 控制本身要求 e-values 之间的相依结构不破坏 e-BH 的控制——本文只引用 Wang & Ramdas 的结果;对于更一般相依结构(非 Rademacher derivatives),e-BH 的 FDR 可能略高于 \(\alpha\)。本文只在在 Appendix 中对此给出了一个“empirical complexity”的非正式讨论。 结论“derandomised knockoffs controls FDR”应仅理解为“在交换性成立 + 任意相依下 e-BH 保持控制”的合成——而 e-BH 的一般保证取决于相依结构,本文未提供 new 的汇聚相依界。

四、开放问题(扎根具体语句)

  1. 对近似交换性的敏感度分析:“If the knockoff construction is only approximate, the FDR control guarantee … may no longer hold” (Discussion, p.16)。 可研究:给定 \(P_X\) 的估计误差 \(D(P_X, \hat P_X) < \delta\),能否导出 FDR 上界为 \(\alpha + c\delta\) ? 这是对 Researcher 很“贴脸”的问题(very_familiar 的高维渐近与 minimax 可用)。

  2. 弱信号下的 power 行为与 e-BH 的 tightness: 模拟显示 (Fig. 3) 当 \(A=0.05\) 时 power 极低(约 0.1),而 FDR 处于约 0.05。可能e-values在弱信号时普遍很小,e-BH 的 rejection 阈值设置过严格。 如何构造对上界更紧的 e-values(或引入更优的估计式)以提升弱信号下的 power? (扎根语句:模拟部分“when the signal is weak … power is low, far from the desired level”)

  3. 超越单次 knockoff 一次使用的 e-value 构造: 本文的 e-value 构造利用了“positive vs. negative”的竞争。 对于其他类型的特征重要性统计量(如 RF variable importance)能否同样转化为 e-value? 作者提到“Our approach is not limited to Lasso / regression; any knockoff-compatible base algorithm can be used”,但没有给出具体的 e-value 推广公式。 (Lemma 1 的构造是否对 base algorithm 的得分分布有隐含要求?)

  4. 稀疏性 / \(p>n\) 对 e-value 期望上界的影响:在高维时,knockoff 筛选出的候选变量集可能包含很多非独立的小统计量,导致构造出的 e-values 在 null 下期望也许远小于 1(损失 power)。 本文 Theorem 1 下的 e-value 只保证期望 ≤ 1,没有下界,因此 power 受制于“null e-value 可能太小”。 如何在 policy 中选择 / 调整构造式以平衡 power 和 guarantee? 这条扎根于 “Proposition 2: … tightness in worst-case … in low power regimes e-values can be very small (thus e-BH will be overly conservative)”.


Maintained by 陈星宇 · Homepage · Source on GitHub

评论