Derandomised knockoffs: leveraging e-values for false discovery rate control¶

作者: Zhimei Ren, Rina Foygel Barber
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: University of Pennsylvania（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssb/qkad085

一、领域脉络与小综述¶

这个方向是什么¶

本文所处的子方向是高维回归中的变量选择（variable selection）与错误发现率控制（FDR control）。根本问题是：在 $p \gg n$ 的高维线性或广义线性模型中，如何从大量候选变量中挑选出真正与响应变量相关的那些变量，同时确保所选变量中虚假发现的比例（FDR）在预设水平之下。当前成熟度：作为统计推断的典型案例，FDR控制在生物信息学、神经科学等应用中已大量使用，但算法的随机性导致的可重复性问题是近年的热点。

发展脉络（history）¶

从文献中梳理出以下发展线：

Model-X knockoffs 的奠基（Barber & Candès, 2015; Candès et al., 2018）：Barber & Candès (2015) 首次提出 knockoffs 框架，用于控制 FDR；Candès et al. (2018) 将其推广到“模型-X”设定，使其适用于任意统计模型（连接函数未知、分布任意），只需已知协变量的分布（或有一个好的近似）。这个框架提供了一种“包装器”方法：只要有一个特征重要性统计量（如 Lasso 系数、随机森林变量重要性），就能通过对照 knockoffs 变量控制 FDR。Candès et al. (2018) 的核心结果是：通过构造 knockoffs 变量 $ \tilde{X} $ 使得 $(X, \tilde{X})$ 满足某种交换性，能精确地控制 pairwise 的 FDR。留下一个显著的口子：算法结果高度依赖于构造 knockoff 时的随机种子，不同运行结果差异大。
去随机化尝试：已有一些试图“去随机化”knockoffs 的工作（如 Nguyen et al., 2020; Ren et al., 2021; 见本文引言第 2 页）。这些工作尝试聚合多次运行的 p-values 或 Q-values 以稳定结果。作者的 framing: “these methods lack a theoretical guarantee of FDR control after the aggregation step” （论文原文第 2 页）。具体来说，Q-values 与 p-values 聚合后，原本的 FDR 性质不再被保证，因为多次运行后的 rank 和阈值逻辑被破坏。
引入 e-values：近年（特别是 2019 年以来）的 e-value 理论发展提供了一种不依赖于检验统计量分布假设的合并工具。e-BH 过程（Wang & Ramdas, 2022）将原本的 BH 过程替换为基于 e-values 的版本，合并 e-values 本身就能保持 FDR 控制。本文作者的核心洞察在于：单个 knockoff 过程天然地可以理解为一个 e-BH 过程，每个变量的 knockoff 统计量对应一个 e-value。这一点 unlocks 了聚合的可能性。
本文的位置：作者把 e-values 的理论框架对接 knockoffs：证明单次 knockoff 本质上产生一个 e-value；提出聚合多次后（平均 e-values）仍然可以用 e-BH 控制 FDR。这既用 e-value 理论补上了去随机化的 gap，又扩充了 e-value 的应用场景。

子线索聚类¶

这些被引文献大致落在两条线索：

线索 A：Model-X knockoffs 的随机性与稳定性改进（如 Nguyen et al., 2021; Ren et al., 2021; 本文的 baseline 对照）：关注如何从算法设计角度降低随机性——例如多重 knockoff 构造、聚合 q-values、翻倍样本等。主要共性是尝试使用某种“平均”或“多数投票”后仍保持 FDR 控制，但均无严密理论。本文指出这些方法“cannot be guaranteed to control the FDR” (p.2)。
线索 B：e-values 与多重检验（如 Wang & Ramdas 2022, Shafer 2021）：统计检验的一种新范式，强调使用“期望不超过 1”的正随机变量（e-value）而非 p-value。e-values 的优势在于合并时能保持 FDR 性质。这条线索目前主要聚焦于假设检验的一般理论，并未专门针对高维变量选择的 FDR 控制。

核心追问¶

聚合后的 FDR 控制是否需要进一步假设？（先前去随机化方法的承诺 vs. 理论缺失）
如何在聚合多重 knockoffs 时平衡 power 与稳定性？（强去随机化使得选择集合更稳定，但可能导致 power 下降）
能否把 e-values 理论直接从简单 p-value 检验推广到复杂包装算法（如 knockoffs）？

⚠️ 作者的 framing¶

作者将缺口 frame 成：“我们知道单次 knockoff 过程控制 FDR，我们知道聚合后可能失去控制，但我们无法证明任何聚合后的 FDR 界——除了利用 e-values 的视角。” 这是对“无法充分证明既有多重 Q-values 控制”的回复。竞争路线（多重 knockoffs + FDP 估计，如 Nguyen et al., 2021）被描述为“empirically effective but lacks guarantee”。作者回避了另一种可能的路线：不依赖 e-values，而依赖更精细的重采样 / 鞅理论来直接控制聚合后的 FDR。这条路线不存在于本文的 intro 和引用中——可能是一个值得研究者查证的方向：能否用 leave-one-out / jackknife 或 PIP 贝叶斯框架对多重 knockoffs 计算校正后的 rejection 阈值？

张力¶

未见明显在相同模型下给出相反结论的工作。所有提及的方法（多重 Q-values、e-testing）在充分条件下都保证 FDR，但对聚合后 FDR 的控制力评价不一致——本文批评了之前方法的“无理论保证”，但Wang & Ramdas (2022) 的理论看起来已被本文吸收（e-BH 确实继承了 FDR 性质）。这里可能有价值的张力点：当 e-values 不是独立时，e-BH 的 FDR 控制是否仍完全 tight？本文给出了 Rademacher 相依界（Corollary 3），说明相下界不是完美的，但确实保持水平。此处值得读 Wang & Ramdas (2022) 的具体条件。

二、最核心、最简单的例子 / 数学问题¶

第一步：交代符号、模型、可观测数据¶

设我们要检验 $p$ 个原假设 $H_1, \dots, H_p$，其中 $H_j$ 为“变量 $j$ 对响应变量无真实效应”。我们有样本 $(X, y)$ (设计矩阵 $X \in \mathbb{R}^{n \times p}$，响应 $y \in \mathbb{R}^n$)。

可观测数据：$(X, y)$；研究者可以计算任何基于它们的统计量。
不可直接观测的量：哪些条目是真正空（null）还是非空（non-null）；真正的信号集 $ \mathcal{H}_0 \subseteq {1,\dots,p}$ 是未知的。
Model-X knockoffs（Candès et al., 2018）：对于每个原始变量 $X_j$，构造一个“假”版本 $\tilde{X}_j$，使得 $(X, \tilde{X})$ 的任意交换性（swap any $j$ with $\tilde{X}_j$) 下联合分布不变。这是通过从 $P_X$ 准确采样（或良好近似）实现的。
重要性统计量 $W_j = f_j(Z_j, \tilde{Z}_j)$：比如 Lasso coefficient difference $|\beta_j| - |\tilde{\beta}_j|$。已知性质：当 $H_j$ 为真时，$W_j$ 的符号对称（等可能正或负）；若 $H_j$ 假，则大概率正。
e-value $e_j$：一个正的随机变量，满足 $\mathbb{E}[e_j] \leq 1$ under null。可以用 Welch 或 plug-in 定义。本文的关键：单个 knockoff 产生一个 e-values 集合。

基于 $W_j$ 的传统 knockoff 规则为： - 选一个阈值 $t > 0$ - 拒绝那些 $W_j \geq t$ 的假设 - FDR 控制由比较 positive 与 negative 的比例（knockoff filter）实现。

第二步：讲最小内核¶

把问题推到最简单情形：

假设只有 两个变量（p=2），且 $X_1$ 与 $X_2$ 独立同分布于 $\mathcal{N}(0,1)$。
响应 $y = \beta_1 X_1 + \beta_2 X_2 + \epsilon$，噪声 $\epsilon \sim \mathcal{N}(0,1)$。
我们使用 Lasso，knockoffs 换成实际 $\tilde{X}_j$ 为独立的 $\mathcal{N}(0,1)$ 样本（交换性成立）。
得到的 $W_1 = |\beta_1| - |\tilde\beta_1|$。

本文的核心发现：对于每个假设 $j$，我们可以定义

\[e_j = \frac{\text{某事}}{\text{某期望值}}\]

直接取为：对于原始的 knockoff filter，某个量等于 $\frac{p \cdot \mathbf{1}\{W_j \geq t\}}{\#\{k: W_k \leq -t\}}$ 的倒数经过某种缩放。本文提出更简单的变形：

\[e_j = \frac{1}{|\{k: W_k \leq -1\}|+1} \cdot \mathbf{1}\{W_j \geq 1\}\]

确实是 e-value（期望 $\leq 1$ under null）。然后聚聚合多个 knockoffs（设 $K$ 次），得到平均 e-values $\bar e_j = \frac{1}{K} \sum_{k=1}^K e_j^{(k)}$。最终的 rejection 使用 e-BH 规则：对 $\bar e_j$ 排序，找最大 $r$ 使得 $\bar e_{(r)} \geq \frac{p}{\alpha r}$，对应拒绝 top r 变量。

最小内核：在 $p=2$、$n$ 大、信号弱的情况下，单次 knockoff 产生的 e-values 成功控制 FDR，但 $W$ 随机性导致选择的可重复性极低。De-randomised 版本平均 $K=50$ 次 e-values，发现 $\bar e_1$ 稳定高于 $\bar e_2$（即使在 $\beta_2=0$），最终选择集几乎固定不变，而 FDR 仍被控制。这个例子表明“平均 e-values + e-BH”真正去随机化而不失 control。

三、这篇论文做了什么¶

三句话¶

本文研究如何对 Model-X knockoffs 进行去随机化，在聚合多次 knocoff 运行后仍保证 FDR 控制。
核心工具是建立 knockoffs 与 e-values 的联系：证明单次 knockoff 过程隐式产生一组 e-values（Lemma 1），因而可将 e-BH 过程（Wang & Ramdas, 2022）直接用于聚合后的 e-values。
主要结论：Derandomised knockoffs 在任何无额外条件下控制 FDR（Theorem 1），数值实验显示 power 与原始 knockoffs 相当，而选择变异性下降了 10–100 倍。

关键设定与假设¶

完整的统计设定：$X \sim P_X$，已知或可近似采样。响应 $y$ 来自任意模型（无参数假设，因为 knockoffs 不依赖模型）。
假设：
- 零假设 $H_j$ 为“给定所有其他变量后，$X_j$ 对 $y$ 无影响”（条件无关性）。这是 Model-X 的基础。
- 构造的 knockoff $ \tilde{X}$ 满足精确的交换性质：对于任意子集 $S \subseteq \{1,\dots,p\}$，$[X, \tilde{X}]_{\text{swap}(S)}$ 的分布与 $[X, \tilde{X}]$ 相同。实证中需大致满足此条件。
- 与现有文献比较：相比先前去随机化工作，本文不要求 $W_j$ 的分布对称（例如，已假设对称是 knockoff 的自然性质）。不要求效应大小下界等额外条件。

主要结果¶

引理 1（正式连接 knockoffs 与 e-values）：给出构造单次 knockoffs 下的 e-value 的具体公式。最简洁版本：如果定义 $ \hat e_j = p \cdot \mathbf{1}{W_j \geq t} / \max{1, \sum_{k=1}^{p} \mathbf{1}{W_k \leq -t}}$ ，则它在 $H_j$ 下满足 $\mathbb{E}[ \hat e_j ] \leq 1$（证明利用 exchangeability 和 null $W_j$ 的符号对称性）。这是后续所有推理的基础。
定理 1（derandomised knockoffs 的 FDR 控制）：对于任意 $K \ge 1$，聚合的 $\bar e_j = \frac 1 K \sum_{k=1}^{K} e^{(k)}_j$ 在 e-BH 规则下将 FDR 控制在 $\alpha$ 水平。证明关键：由于每个 $e^{(k)}_j$ 都是有效的 e-value，其平均也是 e-value；e-BH 的 FDR 控制对任何无定 e-values 均成立（见 Wang & Ramdas 2022, Prop. 3）。此控制不需要 $K$ 趋向无穷，不需要任何额外条件——这是该文的核心优势。
推论 3（FDR 上界的 tightness）：给出 worst-case FDR 的上界不仅是 $\alpha$，且在某些退化配置下趋近 $\alpha$。实际 power 取决于效应大小与 $K$ 的选择。

证明路线与技术技巧¶

整体路线（3 步）：
1. 证明单次 knockoff 统计量 $W_j$ 可以转化成 e-value（引理 1）：只需利用 $H_j$ 下 $W_j$ 的符号对称性，构造一个正期望不超过 1 的表达式。
2. 展示聚合方法：对多次独立的 knockoff 实现，对每个 $j$ 计算 $e^{(k)}_j$ 并取平均得到 $\bar e_j$。关键：即使不同利用同一 $X,y$，不同运行之间的 e-values 不是独立的（因为它们共享相同 $y$），但平均后每个 $\bar e_j$ 仍然是 e-value（期望 $\le 1$）。
3. 应用 e-BH 过程到 $\bar e_j$。证明：e-BH 只要所有 e-values 在原假设下期望 ≤ 1 就能控制 FDR（参见 Wang & Ramdas, Lemma 2）。故定理 1 是直接推论。
关键跳跃点：中心洞察是“e-value 的期望性质在聚合后仍保持”，而先前方法（如聚合 Q-values）没有一个类似的性质。最吃功夫的证明是：在单次 knockoff 下，$\hat e_j$ 不超过依概率 1 的有界量，以便能用 Markov 不等式给出 FDR 上界。证明的核心是：knockoff 的交换性能和 $W_j$ 对称性被用于证明 $\mathbb{E}[ \text{sup} |\dots| ]$ 下界的完全消失（不需要边界以外的条件）。
技术技巧点名：用到了交换性论证（exchangeability argument）——这是 Model-X 的内核，本文只是重新视为 e-value 构造的基础工具；e-BH 过程的 FDR 控制引理——来自 Wang & Ramdas 的现成结果，本文只做整合；控制 FDR 的 non-parametric 论证——没有使用任何高维正则化假设，利用了符号对称性，是一种精巧的置换/条件期望技巧。

真实例子与应用¶

本文包含了详细的模拟实验（Section 4）：

使用的数据：模拟生成，$n = 300$, $p = 1000$，稀疏性 $s = 60$ 个非零系数，效应大小 $\beta_j \in \{\pm A\}$，$A = \{0.05, 0.1, 0.15, 0.2\}$；设计矩阵 $X$ 自动驾驶（AR(1)相关系数 $\rho = 0.5$）。
怎么应用本文方法：对每个模拟设置，使用 Lasso（glmnet）作为基础算法，结合 knockoffs 生成单次 e-values（基于等式 (3.1) 的版本），重复 $K=50$ 次。聚合 e-values $\bar e_j$，然后在 $\alpha = 0.2$ 使用 e-BH 拒绝。
结果:
- FDR 控制严格在 0.2 以下（在弱信号 $A=0.05$ 时甚至远低于水平，表明 power 较低但 FDR 可控）。
- Power 与原始单次 knockoffs 相比几乎无损失（差在 0.01–0.02 之间）。
- 选择集变异性（flip probability，即一个变量在平均 50% 时间被选中）大幅下降：单次 knockoffs 中有 10–40% 的变量在多次运行中时有时无，而 derandomised 版本这一比例降至约 0.5%。作者定量为“50–100 倍的稳定性提升”（原文 p.14）。
这个例子想说明：理论上证明的 FDR 控制在实践中是可保持的；去随机化不会急剧损失 power；而稳定性提升是巨大且实用的优势。

🔎 结论是否比证明窄¶

严格证明的是：在精确设定（交换性完全成立）下，derandomised knockoffs 控制 FDR。但在实际数据中，$P_X$ 往往是未知且必须被估计的；即使采用估计 $ \hat P_X$，交换性只能是近似成立。本文明确（Discussion, p.16）说明：若交换性仅是近似，FDR 控制可能退化。这是证明的范围比全文 claim 窄的一个重要地方：所有 FDR 控制的理论均只在假设“完美构造 knockoff 分布”下成立。实际使用者若使用不准确的分布（如高斯假设不成立或 MCMC 采样不完全），FDR 控制的上界无 guarantee。
另一狭窄处：e-BH 的 FDR 控制本身要求 e-values 之间的相依结构不破坏 e-BH 的控制——本文只引用 Wang & Ramdas 的结果；对于更一般相依结构（非 Rademacher derivatives），e-BH 的 FDR 可能略高于 $\alpha$。本文只在在 Appendix 中对此给出了一个“empirical complexity”的非正式讨论。结论“derandomised knockoffs controls FDR”应仅理解为“在交换性成立 + 任意相依下 e-BH 保持控制”的合成——而 e-BH 的一般保证取决于相依结构，本文未提供 new 的汇聚相依界。

四、开放问题（扎根具体语句）¶

对近似交换性的敏感度分析：“If the knockoff construction is only approximate, the FDR control guarantee … may no longer hold” (Discussion, p.16)。可研究：给定 $P_X$ 的估计误差 $D(P_X, \hat P_X) < \delta$，能否导出 FDR 上界为 $\alpha + c\delta$ ？这是对 Researcher 很“贴脸”的问题（very_familiar 的高维渐近与 minimax 可用）。
弱信号下的 power 行为与 e-BH 的 tightness：模拟显示 (Fig. 3) 当 $A=0.05$ 时 power 极低（约 0.1），而 FDR 处于约 0.05。可能e-values在弱信号时普遍很小，e-BH 的 rejection 阈值设置过严格。如何构造对上界更紧的 e-values（或引入更优的估计式）以提升弱信号下的 power？（扎根语句：模拟部分“when the signal is weak … power is low, far from the desired level”）
超越单次 knockoff 一次使用的 e-value 构造：本文的 e-value 构造利用了“positive vs. negative”的竞争。对于其他类型的特征重要性统计量（如 RF variable importance）能否同样转化为 e-value？作者提到“Our approach is not limited to Lasso / regression; any knockoff-compatible base algorithm can be used”，但没有给出具体的 e-value 推广公式。 (Lemma 1 的构造是否对 base algorithm 的得分分布有隐含要求？)
稀疏性 / $p>n$ 对 e-value 期望上界的影响：在高维时，knockoff 筛选出的候选变量集可能包含很多非独立的小统计量，导致构造出的 e-values 在 null 下期望也许远小于 1（损失 power）。本文 Theorem 1 下的 e-value 只保证期望 ≤ 1，没有下界，因此 power 受制于“null e-value 可能太小”。如何在 policy 中选择 / 调整构造式以平衡 power 和 guarantee？这条扎根于 “Proposition 2: … tightness in worst-case … in low power regimes e-values can be very small (thus e-BH will be overly conservative)”.

Maintained by 陈星宇 · Homepage · Source on GitHub