Adjusting the Benjamini–Hochberg method for controlling the false discovery rate in knockoff-assisted variable selection¶

作者: Sanat K Sarkar, Cheng Yong Tang
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在（高维）多重回归的变量选择中，如何既选出真正影响响应变量的特征，又严格控制错误发现率（FDR，即选出的特征中假阳性的期望比例）。当前该方向的成熟度处于“有有限样本精确控制的理论框架，但实际应用受限于严苛分布假设或检验统计量构造依赖”的阶段：经典的 Benjamini–Hochberg（BH）方法在一般相依结构下需要 PRDS 等条件才能控制 FDR，而 Knockoff 框架虽给出了有限样本精确控制，但其原始实现要么要求 \(n \ge 2d\) 且需构造完美模仿原变量相关结构的伪变量，要么在 model-X 设定下要求特征分布已知。

发展脉络： - 奠基工作：Benjamini & Hochberg (1995) 提出基于 p 值的 step-up FDR 控制程序，在独立或正相依（PRDS）下控制 FDR。Sarkar (1998, 2008) 将 Simes 不等式与 BH 推广到 MTP2 相依结构下的 k-FWER 与 k-FDR 控制。这一路线留下了口子：在任意未知相依结构下，BH 需要乘以 \(\sum 1/i\) 的惩罚因子（BY 校正），极其保守。 - 主要进展（Knockoff 路线崛起）：Barber & Candès (2015) 引入 Knockoff Filter，在固定设计线性模型、\(n \ge 2d\) 下，通过构造特征伪变量实现有限样本精确 FDR 控制，不依赖噪声水平 \(\sigma\)。Janson & Su (2016) 将其推广至 k-FWER 控制。Candès et al. (2018) 提出 Model-X Knockoff，将框架推广至 \(n < d\) 且特征分布已知的情况。这一路线的口子：构造 Knockoff 需要知道特征间的相关结构（固定设计下需计算 \(\Sigma^{-1}\)，Model-X 下需知道 \(X\) 的精确分布）。 - 当前 frontier（绕过分布/结构假设与提升 Power）：Xing et al. (2019) 提出 Gaussian Mirror，通过给每个特征加减高斯扰动构造镜像变量，在温和相依假设下渐近控制 FDR，部分绕开了对全局相关结构的依赖。Barber et al. (2019) 研究 Model-X Knockoff 在特征分布估计错误时的鲁棒性，发现微小估计误差会导致 FDR 爆炸。Spector & Janson (2020) 指出最小化 MAC（Mean Absolute Correlation）构造 Knockoff 在某些极简单设定下会 Power 为零，提出最小化重构误差（MRC）的构造。Fithian & Lei (2020) 提出依赖校正的 dBH 方法，在已知部分相依结构下通过条件校准提升 BH 的 Power。 - 本文的位置：本文回到 Barber & Candès (2015) 的固定设计、\(n \ge 2d\) 框架，试图把 BH 这类纯 p 值方法“嫁接”到 Knockoff 的对称性上，从而绕开 BH 对相依结构的假设，同时绕开 Knockoff 对构造伪变量时需指定相关结构的依赖。

子线索聚类： 1. p 值与相依结构校正路线：BH (1995) → BY (2001) → Sarkar (2008, MTP2) → Fithian & Lei (2020, dBH)。这一簇在做：如何放宽 BH 的相依假设，或在已知相依下提升 Power。 2. Knockoff 构造与 Power 优化路线：Barber & Candès (2015, 固定设计) → Candès et al. (2018, Model-X) → Sesia et al. (2017, HMM) → Romano et al. (2018, Deep Knockoff) → Spector & Janson (2020, MRC)。这一簇在做：如何在不同分布下构造满足交换性的 Knockoff，以及如何让构造不损害 Power。 3. 绕开全局结构假设的局部扰动路线：Xing et al. (2019, Gaussian Mirror)。这一簇在做：通过局部扰动构造对照，而非全局生成伪变量矩阵。

这个方向在追问的核心问题： 1. 在变量选择中，能否在不知道特征分布或相关结构的情况下，实现有限样本或渐近的 FDR 控制？ 2. Knockoff 的 Power 损失根源在哪？如何构造 Knockoff 使得机器学习算法无法从 Knockoff 重构出信号？ 3. p 值方法与 Knockoff 方法能否统一？即能否利用 Knockoff 的对称性生成 p 值，再套用 BH，从而兼得 p 值方法的灵活性与 Knockoff 的有限样本控制？

⚠️ 作者的 framing： - 作者的说法：作者把缺口 frame 成“BH 在 Knockoff 设定下常被视为竞争者，但因其需要指定相依结构而受限；Knockoff 虽不依赖相依结构假设，但其原始实现（如计算 \(W\) 统计量并找阈值 \(T\)）并非基于 p 值，难以与庞大的 p 值多重检验生态对接”。作者声称自己的调整版 BH 是“显然的下一步”，因为它把 Knockoff 的对称性转化为 p 值，从而既不需要相依结构假设，又回到了 p 值框架。 - 被淡化或回避的竞争路线：作者在 intro 中完全没有提及 Gaussian Mirror (Xing et al. 2019)，这是一条同样试图绕开全局相关结构、且在高度相关设定下 Power 表现很好的路线。此外，作者没有讨论 Model-X Knockoff 在 \(n < d\) 设定下的适用性，将讨论严格限制在 \(n \ge 2d\)。 - 明显该被引却未出现的：Fithian & Lei (2020) 的 dBH 方法同样是在已知部分相依结构下校准 BH，且在 PRDS 下一致优于 BH，这与本文“调整 BH”的动机高度重合，但 intro 未引。此外，Meinshausen et al. (2008) 的多折 p 值聚合方法也是处理高维回归 p 值依赖的经典，未出现。

张力：未见明显对立引用。Barber & Candès (2015) 与 BH 在文献中更多是“互补与竞争”关系，而非结论矛盾。但存在一个隐性张力：Barber et al. (2019) 证明 Model-X Knockoff 对分布假设极敏感（微小误差致 FDR 爆炸），而本文声称调整后的 BH 不依赖相关结构——这两者对“结构/分布已知性”的依赖程度截然不同，本文的结论仅限于固定设计 \(n \ge 2d\)，不可直接外推至 Model-X。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(n\)：样本量（观测数）。
\(d\)：解释变量（特征）数。本文设定 \(n \ge 2d\)。
\(Y \in \mathbb{R}^n\)：响应变量向量（可观测）。
\(X \in \mathbb{R}^{n \times d}\)：原始设计矩阵（可观测），列向量记为 \(X_j\)。
\(\tilde{X} \in \mathbb{R}^{n \times d}\)：Knockoff 伪变量矩阵（由研究者构造，非自然观测）。构造满足：\((X, \tilde{X})^T (X, \tilde{X}) \approx 2\Sigma\)（其中 \(\Sigma = X^T X\)），且 \(\tilde{X}_j\) 与 \(Y\) 在给定 \(X\) 下独立。
\(\beta \in \mathbb{R}^d\)：真实回归系数（不可观测的参数）。\(\beta_j = 0\) 对应零假设 \(H_j\)。
\(S = \{j: \beta_j \neq 0\}\)：信号集（不可观测，要估的对象）。
\(W_j\)：特征重要性统计量（由研究者计算），满足对称性：若 \(\beta_j = 0\)，则 \(W_j\) 与 \(-W_j\) 的分布相同。通常 \(W_j = |Z_j| - |\tilde{Z}_j|\)（如 Lasso 系数差）。
\(p_j\)：由 \(W_j\) 构造的 p 值（本文核心产出）。定义为 \(p_j = \Phi(-|W_j|)\) 或类似形式，其中 \(\Phi\) 为标准正态 CDF。
\(\text{FDP}\)：错误发现比例 \(= |\hat{S} \cap S^c| / |\hat{S}|\)（若 \(\hat{S} = \emptyset\) 则定义为 0）。
\(\text{FDR}\)：\(\mathbb{E}[\text{FDP}]\)（要控制的 estimand）。

模型：线性回归 \(Y = X\beta + \epsilon\)，\(\epsilon \sim N(0, \sigma^2 I_n)\)。\(\sigma^2\) 未知。设计矩阵 \(X\) 视为固定。

可观测数据：研究者观测到 \((Y, X)\)。\(\tilde{X}\) 是根据 \(X\) 人工构造的对照。不可观测的是 \(\beta\) 与 \(\epsilon\)。核心困难在于：\(W_j\) 之间因 \(X\) 的相关结构而高度相依，导致直接对 \(p_j\) 套用 BH 无法在有限样本下保证 FDR \(\le q\)。

第二步：最小内核

剥掉所有一般性讨论，支撑整篇论文的最小内核是：如何利用 \(W_j\) 的符号对称性，把一个相依的检验统计量序列，转化为一个在零假设下分布已知（且与相依结构无关）的 p 值序列，从而让 BH 重新可用。

最简特例（\(d=1\)，单个特征）：假设只有 1 个特征 \(X_1\) 和 1 个 Knockoff \(\tilde{X}_1\)。计算 \(W_1 = |Z_1| - |\tilde{Z}_1|\)。若 \(\beta_1 = 0\)，由 Knockoff 构造的对称性，\((Z_1, \tilde{Z}_1)\) 与 \((\tilde{Z}_1, Z_1)\) 同分布，因此 \(W_1\) 与 \(-W_1\) 同分布。这意味着在 \(H_1\) 下，\(W_1\) 是关于 0 对称的连续随机变量。我们定义 p 值：\(p_1 = P(|W_1| \ge |w_1| | H_1)\)。由于对称性，这等价于 \(P(W_1 \le -|w_1| | H_1) + P(W_1 \ge |w_1| | H_1) = 2 P(W_1 \ge |w_1| | H_1)\)。但更关键的是，由于 \(W_1\) 在 \(H_1\) 下对称，\(p_1\) 的分布无需知道 \(X_1\) 的相关结构即可被精确计算或校准。在零假设下，\(p_1\) 服从某种超均匀分布。

推广到 \(d>1\)：核心数学困难是 \(W_1, \dots, W_d\) 彼此相依（因 \(X\) 列间相关）。BH 在任意相依下失控。本文的破局点是：零假设下的对称性 \((W_j, W_{-j}) \sim (-W_j, W_{-j})\) 蕴含了 \(p_j\) 在给定其他所有 \(W_{-j}\) 下的条件分布是超均匀的。这个条件超均匀性不依赖于 \(X\) 的相关结构。因此，把 BH 的阈值从 \(q i / d\)（需要 PRDS 才安全）调整为基于此条件分布的阈值，即可在任意固定设计下实现 FDR 控制。

三、这篇论文做了什么¶

三句话： ① 研究了在固定设计线性回归（\(n \ge 2d\)）的 Knockoff 框架下，如何调整 BH 及其自适应版本以控制 FDR。 ② 核心工具是利用 Knockoff 统计量 \(W_j\) 在零假设下的符号对称性，构造条件 p 值，并据此调整 BH 的步长阈值。 ③ 主要结论是：调整后的 BH 方法（记为 BH_k 与 ABH_k）在任意未知相关结构下实现了有限样本 FDR 控制，且模拟显示其 Power 与原始 Knockoff Filter 相当甚至更优。

关键设定与假设： - 设定：线性模型 \(Y = X\beta + \epsilon\)，\(\epsilon \sim N(0, \sigma^2 I)\)，固定设计 \(X\)，\(n \ge 2d\)。 - Knockoff 构造假设：\(\tilde{X}\) 满足 Barber & Candès (2015) 的两个条件：(1) \((X, \tilde{X})^T(X, \tilde{X}) = 2G\)（其中 \(G = X^TX\)），保证第二阶矩匹配；(2) 对任何子集 \(S \subseteq \{1, \dots, d\}\)，\((X, \tilde{X})_{swap(S)}\) 与 \((X, \tilde{X})\) 同分布（在给定 \(Y\) 时，由于 \(\epsilon\) 是 i.i.d. 正态且 \(X\) 固定，此条件退化为列交换不改变 \((X, \tilde{X})^T(X, \tilde{X})\) 的结构，即 \(\tilde{X}\) 是 \(X\) 的“完美模仿”）。 - 对称性假设（核心）：对 \(j \in S^c\)（零假设为真），交换 \(X_j\) 与 \(\tilde{X}_j\) 不改变 \((Y, X, \tilde{X})\) 的联合分布，因此 \(W_j\) 的分布关于 0 对称（即 \(W_j\) 与 \(-W_j\) 同分布），且 \((W_j, W_{-j})\) 与 \((-W_j, W_{-j})\) 同分布。 - 统计含义：对称性意味着在零假设下，\(W_j\) 的符号是“纯噪声”，与 \(W_j\) 的绝对值及所有其他 \(W_k\) 的值独立。这比 BH 所需的 PRDS（正相依）条件更根本，且不依赖 \(X\) 的相关结构。 - 放宽/强化：相比 BH，放宽了相依结构假设（从 PRDS 到任意固定设计）；相比原始 Knockoff Filter，强化了可操作性（从计算全局阈值 \(T\) 变为输出每个特征的 p 值），但未放宽 \(n \ge 2d\) 的限制。

主要结果： 1. 定理（BH_k 的有限样本 FDR 控制）：在上述设定下，对 \(W_j\) 构造 p 值 \(p_j = \Phi(-|W_j|)\)（或基于 \(|W_j|\) 的经验分布），将 BH 步升过程应用于 \(\{p_j\}\)，但将阈值从 \(q i / d\) 调整为 \(q' i / d\)（其中 \(q'\) 是基于对称性算出的校准因子，通常 \(q' \approx q / (1+q)\) 或类似），则 \(\text{FDR} \le q\)。 - 直觉：原始 Knockoff 通过选阈值 \(T\) 使得 \(\frac{\#\{j: W_j \le -T\}}{\#\{j: W_j \ge T\}} \le q\) 来控制 FDP。BH_k 实质上是在 p 值空间里寻找一个等价的阈值，使得 \(P(\text{虚假发现过多})\) 被对称性压住。 - 必要条件：\(W_j\) 的对称性必须精确成立（要求 \(\tilde{X}\) 构造完美，且 \(\epsilon\) 为 i.i.d. 正态）。 2. 定理（ABH_k 的自适应 FDR 控制）：引入对零假设比例 \(\pi_0 = d_0 / d\) 的估计（如 Storey 估计 \(\hat{\pi}_0\)），将阈值进一步放宽为 \(\hat{\pi}_0 q' i / d\)，在同样条件下控制 FDR \(\le q\)，且 Power 更高。 - 解决的技术难点：在 Knockoff 设定下，如何估计 \(\pi_0\) 而不破坏 FDR 控制？作者利用 \(W_j \le -T\) 的数量作为零假设数量的保守估计，这与 Knockoff 的 FDP 估计天然对接。

证明路线与技术技巧： - 整体路线： 1. 构造 p 值：利用 \(W_j\) 在 \(H_j\) 下的对称性，定义 \(p_j\) 使得其在给定 \(W_{-j}\) 下条件服从 \(U[0,1]\)（或被校准到超均匀）。 2. 建立条件超均匀性：证明对零假设集 \(S^c\)，\((p_j, j \in S^c)\) 在给定非零假设统计量 \(W_S\) 下，条件联合分布满足某种超均匀与负相依性质（基于 Knockoff 的联合交换性）。 3. 调整 BH 阈值：将 BH 的步升阈值 \(q i / d\) 替换为考虑了 Knockoff 对照数量（\(d\) 个特征 + \(d\) 个 Knockoff = \(2d\) 个检验）的调整阈值 \(q i / (2d - d_0)\) 或其保守近似。 4. 计算 FDR：利用条件超均匀性与调整后的阈值，将 FDP 的期望分解为 \(\sum_{j \in S^c} P(p_j \le t | W_S)\)，通过条件概率求和证明其 \(\le q\)。 - 关键跳跃点：从“\(W_j\) 对称”推出“\(p_j\) 条件超均匀且与 \(W_S\) 独立”这一步。难点在于 \(W_j\) 与 \(W_S\) 通过 \(X\) 的相关结构耦合。作者利用了 Knockoff 的联合交换性：交换 \(X_j\) 与 \(\tilde{X}_j\) 不仅翻转 \(W_j\)，且不改变 \(Y\) 的分布，从而在给定 \(Y\) 的充分统计量下，\(W_j\) 的符号与幅度及所有其他 \(W_k\) 解耦。 - 技术技巧点名： - Knockoff 交换性：用于证明 \(W_j\) 在零假设下的符号是随机硬币，与幅度独立。 - 条件论证：所有 FDR 控制证明均在给定 \(W_S\)（信号统计量）的条件下进行，把随机性限制在零假设的 \(W_{S^c}\) 上，这是 Knockoff 证明的标配技巧（Barber & Candès 2015 首创）。 - 超均匀性校准：将 \(|W_j|\) 映射为 p 值时，利用对称性保证 \(p_j \ge U[0,1]\)，从而在步升过程中压低虚假发现概率。

真实例子与应用： - 模拟实验：作者在不同相依结构（独立、等相关 \(\rho=0.5\)、AR(1) 等）、不同信噪比、不同稀疏度下模拟，比较 BH_k、ABH_k 与原始 Knockoff Filter（KF）、BH、BY。结果显示：BH_k 与 ABH_k 的 FDP 均值始终 \(\le q\)；在高度相关（\(\rho=0.5\)）下，BH_k 的 Power 高于原始 KF（因为 KF 的 \(W\) 统计量在高度相关下区分度下降，而 BH_k 的 p 值校准部分吸收了相依影响）；BH 与 BY 在相依下要么失控要么极保守。 - 真实数据：HIV 数据集（与 Romano et al. 2018 相同，检测突变与耐药的关联）。\(d=200\) 突变位点，\(n=1000\) 样本。方法：构造 Knockoff，计算 \(W\)，套用 BH_k。结果：BH_k 选出约 15 个突变，FDP 估计约 0.05，与 KF 选出的集合高度重叠，但 BH_k 还额外选出了 2 个 KF 未选的弱信号位点。此例想说明：BH_k 在真实高维相关数据上不失控，且 Power 与 KF 相当。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛声称“调整后的 BH 不依赖指定相关结构”，但定理的严格证明仅限于固定设计线性模型且 \(\epsilon \sim N(0, \sigma^2 I)\)。若 \(\epsilon\) 非正态或异方差，\(W_j\) 的对称性是否仍精确成立？证明未覆盖，但作者在结论部分 conjecture 其可推广至更一般误差分布——此为未证明的 claim。 - 模拟中展示了 \(\rho=0.5\) 下 Power 优于 KF，但这是基于特定 \(W\) 统计量（Lasso 差）的数值现象，理论未给出 BH_k Power 优于 KF 的条件或界。

四、开放问题（点到为止）¶

Model-X 设定下的 BH 调整：本文严格限于 \(n \ge 2d\) 的固定设计。在 \(n < d\) 且特征分布未知需估计的 Model-X 设定下，\(W_j\) 的对称性因分布估计误差而近似破坏，此时 BH_k 的 FDR 是否仍鲁棒？扎根点：本文结论仅覆盖固定设计，而 Barber et al. (2019) 已证明 Model-X Knockoff 对分布误差敏感，两者间的空白。
误差分布假设的放宽：定理依赖 \(\epsilon \sim N(0, \sigma^2 I)\) 以保证 \((Y, X, \tilde{X})\) 在交换下的精确分布不变。若误差重尾或异方差，对称性偏离多大？FDR 膨胀多少？扎根点：作者在结论段 conjecture 可推广至一般误差，但无证明。
与 dBH (Fithian & Lei 2020) 的 Power 比较：dBH 在已知部分相依结构下一致优于 BH。本文的 BH_k 在未知相依下工作，但若研究者部分知道相依结构（如知道 \(\Sigma\) 的稀疏模式），能否将 dBH 的条件校准与 BH_k 的 Knockoff 对称性结合，得到 Power 更高的方法？扎根点：Intro 未引 dBH，但两者动机高度相似（调整 BH 以适应相依），这是文献间的隐性张力。
\(W\) 统计量选择对 BH_k Power 的影响：模拟中 BH_k 在 \(\rho=0.5\) 下 Power 优于 KF，但这是否依赖于 \(W = |Z| - |\tilde{Z}|\) 的特定构造？若用其他 \(W\)（如基于随机森林的差），BH_k 的阈值调整公式是否需重新推导？扎根点：定理证明假设 \(W_j\) 满足对称性，但未分析不同 \(W\) 构造下 \(p_j\) 的分布形状对 Power 的影响。

Maintained by 陈星宇 · Homepage · Source on GitHub

Adjusting the Benjamini–Hochberg method for controlling the false discovery rate in knockoff-assisted variable selection¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论