Knockoffs with side information¶
作者: Zhimei Ren, Emmanuel Candès
来源: Annals of Applied Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向关注的是在多重假设检验中如何利用辅助信息提升检验功效,同时严格保证错误发现率(FDR)的有限样本控制。其核心统计问题是:当每个假设检验都附带一个或多个协变量(如先验概率、效应大小预测、空间位置等)时,如何设计程序使得"更有可能为真的假设"被优先检验,从而在不牺牲 FDR 控制的前提下提高发现真阳性的能力。该方向目前已从早期的加权 p 值方法发展到能够处理复杂结构化信息的自适应程序,成熟度较高,理论框架已基本成型,但针对特定框架(如 Knockoff)的扩展仍有明显空白。
发展脉络:
-
奠基工作:经典 FDR 控制与早期加权思想
- Benjamini & Hochberg (1995):提出了 BHq 程序,奠定了 FDR 控制的理论基础,但未考虑假设之间的异质性或外部信息。
- Benjamini & Hochberg (1997) 与 Benjamini & Heller (2007):引入了加权 FDR 的概念,允许根据先验信息对假设赋予不同权重,使得"更重要的假设"获得更高的检验优先级。这是利用侧信息的早期形式。
- Genovese et al. (2006); Ferkingstad et al. (2008); Roeder & Wasserman (2009):进一步发展了结构化多重检验,特别是在 GWAS 中利用外部协变量进行加权,展示了利用侧信息提升功效的潜力。
-
主要进展:Knockoff 框架的诞生与结构化检验的深化
- Barber & Candès (2015):提出了 Knockoff 滤波器,这是变量选择领域的一个里程碑。它通过构造"伪造变量"作为对照组,在有限样本下严格控制 FDR,且不需要知道噪声水平。这为本文提供了核心方法论基础。
- Candès et al. (2018):提出了 Model-X Knockoffs,将 Knockoff 推广到任意分布的设计矩阵(只要联合分布已知),极大地扩展了适用范围。
- Lei & Fithian (2016, 2018) AdaPT:提出了交互式多重检验框架,允许分析师利用侧信息迭代地调整拒绝阈值,在有限样本下控制 FDR。这是利用侧信息的另一条重要路线,与 Knockoff 形成竞争与互补。
- Ignatiadis et al. (2016) IHW:提出了独立假设加权,通过数据驱动的权重分配利用协变量信息,是"结构化多重检验"这一线索下的代表性工作。
- Li & Barber (2019) SABHA:提出了结构自适应 BH 算法,进一步在 BH 框架内细化了对预定结构的利用。
-
当前 Frontier 与本文的位置
- 当前 frontier 集中在如何将侧信息整合进更复杂的推断框架(如 Knockoff),以及如何在保证有限样本 FDR 控制的前提下最大化功效。
- 本文 填补了一个明显的空白:虽然已有 AdaPT 等方法利用侧信息,但 Knockoff 框架此前并未有一套系统的方法来利用侧信息进行自适应排序。作者提出了 Adaptive Knockoff Filter,将 Knockoff 与基于侧信息的自适应排序相结合,填补了这一缺口。
子线索聚类:
-
基于 p 值加权的结构化检验:
- 这条线索从 BHq 出发,通过加权或排序来利用侧信息。代表工作包括 Weighted BH (Benjamini & Hochberg, 1997)、IHW (Ignatiadis et al., 2016)、SABHA (Li & Barber, 2019) 以及 Group BH / Hierarchical testing。
- 这类方法的核心是调整 p 值或拒绝阈值,依赖于 p 值在原假设下的均匀性。
-
基于交互式/自适应程序的检验:
- 以 AdaPT (Lei & Fithian, 2018) 为代表,允许在检验过程中利用机器学习方法根据侧信息调整策略。这类方法更加灵活,不局限于特定的加权形式。
-
基于 Knockoff 的变量选择:
- 以 Barber & Candès (2015) 和 Candès et al. (2018) 为奠基,通过构造伪造变量实现 FDR 控制。后续工作如 Sesia et al. (2018) 针对隐马尔可夫模型构造 Knockoff,Bates et al. (2019) 和 Romano et al. (2019) 探索更一般的 Knockoff 构造方法。
- 本文属于这条线索,试图将线索 1 和 2 中的"利用侧信息"思想引入线索 3。
这个方向在追问的核心问题:
- 如何最优地利用侧信息:给定侧信息,如何设计程序使得功效最大化?已知 Oracle 策略是什么?
- 有限样本 FDR 控制与渐近功效的权衡:许多利用侧信息的方法(如某些加权方法)可能只保证渐近 FDR 控制,如何在有限样本下严格保证?
- 侧信息质量的影响:当侧信息质量较差(噪声大甚至误导)时,方法的稳健性如何?是否会出现 FDR 失控或功效严重下降?
⚠️ 作者的 framing:
- 作者将缺口 frame 为:现有的 Knockoff 方法是"盲目"的,没有利用已有的侧信息,而其他多重检验框架(如 AdaPT、IHW)已经证明了侧信息能显著提升功效。因此,将侧信息引入 Knockoff 是"显然的下一步"。
- 被淡化的竞争路线:作者主要对比了 AdaPT 和 SABHA,但未深入讨论 Knockoff 与 p 值方法在本质上的差异(如 Knockoff 不需要 p 值,这在某些高维设定下是优势,但也限制了其在某些经典多重检验场景的直接应用)。此外,作者未提及 Selective Inference 这条路线,该路线也关注变量选择后的推断,但思路不同。
- 缺失的引用:在讨论"高维推断困难"时,引用了 Dezeure et al. (2015) 和 Sur et al. (2017),但未引用 Post-selection Inference (PoSI, Berk et al., 2013) 或 Selective Inference (Taylor & Tibshirani, 2015) 的核心文献,这可能是作者有意将问题局限在 FDR 控制框架内。
张力:
- 未见明显对立引用。大部分文献是在不同设定下解决类似问题,或互为推广。例如,AdaPT 和 Knockoff 在利用侧信息上思路不同,但结论并不矛盾,而是互补。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
-
符号:
- \(n\):样本量。
- \(p\):变量维数(假设检验个数)。
- \(\mathbf{X} \in \mathbb{R}^{n \times p}\):设计矩阵(可观测),每行 \(\mathbf{X}_i\) 为 \(p\) 维向量。
- \(\mathbf{y} \in \mathbb{R}^n\):响应变量(可观测)。
- \(\tilde{\mathbf{X}} \in \mathbb{R}^{n \times p}\):Knockoff 变量矩阵(构造出来,非直接观测)。
- \(Z_j\):第 \(j\) 个变量的侧信息(可观测),如先验概率、外部预测得分等。\(\mathbf{Z} = (Z_1, \dots, Z_p)\)。
- \(S_j\):第 \(j\) 个变量的 Knockoff 统计量(计算得到),用于衡量变量重要性。\(S_j > 0\) 表示原变量比 Knockoff 重要。
- \(W_j\):另一种形式的 Knockoff 统计量,通常定义为 \(W_j = |\beta_j| - |\tilde{\beta}_j|\) 或类似形式,\(S_j\) 是其符号化版本或函数。
- \(H_j\):第 \(j\) 个原假设,通常为 \(H_j: \beta_j = 0\)。
- \(\mathcal{S}\):被选中的变量集合。
- \(\text{FDR}\):错误发现率,定义为 \(E\left[\frac{|\mathcal{S} \cap \mathcal{H}_0|}{|\mathcal{S}| \vee 1}\right]\),其中 \(\mathcal{H}_0\) 为真原假设集合。
-
模型:
- 线性模型:\(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\),其中 \(\boldsymbol{\epsilon} \sim \mathcal{N}(0, \sigma^2 I_n)\)。
- Model-X 设定:更一般地,假设 \((\mathbf{X}, \mathbf{y})\) 的联合分布已知(或 \(\mathbf{X}\) 的分布已知),\(\mathbf{y} | \mathbf{X}\) 可以是任意分布。Knockoff 变量 \(\tilde{\mathbf{X}}\) 需满足 成对交换性:\((\mathbf{X}, \tilde{\mathbf{X}})\) 的联合分布在交换任意一对 \((X_j, \tilde{X}_j)\) 后保持不变。
-
可观测数据:
- 研究者实际观测到的是 \((\mathbf{X}, \mathbf{y})\) 以及侧信息 \(\mathbf{Z}\)。
- \(\tilde{\mathbf{X}}\) 是根据 \(\mathbf{X}\) 人为构造的"伪数据",满足交换性条件。
- \(S_j\) 是基于 \((\mathbf{X}, \tilde{\mathbf{X}}, \mathbf{y})\) 计算的统计量。
- 不可观测量:真实的 \(\boldsymbol{\beta}\)(目标)、\(\sigma^2\)(Knockoff 不需要估计它)、以及哪些 \(H_j\) 为真。
第二步:讲最小内核
这篇论文的核心数学困难在于:如何设计一个依赖于侧信息 \(\mathbf{Z}\) 的排序规则,使得在按此规则依次检验变量时,Knockoff 的 FDR 控制性质不被破坏。
我们用最简特例来说明:固定设计线性模型、高斯噪声、单个侧信息变量。
-
经典 Knockoff 滤波器:
- 计算 Knockoff 统计量 \(W_j\)(例如 Lasso 系数差)。
- 定义 \(S_j = \text{sign}(W_j)\) 或直接用 \(W_j\)。
- 经典做法:按 \(|W_j|\) 从大到小排序。找到阈值 \(T\),使得 \(\frac{1 + \#\{j: W_j \le -T\}}{\#\{j: W_j \ge T\}} \le q\)。
- 关键点:排序依据是 \(|W_j|\),即数据本身的信息。这保证了在原假设下,\(W_j\) 的正负是对称的,从而 FDR 可控。
-
引入侧信息后的挑战:
- 假设我们有一个侧信息 \(Z_j\),它预测 \(H_j\) 为假的概率。我们想优先检验 \(Z_j\) 大的变量。
- 直觉做法(错误):直接按 \(Z_j\) 从大到小排序,然后套用 Knockoff 阈值公式。这会失效,因为 \(Z_j\) 可能与 \(W_j\) 相关,破坏了 \(W_j\) 在原假设下的对称性,导致 FDR 失控。
-
本文的最小内核:自适应排序 + 条件对称性:
- 核心思想:排序规则必须满足 "公平性",即在给定当前已选变量和侧信息下,剩余变量的 Knockoff 统计量仍保持某种对称性。
- 最简规则:定义排序函数 \(\mathcal{R}\),它根据 \(Z_j\) 和 \(W_j\) 的某种组合来排序。本文提出的关键是 "Peeling"(剥离)策略:
- 每一步,根据 \(Z_j\) 选出"最有希望"的变量子集。
- 在该子集上应用 Knockoff 滤波器,计算部分 FDP。
- 决定是停止还是继续检验下一批变量。
-
数学本质:证明存在一个依赖于 \(\mathbf{Z}\) 的排序 \(\pi\),使得对于任意 \(k\),前 \(k\) 个变量的 Knockoff 统计量仍满足 条件对称性。这要求排序 \(\pi\) 是 "可容许的" (admissible),即排序不能依赖于 \(W_j\) 的符号(只能依赖于 \(|W_j|\) 和 \(Z_j\))。
-
特例演示:
- 假设 \(Z_j \in \{0, 1\}\),\(Z_j=1\) 表示"高优先级"。
- 策略:先检验所有 \(Z_j=1\) 的变量,用 Knockoff 得到集合 \(\mathcal{S}_1\);若未达 FDR 阈值,再检验 \(Z_j=0\) 的变量,得到 \(\mathcal{S}_0\)。
- 为什么成立:因为 \(Z_j\) 是预先固定的(或独立于 \(W_j\) 的符号),所以在 \(Z_j=1\) 的组内,\(W_j\) 的正负仍对称。FDR 控制在组内成立,且由于两组检验是序贯进行的,整体 FDP 的期望可控(类似 Layered FDR 控制逻辑)。
- 推广:本文将这种"分组检验"推广到连续的 \(Z_j\),通过一个自适应的阈值序列来实现"软分组"。
三、这篇论文做了什么¶
三句话: 1. 研究了在变量选择中如何利用侧信息提升 Knockoff 滤波器功效的问题。 2. 提出了 Adaptive Knockoff Filter,通过构造一个依赖于侧信息的自适应排序规则,优先检验"更有希望"的变量。 3. 证明了该方法在有限样本下严格控制 FDR,并在模拟和真实数据(GWAS)中展示了相比标准 Knockoff 和其他结构化方法更高的功效。
关键设定与假设:
-
侧信息:假设每个变量 \(j\) 有一个观测到的侧信息 \(Z_j\)。关键假设:\(Z_j\) 与 \(W_j\) 在原假设下独立,或者更弱地,\(Z_j\) 不提供关于 \(W_j\) 符号的信息。作者将其表述为:\(Z_j\) 可以依赖于 \(|W_j|\),但不能依赖于 \(\text{sign}(W_j)\)。
- 统计含义:侧信息可以告诉我们"这个变量有多重要"(\(|W_j|\) 大),但不能告诉我们"它是正向还是负向影响"(\(\text{sign}(W_j)\))。这被称为 "不可知论假设" (Agnostic assumption) 或 "符号独立性"。
- 放宽:相比 AdaPT 等方法要求 \(Z_j\) 与 p 值独立,Knockoff 的这个假设更自然,因为 \(W_j\) 本身就是构造的统计量,\(|W_j|\) 往往就是效应大小的估计。
-
Knockoff 构造:沿用 Model-X Knockoff (Candès et al., 2018) 的框架,要求构造的 \(\tilde{\mathbf{X}}\) 满足交换性条件。这是 FDR 控制的基石。
-
排序规则:定义排序 \(\pi\) 为 \(Z_j\) 和 \(|W_j|\) 的函数。本文的核心贡献在于定义了一类 "Adaptive Ordering",使得排序过程本身不破坏 FDR 控制。
主要结果:
-
定理 1 (FDR 控制):
- 陈述:对于任意给定的目标 FDR 水平 \(q \in (0,1)\),Adaptive Knockoff Filter 选出的变量集合 \(\hat{\mathcal{S}}\) 满足 \(E\left[\frac{|\hat{\mathcal{S}} \cap \mathcal{H}_0|}{|\hat{\mathcal{S}}| \vee 1}\right] \le q\)。
- 直觉:证明依赖于 "可选停止" (Optional Stopping) 理论。由于排序规则只依赖于 \(|W_j|\) 和 \(Z_j\),而不依赖于 \(W_j\) 的符号,因此在检验过程的任意时刻,条件 FDP 的期望都可控。这类似于鞅的性质。
- 技术难点:排序 \(\pi\) 是数据驱动的(依赖于 \(|W_j|\)),因此不是预先固定的。必须证明这种数据驱动的排序不会引入"窥视未来"的信息偏差。
-
定理 2 (功效增益):
- 陈述:在 Oracle 设定下(即假设已知真实的排序规则),Adaptive Knockoff 的功效严格优于标准 Knockoff。
- 直觉:如果我们把真信号排在前面,那么在同样的 FDR 预算下,我们能发现更多的真信号。这通过一个简单的序贯检验逻辑即可理解:早期发现真信号会"消耗"较少的 FDR 预算(因为分母变大),从而允许后续做出更多发现。
证明路线与技术技巧:
-
整体路线:
- 定义 Knockoff 统计量 \(W_j\)。
- 构造排序规则 \(\pi\),它是 \(|W_j|\) 和 \(Z_j\) 的函数。
- 定义序贯检验过程:按 \(\pi\) 排序后,依次计算部分 FDP。
- 定义停止规则 \(T\):当部分 FDP 首次低于阈值 \(q\) 时停止。
- 证明 \(E[\text{FDP}] \le q\)。
-
关键跳跃点:
- Lemma 1 (条件对称性):证明在给定 \(|W_j|\) 和 \(Z_j\) 的条件下,\(\text{sign}(W_j)\) 对于原假设变量仍是均匀分布的(即 \(P(\text{sign}(W_j)=1 | |W_j|, Z_j) = 0.5\))。
- 这是整个证明的核心。它保证了即使我们根据 \(|W_j|\) 和 \(Z_j\) 进行了排序,对于原假设变量,我们看到正负号的概率仍相等。这避免了"选择偏差"。
-
技术技巧点名:
- 鞅与可选停止:证明 FDR 控制时,构造了一个鞅差序列,利用可选停止定理证明期望可控。
- 条件独立性:大量使用条件期望和条件独立性的推导,剥离 \(Z_j\) 和 \(W_j\) 的影响。
- Peeling 技术:在处理连续型 \(Z_j\) 时,通过离散化分层来逼近,这类似于经验过程理论中的论证。
真实例子与应用:
-
数据集:
- 克罗恩病:使用 WTCCC 数据集,对比 Franke et al. (2010) 和 Liu et al. (2015) 的结果。
- 血脂水平:使用 NFBC 数据集,对比 Sabatti et al. (2009) 的结果。
-
应用方式:
- 侧信息构造:使用外部 GWAS 的 summary statistics 作为侧信息 \(Z_j\)。例如,对于克罗恩病,使用不同人群(东亚或比利时)的 GWAS p 值作为侧信息。这是 GWAS 中常见的"Trans-ethnic"或"Meta-analysis"思路。
- 对比方法:Standard Knockoff (Candès et al., 2018), AdaPT (Lei & Fithian, 2018), SABHA (Li & Barber, 2019)。
-
结果:
- Adaptive Knockoff 发现了比 Standard Knockoff 更多的显著位点。
- 在某些设定下,发现了比已有文献更多的位点(例如,在血脂数据中发现了新的位点)。
- 例子说明:这验证了利用侧信息确实能提升功效,且 FDR 控制良好(通过模拟验证)。
🔎 结论是否比证明窄:
- 论文的理论结果依赖于 "符号独立性"假设(\(Z_j\) 独立于 \(\text{sign}(W_j)\) under \(H_0\))。作者在文中明确指出这是关键条件。
- 然而,在真实数据例子中,侧信息来自外部 GWAS 的 p 值。严格来说,外部 p 值可能与当前数据的 \(W_j\) 符号相关(例如,如果外部研究发现了某个位点,它更可能是真信号,且效应方向一致)。作者在文中讨论了这一点,认为只要外部研究独立,符号独立性大致成立。但这仍是一个潜在的假设违背点,读者需注意。
四、开放问题¶
- 侧信息质量较差时的稳健性:本文假设侧信息 \(Z_j\) 是"有信息"的(即能帮助排序)。如果 \(Z_j\) 是噪声甚至误导性的(例如,外部研究的结果与当前数据相反),Adaptive Knockoff 的表现如何?是否会比 Standard Knockoff 功效更低?这扎根于文中关于 "Uninformative side information" 的简短讨论,但缺乏理论上的最坏情况分析。
- 最优排序规则:文中给出了 Oracle 排序规则,但在实际中需要估计。如何设计数据驱动的排序规则以最小化"功效损失"?这扎根于 Section 4 的模拟部分,作者尝试了几种排序,但未给出理论上的最优性保证。
- 连续型侧信息的分层策略:在处理连续型 \(Z_j\) 时,本文主要采用离散化分层。是否存在一种连续型的自适应策略,避免离散化带来的信息损失?这扎根于方法论部分的 "Peeling" 论证,该论证本质上是离散逼近。
- 与其他 FDR 方法的理论比较:AdaPT 和 SABHA 也利用侧信息。在什么条件下(如侧信息强度、信号稀疏度),Adaptive Knockoff 严格优于 AdaPT?这扎根于 Introduction 中的对比,目前只有模拟比较,缺乏理论上的 Power 界的比较。
Maintained by 陈星宇 · Homepage · Source on GitHub