跳转至

Summary statistics knockoffs inference with family-wise error rate control

作者: Catherine Xinrui Yu, Jiaqi Gu, Zhaomeng Chen, Zihuai He
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向解决的根本问题是:在仅能获取汇总统计量(如GWAS中的z-score)而非原始个体级数据时,如何对条件独立性假设进行多重检验,并严格控制族系错误率(FWER)。其核心挑战在于:(1) 汇总统计量只编码了边际依赖信息,丢失了联合分布结构,使得传统的条件独立性检验(如基于残差的检验)无法直接应用;(2) FWER控制比FDR控制更严格,要求以高概率不犯任何第一类错误,这对统计功效和计算效率都提出了更高要求。该方向当前处于从FDR控制向FWER控制、从个体级数据向汇总统计量、从单次推断向稳定推断的过渡阶段。

发展脉络

奠基工作:knockoff框架的提出是这一方向的基石。Barber & Candès (2015) 在线性模型中引入knockoff filter,通过构造“假变量”作为对照,实现了对FDR的有限样本精确控制。Candès et al. (2018) 将其推广为“model-X”knockoffs,将适用范围扩展到任意响应分布(包括二值响应、非线性模型),且不要求n≥p。这两篇工作奠定了knockoff框架的理论基础:核心思想是构造与原始特征X分布相同但与Y条件独立的“knockoff副本”,通过比较原始特征与knockoff副本的重要性统计量来筛选变量。

主要进展:在knockoff框架下,研究者从多个方向推进: - FWER控制:Janson & Su (2016) 首次将knockoff框架用于控制k-FWER,提出了基于knockoff统计量排序的筛选规则。但该方法的统计功效在高维或弱信号场景下严重不足,因为其筛选规则过于保守。 - 汇总统计量:He et al. (2022) 提出GhostKnockoff,首次实现了仅依赖GWAS汇总统计量(z-score)即可进行knockoff推断,无需原始个体级数据。其核心创新是直接对z-score的联合分布建模并生成其knockoff副本,而非对原始特征X建模。这极大扩展了knockoff方法在大规模遗传学研究中的应用范围。 - 稳定性与功效提升:Gimenez & Zou (2019) 提出多重knockoff(multi-knockoff),通过生成多个knockoff副本并聚合信息,显著提升了推断的稳定性和统计功效。Ren et al. (2023) 提出去随机化knockoff(derandomized knockoffs),通过聚合多次运行的筛选结果来控制PFER(per family error rate),间接实现FWER控制,但代价是计算成本大幅增加。

当前frontier:当前的前沿问题是如何在汇总统计量设定下实现FWER控制,同时兼顾计算效率统计功效。Janson & Su (2016) 的FWER控制方法直接应用于GhostKnockoff会因功效过低而失效;Ren et al. (2023) 的去随机化方法虽能控制FWER,但计算成本高且控制是间接的(通过PFER)。此外,如何将特征筛选(Barber & Candès, 2019)、侧信息(Ren & Candès, 2023)等功效提升策略整合到FWER控制框架中,也是开放问题。

本文的位置:本文直接填补了上述gap——在GhostKnockoff框架下,首次提出一个能直接控制FWER的筛选规则,同时开发了计算高效的算法来降低knockoff副本生成的计算成本。它试图在“汇总统计量 + FWER控制 + 计算效率”这个三角约束下找到一个可行的解。

子线索聚类

  1. knockoff框架的理论与方法(Barber & Candès, 2015; Candès et al., 2018; Janson & Su, 2016):这一簇奠定了knockoff的理论基础,包括FDR/FWER控制、有限样本保证、model-X推广等。核心问题是“如何构造knockoff副本并设计筛选规则以实现特定错误率控制”。

  2. 汇总统计量knockoff(He et al., 2022; 本文):这一簇专注于在仅能获取汇总统计量(如z-score)的场景下应用knockoff框架。核心创新是直接对汇总统计量的联合分布建模,绕过对原始特征X的建模需求。这一簇与遗传学应用紧密相连,因为GWAS中个体级数据常因隐私或数据共享限制而不可得。

  3. 稳定性与功效提升(Gimenez & Zou, 2019; Ren et al., 2023; Luo et al., 2022; Spector & Janson, 2020):这一簇关注如何提升knockoff推断的稳定性、可重复性和统计功效。方法包括多重knockoff、去随机化、条件校准、最小化可重构性等。这些方法通常以增加计算成本为代价换取功效或稳定性。

  4. 多层/分组knockoff(Katsevich & Sabatti, 2019):这一簇将knockoff框架扩展到变量和变量组同时进行推断的场景,控制多个分辨率下的FDR。这与遗传学中“基因-变异”的层级结构天然契合。

这个方向在追问的核心问题

  1. 如何在不牺牲功效的前提下实现FWER控制? Janson & Su (2016) 的筛选规则过于保守,导致功效极低。本文试图通过新的筛选规则(基于knockoff统计量的排序和阈值设定)来缓解这一问题。
  2. 如何仅用汇总统计量进行条件独立性检验? 汇总统计量丢失了联合分布信息,使得传统的knockoff构造方法(需要原始特征X的分布)无法直接应用。GhostKnockoff通过直接对z-score建模绕过了这一障碍,但代价是只能检验边际依赖而非条件依赖。
  3. 如何降低knockoff副本生成的计算成本? 对于大规模遗传学数据(数百万变异),生成knockoff副本的计算成本可能极高。本文开发的计算高效算法试图解决这一问题。
  4. 如何整合功效提升策略到FWER控制框架中? 特征筛选、侧信息等方法在FDR控制框架下已被证明有效,但能否在FWER控制框架下同样有效,以及如何整合,仍是开放问题。

⚠️ 作者的framing

作者把缺口frame成什么:作者声称,现有knockoff方法要么只能控制FDR(而非FWER),要么在控制FWER时功效极低(Janson & Su, 2016),要么需要个体级数据(Janson & Su, 2016; Ren et al., 2023),要么计算成本过高(Ren et al., 2023)。因此,本文的贡献是“首次在汇总统计量设定下实现FWER控制,同时保持计算效率和统计功效”。

被淡化或回避的竞争路线: - 去随机化knockoff(Ren et al., 2023)被作者定位为“间接控制FWER”(通过PFER),且计算成本高。但作者未详细讨论去随机化方法在功效上的潜在优势,也未比较本文方法与去随机化方法在FWER控制严格性上的差异。 - 多重knockoff(Gimenez & Zou, 2019)被作者提及,但未作为FWER控制的竞争方法进行讨论。多重knockoff通过聚合多个knockoff副本的信息,理论上也能提升稳定性并可能间接控制FWER,但作者未对此展开。 - 条件校准knockoff(Luo et al., 2022)被作者列为“提升功效”的方法,但未讨论其是否可推广到FWER控制设定。

什么明显该被引/该存在、却没出现在intro里: - Barber & Candès (2019) 的高维knockoff筛选方法(knockoff filter for high-dimensional selective inference)被作者在讨论部分提及,但未在intro中作为竞争方法或可整合策略进行讨论。该方法通过数据分割实现高维设定下的FDR控制,其筛选策略可能对本文的FWER控制框架有借鉴意义。 - Spector & Janson (2020) 的MRC knockoff(最小化可重构性)被作者在参考文献中列出,但未在intro中讨论。该方法通过改变knockoff构造准则来提升功效,其思路可能对本文的FWER控制框架有启发。 - Fan et al. (2020) 的IPAD方法(基于因子模型的knockoff构造)被作者提及,但未详细讨论其在汇总统计量设定下的适用性。

张力:未见明显对立引用。所有被引工作基本在knockoff框架的共识下推进,差异主要体现在错误率控制目标(FDR vs. FWER)、数据可用性(个体级 vs. 汇总统计量)、计算效率等维度上的权衡。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号: - p:特征(变异)的数量,通常很大(如GWAS中的数百万变异)。 - n:样本量(个体数)。 - X ∈ ℝⁿˣᵖ:原始特征矩阵(个体级基因型数据)。不可观测(在汇总统计量设定下)。 - Y ∈ ℝⁿ:响应变量(如疾病状态)。不可观测(在汇总统计量设定下)。 - Z ∈ ℝᵖ:汇总统计量向量,每个分量Zⱼ是第j个特征与响应Y的边际关联检验统计量(如GWAS中的z-score)。可观测。 - X̃ ∈ ℝⁿˣᵖ:原始特征的knockoff副本。不可观测(在汇总统计量设定下)。 - Z̃ ∈ ℝᵖ:汇总统计量的knockoff副本。由算法生成。 - Wⱼ:第j个特征的knockoff统计量,用于衡量原始特征与knockoff副本的重要性差异。常见形式:Wⱼ = |Zⱼ| - |Z̃ⱼ| 或 Wⱼ = Zⱼ² - Z̃ⱼ²。 - τ:筛选阈值,用于决定哪些特征被选为“条件相关”。 - FWER:族系错误率,即至少犯一次第一类错误的概率。目标:FWER ≤ α(通常α=0.05或0.1)。 - k-FWER:至少犯k次第一类错误的概率。Janson & Su (2016) 控制的是k-FWER。

模型: - 假设存在一个潜在的条件独立性结构:对于每个特征j,我们想知道是否Xⱼ ⟂ Y | X₋ⱼ(即给定其他特征时,Xⱼ与Y条件独立)。如果条件独立,则称该特征为“null”;否则为“non-null”。 - 在汇总统计量设定下,我们无法直接检验上述条件独立性,因为X和Y都不可观测。GhostKnockoff框架假设汇总统计量Z服从一个已知或可估计的多元正态分布:Z ~ N(μ, Σ),其中Σ是特征的LD矩阵(linkage disequilibrium matrix,即特征间的相关系数矩阵),μ是未知的效应向量。在零假设(所有特征均为null)下,μ = 0。 - GhostKnockoff的核心假设是:Z的联合分布完全由Σ决定,且Σ可以从外部参考面板(如1000 Genomes Project)估计得到。这一假设使得我们可以在不观测X和Y的情况下,直接对Z生成knockoff副本Z̃。

可观测数据: - 可观测:汇总统计量Z(如GWAS z-score),以及LD矩阵Σ(从外部参考面板估计)。 - 不可观测:原始特征X、响应Y、个体级数据。 - 想要但观测不到:条件独立性关系(Xⱼ ⟂ Y | X₋ⱼ)。我们只能通过Z和Z̃的对比来推断。

第二步:讲最小内核

最简特例:假设只有两个特征(p=2),且它们的汇总统计量Z = (Z₁, Z₂)ᵀ服从二元正态分布: - Z ~ N(μ, Σ),其中Σ = [[1, ρ], [ρ, 1]],ρ是已知的相关系数(LD)。 - 零假设H₀ⱼ:μⱼ = 0(第j个特征与Y条件独立)。 - 目标:在FWER ≤ α下,检验H₀₁和H₀₂。

GhostKnockoff的构造:对于Z,我们想要生成一个knockoff副本Z̃,使得: 1. 交换性:对于任何特征子集S ⊆ {1,2},交换Z和Z̃中对应S的坐标,联合分布不变。即 (Z, Z̃) 与 (Z̃, Z) 在交换S后同分布。 2. 条件独立性:Z̃ ⟂ Y | Z(在给定Z时,Z̃与Y独立)。

对于二元正态分布,满足上述条件的Z̃可以构造为: - Z̃ = Z * diag(s) + E,其中s是控制knockoff与原始特征相关性的参数(通常取s = 1 - ρ²),E是独立于Z的噪声。 - 更具体地,Z̃₁ = s₁Z₁ + ε₁,Z̃₂ = s₂Z₂ + ε₂,其中ε₁, ε₂独立于Z且服从均值为0的正态分布,方差由Σ和s决定。

筛选规则:定义knockoff统计量Wⱼ = |Zⱼ| - |Z̃ⱼ|。直觉:如果第j个特征是non-null(μⱼ ≠ 0),则|Zⱼ|倾向于大于|Z̃ⱼ|,因此Wⱼ倾向于为正;如果第j个特征是null(μⱼ = 0),则Wⱼ在0附近对称分布。

FWER控制:Janson & Su (2016) 的筛选规则是:选择所有满足Wⱼ ≥ T的特征,其中T是某个阈值。他们证明,如果选择T = max{Wⱼ : Wⱼ < 0}(即所有负Wⱼ中的最大值),则FWER ≤ α。但这一规则过于保守:当所有特征都是null时,T可能非常小,导致大量假阳性;当存在non-null特征时,T可能被non-null特征的正Wⱼ拉高,导致功效降低。

本文的新筛选规则:作者提出一个更灵活的规则:选择所有满足Wⱼ ≥ q₁₋α({Wⱼ : Wⱼ < 0})的特征,其中q₁₋α是负Wⱼ集合的(1-α)分位数。直觉:如果所有特征都是null,则负Wⱼ的分布应该与正Wⱼ的分布对称,因此选择超过(1-α)分位数的正Wⱼ可以控制FWER。如果存在non-null特征,它们的正Wⱼ会“推高”阈值,但同时也增加了被选中的概率。这一规则比Janson & Su (2016) 的规则更灵活,因为它允许用户通过调整分位数来权衡功效和FWER控制。

为什么这个特例抓住了核心:即使只有两个特征,上述构造和筛选规则已经包含了本文的全部核心要素:(1) 汇总统计量的knockoff构造;(2) 基于knockoff统计量的筛选规则;(3) FWER控制的证明思路(基于交换性和条件独立性)。推广到p个特征时,主要挑战在于LD矩阵Σ的估计和knockoff副本生成的计算效率,但核心思想不变。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在仅能获取汇总统计量(如GWAS z-score)时,如何对条件独立性假设进行多重检验并控制FWER。
  2. 核心工具/方法:采用GhostKnockoff框架直接生成汇总统计量的knockoff副本,并提出一个新的基于分位数的筛选规则来实现FWER控制;同时开发了一种计算高效的算法来降低knockoff副本生成的计算成本。
  3. 主要结论:模拟实验和阿尔茨海默病遗传学真实数据表明,该方法在统计功效和计算效率上均优于现有替代方法(如Janson & Su (2016) 的FWER控制方法和Ren et al. (2023) 的去随机化方法)。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • 数据生成:假设存在一个潜在的条件独立性结构,但研究者只能观测到汇总统计量Z ∈ ℝᵖ。Z服从多元正态分布:Z ~ N(μ, Σ),其中Σ是已知的LD矩阵(从外部参考面板估计),μ是未知的效应向量。
  • GhostKnockoff构造:生成Z的knockoff副本Z̃,满足:
  • 交换性:对于任何特征子集S ⊆ {1,...,p},交换Z和Z̃中对应S的坐标,联合分布不变。
  • 条件独立性:Z̃ ⟂ Y | Z。
  • 对于多元正态分布,Z̃可以构造为:Z̃ = Z * diag(s) + E,其中s ∈ [0,1]ᵖ是控制knockoff与原始特征相关性的参数,E是独立于Z的噪声,其协方差矩阵为Σ - diag(s) Σ diag(s)。
  • knockoff统计量:定义Wⱼ = |Zⱼ| - |Z̃ⱼ|(或其他对称函数,如Zⱼ² - Z̃ⱼ²)。在零假设下,Wⱼ的分布关于0对称。
  • 筛选规则:选择所有满足Wⱼ ≥ T的特征,其中T = q₁₋α({Wⱼ : Wⱼ < 0}),即负Wⱼ集合的(1-α)分位数。
  • 假设
  • Σ已知:LD矩阵可以从外部参考面板准确估计。这一假设在GWAS中通常成立,但估计误差可能影响FWER控制。
  • Z的分布已知:Z服从多元正态分布。这一假设在GWAS中通常成立(基于中心极限定理),但对于稀有变异或小样本可能不成立。
  • 交换性成立:knockoff构造满足交换性。这要求s的选择使得Z̃与Z的联合分布满足交换性,通常通过求解半定规划(SDP)来实现。
  • 相比已有文献的差异
  • 相比Janson & Su (2016):本文使用汇总统计量而非个体级数据,且筛选规则基于分位数而非最大值。
  • 相比He et al. (2022):本文控制FWER而非FDR,且开发了计算高效算法。
  • 相比Ren et al. (2023):本文直接控制FWER而非通过PFER间接控制,且计算成本更低。

主要结果

定理1(FWER控制):在交换性和条件独立性假设下,上述筛选规则满足FWER ≤ α。证明思路:在零假设下,所有null特征的Wⱼ分布关于0对称,因此正Wⱼ和负Wⱼ的分布相同。选择超过负Wⱼ集合(1-α)分位数的正Wⱼ,等价于在零假设下以概率1-α不选择任何特征。当存在non-null特征时,它们的正Wⱼ会“推高”阈值,但FWER控制仍然成立,因为non-null特征被选中的概率增加,而null特征被选中的概率不变。

定理2(计算效率):开发的计算高效算法将knockoff副本生成的计算复杂度从O(p³)(直接求解SDP)降低到O(p²)(基于近似解)。具体地,作者提出了一种基于块对角近似的算法:将LD矩阵Σ按染色体或LD block分块,在每个块内独立生成knockoff副本。由于LD矩阵通常是块对角结构(不同染色体上的变异几乎不相关),这一近似几乎不损失精度,但大幅降低了计算成本。

模拟实验: - 设定:模拟p=1000个特征,其中50个为non-null(效应大小随机生成)。LD矩阵基于真实遗传数据(1000 Genomes Project)估计。比较方法包括:本文方法、Janson & Su (2016) 的FWER控制方法、Ren et al. (2023) 的去随机化方法、以及He et al. (2022) 的GhostKnockoff(FDR控制)。 - 结果: - FWER控制:本文方法在所有设定下均将FWER控制在α=0.05以下,而Janson & Su (2016) 的方法在某些设定下FWER略高于名义水平(可能由于汇总统计量的近似误差)。 - 统计功效:本文方法的功效(正确识别non-null特征的比例)比Janson & Su (2016) 的方法高出约20-30%,与去随机化方法相当,但计算时间仅为后者的1/10。 - 计算时间:本文方法在p=1000时耗时约1分钟,而直接求解SDP需要约1小时。

证明路线与技术技巧

整体路线: 1. 步骤1:建立交换性。证明在GhostKnockoff构造下,(Z, Z̃)的联合分布满足交换性:对于任何特征子集S,交换Z和Z̃中对应S的坐标,联合分布不变。这是knockoff框架的核心,也是FWER控制的基础。 2. 步骤2:定义knockoff统计量。定义Wⱼ = |Zⱼ| - |Z̃ⱼ|,并证明在零假设下,Wⱼ的分布关于0对称。这一性质依赖于交换性和条件独立性。 3. 步骤3:构造筛选规则。提出基于分位数的筛选规则:选择所有满足Wⱼ ≥ q₁₋α({Wⱼ : Wⱼ < 0})的特征。证明这一规则控制FWER的关键在于:在零假设下,正Wⱼ和负Wⱼ的分布相同,因此选择超过负Wⱼ集合(1-α)分位数的正Wⱼ,等价于以概率1-α不选择任何特征。 4. 步骤4:处理多重比较。将上述单步筛选规则扩展到多重比较场景,证明FWER控制仍然成立。关键技巧是使用Bonferroni-type union bound:FWER = P(至少一个null特征被选中) ≤ Σⱼ P(第j个null特征被选中)。由于每个null特征被选中的概率不超过α/p(通过分位数调整),因此FWER ≤ α。 5. 步骤5:计算效率优化。提出块对角近似算法,将LD矩阵分块处理。证明在块对角结构下,近似解与精确解之间的误差可以忽略不计,且FWER控制仍然成立。

关键跳跃点: - 从个体级数据到汇总统计量:传统knockoff框架需要原始特征X的分布,而本文直接对汇总统计量Z建模。这一跳跃的关键在于假设Z服从多元正态分布,且其协方差矩阵Σ可以从外部参考面板估计。这一假设在GWAS中通常成立,但需要验证其稳健性。 - 从FDR到FWER:FDR控制允许一定比例的假阳性,而FWER要求不犯任何假阳性。这一跳跃的关键在于筛选规则的设计:FDR控制通常使用BH-type规则(基于p值排序),而FWER控制需要更严格的阈值(基于分位数或Bonferroni校正)。本文提出的分位数规则在严格性和灵活性之间取得了平衡。 - 计算效率:直接求解SDP生成knockoff副本的计算复杂度为O(p³),对于p=10⁶的GWAS数据不可行。本文的块对角近似将复杂度降低到O(p²),但需要证明近似解不破坏FWER控制。作者通过理论分析和模拟实验验证了这一点。

技术技巧点名: - 块对角近似:利用LD矩阵的块对角结构,将大规模问题分解为多个小规模子问题。这是计算效率提升的关键。 - 分位数筛选:使用负Wⱼ集合的(1-α)分位数作为阈值,而非Janson & Su (2016) 的最大值。这一技巧在保持FWER控制的同时提升了功效。 - Bonferroni-type union bound:用于将单步筛选规则扩展到多重比较场景,证明FWER控制。

真实例子与应用

数据:阿尔茨海默病(AD)遗传学数据。作者使用了来自多个GWAS研究的汇总统计量,包括: - Schwartzentruber et al. (2021) 的meta分析(75,024 cases, 397,844 controls) - Kunkle et al. (2019) 的meta分析(21,982 cases, 41,944 controls) - Belloy et al. (2022a) 的内部GWAS(15,209 cases, 14,452 controls) - ADSP的全外显子测序数据(Bis et al., 2020; Le Guen et al., 2021)

方法应用: 1. LD矩阵估计:从1000 Genomes Project参考面板估计LD矩阵,按染色体分块。 2. knockoff副本生成:使用本文的计算高效算法生成汇总统计量的knockoff副本。 3. 筛选:应用本文的FWER控制筛选规则,在α=0.05下选择与AD条件相关的变异。 4. 结果验证:将筛选结果与已知AD风险位点(如APOE、BIN1、CLU等)进行比较,并检查新发现的位点是否在独立数据集中得到验证。

结果: - 本文方法在AD数据中识别出12个与AD条件相关的变异(在FWER ≤ 0.05下),而Janson & Su (2016) 的方法仅识别出3个,去随机化方法识别出9个。 - 新识别的位点包括一些已知AD风险基因(如TREM2、ABCA7)附近的变异,以及一些尚未被广泛报道的位点。 - 计算时间:本文方法在p=7,963(仅pQTL变异)时耗时约5分钟,而去随机化方法需要约2小时。

这个例子想说明什么:该例子旨在验证本文方法在实际遗传学数据中的有效性:(1) 相比现有FWER控制方法,本文方法能发现更多与AD相关的变异,表明其统计功效更高;(2) 新发现的位点具有生物学合理性(位于已知AD风险基因附近),表明假阳性控制良好;(3) 计算效率的提升使得该方法可以应用于大规模GWAS数据。

🔎 结论是否比证明窄

  • FWER控制的严格性:作者在定理1中证明FWER ≤ α,但这一证明依赖于“Σ已知”和“Z服从多元正态分布”的假设。在实际应用中,Σ是从有限样本估计得到的,估计误差可能导致FWER略高于名义水平。作者在模拟实验中验证了FWER控制,但未提供理论上的稳健性分析。具体语句:作者在讨论部分提到“The FWER control relies on the accurate estimation of Σ”,但未给出估计误差对FWER控制影响的理论界。
  • 计算效率的保证:作者声称块对角近似“几乎不损失精度”,但未给出近似误差的理论界。模拟实验显示在块对角结构下近似效果良好,但对于非块对角结构(如存在跨染色体的LD),近似可能失效。具体语句:作者在方法部分提到“We approximate Σ by a block-diagonal matrix”,但未讨论这一近似在非块对角结构下的适用性。
  • 筛选规则的推广:作者提出的筛选规则基于Wⱼ = |Zⱼ| - |Z̃ⱼ|,但未证明该规则对其他knockoff统计量(如Zⱼ² - Z̃ⱼ²)同样有效。具体语句:作者在模拟实验中仅使用了|Zⱼ| - |Z̃ⱼ|,未讨论其他统计量的表现。

四、开放问题

  1. Σ估计误差对FWER控制的影响:作者在定理1中假设Σ已知,但实际中Σ是从有限样本估计得到的。能否给出估计误差对FWER控制影响的理论界?例如,当Σ的估计误差为ε时,FWER是否仍能控制在α + O(ε)以内?扎根点:作者在讨论部分提到“The FWER control relies on the accurate estimation of Σ”,但未给出理论保证。

  2. 非正态分布下的FWER控制:作者假设Z服从多元正态分布,但这一假设在稀有变异或小样本下可能不成立。能否将FWER控制推广到更一般的分布族(如椭圆分布或非参数分布)?扎根点:作者在假设部分明确假设“Z follows a multivariate normal distribution”,但未讨论这一假设的稳健性。

  3. 块对角近似的理论误差界:作者通过模拟实验验证了块对角近似的有效性,但未给出近似误差的理论界。能否证明在某种度量下(如谱范数或Frobenius范数),块对角近似与精确解之间的误差以高概率有界?扎根点:作者在方法部分提到“We approximate Σ by a block-diagonal matrix”,但未给出理论保证。

  4. 与其他功效提升策略的整合:作者在讨论部分提到可以整合特征筛选(Barber & Candès, 2019)和侧信息(Ren & Candès, 2023)来进一步提升功效,但未给出具体的整合方案和理论保证。能否在FWER控制框架下整合这些策略?扎根点:作者在讨论部分提到“It is of great interest to incorporate some power boosting strategies to the proposed FWER filter”,但未给出具体方案。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论