Ultra-high-dimensional threshold selection for quantile feature screening with false discovery rate error rate control: a case study on high blood pressure analysis¶
作者: Saidat Abidemi Sanni, Yan Yu, Zhigen Zhao
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujag035
一、领域脉络与小综述¶
这个方向是什么:这个子方向要解决的根本统计问题是:在超高维(\(p \gg n\))特征空间中,如何进行特征筛选以保留与响应变量相关的少数特征,同时数据自适应地选取筛选阈值,并在筛选过程中严格控制错误发现率(FDR)。当前该方向在方法层面已有较多积累,但在分位数回归框架下结合FDR控制的阈值选择机制,成熟度尚在发展阶段,尤其是如何处理不同分位数下阈值的异质性以及数据拆分带来的随机性,仍是未完全解决的痛点。
发展脉络: - 奠基工作:超高维特征筛选的起点是 Fan & Lv (2008) 提出的 SIS(Sure Independence Screening),它利用边际相关性在 \(p \gg n\) 设定下以概率 1 保留所有真实特征(sure screening property),但 SIS 的核心缺口在于:阈值必须人为指定或依赖经验规则,缺乏误差率控制机制。 - 主要进展(FDR 框架引入):为填补阈值选择的缺口,Zhao & Li (2018) 与 Liu et al. (2021) 将 FDR 控制引入特征筛选,提出了基于数据拆分的 mirror statistic 方法。作者在 intro 中明确引用并定位了这一路线:"Zhao and Li (2018) first introduced the idea of using the symmetry of the mirror statistics to estimate the FDR for feature screening"。这一路线的口子在于:它主要针对均值回归或整体相关性,未触及分位数回归中条件分布异质性特征的筛选。 - 主要进展(分位数筛选):另一条线索是分位数层面的筛选。He, Wang & Hong (2019) 与 Ma, He & Huang (2020) 开发了分位数特征筛选方法(如 QCSIS),作者指出这些方法"extend screening to quantile levels",但它们"rely on ad-hoc threshold choices such as \(n / \log n\) or fixed proportions",依然缺乏数据自适应且带误差率保证的阈值选择机制。 - 当前 frontier 与本文位置:当前 frontier 正处于"分位数筛选 + FDR 控制"的交汇处。本文正是将自己定位在填补这两条线索交汇处的缺口:将 Zhao & Li (2018) 的 mirror symmetry 思想移植到 He et al. (2019) 的分位数筛选框架中,从而在分位数层面实现 FDR 控制下的数据自适应阈值选择。
子线索聚类: 1. 均值/全局特征筛选 + FDR 控制:以 Zhao & Li (2018), Liu et al. (2021) 为代表,核心是构建对称的 mirror statistic 估计零特征的分布,从而控制 FDR。这一簇在均值回归设定下已相对成熟。 2. 分位数特征筛选 + 经验阈值:以 He, Wang & Hong (2019) 的 QCSIS, Ma, He & Huang (2020) 为代表,核心是估计条件分位数对特征的边际敏感性,但阈值选择停留在启发式规则(如 \(n / \log n\)),缺乏概率误差率保证。 3. Knockoffs 路线:以 Barber & Candès (2015) 及 Candès et al. (2018) 的 Model-X Knockoffs 为代表,通过构造特征的无信息替代品控制 FDR。作者在 intro 中回避了这条路线的详细对比,仅在方法讨论中提及 Knockoffs 需要特征分布的完全已知,这在遗传数据中往往不满足。
这个方向在追问的核心问题: 1. 阈值选择的数据自适应性:如何让阈值随数据本身的信噪比、样本量与维数自动调整,而非依赖 \(n / \log n\) 这类先验规则? 2. 筛选过程中的误差率控制:在 \(p \gg n\) 且存在大量伪特征时,如何提供类似 FDR 的渐近或有限样本误差率保证? 3. 分位数异质性:在不同分位数(如极端高分位数 \(\tau=0.9\))下,真实特征的集合可能不同,如何允许不同分位数拥有不同的筛选阈值与特征集?
⚠️ 作者的 framing: - 作者将缺口 frame 为:"分位数筛选在医学应用中至关重要(如极端高血压),但现有分位数筛选方法只有启发式阈值,而现有 FDR 控制方法只适用于均值回归。将两者结合是显然的下一步。" - 被淡化的竞争路线:Knockoffs 路线被明显淡化。作者仅在文中提及 Knockoffs 需要已知特征的联合分布,但在超高维遗传数据中这极难满足,这构成了 Knockoffs 在此场景下的软肋。但作者未深入比较在特征分布可近似时的 Knockoffs 性能界限。 - 缺失的引用/该查的空白:intro 中未引用任何关于高维分位数回归系数估计的 FDR 控制(如基于 penalized quantile regression 的 debiased/hdi 检验)的工作。这留下一个值得研究者去查的问题:在条件分位数模型中,基于边际筛选的 FDR 控制 vs. 基于模型系数推断的 FDR 控制,在理论与功效上的差异究竟多大?
张力:未见明显对立引用。现有文献在"均值筛选有 FDR 控制、分位数筛选无 FDR 控制"这一事实上是一致的,不存在彼此矛盾的结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代
- \(n\):样本量。
- \(p\):特征维数(超高维,\(p \gg n\),甚至 \(p = \exp(n^a)\))。
- \(\tau \in (0,1)\):感兴趣的分位数水平(如 \(\tau=0.9\) 对应极端高血压)。
- \(Y\):响应变量(连续,如收缩压)。
- \(X = (X_1, \dots, X_p)\):\(p\) 维特征向量(如 SNP 基因型)。
- \(Q_\tau(Y | X)\):给定 \(X\) 时 \(Y\) 的第 \(\tau\) 条件分位数,这是要研究的对象。
- \(S_\tau\):在分位数 \(\tau\) 下的真实特征集(active set),即对 \(Q_\tau(Y | X)\) 有非零边际影响的特征索引集合。\(|S_\tau| = s_\tau\),通常 \(s_\tau\) 很小。
- \(S_\tau^c\):零特征集,即对 \(\tau\) 分位数无影响的特征索引集合,\(|S_\tau^c| = p - s_\tau\)。
- 可观测数据:\(\{(Y_i, X_i)\}_{i=1}^n\),为独立同分布样本。研究者能观测到响应与全部 \(p\) 个特征,但 \(p\) 极大,无法直接拟合全模型。\(S_\tau\) 与 \(S_\tau^c\) 是潜在/不可观测的集合,只能靠统计方法去识别。
- \(T_{j,\tau}\):特征 \(j\) 在分位数 \(\tau\) 下的边际筛选统计量(如基于分位数相关性或 Kolmogorov-Smirnov 统计量)。\(T_{j,\tau}\) 越大,特征 \(j\) 越可能属于 \(S_\tau\)。
- \(M_{j,\tau}\):本文核心构造——Quantile Mirror (QM) statistic。由 \(T_{j,\tau}\) 通过数据拆分与对称化构造而成。
- \(\hat{S}_\tau(t)\):以阈值 \(t\) 筛选出的特征集,即 \(\{j : |M_{j,\tau}| \ge t\}\)。
- FDP(\(t\)):虚假发现比例,\(\text{FDP}(t) = |S_\tau^c \cap \hat{S}_\tau(t)| / |\hat{S}_\tau(t)|\)(若分母为 0 则定义 FDP=0)。
- FDR(\(t\)):错误发现率,\(\text{FDR}(t) = E[\text{FDP}(t)]\)。
第二步:最小内核——二值特征与单点分位数下的 Mirror 对称性
剥掉超高维、多分位数、多拆分等一般性设定,支撑整篇论文的最小内核是:在零特征上,如何利用数据拆分构造一个分布对称的统计量,从而用其正半侧的计数来估计负半侧的虚假发现数。
考虑最简特例:\(p\) 个特征中只有 1 个真实特征(\(s=1\)),其余 \(p-1\) 个为零特征;只看一个分位数 \(\tau=0.5\);特征为二值 \(X_j \in \{0, 1\}\)(如 SNP 的显性编码)。
- 数据拆分:将样本随机等分为两半,\(D_1\) 与 \(D_2\),各含 \(n/2\) 个样本。
- 计算边际统计量:在 \(D_1\) 上计算特征 \(j\) 的分位数筛选统计量 \(T_{j,\tau}^{(1)}\),在 \(D_2\) 上计算 \(T_{j,\tau}^{(2)}\)。对于零特征 \(j \in S^c\),由于 \(X_j\) 与 \(Y\) 在分位数 \(\tau\) 下独立,\(T_{j,\tau}^{(1)}\) 与 \(T_{j,\tau}^{(2)}\) 不仅期望为 0,且在样本量趋于无穷时,其渐近分布是相同且对称于 0 的(例如渐近正态 \(N(0, \sigma^2)\))。
- 构造 Mirror 统计量:定义 \(M_{j,\tau} = T_{j,\tau}^{(1)} + T_{j,\tau}^{(2)}\)(或更一般的对称组合)。对于零特征,\(M_{j,\tau}\) 的分布关于 0 对称;对于真实特征,\(T_{j,\tau}^{(1)}\) 与 \(T_{j,\tau}^{(2)}\) 均偏向正数,故 \(M_{j,\tau}\) 倾向于取正值。
- FDR 估计的核心直觉:给定阈值 \(t > 0\),筛选集为 \(\hat{S}(t) = \{j : M_{j,\tau} \ge t\}\)。虚假发现数为 \(V(t) = |S^c \cap \hat{S}(t)|\)。由于零特征的 \(M_{j,\tau}\) 对称,\(M_{j,\tau} \ge t\) 的概率应等于 \(M_{j,\tau} \le -t\) 的概率。因此,负侧的计数 \(N(t) = |\{j : M_{j,\tau} \le -t\}|\) 是 \(V(t)\) 的无偏(或渐近无偏)估计。
- FDR 控制机制:估计 FDP 为 \(\widehat{\text{FDP}}(t) = N(t) / R(t)\),其中 \(R(t) = |\hat{S}(t)|\) 为总发现数。选择阈值 \(t\) 使得 \(\widehat{\text{FDP}}(t) \le \alpha\),即可渐近保证 \(\text{FDR}(t) \le \alpha\)。
为什么成立:整个机制的数学基石是零特征上 \(M_{j,\tau}\) 的分布对称性。只要数据拆分保证两半样本独立且同分布,边际统计量的渐近对称性即可由中心极限定理类工具保证。真实特征的正偏移则保证了它们几乎不会落入负侧,从而 \(N(t)\) 几乎只计数零特征,不污染估计。这就是整篇论文的"最小内核"——一般情形只是在此内核上叠加多分位数、多拆分聚合与超高维正则条件。
三、这篇论文做了什么¶
三句话: ①研究了超高维分位数特征筛选中缺乏数据自适应阈值且无 FDR 控制的问题; ②核心工具是利用数据拆分构造对称的 Quantile Mirror (QM) 统计量,以负侧计数估计正侧虚假发现数,并引入多次拆分聚合(QREDS)提升稳定性; ③主要结论是在正则条件下,所提 QREDS 及硬阈值筛选过程能渐近控制 FDR 在目标水平 \(\alpha\) 以下,并在 Framingham Heart Study 数据上验证了高血压相关遗传位点的发现能力。
关键设定与假设: 在第二节最小记号基础上补全: - 分位数边际筛选统计量 \(T_{j,\tau}\):本文采用 He et al. (2019) 定义的 quantile correlation 或类似指标,衡量 \(X_j\) 对 \(Y\) 的第 \(\tau\) 条件分位数的影响程度。 - 假设 1(Sure Screening Property):对真实特征 \(j \in S_\tau\),存在常数 \(c_1 > 0\) 使得 \(|T_{j,\tau}| \ge c_1 n^{-\kappa}\) 对某个 \(\kappa \in (0, 1/2)\) 成立。这保证了真实特征的信号强度足够,不会被阈值筛掉。相比 Fan & Lv (2008) 的 sure screening 假设,此处将信号强度条件适配到了分位数统计量上。 - 假设 2(Zero Feature Symmetry):对零特征 \(j \in S_\tau^c\),在数据拆分后两半样本上计算的边际统计量 \(T_{j,\tau}^{(1)}\) 与 \(T_{j,\tau}^{(2)}\) 满足渐近联合对称性(或各自渐近对称于 0 且独立)。这是 mirror 方法估计 FDR 的绝对基石,相比 Zhao & Li (2018) 的均值情形,本文需要额外论证分位数统计量在零特征下的渐近对称性,这依赖于分位数相关估计量的渐近展开。 - 假设 3(Ultra-high-dimensional Sparsity):\(s_\tau = o(n)\),真实特征数远小于样本量;同时允许 \(\log p = O(n^a)\) 对某个 \(a < 1\),即维数可超多项式增长。 - 假设 4(Feature Independence / Weak Dependence):零特征之间或零特征与真实特征之间的相关性受到控制(如满足一定协方差界或 restricted eigenvalue 条件)。这是保证 mirror 统计量在大 \(p\) 下仍能聚合估计 FDR 的条件,放宽了早期 mirror 文献中常要求的特征完全独立假设。
主要结果: 1. 定理(QM 统计量的渐近 FDR 控制):在假设 1-4 下,若选取阈值 \(t_\alpha\) 使得 \(\widehat{\text{FDP}}(t_\alpha) \le \alpha\),则当 \(n \to \infty, p \to \infty\) 时,\(\limsup \text{FDR}(t_\alpha) \le \alpha\)。直觉:零特征的 mirror 统计量对称性保证了 \(\widehat{\text{FDP}}\) 是 \(\text{FDP}\) 的渐近上界估计;sure screening 保证了真实特征几乎全在正侧,不增加虚假发现。必要条件是零特征的对称性必须成立至足够高阶(不仅期望对称,需分布对称或高阶矩对称),否则 \(\widehat{\text{FDP}}\) 会偏离。 2. 定理(QREDS 的稳定性与 FDR 控制):通过 \(B\) 次独立数据拆分,每次计算 QM 统计量并筛选,最终取交集或投票聚合(QREDS 过程)。在正则条件下,QREDS 的 FDR 仍渐近控制在 \(\alpha\),且筛选集的稳定性(跨拆分的一致性)显著提升。解决的技术难点是:单次拆分的筛选集随机性极大(某特征在一次拆分中可能因样本波动而落选),多次拆分聚合在保持 FDR 的同时降低了这种随机性,但需论证聚合操作(如取交集)不破坏 FDR 的渐近上界。 3. 定理(Hard Threshold with QREDS):结合 QREDS 的阈值选择与硬阈值筛选(先选阈值,再在该阈值下筛特征),证明了在 sure screening 与 FDR 控制同时满足的条件下,筛选集 \(\hat{S}_\tau\) 满足 \(P(S_\tau \subset \hat{S}_\tau) \to 1\) 且 \(\text{FDR} \le \alpha\)。这是将 FDR 控制与传统 sure screening 理论统一的关键结果。
证明路线与技术技巧: - 整体路线: 1. 建立零特征 QM 统计量的渐近对称性:对 \(j \in S_\tau^c\),展开分位数边际统计量 \(T_{j,\tau}\) 的渐近分布,证明其在两半样本上独立且同分布,从而 \(M_{j,\tau} = T_{j,\tau}^{(1)} + T_{j,\tau}^{(2)}\) 渐近对称于 0。 2. 建立 \(\widehat{\text{FDP}}\) 对 \(\text{FDP}\) 的渐近上界:利用对称性,证明 \(E[N(t)] = E[V(t)]\)(或渐近等价),从而 \(\widehat{\text{FDP}}(t) = N(t)/R(t)\) 在期望上逼近 \(\text{FDP}(t)\)。再利用大 \(p\) 下零特征数量的集中不等式,将 \(N(t)/R(t)\) 的随机波动控制住。 3. 论证真实特征不污染负侧:利用 sure screening 假设(信号强度 \(\ge c_1 n^{-\kappa}\)),证明对适当阈值 \(t\),\(P(M_{j,\tau} \le -t \text{ for } j \in S_\tau) \to 0\),即真实特征几乎不出现在负侧计数 \(N(t)\) 中。 4. 多拆分聚合的 FDR 保持:论证 QREDS 的交集/投票操作在渐近意义上不增加 FDP——因为每次拆分独立且各自 FDP 受控,交集的虚假发现数不超过单次拆分的虚假发现数,而总发现数的减少通过阈值调整补偿。 5. Sure Screening + FDR 统一:结合步骤 3 的信号强度与步骤 2 的 FDR 控制,得出最终定理。 - 关键跳跃点: - 分位数统计量的渐近对称性论证:均值回归中,边际相关系数在零特征下显然对称(正负相关概率相同);但在分位数统计量中,\(T_{j,\tau}\) 的构造涉及条件分位数函数的估计,其渐近分布的对称性需要更精细的展开(涉及分位数过程的影响函数),这是本文相比 Zhao & Li (2018) 的核心新增技术难点。 - 多拆分聚合下 FDR 的非破坏性论证:交集操作自然减少发现数 \(R(t)\),若 \(N(t)\) 也减少,FDP 的变化方向不确定。作者需论证在渐近意义上,交集操作的 FDP 不超过单次操作的 FDP 上界,这依赖于对 \(N(t)\) 与 \(R(t)\) 联合行为的概率界。 - 技术技巧点名: - Empirical process / concentration inequality:用于控制 \(p \to \infty\) 时 \(N(t)\) 与 \(V(t)\) 的随机波动,保证 \(\widehat{\text{FDP}}\) 逼近 \(\text{FDP}\) 的误差以高概率衰减。具体用在步骤 2 的联合集中界论证中。 - Quantile influence function 展开:用于建立 \(T_{j,\tau}\) 的渐近正态性与对称性,这是分位数推断的标准工具,本文用它替代均值情形下的简单相关系数渐近分析。 - Data splitting + symmetry coupling:数据拆分制造独立性,对称组合 \(M_{j,\tau} = T^{(1)} + T^{(2)}\)(或 \(T^{(1)} - T^{(2)}\) 的变体)利用对称性估计 FDP,这是 mirror 方法的核心技巧,源自 Zhao & Li (2018),本文将其适配到分位数统计量。
真实例子与应用: - 数据:Framingham Heart Study (FHS),一个经典的心血管疾病纵向队列数据。响应变量为收缩压(SBP),特征为超高维 SNP 基因型(\(p\) 在数十万级别)。 - 如何用上去:选取高分位数 \(\tau=0.9\)(关注极端高血压风险),对 SBP 与每个 SNP 计算分位数边际统计量,构造 QM 统计量,通过 QREDS 过程选取阈值并筛选 SNP。 - 得到什么结果:筛选出的 SNP 中,多个已在医学文献中被验证为高血压相关位点(如靠近 AGT, CYP17A1 等基因的位点),同时发现了若干文献中未报道的新风险因子(具体基因名见原文表与图)。 - 想说明什么:①验证 QREDS 在真实超高维遗传数据上的可操作性(阈值确实能自动选出,不需人为调参);②展示分位数筛选在 \(\tau=0.9\) 下能捕捉均值筛选遗漏的极端风险因子;③通过已知位点的复现,间接佐证 FDR 控制机制的有效性(若 FDR 失控,筛选集应被大量伪特征淹没,已知位点难以复现)。
🔎 结论是否比证明窄: - 作者在定理中严格证明了在正则条件(假设 1-4)与渐近框架(\(n, p \to \infty\))下的 FDR 控制。但在应用与模拟讨论中,作者泛泛 claim QREDS 在"有限样本下也表现良好的 FDR 控制",这一有限样本性质未被严格证明,仅由模拟支撑。研究者若关注有限样本界,需注意这一 gap。 - 另一处泛泛 claim:作者提及 QREDS 可"允许不同分位数选取不同阈值",但理论定理主要在单分位数设定下证明。多分位数联合筛选下的 FDR 联合控制(如 family-wise error rate 跨分位数)并未在定理中严格处理,仅作为方法描述提出。
四、开放问题(点到为止)¶
- 多分位数联合 FDR 控制的理论界:本文定理主要在单分位数 \(\tau\) 下证明 FDR 控制,但方法部分允许跨多个 \(\tau\) 独立筛选。若对一族分位数 \(\{\tau_1, \dots, \tau_K\}\) 同时筛选,跨分位数的联合 FDR(或 family-wise error rate)如何控制?这扎根在作者"different thresholds are allowed for different quantiles"的方法描述与单分位数定理之间的缺口。
- 零特征间存在强相关性时的 mirror 对称性破坏:假设 4 要求弱相关性,但遗传数据中 SNP 常呈强连锁不平衡(LD block)。在强相关结构下,\(N(t)\) 的集中界是否仍成立?这扎根在假设 4 的 restricted eigenvalue 条件与真实遗传数据 LD 结构之间的张力。
- 有限样本下 \(\widehat{\text{FDP}}\) 的高概率上界:渐近定理保证 \(\limsup \text{FDR} \le \alpha\),但对固定 \(n, p\),\(\widehat{\text{FDP}}\) 偏离 \(\text{FDP}\) 的非渐近界是什么?这扎根在作者泛泛 claim 的"finite-sample good FDR control"与严格渐近证明之间的落差。
- 与 Knockoffs 在分位数设定下的直接功效对比:作者回避了 Knockoffs 路线的深入对比。在特征分布可近似建模时(如 SNP 可用 HMM 模拟 knockoffs),QREDS 与 Model-X Knockoffs 在分位数筛选下的功效-FDR 曲线孰优?这扎根在 intro 中对 Knockoffs 软肋的定性提及与缺乏定量对比的空白。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub