跳转至

PDC-MAKES: a conditional screening method for controlling false discoveries in high-dimensional multi-response setting

作者: Wei Xiong, Han Pan, Tong Shen
来源: Biometrics
主题: 高维统计 / 随机矩阵
相关性: 8/10
机构绿灯: Peking University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf042


一、领域脉络与小综述

这个方向是什么: 高维多响应特征筛选与错误发现率(FDR)控制要解决的根本统计问题是:当预测变量(\(p\)极大)与响应变量(\(q\)较大)均处于超高维且彼此高度相关时,如何在不预设模型形式的前提下,把对响应有条件依赖的预测变量从海量噪声变量中挑出来,同时保证挑出的变量集合中假阳性的比例(FDR)受到严格控制。当前该子方向的成熟度处于“单响应边际筛选与FDR控制已有较成熟框架,多响应条件筛选刚起步,高维条件变量下的非参数筛选与FDR联合控制尚属空白”的阶段。

发展脉络: - 奠基工作(边际筛选与Sure Screening):Fan & Lv (2008) 提出基于边际相关性的 SIS 方法,奠定了高维特征筛选的 sure screening 理论(即保证以概率趋于1把真实重要变量保留下来),但留下“无法识别边际无关但条件相关的变量,且对强相关预测变量极其脆弱”的口子。 - 主要进展(条件筛选与非参数度量):为弥补边际筛选的缺陷,条件筛选路线被提出。基于偏相关系数的方法(如 Zhong et al. 2020)处理了条件依赖,但局限于线性与单响应;基于距离相关及其偏版本的非参数路线(Székely et al. 2007, 2009; Kong et al. 2012 提出偏距离相关 PDC)被引入特征筛选(如 Zhong & Zhu 2021 的 DC-SIS),解决了模型无关与重尾问题,但 Kong et al. 的原始 PDC 定义要求条件变量 \(Z\) 的维数固定或极低,留下“当条件变量本身也是高维时,PDC 估计量因维数灾难而失效”的口子。 - 当前 Frontier(FDR 控制):在筛选出候选集后控制 FDR 成为新焦点。Barber & Candes (2015) 引入 Knockoff 框架构造变量重要性差值;Rina et al. (2022) 将其推广至多响应;但 Knockoff 依赖模型设定(如 Gaussian LM)。Katsevich & Ramdas (2024) 提出去随机化 Knockoff-e 值,在单响应下实现了更稳定的 FDR 控制,留下“多响应、非参数、高维条件变量设定下的 Knockoff-e 值筛选”的空白。 - 本文的位置:本文填补了上述三个口子的交汇处——在超高维多响应设定下,利用 PDC 的特定性质突破条件变量高维的限制,结合去随机化 Knockoff-e 值实现模型无关的条件筛选与 FDR 联合控制。

子线索聚类: 1. 筛选度量演进线:从边际 Pearson 相关(SIS)→ 边际距离相关(DC-SIS,处理非参数与重尾)→ 偏距离相关(PDC-SIS,处理条件依赖与强相关)。这一簇在寻找更稳健、更普适的依赖性度量。 2. FDR 控制线:从 BH 序列步骤(依赖 p-value 分布假设)→ Model-X Knockoff(构造伪变量,依赖模型设定)→ 去随机化 Knockoff-e 值(消除 Knockoff 的随机性波动,更稳定)。这一簇在寻找不依赖 p-value 且对模型假设更宽松的 FDR 控制机制。 3. 多响应设定线:从单响应筛选 → 多响应联合筛选(如 Ke et al. 2022 的多响应 Knockoff)。这一簇在处理响应变量内部的协方差结构与多重性。

这个方向在追问的核心问题: 1. 如何识别“边际无关但条件相关”的变量?(当前瓶颈:偏相关系数要求线性与低维 \(Z\);PDC 要求低维 \(Z\))。 2. 如何在非参数/模型无关设定下同时保证 Sure Screening 与 FDR 控制?(当前瓶颈:Sure Screening 通常只管保留真变量不管假阳性;FDR 控制通常依赖 p-value 或强模型假设)。 3. 当条件变量 \(Z\) 也是高维时,条件依赖度量的估计量如何避免维数灾难?(当前瓶颈:传统 PDC 的 U-统计量在高维 \(Z\) 下计算复杂度与收敛速率均崩溃)。

⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口 frame 为“现有条件筛选方法无法处理高维条件变量 \(Z\),且现有 FDR 控制方法在多响应非参数设定下不稳定”,从而让 PDC-MAKES 成为“显然的下一步”——利用 PDC 的代数性质绕过 \(Z\) 的高维计算,利用 Knockoff-e 值绕过模型假设与随机性波动。 - 哪些竞争路线被他淡化或回避了:基于广义矩检验或半参数约束的筛选路线(如基于 Influence Function 的 Debiasing 筛选)在 intro 中完全未被提及;基于 Lasso 等惩罚回归的条件筛选(如 Conditional Randomization Test)虽被提及但被归类为“依赖模型假设”而一笔带过。 - 什么明显该被引 / 该存在、却没出现在 intro 里:关于高维 U-统计量收敛速率的理论工作(如 Chen & Kato 2017 的 Hoeffding decomposition in high-dim,或你熟悉的 Higher-order U-statistics 理论)——本文核心估计量 PDC 本质上是高阶 U-统计量,作者在理论部分必然依赖其高维渐近性质,但 intro 中对这一理论支撑的溯源缺失,这是一个值得研究者去查的信号:作者是否在技术节悄悄用了不严谨的 U-统计量速率假设?

张力: 未见明显对立引用。各路线(边际 vs 条件、参数 vs 非参数)更多是互补演进而非矛盾结论。但存在一个隐性张力:Knockoff 框架要求构造伪变量的联合分布与真实变量一致,这在非参数/模型无关设定下极难做到,作者声称使用 Model-X Knockoff 但又声称模型无关,这一张力在技术节必须被仔细核查。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(X\):预测变量向量,维度为 \(p\)(超高维,\(p \gg n\))。
  • \(Y\):响应变量向量,维度为 \(q\)(多响应,\(q\) 可大于1且可高维)。
  • Z$:条件变量向量,维度为 \(d\)(本文关键突破:允许 \(d\) 高维,\(d \gg n\))。
  • \(n\):样本量。
  • \((X_i, Y_i, Z_i)_{i=1}^n\):可观测的 i.i.d. 样本。研究者实际能观测到的是这三个向量的 \(n\) 次独立重复,没有任何潜在/不可观测的干预数据,这是纯观测性设定。
  • \(X_j\)\(X\) 的第 \(j\) 个分量(第 \(j\) 个预测变量),\(j \in \{1, \dots, p\}\)
  • \(\mathcal{D}\):要估/要筛的目标集合——活跃变量集,定义为 \(\mathcal{D} = \{j : \text{PDC}(X_j, Y | Z) > 0\}\)。即给定 \(Z\) 后,\(X_j\)\(Y\) 存在条件依赖的那些 \(j\)。这是本文的 estimand。
  • \(\mathcal{D}_n\):筛选出的变量集合,是 \(\mathcal{D}\) 的估计量。
  • FDP / FDR:假发现比例/率,\(\text{FDP} = |\mathcal{D}_n \cap \mathcal{D}^c| / |\mathcal{D}_n|\),FDR 是 FDP 的期望。
  • \(\tilde{X}_j\):Knockoff 伪变量,构造要求 \((X, \tilde{X})\) 的联合分布与 \((X, X)\) 在边际分布上满足特定交换性。
  • \(W_j\):变量重要性统计量,定义为基于 PDC 的差值:\(W_j = \text{PDC}_n(X_j, Y | Z) - \text{PDC}_n(\tilde{X}_j, Y | Z)\)

模型:数据生成机制为 \((X, Y, Z)\) 服从某个未知的联合分布 \(P_{X,Y,Z}\),没有任何参数族假设(如非高斯、非线性)。唯一隐含的结构假设是:\(Y\)\(X\) 的依赖完全由 \(\mathcal{D}\) 中的变量在给定 \(Z\) 下产生,\(\mathcal{D}\) 外的变量与 \(Y\) 条件独立。

第二步:最小内核——\(q=1, d=1\) 下的偏距离相关与 Knockoff-e 值筛选

整篇论文的数学本质是“用偏距离相关代替偏相关系数,用 Knockoff-e 值代替 p-value 阈值”的推广。最简特例是单响应(\(q=1\))、单条件变量(\(d=1\)的情形,此时 PDC 退化为偏距离相关的基础形式,核心思路一目了然:

  1. 要筛什么:找出所有 \(j\),使得给定单变量 \(Z\) 后,\(X_j\) 与单变量 \(Y\) 有非线性依赖(如 \(Y = X_j Z + \epsilon\),此时 \(X_j\) 边际与 \(Y\) 无关,但条件相关)。
  2. 度量怎么算(PDC 的最小内核):偏距离相关 \(\text{PDC}(X_j, Y | Z)\) 的核心想法是“剔除 \(Z\) 的投影后再算距离相关”。在 \(d=1\) 时,它通过计算 U-统计量形式的经验距离协方差,先算 \(X_j\)\(Z\) 的距离、\(Y\)\(Z\) 的距离,然后用线性投影残差的思想,在距离矩阵空间中剔除 \(Z\) 的贡献,得到残差距离矩阵,最后算残差距离矩阵间的协方差。为什么成立:因为距离相关在欧氏空间中刻画了所有类型的依赖,而“在距离空间做投影”恰好等价于“在原空间剔除条件变量的线性与非线性影响”(这是 Székely et al. 2009 的核心定理)。
  3. FDR 怎么控(Knockoff-e 值的最小内核):对每个 \(j\),构造一个 Knockoff 伪变量 \(\tilde{X}_j\)(它与 \(Y\) 条件独立,但与 \(X\) 的联合分布 mimic 真实 \(X\))。算重要性差值 \(W_j = \text{PDC}_n(X_j, Y|Z) - \text{PDC}_n(\tilde{X}_j, Y|Z)\)。如果 \(j \in \mathcal{D}\)\(W_j\) 倾向于正;如果 \(j \notin \mathcal{D}\)\(W_j\) 的符号正负各半(由 Knockoff 交换性保证)。传统 Knockoff 选阈值 \(t\) 使得 \(\hat{\text{FDP}}(t) = (\#\{W_j \le -t\}) / (\#\{W_j \ge t\}) \le q\)本文的跳跃:阈值 \(t\) 依赖 \(W_j\) 的随机排列,导致不同数据集选的 \(t\) 波动大。去随机化 Knockoff-e 值的做法是:对 \(W_j\) 多次重采样/多次构造 Knockoff,算出 \(e_j = -\#\{W_j^{(b)} \le -W_j\} / \#\{W_j^{(b)} \ge W_j\}\)(一个 e-value),然后选集合 \(\{j : e_j \ge 1/q\}\)。e-value 的期望性质保证了 \(\text{FDR} \le q\),且消除了单次 Knockoff 的随机性波动。

在这个最简特例下,要证的命题退化成:\(q=1, d=1\) 且真实 \(\mathcal{D}\) 有限时,基于 PDC 的 \(W_j\) 能让 \(\mathcal{D}\) 中的 \(W_j\) 以概率趋于1大于0(Sure Screening),且基于 e-value 选出的集合的 FDP 期望 \(\le q\)。一般情形(\(q>1, d \gg n\))只是在这个内核上加了“多响应距离矩阵求和”与“高维 \(Z\) 的投影矩阵降维处理”两层壳。

三、这篇论文做了什么

三句话: ①研究了超高维多响应设定下,模型无关的条件特征筛选与 FDR 联合控制问题; ②核心工具是偏距离相关(PDC,处理条件依赖与高维 \(Z\))与去随机化 Knockoff-e 值(处理 FDR 与随机性波动); ③主要结论是在温和条件下,PDC-MAKES 同时具备 Sure Screening 性质(保留所有真实变量)与 FDR 控制性质,且检验功效高于传统 Knockoff。

关键设定与假设: - 设定\((X_i, Y_i, Z_i)_{i=1}^n\) i.i.d.,\(p \gg n\)\(q\) 可大于1,\(d\) 可大于 \(n\)(这是本文区别于 Kong et al. 2012 的关键,Kong 要求 \(d\) 固定)。 - 假设 A1(子指数尾)\(X, Y, Z\) 的分布具有子指数尾。统计含义:保证距离相关 U-统计量的浓度不等式成立,是对重尾的容忍度声明,相比高斯假设大幅放宽。 - 假设 A2(信号强度下界):对活跃变量 \(j \in \mathcal{D}\)\(\text{PDC}(X_j, Y|Z) \ge c n^{-\kappa}\)\(\kappa\) 介于0与某个正数之间)。统计含义:这是 Sure Screening 的标准假设,保证真实信号不被噪声淹没;若信号极弱,任何筛选方法均无解。 - 假设 A3(条件变量 \(Z\) 的可分性):这是本文最核心的技术假设。要求 \(Z\) 的距离矩阵 \(B_Z\) 的谱性质或投影性质允许 PDC 的计算绕过 \(d \gg n\) 的维数灾难。具体而言,作者利用了 PDC 的一个代数等价定义:\(\text{PDC}^2(X, Y|Z) = \text{DCov}^2(\tilde{X}, \tilde{Y}) / \sqrt{\text{DCov}^2(\tilde{X}, \tilde{X}) \text{DCov}^2(\tilde{Y}, \tilde{Y})}\),其中 \(\tilde{X}\)\(X\)\(Z\) 的距离空间上的双中心化残差。当 \(d\) 高维时,这个投影的计算复杂度本应是 \(O(n^2 d)\),但作者假设/利用了 \(B_Z\) 的低秩或可近似低秩结构,使得投影可以在低维空间完成,从而绕过了 \(d \gg n\) 的计算与统计崩溃。 - 假设 A4(Knockoff 构造可行性):假设已知 \((X|Z)\) 的分布,可以构造满足交换性的 Model-X Knockoff \(\tilde{X}\)。统计含义:这是所有 Knockoff 方法的通病——在模型无关设定下,\((X|Z)\) 的分布未知,构造精确 Knockoff 极难。作者在此处实质上强化了假设(要求知道条件分布),与其宣称的“模型无关”存在张力。

主要结果: - 定理 1(Sure Screening 性质):在假设 A1-A3 下,随着 \(n \rightarrow \infty\)\(\Pr(\mathcal{D} \subseteq \mathcal{D}_n) \rightarrow 1\)。直觉:只要真实 PDC 信号强度大于 \(n^{-\kappa}\),且 \(Z\) 的距离矩阵投影不崩溃,经验 PDC 就能把所有真实变量挑出来。解决了高维 \(Z\) 下 PDC 估计量仍能收敛的理论难题。 - 定理 2(FDR 控制):在假设 A4 下,基于去随机化 Knockoff-e 值选出的集合 \(\mathcal{D}_n\),满足 \(\text{FDR} = E[\text{FDP}] \le q\)。直觉:e-value 的期望在零假设下 \(\le 1\),Markov 不等式直接给出 FDR 控制,无需依赖 p-value 的分布假设。 - 定理 3(功效提升):在同等 FDR 水平下,PDC-MAKES 的检验功效(Power)高于传统单次 Knockoff。直觉:去随机化消除了阈值选择的随机性波动,使得更多真实信号被稳定保留。

证明路线与技术技巧: - 整体路线: 1. PDC 的高维计算重构:将传统 PDC 定义(要求计算 \(Z\) 的条件期望距离)转化为基于距离矩阵投影的等价定义(利用双中心化矩阵的代数性质)。 2. 高维 \(Z\) 投影的降维处理:利用 \(B_Z\) 的谱分解或低秩近似,将 \(O(n^2 d)\) 的投影降为 \(O(n^2 r)\)\(r\)\(B_Z\) 的有效秩),绕过维数灾难。 3. U-统计量浓度不等式:对重构后的 PDC 估计量(本质上是基于残差距离矩阵的 U-统计量),应用子指数尾的 Bernstein 不等式,证明其以极高概率逼近真实 PDC。 4. Knockoff-e 值的 FDR 证明:证明零假设下 \(W_j\) 的符号对称性,构造 e-value,用 Markov 不等式与 e-value 的乘积性质完成 FDR 控制。 5. Sure Screening 与 FDR 的联合:将步骤3的浓度不等式与步骤4的 FDR 控制结合,证明在筛选阈值下,真实信号不被遗漏,假阳性被控制。 - 关键跳跃点: - 引理/命题:高维 \(Z\) 下 PDC 的等价重构与低秩近似。难点卡在:当 \(d \gg n\) 时,\(Z\) 的距离矩阵 \(B_Z\)\(n \times n\) 矩阵,但其构造依赖 \(O(nd)\) 的计算,且投影 \(\tilde{X} = (I - B_Z B_Z^+) X\)\(B_Z\) 病态时极不稳定。作者的办法是:利用 PDC 的定义中 \(B_Z\) 只起“剔除条件影响”的作用,用 \(B_Z\) 的谱截断(保留前 \(r\) 大特征值对应的投影空间)代替精确投影,并证明截断误差在假设 A3 下可被信号强度 \(n^{-\kappa}\) 吸收。 - 技术技巧点名: - 双中心化距离矩阵:用在 PDC 的计算重构中,将条件期望的扣除转化为矩阵投影的代数操作。 - 谱截断/低秩近似:用在处理高维 \(Z\) 的投影中,绕过 \(d \gg n\) 的维数灾难与计算瓶颈。 - Hoeffding 分解与 U-统计量浓度不等式:用在证明 PDC 估计量的渐近速率中,将 PDC 的 U-统计量分解为可控的低阶核与高阶余项。 - 去随机化 e-value:用在 FDR 控制中,用多次 Knockoff 构造的 e-value 代替单次 Knockoff 的阈值选择,消除随机性。

真实例子与应用: - 数据:小鼠多组织基因表达数据(\(n=200\) 左右,\(p=20000\) 基因作为预测变量,\(q=5\) 组织作为多响应,\(d\) 为其他协变量)。 - 怎么用上去:将 5 个组织的表达量作为 \(Y\),筛选给定协变量后与多组织表达有条件依赖的基因。构造 Knockoff 伪基因,计算 PDC 差值 \(W_j\),用 e-value 设定阈值。 - 得到什么结果:PDC-MAKES 篮出的基因集合在 FDR 控制在 0.1 的前提下,比单响应筛选与边际筛选多出约 30% 的基因,且包含了已知在多组织通路中起调控作用的基因(如某些转录因子),而边际筛选漏掉了这些基因(因为它们只在特定组织组合下有条件依赖)。 - 想说明什么:验证两点:①多响应联合筛选比单响应筛选在识别跨组织调控基因上有更高功效;②PDC 能识别边际无关但条件相关的基因,这是线性/边际方法做不到的。

🔎 结论是否比证明窄: - 泛泛 claim vs 严格证明的张力:作者在 Abstract 和 Intro 中声称方法“model-free”,但定理 2(FDR 控制)的证明严格依赖假设 A4(已知 \((X|Z)\) 的分布以构造精确 Knockoff)。在 \((X|Z)\) 未知时,Knockoff 的构造只能用近似(如 Gaussian 假设或低维近似),此时 FDR 控制只有近似保证而非严格证明。作者在正文中淡化了这一假设的强度,没有在定理陈述中明确标注“model-free 仅指 PDC 度量,FDR 控制仍依赖 Model-X Knockoff 的分布假设”,这是一个结论比证明窄的地方,研究者需核查定理 2 的陈述语句是否包含了 A4。

四、开放问题(点到为止)

  1. 高维 \(Z\) 下 PDC 的低秩近似误差的精确速率:本文用谱截断处理 \(B_Z\),但截断秩 \(r\) 的选择依赖启发式规则,理论中假设了截断误差可被吸收(假设 A3)。要证什么:在 \(d \gg n\)\(Z\) 无精确低秩结构时,PDC 估计量的 minimax 收敛速率是多少?扎根点:定理 1 证明中谱截断误差的界(Lemma 的余项处理)。
  2. Model-X Knockoff 在 \((X|Z)\) 未知时的 FDR 严格控制:本文 FDR 证明依赖已知 \((X|Z)\),但实际数据中此分布未知。要估什么:当用估计的 \((X|Z)\) 构造 Knockoff 时,FDP 的超量是多少?扎根点:假设 A4 的陈述与定理 2 的前提条件。
  3. PDC 估计量的高阶 U-统计量效率分析:PDC 是基于距离矩阵的高阶 U-统计量,本文只用了其浓度不等式,未触及效率理论。要估什么:PDC 估计量在半参数模型下的效率界是什么?是否可通过 Higher-order Influence Function 提升弱信号下的功效?扎根点:定理 3 的功效声明仅对比了 Knockoff 变体,未对比半参数效率界。
  4. 多响应 \(q \gg n\) 时的距离矩阵崩溃:本文允许 \(q\) 较大,但若 \(q\) 也进入超高维(\(q \gg n\)),\(Y\) 的距离矩阵 \(B_Y\) 同样面临维数灾难。要证什么:\(q \gg n\) 时 PDC 的 Sure Screening 条件需要何种信号强度?扎根点:假设 A1-A2 中对 \(q\) 的隐含限制(子指数尾与信号强度均依赖 \(q\) 的常数)。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论