PDC-MAKES: a conditional screening method for controlling false discoveries in high-dimensional multi-response setting¶

作者: Wei Xiong, Han Pan, Tong Shen
来源: Biometrics
主题: 高维统计 / 随机矩阵
相关性: 8/10
机构绿灯: Peking University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf042

一、领域脉络与小综述¶

这个方向是什么：高维多响应特征筛选与错误发现率（FDR）控制要解决的根本统计问题是：当预测变量（$p$极大）与响应变量（$q$较大）均处于超高维且彼此高度相关时，如何在不预设模型形式的前提下，把对响应有条件依赖的预测变量从海量噪声变量中挑出来，同时保证挑出的变量集合中假阳性的比例（FDR）受到严格控制。当前该子方向的成熟度处于“单响应边际筛选与FDR控制已有较成熟框架，多响应条件筛选刚起步，高维条件变量下的非参数筛选与FDR联合控制尚属空白”的阶段。

发展脉络： - 奠基工作（边际筛选与Sure Screening）：Fan & Lv (2008) 提出基于边际相关性的 SIS 方法，奠定了高维特征筛选的 sure screening 理论（即保证以概率趋于1把真实重要变量保留下来），但留下“无法识别边际无关但条件相关的变量，且对强相关预测变量极其脆弱”的口子。 - 主要进展（条件筛选与非参数度量）：为弥补边际筛选的缺陷，条件筛选路线被提出。基于偏相关系数的方法（如 Zhong et al. 2020）处理了条件依赖，但局限于线性与单响应；基于距离相关及其偏版本的非参数路线（Székely et al. 2007, 2009; Kong et al. 2012 提出偏距离相关 PDC）被引入特征筛选（如 Zhong & Zhu 2021 的 DC-SIS），解决了模型无关与重尾问题，但 Kong et al. 的原始 PDC 定义要求条件变量 $Z$ 的维数固定或极低，留下“当条件变量本身也是高维时，PDC 估计量因维数灾难而失效”的口子。 - 当前 Frontier（FDR 控制）：在筛选出候选集后控制 FDR 成为新焦点。Barber & Candes (2015) 引入 Knockoff 框架构造变量重要性差值；Rina et al. (2022) 将其推广至多响应；但 Knockoff 依赖模型设定（如 Gaussian LM）。Katsevich & Ramdas (2024) 提出去随机化 Knockoff-e 值，在单响应下实现了更稳定的 FDR 控制，留下“多响应、非参数、高维条件变量设定下的 Knockoff-e 值筛选”的空白。 - 本文的位置：本文填补了上述三个口子的交汇处——在超高维多响应设定下，利用 PDC 的特定性质突破条件变量高维的限制，结合去随机化 Knockoff-e 值实现模型无关的条件筛选与 FDR 联合控制。

子线索聚类： 1. 筛选度量演进线：从边际 Pearson 相关（SIS）→ 边际距离相关（DC-SIS，处理非参数与重尾）→ 偏距离相关（PDC-SIS，处理条件依赖与强相关）。这一簇在寻找更稳健、更普适的依赖性度量。 2. FDR 控制线：从 BH 序列步骤（依赖 p-value 分布假设）→ Model-X Knockoff（构造伪变量，依赖模型设定）→ 去随机化 Knockoff-e 值（消除 Knockoff 的随机性波动，更稳定）。这一簇在寻找不依赖 p-value 且对模型假设更宽松的 FDR 控制机制。 3. 多响应设定线：从单响应筛选 → 多响应联合筛选（如 Ke et al. 2022 的多响应 Knockoff）。这一簇在处理响应变量内部的协方差结构与多重性。

这个方向在追问的核心问题： 1. 如何识别“边际无关但条件相关”的变量？（当前瓶颈：偏相关系数要求线性与低维 $Z$；PDC 要求低维 $Z$）。 2. 如何在非参数/模型无关设定下同时保证 Sure Screening 与 FDR 控制？（当前瓶颈：Sure Screening 通常只管保留真变量不管假阳性；FDR 控制通常依赖 p-value 或强模型假设）。 3. 当条件变量 $Z$ 也是高维时，条件依赖度量的估计量如何避免维数灾难？（当前瓶颈：传统 PDC 的 U-统计量在高维 $Z$ 下计算复杂度与收敛速率均崩溃）。

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：作者将缺口 frame 为“现有条件筛选方法无法处理高维条件变量 $Z$，且现有 FDR 控制方法在多响应非参数设定下不稳定”，从而让 PDC-MAKES 成为“显然的下一步”——利用 PDC 的代数性质绕过 $Z$ 的高维计算，利用 Knockoff-e 值绕过模型假设与随机性波动。 - 哪些竞争路线被他淡化或回避了：基于广义矩检验或半参数约束的筛选路线（如基于 Influence Function 的 Debiasing 筛选）在 intro 中完全未被提及；基于 Lasso 等惩罚回归的条件筛选（如 Conditional Randomization Test）虽被提及但被归类为“依赖模型假设”而一笔带过。 - 什么明显该被引 / 该存在、却没出现在 intro 里：关于高维 U-统计量收敛速率的理论工作（如 Chen & Kato 2017 的 Hoeffding decomposition in high-dim，或你熟悉的 Higher-order U-statistics 理论）——本文核心估计量 PDC 本质上是高阶 U-统计量，作者在理论部分必然依赖其高维渐近性质，但 intro 中对这一理论支撑的溯源缺失，这是一个值得研究者去查的信号：作者是否在技术节悄悄用了不严谨的 U-统计量速率假设？

张力：未见明显对立引用。各路线（边际 vs 条件、参数 vs 非参数）更多是互补演进而非矛盾结论。但存在一个隐性张力：Knockoff 框架要求构造伪变量的联合分布与真实变量一致，这在非参数/模型无关设定下极难做到，作者声称使用 Model-X Knockoff 但又声称模型无关，这一张力在技术节必须被仔细核查。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

$X$：预测变量向量，维度为 $p$（超高维，$p \gg n$）。
$Y$：响应变量向量，维度为 $q$（多响应，$q$ 可大于1且可高维）。
Z$：条件变量向量，维度为 $d$（本文关键突破：允许 $d$ 高维，$d \gg n$）。
$n$：样本量。
$(X_i, Y_i, Z_i)_{i=1}^n$：可观测的 i.i.d. 样本。研究者实际能观测到的是这三个向量的 $n$ 次独立重复，没有任何潜在/不可观测的干预数据，这是纯观测性设定。
$X_j$：$X$ 的第 $j$ 个分量（第 $j$ 个预测变量），$j \in \{1, \dots, p\}$。
$\mathcal{D}$：要估/要筛的目标集合——活跃变量集，定义为 $\mathcal{D} = \{j : \text{PDC}(X_j, Y | Z) > 0\}$。即给定 $Z$ 后，$X_j$ 与 $Y$ 存在条件依赖的那些 $j$。这是本文的 estimand。
$\mathcal{D}_n$：筛选出的变量集合，是 $\mathcal{D}$ 的估计量。
FDP / FDR：假发现比例/率，$\text{FDP} = |\mathcal{D}_n \cap \mathcal{D}^c| / |\mathcal{D}_n|$，FDR 是 FDP 的期望。
$\tilde{X}_j$：Knockoff 伪变量，构造要求 $(X, \tilde{X})$ 的联合分布与 $(X, X)$ 在边际分布上满足特定交换性。
$W_j$：变量重要性统计量，定义为基于 PDC 的差值：$W_j = \text{PDC}_n(X_j, Y | Z) - \text{PDC}_n(\tilde{X}_j, Y | Z)$。

模型：数据生成机制为 $(X, Y, Z)$ 服从某个未知的联合分布 $P_{X,Y,Z}$，没有任何参数族假设（如非高斯、非线性）。唯一隐含的结构假设是：$Y$ 与 $X$ 的依赖完全由 $\mathcal{D}$ 中的变量在给定 $Z$ 下产生，$\mathcal{D}$ 外的变量与 $Y$ 条件独立。

第二步：最小内核——$q=1, d=1$ 下的偏距离相关与 Knockoff-e 值筛选

整篇论文的数学本质是“用偏距离相关代替偏相关系数，用 Knockoff-e 值代替 p-value 阈值”的推广。最简特例是单响应（$q=1$）、单条件变量（$d=1$）的情形，此时 PDC 退化为偏距离相关的基础形式，核心思路一目了然：

要筛什么：找出所有 $j$，使得给定单变量 $Z$ 后，$X_j$ 与单变量 $Y$ 有非线性依赖（如 $Y = X_j Z + \epsilon$，此时 $X_j$ 边际与 $Y$ 无关，但条件相关）。
度量怎么算（PDC 的最小内核）：偏距离相关 $\text{PDC}(X_j, Y | Z)$ 的核心想法是“剔除 $Z$ 的投影后再算距离相关”。在 $d=1$ 时，它通过计算 U-统计量形式的经验距离协方差，先算 $X_j$ 与 $Z$ 的距离、$Y$ 与 $Z$ 的距离，然后用线性投影残差的思想，在距离矩阵空间中剔除 $Z$ 的贡献，得到残差距离矩阵，最后算残差距离矩阵间的协方差。为什么成立：因为距离相关在欧氏空间中刻画了所有类型的依赖，而“在距离空间做投影”恰好等价于“在原空间剔除条件变量的线性与非线性影响”（这是 Székely et al. 2009 的核心定理）。
FDR 怎么控（Knockoff-e 值的最小内核）：对每个 $j$，构造一个 Knockoff 伪变量 $\tilde{X}_j$（它与 $Y$ 条件独立，但与 $X$ 的联合分布 mimic 真实 $X$）。算重要性差值 $W_j = \text{PDC}_n(X_j, Y|Z) - \text{PDC}_n(\tilde{X}_j, Y|Z)$。如果 $j \in \mathcal{D}$，$W_j$ 倾向于正；如果 $j \notin \mathcal{D}$，$W_j$ 的符号正负各半（由 Knockoff 交换性保证）。传统 Knockoff 选阈值 $t$ 使得 $\hat{\text{FDP}}(t) = (\#\{W_j \le -t\}) / (\#\{W_j \ge t\}) \le q$。本文的跳跃：阈值 $t$ 依赖 $W_j$ 的随机排列，导致不同数据集选的 $t$ 波动大。去随机化 Knockoff-e 值的做法是：对 $W_j$ 多次重采样/多次构造 Knockoff，算出 $e_j = -\#\{W_j^{(b)} \le -W_j\} / \#\{W_j^{(b)} \ge W_j\}$（一个 e-value），然后选集合 $\{j : e_j \ge 1/q\}$。e-value 的期望性质保证了 $\text{FDR} \le q$，且消除了单次 Knockoff 的随机性波动。

在这个最简特例下，要证的命题退化成：在 $q=1, d=1$ 且真实 $\mathcal{D}$ 有限时，基于 PDC 的 $W_j$ 能让 $\mathcal{D}$ 中的 $W_j$ 以概率趋于1大于0（Sure Screening），且基于 e-value 选出的集合的 FDP 期望 $\le q$。一般情形（$q>1, d \gg n$）只是在这个内核上加了“多响应距离矩阵求和”与“高维 $Z$ 的投影矩阵降维处理”两层壳。

三、这篇论文做了什么¶

三句话： ①研究了超高维多响应设定下，模型无关的条件特征筛选与 FDR 联合控制问题； ②核心工具是偏距离相关（PDC，处理条件依赖与高维 $Z$）与去随机化 Knockoff-e 值（处理 FDR 与随机性波动）； ③主要结论是在温和条件下，PDC-MAKES 同时具备 Sure Screening 性质（保留所有真实变量）与 FDR 控制性质，且检验功效高于传统 Knockoff。

关键设定与假设： - 设定：$(X_i, Y_i, Z_i)_{i=1}^n$ i.i.d.，$p \gg n$，$q$ 可大于1，$d$ 可大于 $n$（这是本文区别于 Kong et al. 2012 的关键，Kong 要求 $d$ 固定）。 - 假设 A1（子指数尾）：$X, Y, Z$ 的分布具有子指数尾。统计含义：保证距离相关 U-统计量的浓度不等式成立，是对重尾的容忍度声明，相比高斯假设大幅放宽。 - 假设 A2（信号强度下界）：对活跃变量 $j \in \mathcal{D}$，$\text{PDC}(X_j, Y|Z) \ge c n^{-\kappa}$（$\kappa$ 介于0与某个正数之间）。统计含义：这是 Sure Screening 的标准假设，保证真实信号不被噪声淹没；若信号极弱，任何筛选方法均无解。 - 假设 A3（条件变量 $Z$ 的可分性）：这是本文最核心的技术假设。要求 $Z$ 的距离矩阵 $B_Z$ 的谱性质或投影性质允许 PDC 的计算绕过 $d \gg n$ 的维数灾难。具体而言，作者利用了 PDC 的一个代数等价定义：$\text{PDC}^2(X, Y|Z) = \text{DCov}^2(\tilde{X}, \tilde{Y}) / \sqrt{\text{DCov}^2(\tilde{X}, \tilde{X}) \text{DCov}^2(\tilde{Y}, \tilde{Y})}$，其中 $\tilde{X}$ 是 $X$ 在 $Z$ 的距离空间上的双中心化残差。当 $d$ 高维时，这个投影的计算复杂度本应是 $O(n^2 d)$，但作者假设/利用了 $B_Z$ 的低秩或可近似低秩结构，使得投影可以在低维空间完成，从而绕过了 $d \gg n$ 的计算与统计崩溃。 - 假设 A4（Knockoff 构造可行性）：假设已知 $(X|Z)$ 的分布，可以构造满足交换性的 Model-X Knockoff $\tilde{X}$。统计含义：这是所有 Knockoff 方法的通病——在模型无关设定下，$(X|Z)$ 的分布未知，构造精确 Knockoff 极难。作者在此处实质上强化了假设（要求知道条件分布），与其宣称的“模型无关”存在张力。

主要结果： - 定理 1（Sure Screening 性质）：在假设 A1-A3 下，随着 $n \rightarrow \infty$，$\Pr(\mathcal{D} \subseteq \mathcal{D}_n) \rightarrow 1$。直觉：只要真实 PDC 信号强度大于 $n^{-\kappa}$，且 $Z$ 的距离矩阵投影不崩溃，经验 PDC 就能把所有真实变量挑出来。解决了高维 $Z$ 下 PDC 估计量仍能收敛的理论难题。 - 定理 2（FDR 控制）：在假设 A4 下，基于去随机化 Knockoff-e 值选出的集合 $\mathcal{D}_n$，满足 $\text{FDR} = E[\text{FDP}] \le q$。直觉：e-value 的期望在零假设下 $\le 1$，Markov 不等式直接给出 FDR 控制，无需依赖 p-value 的分布假设。 - 定理 3（功效提升）：在同等 FDR 水平下，PDC-MAKES 的检验功效（Power）高于传统单次 Knockoff。直觉：去随机化消除了阈值选择的随机性波动，使得更多真实信号被稳定保留。

证明路线与技术技巧： - 整体路线： 1. PDC 的高维计算重构：将传统 PDC 定义（要求计算 $Z$ 的条件期望距离）转化为基于距离矩阵投影的等价定义（利用双中心化矩阵的代数性质）。 2. 高维 $Z$ 投影的降维处理：利用 $B_Z$ 的谱分解或低秩近似，将 $O(n^2 d)$ 的投影降为 $O(n^2 r)$（$r$ 为 $B_Z$ 的有效秩），绕过维数灾难。 3. U-统计量浓度不等式：对重构后的 PDC 估计量（本质上是基于残差距离矩阵的 U-统计量），应用子指数尾的 Bernstein 不等式，证明其以极高概率逼近真实 PDC。 4. Knockoff-e 值的 FDR 证明：证明零假设下 $W_j$ 的符号对称性，构造 e-value，用 Markov 不等式与 e-value 的乘积性质完成 FDR 控制。 5. Sure Screening 与 FDR 的联合：将步骤3的浓度不等式与步骤4的 FDR 控制结合，证明在筛选阈值下，真实信号不被遗漏，假阳性被控制。 - 关键跳跃点： - 引理/命题：高维 $Z$ 下 PDC 的等价重构与低秩近似。难点卡在：当 $d \gg n$ 时，$Z$ 的距离矩阵 $B_Z$ 是 $n \times n$ 矩阵，但其构造依赖 $O(nd)$ 的计算，且投影 $\tilde{X} = (I - B_Z B_Z^+) X$ 在 $B_Z$ 病态时极不稳定。作者的办法是：利用 PDC 的定义中 $B_Z$ 只起“剔除条件影响”的作用，用 $B_Z$ 的谱截断（保留前 $r$ 大特征值对应的投影空间）代替精确投影，并证明截断误差在假设 A3 下可被信号强度 $n^{-\kappa}$ 吸收。 - 技术技巧点名： - 双中心化距离矩阵：用在 PDC 的计算重构中，将条件期望的扣除转化为矩阵投影的代数操作。 - 谱截断/低秩近似：用在处理高维 $Z$ 的投影中，绕过 $d \gg n$ 的维数灾难与计算瓶颈。 - Hoeffding 分解与 U-统计量浓度不等式：用在证明 PDC 估计量的渐近速率中，将 PDC 的 U-统计量分解为可控的低阶核与高阶余项。 - 去随机化 e-value：用在 FDR 控制中，用多次 Knockoff 构造的 e-value 代替单次 Knockoff 的阈值选择，消除随机性。

真实例子与应用： - 数据：小鼠多组织基因表达数据（$n=200$ 左右，$p=20000$ 基因作为预测变量，$q=5$ 组织作为多响应，$d$ 为其他协变量）。 - 怎么用上去：将 5 个组织的表达量作为 $Y$，筛选给定协变量后与多组织表达有条件依赖的基因。构造 Knockoff 伪基因，计算 PDC 差值 $W_j$，用 e-value 设定阈值。 - 得到什么结果：PDC-MAKES 篮出的基因集合在 FDR 控制在 0.1 的前提下，比单响应筛选与边际筛选多出约 30% 的基因，且包含了已知在多组织通路中起调控作用的基因（如某些转录因子），而边际筛选漏掉了这些基因（因为它们只在特定组织组合下有条件依赖）。 - 想说明什么：验证两点：①多响应联合筛选比单响应筛选在识别跨组织调控基因上有更高功效；②PDC 能识别边际无关但条件相关的基因，这是线性/边际方法做不到的。

🔎 结论是否比证明窄： - 泛泛 claim vs 严格证明的张力：作者在 Abstract 和 Intro 中声称方法“model-free”，但定理 2（FDR 控制）的证明严格依赖假设 A4（已知 $(X|Z)$ 的分布以构造精确 Knockoff）。在 $(X|Z)$ 未知时，Knockoff 的构造只能用近似（如 Gaussian 假设或低维近似），此时 FDR 控制只有近似保证而非严格证明。作者在正文中淡化了这一假设的强度，没有在定理陈述中明确标注“model-free 仅指 PDC 度量，FDR 控制仍依赖 Model-X Knockoff 的分布假设”，这是一个结论比证明窄的地方，研究者需核查定理 2 的陈述语句是否包含了 A4。

四、开放问题（点到为止）¶

高维 $Z$ 下 PDC 的低秩近似误差的精确速率：本文用谱截断处理 $B_Z$，但截断秩 $r$ 的选择依赖启发式规则，理论中假设了截断误差可被吸收（假设 A3）。要证什么：在 $d \gg n$ 且 $Z$ 无精确低秩结构时，PDC 估计量的 minimax 收敛速率是多少？扎根点：定理 1 证明中谱截断误差的界（Lemma 的余项处理）。
Model-X Knockoff 在 $(X|Z)$ 未知时的 FDR 严格控制：本文 FDR 证明依赖已知 $(X|Z)$，但实际数据中此分布未知。要估什么：当用估计的 $(X|Z)$ 构造 Knockoff 时，FDP 的超量是多少？扎根点：假设 A4 的陈述与定理 2 的前提条件。
PDC 估计量的高阶 U-统计量效率分析：PDC 是基于距离矩阵的高阶 U-统计量，本文只用了其浓度不等式，未触及效率理论。要估什么：PDC 估计量在半参数模型下的效率界是什么？是否可通过 Higher-order Influence Function 提升弱信号下的功效？扎根点：定理 3 的功效声明仅对比了 Knockoff 变体，未对比半参数效率界。
多响应 $q \gg n$ 时的距离矩阵崩溃：本文允许 $q$ 较大，但若 $q$ 也进入超高维（$q \gg n$），$Y$ 的距离矩阵 $B_Y$ 同样面临维数灾难。要证什么：$q \gg n$ 时 PDC 的 Sure Screening 条件需要何种信号强度？扎根点：假设 A1-A2 中对 $q$ 的隐含限制（子指数尾与信号强度均依赖 $q$ 的常数）。

Maintained by 陈星宇 · Homepage · Source on GitHub

PDC-MAKES: a conditional screening method for controlling false discoveries in high-dimensional multi-response setting¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论