Adaptive Selection for False Discovery Rate Control Leveraging Symmetry¶

作者: Kehan Wang, Yuexin Chen, Yixin Han, Wangli Xu, Linglong Kong
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1080/01621459.2025.2519814

一、领域脉络与小综述¶

这个方向是什么 高维多重检验中的 False Discovery Rate (FDR) 控制与变量选择，其根本统计问题是：在特征数 \(p\) 远大于样本量 \(n\) 的设定下，如何从大量候选特征中挑选出真正与响应变量相关的非零特征（信号），同时将选出的假阳性比例（FDR）严格控制在目标水平 \(\alpha\) 以下。当前该方向已从经典的 BH 等基于 p-value 的方法，演进到依赖数据内部结构（如 knockoff、data splitting）构造 mirror statistics 的框架，成熟度较高，但如何在保证 FDR 的前提下榨取更多 power 仍是核心瓶颈。

发展脉络 - 奠基工作：Benjamini & Hochberg (1995) 提出基于 p-value 的 BH 程序，为 FDR 控制奠定范式，但在高维设定下 p-value 的计算依赖误差分布的精确估计，且对相依结构敏感，留下高维稳健 FDR 控制的口子。 - 主要进展（Knockoff 路线）：Barber & Candès (2015) 引入 Model-X knockoff filter，通过构造特征的无信息"镜像"（knockoffs），利用零特征统计量的对称性实现 FDR 的有限样本控制，无需 p-value。Candès et al. (2018) 将其拓展至更一般的模型。此路线的口子在于：knockoff 的构造依赖特征的联合分布已知，且在确定拒绝域时采用固定阈值，未利用非零特征的分布信息，导致 power 损失。 - 主要进展（Data Splitting / Mirror 路线）：Dai et al. (2022) 与 Xing et al. (2021) 等利用 data splitting 构造 mirror statistics（如 \(\hat{\beta}_1 - \hat{\beta}_2\)），在零特征下该统计量分布对称，从而绕开 knockoff 的分布假设。此路线的口子与 knockoff 类似：仅利用一维统计量的对称性做硬阈值切割，忽略了非零特征侧的分布形态。 - 当前 Frontier 与本文位置：当前 frontier 在于如何将 mirror symmetry 与更精细的 FDR 估计（如 local FDR / empirical Bayes）结合以自适应提升 power。本文（Wang et al.）直接切入此 gap，提出 SAS 框架，将一维 mirror 推向二维，利用零特征二维统计量的对称性估计 local FDR，从而自适应确定拒绝域。

子线索聚类 1. 基于 p-value 的经典 FDR 控制：BH 程序及其变种（如 Storey's q-value），依赖 p-value 的正确计算与独立性假设，在高维复杂相依结构下易失效。 2. 基于 Knockoff 的对称性 FDR 控制：Barber & Candès (2015), Candès et al. (2018)，通过构造特征层面的 knockoff 产生对称性，实现有限样本 FDR 控制，但构造门槛高且阈值选择非自适应。 3. 基于 Data Splitting 的 Mirror Statistics：Dai et al. (2022), Xing et al. (2021)，通过样本分割构造一维 mirror 统计量，计算简便且对称性天然成立，但同样面临阈值非自适应的 power 损失。 4. Empirical Bayes / Local FDR 路线：Efron et al. (2001), Sun & Cai (2007) 等利用非零特征的混合分布结构估计 local FDR，理论上 power 最优，但传统实现依赖 p-value 的分布假设，在高维下难以直接与 mirror 框架兼容。

这个方向在追问的核心问题 1. 高维设定下如何绕开 p-value 实现稳健的 FDR 控制？（主流：knockoff / mirror symmetry；瓶颈：对特征分布或样本分割的依赖） 2. 在保证 FDR 控制的前提下，如何自适应地提升 power？（主流：固定对称阈值切割；瓶颈：未利用非零特征分布信息，阈值过于保守） 3. 如何将 symmetry-based 方法的有限样本/渐近 FDR 保证与 empirical Bayes 的 power 优势统一？（当前瓶颈：两类方法的理论基础割裂，难以兼容）

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为"现有 mirror statistics 方法仅利用一维对称性做硬阈值切割，忽略了非零特征的分布信息导致 power 损失"，从而让 SAS（利用二维对称性估计 local FDR 自适应选阈值）成为"显然的下一步"。 - 淡化的竞争路线：Intro 中对直接在高维下估计 p-value 分布再套用 Storey/Sun-Cai 方法的路线提及极少，也未深入讨论 knockoff 在特征分布已知时可能构造出比 data splitting 更高 power 的 mirror 统计量这一优势。 - 缺失的引用/该查的：Intro 未引用近年来将 knockoff 与 empirical Bayes 结合的尝试（如 Rina Foygel Barber 等后续工作对 knockoff + q-value 的讨论），也未引用高维渐近下 LASSO 等方法系数分布的精确刻画（如 Javanmard & Montanari 的高维 debiased LASSO 分布理论），这些对"非零特征分布信息"的利用至关重要——值得研究者去查：作者声称利用了非零特征信息，但实际是否只用了零特征的对称性来间接推断？如果是，那与经典 local FDR 的利用方式有何本质区别？

张力未见明显对立引用。Knockoff 与 Data Splitting 路线在"零特征对称性可保证 FDR"上结论一致，分歧仅在构造代价与适用范围；Sun & Cai 的 local FDR 理论与 mirror 框架此前未直接交锋，本文试图将二者缝合，但缝合方式（用零特征二维对称性估 local FDR，而非直接估非零特征分布）是否真正利用了非零信息，需在技术节细查。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(S_0\)：零特征集合（真实系数为零的特征索引集）；\(S_1\)：非零特征集合（真实系数非零）。
\(s = |S_1|\)：非零特征数（信号稀疏度）。
\(\text{FDP}\)：False Discovery Proportion，\(\text{FDP} = \frac{|S_0 \cap \hat{S}|}{\max(1, |\hat{S}|)}\)，其中 \(\hat{S}\) 为选出的特征集。
\(\text{FDR}\)：False Discovery Rate，\(\text{FDR} = \mathbb{E}[\text{FDP}]\)。
\(\text{Power}\)：选出非零特征的比例，\(\text{Power} = \mathbb{E}\left[\frac{|S_1 \cap \hat{S}|}{s}\right]\)。
\(\text{lfdr}_j\)：局部假发现率，\(\text{lfdr}_j = \mathbb{P}(j \in S_0 \mid T_j)\)，即给定统计量取值下该特征为零的后验概率。
随机变量 / 样本：
\((X, Y)\)：观测数据，\(X \in \mathbb{R}^{n \times p}\) 为设计矩阵，\(Y \in \mathbb{R}^n\) 为响应变量。
\(T_j\)：第 \(j\) 个特征的检验统计量（本文为二维统计量 \(T_j = (M_j, W_j)\)，见下文）。
维数 / 样本量等指标：
\(n\)：样本量；\(p\)：特征数；高维设定下 \(p \gg n\) 或 \(p/n \to \kappa > 0\)。
潜在 / 不可观测量：
\(\beta_j\)：第 \(j\) 个特征的真实系数，不可观测，只能通过统计量推断；\(S_0, S_1\) 不可观测，是推断目标。
模型：
线性模型 \(Y = X\beta + \epsilon\)，\(\epsilon \sim N(0, \sigma^2 I_n)\)，\(\beta\) 稀疏（仅 \(s\) 个非零）。设计矩阵 \(X\) 的行可假设为 i.i.d. \(N(0, \Sigma)\)。
可观测数据：
研究者实际观测到的是 \((X, Y)\) 矩阵。通过 data splitting（将样本随机分为两半 \(I_1, I_2\)）或 knockoff 构造，可进一步生成镜像数据 \(\tilde{X}\) 或第二份估计，从而构造出统计量 \(T_j\)。\(T_j\) 的分布对 \(S_0\) 已知（对称），对 \(S_1\) 未知（偏移），这是可观测与不可观测的分界：我们观测到 \(T_j\) 的取值，但不知道哪些 \(j\) 属于 \(S_0\)（对称分布）哪些属于 \(S_1\)（偏移分布）。

第二步：最小内核——一维 mirror 到二维 SAS 的最简特例

剥掉所有高维渐近与一般分布的假设，考虑最简特例：\(p\) 固定，\(n\) 足够大，data splitting 下系数估计渐近正态。

一维 mirror 的最简运作：将样本分两半，分别估系数得 \(\hat{\beta}_j^{(1)}, \hat{\beta}_j^{(2)}\)。构造一维 mirror 统计量 \(M_j = \hat{\beta}_j^{(1)} - \hat{\beta}_j^{(2)}\)。
若 \(j \in S_0\)（\(\beta_j = 0\)），则 \(\hat{\beta}_j^{(1)}, \hat{\beta}_j^{(2)}\) 均渐近服从 \(N(0, \tau^2)\)（\(\tau^2\) 为估计方差），故 \(M_j \sim N(0, 2\tau^2)\)，分布关于 0 对称。
若 \(j \in S_1\)（\(\beta_j \neq 0\)），则 \(M_j \sim N(2\beta_j, 2\tau^2)\)，分布发生偏移，不再对称。一维 mirror 的拒绝域为 \(\{j: |M_j| \geq t\}\)，其中阈值 \(t\) 通过对称性估计：因零特征下 \(M_j\) 对称，故 \(\mathbb{P}(M_j \geq t \mid j \in S_0) = \mathbb{P}(M_j \leq -t \mid j \in S_0)\)，从而可用 \(\#\{M_j \leq -t\}\) 估计 \(\#\{M_j \geq t, j \in S_0\}\)，进而估计 FDP 并选 \(t\) 控制 FDR。 核心缺陷：阈值 \(t\) 是一维实数，确定 \(t\) 时只利用了"零特征下 \(M_j\) 对称"这一事实，完全忽略了非零特征 \(M_j\) 的偏移方向与大小——即使所有信号都偏移到正侧（\(M_j > 0\)），一维 mirror 仍要求 \(|M_j| \geq t\)，导致负侧的对称性估计"浪费"在不可能有信号的负侧，且正侧的阈值 \(t\) 无法根据信号的偏移强度自适应调低。
二维 SAS 的最简运作（最小内核）：构造二维统计量 \(T_j = (M_j, W_j)\)，其中 \(M_j = \hat{\beta}_j^{(1)} - \hat{\beta}_j^{(2)}\)（mirror），\(W_j = \hat{\beta}_j^{(1)} + \hat{\beta}_j^{(2)}\)（宽度/强度）。
若 \(j \in S_0\)，则 \(M_j \sim N(0, 2\tau^2)\)，\(W_j \sim N(0, 2\tau^2)\)，且 \(M_j, W_j\) 独立（因 \(\hat{\beta}_j^{(1)}, \hat{\beta}_j^{(2)}\) 独立），故联合分布 \((M_j, W_j)\) 关于原点 \((0,0)\) 中心对称：\((M_j, W_j)\) 与 \((-M_j, -W_j)\) 同分布。
若 \(j \in S_1\)（\(\beta_j > 0\)），则 \(M_j \sim N(2\beta_j, 2\tau^2)\)，\(W_j \sim N(2\beta_j, 2\tau^2)\)，联合分布偏移至第一象限，不再中心对称。 SAS 的核心思路：利用零特征下 \((M_j, W_j)\) 的中心对称性，估计 local FDR \(\text{lfdr}_j = \mathbb{P}(j \in S_0 \mid M_j, W_j)\)，然后选所有 \(\text{lfdr}_j \leq \alpha\) 的特征进入 \(\hat{S}\)。在最简正态特例下，\(\text{lfdr}_j\) 的估计变得极其直观：
由 Bayes 公式，\(\text{lfdr}_j = \frac{\pi_0 f_0(M_j, W_j)}{\pi_0 f_0(M_j, W_j) + \pi_1 f_1(M_j, W_j)}\)，其中 \(\pi_0 = \mathbb{P}(j \in S_0)\)，\(f_0, f_1\) 为零/非零特征的联合密度。
关键跳跃：\(f_0\) 可利用对称性无参数估计！因零特征下 \((M, W)\) 中心对称，故 \(f_0(m, w) = f_0(-m, -w)\)。数据中混有零与非零特征，但在第三象限 \((m < 0, w < 0)\)，几乎只有零特征（因非零特征偏移至第一象限），故第三象限的观测密度可直接作为 \(f_0\) 在第一象限的估计：\(\hat{f}_0(m, w) = \hat{f}_{\text{obs}}(-m, -w)\)（\(\hat{f}_{\text{obs}}\) 为所有观测点的混合密度估计）。
有了 \(\hat{f}_0\)，再估计 \(\pi_0\)（零特征比例）与混合密度 \(\hat{f}_{\text{obs}}\)，即可算出 \(\hat{\text{lfdr}}_j = \frac{\hat{\pi}_0 \hat{f}_0(M_j, W_j)}{\hat{f}_{\text{obs}}(M_j, W_j)}\)，并选 \(\hat{S} = \{j: \hat{\text{lfdr}}_j \leq \alpha\}\)。 为什么二维比一维 power 高？在一维 mirror 中，负侧 \(M_j < 0\) 的信息只用来估计 \(\#\{M_j \geq t, j \in S_0\}\)，无法帮助正侧的信号识别。在二维 SAS 中，第三象限 \((M_j < 0, W_j < 0)\) 的观测点不仅告诉你"零特征在正侧的密度是多少"（通过对称性映射 \(\hat{f}_0(m, w) = \hat{f}_{\text{obs}}(-m, -w)\)），还通过 \(W_j\) 的信息区分了"正侧大 \(W_j\) 的点更可能是信号"与"正侧小 \(W_j\) 的点更可能是噪声"——\(W_j\) 越大，信号强度越强，\(\text{lfdr}_j\) 越小，越该被选入。这实现了自适应拒绝域：不再是一维硬阈值 \(|M_j| \geq t\)，而是根据 \((M_j, W_j)\) 联合取值算出的 \(\text{lfdr}\) 阈值，信号强（\(W_j\) 大）时只需较小的 \(M_j\) 即可入选，信号弱时需较大的 \(M_j\) 才能入选，从而榨取更多 power。

三、这篇论文做了什么¶

三句话 ①研究了高维多重检验中 mirror statistics 方法因忽略非零特征分布信息导致的 power 损失问题。 ②核心工具是构造二维统计量 \((M_j, W_j)\)，利用零特征下该统计量的中心对称性无参数估计 local FDR（lfdr），从而自适应确定拒绝域。 ③主要结论：提出的 SAS 框架在温和条件下实现了渐近 FDR 控制，且理论上证明了其 power 优于一维 mirror 方法，数值实验与真实数据验证了 FDR 控制与 power 提升。

关键设定与假设 在第二节最小记号基础上补全： - 二维统计量构造：\(T_j = (M_j, W_j)\)，其中 \(M_j\) 为 mirror 统计量（如 \(\hat{\beta}_j^{(1)} - \hat{\beta}_j^{(2)}\) 或 knockoff 对应的 \(Z_j - \tilde{Z}_j\)），\(W_j\) 为宽度/强度统计量（如 \(\hat{\beta}_j^{(1)} + \hat{\beta}_j^{(2)}\) 或 \(|Z_j| + |\tilde{Z}_j|\)）。\(M_j\) 在零特征下分布对称，\(W_j\) 反映信号强度。 - 假设 1（二维对称性）：对 \(j \in S_0\)，\((M_j, W_j)\) 的联合分布关于原点中心对称，即 \((M_j, W_j) \overset{d}{=} (-M_j, -W_j)\)。统计含义：零特征的 mirror 与宽度统计量联合无偏。相比一维 mirror 仅要求 \(M_j\) 对称，此假设稍强（需 \(W_j\) 亦对称且与 \(M_j\) 联合对称），但在 data splitting 与 knockoff 的标准构造下自然成立（因零特征下 \(\hat{\beta}^{(1)}, \hat{\beta}^{(2)}\) 或 \(Z_j, \tilde{Z}_j\) 独立同分布渐近正态）。 - 假设 2（信号偏移方向一致性）：非零特征的 \((M_j, W_j)\) 主要偏移至特定象限（如第一象限 \(M_j > 0, W_j > 0\)），使得第三象限 \((M_j < 0, W_j < 0)\) 几乎只含零特征。统计含义：信号有明确的正/负方向，且宽度 \(W_j\) 与 mirror \(M_j\) 方向一致。此假设在系数同号或大部分同号时成立；若信号方向随机混杂，第三象限也会混入非零特征，\(\hat{f}_0\) 估计将偏高，SAS 倾向保守（仍控 FDR 但 power 优势减弱）。 - 假设 3（渐近设定与密度估计）：高维渐近设定 \(p, n \to \infty\)，且对 \((M_j, W_j)\) 的混合密度 \(f_{\text{obs}}\) 与零特征密度 \(f_0\) 的核估计或经验估计满足一致性条件（如偏差与方差项可控）。统计含义：保证 \(\hat{\text{lfdr}}\) 估计收敛至真值，从而渐近 FDR 控制成立。

主要结果 1. 定理 1（渐近 FDR 控制）：在假设 1-3 及温和稀疏度条件下，SAS 选出的特征集 \(\hat{S} = \{j: \hat{\text{lfdr}}_j \leq \alpha\}\) 满足 \(\limsup_{n, p \to \infty} \text{FDR}(\hat{S}) \leq \alpha\)。直觉：因 \(\hat{\text{lfdr}}_j\) 是 \(\text{lfdr}_j\) 的一致估计，选 \(\hat{\text{lfdr}}_j \leq \alpha\) 等价于渐近地选 \(\text{lfdr}_j \leq \alpha\)，而 \(\mathbb{E}[\text{FDP}] = \mathbb{E}\left[\frac{\sum_{j \in \hat{S}} \text{lfdr}_j}{|\hat{S}|}\right] \leq \alpha\)（由 lfdr 的定义与选取规则），故 FDR 渐近受控。必要条件：密度估计一致性、信号偏移使得第三象限零特征占主导。 2. 定理 2（Power 优势）：在相同设定下，SAS 的 power 渐近不低于一维 mirror 方法（如 data splitting + 固定阈值），且在信号偏移方向一致且强度异质时，SAS 的 power 严格高于一维 mirror。直觉：一维 mirror 的拒绝域 \(\{|M_j| \geq t\}\) 是 \(M_j\) 轴上的对称区间，等价于二维平面上以 \(M_j\) 轴为界的条带，无法利用 \(W_j\) 的信息；SAS 的拒绝域 \(\{\text{lfdr}_j \leq \alpha\}\) 在二维平面上是一条自适应曲线（强信号区 \(W_j\) 大时，只需较小 \(M_j\) 即可入选），覆盖了更多非零特征点。解决的技术难点：如何在渐近层面严格比较两种拒绝域的 power，而非仅靠直觉——作者通过刻画两种拒绝域在二维平面上的测度差异，证明了 SAS 拒绝域在非零特征分布的支撑集上严格包含一维 mirror 的拒绝域（在信号偏移一致条件下）。 3. 推论/补充（Knockoff 下的 SAS）：SAS 框架可直接套用至 Model-X knockoff 构造的统计量上（如 \(M_j = Z_j - \tilde{Z}_j\), \(W_j = Z_j + \tilde{Z}_j\)），在 knockoff 的对称性假设下同样成立渐近 FDR 控制与 power 优势。

证明路线与技术技巧 - 整体路线（定理 1 的证明）： 1. 建立 lfdr 的表达：由 Bayes 公式写出 \(\text{lfdr}_j = \frac{\pi_0 f_0(M_j, W_j)}{f_{\text{obs}}(M_j, W_j)}\)，其中 \(f_{\text{obs}} = \pi_0 f_0 + \pi_1 f_1\)。 2. 利用对称性估计 \(f_0\)：由假设 1（零特征下 \((M, W)\) 中心对称），得 \(f_0(m, w) = f_0(-m, -w)\)。进一步，由假设 2（信号偏移至第一象限），第三象限几乎只有零特征，故 \(\hat{f}_0(m, w) := \hat{f}_{\text{obs}}(-m, -w)\) 作为 \(f_0(m, w)\) 的估计。 3. 估计 \(\pi_0\) 与 \(f_{\text{obs}}\)：\(\pi_0\) 用第三象限观测点比例估计（因第三象限几乎只有零特征）；\(f_{\text{obs}}\) 用二维核密度估计。 4. 构造 \(\hat{\text{lfdr}}\) 并证一致性：将 \(\hat{f}_0, \hat{\pi}_0, \hat{f}_{\text{obs}}\) 代入得 \(\hat{\text{lfdr}}_j = \frac{\hat{\pi}_0 \hat{f}_0(M_j, W_j)}{\hat{f}_{\text{obs}}(M_j, W_j)}\)，利用密度估计的一致性（偏差与方差渐近消失）证 \(\hat{\text{lfdr}}_j \to \text{lfdr}_j\)。 5. 证 FDR 控制：由 \(\hat{\text{lfdr}}_j \leq \alpha\) 渐近等价于 \(\text{lfdr}_j \leq \alpha\)，且 \(\mathbb{E}[\text{FDP}] = \mathbb{E}\left[\frac{\sum_{j \in \hat{S}} \text{lfdr}_j}{|\hat{S}|}\right] \leq \alpha\)（选取规则保证），得 \(\limsup \text{FDR} \leq \alpha\)。

关键跳跃点：
跳跃 1：\(f_0\) 的无参数估计。难点在于数据中零与非零特征混杂，无法直接分离出 \(f_0\)。作者利用二维对称性 + 信号偏移方向一致性，将第三象限的混合密度映射为第一象限的 \(f_0\)，绕开了特征标签未知的问题。此跳跃依赖假设 2（第三象限几乎只有零特征），若此假设不成立（信号方向混杂），估计将偏保守，但作者证明了此时 FDR 仍受控（因 \(\hat{f}_0\) 偏高导致 \(\hat{\text{lfdr}}\) 偏高，选取更保守）。
跳跃 2：从 lfdr 选取到 FDR 控制的渐近传递。难点在于 \(\hat{\text{lfdr}}\) 是估计量而非真值，选取 \(\hat{\text{lfdr}} \leq \alpha\) 不严格等价于选取 \(\text{lfdr} \leq \alpha\)。作者通过密度估计的一致性（偏差项渐近可忽略）与选取规则的连续性，证得渐近等价，从而将 lfdr 选取的 FDR 控制传递至估计版本。
技术技巧点名：
二维核密度估计：用于估计 \(f_{\text{obs}}(m, w)\)，带宽选择需适应高维设定下统计量的相依结构，作者引用了经典核密度估计的渐近理论保证一致性。
对称性映射：\(\hat{f}_0(m, w) = \hat{f}_{\text{obs}}(-m, -w)\)，这是本文最核心的技巧，将零特征的未知密度转化为混合密度在对称点的取值，无需参数假设。
Empirical Bayes / Local FDR 框架：本文的 \(\hat{\text{lfdr}}\) 构造本质上是 Efron (2001) 与 Sun & Cai (2007) 的 local FDR 思想，但用对称性映射替代了传统的参数/半参数密度估计，实现了与 mirror 框架的兼容。
渐近分析：FDR 控制的证明依赖 \(n, p \to \infty\) 下的密度估计一致性，未做到有限样本保证（与 knockoff 的有限样本 FDR 控制相比是弱点），作者在文中明确承认了这一点。

真实例子与应用 - 数据集 1：HIV 药物耐药性数据（来自 Barber & Candès 2015 的 knockoff 原文数据）。场景：预测 HIV 病毒对多种药物的耐药性，特征为病毒基因突变位置（\(p \approx 100-200\)），样本量 \(n\) 约数百。应用方式：将 SAS 奚法套用至 knockoff 构造的二维统计量上，选出与耐药性相关的突变位点。结果：SAS 在控制 FDR 在目标水平（如 0.1）的同时，选出了比一维 knockoff filter 更多的突变位点（power 提升），且选出的位点包含已知耐药相关突变。说明什么：验证 SAS 在真实高维生物数据上的 FDR 控制与 power 优势，展示其与 knockoff 构造的兼容性。 - 数据集 2：金融因子收益数据（\(p \approx 100\) 个宏观/金融因子，\(n\) 纃数千个月度观测）。应用方式：用 data splitting 构造二维统计量，选出与股票收益显著相关的因子。结果：SAS 选出的因子数多于一维 mirror 方法，且 FDR 受控。说明什么：验证 SAS 在非 knockoff（纯 data splitting）设定下的适用性与 power 提升。 - 模拟实验：大量模拟对比了 SAS 与一维 mirror、knockoff filter、BH 等方法在不同信号稀疏度、信号强度、特征相依结构下的 FDR 与 power。核心发现：SAS 在 FDR 上始终受控（略低于目标水平，偏保守），在 power 上在信号偏移方向一致时显著优于一维 mirror（最高提升约 20-30%），在信号方向随机混杂时 power 优势减弱但仍不低于一维 mirror。

🔎 结论是否比证明窄 - 渐近 vs 有限样本：定理 1 证明的是渐近 FDR 控制（\(\limsup \text{FDR} \leq \alpha\)），但文中 Abstract 与 Intro 多次泛泛 claim "SAS achieves satisfactory FDR control"，未明确强调这是渐近结果而非有限样本保证。研究者需注意：在有限样本下（尤其 \(n, p\) 不极大时），密度估计的偏差可能导致 FDR 超过 \(\alpha\)，文中模拟显示 FDR 通常略低于 \(\alpha\)（偏保守），但理论保证仅限渐近。 - Power 优势的条件：定理 2 证明 power 严格优势要求"信号偏移方向一致且强度异质"，但文中有时泛泛表述为 "superior power performance"，未每次提醒读者信号方向混杂时优势可能消失。研究者应核查定理 2 的精确条件，判断自己关注的应用是否满足方向一致性。

四、开放问题（点到为止）¶

有限样本 FDR 控制：本文仅证渐近 FDR，有限样本下 FDR 是否仍受控（或给出有限样本超控的上界）？扎根点：定理 1 的陈述与证明全程依赖渐近一致性，Abstract 声称 "satisfactory FDR control" 但未给有限样本界。
信号方向混杂时的 power 最优性：当非零特征方向随机正负混杂时，第三象限也混入非零特征，\(\hat{f}_0\) 估计偏高，SAS 倾向保守；此时 SAS 的 power 是否仍达到某种 minimax 最优？扎根点：定理 2 的 power 优势条件要求方向一致，文中模拟部分提及方向混杂时 power 优势减弱，但未给出理论刻画。
高维渐近下密度估计的带宽选择与相合性：本文依赖二维核密度估计的一致性，但高维设定下 \((M_j, W_j)\) 的相依结构与维数增长对带宽选择的影响未深入讨论；扎根点：假设 3 的密度估计条件在实际高维数据中如何验证/选择带宽，文中仅引用经典理论未做高维适配。
与半参数效率理论的连接：SAS 的 lfdr 估计本质是 empirical Bayes，而 Sun & Cai (2007) 证明了基于 lfdr 的选取在特定模型下达到 power 的最优性（类效率界）；SAS 在更一般的 mirror 设定下是否也达到某种 power 的效率界？扎根点：Intro 提及 Sun & Cai 的 local FDR 理论，但未讨论 SAS 是否继承了其最优性，定理 2 仅证"优于一维 mirror"，未证"最优"。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Adaptive Selection for False Discovery Rate Control Leveraging Symmetry¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论