Asymptotic uncertainty of false discovery proportion¶

作者: Meng Mei, Tao Yu, Yuan Jiang
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在大规模多重假设检验中，当检验统计量之间存在依赖关系时，如何量化错误发现比例（False Discovery Proportion, FDP） 的不确定性（即其方差或分布），而不仅仅是控制其期望（FDR）或尾部概率（FDX）。当前成熟度：FDR控制（期望）和FDX控制（尾部概率）已有大量成熟方法，但FDP作为一个随机变量的完整分布特征（尤其是方差） 几乎未被研究——这正是本文要填补的缺口。

发展脉络（history）¶

奠基工作：Benjamini & Hochberg (1995) 提出FDR（FDP的期望）控制，开创了多重检验的新范式。Storey (2002) 提出基于p-value的FDR估计方法。这些工作奠定了FDR作为主流错误率指标的地位。
主要进展（FDR的依赖鲁棒性）：Benjamini et al. (2001)、Sarkar (2006)、Owen (2005)、Efron (2007) 等系统研究了依赖结构对FDR的影响，发现BH程序在正依赖下仍能控制FDR。Clarke & Hall (2009) 证明在弱依赖和轻尾分布下，基于独立假设的分析渐近正确。Fan et al. (2012)、Fan & Han (2017) 提出主因子近似（PFA）方法，在已知/未知协方差下给出FDP的一致估计，将任意依赖转化为弱依赖处理。
当前frontier（FDX控制与FDP分布）：Genovese & Wasserman (2004, 2006)、Lehmann & Romano (2005)、Ge & Li (2012) 等转向控制FDP的尾部概率（FDX），而非仅期望。Delattre & Roquain (2011, 2016) 在特定依赖结构（等相关、弱依赖）下推导了FDP的渐近分布。Hemerik et al. (2018) 提出基于置换的FDP同时置信界。Basu et al. (2021) 用经验Bayes方法控制FDX。
本文的位置：作者指出，现有工作要么关注FDR（期望），要么关注FDX（尾部概率），但FDP的方差（即其作为估计量的不确定性）几乎未被研究。本文在弱依赖正态假设下，首次推导FDP的渐近展开式，系统分析依赖结构如何影响渐近方差，并建议在报告中同时给出FDP的均值和方差估计。

子线索聚类¶

这些被引文献大致落在以下3条子线索上：

FDR控制与估计（期望视角）：Benjamini & Hochberg (1995)、Storey (2002)、Ferreira & Zwinderman (2006)、Sarkar (2006)、Clarke & Hall (2009)。核心：控制或估计FDP的期望，对依赖结构有一定鲁棒性。
FDX控制（尾部概率视角）：Genovese & Wasserman (2004, 2006)、Lehmann & Romano (2005)、Ge & Li (2012)、Delattre & Roquain (2013, 2015)、Döhler & Roquain (2020)、Hemerik et al. (2018)、Basu et al. (2021)。核心：控制P(FDP > c) ≤ α，通常需要更强的假设（如独立或特定依赖）。
FDP在依赖下的渐近行为（分布视角）：Delattre & Roquain (2011, 2016)、Fan et al. (2012)、Fan & Han (2017)、Fan et al. (2019)。核心：在特定依赖结构（等相关、弱依赖、因子模型）下推导FDP的渐近分布或一致性。本文属于此线索，但首次聚焦于方差而非均值或尾部概率。

这个方向在追问的核心问题¶

FDP的渐近方差如何依赖于检验统计量的依赖结构？ 即使在弱依赖下，方差是否可能很大？
能否给出FDP方差的可计算估计量？ 以便在多重检验报告中同时报告均值和方差。
FDP的渐近分布是否为正态？ 在什么条件下成立？
如何将方差信息用于改进多重检验程序？ 例如，构造更精确的置信区间或调整拒绝阈值。

当前主流方法与已知瓶颈：主流方法（如PFA）通过将任意依赖转化为弱依赖来建立FDP的强相合性，但只保证点估计的一致性，不提供不确定性量化。瓶颈在于：依赖结构对FDP方差的影响机制尚不清晰，且方差估计需要处理高阶依赖信息，技术上比均值估计困难得多。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口frame成："尽管已有大量工作研究FDP的估计和FDX控制，但FDP的变异性（variability）几乎未被研究。即使依赖很弱，FDP的方差仍可能显著，因此报告方差估计对全面评估结果可靠性至关重要。"（见Abstract："Quantifying this variability is of great practical importance... To the best of our knowledge, there is limited research on this aspect in the literature."）

被淡化或回避的竞争路线： - 作者将FDX控制（尾部概率）定位为"关注FDP的单一值特征"，而非其完整分布。这回避了FDX控制本身也隐含了对FDP分布的部分信息（如分位数）。 - 作者假设检验统计量服从正态分布，且依赖结构为弱依赖。这回避了更一般的非正态设定和强依赖（如长程相关）情形。作者在文末承认"将t-检验等非正态情形留作未来工作"（引用Zhuo et al., 2020）。 - 作者未讨论置换方法（如Hemerik et al., 2018）能否用于方差估计——置换法天然捕捉依赖结构，但计算成本高。

什么明显该被引/该存在、却没出现在intro里？ - Efron (2010) "Correlated z-values and the accuracy of large-scale statistical estimates"：直接讨论相关z值下FDP估计的准确性，与本文主题高度相关。作者引了Efron (2007) 但未引此篇。 - Schwartzman et al. (2011) "False discovery rate analysis of brain diffusion direction maps"：在神经影像学中处理空间依赖下的FDR，涉及方差估计的实际需求。 - Leek & Storey (2008) "A general framework for multiple testing dependence in genomics"：提出依赖建模的通用框架，与本文的弱依赖假设有潜在联系。

张力¶

未见明显对立引用。各工作主要在假设强度、关注指标（FDR vs FDX vs FDP分布）上不同，而非结论矛盾。一个潜在张力：Clarke & Hall (2009) 认为在弱依赖下独立假设渐近正确（FDP收敛到相同极限），而本文强调即使弱依赖，方差仍受依赖结构显著影响——这并非矛盾，而是不同精度层次（一阶 vs 二阶）的差异。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( m \)：假设检验的总数（通常很大）。 - \( H_{0i} \)：第 \( i \) 个原假设（\( i = 1, \dots, m \)）。 - \( T_i \)：第 \( i \) 个检验的检验统计量（随机变量）。本文假设 \( T_i \sim N(\mu_i, 1) \)，其中 \( \mu_i = 0 \) 当 \( H_{0i} \) 为真，\( \mu_i \neq 0 \) 当 \( H_{0i} \) 为假。 - \( p_i \)：第 \( i \) 个检验的p-value，由 \( T_i \) 计算得到（如 \( p_i = 1 - \Phi(T_i) \) 对于单侧检验）。 - \( t \)：拒绝阈值（固定的或数据驱动的）。若 \( p_i \leq t \) 则拒绝 \( H_{0i} \)。 - \( R(t) = \#\{i: p_i \leq t\} \)：总拒绝数（随机变量）。 - \( V(t) = \#\{i: H_{0i} \text{为真且 } p_i \leq t\} \)：错误拒绝数（随机变量，不可观测）。 - \( \text{FDP}(t) = V(t) / \max\{R(t), 1\} \)：错误发现比例（随机变量，不可观测，因为 \( V(t) \) 未知）。 - \( \text{FDR}(t) = E[\text{FDP}(t)] \)：错误发现率（期望）。 - \( m_0 \)：真原假设的个数（未知参数）。 - \( \pi_0 = m_0 / m \)：真原假设的比例。 - \( \Sigma \)：检验统计量 \( (T_1, \dots, T_m) \) 的协方差矩阵。本文假设 \( \Sigma \) 满足弱依赖条件（具体定义见后）。

模型： - 数据生成机制：\( T = (T_1, \dots, T_m)^\top \sim N(\mu, \Sigma) \)，其中 \( \mu = (\mu_1, \dots, \mu_m)^\top \)，\( \Sigma \) 是对角线为1的协方差矩阵（即 \( T_i \) 方差为1）。 - 原假设集：\( \mathcal{H}_0 = \{i: \mu_i = 0\} \)，备择假设集：\( \mathcal{H}_1 = \{i: \mu_i \neq 0\} \)。\( m_0 = |\mathcal{H}_0| \)。 - 弱依赖条件：\( \Sigma \) 的谱范数有界（\( \|\Sigma\|_2 \leq C \)），且平均相关系数 \( \bar{\rho}_m = \frac{2}{m(m-1)} \sum_{i<j} |\Sigma_{ij}| \to 0 \) 当 \( m \to \infty \)。这确保依赖结构"足够稀疏"，使得大数定律和中心极限定理仍适用。

可观测数据： - 研究者实际能观测到的是：检验统计量 \( T_1, \dots, T_m \)（或等价的p-value \( p_1, \dots, p_m \)），以及由它们计算出的 \( R(t) \)。 - 不可观测的是：\( V(t) \)（因为不知道哪些 \( H_{0i} \) 为真），以及 \( m_0 \)。 - 想要但观测不到的是：FDP(\( t \)) 的真实值及其方差。本文的目标是估计FDP的方差，即量化 \( \text{FDP}(t) \) 作为随机变量的波动性。

第二步：讲最小内核¶

最简特例：考虑独立同分布（i.i.d.）正态检验统计量，且所有原假设为真（全局零假设）。

设定：\( T_1, \dots, T_m \overset{\text{i.i.d.}}{\sim} N(0, 1) \)，即 \( \mu_i = 0 \) 对所有 \( i \)，\( \Sigma = I_m \)（单位矩阵）。此时 \( m_0 = m \)，\( \pi_0 = 1 \)。
可观测数据：\( T_1, \dots, T_m \)。
目标：对于固定阈值 \( t \)，FDP(\( t \)) = \( V(t) / \max\{R(t), 1\} \)。由于所有原假设为真，\( V(t) = R(t) \)，所以 FDP(\( t \)) = 1 当 \( R(t) > 0 \)，否则为0。这太简单——方差为0（当 \( R(t) > 0 \) 时FDP恒为1）。这个特例不有趣。

更有信息量的最简特例：考虑独立但非全局零假设的情形。

设定：\( T_1, \dots, T_m \) 独立，\( T_i \sim N(\mu_i, 1) \)。其中前 \( m_0 \) 个为真（\( \mu_i = 0 \)），后 \( m_1 = m - m_0 \) 个为假（\( \mu_i = \delta \neq 0 \)，常数效应量）。\( \Sigma = I_m \)。
可观测数据：\( T_1, \dots, T_m \)。
FDP的表达式：对于固定阈值 \( t \)，令 \( u = \Phi^{-1}(1 - t) \)（单侧检验的临界值）。则：
真原假设的拒绝数：\( V(t) = \sum_{i=1}^{m_0} \mathbf{1}\{T_i > u\} \sim \text{Binomial}(m_0, t) \)。
假原假设的拒绝数：\( S(t) = \sum_{i=m_0+1}^{m} \mathbf{1}\{T_i > u\} \sim \text{Binomial}(m_1, 1 - \Phi(u - \delta)) \)。
总拒绝数：\( R(t) = V(t) + S(t) \)。
FDP(\( t \)) = \( V(t) / \max\{R(t), 1\} \)。

这个特例下，本文的核心思路是什么？

本文要推导FDP(\( t \))的渐近方差。在独立情形下，\( V(t) \) 和 \( S(t) \) 是独立的二项随机变量。FDP(\( t \)) 的渐近分布可以通过Delta方法得到： 1. 由大数定律，\( V(t)/m_0 \xrightarrow{p} t \)，\( S(t)/m_1 \xrightarrow{p} \beta(t) = 1 - \Phi(u - \delta) \)。 2. 由中心极限定理，\( \sqrt{m_0}(V(t)/m_0 - t) \xrightarrow{d} N(0, t(1-t)) \)，类似地 \( \sqrt{m_1}(S(t)/m_1 - \beta(t)) \xrightarrow{d} N(0, \beta(t)(1-\beta(t))) \)。 3. 将FDP(\( t \)) = \( V(t) / (V(t) + S(t)) \) 视为 \( (V(t)/m_0, S(t)/m_1) \) 的函数，用Delta方法得到：

\[\sqrt{m} \left( \text{FDP}(t) - \frac{\pi_0 t}{\pi_0 t + (1-\pi_0)\beta(t)} \right) \xrightarrow{d} N(0, \sigma^2_{\text{ind}}),\]

其中 \( \sigma^2_{\text{ind}} \) 是渐近方差，由 \( \pi_0, t, \beta(t) \) 及二项方差决定。

本文的一般化：当 \( \Sigma \neq I_m \) 时，\( V(t) \) 和 \( S(t) \) 不再独立，且每个 \( \mathbf{1}\{T_i > u\} \) 之间也存在依赖。本文的核心贡献是：在弱依赖条件下，推导出FDP(\( t \))的渐近展开式，并给出渐近方差的显式表达式，该表达式依赖于 \( \Sigma \) 的某些特征（如平均相关系数、高阶相关结构）。独立情形只是 \( \Sigma = I_m \) 的特例。

一句话总结本文在数学上干的事：在弱依赖正态设定下，将FDP(\( t \))展开为 \( \frac{1}{m} \sum_i \xi_i + o_p(1/\sqrt{m}) \) 的形式（其中 \( \xi_i \) 是依赖的随机变量），然后计算 \( \text{Var}(\frac{1}{m} \sum_i \xi_i) \) 的渐近表达式，该表达式显式依赖于协方差矩阵 \( \Sigma \)。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在检验统计量服从弱依赖正态分布的设定下，推导FDP(\( t \))的渐近展开式，并系统分析依赖结构如何影响其渐近方差。
核心工具/方法：弱依赖条件下的极限定理（大数定律、中心极限定理）、Delta方法、以及将FDP表示为示性函数之和的线性化展开。
主要结论：FDP(\( t \))的渐近方差由两部分组成——独立部分的方差加上依赖结构带来的协方差贡献；即使依赖很弱（平均相关系数趋于0），协方差贡献仍可能显著，导致方差远大于独立情形；建议在多重检验报告中同时报告FDP的均值和方差估计。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

假设1（正态性）：\( T = (T_1, \dots, T_m)^\top \sim N(\mu, \Sigma) \)，其中 \( \Sigma_{ii} = 1 \) 对所有 \( i \)。
假设2（弱依赖）：存在常数 \( C > 0 \) 使得 \( \|\Sigma\|_2 \leq C \)（谱范数有界），且 \( \bar{\rho}_m = \frac{2}{m(m-1)} \sum_{i<j} |\Sigma_{ij}| \to 0 \) 当 \( m \to \infty \)。这比"独立"弱得多，允许稀疏相关（如 \( \Sigma_{ij} = 0 \) 对大多数 \( i,j \)），但排除长程相关（如 \( \Sigma_{ij} = \rho > 0 \) 对所有 \( i,j \)）。
假设3（稀疏性）：\( \pi_0 = m_0/m \to \pi_0^* \in (0,1) \)（真原假设比例收敛到常数）。备择假设的效应量 \( \mu_i \) 有界且非零。
假设4（阈值固定）：拒绝阈值 \( t \in (0,1) \) 是固定的（不随 \( m \) 变化）。作者也讨论了数据驱动阈值（如BH程序）的情形，但主要理论针对固定阈值。

相比已有文献的放宽/强化： - 放宽：相比Ge & Li (2012) 的独立假设，本文允许弱依赖。 - 强化：相比Fan & Han (2017) 的任意依赖（通过因子模型处理），本文假设弱依赖（谱范数有界+平均相关系数趋于0），这比因子模型更严格（因子模型允许强依赖，只要被少数因子解释）。作者的选择是为了使渐近展开可处理。

主要结果¶

定理1（FDP的渐近展开）：在假设1-4下，对于固定阈值 \( t \)，

\[\text{FDP}(t) = \frac{\pi_0 t}{\pi_0 t + (1-\pi_0)\beta(t)} + \frac{1}{\sqrt{m}} Z_m + o_p\left(\frac{1}{\sqrt{m}}\right),\]

其中 \( \beta(t) = P(T_i > u \mid \mu_i \neq 0) \)（备择假设的拒绝概率），\( Z_m \) 是均值为0、方差为 \( \sigma^2_m(t) \) 的渐近正态随机变量。渐近方差 \( \sigma^2_m(t) \) 的表达式为：

\[\sigma^2_m(t) = \frac{\pi_0^2 t^2}{(\pi_0 t + (1-\pi_0)\beta(t))^4} \cdot \left[ \frac{1-\pi_0}{\pi_0} \cdot \frac{t(1-t)}{m_0} + \frac{1}{m} \sum_{i \neq j} \text{Cov}(\mathbf{1}\{T_i > u\}, \mathbf{1}\{T_j > u\}) \cdot w_{ij} \right],\]

其中 \( w_{ij} \) 是依赖于 \( \mu_i, \mu_j \) 的权重。关键：协方差项 \( \sum_{i \neq j} \text{Cov}(\cdot) \) 显式依赖于 \( \Sigma_{ij} \) 和 \( \mu_i, \mu_j \)。

直觉：第一项是独立情形下的方差（由二项抽样引起），第二项是依赖结构带来的额外方差。即使 \( \bar{\rho}_m \to 0 \)，如果非零协方差项的数量很多（如 \( O(m) \) 个非零 \( \Sigma_{ij} \)），协方差项的总和可能不趋于0，导致 \( \sigma^2_m(t) \) 显著大于独立情形。

定理2（方差估计的一致性）：在额外假设下（如 \( \Sigma \) 可被一致估计），基于样本协方差矩阵 \( \hat{\Sigma} \) 构造的方差估计量 \( \hat{\sigma}^2_m(t) \) 是 \( \sigma^2_m(t) \) 的一致估计。

定理3（BH程序下的推广）：当阈值 \( t \) 由BH程序数据驱动（即 \( t = \hat{t}_{\text{BH}} \)）时，类似的渐近展开成立，但方差表达式更复杂，涉及阈值本身的随机性。

必要条件：所有结果要求 \( m \to \infty \)，且 \( m_0/m \to \pi_0^* \in (0,1) \)。对于 \( \pi_0^* = 0 \) 或 1 的退化情形，结果不适用。

解决的技术难点： - 处理弱依赖下示性函数之和的渐近分布：\( \sum_i \mathbf{1}\{T_i > u\} \) 不是独立和，需要弱依赖下的CLT。 - 处理FDP作为两个相关随机变量之比的非线性变换：需要Delta方法，且分母 \( R(t) \) 可能为0（此时FDP定义为0），需要处理边界行为。 - 协方差项 \( \text{Cov}(\mathbf{1}\{T_i > u\}, \mathbf{1}\{T_j > u\}) \) 没有闭式表达式（对于二元正态，它是 \( \Phi_2(u, u; \Sigma_{ij}) - t^2 \)，其中 \( \Phi_2 \) 是二元正态CDF），需要渐近展开。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

线性化FDP：将FDP(\( t \)) = \( V(t)/R(t) \) 在概率极限 \( (\pi_0 t, \pi_0 t + (1-\pi_0)\beta(t)) \) 处做一阶Taylor展开，得到
\[\text{FDP}(t) \approx \frac{\pi_0 t}{\pi_0 t + (1-\pi_0)\beta(t)} + \frac{1}{\pi_0 t + (1-\pi_0)\beta(t)} \left( \frac{V(t)}{m} - \pi_0 t \right) - \frac{\pi_0 t}{(\pi_0 t + (1-\pi_0)\beta(t))^2} \left( \frac{R(t)}{m} - (\pi_0 t + (1-\pi_0)\beta(t)) \right).\]
这一步将FDP的波动转化为 \( V(t)/m \) 和 \( R(t)/m \) 的波动的线性组合。
将 \( V(t) \) 和 \( R(t) \) 表示为示性函数之和：
\[V(t) = \sum_{i=1}^{m_0} \mathbf{1}\{T_i > u\}, \quad R(t) = \sum_{i=1}^{m} \mathbf{1}\{T_i > u\}.\]
因此，\( V(t)/m \) 和 \( R(t)/m \) 是弱依赖示性变量的样本均值。
应用弱依赖下的CLT：利用假设2（谱范数有界+平均相关系数趋于0），证明 \( \sqrt{m}(V(t)/m - \pi_0 t, R(t)/m - (\pi_0 t + (1-\pi_0)\beta(t))) \) 联合渐近正态。这需要验证Lindeberg条件和依赖结构的正则性（如 \( m \)-依赖或混合条件）。作者引用了Delattre & Roquain (2012) 关于弱依赖高斯向量分量经验分布函数的结果。
计算渐近协方差矩阵：渐近方差由 \( \text{Cov}(\mathbf{1}\{T_i > u\}, \mathbf{1}\{T_j > u\}) \) 决定。对于二元正态，该协方差为 \( \Phi_2(u, u; \Sigma_{ij}) - t^2 \)。作者利用 \( \Sigma_{ij} \to 0 \)（弱依赖）的事实，对 \( \Phi_2 \) 做小相关展开：
\[\Phi_2(u, u; \rho) \approx t^2 + \rho \cdot \phi(u)^2 + O(\rho^2),\]
其中 \( \phi \) 是标准正态密度。这给出了协方差的显式近似。
组合得到渐近方差：将线性化系数与协方差矩阵结合，得到 \( \sigma^2_m(t) \) 的表达式。关键项是 \( \frac{1}{m} \sum_{i \neq j} \Sigma_{ij} \cdot \phi(u)^2 \cdot w_{ij} \)，其中 \( w_{ij} \) 依赖于 \( \mu_i, \mu_j \)。

关键跳跃点： - 从任意依赖到弱依赖的转化：作者没有处理任意依赖，而是直接假设弱依赖。这回避了Fan et al. (2012) 中因子模型估计的复杂性，但限制了适用范围。 - 示性函数协方差的线性化：\( \Phi_2(u, u; \rho) \) 在 \( \rho = 0 \) 处的Taylor展开是关键的近似技巧，它将复杂的二元正态概率简化为 \( \rho \) 的线性函数，使得方差表达式可处理。 - 处理分母为0的情形：当 \( R(t) = 0 \) 时，FDP定义为0。作者证明在 \( m \to \infty \) 时，\( P(R(t) = 0) \to 0 \) 指数快，因此不影响渐近分布。

技术技巧点名： - Delta方法：用于处理FDP作为 \( (V(t), R(t)) \) 的非线性函数。 - 弱依赖下的CLT：具体引用Delattre & Roquain (2012) 的结果，该结果适用于"消失二阶矩"的高斯向量。 - 二元正态CDF的小相关展开：\( \Phi_2(u, u; \rho) = t^2 + \rho \phi(u)^2 + O(\rho^2) \)，这是关键的近似工具。 - 示性函数的方差-协方差计算：利用 \( \mathbf{1}\{T_i > u\} \) 的矩与正态CDF的关系。

真实例子与应用¶

本文为纯理论/无实证例子。作者在模拟部分（论文中未提供详细摘要，但从上下文推断）可能包含数值模拟来验证理论结果，但用户提供的材料中未包含模拟细节。作者在文末提到一个真实数据应用（基因表达数据中CCT8基因与SNP的关联检验），但仅作为背景提及，未展示具体结果。

🔎 结论是否比证明窄¶

结论声称："FDP的渐近方差可以显著受依赖结构影响，即使依赖很弱。" 这是严格证明的（定理1）。
结论声称："建议在多重检验报告中同时报告FDP的均值和方差估计。" 这是建议，而非定理。作者未证明方差估计在实际有限样本下的表现（如置信区间覆盖率）。
窄化点：定理1的渐近展开要求固定阈值 \( t \)。对于数据驱动阈值（如BH程序），作者在定理3中给出推广，但假设阈值本身是渐近确定的（即 \( \hat{t}_{\text{BH}} \xrightarrow{p} t^* \)），这排除了阈值随机性对FDP方差的二阶影响。作者在文中承认"BH程序下FDP的渐近方差更复杂，需要进一步研究"（见定理3后的讨论）。
窄化点：所有结果假设正态性。作者在结论部分提到"将t-检验等非正态情形留作未来工作"（引用Zhuo et al., 2020），并指出非正态下示性函数协方差的计算更困难。

四、开放问题¶

非正态检验统计量下的FDP方差：本文假设正态性，但实际中常用t-检验、卡方检验等。在非正态弱依赖下，FDP的渐近方差表达式是什么？示性函数协方差的线性化是否仍有效？扎根点：作者在结论中明确提到"将t-检验等非正态情形留作未来工作"（引用Zhuo et al., 2020）。
强依赖下的FDP方差：本文假设弱依赖（平均相关系数趋于0）。在因子模型或长程相关等强依赖下，FDP的方差可能发散或收敛到非退化极限。能否给出类似Fan et al. (2012) 的因子调整后的方差估计？扎根点：作者在引言中对比了PFA方法（处理任意依赖），但未将其方差分析纳入本文框架。
数据驱动阈值下FDP方差的精确刻画：定理3对BH程序的处理是初步的（假设阈值渐近确定）。BH阈值的随机性对FDP方差的贡献有多大？能否给出更精确的展开？扎根点：作者在定理3后承认"BH程序下FDP的渐近方差更复杂，需要进一步研究"。
FDP方差估计的有限样本性质：本文给出方差估计的一致性（定理2），但未讨论置信区间的覆盖率或方差估计本身的方差。在有限样本下，方差估计是否可靠？是否需要bootstrap校正？扎根点：作者在模拟部分（未提供详细摘要）可能涉及有限样本表现，但理论部分未给出有限样本界。

提醒：要确认这些是否真gap，建议去读同子领域近期约5篇的intro（如Fan et al., 2019; Delattre & Roquain, 2016; Basu et al., 2021; Hemerik et al., 2018; Döhler & Roquain, 2020）——都指向同一缺口 = 共识（真gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub