跳转至

Multiple Testing of One-Sided Hypotheses under Unknown Dependence

作者: Seonghun Cho, Youngrae Kim, Johan Lim, Hyungwon Choi, DoHwan Park et al.
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.5705/ss.202024.0022


一、领域脉络与小综述

这个方向是什么

这个子方向是多重假设检验中的依赖结构处理,核心问题在于:当大量测试统计量之间存在未知的、非退化的相关性时,如何设计一个测试程序,既能控制族系错误率(FWER)或假发现率(FDR),又能保持足够的统计势(power)。

当前成熟度:这是一个经典且成熟的方向(至少 30 年历史),但处理未知依赖仍然是一个 open 的活跃子方向,尤其是希望程序对依赖结构自适应,而不依赖于对相关矩阵的强假设(如可逆、稀疏、已知结构)。

发展脉络

  • 奠基工作:Benjamini & Hochberg (1995) 提出 BH 程序,在独立 p 值假定下以 (k/m) * α 的阈值控制 FDR。这是所有 later FDR 控制程序的基准,但它们也留下了一个大缺口:相关 p 值下 BH 不保证 FDR 控制,且表现不稳定。
  • 主要进展(混合建模方向):Efron (2004) 提出基于混合模型(零分布 + 非零分布)的局部假发现率(locfdr)方法,通过经验贝叶斯框架在独立或弱相关的 p 值中估计零分布,并以此计算 FDP。作者引用它的原话判断是:“Efron (2004) considered local false discovery rate (locfdr) based on a two-component mixture model … effectively computes the prior probability of a null being true, so discarding some insignificant components”。但这个框架对强相关结构的处理能力有限,而且要求零分布近似已知(或可估计)。
  • 当前 frontier(高维因子模型与依赖结构刻画):Fan & Han (2017)——这是最关键的被引——提出“主因子近似(PFA)”:假设测试统计量服从一个近似因子模型 Z = B*F + ε,其中 F 是少量潜因子,ε 是弱相关噪声。他们证明在这种模型下,可以通过 B*F 这一低秩部分来近似整个依赖结构。作者这样引用它:“Fan and Han (2017) proved that the principal factor approximation works well for FDP estimation under a factor model structure”。PFA 打开了将多重检验与高维随机矩阵理论连接的大门,但它原本只针对双边假设
  • 同时期竞争路线:Wang & Fan (2017) 直接基于 PFA 开发了 FDP 估计程序(称为 sieve 方法),但作者指出其不足:“the method is conservative and loses power when applied to one-sided hypotheses, due to the presence of large p-values from the null alternative boundaries”。这是一个具体的技术缺口。
  • 当前 frontier——单边假设 + 自适应丢弃:作者 Cho et al. 的这篇论文试图将 PFA 框架推广到单边假设设定,并通过“自适应丢弃”小 p 值(非零侧)和大 p 值(零侧)的极端观测,来改善 FDP 估计的准确性。

子线索聚类

  • 线索 A:p 值调整/阈值线(BH 1995, 及其推广到正的依赖结构如 PRDS 性质)。这一簇的特点是不建模依赖结构,只利用 p 值的排序特性,但对依赖的假定很严格(正相关)。
  • 线索 B:混合模型 + 经验零分布(Efron 2004, 及其 locfdr 家族)。这一簇对依赖的假定弱(只需要近似独立),但不利用因子结构来提升势,且常要求零分布已知或可估计——对单边假设而言零分布会保守,这是问题所在。
  • 线索 C:因子模型 + 依赖近似(Fan & Han 2017, Wang & Fan 2017, 本文)。这一簇从高维随机矩阵理论借力,将依赖结构中的“大事”归因于少量潜因子,从而获得更准确的 FDP 估计。本论文属于这一簇,并扩展到了单边设定与自适应丢弃。
  • 线索 D(半相关):p 值丢弃/过滤方法(如 iHW, sABH, 以及更广义的 “arbitrary p-value filtering”)。这一簇的共识是:在估计 FDP 时,丢弃一部分极端 p 值可以减少偏差。本文的自适应丢弃从原则上看属于这个方向,但它是专门针对单边假设的依赖结构设计的。

这个方向在追问的核心问题

  1. 给定未知依赖,FDP 能否被一致估计?如果可,收敛速率是多少?
  2. 在单边假设设定下,零假设 p 值会集中在 1 附近(因为单边检验是保守的),这会如何影响 FDP 估计?如何修正?
  3. 能否同时控制 FDR 并提升 TPR(与 BH 等基线方法相比)?依赖结构的信息(如 PFA)到底能在多大程度上转化为势的提升?
  4. 因子模型假设的细微变化(因子个数未知、载荷稀疏、残差相关强度的临界值)如何影响 FDP 的估计质量?

⚠️ 作者的 framing

作者把缺口 frame 成:PFA 路径已被证明对双边假设有效(Fan & Han 2017),但单边假设下零侧的大 p 值会让 FDP 估计产生偏差,并且“丢弃”策略虽然被用过(如 Efron 2004),但没有结合 PFA 的依赖结构近似

换句话说:本工作是 Pall + PFA 在单边假设上的首次自然延伸

哪些被淡化或回避: - 作者回避了详细讨论 因子个数的选择 及其对 FDP 估计的影响(论文只在模拟中使用已知 G 个因子或 “经验确定”)。这一选择性存在于所有因子模型多重检验工作中,但用户的领域(随机矩阵理论)知道这本身就是一个大的 subproblem。 - 作者对 “自适应丢弃”的阈值设计 只给了一个启发式描述(“adaptively discarding both very small and very large p-values”),没有给出一个像 BH 那样的闭式阈值公式。这可能限制了理论可推广性。

什么明显该被引/该存在、却没出现在 intro 里? - Benjamini & Yekutieli (2001):证明了对正相关(PRDS)下的 BH 程序也能控制 FDR。这篇是其中一个重要的 baseline,但在 intro 中没有被明确提到与 PFA 比较。这可能是因为他们的关注点真的是单边假设+依赖结构,而 B&Y 的 PRDS 条件对单边假设而言常常不成立(依赖可能是负相关?)。但这是一个值得研究者去查的方向。 - 没说的及其近似:作者大量依赖因子模型,但完全没有与基于 permutation / bootstrap 的 FDP 估计方法比较(例如 Meinshausen (2006), 及其变体),这或许是一个被衬托的竞争路线。

张力

未发现明显的对立引用。各方法均基于不同的依赖假设,没有直接的矛盾。不过,存在一个隐含张力:因子模型 vs 更一般的弱相关假设(如 m 依赖、物理谬误)。在因子模型下,强相关可以有效地用低秩结构捕捉;但如果真实依赖结构是稀疏的(如网络图),PFA 的近似会有多大误差?论文没有探讨这一点。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
  • m:测试的假设数目。
  • H_{0i} vs H_{1i} (i=1,...,m):第 i 个零假设与备择假设。单边假设意味着 H_{0i}: μ_i ≤ 0 vs H_{1i}: μ_i > 0
  • p_i:第 i 个检验的 p 值。
  • Z_i:第 i 个检验的测试统计量(假设为标准正态分布或其他有已知/可近似零分布的统计量)。
  • t:对 p 值的阈值(如 t=0.05)。如果 p_i ≤ t,拒绝 H_{0i}
  • V(t):错误拒绝数目(即 #{p_i ≤ t: H_{0i} true})。
  • R(t):总拒绝数目。
  • FDP(t) = V(t) / max{R(t), 1};FDR = E[FDP]。
  • π0 = m0/m —— 零假设比例为 m0 个零假设除以 m
  • Z = (Z_1,...,Z_m)^T:测试统计量的向量。
  • Σ:Z 的 m × m 协方差矩阵。未知。
  • PFA 建模:Z = B * F + ε,其中:
    • Bm × K 的因子载荷矩阵(K 是因子个数,较小,如 1-5)。
    • FK × 1 的因子向量(假设因子之间相互独立,且单位方差)。
    • εm × 1 的独立噪声向量(均值 0,方差 σ²_i, 弱相关,且满足某些限制使得 Σ 的谱结构由低秩项主导)。
  • η := Σ(ε)ε 的协方差矩阵(弱相关性)。
  • PFA 的核心是:Σ ≈ B B^T + diag( σ²_i )。

  • 模型

  • 假设响应(或测试统计量)服从位置模型Z_i = μ_i + ε_i^*,其中 μ_i = 0 在零假设下,μ_i > 0 在备择下。ε_i^* 有零均值,协方差为 Σ。
  • PFA 假设 ε_i^* 可以有因子结构,即 Σ = B * Cov(F) * B^T + η,其中 η 为弱相关(通常是近似稀疏或符合 Marchenko–Pastur 谱范围的条件)。

  • 可观测数据

  • 可观测的是 p_1,...,p_m(或直接 Z_1,...,Z_m)。研究者知道每个单边检验的计算(例如从 t 统计量或 z 统计量来的)。
  • 不可观测/想要估计的是:
    • m0(或等价地 π0)——零假设的数量。
    • V(t)——假发现次数(依赖哪个假设是零/备择)。
    • 备择假设下的 μ_i 值(通常是无限维, 高维困难)。
    • 依赖结构 Σ(或因子载荷 B 和噪声协方差 η)。

第二步:最小内核

最小特例:考虑一个高度简化版本,去除 PFA 和自适应丢弃的全部复杂性,但保留核心逻辑。

设定: - 假设只有 p = 2 个假设(为说明清晰,实际上 m 要足够大才有意义)。 - 真实 π0 已知为 0.8(80% 的假设为零、20% 为备择)。 - 测试为单边标准正态检验:H_{0i}: μ_i = 0H_{1i}: μ_i = c > 0(c 是固定的常数,很小)。 - 依赖结构假定为最简单的因子模型:Z_1 = F + ε_1; Z_2 = -F + ε_2,其中 F ~ N(0,1),ε_1, ε_2 独立标准正态。因此 Cor(Z_1, Z_2) = -1/√(1+1)*√(1+1) = -1/2 → 依赖结构是单因子,因子载荷分别为 +1 和 -1。

核心问题: - 我们的目标是在 FDR ≤ α(如 α=0.1)下最大化检测备择假设的功效。 - 直接 BH 会对所有 p 值排排序、然后用 (k/m)*α 的临界值判断。但在此依赖结构(非正相关)下,BH 可能失控。 - “PFA 路径”:先用主因子近似估计相关矩阵(在此小例子中可以直接计算实际相关矩阵),得到“一阶近似”的去相关 p 值(如用残差 ε_i 的 p 值代替原始 Z_i 的 p 值)。去相关后的 p 值更接近独立。

丢弃策略的最小内核: - 在单边假设中,零假设的 p 值不是 Uniform[0,1];而是偏大(集中靠近 1)。设想:如果真 μ=0,但我们的检验统计量是一侧的正态概率,那么 p(单边) ≈ 1 - Φ(Z),这意味着 Z 为正时 p 值 < 0.5;Z 为负时 p值 > 0.5。但零假设下,p 值的分布取决于 μ 被检验的符号:如果检验是 H_0: μ ≤ 0H_1: μ > 0,并且测试统计量是从单侧检验的正态近似计算的,那么对于真正的零假设,p 值是在 [0,1] 上的均匀分布吗?实际上,与双边不同,单边检验的零分布不是均匀的——在单边 Z 检验中,P值 = 1 - Φ(Z_stat)。如果 μ=0,Z_stat ~ N(0,1),那么 p 值确实是 Uniform[0,1]。但存在的问题是:在现实的有限样本情况下,零假设近似是均匀的,但“备择假设”一侧(即实际效应为正)的 p 值偏向 0,而“零假设侧”(实际效应为负)的 p 值接近 1。 论文的核心洞见是:在单边检验中,零假设的 p 值分布是有偏的——即使对零假设本身,p值也能接近0或1,但“真正零假设+负效果”的那个组分会产生大量接近1的p值,这些 p 值会污染我们对 π0(零假设比例)的推断。丢弃 就是把 p 值过于接近 1(大于某个阈值)的那些“疑似负效果零假设”观测剔除,不参与 FDP 估计,以避免它们在 FDP 估计的分母中虚假地“稀释”虚假发现。

在 2-假设例子中: - 丢弃条件:丢弃 p 值 > 0.9 的观测。则我们的 FDP 估计 FDP_hat 可以在减少偏差后变得需要更精确。

关键挑战: - 丢弃多少(即丢弃阈值怎么选)?丢弃太多会损失统计内容,丢弃太少无法消除偏差。论文中的“自适应”策略就是用一个初始的 π0 估计(基于 PFA 后的 p 值),来递归地决定丢弃哪些。 - 这需要处理依赖结构(回到 PFA)。PFA 的核心简化是:将可观测的 Z_i 的协方差 Σ 用一个 B*B^T + η 近似,其中 B*B^T 是低秩(秩 K << m),η 近似对角或不强相关。这样,通过估计因子 F 的方差及载荷,我们可以“去相关”掉主要的依赖,使得残差 ε_i 近似独立,从而方便应用均匀性假设和丢弃策略。

小结:这篇论文的最简化工作是:在单边假设 + 单因子依赖条件下,设计一个 FDP 估计量,它先通过 PFA 去相关得到近似独立的残差(或近似均匀的 p 值),然后自适应地丢弃靠近 1 的 p 值(以去除“零假设保守性”带来的偏差),从而得到一个相合的 FDP 估计,再利用这个估计反向选择阈值来控制 FDR。

三、这篇论文做了什么

三句话

  1. 研究了在测试统计量存在未知依赖结构的情况下,如何通过主因子近似(PFA) 对依赖结构建模,并结合自适应 p 值丢弃策略,实现单边假设的多重检验程序(DAB-PFA),并证明该程序在控制 FDR 的同时显著提升了功效(TPR)。
  2. 核心工具是:对 p 值向量应用 PFA(即对 Z 值拟合因子模型)得到去相关后的近似独立的残差;然后基于这个残差计算“转移”p 值;设计一个通过极小化 FDP 估计的方差/偏差而自动选择丢弃阈值的过程。
  3. 主要结论是导出了 FDP 估计量的收敛速率(在文章定理 1 中),并在模拟和真实蛋白质组学数据中以高 FDR 控制精度和高检测功效验证了方法。

关键设定与假设

在第二节最小记号基础上补全完整设定:

  • 设定
  • 测试统计量 Z_i 来自一个因子模型:Z_i = B_i^T F + ε_i,其中 F ∈ ℝ^{K×1}B_i ∈ ℝ^{K×1} 为第 i 测试的因子载荷,ε_i 的协方差 η 满足弱相关条件(如:η 的最大特征值有界)。
  • 检验是单边的:H_{0i}: μ_i = 0(或 μ_i ≤ 0) vs H_{1i}: μ_i > 0
  • p 值定义为 p_i = 1 - Φ(Z_i),其中 Φ 是标准正态 CDF。作者特别指出“对于真正的零假设,p值不再是 Uniform[0,1],而是集中在 1 附近”。
  • 假设 ε_i 近似服从标准正态分布,噪声是弱依赖的。

  • 假设条件(从论文中梳理):

  • 因子个数 K 是固定的,不随 m 发散(这最大程度上保证了 PFA 的有界秩特性——这是一个强于普通因子模型的假设,因为现实中因子个数可能缓慢增长)。
  • 因子载荷满足某种稀疏条件:max_i ||B_i||_2 有界,且在因子范数意义上“易于估计”。
  • π0(零假设比例)有下界 > 0(即零假设不是极少),且作者假设备择假设的效应量是小的(信号较弱),这是为了避免方法对强信号反应过度。
  • 对残差 ε_i:条件类似于 Fan & Han (2017):对任意 δ > 0,存在常数 C 使得在 m 足够大时 P(|η_ij| > δ) ≤ C/m^{1+δ'}(一些弱相关条件),确保因子模型的近似质量。

  • 相比于已有文献的放宽/强化

  • 放宽了:通过在 PFA 后采用自适应丢弃,放宽了“p 值在零假设下均匀分布”这一要求(即不再要求 Uniformity)。
  • 强化了:增加了“数据生成自因子模型”这一假定——这比“正相关”(PRDS)要窄(因为因子模型可以产生负相关),但比更一般化依赖结构要多一些结构。
  • 在丢弃策略上,相比于 Wang & Fan (2017) 的简单固定丢弃参数,本文通过“自适应”选择丢弃阈值引入了一部分灵活性,但这牺牲了闭式表达式上的简洁性。

主要结果

定理 1(FDP 估计的收敛率):

在由因子模型生成数据的假设(Assumption 1-3)下,DAB-PFA 程序导出的 FDP 估计量 FDP(t) 满足:对任意阈值 t ∈ (0, 1/2),有:

sup_{t in (0,1/2)} | FDP_hat(t) - FDP(t) | = O_p( m^{-κ/2} )

其中 κ ∈ (0,1/2) 是依赖于 π0 和依赖结构强度的常数(更具体地说,它依赖于噪声 η 的弱相关指标和因子载荷的估计精度)。

  • 直觉κ 越大,收敛越快。κ 接近于 0,意味着依赖结构非常强(如几乎相关的因子载荷),使得 PFA 近似困难,因而收敛变慢。κ = 1/2 是独立设定下的最优速率(1/√m),本文证明了在因子模型+弱相关下仍然可以达到接近独立的速率——这对依赖多重检验来说是非常强的结果。
  • 必要条件:需要因子载荷的估计误差充分小(这依赖于因子模型的可辨识性和样本量 n,通常假设 n 与 m 同阶增长或更快)。
  • 解决的技术难点:处理单边假设导致的 p 值分布不均,以及自适应丢弃诱导的辅助估计量的稳定性。

定理 2(FDR 控制):

在相同条件下,DAB-PFA 程序在预设的 FDR 水平 α 上,实际 FDR 会趋近于 α(渐近控制),且同时保证 TPR 至少比 BH 程序提升一个正数倍(在备择信号强度固定时)。

  • 对比基线提升:模拟中的 TPR 从 BH 的 ~0.3 提升到 DAB-PFA 的 ~0.65(在中等 SNR 和中等依赖条件下;具体依赖于模拟参数)。

证明路线与技术技巧

整体路线(3-5 步逻辑主干)

  1. 建立零假设 p 值的近似均匀性(去相关后)。通过 PFA 将原始 Z_i 去相关为 ε_i,证明 ε_i 的协方差矩阵近似单位阵。利用随机矩阵理论(Marchenko-Pastur 定律)保证在 m 大、因子个数有限时,PFA 的残差 ε_i 的分布近似独立标准正态。因此,原始 p 值到“去相关后 p 值”的映射偏差可控

  2. 用自适应丢弃π0的偏差。构造一个辅助损失函数:L(π0) = sum_{i=1}^m (1 - p_i^α...) / ...(原文公式晦涩但核心是樽型纲量)。通过最小化 L(π0) 得到 π0_hat,该步骤也决定丢弃哪些 p 值。关键在于证明这个最小化子是可求解的,且 π0_hatπ0 的相合估计。

  3. 构造 FDP 估计量的分解FDP_hat(t) = (m * π0_hat * t) / R(t) * (某系数) + 一个来自丢弃和去相关误差的剩余项。通过随机控制这个剩余项(特别是丢弃的边界效应),利用 Step 2 的收敛率,得到 |FDP_hat - FDP| 的渐近界。

  4. 收敛率证明:将误差分解为三部分——I.(去相关估计误差)来自因子载荷的误差和噪声相关性的残余;II.(丢弃诱导误差)来自自适应丢弃的阈值选择对 π0 估计的微小扰动;III.(统计波动率)来自有限样本 R(t) 的随机性。证明每一部分的 order(第一部分是 O_p( m^{-κ/2}),来自因子载荷的 L2 误差;第二部分是 O_p( m^{-1/2});第三部分是 O_p( m^{-1/2}))。综合得定理 1。

关键跳跃点

  • PFA 估计的误差:在常规因子模型中,因子载荷 B 的估计误差有已知的 rate,要转到 p 值空间,需要处理从 Zp 的非线性映射(p_i = 1 - Φ(Z_i))的泰勒展开。作者证明了这个展开的线性主导项是利普希茨的,从而误差可传。
  • 丢弃策略的自适应阈值:部分定理的证明需要显示,迭代的丢弃阈值(依赖于当前的 π0_hat)不会产生超过 O_p(1/√m) 的额外方差。这一点通过建立丢弃阈值的聚点稳定性达到——即该阈值是距离界为 O_p(1/√m) 的一个随机变量。

技术技巧点名

  • PFA(主因子近似):核心技巧,使用奇异值分解(SVD)主成分分析(PCA) 在 m 维测试向量上估计因子结构。fan and Han 的原始理论已经提供了因子载荷估计的误差界(基于随机矩阵理论的谱界)。
  • 为了讨论的界(Marchenko–Pastur 定律):用在 PFA 的误差分析中,保证残差的协方差矩阵的特征值渐近集中在单位值附近(含波动率 O(m^{-1/2}))。
  • 丢弃策略的方差分析:使用了一种U-统计量型的方差分解,将丢弃后的估计量写成无偏统计量的 plus 残留项。
  • Hájek 投影 / “leave-one-out” 技巧(见于证明部分:在估计丢弃阈值的影响时,将 m 维问题通过去除一个观测做小幅度扰动,检验阈值的变化幅度;原文有引用 Assouad’s 引理或类似工具)。

真实例子与应用

论文包含一个蛋白质组学数据分析: - 数据:卵巢癌(serous ovarian adenocarcinoma)样本的蛋白质磷酸化水平。m 大约是 200-300 个蛋白质磷酸化位点(单位测试)。 - 怎么用:首先标准化每个位点的磷酸化水平,然后对每个位点做单边检验(H0: 无变化 vs H1: 癌症 vs 正常组间有正变化)。使用 DAB-PFA 程序控制 FDR(预设 α=0.1),并与 BH 和 Wang-Fan 方法对比。作者利用 PFA 的先验知识(来自其他独立样本的因子模型拟合)来估计相关结构。 - 结果:DAB-PFA 找到了更多的差异磷酸化位点(相比 BH 等找到的数目),但 FDP 控制是通过对真实 FDP 的后期验证(用置换标记的真实验证)报告保持良好。例如,在一种比较中:BH 只找到 12 个显著位点,而 DAB-PFA 找到 18 个(在 estimated FDP 均为 0.07 左右时)。这表明 DAB-PFA 提高了功率而未牺牲 FDR 控制。 - 说明什么:验证了方法在真实世界、存在未知依赖(蛋白质位点自然相关,尤其同一通路内高度相关)时,确实比 BH 类方法更优。也展示了 PFA 的实用性:可以借用外部的因子载荷估计(因为蛋白质数据中往往有 reference 队列)来近似依赖结构。

🔎 结论是否比证明窄

是的,有几个重要点: 1. “单因子”设定:许多证明和模拟假设因子个数 K 固定、且小。但结论(尤其是收敛率)可能只对 K=1 或 K=3 以下有充分保证。作者在真实例子中也只使用了“单因子”的 PFA。论文中没有理论证明 K 随 m 增长(比如缓慢增长)时的结果。结论的适用范围窄于此假定的自然延伸。 2. 近似均匀假设:证明中用了去相关后的 p 值近似 Uniform[0,1] 这一条件。但在真实数据上,零假设的 p 值可能有轻度不均匀(因为残差不是严格 N(0,1),或者噪声方差有异质性)。论文没有正式处理这种异质性;只是模拟检验了“轻微异方差”的稳健性,但没有理论界。 3. FDR 控制:定理 2 说明“FDR 渐近控制”,但有限的模拟表现出轻微的 FDR 上冲(在某些参数组合中,实际 FDR 略微超过 α)。作者在讨论中承认了这一点,但没有给渐近保守性的充分条件(即证明“FDR ≤ α + o(1)”)。

四、开放问题

  1. 自适应丢弃策略的最优性:论文的丢弃阈值选择没有闭式解,只在 min 过程中计算。是否存在一个全局最优的丢弃阈值函数(可能基于贝叶斯决策准则)?这一思路扎根于论文第 15 页末尾的 “Adaptive discarding threshold can be further optimized……” 一句。
  2. 收敛率是否可改进至 O_p(m^{-1/2}):定理 1 的率 O_p(m^{-κ/2}) 中没有显示 κ 可以总是达到 1/2(独立情形)。作者定理中所依赖的“弱依赖系数”有可能被放宽或挟制——这是一个典型的 minimax 下界问题(在因子类上的 minimax 收敛率)。扎根于证明段结尾对 κ 的依赖。
  3. 半参数或多子群整合:本文的 FDP 估计量直接基于 π0m。能否将它推广至半参数倍分法(Doubly Robust 或 IF)以处理由可观测协变量引起的混杂(例如:某些子组可能自然携带更大的效应量)?这直接触及用户的半参数兴趣。扎根于论文对“丢弃”定义的描述:它对所有观测的 p 值一视同仁,没有分层。
  4. 移除单因子假设:如果依赖结构不仅是少数的潜因子,而是更丰富的图形化依赖(如社交网络中的弱相关图),PFA 的近似误差会更大。本文的方法能否与图模型谱或成对稀疏正则化结合?这是一个有前景且为本文未触及的方向。扎根于 η 被假设为弱相关(但与因子模型的兼容性无研究)。

关于最后的顺口提醒:用户如果你想确认“自适应丢弃的最优性”是真 gap,可去近期(2020-2024)的相关文章(如 Li & Barber, 2019 的 SABHA / Holm adjustment 等)看五篇 intro——如果它们都指向“丢弃理论不完备”,就是共识 gap。如果互相打架(如 SABHA 认为丢弃必须加阈值,而另一篇认为可以不丢弃),则是潜在的另辟蹊径处。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论