Multiple Testing of One-Sided Hypotheses under Unknown Dependence¶

作者: Seonghun Cho, Youngrae Kim, Johan Lim, Hyungwon Choi, DoHwan Park et al.
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.5705/ss.202024.0022

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是多重假设检验中的依赖结构处理，核心问题在于：当大量测试统计量之间存在未知的、非退化的相关性时，如何设计一个测试程序，既能控制族系错误率（FWER）或假发现率（FDR），又能保持足够的统计势（power）。

当前成熟度：这是一个经典且成熟的方向（至少 30 年历史），但处理未知依赖仍然是一个 open 的活跃子方向，尤其是希望程序对依赖结构自适应，而不依赖于对相关矩阵的强假设（如可逆、稀疏、已知结构）。

发展脉络¶

奠基工作：Benjamini & Hochberg (1995) 提出 BH 程序，在独立 p 值假定下以 (k/m) * α 的阈值控制 FDR。这是所有 later FDR 控制程序的基准，但它们也留下了一个大缺口：相关 p 值下 BH 不保证 FDR 控制，且表现不稳定。
主要进展（混合建模方向）：Efron (2004) 提出基于混合模型（零分布 + 非零分布）的局部假发现率（locfdr）方法，通过经验贝叶斯框架在独立或弱相关的 p 值中估计零分布，并以此计算 FDP。作者引用它的原话判断是：“Efron (2004) considered local false discovery rate (locfdr) based on a two-component mixture model … effectively computes the prior probability of a null being true, so discarding some insignificant components”。但这个框架对强相关结构的处理能力有限，而且要求零分布近似已知（或可估计）。
当前 frontier（高维因子模型与依赖结构刻画）：Fan & Han (2017)——这是最关键的被引——提出“主因子近似（PFA）”：假设测试统计量服从一个近似因子模型 Z = B*F + ε，其中 F 是少量潜因子，ε 是弱相关噪声。他们证明在这种模型下，可以通过 B*F 这一低秩部分来近似整个依赖结构。作者这样引用它：“Fan and Han (2017) proved that the principal factor approximation works well for FDP estimation under a factor model structure”。PFA 打开了将多重检验与高维随机矩阵理论连接的大门，但它原本只针对双边假设。
同时期竞争路线：Wang & Fan (2017) 直接基于 PFA 开发了 FDP 估计程序（称为 sieve 方法），但作者指出其不足：“the method is conservative and loses power when applied to one-sided hypotheses, due to the presence of large p-values from the null alternative boundaries”。这是一个具体的技术缺口。
当前 frontier——单边假设 + 自适应丢弃：作者 Cho et al. 的这篇论文试图将 PFA 框架推广到单边假设设定，并通过“自适应丢弃”小 p 值（非零侧）和大 p 值（零侧）的极端观测，来改善 FDP 估计的准确性。

子线索聚类¶

线索 A：p 值调整/阈值线（BH 1995, 及其推广到正的依赖结构如 PRDS 性质）。这一簇的特点是不建模依赖结构，只利用 p 值的排序特性，但对依赖的假定很严格（正相关）。
线索 B：混合模型 + 经验零分布（Efron 2004, 及其 locfdr 家族）。这一簇对依赖的假定弱（只需要近似独立），但不利用因子结构来提升势，且常要求零分布已知或可估计——对单边假设而言零分布会保守，这是问题所在。
线索 C：因子模型 + 依赖近似（Fan & Han 2017, Wang & Fan 2017, 本文）。这一簇从高维随机矩阵理论借力，将依赖结构中的“大事”归因于少量潜因子，从而获得更准确的 FDP 估计。本论文属于这一簇，并扩展到了单边设定与自适应丢弃。
线索 D（半相关）：p 值丢弃/过滤方法（如 iHW, sABH, 以及更广义的 “arbitrary p-value filtering”）。这一簇的共识是：在估计 FDP 时，丢弃一部分极端 p 值可以减少偏差。本文的自适应丢弃从原则上看属于这个方向，但它是专门针对单边假设的依赖结构设计的。

这个方向在追问的核心问题¶

给定未知依赖，FDP 能否被一致估计？如果可，收敛速率是多少？
在单边假设设定下，零假设 p 值会集中在 1 附近（因为单边检验是保守的），这会如何影响 FDP 估计？如何修正？
能否同时控制 FDR 并提升 TPR（与 BH 等基线方法相比）？依赖结构的信息（如 PFA）到底能在多大程度上转化为势的提升？
因子模型假设的细微变化（因子个数未知、载荷稀疏、残差相关强度的临界值）如何影响 FDP 的估计质量？

⚠️ 作者的 framing¶

作者把缺口 frame 成：PFA 路径已被证明对双边假设有效（Fan & Han 2017），但单边假设下零侧的大 p 值会让 FDP 估计产生偏差，并且“丢弃”策略虽然被用过（如 Efron 2004），但没有结合 PFA 的依赖结构近似。

换句话说：本工作是 Pall + PFA 在单边假设上的首次自然延伸。

哪些被淡化或回避： - 作者回避了详细讨论 因子个数的选择 及其对 FDP 估计的影响（论文只在模拟中使用已知 G 个因子或 “经验确定”）。这一选择性存在于所有因子模型多重检验工作中，但用户的领域（随机矩阵理论）知道这本身就是一个大的 subproblem。 - 作者对 “自适应丢弃”的阈值设计 只给了一个启发式描述（“adaptively discarding both very small and very large p-values”），没有给出一个像 BH 那样的闭式阈值公式。这可能限制了理论可推广性。

什么明显该被引/该存在、却没出现在 intro 里？ - Benjamini & Yekutieli (2001)：证明了对正相关（PRDS）下的 BH 程序也能控制 FDR。这篇是其中一个重要的 baseline，但在 intro 中没有被明确提到与 PFA 比较。这可能是因为他们的关注点真的是单边假设+依赖结构，而 B&Y 的 PRDS 条件对单边假设而言常常不成立（依赖可能是负相关？）。但这是一个值得研究者去查的方向。 - 没说的及其近似：作者大量依赖因子模型，但完全没有与基于 permutation / bootstrap 的 FDP 估计方法比较（例如 Meinshausen (2006), 及其变体），这或许是一个被衬托的竞争路线。

张力¶

未发现明显的对立引用。各方法均基于不同的依赖假设，没有直接的矛盾。不过，存在一个隐含张力：因子模型 vs 更一般的弱相关假设（如 m 依赖、物理谬误）。在因子模型下，强相关可以有效地用低秩结构捕捉；但如果真实依赖结构是稀疏的（如网络图），PFA 的近似会有多大误差？论文没有探讨这一点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
m：测试的假设数目。
H_{0i} vs H_{1i} (i=1,...,m)：第 i 个零假设与备择假设。单边假设意味着 H_{0i}: μ_i ≤ 0 vs H_{1i}: μ_i > 0。
p_i：第 i 个检验的 p 值。
Z_i：第 i 个检验的测试统计量（假设为标准正态分布或其他有已知/可近似零分布的统计量）。
t：对 p 值的阈值（如 t=0.05）。如果 p_i ≤ t，拒绝 H_{0i}。
V(t)：错误拒绝数目（即 #{p_i ≤ t: H_{0i} true}）。
R(t)：总拒绝数目。
FDP(t) = V(t) / max{R(t), 1}；FDR = E[FDP]。
π0 = m0/m —— 零假设比例为 m0 个零假设除以 m。
Z = (Z_1,...,Z_m)^T：测试统计量的向量。
Σ：Z 的 m × m 协方差矩阵。未知。
PFA 建模：Z = B * F + ε，其中：
- B 是 m × K 的因子载荷矩阵（K 是因子个数，较小，如 1-5）。
- F 是 K × 1 的因子向量（假设因子之间相互独立，且单位方差）。
- ε 是 m × 1 的独立噪声向量（均值 0，方差 σ²_i, 弱相关，且满足某些限制使得 Σ 的谱结构由低秩项主导）。
η := Σ(ε)：ε 的协方差矩阵（弱相关性）。
PFA 的核心是：Σ ≈ B B^T + diag( σ²_i )。
模型：
假设响应（或测试统计量）服从位置模型：Z_i = μ_i + ε_i^*，其中 μ_i = 0 在零假设下，μ_i > 0 在备择下。ε_i^* 有零均值，协方差为 Σ。
PFA 假设 ε_i^* 可以有因子结构，即 Σ = B * Cov(F) * B^T + η，其中 η 为弱相关（通常是近似稀疏或符合 Marchenko–Pastur 谱范围的条件）。
可观测数据：
可观测的是 p_1,...,p_m（或直接 Z_1,...,Z_m）。研究者知道每个单边检验的计算（例如从 t 统计量或 z 统计量来的）。
不可观测/想要估计的是：
- m0（或等价地 π0）——零假设的数量。
- V(t)——假发现次数（依赖哪个假设是零/备择）。
- 备择假设下的 μ_i 值（通常是无限维, 高维困难）。
- 依赖结构 Σ（或因子载荷 B 和噪声协方差 η）。

第二步：最小内核¶

最小特例：考虑一个高度简化版本，去除 PFA 和自适应丢弃的全部复杂性，但保留核心逻辑。

设定： - 假设只有 p = 2 个假设（为说明清晰，实际上 m 要足够大才有意义）。 - 真实 π0 已知为 0.8（80% 的假设为零、20% 为备择）。 - 测试为单边标准正态检验：H_{0i}: μ_i = 0；H_{1i}: μ_i = c > 0（c 是固定的常数，很小）。 - 依赖结构假定为最简单的因子模型：Z_1 = F + ε_1; Z_2 = -F + ε_2，其中 F ~ N(0,1)，ε_1, ε_2 独立标准正态。因此 Cor(Z_1, Z_2) = -1/√(1+1)*√(1+1) = -1/2 → 依赖结构是单因子，因子载荷分别为 +1 和 -1。

核心问题： - 我们的目标是在 FDR ≤ α（如 α=0.1）下最大化检测备择假设的功效。 - 直接 BH 会对所有 p 值排排序、然后用 (k/m)*α 的临界值判断。但在此依赖结构（非正相关）下，BH 可能失控。 - “PFA 路径”：先用主因子近似估计相关矩阵（在此小例子中可以直接计算实际相关矩阵），得到“一阶近似”的去相关 p 值（如用残差 ε_i 的 p 值代替原始 Z_i 的 p 值）。去相关后的 p 值更接近独立。

丢弃策略的最小内核： - 在单边假设中，零假设的 p 值不是 Uniform[0,1]；而是偏大（集中靠近 1）。设想：如果真 μ=0，但我们的检验统计量是一侧的正态概率，那么 p(单边) ≈ 1 - Φ(Z)，这意味着 Z 为正时 p 值 < 0.5；Z 为负时 p值 > 0.5。但零假设下，p 值的分布取决于 μ 被检验的符号：如果检验是 H_0: μ ≤ 0 对 H_1: μ > 0，并且测试统计量是从单侧检验的正态近似计算的，那么对于真正的零假设，p 值是在 [0,1] 上的均匀分布吗？实际上，与双边不同，单边检验的零分布不是均匀的——在单边 Z 检验中，P值 = 1 - Φ(Z_stat)。如果 μ=0，Z_stat ~ N(0,1)，那么 p 值确实是 Uniform[0,1]。但存在的问题是：在现实的有限样本情况下，零假设近似是均匀的，但“备择假设”一侧（即实际效应为正）的 p 值偏向 0，而“零假设侧”（实际效应为负）的 p 值接近 1。论文的核心洞见是：在单边检验中，零假设的 p 值分布是有偏的——即使对零假设本身，p值也能接近0或1，但“真正零假设+负效果”的那个组分会产生大量接近1的p值，这些 p 值会污染我们对 π0（零假设比例）的推断。丢弃就是把 p 值过于接近 1（大于某个阈值）的那些“疑似负效果零假设”观测剔除，不参与 FDP 估计，以避免它们在 FDP 估计的分母中虚假地“稀释”虚假发现。

在 2-假设例子中： - 丢弃条件：丢弃 p 值 > 0.9 的观测。则我们的 FDP 估计 FDP_hat 可以在减少偏差后变得需要更精确。

关键挑战： - 丢弃多少（即丢弃阈值怎么选）？丢弃太多会损失统计内容，丢弃太少无法消除偏差。论文中的“自适应”策略就是用一个初始的 π0 估计（基于 PFA 后的 p 值），来递归地决定丢弃哪些。 - 这需要处理依赖结构（回到 PFA）。PFA 的核心简化是：将可观测的 Z_i 的协方差 Σ 用一个 B*B^T + η 近似，其中 B*B^T 是低秩（秩 K << m），η 近似对角或不强相关。这样，通过估计因子 F 的方差及载荷，我们可以“去相关”掉主要的依赖，使得残差 ε_i 近似独立，从而方便应用均匀性假设和丢弃策略。

小结：这篇论文的最简化工作是：在单边假设 + 单因子依赖条件下，设计一个 FDP 估计量，它先通过 PFA 去相关得到近似独立的残差（或近似均匀的 p 值），然后自适应地丢弃靠近 1 的 p 值（以去除“零假设保守性”带来的偏差），从而得到一个相合的 FDP 估计，再利用这个估计反向选择阈值来控制 FDR。

三、这篇论文做了什么¶

三句话¶

研究了在测试统计量存在未知依赖结构的情况下，如何通过主因子近似（PFA） 对依赖结构建模，并结合自适应 p 值丢弃策略，实现单边假设的多重检验程序（DAB-PFA），并证明该程序在控制 FDR 的同时显著提升了功效（TPR）。
核心工具是：对 p 值向量应用 PFA（即对 Z 值拟合因子模型）得到去相关后的近似独立的残差；然后基于这个残差计算“转移”p 值；设计一个通过极小化 FDP 估计的方差/偏差而自动选择丢弃阈值的过程。
主要结论是导出了 FDP 估计量的收敛速率（在文章定理 1 中），并在模拟和真实蛋白质组学数据中以高 FDR 控制精度和高检测功效验证了方法。

关键设定与假设¶

在第二节最小记号基础上补全完整设定：

设定：
测试统计量 Z_i 来自一个因子模型：Z_i = B_i^T F + ε_i，其中 F ∈ ℝ^{K×1}，B_i ∈ ℝ^{K×1} 为第 i 测试的因子载荷，ε_i 的协方差 η 满足弱相关条件（如：η 的最大特征值有界）。
检验是单边的：H_{0i}: μ_i = 0（或 μ_i ≤ 0） vs H_{1i}: μ_i > 0。
p 值定义为 p_i = 1 - Φ(Z_i)，其中 Φ 是标准正态 CDF。作者特别指出“对于真正的零假设，p值不再是 Uniform[0,1]，而是集中在 1 附近”。
假设 ε_i 近似服从标准正态分布，噪声是弱依赖的。
假设条件（从论文中梳理）：
因子个数 K 是固定的，不随 m 发散（这最大程度上保证了 PFA 的有界秩特性——这是一个强于普通因子模型的假设，因为现实中因子个数可能缓慢增长）。
因子载荷满足某种稀疏条件：max_i ||B_i||_2 有界，且在因子范数意义上“易于估计”。
π0（零假设比例）有下界 > 0（即零假设不是极少），且作者假设备择假设的效应量是小的（信号较弱），这是为了避免方法对强信号反应过度。
对残差 ε_i：条件类似于 Fan & Han (2017)：对任意 δ > 0，存在常数 C 使得在 m 足够大时 P(|η_ij| > δ) ≤ C/m^{1+δ'}（一些弱相关条件），确保因子模型的近似质量。
相比于已有文献的放宽/强化：
放宽了：通过在 PFA 后采用自适应丢弃，放宽了“p 值在零假设下均匀分布”这一要求（即不再要求 Uniformity）。
强化了：增加了“数据生成自因子模型”这一假定——这比“正相关”（PRDS）要窄（因为因子模型可以产生负相关），但比更一般化依赖结构要多一些结构。
在丢弃策略上，相比于 Wang & Fan (2017) 的简单固定丢弃参数，本文通过“自适应”选择丢弃阈值引入了一部分灵活性，但这牺牲了闭式表达式上的简洁性。

主要结果¶

定理 1（FDP 估计的收敛率）：

在由因子模型生成数据的假设（Assumption 1-3）下，DAB-PFA 程序导出的 FDP 估计量 FDP(t) 满足：对任意阈值 t ∈ (0, 1/2)，有：

sup_{t in (0,1/2)} | FDP_hat(t) - FDP(t) | = O_p( m^{-κ/2} )，

其中 κ ∈ (0,1/2) 是依赖于 π0 和依赖结构强度的常数（更具体地说，它依赖于噪声 η 的弱相关指标和因子载荷的估计精度）。

直觉：κ 越大，收敛越快。κ 接近于 0，意味着依赖结构非常强（如几乎相关的因子载荷），使得 PFA 近似困难，因而收敛变慢。κ = 1/2 是独立设定下的最优速率（1/√m），本文证明了在因子模型+弱相关下仍然可以达到接近独立的速率——这对依赖多重检验来说是非常强的结果。
必要条件：需要因子载荷的估计误差充分小（这依赖于因子模型的可辨识性和样本量 n，通常假设 n 与 m 同阶增长或更快）。
解决的技术难点：处理单边假设导致的 p 值分布不均，以及自适应丢弃诱导的辅助估计量的稳定性。

定理 2（FDR 控制）：

在相同条件下，DAB-PFA 程序在预设的 FDR 水平 α 上，实际 FDR 会趋近于 α（渐近控制），且同时保证 TPR 至少比 BH 程序提升一个正数倍（在备择信号强度固定时）。

对比基线提升：模拟中的 TPR 从 BH 的 ~0.3 提升到 DAB-PFA 的 ~0.65（在中等 SNR 和中等依赖条件下；具体依赖于模拟参数）。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

建立零假设 p 值的近似均匀性（去相关后）。通过 PFA 将原始 Z_i 去相关为 ε_i，证明 ε_i 的协方差矩阵近似单位阵。利用随机矩阵理论（Marchenko-Pastur 定律）保证在 m 大、因子个数有限时，PFA 的残差 ε_i 的分布近似独立标准正态。因此，原始 p 值到“去相关后 p 值”的映射偏差可控。
用自适应丢弃π0的偏差。构造一个辅助损失函数：L(π0) = sum_{i=1}^m (1 - p_i^α...) / ...（原文公式晦涩但核心是樽型纲量）。通过最小化 L(π0) 得到 π0_hat，该步骤也决定丢弃哪些 p 值。关键在于证明这个最小化子是可求解的，且 π0_hat 是 π0 的相合估计。
构造 FDP 估计量的分解：FDP_hat(t) = (m * π0_hat * t) / R(t) * (某系数) + 一个来自丢弃和去相关误差的剩余项。通过随机控制这个剩余项（特别是丢弃的边界效应），利用 Step 2 的收敛率，得到 |FDP_hat - FDP| 的渐近界。
收敛率证明：将误差分解为三部分——I.（去相关估计误差）来自因子载荷的误差和噪声相关性的残余；II.（丢弃诱导误差）来自自适应丢弃的阈值选择对 π0 估计的微小扰动；III.（统计波动率）来自有限样本 R(t) 的随机性。证明每一部分的 order（第一部分是 O_p( m^{-κ/2})，来自因子载荷的 L2 误差；第二部分是 O_p( m^{-1/2})；第三部分是 O_p( m^{-1/2})）。综合得定理 1。

关键跳跃点：

PFA 估计的误差：在常规因子模型中，因子载荷 B 的估计误差有已知的 rate，要转到 p 值空间，需要处理从 Z 到 p 的非线性映射（p_i = 1 - Φ(Z_i)）的泰勒展开。作者证明了这个展开的线性主导项是利普希茨的，从而误差可传。
丢弃策略的自适应阈值：部分定理的证明需要显示，迭代的丢弃阈值（依赖于当前的 π0_hat）不会产生超过 O_p(1/√m) 的额外方差。这一点通过建立丢弃阈值的聚点稳定性达到——即该阈值是距离界为 O_p(1/√m) 的一个随机变量。

技术技巧点名：

PFA（主因子近似）：核心技巧，使用奇异值分解（SVD） 或主成分分析（PCA） 在 m 维测试向量上估计因子结构。fan and Han 的原始理论已经提供了因子载荷估计的误差界（基于随机矩阵理论的谱界）。
为了讨论的界（Marchenko–Pastur 定律）：用在 PFA 的误差分析中，保证残差的协方差矩阵的特征值渐近集中在单位值附近（含波动率 O(m^{-1/2})）。
丢弃策略的方差分析：使用了一种U-统计量型的方差分解，将丢弃后的估计量写成无偏统计量的 plus 残留项。
Hájek 投影 / “leave-one-out” 技巧（见于证明部分：在估计丢弃阈值的影响时，将 m 维问题通过去除一个观测做小幅度扰动，检验阈值的变化幅度；原文有引用 Assouad’s 引理或类似工具）。

真实例子与应用¶

论文包含一个蛋白质组学数据分析： - 数据：卵巢癌（serous ovarian adenocarcinoma）样本的蛋白质磷酸化水平。m 大约是 200-300 个蛋白质磷酸化位点（单位测试）。 - 怎么用：首先标准化每个位点的磷酸化水平，然后对每个位点做单边检验（H0: 无变化 vs H1: 癌症 vs 正常组间有正变化）。使用 DAB-PFA 程序控制 FDR（预设 α=0.1），并与 BH 和 Wang-Fan 方法对比。作者利用 PFA 的先验知识（来自其他独立样本的因子模型拟合）来估计相关结构。 - 结果：DAB-PFA 找到了更多的差异磷酸化位点（相比 BH 等找到的数目），但 FDP 控制是通过对真实 FDP 的后期验证（用置换标记的真实验证）报告保持良好。例如，在一种比较中：BH 只找到 12 个显著位点，而 DAB-PFA 找到 18 个（在 estimated FDP 均为 0.07 左右时）。这表明 DAB-PFA 提高了功率而未牺牲 FDR 控制。 - 说明什么：验证了方法在真实世界、存在未知依赖（蛋白质位点自然相关，尤其同一通路内高度相关）时，确实比 BH 类方法更优。也展示了 PFA 的实用性：可以借用外部的因子载荷估计（因为蛋白质数据中往往有 reference 队列）来近似依赖结构。

🔎 结论是否比证明窄¶

是的，有几个重要点： 1. “单因子”设定：许多证明和模拟假设因子个数 K 固定、且小。但结论（尤其是收敛率）可能只对 K=1 或 K=3 以下有充分保证。作者在真实例子中也只使用了“单因子”的 PFA。论文中没有理论证明 K 随 m 增长（比如缓慢增长）时的结果。结论的适用范围窄于此假定的自然延伸。 2. 近似均匀假设：证明中用了去相关后的 p 值近似 Uniform[0,1] 这一条件。但在真实数据上，零假设的 p 值可能有轻度不均匀（因为残差不是严格 N(0,1)，或者噪声方差有异质性）。论文没有正式处理这种异质性；只是模拟检验了“轻微异方差”的稳健性，但没有理论界。 3. FDR 控制：定理 2 说明“FDR 渐近控制”，但有限的模拟表现出轻微的 FDR 上冲（在某些参数组合中，实际 FDR 略微超过 α）。作者在讨论中承认了这一点，但没有给渐近保守性的充分条件（即证明“FDR ≤ α + o(1)”）。

四、开放问题¶

自适应丢弃策略的最优性：论文的丢弃阈值选择没有闭式解，只在 min 过程中计算。是否存在一个全局最优的丢弃阈值函数（可能基于贝叶斯决策准则）？这一思路扎根于论文第 15 页末尾的 “Adaptive discarding threshold can be further optimized……” 一句。
收敛率是否可改进至 O_p(m^{-1/2})：定理 1 的率 O_p(m^{-κ/2}) 中没有显示 κ 可以总是达到 1/2（独立情形）。作者定理中所依赖的“弱依赖系数”有可能被放宽或挟制——这是一个典型的 minimax 下界问题（在因子类上的 minimax 收敛率）。扎根于证明段结尾对 κ 的依赖。
半参数或多子群整合：本文的 FDP 估计量直接基于 π0 和 m。能否将它推广至半参数倍分法（Doubly Robust 或 IF）以处理由可观测协变量引起的混杂（例如：某些子组可能自然携带更大的效应量）？这直接触及用户的半参数兴趣。扎根于论文对“丢弃”定义的描述：它对所有观测的 p 值一视同仁，没有分层。
移除单因子假设：如果依赖结构不仅是少数的潜因子，而是更丰富的图形化依赖（如社交网络中的弱相关图），PFA 的近似误差会更大。本文的方法能否与图模型谱或成对稀疏正则化结合？这是一个有前景且为本文未触及的方向。扎根于 η 被假设为弱相关（但与因子模型的兼容性无研究）。

关于最后的顺口提醒：用户如果你想确认“自适应丢弃的最优性”是真 gap，可去近期（2020-2024）的相关文章（如 Li & Barber, 2019 的 SABHA / Holm adjustment 等）看五篇 intro——如果它们都指向“丢弃理论不完备”，就是共识 gap。如果互相打架（如 SABHA 认为丢弃必须加阈值，而另一篇认为可以不丢弃），则是潜在的另辟蹊径处。

Maintained by 陈星宇 · Homepage · Source on GitHub