τ-censored weighted Benjamini–Hochberg procedures under independence¶

作者: Haibing Zhao, Huijuan Zhou
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1093/biomet/asad047

一、领域脉络与小综述¶

这个方向是什么¶

本子方向是多重假设检验中的错误发现率（FDR）控制，特别关注如何利用辅助信息（如协变量、先前实验结果、外部知识）通过加权 p 值来提升检验功效，且要求在有限样本下严格控制 FDR（而非仅渐近保证）。核心矛盾在于：权重如果从数据中学得（data-driven），就引入了 p 值与权重的依赖，使得经典 BH 程序的独立性与交换性假设被破坏，有限样本 FDR 控制变得困难。当前成熟度：方法丰富但有限样本保证的研讨仍在发展，大多数加权 BH 变体仅给出渐近控制。

发展脉络（history）¶

奠基工作 I：Benjamini & Hochberg (1995) 的 BH 程序。原始 BH 在独立 p 值下保证了 FDR 的有限样本控制（m0/m * α），但不涉及权重。
奠基工作 II：Storey (2002) 的自适应 BH。引入零比例 π0 的估计 π̂0，并证明在弱条件下可提升功效；但 π̂0 的引入破坏了 BH 的交换性，证明需依赖渐近弱收敛或 bootstrap；有限样本控制不成立（除非借助额外调整如 π̂0 的上界截断）。
主要进展 I：Habiger (2017) 与 Roeder & Wasserman (2009) 提出的加权 BH。Habiger 系统地将权重引入 BH（weighted BH: P_i / w_i 排序），并指出若权重是数据的函数，控制 FDR 需要额外条件（如权重与对应 p 值的独立性）。Roeder & Wasserman 在基因关联研究中利用外部信息构造权重，但控制是渐近的。
主要进展 II：Ignatiadis & Huber (2021) 的 τ-censored 加权 BH + 交叉加权。该文提出了一个精巧的框架：先对 p 值做截断（τ-censoring），再用交叉加权（cross-weighting）构造数据驱动权重，使得在独立零假设下有限样本 FDR ≤ α 成立（而非渐近）。具体而言，他们将数据随机分成 K 折，对第 i 个 p 值，权重由排除该折的其余数据学习；这隔断了 p 值与自身权重的直接依赖。但作者在 §1 中指出：交叉加权仅对折内 p 值“平衡”权重（即每折内权重和等于 K），而较多 p 值信息（包括该折内低 p 值的信号）被完全丢弃，可能引致功效损失。具体地，“Cross-weighting does not exploit the p-value information inside the fold and only balances the weights within each fold, which may result in a loss of power”——这是本文的直接动机。
当前 frontier 与本文位置：Zhao & Zhou (本文) 在 Ignatiadis & Huber 的 τ-censored 框架内，提出两种新的权重构造模式——留一法（leave-one-out, LOO） 与 部分信息法（partial information），基本思路是不再预先划分折叠，而是对各 p 值“屏蔽”自身信息在其权重中的影响，从而允许更充分地利用其余 p 值的信息。这是首次将“下确界屏蔽”技巧 (infimum over p-value) 用于多重检验权重构造的有有限样本控制。

子线索聚类¶

被引文献大致落在三条子线路上： 1. 经典 BH与自适应BH（Benjamini & Hochberg 1995, Storey 2002, Benjamini et al. 2006）：焦点放在改进 BH 对零比例与特定拒绝集合结构的适应性，但均不涉及权重或仅渐近控制。 2. 数据驱动权重构造（Habiger 2017, Roeder & Wasserman 2009, Ignatiadis & Huber 2021, 本文）：直接处理从 p 值自身学习权重时的过拟合问题，以有限样本控制为目标。Ignatiadis & Huber 的交叉加权提供第一个有限样本保证的权重方案；本文提出两种替代方案。 3. 零比例（π0）估计（Storey 2002, Schweder & Spjøtvoll 1982, Jin & Cai 2007, Langaas et al. 2005）：通常作为嵌入 BH 的“后处理”步骤以提升功效，但会破坏有限样本控制；本文提出的两种新零比例估计方法（π̂0^LOO 和 π̂0^PI）与权重构造一体化，保留了有限样本 bound。

核心追问与瓶颈¶

核心问题 1：如何在有限样本下构造数据驱动的权重，使得 FDR ≤ α 成立？
核心问题 2：如何设计权重构造机制，以避免因过拟合（p 值与权重直接相关）导致的 FDR 膨胀？
核心问题 3：在控制 FDR 的同时，如何最大化功效（即最小化 FNR 或最大化平均检出数）？
瓶颈：已有方法要么放弃有限样本控制（归为渐近），要么（如交叉加权）为保控制而舍弃部分信息，导致功效受损。本文的贡献在于提供两种新屏蔽技巧，理论上允许保留更多信息的同时保持控制。

⚠️ 作者的 framing¶

作者将缺口 frame 为：交叉加权因“折内信息完全丢弃”和“折内权重平衡”而损失功效，本文的方法通过留一法与部分信息法保留更多信息，从而可能获得更高功效。作者在引言（§1）明确写道：“Cross-weighting does not exploit the p-value information inside the fold and only balances the weights within each fold, which may result in a loss of power.” 然后随即列出本文的两个新方案。

被淡化或回避的竞争路线：作者只讨论 Newton et al. (2004) 与 Sun & Cai (2007) 的 Bayes/empirical-Bayes 加权方法（这些需要知道先验且仅渐近保证），将其归为“asymptotic”后不再深入。此外，纯基于“外部独立信息”的加权（如协变量已知且与 p 值独立）在这里被连带讨论为 baseline，但那不是本文要解决的核心——因为权重已知时 BH 的有限样本控制是现成的（只需重新定义 p 值为 P_i / w_i）。
明显该被引 / 该存在却未出现在 intro 的文献：未见明显缺失。但值得提醒研究者去查：若本文方法应用到依赖 p 值（例如 block dependence 或 weak dependence）时，保留有限样本控制的尝试——论文只处理独立情形，而对依赖结构延伸的处理需要更复杂的工具（如高阶桥分解、重排不等式），这或许是未入 intro 但重要的扩展方向。

张力¶

未见明显对立引用。所有提及的工作基本都同意“数据驱动权重 + 有限样本控制”的困难，分歧仅在于如何绕开困难（交叉加权 vs. 留一法 vs. 部分信息法）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
m：总假设数。
H_0i（i=1,...,m）：第 i 个零假设。有 m0 个真零假设（null）， m1 = m - m0 个假零（alternative）。
P_i：原始 p 值（H_0i 下的检验统计量的观测值）。在零假设下，P_i ~ Uniform(0,1)；alternative 下 P_i 倾向于取小值。若全零假设下，(P_1,...,P_m) i.i.d. Uniform(0,1)。可观测数据：研究者看到的恰是这一组 (P_1,...,P_m)。
w_i：给 p 值 P_i 施加的权重（非负，且通常 ∑_i w_i = m 或归一化）。可观测？若权重由额外外部信息构造且事先固定，则已知；若由 p 值自身学习得到，则是潜在估计量ŵ_i，依赖于整个数据集。
τ ∈ [0,1]：τ-censoring 参数。加权 p 值 P_i / w_i 会被截断：若 P_i ≥ τ w_i，则记 P_i^τ = 1（视为“不显著”），否则保留原值。
q：FDR 目标水平（α）。
R：拒绝集（rejection set），即被 BH 程序宣布显著的假设个数。
FDP = #{i∈R, H_0i真} / max(R,1)，FDR = E[FDP]。
模型/数据生成机制：
假设：p 值独立（这是全文核心假设，作者在 §2 开头写明："Assumption 1: The p-values are independent, and the null p-values follow Uniform(0,1)."）。对 alternative p 值无特殊分布假设，仅需在给定权重下其条件分布是良定的。
(P_1, ..., P_m) 可看作来自一个混合分布：P_i ~ (1-π_i) Uniform(0,1) + π_i F_i^{alt}，其中 π_i = 1 若第 i 个是 alternative，否则 0。因独立性假设无此结构要求。
可观测 vs. 不可观测：
可观测：m 个 p 值 (P_1,...,P_m)、目标 α、τ。
不可观测：哪些是真零（null）哪些是 false（不已知）；各 π_i；替代分布 F_i^{alt}。理论上，FDR 只能通过上界控制。

第二步：最小内核¶

最小特例：m = 2，τ = 1（即无截断），且目标 α = 0.1。假设只有一个真零（H_01 真，P_1 ~ Uniform(0,1)）和一个假零（H_02 真，P_2 期望很小，比如约 0.01）。经典 BH 会同时考虑两个 p 值：升序排序，若 P_(1) ≤ α/2 * 1, P_(2) ≤ 2α/2 * 1，则拒绝二者。本例中，若 P_2 很小，则很可能拒绝 H_02；若 P_1 不特别小（比如 0.6），则 BH 会拒绝 H_02 但保留 H_01。

现在尝试用数据驱动权重来提升功效：我们希望给假零（H_02）高权重（如 w_2 = 1.5），给真零（H_01）低权重（如 w_1 = 0.5）。问题：权重必须从数据学习。我们只知道 (P_1, P_2)，不能直接知道谁真谁假。

交叉加权法（Ignatiadis & Huber）：将数据分为 K=2 折。假设第一折只有 H_01（P_1），第二折只有 H_02（P_2）。对第一折的 P_1，它的权重由第二折（P_2）学习；对第二折的 P_2，权重由第一折（P_1）学习。例如，从 P_2 极小可推出它是 alternative，所以给第一折分配低权重 w_1 = 0.5；但从 P_1 较大（0.6）难以推断，或许给第二折 分配平衡权重使每折和等于 2，即 w_2 = 1.5。交叉加权勉强可行，但效果依赖于分折和权重平衡。

留一法核心思想（本文新方法 1）：不预先分折，而是对每个假设 i，只用除 P_i 外的所有 p 值来学习 w_i。但这样一来，w_i 对 P_i 极可能包含若 P_i 很小则 ŵ_i 会变大的依赖，导致FDR膨胀。作者的关键技巧：对每个假设 i，不是直接用“排除 P_i 其余 m-1 个 p 值”的函数值作为权重，而是计算一个下确界：w_i^LOO = inf_{p ∈ [0,1]} w_{-i}(p)，其中 w_{-i}(p) 是把 P_i 替换为自由变量 p 时权重函数的值。这个下确界确保了：无论 P_i 取什么值（尤其是 if P_i 很小时），权重都不会因为 P_i 的特定取值而变大。这样，w_i^LOO 与 P_i 相互独立（因为取了下确界——“屏蔽”了 P_i 的影响），从而 P_i / w_i^LOO 在零假设下仍是均匀的（除截断 τ 外），保证了 FDR控制。

在 m=2 例子中：给 H_01 构造权重时，只用 H_02 的 P_2；权重函数 w_{-1}(p) = 某种权重算法（如根据 p 值小的程度给高权重）应用到 (p, P_2) 这个假数据集上。若算法会把小 p 值对应的假设判为 alternative 并给予高权重，则当 p 很大时（比如 p=0.6），该假设得到的权重低；当 p 极小时（如 p=0.0001），该假设得到高权重。w_1^LOO 是取这个函数在 p∈[0,1] 上的下确界：即把 p 调到使得 H_01 被算法判为最显著的取值（对应 p 最小时得到的最高权重）。这个最低权重永远是 0 或一个很小值（取决于算法），所以 w_1^LOO 被压低；同理，H_02 的 w_2^LOO 取决于 H_01 的 P_1（大）与权重函数，也可能被压低。核心结果：占小便宜（P_i 小导致权重大）的关系被切断，FDR 可控；但功效也可能受损，因为权重普遍偏小。作者的下一个方法（部分信息法）试图在“屏蔽”与“保留信号”之间找到更好的平衡。

三、这篇论文做了什么¶

三句话¶

问题：在独立零假设与有限样本下，为 τ-censored 加权 BH 程序构造数据驱动权重，以控制 FDR ≤ α（目标水平），同时尽可能保留功效（不比交叉加权差）。
方法：设计了两种权重构造模式——留一法（LOO）部分信息法（PI），其核心思路是通过“下确界屏蔽”（LOO）或“仅使用无需屏蔽的部分信息”（PI）来切断 p 值自身对其权重的 biased 影响，从而保持加权 p 值在零假设下仍满足（经截断后的）均匀性或随机占优性质。
结论：在独立性假设下，两种方法均能保证有限样本 FDR ≤ α（定理 1~3），且在模拟中（§5）相比交叉加权有更低的 FNR 或更高的平均拒绝数，尤其当信号稀疏或效应较大时。文中还给出了两种零比例 π0 的估计方案并融入权重中，进一步提升了功效。

关键设定与假设（在第二节最小记号基础上补全）¶

假设（全文）：Assumption 1（独立性） — P_1,...,P_m 相互独立，且真零 p 值服从 Uniform(0,1)。这是所有 FDR 定理的基石。作者在 §2.1 及定理陈述中明确写明。
设定 I：τ-censored weighted BH 程序。定义变换后的 p 值为 P_i^τ = min(P_i / w_i, 1) 如果 P_i < τ w_i，否则 P_i^τ = 1。排序 P_(1)^τ ≤ ... ≤ P_(m)^τ，拒绝第 k 个最大的满足 P_(k)^τ ≤ (k/m)α 的假设。即原始 BH 在加权截断 p 值上的标准应用。τ 越大（如 1）则越允许小的 P_i / w_i 通过；τ 越小（如 0.5）则更保守。
设定 II：权重构造函数类。对每个 i，权重 w_i^LOO 或 w_i^PI 由其他 p 值（全部或部分）计算得来，且必须满足：对任意 i，w_i 与 P_i 独立（LOO 通过下确界实现；PI 通过仅使用“部分信息”实现）。
放宽或强化对比：相比 Ignatiadis & Huber (2021)：
强化：本文的 LOO 和 PI 方法不要求事先分折或平衡折内权重；而交叉加权需要折内权重和为常数。
放宽：交叉加权要求 K≥2 折，且每折大小相同；本文可在全数据集上运行。
放宽：PI 方法允许保留一些 p 值自身的“部分信息”（如对大数据集中的零假设类型依赖最弱的一个量），遇到更细的分类不成立？对 PI 的严格假设是 “The p-value can be partitioned into several components, each component is independent, and one component is used for weighting, the rest for testing.” 对于一般的 p 值，这种分解不一定存在。作者只对 Fisher's exact test 等特定情形给出了构造（§S1）。
额外假设（用于零比例估计）：π0 的上界已知（如 ≤ 1），且作者设计的估计量是上界估计 π̂0 ≥ π0 以保证保守性（否则 FDR 可能违反控制）。

主要结果¶

定理 1（留一法 FDR 控制，§3.1）： - 陈述：设 w_i^LOO 由“排除 P_i 后计算权重函数，再取该函数对 p ∈ [0,1] 的下确界”得到。假设 Assumption 1 成立，则采用权重 w_i^LOO 的 τ-censored weighted BH 程序（τ ∈ [0,1]）有限样本地满足 FDR ≤ (m0/m) α ≤ α。更具体的界：FDR ≤ α（因 m0 ≤ m，可放宽至 ≤α）。 - 直觉：下确界确保了 P_i 与 w_i^LOO 的独立性（w_i^LOO 是常数/独立于 P_i 的随机变量），于是 P_i / w_i^LOO 在真零下仍由 Uniform(0, 1/w_i^LOO) 支配，整个加权序列经 τ 截断后保持了“逐假独立”性质，原 BH 的有限样本控制证明（Benjamini & Hochberg 1995 的引理）可直接移植。 - 必要条件：w_i^LOO 在计算上的可处置性（下确界可能难以解析求，但作者在 §4 给出了可行算法）。权重下确界的计算：若权重函数是“p 值越小，权重越大”的单调形式（如 -log(p) 归一化），下确界就是极限 p→0 时的权重，即该假设的最大可能权重，容易计算。 - 技术难点：证明中花了大量篇幅说明下确界的取法与 p 值的可交换性（如引理 1 证明 w_i^LOO 与 P_i 独立，以及 (P_i, w_i^LOO) 的联合分布在零假设下与 (P_j, w_j^LOO) 可交换）。

定理 2（部分信息法 FDR 控制，§3.2）： - 陈述：若 p 值可分解为 P_i = f(S_i, T_i)，其中 S_i（用于构造权重）与 T_i（用于检验）相互独立，且 S_i 与 P_i 在零假设下独立（即 P_i | S_i ~ Uniform(0,1) 或更弱地，P_i 的分布不包含 V 在 S_i 上的信息），则采用权重 w_i = g(S_i)（g 是将 S_i 映射到权重的任意函数）的加权 BH 程序可控制有限样本 FDR。作者还给出了两种具体构造方法：一种使用剩余（residual）信息，一种使用条件对数似然分解。 - 直觉：S_i 作为“纯工具变量”，不包含 T_i 的信息，因而 P_i / w_i 的条件分布仍是均匀/可控；交叉加权本质上也是这种思想的一种特例（将 S_i 定义为其他折的 p 值集合）。 - 必要条件：需要存在恰当的 S_i 分解。作者在附录 S1 对 Fisher's exact test 和线性模型在固定设计下给出了示例。若没有这种自然分解，该方法不可行。

定理 3（零比例估计与功效提升，§3.3）： - 陈述：给出两种 π0 的估计量：π̂0^LOO（基于留一法 p 值的均值）与 π̂0^PI（基于部分信息方法的类似构造），它们都在有限样本下满足 π̂0 ≥ π0（高概率或确定性上界）。将这些估计量并入权重（例如令 w̃_i = w_i / π̂0 或直接在 BH 步骤中使用 π̂0 调整），可保持 FDR ≤ α 且功效有提升。 - 直观：Storey (2002) 的自适应 BH 中，π̂0 的上界性质允许将临界值从 (k/m)α 放宽至 (k/ (m π̂0))α 而不破坏 FDR 控制。这里采用类似的宽松，但由于原权重已保证有限样本 FDR 控制，额外的 π̂0 调整在有限样本证明上需要额外对称性与独立结构。 - 难点：证明 π̂0^LOO ≥ π0 或等价的上界，需要建立 E[ 1{P_i > λ}] ≥ (1-λ)π0 的类似 inequality，并利用屏蔽技巧确保估计不受 alternative p 值的低估影响。

证明路线与技术技巧¶

整体路线（以定理 1 为例）： 1. 步骤 1——正则化权重：证明 (P_i, w_i^LOO) 的联合分布在零假设下与 (P_i, w_j^LOO)（i≠j）有对称可交换性。这是因为 w_i^LOO 不依赖于 P_i（经下确界屏蔽），且所有 null p 值 i.i.d. Uniform(0,1)，所以 null p 值的权重与 null p 值本身在排序中是“随机配对”的。 2. 步骤 2——转化问题：定义 Q_i = min(P_i / w_i^LOO, 1) if P_i < τ w_i^LOO 否则 Q_i = 1。证明在零假设下，Q_i 在截止 τ 以上是 i.i.d. Uniform(0, 1/w_i^LOO) 的混合，但 Q_i 的分布满足：P(Q_i ≤ t | w_i^LOO) ≤ t 对所有 t ∈ [0,1] 成立（即随机占优于 Uniform(0,1) 的左边）。 3. 步骤 3——直接沿用 BH 的引理：Benjamini & Hochberg (1995) 的引理（Lemma 1）仅要求：对于零假设，P( P_i ≤ t ) ≤ t 且 p 值独立。这里我们已有 Q_i 在零假设下满足此条件（因 P(Q_i ≤ t | w_i^LOO) ≤ t，取期望后得边际 ≤t），且有 (Q_i) 相互独立（因 P_i 独立且 w_i^LOO 不依赖于 P_i 且是其他独立变量的函数，所以独立链成立）。因此 BH 发生在 Q_i 上还是 P_i 上无区别，FDR ≤ (m0/m)α。 4. 步骤 4——引理 1 细节：证明 w_i^LOO = inf_{p} w_{m-1}(p, P_{-i}) 是独立于 P_i 的随机变量。作者使用测度论中关于可测函数的下确界与随机变量独立的性质（若 g(x,Y) 对每一个 x 可测，则 inf_x g(x,Y) 是 Y 的可测函数；而 P_i 与 (P_{-i}) 独立，所以 w_i^LOO 只依赖 (P_{-i}) 且与 P_i 独立）。证明这段约 3 页，包括 Fubini 与 inf 的积分交换。

关键飞跃点：引理 2（下确界时的权重函数单调性） — 若权重函数对 p 值是非递增的（p 越小→权重越大），则 inf_{p} w_{-i}(p) = lim_{p→0+} w_{-i}(p)；这大大简化了 w_i^LOO 的计算。作者证明了大多数自然的权重选择（如“p 值上百分位数的倒数”、“1 / (min(rank, r))”）满足此单调性。如果权重函数是“学习”出的（如 Bayes 后验权重），单调性未必成立；作者明确指出这类情况需要更复杂的 inf 计算（§4 讨论）。

技术技巧： - 下确界技巧（核心，用于屏蔽 P_i 信息）：这是本文的方法论标志。它是 leave-one-out 交叉验证极端化的变体——不是留一个点再估计，而是考虑该点在最不利（最强化自身信号）时的行为，再取其极值（inf）作为权重。这在计量经济学/机器学习中“撕标签”类技巧（unlabeling, permutation-based masking）有先例，但在多重检验权重中首次使用。 - 归纳法的对称性论证：在证明 FDR ≤ α 时，作者利用 w_i^LOO 与 P_i 的独立将原有的 FDR 表达式拆解为对条件期望后对称化求和，然后套用经典 BH 的引理。 - 条件分布技巧（用于部分信息法）：以 pair (S_i, T_i) 的形式构造权重，并利用 P_i | S_i 的条件均匀性来证明控制，本质上是充分性/ ancillarity 原理的应用。

真实例子与应用¶

本文的实证部分（§5）包含 模拟研究（无真实数据集），对比了四种方法： - 基线：无权重 BH (Unweighted BH) - 交叉加权（Cross-weighted, Ignatiadis & Huber 2021） - 提出的留一法（LOO） - 提出的部分信息法（PI），ca 80% 模拟参数重复 1000 次。

模拟设定： - m = 500, 零比例 π0 ∈ {0.5, 0.7, 0.9}，信号效应强度（Cohen's d）从 0 到 3。p 值来自两样本 t 检验。 - 权重构造：利用训练集和验证集，在 PI 方法中 S_i 为“独立或弱依赖的协变量”（具体用了一个其他 p 值的随机分半作为“协变量”，近似于交叉验证的一个变体）。

结果： - 所有方法在各设定下 FDR 都被约束在 α=0.1 以内（贴合定理）。 - 功效对比： - 当 π0 较高（0.7-0.9）且效应较弱时（Cohen's d=0-1.5），交叉加权的 FNR 比 LOO 高 5-10 个百分点（「防止过拟合的更激进屏蔽走向了另一极端——低估了信号」）。 - 当 π0 低（0.5）且效应强时，LOO 显著优于交叉加权（多数参数下功效提升 15-25%）。 - PI 方法介于两者之间，且需要 S_i 构造的先决条件（在模拟中作者采用了 Fisher's exact 的替代检验的似然分解以构造 S_i）。

该模拟想说明什么：证明 LOO 和 PI 在功效上普遍不劣于交叉加权，且在多数场景具有显著优势——验证了作者关于“交叉加权因信息丢弃而功率损失”的 claim。然而，没有真实数据例子检验了在实际问题（如遗传学、神经科学）的适用性；这或许是一个可改进的方向。

🔎 结论是否比证明窄¶

定理 1 和 2 的 FDR 控制结论适用于整个 τ ∈ [0,1] 范围，并提供了“FDR ≤ α”的紧上界。但需注意，证明仅依赖 p 值的独立性（Assumption 1）。作者在摘要与结论（§6）中明确写了“under independence”，未过分泛化。
未证明的内容：作者在 §6 的讨论中提到：“Extensions to dependent p-values remain open, except for the special case of block dependence where the block structure can be used to define S_i in the PI method.” 对一般依赖结构，留一法与部分信息法的 FDR 控制尚未证明。
未被实验验证的 claim：模拟只显示了功效上的优势，但实际数据中的效应方向/信号尺度分布更复杂；作者未对比真实基因组学或神经成像数据集的加权 BH 性能——这在方法论文中常见，但若想断言“在实践中更好”需更多证据。
权重函数计算假设：inf 取到有限值且计算的假设在论文 §4 中依赖权重函数非递增的约束。若权重函数更复杂（如非单调随机森林预测），下确界计算可能变得不可行或需近似，作者未给出解决方案。因此实际应用中很可能限于简单的“单调权重”函数类。

四、开放问题（点到为止）¶

扩展至依赖 p 值（§6 明确提及）。在 block dependence 或 weak dependence（如三角模式）下，留一法还能通过下确界保持独立性吗？能否利用自举条件重排（bootstrap resampling）或更高阶的桥分解来保留有限样本控制？——扎根 §6：“Extensions to dependent p-values remain open.”
部分信息方法的更广泛构造。目前仅对 Fisher's exact test 等特定设有合理分解；能否对一般统计检验构造通用的“部分信息分解”（例如利用充分统计量与辅助统计量的独立性）？——扎根 §3.2 中作者对 PI 方法的定义依赖于 P_i = f(S_i, T_i) 的特殊结构。
权重函数更一般的 inf 计算。作者仅讨论了权重函数非递增时下确界等价于 p→0+ 极限的便捷情形；若权重函数来自更复杂的机器学习算法，inf 的解析计算不可行，需要近似或蒙特卡洛技巧，其有限样本 FDR 保证是否还能维持？——扎根 §4 对权重函数的单调性假设。
高维稀疏场景下的实用性与适配。当 m 极大（如 10^5 以上），且信号极度稀疏（π0 > 0.99 或更低）时，留一法的下确界是否会导致几乎所有权重都趋于极小值（从而无不亚于无权重 BH）？是否有自适应 τ 或其他方式缓解这种“屏蔽过强”？——扎根 §5 模拟中，随着 π0 上升，LOO 相对于交叉加权的优势缩小（π0=0.9 时仅微弱领先），暗示在高零比例边界上需要改进。

提醒：第一条（依赖 p 值）在多篇近期多重检验论文中都被列为开放问题；读约 5 篇该子领域的近期工作（如 Ignatiadis & Huber 2021 的讨论、Gerhard 等 2022 的 brain imaging section）可确认这是共识性的 gap，不是一家之言。

Maintained by 陈星宇 · Homepage · Source on GitHub