τ-censored weighted Benjamini–Hochberg procedures under independence¶
作者: Haibing Zhao, Huijuan Zhou
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1093/biomet/asad047
一、领域脉络与小综述¶
这个方向是什么¶
本子方向是多重假设检验中的错误发现率(FDR)控制,特别关注如何利用辅助信息(如协变量、先前实验结果、外部知识)通过加权 p 值来提升检验功效,且要求在有限样本下严格控制 FDR(而非仅渐近保证)。核心矛盾在于:权重如果从数据中学得(data-driven),就引入了 p 值与权重的依赖,使得经典 BH 程序的独立性与交换性假设被破坏,有限样本 FDR 控制变得困难。当前成熟度:方法丰富但有限样本保证的研讨仍在发展,大多数加权 BH 变体仅给出渐近控制。
发展脉络(history)¶
- 奠基工作 I:Benjamini & Hochberg (1995) 的 BH 程序。原始 BH 在独立 p 值下保证了 FDR 的有限样本控制(
m0/m * α),但不涉及权重。 - 奠基工作 II:Storey (2002) 的自适应 BH。引入零比例
π0的估计π̂0,并证明在弱条件下可提升功效;但π̂0的引入破坏了 BH 的交换性,证明需依赖渐近弱收敛或 bootstrap;有限样本控制不成立(除非借助额外调整如π̂0的上界截断)。 - 主要进展 I:Habiger (2017) 与 Roeder & Wasserman (2009) 提出的加权 BH。Habiger 系统地将权重引入 BH(weighted BH:
P_i / w_i排序),并指出若权重是数据的函数,控制 FDR 需要额外条件(如权重与对应 p 值的独立性)。Roeder & Wasserman 在基因关联研究中利用外部信息构造权重,但控制是渐近的。 - 主要进展 II:Ignatiadis & Huber (2021) 的 τ-censored 加权 BH + 交叉加权。该文提出了一个精巧的框架:先对 p 值做截断(τ-censoring),再用交叉加权(cross-weighting)构造数据驱动权重,使得在独立零假设下有限样本 FDR ≤ α 成立(而非渐近)。具体而言,他们将数据随机分成 K 折,对第 i 个 p 值,权重由排除该折的其余数据学习;这隔断了 p 值与自身权重的直接依赖。但作者在 §1 中指出:交叉加权仅对折内 p 值“平衡”权重(即每折内权重和等于 K),而较多 p 值信息(包括该折内低 p 值的信号)被完全丢弃,可能引致功效损失。具体地,“Cross-weighting does not exploit the p-value information inside the fold and only balances the weights within each fold, which may result in a loss of power”——这是本文的直接动机。
- 当前 frontier 与本文位置:Zhao & Zhou (本文) 在 Ignatiadis & Huber 的 τ-censored 框架内,提出两种新的权重构造模式——留一法(leave-one-out, LOO) 与 部分信息法(partial information),基本思路是不再预先划分折叠,而是对各 p 值“屏蔽”自身信息在其权重中的影响,从而允许更充分地利用其余 p 值的信息。这是首次将“下确界屏蔽”技巧 (infimum over p-value) 用于多重检验权重构造的有有限样本控制。
子线索聚类¶
被引文献大致落在三条子线路上:
1. 经典 BH与自适应BH(Benjamini & Hochberg 1995, Storey 2002, Benjamini et al. 2006):焦点放在改进 BH 对零比例与特定拒绝集合结构的适应性,但均不涉及权重或仅渐近控制。
2. 数据驱动权重构造(Habiger 2017, Roeder & Wasserman 2009, Ignatiadis & Huber 2021, 本文):直接处理从 p 值自身学习权重时的过拟合问题,以有限样本控制为目标。Ignatiadis & Huber 的交叉加权提供第一个有限样本保证的权重方案;本文提出两种替代方案。
3. 零比例(π0)估计(Storey 2002, Schweder & Spjøtvoll 1982, Jin & Cai 2007, Langaas et al. 2005):通常作为嵌入 BH 的“后处理”步骤以提升功效,但会破坏有限样本控制;本文提出的两种新零比例估计方法(π̂0^LOO 和 π̂0^PI)与权重构造一体化,保留了有限样本 bound。
核心追问与瓶颈¶
- 核心问题 1:如何在有限样本下构造数据驱动的权重,使得 FDR ≤ α 成立?
- 核心问题 2:如何设计权重构造机制,以避免因过拟合(p 值与权重直接相关)导致的 FDR 膨胀?
- 核心问题 3:在控制 FDR 的同时,如何最大化功效(即最小化 FNR 或最大化平均检出数)?
- 瓶颈:已有方法要么放弃有限样本控制(归为渐近),要么(如交叉加权)为保控制而舍弃部分信息,导致功效受损。本文的贡献在于提供两种新屏蔽技巧,理论上允许保留更多信息的同时保持控制。
⚠️ 作者的 framing¶
作者将缺口 frame 为:交叉加权因“折内信息完全丢弃”和“折内权重平衡”而损失功效,本文的方法通过留一法与部分信息法保留更多信息,从而可能获得更高功效。作者在引言(§1)明确写道:“Cross-weighting does not exploit the p-value information inside the fold and only balances the weights within each fold, which may result in a loss of power.” 然后随即列出本文的两个新方案。
- 被淡化或回避的竞争路线:作者只讨论 Newton et al. (2004) 与 Sun & Cai (2007) 的 Bayes/empirical-Bayes 加权方法(这些需要知道先验且仅渐近保证),将其归为“asymptotic”后不再深入。此外,纯基于“外部独立信息”的加权(如协变量已知且与 p 值独立)在这里被连带讨论为 baseline,但那不是本文要解决的核心——因为权重已知时 BH 的有限样本控制是现成的(只需重新定义 p 值为
P_i / w_i)。 - 明显该被引 / 该存在却未出现在 intro 的文献:未见明显缺失。但值得提醒研究者去查:若本文方法应用到依赖 p 值(例如 block dependence 或 weak dependence)时,保留有限样本控制的尝试——论文只处理独立情形,而对依赖结构延伸的处理需要更复杂的工具(如高阶桥分解、重排不等式),这或许是未入 intro 但重要的扩展方向。
张力¶
未见明显对立引用。所有提及的工作基本都同意“数据驱动权重 + 有限样本控制”的困难,分歧仅在于如何绕开困难(交叉加权 vs. 留一法 vs. 部分信息法)。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- 符号:
m:总假设数。H_0i(i=1,...,m):第 i 个零假设。有m0个真零假设(null),m1 = m - m0个假零(alternative)。P_i:原始 p 值(H_0i下的检验统计量的观测值)。在零假设下,P_i ~ Uniform(0,1);alternative 下P_i倾向于取小值。若全零假设下,(P_1,...,P_m) i.i.d. Uniform(0,1)。可观测数据:研究者看到的恰是这一组(P_1,...,P_m)。w_i:给 p 值P_i施加的权重(非负,且通常∑_i w_i = m或归一化)。可观测?若权重由额外外部信息构造且事先固定,则已知;若由 p 值自身学习得到,则是潜在估计量ŵ_i,依赖于整个数据集。τ ∈ [0,1]:τ-censoring 参数。加权 p 值P_i / w_i会被截断:若P_i ≥ τ w_i,则记P_i^τ = 1(视为“不显著”),否则保留原值。q:FDR 目标水平(α)。R:拒绝集(rejection set),即被 BH 程序宣布显著的假设个数。FDP = #{i∈R, H_0i真} / max(R,1),FDR = E[FDP]。- 模型/数据生成机制:
- 假设:p 值独立(这是全文核心假设,作者在 §2 开头写明:"Assumption 1: The p-values are independent, and the null p-values follow Uniform(0,1).")。对 alternative p 值无特殊分布假设,仅需在给定权重下其条件分布是良定的。
(P_1, ..., P_m)可看作来自一个混合分布:P_i ~ (1-π_i) Uniform(0,1) + π_i F_i^{alt},其中π_i = 1若第 i 个是 alternative,否则 0。因独立性假设无此结构要求。- 可观测 vs. 不可观测:
- 可观测:
m个 p 值(P_1,...,P_m)、目标 α、τ。 - 不可观测:哪些是真零(null)哪些是 false(不已知);各
π_i;替代分布F_i^{alt}。理论上,FDR 只能通过上界控制。
第二步:最小内核¶
最小特例:m = 2,τ = 1(即无截断),且目标 α = 0.1。假设只有一个真零(H_01 真,P_1 ~ Uniform(0,1))和一个假零(H_02 真,P_2 期望很小,比如约 0.01)。经典 BH 会同时考虑两个 p 值:升序排序,若 P_(1) ≤ α/2 * 1, P_(2) ≤ 2α/2 * 1,则拒绝二者。本例中,若 P_2 很小,则很可能拒绝 H_02;若 P_1 不特别小(比如 0.6),则 BH 会拒绝 H_02 但保留 H_01。
现在尝试用数据驱动权重来提升功效:我们希望给假零(H_02)高权重(如 w_2 = 1.5),给真零(H_01)低权重(如 w_1 = 0.5)。问题:权重必须从数据学习。我们只知道 (P_1, P_2),不能直接知道谁真谁假。
交叉加权法(Ignatiadis & Huber):将数据分为 K=2 折。假设第一折只有 H_01(P_1),第二折只有 H_02(P_2)。对第一折的 P_1,它的权重由第二折(P_2)学习;对第二折的 P_2,权重由第一折(P_1)学习。例如,从 P_2 极小可推出它是 alternative,所以给第一折分配低权重 w_1 = 0.5;但从 P_1 较大(0.6)难以推断,或许给第二折 分配平衡权重使每折和等于 2,即 w_2 = 1.5。交叉加权勉强可行,但效果依赖于分折和权重平衡。
留一法核心思想(本文新方法 1):不预先分折,而是对每个假设 i,只用除 P_i 外的所有 p 值来学习 w_i。但这样一来,w_i 对 P_i 极可能包含若 P_i 很小则 ŵ_i 会变大的依赖,导致FDR膨胀。作者的关键技巧:对每个假设 i,不是直接用“排除 P_i 其余 m-1 个 p 值”的函数值作为权重,而是计算一个下确界:w_i^LOO = inf_{p ∈ [0,1]} w_{-i}(p),其中 w_{-i}(p) 是把 P_i 替换为自由变量 p 时权重函数的值。这个下确界确保了:无论 P_i 取什么值(尤其是 if P_i 很小时),权重都不会因为 P_i 的特定取值而变大。这样,w_i^LOO 与 P_i 相互独立(因为取了下确界——“屏蔽”了 P_i 的影响),从而 P_i / w_i^LOO 在零假设下仍是均匀的(除截断 τ 外),保证了 FDR控制。
在 m=2 例子中:给 H_01 构造权重时,只用 H_02 的 P_2;权重函数 w_{-1}(p) = 某种权重算法(如根据 p 值小的程度给高权重)应用到 (p, P_2) 这个假数据集上。若算法会把小 p 值对应的假设判为 alternative 并给予高权重,则当 p 很大时(比如 p=0.6),该假设得到的权重低;当 p 极小时(如 p=0.0001),该假设得到高权重。w_1^LOO 是取这个函数在 p∈[0,1] 上的下确界:即把 p 调到使得 H_01 被算法判为最显著的取值(对应 p 最小时得到的最高权重)。这个最低权重永远是 0 或一个很小值(取决于算法),所以 w_1^LOO 被压低;同理,H_02 的 w_2^LOO 取决于 H_01 的 P_1(大)与权重函数,也可能被压低。核心结果:占小便宜(P_i 小导致权重大)的关系被切断,FDR 可控;但功效也可能受损,因为权重普遍偏小。作者的下一个方法(部分信息法)试图在“屏蔽”与“保留信号”之间找到更好的平衡。
三、这篇论文做了什么¶
三句话¶
- 问题:在独立零假设与有限样本下,为 τ-censored 加权 BH 程序构造数据驱动权重,以控制 FDR ≤ α(目标水平),同时尽可能保留功效(不比交叉加权差)。
- 方法:设计了两种权重构造模式——留一法(LOO)部分信息法(PI),其核心思路是通过“下确界屏蔽”(LOO)或“仅使用无需屏蔽的部分信息”(PI)来切断 p 值自身对其权重的 biased 影响,从而保持加权 p 值在零假设下仍满足(经截断后的)均匀性或随机占优性质。
- 结论:在独立性假设下,两种方法均能保证有限样本 FDR ≤ α(定理 1~3),且在模拟中(§5)相比交叉加权有更低的 FNR 或更高的平均拒绝数,尤其当信号稀疏或效应较大时。文中还给出了两种零比例
π0的估计方案并融入权重中,进一步提升了功效。
关键设定与假设(在第二节最小记号基础上补全)¶
- 假设(全文):Assumption 1(独立性) —
P_1,...,P_m相互独立,且真零 p 值服从 Uniform(0,1)。这是所有 FDR 定理的基石。作者在 §2.1 及定理陈述中明确写明。 - 设定 I:τ-censored weighted BH 程序。定义变换后的 p 值为
P_i^τ = min(P_i / w_i, 1)如果P_i < τ w_i,否则P_i^τ = 1。排序P_(1)^τ ≤ ... ≤ P_(m)^τ,拒绝第 k 个最大的满足P_(k)^τ ≤ (k/m)α的假设。即原始 BH 在加权截断 p 值上的标准应用。τ 越大(如 1)则越允许小的P_i / w_i通过;τ 越小(如 0.5)则更保守。 - 设定 II:权重构造函数类。对每个 i,权重
w_i^LOO或w_i^PI由其他 p 值(全部或部分)计算得来,且必须满足:对任意 i,w_i与P_i独立(LOO 通过下确界实现;PI 通过仅使用“部分信息”实现)。 - 放宽或强化对比:相比 Ignatiadis & Huber (2021):
- 强化:本文的 LOO 和 PI 方法不要求事先分折或平衡折内权重;而交叉加权需要折内权重和为常数。
- 放宽:交叉加权要求 K≥2 折,且每折大小相同;本文可在全数据集上运行。
- 放宽:PI 方法允许保留一些 p 值自身的“部分信息”(如对大数据集中的零假设类型依赖最弱的一个量),遇到更细的分类不成立?对 PI 的严格假设是 “The p-value can be partitioned into several components, each component is independent, and one component is used for weighting, the rest for testing.” 对于一般的 p 值,这种分解不一定存在。作者只对 Fisher's exact test 等特定情形给出了构造(§S1)。
- 额外假设(用于零比例估计):
π0的上界已知(如 ≤ 1),且作者设计的估计量是上界估计π̂0 ≥ π0以保证保守性(否则 FDR 可能违反控制)。
主要结果¶
定理 1(留一法 FDR 控制,§3.1):
- 陈述:设 w_i^LOO 由“排除 P_i 后计算权重函数,再取该函数对 p ∈ [0,1] 的下确界”得到。假设 Assumption 1 成立,则采用权重 w_i^LOO 的 τ-censored weighted BH 程序(τ ∈ [0,1])有限样本地满足 FDR ≤ (m0/m) α ≤ α。更具体的界:FDR ≤ α(因 m0 ≤ m,可放宽至 ≤α)。
- 直觉:下确界确保了 P_i 与 w_i^LOO 的独立性(w_i^LOO 是常数/独立于 P_i 的随机变量),于是 P_i / w_i^LOO 在真零下仍由 Uniform(0, 1/w_i^LOO) 支配,整个加权序列经 τ 截断后保持了“逐假独立”性质,原 BH 的有限样本控制证明(Benjamini & Hochberg 1995 的引理)可直接移植。
- 必要条件:w_i^LOO 在计算上的可处置性(下确界可能难以解析求,但作者在 §4 给出了可行算法)。权重下确界的计算:若权重函数是“p 值越小,权重越大”的单调形式(如 -log(p) 归一化),下确界就是极限 p→0 时的权重,即该假设的最大可能权重,容易计算。
- 技术难点:证明中花了大量篇幅说明下确界的取法与 p 值的可交换性(如引理 1 证明 w_i^LOO 与 P_i 独立,以及 (P_i, w_i^LOO) 的联合分布在零假设下与 (P_j, w_j^LOO) 可交换)。
定理 2(部分信息法 FDR 控制,§3.2):
- 陈述:若 p 值可分解为 P_i = f(S_i, T_i),其中 S_i(用于构造权重)与 T_i(用于检验)相互独立,且 S_i 与 P_i 在零假设下独立(即 P_i | S_i ~ Uniform(0,1) 或更弱地,P_i 的分布不包含 V 在 S_i 上的信息),则采用权重 w_i = g(S_i)(g 是将 S_i 映射到权重的任意函数)的加权 BH 程序可控制有限样本 FDR。作者还给出了两种具体构造方法:一种使用剩余(residual)信息,一种使用条件对数似然分解。
- 直觉:S_i 作为“纯工具变量”,不包含 T_i 的信息,因而 P_i / w_i 的条件分布仍是均匀/可控;交叉加权本质上也是这种思想的一种特例(将 S_i 定义为其他折的 p 值集合)。
- 必要条件:需要存在恰当的 S_i 分解。作者在附录 S1 对 Fisher's exact test 和线性模型在固定设计下给出了示例。若没有这种自然分解,该方法不可行。
定理 3(零比例估计与功效提升,§3.3):
- 陈述:给出两种 π0 的估计量:π̂0^LOO(基于留一法 p 值的均值)与 π̂0^PI(基于部分信息方法的类似构造),它们都在有限样本下满足 π̂0 ≥ π0(高概率或确定性上界)。将这些估计量并入权重(例如令 w̃_i = w_i / π̂0 或直接在 BH 步骤中使用 π̂0 调整),可保持 FDR ≤ α 且功效有提升。
- 直观:Storey (2002) 的自适应 BH 中,π̂0 的上界性质允许将临界值从 (k/m)α 放宽至 (k/ (m π̂0))α 而不破坏 FDR 控制。这里采用类似的宽松,但由于原权重已保证有限样本 FDR 控制,额外的 π̂0 调整在有限样本证明上需要额外对称性与独立结构。
- 难点:证明 π̂0^LOO ≥ π0 或等价的上界,需要建立 E[ 1{P_i > λ}] ≥ (1-λ)π0 的类似 inequality,并利用屏蔽技巧确保估计不受 alternative p 值的低估影响。
证明路线与技术技巧¶
整体路线(以定理 1 为例):
1. 步骤 1——正则化权重:证明 (P_i, w_i^LOO) 的联合分布在零假设下与 (P_i, w_j^LOO)(i≠j)有对称可交换性。这是因为 w_i^LOO 不依赖于 P_i(经下确界屏蔽),且所有 null p 值 i.i.d. Uniform(0,1),所以 null p 值的权重与 null p 值本身在排序中是“随机配对”的。
2. 步骤 2——转化问题:定义 Q_i = min(P_i / w_i^LOO, 1) if P_i < τ w_i^LOO 否则 Q_i = 1。证明在零假设下,Q_i 在截止 τ 以上是 i.i.d. Uniform(0, 1/w_i^LOO) 的混合,但 Q_i 的分布满足:P(Q_i ≤ t | w_i^LOO) ≤ t 对所有 t ∈ [0,1] 成立(即随机占优于 Uniform(0,1) 的左边)。
3. 步骤 3——直接沿用 BH 的引理:Benjamini & Hochberg (1995) 的引理(Lemma 1)仅要求:对于零假设,P( P_i ≤ t ) ≤ t 且 p 值独立。这里我们已有 Q_i 在零假设下满足此条件(因 P(Q_i ≤ t | w_i^LOO) ≤ t,取期望后得边际 ≤t),且有 (Q_i) 相互独立(因 P_i 独立且 w_i^LOO 不依赖于 P_i 且是其他独立变量的函数,所以独立链成立)。因此 BH 发生在 Q_i 上还是 P_i 上无区别,FDR ≤ (m0/m)α。
4. 步骤 4——引理 1 细节:证明 w_i^LOO = inf_{p} w_{m-1}(p, P_{-i}) 是独立于 P_i 的随机变量。作者使用测度论中关于可测函数的下确界与随机变量独立的性质(若 g(x,Y) 对每一个 x 可测,则 inf_x g(x,Y) 是 Y 的可测函数;而 P_i 与 (P_{-i}) 独立,所以 w_i^LOO 只依赖 (P_{-i}) 且与 P_i 独立)。证明这段约 3 页,包括 Fubini 与 inf 的积分交换。
关键飞跃点:引理 2(下确界时的权重函数单调性) — 若权重函数对 p 值是非递增的(p 越小→权重越大),则 inf_{p} w_{-i}(p) = lim_{p→0+} w_{-i}(p);这大大简化了 w_i^LOO 的计算。作者证明了大多数自然的权重选择(如“p 值上百分位数的倒数”、“1 / (min(rank, r))”)满足此单调性。如果权重函数是“学习”出的(如 Bayes 后验权重),单调性未必成立;作者明确指出这类情况需要更复杂的 inf 计算(§4 讨论)。
技术技巧:
- 下确界技巧(核心,用于屏蔽 P_i 信息):这是本文的方法论标志。它是 leave-one-out 交叉验证极端化的变体——不是留一个点再估计,而是考虑该点在最不利(最强化自身信号)时的行为,再取其极值(inf)作为权重。这在计量经济学/机器学习中“撕标签”类技巧(unlabeling, permutation-based masking)有先例,但在多重检验权重中首次使用。
- 归纳法的对称性论证:在证明 FDR ≤ α 时,作者利用 w_i^LOO 与 P_i 的独立将原有的 FDR 表达式拆解为对条件期望后对称化求和,然后套用经典 BH 的引理。
- 条件分布技巧(用于部分信息法):以 pair (S_i, T_i) 的形式构造权重,并利用 P_i | S_i 的条件均匀性来证明控制,本质上是充分性/ ancillarity 原理的应用。
真实例子与应用¶
本文的实证部分(§5)包含 模拟研究(无真实数据集),对比了四种方法: - 基线:无权重 BH (Unweighted BH) - 交叉加权(Cross-weighted, Ignatiadis & Huber 2021) - 提出的留一法(LOO) - 提出的部分信息法(PI),ca 80% 模拟参数重复 1000 次。
模拟设定:
- m = 500, 零比例 π0 ∈ {0.5, 0.7, 0.9},信号效应强度(Cohen's d)从 0 到 3。p 值来自两样本 t 检验。
- 权重构造:利用训练集和验证集,在 PI 方法中 S_i 为“独立或弱依赖的协变量”(具体用了一个其他 p 值的随机分半作为“协变量”,近似于交叉验证的一个变体)。
结果:
- 所有方法在各设定下 FDR 都被约束在 α=0.1 以内(贴合定理)。
- 功效对比:
- 当 π0 较高(0.7-0.9)且效应较弱时(Cohen's d=0-1.5),交叉加权的 FNR 比 LOO 高 5-10 个百分点(「防止过拟合的更激进屏蔽走向了另一极端——低估了信号」)。
- 当 π0 低(0.5)且效应强时,LOO 显著优于交叉加权(多数参数下功效提升 15-25%)。
- PI 方法介于两者之间,且需要 S_i 构造的先决条件(在模拟中作者采用了 Fisher's exact 的替代检验的似然分解以构造 S_i)。
该模拟想说明什么:证明 LOO 和 PI 在功效上普遍不劣于交叉加权,且在多数场景具有显著优势——验证了作者关于“交叉加权因信息丢弃而功率损失”的 claim。然而,没有真实数据例子检验了在实际问题(如遗传学、神经科学)的适用性;这或许是一个可改进的方向。
🔎 结论是否比证明窄¶
- 定理 1 和 2 的 FDR 控制结论适用于整个
τ ∈ [0,1]范围,并提供了“FDR ≤ α”的紧上界。但需注意,证明仅依赖 p 值的独立性(Assumption 1)。作者在摘要与结论(§6)中明确写了“under independence”,未过分泛化。 - 未证明的内容:作者在 §6 的讨论中提到:“Extensions to dependent p-values remain open, except for the special case of block dependence where the block structure can be used to define S_i in the PI method.” 对一般依赖结构,留一法与部分信息法的 FDR 控制尚未证明。
- 未被实验验证的 claim:模拟只显示了功效上的优势,但实际数据中的效应方向/信号尺度分布更复杂;作者未对比真实基因组学或神经成像数据集的加权 BH 性能——这在方法论文中常见,但若想断言“在实践中更好”需更多证据。
- 权重函数计算假设:
inf取到有限值且计算的假设在论文 §4 中依赖权重函数非递增的约束。若权重函数更复杂(如非单调随机森林预测),下确界计算可能变得不可行或需近似,作者未给出解决方案。因此实际应用中很可能限于简单的“单调权重”函数类。
四、开放问题(点到为止)¶
- 扩展至依赖 p 值(§6 明确提及)。在 block dependence 或 weak dependence(如三角模式)下,留一法还能通过下确界保持独立性吗?能否利用自举条件重排(bootstrap resampling)或更高阶的桥分解来保留有限样本控制?——扎根 §6:“Extensions to dependent p-values remain open.”
- 部分信息方法的更广泛构造。目前仅对 Fisher's exact test 等特定设有合理分解;能否对一般统计检验构造通用的“部分信息分解”(例如利用充分统计量与辅助统计量的独立性)?——扎根 §3.2 中作者对 PI 方法的定义依赖于
P_i = f(S_i, T_i)的特殊结构。 - 权重函数更一般的 inf 计算。作者仅讨论了权重函数非递增时下确界等价于
p→0+极限的便捷情形;若权重函数来自更复杂的机器学习算法,inf 的解析计算不可行,需要近似或蒙特卡洛技巧,其有限样本 FDR 保证是否还能维持?——扎根 §4 对权重函数的单调性假设。 - 高维稀疏场景下的实用性与适配。当
m极大(如 10^5 以上),且信号极度稀疏(π0 > 0.99或更低)时,留一法的下确界是否会导致几乎所有权重都趋于极小值(从而无不亚于无权重 BH)?是否有自适应 τ 或其他方式缓解这种“屏蔽过强”?——扎根 §5 模拟中,随着π0上升,LOO 相对于交叉加权的优势缩小(π0=0.9时仅微弱领先),暗示在高零比例边界上需要改进。
提醒:第一条(依赖 p 值)在多篇近期多重检验论文中都被列为开放问题;读约 5 篇该子领域的近期工作(如 Ignatiadis & Huber 2021 的讨论、Gerhard 等 2022 的 brain imaging section)可确认这是共识性的 gap,不是一家之言。
Maintained by 陈星宇 · Homepage · Source on GitHub