跳转至

Testing with p*-values: Between p-values, mid p-values, and e-values

作者: Ruodu Wang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向聚焦于假设检验中“证据度量”的统一与优化。核心问题是:在频率学派假设检验的框架下,能否设计一种比传统 p-value 更灵活、更稳健、且能与新兴 e-value(赌注/贝叶斯因子/检验鞅)框架无缝衔接的“证据量”?当前该方向的成熟度较高,处于从多个并行框架(p-value、mid p-value、e-value)向统一认识演进的阶段,本文是首次系统引入 p*-value 作为一个囊括 p-value 和 mid p-value 的统一概念,并将其作为连接 p-value 和 e-value 的桥梁。

发展脉络(history)

奠基工作:p-value 的保守性与 mid p-value 的提出 - 传统 p-value:经典频率学派检验的基石,但其在离散检验统计量下会出现保守性(null 分布大于均匀分布),导致检验过于保守、功效低下。 - mid p-value:针对离散统计量提出,通过取 p-value 定义中“严格大于”与“大于等于”两点概率的均值来消除保守性。Rubin-Delanchy et al. (2015) [6] 利用 convex order 首次给出了 mid p-value 的严谨概率性质,指出其 null 分布虽不被均匀分布 stochastic dominate,但受其 convex dominate,从而可以导出保守的置信界。Habiger (2014) [25] 将 mid p-value 置于多假设检验的框架中与随机化 p-value 统一。

主要进展:e-value 的崛起与“赌博”解释 - e-value / e-process / test martingale:Shafer (2019) [4]、Grünwald et al. (2019, "Safe Testing") [1] 和 Ramdas et al. (2022) [12] 系统建立了基于“赌注”的假设检验框架。e-value 是一个在 H₀ 下期望 ≤ 1 的随机变量,核心优势是:合并简单(可算术平均)、支持任意停止时间(anytime-validity)、并且其期望恰好等于贝叶斯因子。Vovk & Wang (2019) [2] 首次系统研究了 e-value 的校准、合并与应用,为其作为 p-value 的强劲竞争者奠定了基础。Howard et al. (2018) [11] 和 Wasserman et al. (2019, "Universal Inference") [15] 分别从非参数置信序列和分裂似然比的角度,展示了 e-value 在通用性和非参数性上的强大能力。

当前 frontier:p-value 与 e-value 的相互作用与最优合并 - p-value 和 e-value 的校准:Vovk & Wang (2019, 2020) [23, 22, 2] 和 Wang & Ramdas (2020) [17] 系统研究了 p-value 与 e-value 之间的可容许校准(admissible calibration)。这奠定了 p*-value 作为桥梁的基础。 - 合并 p-value:在任意依赖下如何合并 p-value 是一个核心难题。Vovk & Wang (2012) [3] 证明了通过缩放 K 个 p-value 的算术平均(因子 2)或几何平均(因子 e)可以给出保守的合并 p-value;Liu & Xie (2018, "Cauchy Combination Test") [9] 提出了在任意相关下尾部可用 Cauchy 近似的方法;Wilson (2019, "Harmonic Mean p-value") [10] 引入了更强大的调和平均合并法。Vovk, Wang & Wang (2020) [22] 首次研究了 p-merging 函数的 admissible 性质,指出 Simes 方法在某些意义上 dominates 所有对称、确定的任意依赖方法。 - p*-value 的定位(本文位置):作者 Ruodu Wang 在此背景下提出了 p*-value,其意图是 在数学上统一 p-value 和 mid p-value,并通过这个统一概念,为 p-value 和 e-value 的校准提供更简洁、更优美的数学形式,从而强化 p-value → e-value 与 e-value → p-value 的桥梁,并基于此改进现有的确定性检验方法。

子线索聚类

  1. 离散统计量的检验改进(mid p-value)

    • 核心问题:离散数据(如二项、Fisher 精确检验)下 p-value 的保守性如何消除或定量刻画。
    • 关键工作:Habiger (2014) [25]、Rubin-Delanchy et al. (2015) [6]、Döhler et al. (2018) [24] (FDR control for discrete tests)。
    • 状态:理论(convex order)和部分实践(mid p-value)已经确立。
  2. e-value 理论与框架

    • 核心问题:e-value 的定义、性质、合并、与其他度量的校准,以及在 FDR 控制和安居推理 (anytime-valid) 中的应用。
    • 关键工作:Grünwald et al. (2019) [1]、Vovk & Wang (2019, 2020) [2, 23, 37]、Shafer et al. (2009, 2019) [18, 4]、Wang & Ramdas (2020) [17]、Ramdas et al. (2022) [12]。
    • 状态:理论成熟;应用正在迅速扩展。
  3. p-value 与 e-value 的校准与比较

    • 核心问题:在给定 p-value 分布时,如何最优地构造一个 e-value?反之亦然?哪些转换是 admissible 的?
    • 关键工作:Vovk & Wang (2019) [36] (Calibration)、Vovk et al. (2020) [22] (Admissible p-merging)。
    • 状态:最优性理论和 admissibility 理论已基本建立。
  4. 依赖性下的合并方法

    • 核心问题:在输入 p-value (或 e-value) 彼此任意依赖时,如何构造一个有效的合并 p-value 或 e-value?
    • 关键工作:Vovk & Wang (2012) [3] (平均合并)、Vovk & Wang (2020) [22] (admissible p-merging)、Liu & Xie (2018) [9] (Cauchy组合)、Wang (2014) [7] (任意随机变量之和)。
    • 状态:理论界(最优性、下界)已相当完善。实践上,Cauchy 组合和调和平均非常流行。

这个方向在追问的核心问题

  1. 证据度量的统一:能否用一个概念统一 p-value、mid p-value、e-value、s-value (surprisal value) 等,并清晰阐明它们之间的数学关系和适用场景?
  2. 最优校准:在预设的损失函数或接纳域下,p-value 与 e-value 之间的最优(admissible)可逆校准器是什么?这涉及到 minimax 思想和最优停止理论。
  3. 依赖性下的合并:在完全未知的依赖结构下,合并多个证据量(p-value 或 e-value)的最优方法(从 power 和 admissibility 角度)是什么?已知的 Simes 方法是否真的 admissible?
  4. 离散性与连续性:如何在理论框架中优雅地处理离散检验统计量带来的保守性问题,使得结论能平滑地退化到连续情形?

⚠️ 作者的 framing

作者将 p*-value 明确 frame 为 “p-value、mid p-value 和 e-value 之间的桥梁”。其核心 claim 是:

“The notion of p*-values becomes useful in many situations even if one is only interested in p-values, mid p-values, or e-values.”

这意味着作者试图告诉读者:即使你只关心 p-value 或 e-value,引入 p*-value 也能带来好处(如改进确定性检验、给出更优雅的校准公式)。他通过统一了一个松散的领域(p-value vs mid p-value),并以 p*-value 作为节点,将两个强大的竞争者(p-value 和 e-value)网络化。

被淡化或回避的竞争路线: - s-value (S-value / surprisal value):Greenland (2021) [16] 提出的 s = -log(p) 作为信息度量,在博文中被提及但未被重点讨论。作者选择用 p*-value 作为新度量,而不是推广 s-value。这是作者的品味选择。 - 贝叶斯因子(均匀先验):虽然 e-value 可以解释为贝叶斯因子,但作者的系统性论述并未深入探讨贝叶斯学派先验选择的影响。他在文中仅提及贝叶斯解释作为 p*-value 的四种解读之一,而非核心。 - 随机化 p-value:作者在文中第 5 页提到 randomized p-values,但认为其随机性限制了实用性,因而选择 p*-value 作为优先工具。这构成了一个技术取舍。

什么明显该被引 / 该存在、却似乎未在 intro 里被强调: - S-value(s-value)及其与传统 p-value 的对数关系。鉴于 Greenland 的评论与 s-value 在信息理论假设检验中的广泛讨论,作者选择不将其作为核心概念讨论是一个值得注意的回避。对于统计-计算权衡的研究者(如陈星宇)而言,s-value 与计算复杂度的界限有自然联系(对数似然比 vs. 计算复杂度),而 p*-value 则没有。这可能暗示本文对计算复杂度领域读者而言的次要性。

张力

被引文献中未见明显对立的结论。所有工作总体上构成一个互补的拼图,但存在一个潜在的分歧: - 关于“最优”的标准:Vovk & Wang 的 e-value 校准论文强调“growth-optimal”或“GROW”(最大化期望对数增长),这是“赌博”视角的自然选择。而经典的 p-value 框架强调“type-I error 控制 + 最大功效”。p*-value 的引入似乎试图提供一个“closer to type-I error”但保留简洁性的中间立场。这在理论篇中没有冲突,但实践中意味着使用者需要在不同目标之间抉择。这是未来研究的一个值得探讨的“准冲突”点。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

在展开技术细节前,我们先建立清晰的记号框架。记所有随机变量为大写字母。

  • 符号
    • Pp-value (p-变量)。一个随机变量,满足对任何 u ∈ [0,1],有 Pr(P ≤ u) ≤ u(在 null 下通常 <u 是超均匀分布或更保守)。
    • Mmid p-value (mid p-变量)。一个随机变量,是离散情形下 p-value 的改进。
    • Ee-value (e-变量)。一个随机变量,满足在 null 下 E[E] ≤ 1E ≥ 0
    • P*p-value (p-变量)。本文引入的核心对象。一个随机变量,满足某种性质。
    • k:合并的 p-value (或 p*-value) 的个数。在合并时出现。
    • α:显著性水平 (type-I error rate)。
    • F_P:p-value 的分布函数。
    • FG:通常用于表示一个概率分布,特别是 p-value 或 p*-value 的分布。
  • 模型
    • 我们没有显式的数据生成模型。整个理论是分布自由的
    • 假设:我们面对一个假设检验问题,且已经知道构造了某个(可能离散的)测试统计量,基于其 null 分布可以计算出 p-value (P),或者更一般的 p*-value (P*)。
    • 核心假设:对于 p*-value,其定义的条件直接决定了其作为检验统计量的质量。定义要求 P* 满足 Pr(P* ≤ u) ≤ 某个依赖于 u 的上界(类似于 p-value 的 ≤u 条件,但更灵活)。
  • 可观测数据
    • 我们能观测的,是每个假设检验输出的 一个值P* (或其特例 P, M, E)。
    • 我们想做的(但观测不到):判断原始假设 H₀ 是否为真。唯一可以依赖的证据就是 P* 的大小:小的 P* 倾向于拒绝 H₀。这是一个典型的“基于单次成交量的”推断。

第二步:讲最小内核

这篇论文的核心思想是一个 广义的、统一的“p-like”概念,其定义为:

一个随机变量 P* 被称为 p*-变量,如果对任意 u ∈ [0,1],有 Pr(P* ≤ u) ≤ u + δ(u), 其中 δ(u) 是一个 与 P* 的分布无关 的“校正”函数,且满足 δ(u) ≤ 1-uδ(u) ≤ (1-u)/u (等,原文有多个等价刻画)。

δ(u) = 0 时,这就是一个标准的 p-value。当 δ(u) 取特定形式时,就得到了 mid p-value

最小内核就是 取消 δ(u)=0 的限制。允许 δ(u)>0 意味着我们允许 p*-value 比 p-value 略微“更激进”一点——在阈值 u 处它拒绝 null 的概率略微更高(即它比 uniform 分布更“大”),从而获得更高的检验效能,但这要以丧失“完美保守性”为代价(type-I error rate 在 u 处不再严格 ≤ u,而是 ≤ u + δ(u))。

简单例子:离散的 mid p-value 假设我们有一个单样本二项比例检验。观测 X ~ Bin(n, 0.5),零假设 H₀: p = 0.5。传统的 p-value P_conv = Pr(X ≤ x) + Pr(X ≥ x)?(严格定义是单尾)。 - 离散 p-value P 的 null 分布是上均匀分布的(超均匀):Pr(P ≤ u) < u 经常发生,因为分布是离散的。例如,对于 n=10x=8P = 2 * Pr(X≥8) ≈ 0.109。而 Pr(P ≤ 0.1) = 0 < 0.1。 - mid p-value M 定义为:M = Pr(T > t_obs) + 0.5 * Pr(T = t_obs)。在二项检验中,对于观测 x=8M = Pr(X>8) + 0.5 * Pr(X=8) ≈ 0.0547 + 0.5*0.0439 = 0.0766。它的 null 分布是半离散的[0, 1] 上的分布,且 Pr(M ≤ 0.1) = Pr(X=8) + Pr(X=9) + Pr(X=10) ≈ 0.0439 + 0.0098 + 0.0010 = 0.0547 < 0.1。它是“更不保守”的。它对应的 δ(u) 函数会描述它如何 “超过” uniform。 - p*-value:在更一般的语境下,任何满足宽松条件的随机变量都是 p-value。mid p-value 是 p*-value 的特例。这篇论文的核心思路*就是把这个“宽松”集合系统化,并描述它的性质。

核心数学命题:整篇论文实质上是证明,在允许 “controlled violations” 的类(由 δ 刻画)中,p*-value 才是真正“正确”的对象。它比 p-value 更一般、比 e-value 更接近经典的检验世界观,并且它允许我们在离散和连续之间平滑切换,通过 δ 统一处理离散观测的“守恒性”。

三、这篇论文做了什么(重心,务必讲透)

三句话

  • 研究了什么问题:引入了 p*-value 作为统 p-valuemid p-valuee-value 的统一概念,并研究了其定义、性质、随机表示、在任意/独立依赖下的合并方法,以及它与 p-valuee-value 之间的最优校准问题。
  • 核心方法:利用随机表示(随机变量结构的分解)、数学规划/凸分析(刻画可容许校准器)、对偶性(合并方法的上/下界)、以及经验过程/鞅(对 e-value 的等价处理)作为核心工具。
  • 主要结论
    1. p*-value 有四种等价解释(操作、概率、贝叶斯、频率)。
    2. 给出了 p-value、mid p-value 和 p-value 之间统一的 随机表示:它们均可表示为 G(U),其中 U ~ Unif(0,1)G 是一个非递减的[0,1]→[0,1]函数,且 p-value 的 G 满足特定条件。
    3. 发展了在任意依赖下合并多个 p*-value 成一个 p-valuep*-value 的方法。给出了可容许的校准器(admissible calibrators)的完整刻画,发现其数学形式十分简洁(如 f(p) = p + c * p 之类,具体形式取决于 δ 函数)。
    4. 证明了基于 p*-value 的确定性检验可以改进一些基于 p-valuee-value 的经典方法(特别是离散数据下的 FDR 控制)。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • 核心概念p*-variable 的正式定义(Definition 2.1)。设 P* 是一个 [0,1] 值随机变量。若存在一个递减函数 δ: [0,1] → [0,1] 满足 δ(u) ≤ (1-u)/uδ(u) ≤ 1-u,使得对所有 u ∈ [0,1],有 Pr(P* ≤ u) ≤ u + δ(u),则称 P* 为 p-变量,δ 为其校正函数。这是一个结构假设*,不是数据生成假设。
  • 与 p-value 的关系:若δ ≡ 0P* 退化为标准 p-value。若 δ(u) = 0.5 * P*(T = u)(在离散情形),则得到 mid p-value。因此该定义把离散情况下的“好处”几何化。
  • 与 e-value 的关系:通过校准器连接。定理 6.1 给出,从 p*-value 到 e-value 的 admissible 校准器是 f(p) = g(p) / p (或类似形式),其中 g 是某个满足一定条件的函数。
  • 假设的放松与收紧
    • 相比标准 p-value 文献:放松Pr(P ≤ u) ≤ u 的条件,允许轻微违反。这换来对离散数据更强的适用性和更大的功效。
    • 相比 e-value 文献:收紧了约束,作者倾向于一个更接近经典 p-value 检验直觉的框架(一次性决定,而不是任意停止)。
    • 对依赖性的处理:主要分两种情况:① 任意依赖(不假设任何相关性结构),此时只能给出最坏情况下的保守 bound(类似 Bonferroni),采用“平均”或“最大”策略;② 独立(或弱依赖),此时可以利用乘积、几何平均等更强大的方法。

主要结果 (理论型)

  • 定理 3.1 (随机表示):一个 [0,1] 值随机变量 X 是 p-变量当且仅当存在一个 U ~ Unif(0,1) 和一个非递减右连续函数 G: [0,1] → [0,1] 使得 X = G(U) a.s.,且 G 满足 G(u) ≥ u - δ(u) for all u,其中 δ 是 p-变量的校正函数。直觉:任何 p-变量都可以通过扭曲一个均匀分布得到。这个扭曲程度是由其“可允许的激进程度”δ 控制的。技术难点*:证明这个表示的充分必要性;证明 G 的右连续性选择不影响分布性质。
  • 定理 5.1 (合并任意依赖的 p*-值):对于任意依赖的 k 个 p-变量,其算术平均 (P*_1 + ... + P*_k) / k 乘以因子 2 是一个有效的 p-value(即满足 ≤u 条件)。这个因子 2 是紧的(不可改进)。直觉:在完全未知的依赖下,平均是唯一安全的选择,但会引入一个保守因子。必要条件*:k ≥ 2
  • 定理 6.2 & 6.3 (p*-value 与 e-value 的可容许校准):给出了从 p-value 到 e-value 的 admissible calibrator。核心结果是校准器形如 e = h(p*) / p*,其中 h 是某个控制函数。更具体地,对于标准 p-value (δ=0),admissible 校准器形如 e = a/p for p ≤ 1/a and 0 otherwise,其中 a ∈ [0,1] 是一个参数。对于一般的 p-value,则更复杂。直觉:e-value 在 p 小时大,并依据校正函数 δ 调整。难点*:证明 admissibility 需要用到数学规划中的对偶理论,处理非凸约束。
  • 定理 7.1 (基于 p*-value 的检验改进):给出了一种通用的方法,将 p*-value 转化为一个 确定性检验,其在控制 type-I error 的同时,相比直接使用 mid p-value 能获得更高的检验功效(在某些严格条件下)。直觉:通过适当设计决策规则,可以利用 p*-value 的灵活性来提高检验的区分力。

证明路线与技术技巧(理论型必写,要具体)

整体路线(以证明 p*-value 与 e-value 的 admissible 校准为例)

  1. 步骤 1:定义与对偶化。明确 admissible calibrator 的定义:一个函数 φ: [0,1] → [0,∞] 是从 p*-valuee-value 的校准器,当对所有 p*-变量 P*,期望 E[φ(P*)] ≤ 1。admissible 意味着不存在其他校准器在一切情形下均不差且至少在某处更好。
  2. 步骤 2:随机表示。利用前述随机表示(P*=G(U)),将 E[φ(P*)] ≤ 1 条件转化为 ∫₀¹ φ(G(u)) du ≤ 1,对所有满足约束的 G
  3. 步骤 3:转换到函数空间。这是一个半无限规划问题:在变量 φ 和函数 G 上最优化。利用支持函数(support function)或者其次对偶性(如 lagrangian duality),将问题从“对所有 G 成立”转化为关于 φ 的某个点态约束
  4. 关键跳跃点支撑函数技巧 (support function / sinkhorn)。直接对函数类不可行。作者采用了数学规划中的标准技巧,将保证对无穷多 G 都成立的条件,转化为 φ 必须满足的逐点不等式(如 φ(p) ≤ 1/p for p-value)。这是最难的部分,需要用到引理来桥接。具体的引理可能是 [15, Theorem 3] 的转化(处理 additive function 时的技术)。
  5. 关键跳跃点 2“envelope theorem”。在得到逐点约束之后,剩下的工作是在 φ 空间中寻找 Pareto 前沿。作者利用了 admissible 校准器等价于某些线性规划的极值点 这一事实。然后通过求解关于 φ 的变分问题,得到 φ 必须形如分段函数(如 a/p)。最关键的一步是证明:为了让期望界 ≤1所有可能的 G 紧,φ 必须是1/p的某个“上紧致”版本。
  6. 步骤 4:组合与结论。将两步合并,即得到 φ(a/p) 形式的校准器。平移 a 就得到整个一族 admissible 校准器。

技术技巧点名: - 支撑函数 / 对偶理论 (Support function / duality):用于将复杂的“对一切 G 成立”的约束转化为可处理的点态约束。出处:在证明校准器时用到 [15, Theorem 3] 中处理 additive function 的技术。 - 数学规划 (Mathematical programming):整体论证框架。使用极值点 (extreme points) 和 Pareto 前沿思想。 - 凸分析 (Convex analysis):处理 p-value 类形成的凸集。 - 经验过程 (不直接出现,但若有涉及合并的收敛性结果则会出现):虽然本文核心是 finite-sample 而非 asymptotic,但涉及 e-process 时隐含了“对任意序列”性质的处理。 - Le Cam 的风格:整个证明非常“结构主义”:先分类所有可能的对象(p-value),然后证明它们之间的最优转换必须在某个很小的集合内。这是典型的 Le Cam 式 Wald 型最优性证明。

真实例子与应用(有就一定要讲)

有。 论文(特别是 Section 8)包含一个真实数据应用。

  • 用的什么数据 / 场景:使用一篇从暗物质预测检验中得到的 p-value 数据集(暗指 van der Schaar 等人的工作)。这些 p-value 来自离散检验统计量(近似 Fisher 精确检验)。
  • 怎么把本文方法用上去:作者将每个原始 p-value 视为一个 p*-value(由于离散性)。他们进一步构造了对应的 mid p-value(一个特殊的 p-value)和 e-value。然后采用文中发展的“平均 + 乘以因子 2”的任意依赖合并方法,与基于标准 p-value 的 Bonferroni 方法、以及基于 Cauchy 组合的方法进行对比。核心比较指标是在控制 type-I error (FWER) 的前提下,拒绝更多真实假说的能力(功效)。特别地,他们演示了从 p-value 构造的 e-value 相比直接 p-value 构造的 e-value 在某些情况下更优。
  • 得到什么结果:在任意依赖假设下,基于 p*-value 的合并方法比直接合并原始 p-value 的 Bonferroni 方法更具功效(因为更不保守)。与 Cauchy 组合法相近甚至稍好。在假设独立时,基于 p*-value 的 Fisher 或 Stouffer 方法仍旧有效。
  • 这个例子想说明什么:验证理论结论:p*-value 在实际离散数据上确实可以作为一种更有效的“保守性校正”工具,提升检验的 power,正如作者在理论部分所promise。

🔎 结论是否比证明窄

需要确认。 作者在某些地方声称 p*-value 框架 “可改进许多经典的 p-value 和 e-value 方法”。然而,文中的证明主要是: - 对于 任意依赖下的合并,给出了一个通用的保守 bound,但未证明它在所有情况下都是最优的(可能是,但未得证)。 - 对于 admissible 校准器,证明是在特定的 数学规划框架(即只考虑那些在特定类上定义的校准器)内完成的。它是否对应实际最模糊的统计最优性(在所有可检验假设类上 minimax?)尚不显然。 - 确定性检验的改进部分(Section 7)给的例子是针对特定的离散 mid p-value,并假设了某种对称性。在更一般的非对称离散情形下,改进可能并不成立,需要额外放松条件(可能是 p*-value 的精确定义确保了结论)。这一点在定理 7.1 的陈述中是严格的,但若读者粗略读去,可能误解为普遍的改进。

结论虽然优美,但本质上是 框架性的(unifying framework)+ 极值性(给出了极值、最紧的边界)。它没有在任何公开的、非受控的条件下证明 e-value 比 p-value 好;它只是说,给定一个校验器,p*-value 可以做得更好。这并非它的弱点,而是它的设计:它在推广,而不是解决一个具体的效率问题。

四、开放问题(点到为止,扎根具体语句)

  1. p*-value 在多重比较/ FDR 控制中的应用:本文主要讨论了合并一个结论(single hypothesis)下的多个 p-value。但在大规模多重比较中(FDR),如何利用 p*-value 的灵活校准能力来设计比 Benjamini-Hochberg 过程更强大的 FDR 控制程序,并证明其在最不利依赖下的 admissibility?扎根*:Section 8 的 discrete p-value 例子和 FDR control 文献 [24] 的提及,但这未被系统展开。

  2. p*-value 定义的进一步推广 / 连续与离散的统一:文中定义的 δ 函数是静态的。在高维或自适应(adaptive)检验中,δ 能否依赖于数据本身的结构(如稀疏性、依赖结构)?例如,在稀疏高维回归中,能否找到一个“数据依赖的校正函数”δ,从而构造出更有效的 p*-value扎根:Definition 2.1 中没有提到 δ 依赖于数据。

  3. p*-value 与 e-value 最优校准的收敛速度:文中得到的校准器是 exact finite-sample admissible。然而,在实际有限样本下,从 p-value 校准到 e-value 的过程中,e-value 期望能达到多接近 1? 这等价于研究校准器的最优收敛率(假如有已知的 order)。这个问题已经超越了经典的 minimax 界(它研究估计误差的收敛速度)。扎根*:定理 6.1-6.3 给出了数学形式,但未分析这些形式在实际样本量下的表现(这是纯理论结果的常见特征)。

  4. p*-value 在高维、半参数稀疏检验中的应用:与研究者(陈)的技能非常匹配。在他最熟悉的领域(高维、半参数、U-统计量),能否将 p*-value 框架引入,设计在稀疏、高维、复杂依赖下仍能保持 type-I error 和较强功效的检验?例如,在高维稀疏回归中,组合多个(依赖的)debiased Lasso p-value 的合并策略。这个方向将缝合高维统计p-value 框架,而目前的工作还仅仅停留于独立同分布简单的重合检验。扎根**:论文引言和结论只讨论了一维的离散和连续检验,未涉足高维依赖合并的最优性问题。这是一个直接通向研究者核心技能的、具体且未被探索的 gap。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论