跳转至

Divergence versus decisionP‐values: A distinction worth making in theory and keeping in practice: Or, how divergenceP‐values measure evidence even when decisionP‐values do not

作者: Sander Greenland
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: University of California, Los Angeles(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.12625


一、领域脉络与小综述

这个方向是什么

本文关注的是统计推断中最基础、也最容易被混淆的概念:P值。它严格区分了P值的两种截然不同的定义——分歧P值(divergence P-value)决策P值(decision P-value)。这个子方向要解决的根本问题是:当研究者报告P值时,他们到底在报告什么?是在报告数据与零假设的不相容程度(evidence),还是在报告一个用来触发二值决策(显著性/不显著)的规则?这两种操作虽然都叫“P值”,但其数学定义、逻辑基础、使用场景和有效性条件完全不同。该方向当前成熟度较高,属于基础性概念澄清,缺乏新方法或新定理,但对理解统计实践的乱象至关重要。

发展脉络

Greenland 的论文是明确区分两种P值定义、并给出分类框架的立足之作。基于此,以下是你可以自己定位该论文的脉络:

  1. 奠基工作:P值的原始定义 (Fisher) 与 Neyman-Pearson 决策框架
  2. Fisher (1920s-1950s) 将P值定义为:在零假设为真的条件下,观测统计量(如卡方统计量)与期望之间出现更大偏离的概率。这本质上是一个分歧P值——无量纲的相容性指标。
  3. Neyman & Pearson (1928-1933) 提出了假设检验的另一种框架,将P值定义为单位区间上的随机变量,其实现值(realization)与预先选定的阈值α进行比较,以构造具有已知错误率(第一类错误、第二类错误)的决策规则。这是决策P值的起源。

  4. 主要进展:两种定义的交织与混淆

  5. 在大量教科书中,这两种P值被不加区分地称为“P值”,并且被默认:决策P值总是等于/对应于某个分歧P值。这使得“P值小于0.05”既被当作“证据强度”(分歧解读),又被当作“决策规则触发”(决策解读)。
  6. 随后的文献中有零星工作指出这种混淆,但并没有给出系统性的定义分类,也未从数学上证明决策P值可能违反单一样本相干性准则。

  7. 本文的核心贡献:形式化区分与相干性论证

  8. Greenland (本文) 系统性地提出了两个严格定义,并用一个简单的例子(连续分布下的单样本检验)证明了:决策P值可能违反直观的相干性准则,而分歧P值不会。这构成了该子方向的一个明确的“当前frontier”。

  9. 子线索聚类

  10. 被引文献大致可分为两条子线索:
    • 线索A:分歧P值的定义与应用(如基于检验统计量的显著性检验)。这一簇关注的是“证据度量”(evidence measure),注重统计量的分布位置。
    • 线索B:决策P值的定义与应用(如Neyman-Pearson型检验)。这一簇关注的是“决策规则”(decision rule),注重错误率控制和阈值比较。
    • 本文的主要工作就是清晰划分这两条线索,并指出它们在逻辑上的独立性。

这个方向在追问的核心问题

  • 问题1:P值作为证据度量的有效性:分歧P值在多大程度上、多好地“量化了证据”?它能否具有“概率解释”(即在重复实验下P值分布的均匀性)?
  • 问题2:决策P值的相干性:在一个给定样本上,决策P值能否违反直观的逻辑连贯性(例如,拒绝一个假设却同时接受一个更严格的假设)?如果会,那它的使用场景是什么?
  • 问题3:统一框架:能否在某个统一的数学框架下(如fiducial或 evidential)同时容纳这两种P值,从而消除当前的混淆?
  • 主流方法与已知瓶颈:主流方法是“将检验统计量映射到参考分布”,但这个映射过程本身没有区分“证据”还是“决策”。瓶颈在于:许多教科书和软件输出都默认两种解读等价,导致研究者不自觉地在两种语境间跳跃。

⚠️ 作者的 framing

  • 作者自己说:“decison P-values can violate intuitive single-sample coherence criteria where divergence P-values do not.” 他将这个缺口 frame 成:决策P值在单一样本逻辑上失效,因此当分析目标是“总结证据”而不是“实施决策规则”时,分歧P值是更合适的选择

  • 什么明显是该被引/该存在、却没出现在intro里? (根据可获取的摘要)

  • 许多关于“P值滥用”的广泛讨论(如 Bayesian significance tests, minimum Bayes factors, evidence lower bounds)未被引。这些讨论直接质疑分歧P值作为证据度量的逻辑有效性(例如,边缘分布是数据相关或先验敏感的),而不仅仅是其与决策P值的区分。
  • Runge-Kutta 效应Lindley’s paradox(Lindley, 1957)等经典悖论也未提及,这些悖论直接表明:在贝叶斯框架下,P值(无论哪种)与后验概率之间根本不一致,这使得分歧P值作为“证据”的地位更加模糊。

  • 张力

  • 未见明显对立引用。论文本身是概念澄清,而非在方法论上与某个既有流派正面对抗。可以认为,其论点属于“区分并倡导一种解读”的类型,而非“推翻旧框架”。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

在全文框架下,我们用最小设定——一个连续分布下的单样本检验——来建立记号:

  • 符号
  • \( X \): 观测数据(可随机变量或向量)。
  • \( H_0 \): 一个完全指定的零假设模型,即一个概率分布(如 \( X \sim N(0,1) \))。
  • \( t(X) \): 一个检验统计量(如 \( X^2 \)\( |X| \)),它测量了 \( X \)\( H_0 \) 下期望之间的偏离程度(即“分歧程度”)。
  • 参考分布:在 \( H_0 \) 下,\( t(X) \) 的(已知)分布。

  • 模型

  • 数据生成机制:我们假设数据 \( X \) 来自某个未知分布。但我们正在检验一个特定的 \( H_0 \) 模型。
  • 估计:我们只使用 \( t(X) \) 及其在 \( H_0 \) 下的分布。
  • 已知/要估的对象:\( H_0 \) 是完全指定的(如均值为0,方差为1的高斯分布),因此参考分布是完全已知的。

  • 可观测数据:实际观测值 x_obs 和据此计算的统计量值 t_obs = t(x_obs)

  • 潜在 / 不可观测:对于分歧P值,我们永远无法“观测”到参考分布中超过 t_obs 的所有可能的统计量值——它们来自 \( H_0 \) 下的无穷次重复采样。我们只能通过理论分布或MC模拟来近似计算这个概率。对于决策P值,我们同样需要参考分布来定义其在单位区间上的分布。

第二步:讲最小内核——一维高斯均值检验的两个P值

最简特例: 设 \( X \sim N(\mu, 1) \),检验 \( H_0: \mu = 0 \) vs. 备择 \( H_1: \mu \neq 0 \)

  1. 分歧P值 (divergence P-value, \( p_d \))
  2. 选择检验统计量 \( t(X) = X^2 \)(这是一个卡方(1 df)统计量)。更典型的是 \( t(X) = X \) 的绝对值?但为了对称,直接用卡方。
  3. 观测到 x_obs 后,计算 t_obs = x_obs^2
  4. \( p_d = P_{H_0}(X^2 \ge x_obs^2) \)。这直接是一个尾部概率:在 \( H_0 \) 下,观测到与 x_obs 相等或更极端的统计量值的概率。它是一个无量纲的相容性指标,洛在 [0,1] 区间上。
  5. 例子:若 x_obs = 1.96,则 t_obs = 3.84\( p_d = P(\chi^2_1 \ge 3.84) \approx 0.05 \)。这个值告诉我们:在零假设下,出现这么极端偏离的概率是5%。

  6. 决策P值 (decision P-value, \( p_{\text{dec}} \))

  7. 定义:\( p_{\text{dec}} = P_{H_0}(t(X) \ge t(X_{\text{obs}}) ) \)
  8. 关键:这里 \( p_{\text{dec}} \) 本身是一个随机变量,其分布依赖于未知的真实参数 \( \mu \)。在 \( H_0 \) 下,它的分布是均匀的 \( U(0,1) \)。然后,我们使用 \( p_{\text{dec}} \) 与一个固定的阈值α(如0.05)进行比较:如果 \( p_{\text{dec}} \le \alpha \),则拒绝 \( H_0 \);否则,不拒绝。
  9. 相干性准则:一个常见的直观准则是:如果用一个更严格(更小)的α(如0.01)去检验,应该比用一个更宽松的α(如0.05)更不容易拒绝。这似乎总是成立,因为 \( p_{\text{dec}} \le 0.01 \) 意味着 \( p_{\text{dec}} \le 0.05 \)

然而,Greenland的关键观察是:在决策P值的定义下,这个准则是数学上保证的,但当我们试图把它与“分歧”概念混同时,会出问题。他给出一个例子(虽然不是这个高斯例子,但思想一致):决策P值的操作(固守一个阈值)可以导致反直觉的“相干性”失范,而分歧P值的连续、排序性(值越小,证据越强)则自然避免了这个问题。分歧P值的操作是:数值直接映射到尾部面积,数值越小,分歧程度越大。

在这个最简例子中,整个核心是: - 分歧P值:\( p_d \)基于统计量的一个具体函数,反映了数据与模型的不相容程度(相对程度)。它的所有实现值都在[0,1]内,形成自然排序,直接对应“证据强度”(虽不是概率)。 - 决策P值:\( p_{\text{dec}} \)实现与分歧P值的实现完全相同(因为 \( p_d = p_{\text{dec}} = P_{H_0}(X^2 \ge x_obs^2) \))。所以在这个简单例子里,二者完全重合,没有矛盾。 - Greenland的论文是更深入地指出:这种重合不是必然的。在其他假设检验(如复合假设、有界参数检验下)或非对称分布下,构造决策P值的公式不再简单地对应于分歧P值的尾部概率,导致决策P值可能违背“单一样本相干性”。

三、这篇论文做了什么

  • 三句话
  • 研究了P值的两种截然不同的定义——分歧P值(基于检验统计量的尾部概率)和决策P值(基于单位区间随机变量与阈值的比较)。
  • 核心工具是严格的数学定义与一个简单的反例论证,指出决策P值可能违反单一样本相干性准则,而分歧P值则不会。
  • 主要结论是:这两种P值应被仔细区分,当分析目标是总结证据而非实施决策规则时,分歧P值是更合适的选择。

  • 关键设定与假设

  • 设定:给定一个完全指定的零假设 \( H_0 \)(数据生成机制),一个统计量 \( t(X) \),以及其参考分布。
  • 假设:

    • 完全指定零假设\( H_0 \) 必须是一个完全指定的模型(如 \( \mu=0 \)\( N(0,1) \)),而不是一个复合假设(如 \( \mu \le 0 \))。这是两种P值定义的基础——如果模型不完整,则不知道参考分布是什么,也就无法计算P值。(在复合假设下,决策P值需要更复杂的构造,如 supremum P-value,但分歧P值的逻辑基础也会动摇。)
    • 单一样本:论证聚焦于一个样本,而不是重复抽样下的长期错误率。这使论证更具逻辑紧迫性。
    • 相比已有文献:本文没有引入新的概率模型或统计量,而是对已有概念进行精确分类。
  • 主要结果(理论型,核心可论证无定理):

  • 核心结论1(断言):决策P值(当被定义为“与阈值比较以做出二元决策的随机变量”时)可能违反直观的单一样本相干性准则。例如,如果拒绝一个假设(基于较宽松的α),但无法拒绝一个更严格的假设(基于较严格的α)?这似乎是不可能的,但如果决策规则依赖于某个特定备择假设(如单边 vs 双边),且P值的定义是基于这个备择的,那么当使用不同α时,规则会指向不同的语境,从而产生矛盾:同一个样本,对于一个方向(α=0.05)拒绝,对另一个方向(α=0.01)却不拒绝。而分歧P值,作为连续数值,总可以排序,完全避免了此类矛盾。
  • 核心结论2(断言):分歧P值提供了一个单个样本内的和谐排序:值越小,数据越多与模型的“分歧”越大。它不依赖于任何备择假设,因此逻辑上更自洽。
  • 证明路线:论文的核心不是定理证明,而是用精心构建的例子(如一个正态均值的单边/双边检验)来演示决策P值的悖论,并用符号逻辑清晰标注:分歧P值满足的相干性,决策P值可能不满足。
  • 技术技巧:主要是反例构建逻辑(相干性)分析。没有用到复杂的统计或概率论工具(如无 empirical process, chaining 等)。关键技巧是严格区分“随机变量”和“实现值”,以及“条件概率”和“无条件决策错误率”。

  • 真实例子与应用

  • 本文为纯理论/无实证例子。它不分析真实数据集,而是依赖于精心构建的理想化数值例子去演示逻辑悖论。

  • 🔎 结论是否比证明窄

  • 论文的结论是断言性的,即“决策P值可能违反单一样本相干性”,这在论文给出的例子中被严格证明。但论文没有声称“所有决策P值都违反”或“决策P值永远不应该被使用”。作者明确将使用场景限定为“当分析目标是总结证据而非实施决策规则时”。
  • 论文没有讨论在广泛实践中的影响——即多数情况下,研究者使用的P值(如卡方检验、t检验)实际上同时满足两种定义,因此这种区分可能只影响一小部分特殊检验(如某些复合假设下的单边检验)。这种可能性被论文淡化或回避了。

四、开放问题

  1. 差异的实际影响有多大?(扎根于:论文指出“决策P值可能违反”)。需要量化:在所有常见的统计检验(t检验、F检验、卡方检验)中,有多少比例的场景会导致决策P值与分歧P值实质上不等价?如果等价是常态,那么这种区分更多是哲学上的,而非实践上的。
  2. 如何为“证据”构建一个更普适的度量?(扎根于:论文推崇分歧P值作为“相容性指标”)。但分歧P值本身并不能直接解释为“有证据支持备择假设的概率”(它是条件概率,但不是后验概率)。是否存在一个更好的度量(如 Bayes factor, minimum P-value, evidence function)来替代分歧P值,在保持其“连续且有局部意义”的同时,具备更好的概率或似然解释?
  3. 决策P值在“有界参数”或“用药量”等假设空间存在自然序的复杂情形下如何表现?(扎根于:论文讨论的相干性准则依赖于“更严格/更宽松”的比较)。在参数空间存在非平凡结构(如多参数、有约束)时,“更严格的假设”本身概念化就比较模糊,这为决策P值和分歧P值的区分提供了新的应用场景。
  4. 在非参数环境下的推广(扎根于:论文的例子是基于完全指定参数的参数模型)。对于非参数假设检验(如Kolmogorov-Smirnov test),“分歧”概念和“决策”规则是否可以基于同样的逻辑进行区分?非参数统计中(尤其在高维或数据驱动分位数下)的分歧P值是否也具有类似的连贯性?

Maintained by 陈星宇 · Homepage · Source on GitHub

评论