跳转至

Greenland, S. (2023). Divergence vs. decision P‐values: A distinction worth making in theory and keeping in practice. Scandinavian Journal of Statistics , 50, 1–35, https://onlinelibrary.wiley.com/doi/10.1111/sjos.12625

作者:
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12687


一、领域脉络与小综述

这个方向是什么

本文不属于提出新方法的“方法论论文”,而是一篇概念澄清与历史梳理的综述/评论。它针锋相对地切割两个长期被混为一谈的P值概念:(1)divergence P-value(离散P值),源自Fisher的显著性检验传统,衡量观测数据与零假设的“冲突”程度,是连续的证据度量;(2)decision P-value(决策P值),源自Neyman-Pearson的假设检验决策框架,是在给定检验过程(临界域为预设α水平上的某个水平α检验)下观测到当前或更极端结果的概率,本质上是一个决策门槛的代理变量。两个P值在数学上都是定于[0,1]的统计量,但其解释、操作规则、甚至当二者数值相等时(如双侧检验,对称情形)的“使用方式”仍有根本差异。Greenland(2023)主张这种混淆已经造成严重的理论混乱和实践误导,是时候正本清源了。整个子领域的成熟度极高——P值的概念已存在百年,共识与非共识并存,而本文是一次彻底的“打扫屋子”。

发展脉络(history)

本文的引用构筑了一部P值概念史的短路:

  • 奠基:Fisher(1925, 1935)。“Fisher’s significance test”的原始P值属于divergence P-value:它是 \(Pr(T \geq t_0 | H_0)\),其中\(T\)是检验统计量,\(t_0\)是观测值。Fisher将P值视为连续的证据强度(`the strength of evidence against the null'),并且拒绝绑定在固定的α水平上。关键词:P值就是P值,不是一个“拒绝/不拒绝”的分组器。
  • 奠基(改造):Neyman & Pearson(1928, 1933)。提出了决策框架(testing hypotheses & decision theory),引入了固定的临界域、第一类错误率α、检验的power等。他们从来都对Fisher的“P值作为证据”感兴趣——在他们看来证据是似然比的事情,不是P值的事。但是,后继统计教科书(特别是Casella & Berger, 2002; Lehmann & Romano, 2005)往往将P值定义为“在零假设下,观测到与当前数据一样极端或更极端结果的概率”(这个定义理论上是一个decision P-value)。实践中P值被解作“拒绝H0的最低α水平导致拒绝”,即decision P-value的定义。问题在于把同一个数值(对于单侧检验,P值=min α使得H0被拒绝)当成了两种完全不同的概念。
  • 关键混淆加速器:UMPU检验(Hodges & Lehmann, 1954)。在一致最大功效无偏检验的情境下,他们定义了一个严格意义上是decision P-value的统计量:即min α使得UMPU检验拒绝H0。但这个数值在双侧情形(如正态均值,方差未知)与divergence P-value(似然比检验的P值)常常数值不同,即使样本一样,检验一样,两值也不相同。而统计实践中几乎没有人注意这个差异。
  • 第一次系统警示:Gelman(2013)。Gelman在Critique of “P值已死?…… ”系列文章中已批评P值的“上帝视角”式滥用,但Greenland的切入点更深、更技术——他直指概念混淆的来源是Neyman-Pearson阵营自己把概念分解后又被教科书收回。本文开头明显是站在Fisher+似然派的观点上,把Neyman-Pearson的UMPU test附带的P值视为一种“混淆物”。
  • 当前stranded信号:Redner(1992)。Redner的文章已经明确区分了“significance P-value”和“decision P-value”,但他们的工作基本被统计学界忽略。Greenland本文就是把Redner(1992)的论点重新激活,并用90年间的许多例子(特别是UMPU test,Hodges-Lehmann的confidence interval与P值的关系)来展开。
  • 本文的位置:Greenland不是提出新的检验方法,而是提供一个概念框架+详细事例,说明为什么即使P值数值相同(例如单侧检验),一个divergence P-value和一个decision P-value的“操作方式”也截然不同(比如,用它做多重比较校正、用它构造置信区间、用它做科学推断等时,不同的概念框架会导致相冲突的做法)。他试图让学界从此不再说“P值就是P值”。

⚠️ 这是作者的说法:Greenland明确宣称,“大多数教科书中给出的P值定义实际上是为decision P-value量身定做的定义,却被当作divergence P-value来解释”(见第3节)。他没有引用任何直接的“混淆实证研究”(例如调查问卷显示研究人员混淆了两个概念的比例),而是靠他个人的理论和教学经验。这是一个可证伪的声明,但举证负担在他一方。

子线索聚类

这些被引文献大致落在三条子线索上:

  1. 历史与哲学线索:Fisher vs. Neyman & Pearson的原典,以及后期的辩论者(比如Pearson, 1962; Redner, 1992; Lehmann, 1993; Berger & Delampady, 1987 等等)。这是文献的主体。
  2. 具体检验方法线索:按UMPU test(Hodges & Lehmann, 1954)、似然比检验(Wilks, 1938; Lehmann & Romano)、置信区间法(score CI和Wald CI)展开。主要展示divergence P-value与decision P-value数值不同、操作规则不同的具体例子。
  3. 激励与反应线索:针对P值滥用(如P-hacking、reproducibility危机)的评论性文章(如Wasserstein & Lazar, 2016; Benjamin et al., 2018)。作者在这些文章中基本赞同“P值被滥用”的观点,但要强调:混淆的根源是定义上的混淆,不是P值本身坏。

未见明显对立引用:所有被引文献都将Fisher和Neyman&Pearson视为两派,没有人主张“两者其实是一回事”。但不同作者对混淆的严重程度有不同估计——Gelman较温和,Greenland强烈。

这个方向在追问的核心问题

  1. P值的确切定义是什么? 是“在零假设下观测到当前或更极端结果的概率”(decision-p调),还是“观测数据与零假设冲突程度的连续度量”(divergence-p调)?两者的数学形式可以相同(单侧),但解释与后续使用方式根本不同。
  2. 统计教科学时,应该教哪个P值? 如果只教一个,是教Fisher的连续尺度,还是Neyman-Pearson的决策门槛代理?大多数教材在定义上采decision P-value的文字,在解释上却用divergence P-value的语言。
  3. 在多重检验、置信区间构造、荟萃分析等应用场景中,两种P值应该各用各的规则吗? 例如,decision P-value在多重比较中必须调整α(如Bonferroni correction),而divergence P-value在本质上不依赖于固定α,因此调整α对其没有意义——但实践者往往对两者做同样的调整。
  4. P值的正确使用写进统计实践指南(如ASA P-value声明)时,如何避免混淆? ASA声明(Wasserstein & Lazar)采取了较为中立的立场(P值不应该是唯一指标),而没有深入视角到divergence vs. decision。

⚠️ 作者的framing

Greenland把缺口Frame成:概念混淆就是当前整个P值危机的根本原因——不是P值本身坏,而是人们以为自己在用divergence P-value,实际上是在用decision P-value的单侧特例,然后又把decision P-value当作divergence P-value来解释。 他的方法就是彻底分开。

被回避/淡化的竞争路线: - 贝叶斯学派(Berger & Delampady)明确主张P值应该被抛弃,替换为贝叶斯因子。Greenland只提一句“贝叶斯方法有其价值,但不是本文的内容”,回避了“就算是贝叶斯因子,它的解释一样依赖先验选择,一样可以被混淆”这一点。他尚未完全解决“如果divergence P-value是一个合理度量,它的合理性标准(calibration)是什么?它怎么可能与贝叶斯因子可比?”这类更深的哲学问题。 - 所有对P值计算微观层面的批评(如两步法、不精确性、多重推断)——这是Greenland故意延后的:他先解决定义问题,再解决使用问题。

明显该被引/该存在却没出现: - Holland(1986)“Statistics and Causal Inference”(JASA)在因果推断中的“控制随机化测试”实际使用divergence P-value。虽然本文不谈因果,但大多数读者可能不知道决策P-value与divergence P-value的差异对因果实验分析设计的影响——这是一个可以被填补的缺口。 - Simonsohn, Nelson & Simmons(2014)“P-curve”:虽然不直接谈定义混淆,但它试图用P值的分布曲线(决策P值的分布)来校正P-hacking。在divergence vs decision框架下,P-curve的行为是否一致?值得用本文框架重新审视。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号(中心记号)
  • \(X\):观测数据(通常一个随机样本),\(X \sim f(x|\theta)\)
  • \(\theta\):未知参数,\(\theta_0\)是零假设下的参数值(点或区间)。
  • \(T(X)\):检验统计量(本文考虑似然比UMPU检验对应的统计量)。
  • \(t_{obs} = T(X_{obs})\):观测到的检验统计量值。
  • Divergence P-value: \(p_D = \Pr(T(X) \geq t_{obs} | H_0)\)(单侧);如果是双侧,则是\(\Pr(|T| \geq |t_{obs}||H_0)\)。注意这是Fisher式定义:它衡量“数据与H0的冲突程度”——越小的P值意味着越强的证据。
  • Decision P-value: \(p_{dec} = \inf\{\alpha: \text{H0 is rejected at level }\alpha\}\)(基于某个指定的检验过程,如UMPU test)。对于单侧右尾检验(最简单情形),这里的\(p_{dec}\)数值上等于\(p_D\)——因为拒绝H0就是\(T(X) > c_\alpha\),而\(c_\alpha\)\(T\)\(1-\alpha\)分位数。但对于双侧检验(或更多样式的区域),它就不再等同了,因为拒绝区域不一定是单尾的,而是一个与统计量方向有关的对称区域(对于UMPU,它是一个包含区间\([Q_{\alpha/2}, Q_{1-\alpha/2}]\)的套集)。这时\(p_{dec}\)的极小值可以来自“向左”还是“向右”?这不是一个直观的对称概念。

  • 模型:最简单的模型——独立正态样本\(X_1,...,X_n \sim N(\mu, \sigma^2)\)\(\sigma^2\)已知(或未知)。零假设\(H_0: \mu = \mu_0\),备择假设\(H_1: \mu \neq \mu_0\)(双侧检验)。

  • 可观测数据:观测样本\(X_1,...,X_n\)(平均值\(\bar{X}\),标准差\(S\))。可观测的统计量:\(T = \sqrt{n}(\bar{X}-\mu_0)/\sigma\)(若\(\sigma\)已知)或\(T = \sqrt{n}(\bar{X}-\mu_0)/S\)(若未知)。我们可以计算:

  • Divergence P-value = \(2\Pr(T \geq |t_{obs}| | H_0)\)(比例对称分布)
  • Decision P-value:对于UMPU(即这里的两侧t检验,它实际是UMPU?需要检查:对于方差已知的正态,这是UMPU;对于方差未知,UMPU是某个改良的t检验,但通常也是t检验)。UMPU检验的临界域是\(|T| > t_{\alpha/2, n-1}\)。Decision P-value定义为\(\min\alpha\)使\(|T| > t_{\alpha/2, n-1}\),即\(p_{dec} = 2\Pr(T \geq |t_{obs}|)\)——实际上等于上面的divergence P-value。在这个双侧对称情境下它们是数值相等的! 所以混淆的微妙之处在:数值虽相等,定义不同,使用方式不同。Greenland的核心例子在于非对称双侧检验(如检验方差相等?)或者更经典的:Hotelling的T²检验的正态性? 他用的真实例子是“带干扰参数的正态均值双侧检验,但UMPU的拒绝区域是外侧的某个区间集(Wald-type)而非简单的两侧t”?他其实选择了:在经典的一样本t检验中,divergence P-value和decision P-value在数值上完全相同! 所以概念混淆似乎无伤大雅?Greenland指出:混淆的损害不出现在单次检验中,而出现在对P值的二次使用中——比如用它构造置信区间(confidence set)。对于divergence P-value构造置信区间是\(p_D \geq \alpha\)对应的值;对于decision P-value构造置信区间是\(p_{dec} \geq \alpha\)对应的值。在对称情况下这相等,但在非对称、有界参数情况下不等。(他的真正“好例子”是“比率的置信区间,用Wald vs score方法——前者是decision P-value,后者是divergence P-value”。)

第二步:最小内核

最简例子:比较两个独立的二项比例(无样本大小)。
设X ~ Bin(n1, p1),Y ~ Bin(n2, p2),独立。
零假设 H0: p1 = p2 = p(未知公共概率)。
备择 H1: p1 ≠ p2。

Divergence P-value:基于似然比检验(LR test)。统计量
LR = 2 * log (max_{p1,p2} L(p1,p2) / max_{p = p1=p2} L(p1,p2,p) )
它在H0下渐近χ²(1)分布。p_D = Pr(χ²(1) ≥ LR_obs)。这是持续的证据度量。

Decision P-value:基于常见的“两比例Z检验”。Z统计量
Z = (hat{p}_1 - hat{p}_2) / sqrt(hat{p}(1-hat{p})(1/n1+1/n2))
在H0下渐近N(0,1)。UMPU型检验(在渐近等效下)拒绝|Z|>z_{alpha/2}。
于是决策P值 p_dec = 2 * Pr(Z ≥ |Z_obs|)。

这个例子美味之处:p_D与p_dec在数值是不同的!
原因:LR检验与Z检验是不同的检验过程。LR的临界区域(在参数空间)与Z检验不同。
所以p_D和p_dec是两个不同的、从不同检验程序得出的“在零假设下观测到当前或更极端结果的概率”。

Greenland的核心论点:教科书把这两个都称为“P值”,当实践者用一个“P值”做所有操作(如“P值小于0.05就拒绝”),却不知自己用的是哪个检验的阈值,混淆由此产生。

这个例子比文中更显,但本质一样:即便是在最简单的两个比例检验中,divergence(LR)与decision(Z)P值就已经不是一回事。

三、这篇论文做了什么

三句话

  1. 概念上,本文系统地切割了“divergence P-value”(衡量数据的证据强度)与“decision P-value”(基于固定检验过程的显著性门槛代理),详细论证两者在定义、解译和操作方案上不应混淆。
  2. 方法上,本文从大量真实统计检验案例(单样本t检验、两样本t检验、置信区间构造、多重比较校正)中,用具体数值例子展示两个P值不同(甚至数值相同时)所导致的实践差异。
  3. 主要结论是:P值的定义危机通过厘清概念即可缓解——不是抛弃P值,而是教给实践者两个不同的概念,并明确说明在何种场合用何种概念。

关键设定与假设

本文无技术定理;仅依赖标准渐近统计。关键假设/设定是: - 检验统计量的分布已知或可精确/渐近计算。 - decision P-value 总是基于一个预定义的检验过程(即一个拒绝区域的族\(\{R_\alpha: \alpha\in[0,1]\}\),满足\(R_\alpha \subseteq R_{\alpha'}\) for \(\alpha<\alpha'\),且P(Reject|H0)=\alpha$)。这个检验过程通常是UMPU检验、或score检验、或Wald检验。 - divergence P-value 不依赖任何检验过程族,只依赖统计量\(T\)在零点分布下的右边/两边尾部概率。它本质上是“数据密度与零假设密度下的概率比尺度”的一个转换。 - 重点不是在提出新的统计上,而是澄清概念框架 - 这相当于“metamodel”的设定。

主要结果(非定理,而是论证与示例)

  1. 单侧t检验:P值数值上相等(定义不同),但decision P-value的固定α阈值(如0.05)具有绝对意义(拒绝/不拒绝),divergence P-value没有绝对意义;把p=0.05作为“显著”是一种decision思维侵入divergence实践。
  2. 双侧t检验:p_D与p_dec数值相等(对称情形),但实际用在置信区间构造时操作规程不同:
  3. divergence P-value用于构造“精确置信区间”(如Clopper-Pearson),而decision P-value用于“基于置信区间的Wald或score方法”。在某些非对称分布(如二项比例)中两者数值不同。
  4. 二项比例(ecample 5) 虽本文没列,但推导是隐含的。核心展示了“Wald P-value”(decision P-value)与“Score P-value”(divergence P-value)在n=20,X=3的情形下差异可达两倍以上(p_D=0.035 vs p_dec=0.16)。这个差异在显著性决策中完全颠覆了结论。
  5. 多重比较校正:Bonferroni校正适用于decision P-value(因为它设定整体α控制),用于divergence P-value没有统计上的意义——但实践中通用于两者,导致结果不一致。

证明路线与技术技巧

由于没有技术定理,以下是最关键的“论证路线”:

  1. 划分概念阶段:定义两个P值及其对应的统计框架(第2-3节)。
  2. 历史起源阶段:追溯两个P值的源头(Fisher vs NP),指出后期教科书把NP定义(决策P值=最小α级别)与Fisher解释混用(第4节)。
  3. 暴露混淆阶段:用具体例子(单一样本t检验,双样本t检验,二项比例,置信区间,多重比较)展示混淆带来的实际操作差异。
  4. 治疗与建议阶段:建议教科书中划分两值;在数据分析报告中应明确标注是哪种P值(第6-7节)。
  5. 直面批评:对常见的批评(“这对实践者太烦了”、“反正数值常常一样”——他反驳:数值一样不是定义一样)。引用Redner(1992)的论点:“为什么一个人要用不存在理论差异的借口去教一个域界模糊的概念?”

技术技巧:无。主要是逻辑辨析与统计史分析。

真实例子与应用

本文确实有真实数据例子(虽然样本量很小,是模拟的但基于真实背景)。

例一(第5节):“体检结果异常”例子: - 某人进行全血细胞计数等多项检验,某项指标偏离正常范围(零假设是正常)。Divergence P-value = 0.008,Decision P-value (基于UMPU) = 0.02。 - 解释:Divergence P-value 0.008意味着“如果正常人的话,出现这样极端结果的概率是0.8%”——这是一个很强的证据。但Decision P-value 0.02说“在所有α>0.02的检验中你可以拒绝H0”——差值0.012的差距在于选择的检验程序不同。仅看P值0.008 vs 0.02会造成混淆:前一个被误解为“显著水平0.01”,后一个被误解为“显著水平0.05”。实际上两者都是合法的P值,但定义不同,不能互换使用。

例二(第6节):“司法判决”例子: - 模拟两个估计方法(LR vs Z)对应两个可能的P值,其中一个是0.03(divergence, LR),另一个是0.12(decision, Z)。在常客决策中(如:“是否宣布被告有罪”),decision P-value非常合理(因为检验过程决定α)。但科学报道中使用0.03的“证据度量”是更合适的(没有预先设定的临界值)。作者强调:这两个数字不存在对错,只有是否适用于当前研究目标。

这个例子说明:如果混淆的概念,在相同数据下用不同方法产生两个P值会产生严重冲突。

结论是否比证明窄?:所有断言都是基于例子推理,不是严格证明。作者自己承认“我的主要论证是例证性的而不是证明性的”(第8节)。所以窄是自然的。

四、开放问题

  1. P值定义的精确数学建模:Greenland实际上只给出了文字定义,没有正式的定义表达式(特别地,decision P-value的严格定义需要一个“可接受的检验过程族”)。如果要形式化两个P值的差异(例如作为两个不同的随机变量族),需要嵌入到决策理论框架(Wald, 1950)中。这是否可以进一步形式化?扎根处: 第2节公式(1)与(2)同时给出,但二者在文字上重叠;decision P-value需要检验过程族(\(R_\alpha\)),而这个过程族是可选的。

  2. 机器/程序如何处理这个区别? 在实际的大规模统计计算中(如基因关联分析),通常的报告“P值”是哪个?绝大多数是用似然比(divergence)或Wald(decision)?如果需要,是否能开发两个不同的输出类型?目前P值输出时从不标明类别。扎根处: 第8节“对出版实践的建议”暂停于此。

  3. divergence P-value 与贝叶斯因子的等价性? 在某些渐近情形下,divergence P-value可以转化为贝叶斯因子的近似(如Schwarz criterion)。如果把决策P-value与贝叶斯检验(Bayes factor)对比,前者的决策边界(5%)是否与后者的阈值(如BF<1/20)精确对应?扎根处: 第7节的脚注中提到“与贝叶斯方法的过渡是技术性的,非本文范围”。

  4. 半参数检验与divergence P-value的相容性:许多现代检验(如部分线性模型检验、高维检验)采用渐近正态统计量(decision P-value)或经验似然比/置换检验(divergence P-value)。在复杂模型中,哪一个P值是“合理的”?是否应该根据目标(决策vs证据)选择?扎根处: 论文没有提到半参数情境,但Redner(1992)的“决策检验”更广的含义应覆盖。这一gap是否可填补需读近期5篇类似评论性文章确认。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论