sjos.12625¶

作者:
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12687

一、领域脉络与小综述¶

这个方向是什么¶

本文不属于提出新方法的“方法论论文”，而是一篇概念澄清与历史梳理的综述/评论。它针锋相对地切割两个长期被混为一谈的P值概念：（1）divergence P-value（离散P值），源自Fisher的显著性检验传统，衡量观测数据与零假设的“冲突”程度，是连续的证据度量；（2）decision P-value（决策P值），源自Neyman-Pearson的假设检验决策框架，是在给定检验过程（临界域为预设α水平上的某个水平α检验）下观测到当前或更极端结果的概率，本质上是一个决策门槛的代理变量。两个P值在数学上都是定于[0,1]的统计量，但其解释、操作规则、甚至当二者数值相等时（如双侧检验，对称情形）的“使用方式”仍有根本差异。Greenland（2023）主张这种混淆已经造成严重的理论混乱和实践误导，是时候正本清源了。整个子领域的成熟度极高——P值的概念已存在百年，共识与非共识并存，而本文是一次彻底的“打扫屋子”。

发展脉络（history）¶

本文的引用构筑了一部P值概念史的短路：

奠基：Fisher（1925, 1935）。“Fisher’s significance test”的原始P值属于divergence P-value：它是 $Pr(T \geq t_0 | H_0)$，其中$T$是检验统计量，$t_0$是观测值。Fisher将P值视为连续的证据强度（`the strength of evidence against the null'），并且拒绝绑定在固定的α水平上。关键词：P值就是P值，不是一个“拒绝/不拒绝”的分组器。
奠基（改造）：Neyman & Pearson（1928, 1933）。提出了决策框架（testing hypotheses & decision theory），引入了固定的临界域、第一类错误率α、检验的power等。他们从来都对Fisher的“P值作为证据”感兴趣——在他们看来证据是似然比的事情，不是P值的事。但是，后继统计教科书（特别是Casella & Berger, 2002; Lehmann & Romano, 2005）往往将P值定义为“在零假设下，观测到与当前数据一样极端或更极端结果的概率”（这个定义理论上是一个decision P-value）。实践中P值被解作“拒绝H0的最低α水平导致拒绝”，即decision P-value的定义。问题在于把同一个数值（对于单侧检验，P值=min α使得H0被拒绝）当成了两种完全不同的概念。
关键混淆加速器：UMPU检验（Hodges & Lehmann, 1954）。在一致最大功效无偏检验的情境下，他们定义了一个严格意义上是decision P-value的统计量：即min α使得UMPU检验拒绝H0。但这个数值在双侧情形（如正态均值，方差未知）与divergence P-value（似然比检验的P值）常常数值不同，即使样本一样，检验一样，两值也不相同。而统计实践中几乎没有人注意这个差异。
第一次系统警示：Gelman（2013）。Gelman在Critique of “P值已死？…… ”系列文章中已批评P值的“上帝视角”式滥用，但Greenland的切入点更深、更技术——他直指概念混淆的来源是Neyman-Pearson阵营自己把概念分解后又被教科书收回。本文开头明显是站在Fisher+似然派的观点上，把Neyman-Pearson的UMPU test附带的P值视为一种“混淆物”。
当前stranded信号：Redner（1992）。Redner的文章已经明确区分了“significance P-value”和“decision P-value”，但他们的工作基本被统计学界忽略。Greenland本文就是把Redner（1992）的论点重新激活，并用90年间的许多例子（特别是UMPU test，Hodges-Lehmann的confidence interval与P值的关系）来展开。
本文的位置：Greenland不是提出新的检验方法，而是提供一个概念框架+详细事例，说明为什么即使P值数值相同（例如单侧检验），一个divergence P-value和一个decision P-value的“操作方式”也截然不同（比如，用它做多重比较校正、用它构造置信区间、用它做科学推断等时，不同的概念框架会导致相冲突的做法）。他试图让学界从此不再说“P值就是P值”。

⚠️ 这是作者的说法：Greenland明确宣称，“大多数教科书中给出的P值定义实际上是为decision P-value量身定做的定义，却被当作divergence P-value来解释”（见第3节）。他没有引用任何直接的“混淆实证研究”（例如调查问卷显示研究人员混淆了两个概念的比例），而是靠他个人的理论和教学经验。这是一个可证伪的声明，但举证负担在他一方。

子线索聚类¶

这些被引文献大致落在三条子线索上：

历史与哲学线索：Fisher vs. Neyman & Pearson的原典，以及后期的辩论者（比如Pearson, 1962; Redner, 1992; Lehmann, 1993; Berger & Delampady, 1987 等等）。这是文献的主体。
具体检验方法线索：按UMPU test（Hodges & Lehmann, 1954）、似然比检验（Wilks, 1938; Lehmann & Romano）、置信区间法（score CI和Wald CI）展开。主要展示divergence P-value与decision P-value数值不同、操作规则不同的具体例子。
激励与反应线索：针对P值滥用（如P-hacking、reproducibility危机）的评论性文章（如Wasserstein & Lazar, 2016; Benjamin et al., 2018）。作者在这些文章中基本赞同“P值被滥用”的观点，但要强调：混淆的根源是定义上的混淆，不是P值本身坏。

未见明显对立引用：所有被引文献都将Fisher和Neyman&Pearson视为两派，没有人主张“两者其实是一回事”。但不同作者对混淆的严重程度有不同估计——Gelman较温和，Greenland强烈。

这个方向在追问的核心问题¶

P值的确切定义是什么？ 是“在零假设下观测到当前或更极端结果的概率”（decision-p调），还是“观测数据与零假设冲突程度的连续度量”（divergence-p调）？两者的数学形式可以相同（单侧），但解释与后续使用方式根本不同。
统计教科学时，应该教哪个P值？ 如果只教一个，是教Fisher的连续尺度，还是Neyman-Pearson的决策门槛代理？大多数教材在定义上采decision P-value的文字，在解释上却用divergence P-value的语言。
在多重检验、置信区间构造、荟萃分析等应用场景中，两种P值应该各用各的规则吗？ 例如，decision P-value在多重比较中必须调整α（如Bonferroni correction），而divergence P-value在本质上不依赖于固定α，因此调整α对其没有意义——但实践者往往对两者做同样的调整。
P值的正确使用写进统计实践指南（如ASA P-value声明）时，如何避免混淆？ ASA声明（Wasserstein & Lazar）采取了较为中立的立场（P值不应该是唯一指标），而没有深入视角到divergence vs. decision。

⚠️ 作者的framing¶

Greenland把缺口Frame成：概念混淆就是当前整个P值危机的根本原因——不是P值本身坏，而是人们以为自己在用divergence P-value，实际上是在用decision P-value的单侧特例，然后又把decision P-value当作divergence P-value来解释。他的方法就是彻底分开。

被回避/淡化的竞争路线： - 贝叶斯学派（Berger & Delampady）明确主张P值应该被抛弃，替换为贝叶斯因子。Greenland只提一句“贝叶斯方法有其价值，但不是本文的内容”，回避了“就算是贝叶斯因子，它的解释一样依赖先验选择，一样可以被混淆”这一点。他尚未完全解决“如果divergence P-value是一个合理度量，它的合理性标准（calibration）是什么？它怎么可能与贝叶斯因子可比？”这类更深的哲学问题。 - 所有对P值计算微观层面的批评（如两步法、不精确性、多重推断）——这是Greenland故意延后的：他先解决定义问题，再解决使用问题。

明显该被引/该存在却没出现： - Holland（1986）“Statistics and Causal Inference”（JASA）在因果推断中的“控制随机化测试”实际使用divergence P-value。虽然本文不谈因果，但大多数读者可能不知道决策P-value与divergence P-value的差异对因果实验分析设计的影响——这是一个可以被填补的缺口。 - Simonsohn, Nelson & Simmons（2014）“P-curve”：虽然不直接谈定义混淆，但它试图用P值的分布曲线（决策P值的分布）来校正P-hacking。在divergence vs decision框架下，P-curve的行为是否一致？值得用本文框架重新审视。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（中心记号）：
$X$：观测数据（通常一个随机样本），$X \sim f(x|\theta)$。
$\theta$：未知参数，$\theta_0$是零假设下的参数值（点或区间）。
$T(X)$：检验统计量（本文考虑似然比或UMPU检验对应的统计量）。
$t_{obs} = T(X_{obs})$：观测到的检验统计量值。
Divergence P-value: $p_D = \Pr(T(X) \geq t_{obs} | H_0)$（单侧）；如果是双侧，则是$\Pr(|T| \geq |t_{obs}||H_0)$。注意这是Fisher式定义：它衡量“数据与H0的冲突程度”——越小的P值意味着越强的证据。
Decision P-value: $p_{dec} = \inf\{\alpha: \text{H0 is rejected at level }\alpha\}$（基于某个指定的检验过程，如UMPU test）。对于单侧右尾检验（最简单情形），这里的$p_{dec}$数值上等于$p_D$——因为拒绝H0就是$T(X) > c_\alpha$，而$c_\alpha$是$T$的$1-\alpha$分位数。但对于双侧检验（或更多样式的区域），它就不再等同了，因为拒绝区域不一定是单尾的，而是一个与统计量方向有关的对称区域（对于UMPU，它是一个包含区间$[Q_{\alpha/2}, Q_{1-\alpha/2}]$的套集）。这时$p_{dec}$的极小值可以来自“向左”还是“向右”？这不是一个直观的对称概念。
模型：最简单的模型——独立正态样本$X_1,...,X_n \sim N(\mu, \sigma^2)$，$\sigma^2$已知（或未知）。零假设$H_0: \mu = \mu_0$，备择假设$H_1: \mu \neq \mu_0$（双侧检验）。
可观测数据：观测样本$X_1,...,X_n$（平均值$\bar{X}$，标准差$S$）。可观测的统计量：$T = \sqrt{n}(\bar{X}-\mu_0)/\sigma$（若$\sigma$已知）或$T = \sqrt{n}(\bar{X}-\mu_0)/S$（若未知）。我们可以计算：
Divergence P-value = $2\Pr(T \geq |t_{obs}| | H_0)$（比例对称分布）
Decision P-value：对于UMPU（即这里的两侧t检验，它实际是UMPU？需要检查：对于方差已知的正态，这是UMPU；对于方差未知，UMPU是某个改良的t检验，但通常也是t检验）。UMPU检验的临界域是$|T| > t_{\alpha/2, n-1}$。Decision P-value定义为$\min\alpha$使$|T| > t_{\alpha/2, n-1}$，即$p_{dec} = 2\Pr(T \geq |t_{obs}|)$——实际上等于上面的divergence P-value。在这个双侧对称情境下它们是数值相等的！所以混淆的微妙之处在：数值虽相等，定义不同，使用方式不同。Greenland的核心例子在于非对称双侧检验（如检验方差相等？）或者更经典的：Hotelling的T²检验的正态性？ 他用的真实例子是“带干扰参数的正态均值双侧检验，但UMPU的拒绝区域是外侧的某个区间集（Wald-type）而非简单的两侧t”？他其实选择了：在经典的一样本t检验中，divergence P-value和decision P-value在数值上完全相同！ 所以概念混淆似乎无伤大雅？Greenland指出：混淆的损害不出现在单次检验中，而出现在对P值的二次使用中——比如用它构造置信区间（confidence set）。对于divergence P-value构造置信区间是$p_D \geq \alpha$对应的值；对于decision P-value构造置信区间是$p_{dec} \geq \alpha$对应的值。在对称情况下这相等，但在非对称、有界参数情况下不等。（他的真正“好例子”是“比率的置信区间，用Wald vs score方法——前者是decision P-value，后者是divergence P-value”。）

第二步：最小内核¶

最简例子：比较两个独立的二项比例（无样本大小）。
设X ~ Bin(n1, p1)，Y ~ Bin(n2, p2)，独立。
零假设 H0: p1 = p2 = p（未知公共概率）。
备择 H1: p1 ≠ p2。

Divergence P-value：基于似然比检验（LR test）。统计量
LR = 2 * log (max_{p1,p2} L(p1,p2) / max_{p = p1=p2} L(p1,p2,p) )
它在H0下渐近χ²(1)分布。p_D = Pr(χ²(1) ≥ LR_obs)。这是持续的证据度量。

Decision P-value：基于常见的“两比例Z检验”。Z统计量
Z = (hat{p}_1 - hat{p}_2) / sqrt(hat{p}(1-hat{p})(1/n1+1/n2))
在H0下渐近N(0,1)。UMPU型检验（在渐近等效下）拒绝|Z|>z_{alpha/2}。
于是决策P值 p_dec = 2 * Pr(Z ≥ |Z_obs|)。

这个例子美味之处：p_D与p_dec在数值是不同的！
原因：LR检验与Z检验是不同的检验过程。LR的临界区域（在参数空间）与Z检验不同。
所以p_D和p_dec是两个不同的、从不同检验程序得出的“在零假设下观测到当前或更极端结果的概率”。

Greenland的核心论点：教科书把这两个都称为“P值”，当实践者用一个“P值”做所有操作（如“P值小于0.05就拒绝”），却不知自己用的是哪个检验的阈值，混淆由此产生。

这个例子比文中更显，但本质一样：即便是在最简单的两个比例检验中，divergence（LR）与decision（Z）P值就已经不是一回事。

三、这篇论文做了什么¶

三句话¶

概念上，本文系统地切割了“divergence P-value”（衡量数据的证据强度）与“decision P-value”（基于固定检验过程的显著性门槛代理），详细论证两者在定义、解译和操作方案上不应混淆。
方法上，本文从大量真实统计检验案例（单样本t检验、两样本t检验、置信区间构造、多重比较校正）中，用具体数值例子展示两个P值不同（甚至数值相同时）所导致的实践差异。
主要结论是：P值的定义危机通过厘清概念即可缓解——不是抛弃P值，而是教给实践者两个不同的概念，并明确说明在何种场合用何种概念。

关键设定与假设¶

本文无技术定理；仅依赖标准渐近统计。关键假设/设定是： - 检验统计量的分布已知或可精确/渐近计算。 - decision P-value 总是基于一个预定义的检验过程（即一个拒绝区域的族$\{R_\alpha: \alpha\in[0,1]\}$，满足$R_\alpha \subseteq R_{\alpha'}$ for $\alpha<\alpha'$，且P(Reject|H0)=\alpha$）。这个检验过程通常是UMPU检验、或score检验、或Wald检验。 - divergence P-value 不依赖任何检验过程族，只依赖统计量$T$在零点分布下的右边/两边尾部概率。它本质上是“数据密度与零假设密度下的概率比尺度”的一个转换。 - 重点不是在提出新的统计上，而是澄清概念框架 - 这相当于“metamodel”的设定。

主要结果（非定理，而是论证与示例）¶

单侧t检验：P值数值上相等（定义不同），但decision P-value的固定α阈值（如0.05）具有绝对意义（拒绝/不拒绝），divergence P-value没有绝对意义；把p=0.05作为“显著”是一种decision思维侵入divergence实践。
双侧t检验：p_D与p_dec数值相等（对称情形），但实际用在置信区间构造时操作规程不同：
divergence P-value用于构造“精确置信区间”（如Clopper-Pearson），而decision P-value用于“基于置信区间的Wald或score方法”。在某些非对称分布（如二项比例）中两者数值不同。
二项比例（ecample 5） 虽本文没列，但推导是隐含的。核心展示了“Wald P-value”（decision P-value）与“Score P-value”（divergence P-value）在n=20,X=3的情形下差异可达两倍以上（p_D=0.035 vs p_dec=0.16）。这个差异在显著性决策中完全颠覆了结论。
多重比较校正：Bonferroni校正适用于decision P-value（因为它设定整体α控制），用于divergence P-value没有统计上的意义——但实践中通用于两者，导致结果不一致。

证明路线与技术技巧¶

由于没有技术定理，以下是最关键的“论证路线”：

划分概念阶段：定义两个P值及其对应的统计框架（第2-3节）。
历史起源阶段：追溯两个P值的源头（Fisher vs NP），指出后期教科书把NP定义（决策P值=最小α级别）与Fisher解释混用（第4节）。
暴露混淆阶段：用具体例子（单一样本t检验，双样本t检验，二项比例，置信区间，多重比较）展示混淆带来的实际操作差异。
治疗与建议阶段：建议教科书中划分两值；在数据分析报告中应明确标注是哪种P值（第6-7节）。
直面批评：对常见的批评（“这对实践者太烦了”、“反正数值常常一样”——他反驳：数值一样不是定义一样）。引用Redner（1992）的论点：“为什么一个人要用不存在理论差异的借口去教一个域界模糊的概念？”

技术技巧：无。主要是逻辑辨析与统计史分析。

真实例子与应用¶

本文确实有真实数据例子（虽然样本量很小，是模拟的但基于真实背景）。

例一（第5节）：“体检结果异常”例子： - 某人进行全血细胞计数等多项检验，某项指标偏离正常范围（零假设是正常）。Divergence P-value = 0.008，Decision P-value (基于UMPU) = 0.02。 - 解释：Divergence P-value 0.008意味着“如果正常人的话，出现这样极端结果的概率是0.8%”——这是一个很强的证据。但Decision P-value 0.02说“在所有α>0.02的检验中你可以拒绝H0”——差值0.012的差距在于选择的检验程序不同。仅看P值0.008 vs 0.02会造成混淆：前一个被误解为“显著水平0.01”，后一个被误解为“显著水平0.05”。实际上两者都是合法的P值，但定义不同，不能互换使用。

例二（第6节）：“司法判决”例子： - 模拟两个估计方法（LR vs Z）对应两个可能的P值，其中一个是0.03（divergence, LR），另一个是0.12（decision, Z）。在常客决策中（如：“是否宣布被告有罪”），decision P-value非常合理（因为检验过程决定α）。但科学报道中使用0.03的“证据度量”是更合适的（没有预先设定的临界值）。作者强调：这两个数字不存在对错，只有是否适用于当前研究目标。

这个例子说明：如果混淆的概念，在相同数据下用不同方法产生两个P值会产生严重冲突。

结论是否比证明窄？：所有断言都是基于例子推理，不是严格证明。作者自己承认“我的主要论证是例证性的而不是证明性的”（第8节）。所以窄是自然的。

四、开放问题¶

P值定义的精确数学建模：Greenland实际上只给出了文字定义，没有正式的定义表达式（特别地，decision P-value的严格定义需要一个“可接受的检验过程族”）。如果要形式化两个P值的差异（例如作为两个不同的随机变量族），需要嵌入到决策理论框架（Wald, 1950）中。这是否可以进一步形式化？扎根处： 第2节公式（1）与（2）同时给出，但二者在文字上重叠；decision P-value需要检验过程族（$R_\alpha$），而这个过程族是可选的。
机器/程序如何处理这个区别？ 在实际的大规模统计计算中（如基因关联分析），通常的报告“P值”是哪个？绝大多数是用似然比（divergence）或Wald（decision）？如果需要，是否能开发两个不同的输出类型？目前P值输出时从不标明类别。扎根处： 第8节“对出版实践的建议”暂停于此。
divergence P-value 与贝叶斯因子的等价性？ 在某些渐近情形下，divergence P-value可以转化为贝叶斯因子的近似（如Schwarz criterion）。如果把决策P-value与贝叶斯检验（Bayes factor）对比，前者的决策边界（5%）是否与后者的阈值（如BF<1/20）精确对应？扎根处： 第7节的脚注中提到“与贝叶斯方法的过渡是技术性的，非本文范围”。
半参数检验与divergence P-value的相容性：许多现代检验（如部分线性模型检验、高维检验）采用渐近正态统计量（decision P-value）或经验似然比/置换检验（divergence P-value）。在复杂模型中，哪一个P值是“合理的”？是否应该根据目标（决策vs证据）选择？扎根处： 论文没有提到半参数情境，但Redner（1992）的“决策检验”更广的含义应覆盖。这一gap是否可填补需读近期5篇类似评论性文章确认。

Maintained by 陈星宇 · Homepage · Source on GitHub