Divergence versus decisionP‐values: A distinction worth making in theory and keeping in practice: Or, how divergenceP‐values measure evidence even when decisionP‐values do not¶

作者: Sander Greenland
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: University of California, Los Angeles（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12625

一、领域脉络与小综述¶

这个方向是什么¶

本文关注的是统计推断中最基础、也最容易被混淆的概念：P值。它严格区分了P值的两种截然不同的定义——分歧P值（divergence P-value） 和 决策P值（decision P-value）。这个子方向要解决的根本问题是：当研究者报告P值时，他们到底在报告什么？是在报告数据与零假设的不相容程度（evidence），还是在报告一个用来触发二值决策（显著性/不显著）的规则？这两种操作虽然都叫“P值”，但其数学定义、逻辑基础、使用场景和有效性条件完全不同。该方向当前成熟度较高，属于基础性概念澄清，缺乏新方法或新定理，但对理解统计实践的乱象至关重要。

发展脉络¶

Greenland 的论文是明确区分两种P值定义、并给出分类框架的立足之作。基于此，以下是你可以自己定位该论文的脉络：

奠基工作：P值的原始定义 (Fisher) 与 Neyman-Pearson 决策框架
Fisher (1920s-1950s) 将P值定义为：在零假设为真的条件下，观测统计量（如卡方统计量）与期望之间出现更大偏离的概率。这本质上是一个分歧P值——无量纲的相容性指标。
Neyman & Pearson (1928-1933) 提出了假设检验的另一种框架，将P值定义为单位区间上的随机变量，其实现值（realization）与预先选定的阈值α进行比较，以构造具有已知错误率（第一类错误、第二类错误）的决策规则。这是决策P值的起源。
主要进展：两种定义的交织与混淆
在大量教科书中，这两种P值被不加区分地称为“P值”，并且被默认：决策P值总是等于/对应于某个分歧P值。这使得“P值小于0.05”既被当作“证据强度”（分歧解读），又被当作“决策规则触发”（决策解读）。
随后的文献中有零星工作指出这种混淆，但并没有给出系统性的定义分类，也未从数学上证明决策P值可能违反单一样本相干性准则。
本文的核心贡献：形式化区分与相干性论证
Greenland (本文) 系统性地提出了两个严格定义，并用一个简单的例子（连续分布下的单样本检验）证明了：决策P值可能违反直观的相干性准则，而分歧P值不会。这构成了该子方向的一个明确的“当前frontier”。
子线索聚类
被引文献大致可分为两条子线索：
- 线索A：分歧P值的定义与应用（如基于检验统计量的显著性检验）。这一簇关注的是“证据度量”（evidence measure），注重统计量的分布位置。
- 线索B：决策P值的定义与应用（如Neyman-Pearson型检验）。这一簇关注的是“决策规则”（decision rule），注重错误率控制和阈值比较。
- 本文的主要工作就是清晰划分这两条线索，并指出它们在逻辑上的独立性。

这个方向在追问的核心问题¶

问题1：P值作为证据度量的有效性：分歧P值在多大程度上、多好地“量化了证据”？它能否具有“概率解释”（即在重复实验下P值分布的均匀性）？
问题2：决策P值的相干性：在一个给定样本上，决策P值能否违反直观的逻辑连贯性（例如，拒绝一个假设却同时接受一个更严格的假设）？如果会，那它的使用场景是什么？
问题3：统一框架：能否在某个统一的数学框架下（如fiducial或 evidential）同时容纳这两种P值，从而消除当前的混淆？
主流方法与已知瓶颈：主流方法是“将检验统计量映射到参考分布”，但这个映射过程本身没有区分“证据”还是“决策”。瓶颈在于：许多教科书和软件输出都默认两种解读等价，导致研究者不自觉地在两种语境间跳跃。

⚠️ 作者的 framing¶

作者自己说：“decison P-values can violate intuitive single-sample coherence criteria where divergence P-values do not.” 他将这个缺口 frame 成：决策P值在单一样本逻辑上失效，因此当分析目标是“总结证据”而不是“实施决策规则”时，分歧P值是更合适的选择。
什么明显是该被引/该存在、却没出现在intro里？ （根据可获取的摘要）
许多关于“P值滥用”的广泛讨论（如 Bayesian significance tests, minimum Bayes factors, evidence lower bounds）未被引。这些讨论直接质疑分歧P值作为证据度量的逻辑有效性（例如，边缘分布是数据相关或先验敏感的），而不仅仅是其与决策P值的区分。
Runge-Kutta 效应、Lindley’s paradox（Lindley, 1957）等经典悖论也未提及，这些悖论直接表明：在贝叶斯框架下，P值（无论哪种）与后验概率之间根本不一致，这使得分歧P值作为“证据”的地位更加模糊。
张力
未见明显对立引用。论文本身是概念澄清，而非在方法论上与某个既有流派正面对抗。可以认为，其论点属于“区分并倡导一种解读”的类型，而非“推翻旧框架”。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

在全文框架下，我们用最小设定——一个连续分布下的单样本检验——来建立记号：

符号：
\( X \): 观测数据（可随机变量或向量）。
\( H_0 \): 一个完全指定的零假设模型，即一个概率分布（如 \( X \sim N(0,1) \)）。
\( t(X) \): 一个检验统计量（如 \( X^2 \) 或 \( |X| \)），它测量了 \( X \) 与 \( H_0 \) 下期望之间的偏离程度（即“分歧程度”）。
参考分布：在 \( H_0 \) 下，\( t(X) \) 的（已知）分布。
模型：
数据生成机制：我们假设数据 \( X \) 来自某个未知分布。但我们正在检验一个特定的 \( H_0 \) 模型。
估计：我们只使用 \( t(X) \) 及其在 \( H_0 \) 下的分布。
已知/要估的对象：\( H_0 \) 是完全指定的（如均值为0，方差为1的高斯分布），因此参考分布是完全已知的。
可观测数据：实际观测值 x_obs 和据此计算的统计量值 t_obs = t(x_obs)。
潜在 / 不可观测：对于分歧P值，我们永远无法“观测”到参考分布中超过 t_obs 的所有可能的统计量值——它们来自 \( H_0 \) 下的无穷次重复采样。我们只能通过理论分布或MC模拟来近似计算这个概率。对于决策P值，我们同样需要参考分布来定义其在单位区间上的分布。

第二步：讲最小内核——一维高斯均值检验的两个P值¶

最简特例：设 \( X \sim N(\mu, 1) \)，检验 \( H_0: \mu = 0 \) vs. 备择 \( H_1: \mu \neq 0 \)。

分歧P值 (divergence P-value, \( p_d \))：
选择检验统计量 \( t(X) = X^2 \)（这是一个卡方（1 df）统计量）。更典型的是 \( t(X) = X \) 的绝对值？但为了对称，直接用卡方。
观测到 x_obs 后，计算 t_obs = x_obs^2。
\( p_d = P_{H_0}(X^2 \ge x_obs^2) \)。这直接是一个尾部概率：在 \( H_0 \) 下，观测到与 x_obs 相等或更极端的统计量值的概率。它是一个无量纲的相容性指标，洛在 [0,1] 区间上。
例子：若 x_obs = 1.96，则 t_obs = 3.84，\( p_d = P(\chi^2_1 \ge 3.84) \approx 0.05 \)。这个值告诉我们：在零假设下，出现这么极端偏离的概率是5%。
决策P值 (decision P-value, \( p_{\text{dec}} \))：
定义：\( p_{\text{dec}} = P_{H_0}(t(X) \ge t(X_{\text{obs}}) ) \)。
关键：这里 \( p_{\text{dec}} \) 本身是一个随机变量，其分布依赖于未知的真实参数 \( \mu \)。在 \( H_0 \) 下，它的分布是均匀的 \( U(0,1) \)。然后，我们使用 \( p_{\text{dec}} \) 与一个固定的阈值α（如0.05）进行比较：如果 \( p_{\text{dec}} \le \alpha \)，则拒绝 \( H_0 \)；否则，不拒绝。
相干性准则：一个常见的直观准则是：如果用一个更严格（更小）的α（如0.01）去检验，应该比用一个更宽松的α（如0.05）更不容易拒绝。这似乎总是成立，因为 \( p_{\text{dec}} \le 0.01 \) 意味着 \( p_{\text{dec}} \le 0.05 \)。

然而，Greenland的关键观察是：在决策P值的定义下，这个准则是数学上保证的，但当我们试图把它与“分歧”概念混同时，会出问题。他给出一个例子（虽然不是这个高斯例子，但思想一致）：决策P值的操作（固守一个阈值）可以导致反直觉的“相干性”失范，而分歧P值的连续、排序性（值越小，证据越强）则自然避免了这个问题。分歧P值的操作是：数值直接映射到尾部面积，数值越小，分歧程度越大。

在这个最简例子中，整个核心是： - 分歧P值：\( p_d \) 是基于统计量的一个具体函数，反映了数据与模型的不相容程度（相对程度）。它的所有实现值都在[0,1]内，形成自然排序，直接对应“证据强度”（虽不是概率）。 - 决策P值：\( p_{\text{dec}} \) 的实现与分歧P值的实现完全相同（因为 \( p_d = p_{\text{dec}} = P_{H_0}(X^2 \ge x_obs^2) \)）。所以在这个简单例子里，二者完全重合，没有矛盾。 - Greenland的论文是更深入地指出：这种重合不是必然的。在其他假设检验（如复合假设、有界参数检验下）或非对称分布下，构造决策P值的公式不再简单地对应于分歧P值的尾部概率，导致决策P值可能违背“单一样本相干性”。

三、这篇论文做了什么¶

三句话：
研究了P值的两种截然不同的定义——分歧P值（基于检验统计量的尾部概率）和决策P值（基于单位区间随机变量与阈值的比较）。
核心工具是严格的数学定义与一个简单的反例论证，指出决策P值可能违反单一样本相干性准则，而分歧P值则不会。
主要结论是：这两种P值应被仔细区分，当分析目标是总结证据而非实施决策规则时，分歧P值是更合适的选择。
关键设定与假设：
设定：给定一个完全指定的零假设 \( H_0 \)（数据生成机制），一个统计量 \( t(X) \)，以及其参考分布。
假设：
- 完全指定零假设：\( H_0 \) 必须是一个完全指定的模型（如 \( \mu=0 \) 的 \( N(0,1) \)），而不是一个复合假设（如 \( \mu \le 0 \)）。这是两种P值定义的基础——如果模型不完整，则不知道参考分布是什么，也就无法计算P值。（在复合假设下，决策P值需要更复杂的构造，如 supremum P-value，但分歧P值的逻辑基础也会动摇。）
- 单一样本：论证聚焦于一个样本，而不是重复抽样下的长期错误率。这使论证更具逻辑紧迫性。
- 相比已有文献：本文没有引入新的概率模型或统计量，而是对已有概念进行精确分类。
主要结果（理论型，核心可论证无定理）：
核心结论1（断言）：决策P值（当被定义为“与阈值比较以做出二元决策的随机变量”时）可能违反直观的单一样本相干性准则。例如，如果拒绝一个假设（基于较宽松的α），但无法拒绝一个更严格的假设（基于较严格的α）？这似乎是不可能的，但如果决策规则依赖于某个特定备择假设（如单边 vs 双边），且P值的定义是基于这个备择的，那么当使用不同α时，规则会指向不同的语境，从而产生矛盾：同一个样本，对于一个方向（α=0.05）拒绝，对另一个方向（α=0.01）却不拒绝。而分歧P值，作为连续数值，总可以排序，完全避免了此类矛盾。
核心结论2（断言）：分歧P值提供了一个单个样本内的和谐排序：值越小，数据越多与模型的“分歧”越大。它不依赖于任何备择假设，因此逻辑上更自洽。
证明路线：论文的核心不是定理证明，而是用精心构建的例子（如一个正态均值的单边/双边检验）来演示决策P值的悖论，并用符号逻辑清晰标注：分歧P值满足的相干性，决策P值可能不满足。
技术技巧：主要是反例构建和逻辑（相干性）分析。没有用到复杂的统计或概率论工具（如无 empirical process, chaining 等）。关键技巧是严格区分“随机变量”和“实现值”，以及“条件概率”和“无条件决策错误率”。
真实例子与应用：
本文为纯理论/无实证例子。它不分析真实数据集，而是依赖于精心构建的理想化数值例子去演示逻辑悖论。
🔎 结论是否比证明窄：
论文的结论是断言性的，即“决策P值可能违反单一样本相干性”，这在论文给出的例子中被严格证明。但论文没有声称“所有决策P值都违反”或“决策P值永远不应该被使用”。作者明确将使用场景限定为“当分析目标是总结证据而非实施决策规则时”。
论文没有讨论在广泛实践中的影响——即多数情况下，研究者使用的P值（如卡方检验、t检验）实际上同时满足两种定义，因此这种区分可能只影响一小部分特殊检验（如某些复合假设下的单边检验）。这种可能性被论文淡化或回避了。

四、开放问题¶

差异的实际影响有多大？（扎根于：论文指出“决策P值可能违反”）。需要量化：在所有常见的统计检验（t检验、F检验、卡方检验）中，有多少比例的场景会导致决策P值与分歧P值实质上不等价？如果等价是常态，那么这种区分更多是哲学上的，而非实践上的。
如何为“证据”构建一个更普适的度量？（扎根于：论文推崇分歧P值作为“相容性指标”）。但分歧P值本身并不能直接解释为“有证据支持备择假设的概率”（它是条件概率，但不是后验概率）。是否存在一个更好的度量（如 Bayes factor, minimum P-value, evidence function）来替代分歧P值，在保持其“连续且有局部意义”的同时，具备更好的概率或似然解释？
决策P值在“有界参数”或“用药量”等假设空间存在自然序的复杂情形下如何表现？（扎根于：论文讨论的相干性准则依赖于“更严格/更宽松”的比较）。在参数空间存在非平凡结构（如多参数、有约束）时，“更严格的假设”本身概念化就比较模糊，这为决策P值和分歧P值的区分提供了新的应用场景。
在非参数环境下的推广（扎根于：论文的例子是基于完全指定参数的参数模型）。对于非参数假设检验（如Kolmogorov-Smirnov test），“分歧”概念和“决策”规则是否可以基于同样的逻辑进行区分？非参数统计中（尤其在高维或数据驱动分位数下）的分歧P值是否也具有类似的连贯性？

Maintained by 陈星宇 · Homepage · Source on GitHub