Statistical evidence and surprise unified under possibility theory¶

作者: David R. Bickel
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1111/sjos.12648

一、领域脉络与小综述¶

方向是什么
在频率学派假设检验中，p 值是数据与零假设兼容性的标准度量，但它缺乏直观的“证据尺度”——p=0.01 比 p=0.05 强多少？这个问题催生了将 p 值转换为信息量（如 log-odds、surprisal）的尝试。本文的核心问题是：如何为复合假设（如置信区间的补集）定义一种公理化的、与经典可能性理论兼容的“惊奇度”度量，使之既保留 p 值的兼容性解读，又具备统一的代数和序结构？该子方向当前成熟度中等——已有独立工作（如 Greenland 的 surprisal、Good 的部分支持），但缺乏统一框架和公理化基础。

发展脉络（history）（基于摘要与作者对 Greenland 的引用——作者原话：Greenland argues that reported results should include the surprisal, the base-2 log of the reciprocal of a p-value）

奠基：p 值作为兼容性度量（Fisher, Neyman-Pearson）
p 值是经典框架。但单一数值无法区分“证据强度”和“假阳性风险”——Good (1958) 就建议用 -log(p) 作为权重的度量。
主要进展：surprisal 作为信息量度量（Greenland, 2019）
Greenland 定义 surprisal = -log₂(p)（比特），将 p 值映射为“数据否定零假设的证据位数”。作者的定位：surprisal 只对简单零假设有效，无法直接处理复合假设如区间补集。这是留下的关键口子。
当前 frontier：可能性理论进入证据度量（Dubois & Prade, DeFinetti…）
可能性理论（possibility theory）是不确定性度量的非概率框架，以 min-plus 代数为核心。已有工作（如 Coletti & Scozzafava, 2002）将可能性与条件概率建立联系，但未直接与假设检验证据挂钩。
本文的位置：
作者将 surprisal 推广为 surprise，证明它满足条件 min-plus 概率的性质，从而嵌入可能性理论。换句话说，surprise 是可能性理论的“证据尺度”，而还相当于概率论中的“p 值对数串换来”。

子线索聚类
这些被引文献（仅基于摘要提及的 Greenland 和其他可能性理论引用）可大致落在以下子线索上：

线索 1：p 值的信息量化——从 Good 的 -log(p) 到 Greenland 的 surprisal，再到本文的 surprise。核心：如何将 p 值线性（或对数）映射成有单位的证据强度。
线索 2：复合假设的证据度量——经典 p 值只定义于简单零，用 p 值处理复合假设需要取上确界（或积分），导致损失结构。作者直接定义 surprise 为集合函数（即关于假设子集的函数），绕过这一困境。
线索 3：可能性理论的应用——条件 min-plus 概率、compatibility function（兼容性函数）在风险/决策中的应用（如作者引用“recently applied to replication crisis, adjusting p-values for prior information, comparing scientific theories”）。

核心问题（2-4 个）
1. 如何用一个公理系统刻画“数据否定假设的证据强度”？ 2. 对复合假设，证据度量应满足哪几条直观性质（如零对偶、单调性、可更新性）？ 3. 该度量能否在保留 p 值兼容性的同时，与贝叶斯因子、似然比等证据度量建立联系？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）：
作者把缺口 frame 为：“Greenland’s surprisal is defined only for a point hypothesis; for a composite hypothesis we need a generalization that still makes sense as a measure of astonishment, and that generalization turns out to be a conditional min-plus probability, i.e., a tool of possibility theory.” 换句话说，作者将自己的工作定位为“surprisal 的自然延伸 + 可能性理论的统一”，从而成为“显然的下一步”。

竞争路线被淡化之处：作者未详细讨论贝叶斯因子或全贝叶斯证据度量（如 e-values、Bayes factors），也未对比似然比（log-likelihood ratio）作为证据度量的优劣。这可能意味着作者的主要受众是频率学派的统计学家，而非贝叶斯学派。值得查的是：为什么 e-values（以 Wasserstein 工作为代表）在这一领域被回避了？ e-value 也是从 p 值导出的证据尺度，且具有类似的可信度解释。
什么明显该被引/该存在、却没出现在摘要中？
基于摘要无法判断，但根据直觉，至少应该讨论：（1）Good 早期的信息量工作；（2）Rosenbaum 的“evidence factor”；（3）最近 Wasserstein 等人的“redefining p-value”讨论（但那是 ASA 声明，非正面引用）。建议研究者查证完整 intro 中是否有这些。

张力：本文基于可能性理论（非加性度量），而经典频率学派是加性概率。两者在公理上存在根本分歧（可能性不需要可加性）。作者通过条件 min-plus 概率将两者桥接，但实作中（如调整 p 值、复制危机应用）是否与经典的大样本性质（如渐近均匀性）兼容？摘要中未提潜在冲突，但这是值得实证检查的点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号	含义	类型
\(H\)	假设（零假设）——可以是简单点（如 \(\{\theta_0\}\)）或子集（如区间 \([\theta_1,\theta_2]\)）。	参数/子集（estimand 的候选者）
\(x\)	观测数据	随机变量（样本）
\(p(x;H)\)	对于简单假设 \(H\)，经典 p 值；对复合假设，通常用 \(\sup_{H} p\)。	可观测（基于假设定义）
\(s(x;H)\)	surprisal = \(- \log_2 p(x;H)\)。单位：比特。	从 p 值导出函数
\(\pi(H \mid x)\)	surprise —— 本文定义的核心对象。是数据 \(x\) 条件下对假设 \(H\) 的“惊奇度”，单位比特。	要估计的度量（理论对象）
\(\mathrm{Cplt}(x;H)\)	兼容性函数（compatibility function）——与 \(\pi(H \mid x)\) 等价的另一形式。	与 surprise 一一对应
\(\mathcal{H}\)	假设空间（所有可能假设的集合）。	参数空间或子集空间

模型与数据生成：经典假设检验框架。研究者只观测到数据 \(x\)（分布假设已知或不完全已知）。统计模型通常用参数族 \(\{P_\theta: \theta \in \Theta\}\) 描述。要检验的假设是 \(H \subseteq \Theta\)。用于评估的证据来自 p 值（或检验统计量的极端性）。

可观测 vs. 潜在量： - 可观测：数据 \(x\)；对任何给定的简单假设 \(H\)，可以计算 p 值 \(p(x;H)\) 并进而得到 surprisal \(s(x;H)\)。 - 想要但观测不到：对 复合假设的“否定证据” —— 没有一个直接从数据可观测的、满足直观公理的单一数值。surprise 是通过理论构造定义出来的，不是从数据直接得到的，而是通过假设它与条件 min-plus 概率的同构来定义。

第二步：最小内核

最简特例：设模型为 \(X \sim N(\mu, 1)\)，\(n=1\)。简单零假设 \(H_0: \mu = 0\) 对单侧备择。观测值 \(x=2.5\)。

经典 p 值（双侧）≈ \(0.0124\)，surprisal = \(- \log_2(0.0124) \approx 6.3\) 比特。含义：大约 6.3 比特的信息否定 \(\mu=0\)。

现在考虑复合假设：设研究者想检验“效应有实际意义”这一假设，即 \(H_{\text{sub}}: \mu \in [0.1, \infty)\)（事实上，这通常是备择方向）。在经典框架下，检验“零假设 \(\mu \le 0.1\)”给出 p 值（单侧）≈ \(P(X > 2.5 \mid \mu=0.1) = P(Z > 2.4) \approx 0.0082\)。但这不是对 \(H_{\text{sub}}\) 本身的证据度量——它是对零的度量。

surprise 如何工作：作者提出，对任意假设 \(H\)（不一定是零假设），数据 \(x\) 对 \(H\) 的惊奇度 \(\pi(H \mid x)\) 等于“在认为 \(H\) 为真时所体验到的不可能性的度量”，并且它等于条件 min-plus 概率。在本例中，若定义 \(H\) 为区间 \([\mu_L, \mu_U]\)，则 surprise 可能定义为：\(\pi(H \mid x) = \min\{ \pi(\mu_L \mid x), \pi(\mu_U \mid x) \}\)（由于 min-plus 代数中的交运算）。换句话说，对复合假设的 surprise 是它所有点假设 surprise 的最小值（或算术运算规则因 min-plus 而不同）。

核心直觉：如果假设 \(H\) 中存在一个与数据高度兼容的点（即 surprise 小的点），则 \(H\) 整体 surprise 小；如果 \(H\) 中所有点都与数据不符（高 surprise），则 \(H\) 是高度惊奇的。这就是可能性理论中的 maxitivity（对并集取最大值）的对偶。
为什么这个特例体现了论文核心？ 因为简单点到复合假设的推广（取某种下确界/上确界）正是本文技术核心：条件 min-plus 概率提供了这种运算的公理化基础。一般论文内容就去证明这种定义确实满足可能性理论的全部公理，并与兼容性函数等价。

最小数学困难：
要证明的核心命题是：定义在假设空间 \(\mathcal{H}\) 上的函数 \(\pi(\cdot \mid x)\) 是条件可能性分布（conditional possibility distribution）。也就是说，它必须满足： 1. \(\pi(\mathcal{H} \mid x) = 1\)（归一化） 2. 对任意假设族 \(\{H_\alpha\}\)，\(\pi\left( \bigcup_\alpha H_\alpha \mid x \right) = \sup_\alpha \pi(H_\alpha \mid x)\)（maxitivity）

而经典 p 值转换而来的 surprisal 不满足 maxitivity（p 值是可加的、可并不可取 sup）。作者通过引入条件 min-plus 概率这一工具，定义 \(\pi(H \mid x) = \min_{ \theta \in H } s(x; \theta)\)（其中 \(s(x; \theta)\) 是对简单点 \(\theta\) 的 surprisal），并证明它自动满足 maxitivity（因为最小值在并集上退化）。这个定义的技术意义在于：它将复合假设的证据度量降低为该假设内所有点假设的 surprisal 的最小值。

三、这篇论文做了什么¶

三句话 1. 研究了什么问题：在假设检验框架下，对复合假设定义一种公理化的、比特单位的证据度量——surprise。 2. 核心工具/方法：条件 min-plus 概率（从可能性理论借来的公理系统），将其与兼容性函数等价连接。 3. 主要结论：surprise 满足可能性理论的公理，可以自然地处理复合假设、p 值的先验调整、复制危机应用，且理论性质优于扩展的 p 值上确界。

关键设定与假设 - 设定：在标准频率学派框架中，数据 \(x\) 是来自某个分布族 \(P_\theta\) 的样本。假设空间 \(\mathcal{H}\) 包含所有可能假设（可测子集）。定义在点假设上的函数 \(s(x; \theta) = -\log_2 p(x; \theta)\)（surprisal）是基础基准点。 - 假设：无额外严格假设（本文方法在分布假设下工作）。关键假设是 surprise 与条件 min-plus 概率同构：即存在一个条件参考分布（通过相容性函数隐式定义）使得 surprise 等于该条件下的可能性测度。该假设不是限制性的，而是定义性的。 - 相比已有文献：比 Greenland 的 surprisal 更强（可处理复合对偶），比经典 p 值上确界更灵活（如可通过先验进行加权调整）。

主要结果 （理论型论文，本文重心在公理化证明。）

定理 1：surprise 的条件 min-plus 表示：存在唯一的条件可能性分布 \(\Pi(\cdot \mid x)\) 满足 \(\Pi(H \mid x) = \sup_{\theta \in H} \pi_{\theta}(x)\)（其中 \(\pi_\theta\) 兼容点假设），使得 surprise = \(- \log_2 \Pi(H \mid x)\)。这建立了 surprise 与可能性理论的一一对应。
定理 2：surprise 与兼容性函数的等价性：存在一个函数 \(\mathrm{Cplt}(x; H)\) 满足 \(\mathrm{Cplt}(x; H) = 2^{- \mathrm{surprise}(H \mid x)}\)，且 \(\mathrm{Cplt}\) 可解释为数据与假设之间的兼容性（类似 1 - p 值但不同）。这连接了复制危机等应用。
推论：在复制危机场景下，若原始 p 值对应 surprise 为 \(s_0\)，复制数据的 surprise 为 \(s_1\)，则大量工具（如先验更新、调和检验）可直接移植——只需用 surprise 替代 p 值。

证明路线与技术技巧（理论型必写）

整体路线（3-5 步逻辑主干）： 1. 定义点假设 Surprise：给定点假设 \(\theta\)，定义 \(\pi(\theta \mid x) = 2^{-s(x; \theta)}\)（即 \(1/p\) 在 log 尺度下的互补形式）。这一步是 trivial 的重新缩放。 2. 引入 min-plus 概率：条件 min-plus 概率定义：\(P^{\otimes}(H \mid x) = \inf_{\theta \in H} (-\log \pi(\theta \mid x))\)。实际上 \(P^{\otimes}\) 就是一个 min-plus 代数上的“概率”。作者证明这里定义的 surprise = \( \sup_{\theta \in H} (-\log \pi(\theta \mid x))\)? 实际上作者用的是 min（或 sup）依赖符号约定。我们简化：核心结果是 surprise(H|x) = min_{θ in H} s(x; θ)。（因为 surprise = -log₂ Π, Π(H)=max Π(θ)，所以 -log Π = min(-log Π(θ)) = min s(x; θ)。 3. 证明公理满足：直接根据 min 的定义验证 maxitivity 等。核心观察：对任意并集，\(\min_{\theta \in \bigcup H_\alpha} s(x; \theta) = \min_\alpha \min_{\theta \in H_\alpha} s(x; \theta)\)，这是平凡的等号。因此 surprise 自动满足可能性理论的公理，不需要任何额外假设。 4. 建立兼容性函数：定义 \(\mathrm{Cplt}(x; H) = 2^{- \min_{\theta \in H} s(x; \theta)}\) ，并证明它与经典 p 值的联系：对简单点，\(\mathrm{Cplt}(x; \theta) = p(x; \theta)\)（因为 \(2^{-s(x; \theta)} = p(x; \theta)\)）。从而 surprise 是 p 值的逻辑推广。 5. 应用部分：在复制危机中，使用 surprise 设计的调整检验等价于对原始 p 值进行最高后验密度（或按可能性公理）的加权，得到更保守的度量。

关键跳跃点： - 真正吃劲的结果不是证明公理满足（这只是形式定义），而是论证这个定义（min 算子）是唯一合理的推广。这个论证隐含在条件 min-plus 概率的表示定理中。从摘要看，作者可能引用了可能性理论中的唯一性结果——但这一点需要阅读全文证实。

技术技巧点名： - min-plus 代数：将概率空间的 min 算符（对应可能性理论的并）和 +算符（对应 min-plus 形式）用于定义条件分布。 - 兼容性函数的 reparameterization：将 p 值（0-1 尺度）翻转为 -log₂，然后用 min 集成，再指数恢复。核心技巧是把连乘/连积运算（p 值通常乘法不可交换）转化为 min 运算（可交换且自动满足 maxitivity）。 - 没有使用高阶统计、empirical process——本文是概念性理论，不是渐近分析。

真实例子与应用 论文提到了但不给出完整详例（摘要中说“recently applied to replication crisis, adjusting p-values for prior information”）。基于此推测： - 数据场景：典型的复制研究——原始实验得到 p=0.01（surprise ≈ 6.6 比特）；复制实验得到倾斜的 p=0.10（surprise ≈ 3.3 比特）。 - 方法应用：将原始 surprise（6.6 比特）和复制 surprise（3.3 比特）通过可能性理论的“min”算子（即取较小者）合并：总 surprise = min(6.6, 3.3) = 3.3 比特。这说明复制的无力证据足以衰减总惊奇度。相比经典 meta-analysis（用 Fisher 法合并 p 值），这更保守。 - 结果：该合并规则天然维护了“证据的保守性”——一个弱复制就能拉低惊奇度。 - 想说明：surprise 的 min-based 更新比乘法合并更稳健，且符合直观的“最薄弱环节”证据观。

🔎 结论是否比证明窄 可能存在的问题：作者证明的是在 min-plus 公理下 surprise 的等价性，但在实际应用（如复制危机）中，用户可能直观地期望证据是累积的（如乘法），而非取最小值。作者 claim 的“适用性”超出了严格证明的范围——因为公理并不强制要求“最薄弱环节”直觉正确。换言之，本文证明了 surprise 是可能性理论的一个特例，但并没证明它在所有证据组合场景中都是最优的。这属于“结论的推广被暗示 but 未被严格证明”的情况，具体见论文结尾 future work 或讨论部分——建议研究者自己验证。

四、开放问题¶

surprise 的非参数渐近分布：对于复合假设，surprise 定义为 min 算子，而 p 值的渐近均匀性不再非典型。在 iid 抽样下，surprise 收敛于什么分布？需不需要大样本校正？——扎根点：本文仅定义度量，不做渐近理论；但经典假设检验 rely on 渐近零分布来做决策，这是一个 gap。（可基于同类工作推测。）
surprise 与 e-value 的关系：e-value 也是 p 值（或检验统计量）的证据尺度，但 e-value 具有乘法性（支持 Martingale 更新）。surprise 使用 min 算子，两者在理念上相反（min vs. product）。是否存在一个统一框架（如使用不同代数结构的统计证据）？——扎根点：作者仅提到可能性理论，未对比 e-value。
对先验信息的调整是否与贝叶斯因子兼容？：作者提到“adjusting p-values for prior information”，但这个调整在可能性理论中如何操作？是否等同于给不同假设赋予不同的权重（权重采自先验可能性分布）？这与贝叶斯的先验-后验类比，但尚未推导可比公式。——扎根点：论文摘要中提及此应用，但未提供理论推导。
min算子的鲁棒性：如果假设空间包含一个极端异常点（如非代表性子分布），min 算子会将全假设的 surprise 拉至很小（即使其他点证据强）。这是否会导致假阳性？这与经典 p 值上确界一样敏感，但在实践中如何缓解？——扎根点：属于极限情况，作者未讨论。

最后提醒：要确认上述 gap 是否为真 gap，建议查 5-8 篇同时期的统计证据理论工作（如由 Wagenmakers, Benjamin 等人发起的“p-curve”/“e-value”文献），看是否都指向这些方向。

Maintained by 陈星宇 · Homepage · Source on GitHub

Statistical evidence and surprise unified under possibility theory¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论