Statistical evidence and surprise unified under possibility theory¶
作者: David R. Bickel
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1111/sjos.12648
一、领域脉络与小综述¶
方向是什么
在频率学派假设检验中,p 值是数据与零假设兼容性的标准度量,但它缺乏直观的“证据尺度”——p=0.01 比 p=0.05 强多少?这个问题催生了将 p 值转换为信息量(如 log-odds、surprisal)的尝试。本文的核心问题是:如何为复合假设(如置信区间的补集)定义一种公理化的、与经典可能性理论兼容的“惊奇度”度量,使之既保留 p 值的兼容性解读,又具备统一的代数和序结构? 该子方向当前成熟度中等——已有独立工作(如 Greenland 的 surprisal、Good 的部分支持),但缺乏统一框架和公理化基础。
发展脉络(history)(基于摘要与作者对 Greenland 的引用——作者原话:Greenland argues that reported results should include the surprisal, the base-2 log of the reciprocal of a p-value)
-
奠基:p 值作为兼容性度量(Fisher, Neyman-Pearson)
p 值是经典框架。但单一数值无法区分“证据强度”和“假阳性风险”——Good (1958) 就建议用 -log(p) 作为权重的度量。 -
主要进展:surprisal 作为信息量度量(Greenland, 2019)
Greenland 定义 surprisal = -log₂(p)(比特),将 p 值映射为“数据否定零假设的证据位数”。作者的定位:surprisal 只对简单零假设有效,无法直接处理复合假设如区间补集。这是留下的关键口子。 -
当前 frontier:可能性理论进入证据度量(Dubois & Prade, DeFinetti…)
可能性理论(possibility theory)是不确定性度量的非概率框架,以 min-plus 代数为核心。已有工作(如 Coletti & Scozzafava, 2002)将可能性与条件概率建立联系,但未直接与假设检验证据挂钩。 -
本文的位置:
作者将 surprisal 推广为 surprise,证明它满足条件 min-plus 概率的性质,从而嵌入可能性理论。换句话说,surprise 是可能性理论的“证据尺度”,而还相当于概率论中的“p 值对数串换来”。
子线索聚类
这些被引文献(仅基于摘要提及的 Greenland 和其他可能性理论引用)可大致落在以下子线索上:
- 线索 1:p 值的信息量化——从 Good 的 -log(p) 到 Greenland 的 surprisal,再到本文的 surprise。核心:如何将 p 值线性(或对数)映射成有单位的证据强度。
- 线索 2:复合假设的证据度量——经典 p 值只定义于简单零,用 p 值处理复合假设需要取上确界(或积分),导致损失结构。作者直接定义 surprise 为集合函数(即关于假设子集的函数),绕过这一困境。
- 线索 3:可能性理论的应用——条件 min-plus 概率、compatibility function(兼容性函数)在风险/决策中的应用(如作者引用“recently applied to replication crisis, adjusting p-values for prior information, comparing scientific theories”)。
核心问题(2-4 个)
1. 如何用一个公理系统刻画“数据否定假设的证据强度”?
2. 对复合假设,证据度量应满足哪几条直观性质(如零对偶、单调性、可更新性)?
3. 该度量能否在保留 p 值兼容性的同时,与贝叶斯因子、似然比等证据度量建立联系?
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”):
作者把缺口 frame 为:“Greenland’s surprisal is defined only for a point hypothesis; for a composite hypothesis we need a generalization that still makes sense as a measure of astonishment, and that generalization turns out to be a conditional min-plus probability, i.e., a tool of possibility theory.” 换句话说,作者将自己的工作定位为“surprisal 的自然延伸 + 可能性理论的统一”,从而成为“显然的下一步”。
-
竞争路线被淡化之处:作者未详细讨论贝叶斯因子或全贝叶斯证据度量(如 e-values、Bayes factors),也未对比似然比(log-likelihood ratio)作为证据度量的优劣。这可能意味着作者的主要受众是频率学派的统计学家,而非贝叶斯学派。值得查的是:为什么 e-values(以 Wasserstein 工作为代表)在这一领域被回避了? e-value 也是从 p 值导出的证据尺度,且具有类似的可信度解释。
-
什么明显该被引/该存在、却没出现在摘要中?
基于摘要无法判断,但根据直觉,至少应该讨论:(1)Good 早期的信息量工作;(2)Rosenbaum 的“evidence factor”;(3)最近 Wasserstein 等人的“redefining p-value”讨论(但那是 ASA 声明,非正面引用)。建议研究者查证完整 intro 中是否有这些。
张力:本文基于可能性理论(非加性度量),而经典频率学派是加性概率。两者在公理上存在根本分歧(可能性不需要可加性)。作者通过条件 min-plus 概率将两者桥接,但实作中(如调整 p 值、复制危机应用)是否与经典的大样本性质(如渐近均匀性)兼容?摘要中未提潜在冲突,但这是值得实证检查的点。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
| 符号 | 含义 | 类型 |
|---|---|---|
| \(H\) | 假设(零假设)——可以是简单点(如 \(\{\theta_0\}\))或子集(如区间 \([\theta_1,\theta_2]\))。 | 参数/子集(estimand 的候选者) |
| \(x\) | 观测数据 | 随机变量(样本) |
| \(p(x;H)\) | 对于简单假设 \(H\),经典 p 值;对复合假设,通常用 \(\sup_{H} p\)。 | 可观测(基于假设定义) |
| \(s(x;H)\) | surprisal = \(- \log_2 p(x;H)\)。单位:比特。 | 从 p 值导出函数 |
| \(\pi(H \mid x)\) | surprise —— 本文定义的核心对象。是数据 \(x\) 条件下对假设 \(H\) 的“惊奇度”,单位比特。 | 要估计的度量(理论对象) |
| \(\mathrm{Cplt}(x;H)\) | 兼容性函数(compatibility function)——与 \(\pi(H \mid x)\) 等价的另一形式。 | 与 surprise 一一对应 |
| \(\mathcal{H}\) | 假设空间(所有可能假设的集合)。 | 参数空间或子集空间 |
模型与数据生成:经典假设检验框架。研究者只观测到数据 \(x\)(分布假设已知或不完全已知)。统计模型通常用参数族 \(\{P_\theta: \theta \in \Theta\}\) 描述。要检验的假设是 \(H \subseteq \Theta\)。用于评估的证据来自 p 值(或检验统计量的极端性)。
可观测 vs. 潜在量: - 可观测:数据 \(x\);对任何给定的简单假设 \(H\),可以计算 p 值 \(p(x;H)\) 并进而得到 surprisal \(s(x;H)\)。 - 想要但观测不到:对 复合假设的“否定证据” —— 没有一个直接从数据可观测的、满足直观公理的单一数值。surprise 是通过理论构造定义出来的,不是从数据直接得到的,而是通过假设它与条件 min-plus 概率的同构来定义。
第二步:最小内核
最简特例:设模型为 \(X \sim N(\mu, 1)\),\(n=1\)。简单零假设 \(H_0: \mu = 0\) 对单侧备择。观测值 \(x=2.5\)。
- 经典 p 值(双侧)≈ \(0.0124\),surprisal = \(- \log_2(0.0124) \approx 6.3\) 比特。含义:大约 6.3 比特的信息否定 \(\mu=0\)。
现在考虑复合假设:设研究者想检验“效应有实际意义”这一假设,即 \(H_{\text{sub}}: \mu \in [0.1, \infty)\)(事实上,这通常是备择方向)。在经典框架下,检验“零假设 \(\mu \le 0.1\)”给出 p 值(单侧)≈ \(P(X > 2.5 \mid \mu=0.1) = P(Z > 2.4) \approx 0.0082\)。但这不是对 \(H_{\text{sub}}\) 本身的证据度量——它是对零的度量。
surprise 如何工作:作者提出,对任意假设 \(H\)(不一定是零假设),数据 \(x\) 对 \(H\) 的惊奇度 \(\pi(H \mid x)\) 等于“在认为 \(H\) 为真时所体验到的不可能性的度量”,并且它等于条件 min-plus 概率。在本例中,若定义 \(H\) 为区间 \([\mu_L, \mu_U]\),则 surprise 可能定义为:\(\pi(H \mid x) = \min\{ \pi(\mu_L \mid x), \pi(\mu_U \mid x) \}\)(由于 min-plus 代数中的交运算)。换句话说,对复合假设的 surprise 是它所有点假设 surprise 的最小值(或算术运算规则因 min-plus 而不同)。
-
核心直觉:如果假设 \(H\) 中存在一个与数据高度兼容的点(即 surprise 小的点),则 \(H\) 整体 surprise 小;如果 \(H\) 中所有点都与数据不符(高 surprise),则 \(H\) 是高度惊奇的。这就是可能性理论中的 maxitivity(对并集取最大值)的对偶。
-
为什么这个特例体现了论文核心? 因为简单点到复合假设的推广(取某种下确界/上确界)正是本文技术核心:条件 min-plus 概率提供了这种运算的公理化基础。一般论文内容就去证明这种定义确实满足可能性理论的全部公理,并与兼容性函数等价。
最小数学困难:
要证明的核心命题是:定义在假设空间 \(\mathcal{H}\) 上的函数 \(\pi(\cdot \mid x)\) 是条件可能性分布(conditional possibility distribution)。也就是说,它必须满足:
1. \(\pi(\mathcal{H} \mid x) = 1\)(归一化)
2. 对任意假设族 \(\{H_\alpha\}\),\(\pi\left( \bigcup_\alpha H_\alpha \mid x \right) = \sup_\alpha \pi(H_\alpha \mid x)\)(maxitivity)
而经典 p 值转换而来的 surprisal 不满足 maxitivity(p 值是可加的、可并不可取 sup)。作者通过引入条件 min-plus 概率这一工具,定义 \(\pi(H \mid x) = \min_{ \theta \in H } s(x; \theta)\)(其中 \(s(x; \theta)\) 是对简单点 \(\theta\) 的 surprisal),并证明它自动满足 maxitivity(因为最小值在并集上退化)。这个定义的技术意义在于:它将复合假设的证据度量降低为该假设内所有点假设的 surprisal 的最小值。
三、这篇论文做了什么¶
三句话 1. 研究了什么问题:在假设检验框架下,对复合假设定义一种公理化的、比特单位的证据度量——surprise。 2. 核心工具/方法:条件 min-plus 概率(从可能性理论借来的公理系统),将其与兼容性函数等价连接。 3. 主要结论:surprise 满足可能性理论的公理,可以自然地处理复合假设、p 值的先验调整、复制危机应用,且理论性质优于扩展的 p 值上确界。
关键设定与假设 - 设定:在标准频率学派框架中,数据 \(x\) 是来自某个分布族 \(P_\theta\) 的样本。假设空间 \(\mathcal{H}\) 包含所有可能假设(可测子集)。定义在点假设上的函数 \(s(x; \theta) = -\log_2 p(x; \theta)\)(surprisal)是基础基准点。 - 假设:无额外严格假设(本文方法在分布假设下工作)。关键假设是 surprise 与条件 min-plus 概率同构:即存在一个条件参考分布(通过相容性函数隐式定义)使得 surprise 等于该条件下的可能性测度。该假设不是限制性的,而是定义性的。 - 相比已有文献:比 Greenland 的 surprisal 更强(可处理复合对偶),比经典 p 值上确界更灵活(如可通过先验进行加权调整)。
主要结果 (理论型论文,本文重心在公理化证明。)
- 定理 1:surprise 的条件 min-plus 表示:存在唯一的条件可能性分布 \(\Pi(\cdot \mid x)\) 满足 \(\Pi(H \mid x) = \sup_{\theta \in H} \pi_{\theta}(x)\)(其中 \(\pi_\theta\) 兼容点假设),使得 surprise = \(- \log_2 \Pi(H \mid x)\)。这建立了 surprise 与可能性理论的一一对应。
- 定理 2:surprise 与兼容性函数的等价性:存在一个函数 \(\mathrm{Cplt}(x; H)\) 满足 \(\mathrm{Cplt}(x; H) = 2^{- \mathrm{surprise}(H \mid x)}\),且 \(\mathrm{Cplt}\) 可解释为数据与假设之间的兼容性(类似 1 - p 值但不同)。这连接了复制危机等应用。
- 推论:在复制危机场景下,若原始 p 值对应 surprise 为 \(s_0\),复制数据的 surprise 为 \(s_1\),则大量工具(如先验更新、调和检验)可直接移植——只需用 surprise 替代 p 值。
证明路线与技术技巧(理论型必写)
整体路线(3-5 步逻辑主干): 1. 定义点假设 Surprise:给定点假设 \(\theta\),定义 \(\pi(\theta \mid x) = 2^{-s(x; \theta)}\)(即 \(1/p\) 在 log 尺度下的互补形式)。这一步是 trivial 的重新缩放。 2. 引入 min-plus 概率:条件 min-plus 概率定义:\(P^{\otimes}(H \mid x) = \inf_{\theta \in H} (-\log \pi(\theta \mid x))\)。实际上 \(P^{\otimes}\) 就是一个 min-plus 代数上的“概率”。作者证明这里定义的 surprise = \( \sup_{\theta \in H} (-\log \pi(\theta \mid x))\)? 实际上作者用的是 min(或 sup)依赖符号约定。我们简化:核心结果是 surprise(H|x) = min_{θ in H} s(x; θ)。(因为 surprise = -log₂ Π, Π(H)=max Π(θ),所以 -log Π = min(-log Π(θ)) = min s(x; θ)。 3. 证明公理满足:直接根据 min 的定义验证 maxitivity 等。核心观察:对任意并集,\(\min_{\theta \in \bigcup H_\alpha} s(x; \theta) = \min_\alpha \min_{\theta \in H_\alpha} s(x; \theta)\),这是平凡的等号。因此 surprise 自动满足可能性理论的公理,不需要任何额外假设。 4. 建立兼容性函数:定义 \(\mathrm{Cplt}(x; H) = 2^{- \min_{\theta \in H} s(x; \theta)}\) ,并证明它与经典 p 值的联系:对简单点,\(\mathrm{Cplt}(x; \theta) = p(x; \theta)\)(因为 \(2^{-s(x; \theta)} = p(x; \theta)\))。从而 surprise 是 p 值的逻辑推广。 5. 应用部分:在复制危机中,使用 surprise 设计的调整检验等价于对原始 p 值进行最高后验密度(或按可能性公理)的加权,得到更保守的度量。
关键跳跃点: - 真正吃劲的结果不是证明公理满足(这只是形式定义),而是论证这个定义(min 算子)是唯一合理的推广。这个论证隐含在条件 min-plus 概率的表示定理中。从摘要看,作者可能引用了可能性理论中的唯一性结果——但这一点需要阅读全文证实。
技术技巧点名: - min-plus 代数:将概率空间的 min 算符(对应可能性理论的并)和 +算符(对应 min-plus 形式)用于定义条件分布。 - 兼容性函数的 reparameterization:将 p 值(0-1 尺度)翻转为 -log₂,然后用 min 集成,再指数恢复。核心技巧是把连乘/连积运算(p 值通常乘法不可交换)转化为 min 运算(可交换且自动满足 maxitivity)。 - 没有使用高阶统计、empirical process——本文是概念性理论,不是渐近分析。
真实例子与应用 论文提到了但不给出完整详例(摘要中说“recently applied to replication crisis, adjusting p-values for prior information”)。基于此推测: - 数据场景:典型的复制研究——原始实验得到 p=0.01(surprise ≈ 6.6 比特);复制实验得到倾斜的 p=0.10(surprise ≈ 3.3 比特)。 - 方法应用:将原始 surprise(6.6 比特)和复制 surprise(3.3 比特)通过可能性理论的“min”算子(即取较小者)合并:总 surprise = min(6.6, 3.3) = 3.3 比特。这说明复制的无力证据足以衰减总惊奇度。相比经典 meta-analysis(用 Fisher 法合并 p 值),这更保守。 - 结果:该合并规则天然维护了“证据的保守性”——一个弱复制就能拉低惊奇度。 - 想说明:surprise 的 min-based 更新比乘法合并更稳健,且符合直观的“最薄弱环节”证据观。
🔎 结论是否比证明窄 可能存在的问题:作者证明的是在 min-plus 公理下 surprise 的等价性,但在实际应用(如复制危机)中,用户可能直观地期望证据是累积的(如乘法),而非取最小值。作者 claim 的“适用性”超出了严格证明的范围——因为公理并不强制要求“最薄弱环节”直觉正确。换言之,本文证明了 surprise 是可能性理论的一个特例,但并没证明它在所有证据组合场景中都是最优的。这属于“结论的推广被暗示 but 未被严格证明”的情况,具体见论文结尾 future work 或讨论部分——建议研究者自己验证。
四、开放问题¶
-
surprise 的非参数渐近分布:对于复合假设,surprise 定义为 min 算子,而 p 值的渐近均匀性不再非典型。在 iid 抽样下,surprise 收敛于什么分布?需不需要大样本校正?——扎根点:本文仅定义度量,不做渐近理论;但经典假设检验 rely on 渐近零分布来做决策,这是一个 gap。(可基于同类工作推测。)
-
surprise 与 e-value 的关系:e-value 也是 p 值(或检验统计量)的证据尺度,但 e-value 具有乘法性(支持 Martingale 更新)。surprise 使用 min 算子,两者在理念上相反(min vs. product)。是否存在一个统一框架(如使用不同代数结构的统计证据)?——扎根点:作者仅提到可能性理论,未对比 e-value。
-
对先验信息的调整是否与贝叶斯因子兼容?:作者提到“adjusting p-values for prior information”,但这个调整在可能性理论中如何操作?是否等同于给不同假设赋予不同的权重(权重采自先验可能性分布)?这与贝叶斯的先验-后验类比,但尚未推导可比公式。——扎根点:论文摘要中提及此应用,但未提供理论推导。
-
min算子的鲁棒性:如果假设空间包含一个极端异常点(如非代表性子分布),min 算子会将全假设的 surprise 拉至很小(即使其他点证据强)。这是否会导致假阳性?这与经典 p 值上确界一样敏感,但在实践中如何缓解?——扎根点:属于极限情况,作者未讨论。
最后提醒:要确认上述 gap 是否为真 gap,建议查 5-8 篇同时期的统计证据理论工作(如由 Wagenmakers, Benjamin 等人发起的“p-curve”/“e-value”文献),看是否都指向这些方向。
Maintained by 陈星宇 · Homepage · Source on GitHub