Epistemic confidence in the observed confidence interval¶
作者: Yudi Pawitan, Hangbin Lee, Youngjo Lee
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: Karolinska Institutet(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.12654
一、领域脉络与小综述¶
-
这个方向是什么:统计推断的基础哲学问题——频率学派置信区间(Frequentist confidence interval)的“认识论信心”(epistemic confidence)能否被合理地赋予观测到的具体区间,而不仅仅是重复抽样程序。该问题处于数理统计基础、统计哲学与贝叶斯-频率学派之争的交汇处,目前仍存在根本性争议:正统频率学派否认对观测区间赋予概率解释,而实践者却存在心理需求。
-
发展脉络(history):
- 奠基工作:Neyman (1937) 建立了频率学派置信区间的程序定义——置信水平是过程(procedure)的性质,而非具体区间的性质。这是正统立场。
- 第一次挑战(相关子集悖论):Fisher (1956, 1973) 指出在某些构造中,给定一个“相关子集”(relevant subset),频率覆盖条件被违反——这在直觉上挑战了置信区间的可信度。Buehler (1959) 将其形式化为“Buehler 相关子集”问题;Cornfield (1969) 进一步讨论了它在贝叶斯-频率学派争论中的意义。
- 认识论转向:作者 Pawitan 等人系列工作(Pawitan 2013; Pawitan et al. 2016; Lee & Pawitan 2018)提出“置信度是一种扩展似然(extended likelihood)”——即置信分布(confidence distribution)可以被视为一种似然函数,从而将频率学派概念纳入似然框架。这一框架下,置信度受到似然原理保护,不再存在“未使用信息”构造的相关子集。
-
本文的位置:在扩展似然框架基础上,本文引入“市场版荷兰赌”(market-based Dutch Book)论证——这是贝叶斯主观概率经典论证的推广——来证明:当置信度由完整似然导出时,不存在外部代理可利用未使用信息构造相关子集进行套利,从而该置信度具有认识论地位。本文试图为频率学派置信区间提供一种不依赖主观先验的认识论论证。
-
子线索聚类:
- 频率学派内部对区间解释的修正:Neyman (1937) → Buehler (1959) → 本文的扩展似然+荷兰赌论证。这一线索试图在频率学派框架内解决相关子集悖论。
- 贝叶斯主观概率论证:de Finetti (1937, 1974) 开创的荷兰赌论证——将主观概率定义为“公平的赌注比率”,若违反则将导致确定损失。本文将其从概率论扩展到置信度的论证。
-
似然派立场:Fisher (1922) 的似然原理 → extended likelihood(Pawitan et al. 2016) → 本文用完整似然封堵相关子集。这一线索强调“似然包含数据中所有信息”。
-
这个方向在追问的核心问题:
- Q1: 频率学派置信区间能否被赋予认识论信心?(本质:置信水平能否是“区间的属性”而非“程序的属性”?)
- Q2: 相关子集悖论是否从根本上动摇了频率学派推断?
- Q3: 扩展似然框架能否为频率学派置信区间提供一个无贝叶斯先验的认识论基础?
-
当前主流方法:大部分实践者回避此问题,使用规范频率程序;少数人转向贝叶斯或似然方法;本文是少数直接正面回答Q1的尝试。
-
⚠️ 作者的 framing(必须明确标注成"这是作者的说法"):作者将问题 frame 为“能否通过防止荷兰赌来为观测到的置信区间提供认识论信心”,从而让自己这篇成为“荷兰赌论证 + 扩展似然”的自然结合。作者淡化了以下竞争路线:(a) 纯贝叶斯方法——直接用后验分布(含先验)提供概率解释,本文试图在没有先验的情况下达到同样效果;(b) 置信分布(confidence distribution)文献,如 Schweder & Hjort (2016) 的置信分布理论,也试图为置信水平提供解释,但本文用扩展似然框架与之交叠;(c) “p值作为证据”文献,如 Goodman (2008) 等,讨论基于p值的证据强度。
什么明显该被引/该存在、却没出现在intro里? 根据作者自身引用(约30条)和bibliography,范围相当集中(主要是Pawitan系列、Fisher、Neyman、de Finetti、Buehler等)。未见的可能引用包括:R. A. Fisher 的 fiducial inference(虽然 Fisher 本人被引,但 fiducial 思想未进入论证);Efron (1998) “R. A. Fisher in the 21st Century” 中对 fiducial 的现代讨论;Berger (2004) “Could Fisher, Jeffreys and Neyman have agreed on testing?”。研究者可自行确认这些是否相关。
- 张力:未见明显对立引用。文献链清晰一致——从Neyman到Buehler到Pawitan系列工作,没有作者在introduction中引用了“论证相反”的文献。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号:
- θ ∈ Θ ⊆ ℝⁱ:感兴趣的参数(标量或向量 estimand)。
- X:观测数据(随机样本),X ∈ 𝒳ⁱ。
- CI(X) = [L(X), U(X)]:基于数据X构造的置信区间,置信水平为 1-α(如 95%)。
- confidence level 1-α:频率学派覆盖概率:P_θ[θ ∈ CI(X)] = 1-α,对 ∀θ(渐近或精确)。
- observed confidence interval [l_obs, u_obs]:基于已观测数据X = x_obs计算出的具体区间(固定数)。这是本文要“赋认识论信心”的对象。
- 扩展似然(extended likelihood):一种定义在置信区间上的似然,将其视为参数θ的函数,描述数据支持θ的程度。非贝叶斯先验,但具有似然性质。
- Dutch Book(荷兰赌):一组赌注的集合,无论真实参数是什么,都导致确定损失——这是论证“不理性”的传统工具。
-
市场版荷兰赌:本文推广的版本——阻止外部代理利用“未使用信息”构造相关子集进行套利。
-
模型:标准频率学派推断模型。数据X来自某分布族P_θ(θ未知),区间构造保证覆盖概率。模型中没有主观先验分布。
-
可观测数据:研究者实际观测到的是一个具体样本x_obs(以及对应的区间[l_obs, u_obs])。想要但观测不到的是:①参数θ的真值;②重复抽样的频率分布(只有一次观测);③“如果不同数据集,会有什么区间”的反事实信息。频率学派的正统解释要求思考“未发生的重复抽样”,但本文试图规避这一点,仅基于已有数据给出认识论信心。
第二步:讲最小内核¶
最简特例:假设单参数θ ∈ ℝ,观测到一个正态分布样本X ~ N(θ,1),已知方差σ²=1。我们构造标准95%置信区间:
CI(X) = [X - 1.96, X + 1.96]
频率学派的正统说法:“在95%的样本中,重复这类构造,区间会包含θ;但我们已经观测到X=x_obs,所以不能说P(θ∈[x_obs-1.96, x_obs+1.96]) = 0.95。”
本文要论证:可以将这个“0.95”称为认识论信心——即“基于已知数据,我们有95%的信心(epistemic confidence)认为θ落在这个区间”。
作者的核心论证:
-
扩展似然:将置信度视为一种似然函数。对于正态情形,置信区间对应的置信分布(confidence distribution)正好是N(x_obs, 1)——即以观测均值为中心、方差为1的正态分布。这个分布可以被视为“似然面”(likelihood surface)。
-
似然原理:这个似然包含数据中所有信息,没有“未使用信息”可用于构造相关子集。相关子集悖论(Buehler 1959)正是利用了未在区间构造中使用但数据中包含的额外信息(如观测方差与期望方差之比)进行套利。
-
荷兰赌保护:作者将贝叶斯版的荷兰赌论证(针对主观概率)推广为“市场版”:假设市场(外部代理)可以提供任何关于θ的赌注组合。如果市场试图利用“未用信息”构造相关子集来套利,那么它自己会被荷兰赌定理对付——在市场版下,这种套利会被阻止,因为未用信息本身也是数据的一部分,扩展似然已将其全部整合。因此,置信度不受套利的威胁,具有认识论地位。
核心数学困难:不是算法复杂度,而是逻辑迁移——将一张仅在概率论中严格的论证(荷兰赌与相关子集的对应)转化为“扩展似然框架下置信度的认识论属性”。这是哲学与数学的交界:证明强调“存在性”而非“计算性”。
三、这篇论文做了什么¶
-
三句话:①研究了频率学派置信区间能否对观测到的区间赋予认识论信心;②核心工具是“市场版荷兰赌”论证和“扩展似然”;③主要结论:当置信度由完整似然导出时,不存在相关子集可用于套利,因此置信度具有认识论意义。
-
关键设定与假设:
- 市场版荷兰赌定义:Betting market 可以构造任何关于θ的赌注(支付函数为f(θ));如果存在一组赌注,导致买家确定损失(无论θ取何值),则称为荷兰赌。本文强化版本:防止外部代理利用“未使用信息”构造相关子集进行租用——即市场不能利用数据中被区间构造忽略的部分。
- 扩展似然(extended likelihood):置信度函数C(θ; x)满足似然公理——是数据x的函数,且对θ单调(更大C意味着更强的θ支持)。作者将此称为“扩展的”,因为它是从覆盖概率变换得来,但从似然角度看是良定义的。
- 无未使用信息假设:通过“完整似然”(full likelihood)来保证——所有数据信息都已编码在似然中。这是一个难以验证但常见的假设:在经典模型中,似然就是充分统计量,所有信息都被利用。
-
与已有文献相比:比标准频率学派增加了“似然原理”作为启动条件,但减少了“主观先验”(对贝叶斯而言)。
-
主要结果(理论型,无明确定理编号;需从文章推导):
- 荷兰赌定理:若置信度不是从完整似然导出,则存在相关子集(未使用信息)可被市场构造荷兰赌套利。反之,若由完整似然导出,则市场无法套利,因此置信度是认识论的(Epistemic Confidence Theorem)。
- 扩展似然覆盖:由扩展似然定义的置信分布,在给定数据x的情况下,其覆盖概率(似然意义)正好是1-α——这就是确认“认识论信心”的数值。
-
实际示例:通过几个简单模型(正态、二项、泊松)展示:存在相关子集时(如数据分割导致部分未用),荷兰赌套利可能;但采用完整似然(标准模型)后,套利消失。
-
证明路线与技术技巧(理论型):
- 整体路线:①定义市场版荷兰赌 → ②定义扩展似然与置信度 → ③论证“未用信息 ↔ 相关子集 ↔ 荷兰赌存在”的等价性 → ④展示完整似然封堵了第③步 → ⑤结论:扩展似然置信度受荷兰赌保护。
- 关键跳跃点:最吃功夫的引理是“未使用信息导致相关子集”——严格证明未用数据部分的信息量可以形式化为一个更细的分割(如:数据分割成两部分,仅用一部分构造区间),然后构造一个条件于该分量的赌注,利用条件覆盖概率的偏移实现套利。
-
技术技巧点名:
- Dutch Book 论证:来自贝叶斯主观概率(de Finetti 1937),被推广为市场版。在证明中,用朴素概率论检查多种赌注组合是否构成荷兰赌。
- 似然原理:来自 Fisher-Wald-Birnbaum 传统(Birnbaum 1962)。这里的应用是“完整似然防止相关子集”——衍生自充分性原理和条件性原理。
- 扩展似然面:将覆盖率转换为似然,为适应荷兰赌论证引入“似然面”作为中间概念。证明中需要处理重叠覆盖区域。
- 无新的大样本技巧(无 empirical process、无 U-统计量、无 Stein's method)——证明本质上是概念性的,不依赖分析深度。
-
真实例子与应用(有):
- 例子1:正态模型——取一个样本X ~ N(θ,1),构造95% CI。展示“如果只用X的一个子集(如X>0时的均值)”,会造出相关子集用于荷兰赌;但标准全文CI没有。
- 例子2:二项分布——10次独立伯努利,成功次数Y。标准Wald区间(无连续性校正)存在最短覆盖概率的偏移,可以用“观测比例是否为0”构造子集去套利;但作者自制的一个完整似然版本(类似于Jeffreys区间)消除了它。
-
例子3:泊松模型——卖书一周内卖书数Y ~ Poisson(θ)。作者用“观测值为0 vs. 非0”分类进行同样的展示。
-
🔎 结论是否比证明窄:本文的核心结论比它宣称的窄。作者声称“置信度受荷兰赌保护,因而具有认识论意义”,但严格证明仅适用于确定性语境中的特定构造(如标准模型、完整似然易获得的情况)。在复杂模型(高维、半参数、非参数)中,“完整似然”本身就有争议——似然可能不唯一、难于定义、无法计算。作者在结论部分(Conclusion)提到“需要进一步研究的复杂情形”,但未给出任何严格边界条件。
四、开放问题¶
-
[理论扩展] 非参数/高维模型的扩展似然定义:本文的完整似然假设在非参数/高维设定下不成立——似然可能无限维(如Cox等)或定义模糊。能否在非参数或半参数框架下构造“扩展似然”,并使荷兰赌论证依然有效?【扎根:Conclusion部分“复杂模型需要进一步研究”的语句】
-
[计算维度] 对于复杂模型的“未使用信息”量化:在非参数模型或使用交叉拟合(cross-fitting)的现代方法(如DML)中,“未使用信息”如何形式化?它是数据分割后的“第二折”吗?还是其他?【扎根:文章在讨论相关子集时以“数据分割”为典型例子】
-
[贝叶斯与频率学派的统合]:本文的论证能否推广到首次论证p值的认识论解释?p值与置信区间在对偶关系下高度相关,但本文未直接涉及;若可推广,则形成“置信区间/p值”统一认识论。这是一个中期可能的方向。
-
[实际应用验证]:在应用场景(如流行病学估计)中,构建一个看似无相关子集的置信区间,但在非线性变换(如logit)下是否会出现隐藏的相关子集?这需要模拟研究验证。
-
[与研究者结合点]:本工作与用户的高阶U-统计量/tensor contraction 无直接联系(开放问题4~5)。研究者可自行确认是否需要探索。
Maintained by 陈星宇 · Homepage · Source on GitHub