跳转至

On the existence of powerful p-values and e-values for composite hypotheses

作者: Zhenyuan Zhang, Aaditya Ramdas, Ruodu Wang
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么 这个子方向要解决的根本统计问题是:在复合零假设 \(\mathcal{P}\) 与复合备择假设 \(\mathcal{Q}\) 下,是否存在具有“非平凡功效”的检验统计量?具体而言,能否构造出在 \(\mathcal{P}\) 下精确服从均匀分布、在 \(\mathcal{Q}\) 下随机更小的 p-value,或者在 \(\mathcal{P}\) 下期望精确为 1、在 \(\mathcal{Q}\) 下对数期望为正的 e-value?该方向当前处于理论奠基与一般性刻画阶段,正从点假设/简单备择的成熟理论,向复合假设的代数/几何结构刻画演进。

发展脉络 - 奠基工作:Kraft (1955) 与 Hoeffding & Wolfowitz (1958) 建立了区分两个分布集合的最早框架,Kraft 定理成为后续判定“不可能推断”的起点(作者引用句:"Kraft’s theorem serves as a starting point for distinguishing sets of distributions")。 - 主要进展(e-value 与博弈论视角):Shafer (2021) 与 Vovk & Wang (2021) 将 e-value 解释为博弈得分,确立了 e-value 的基本性质与组合规则;Wasserman et al. (2020) 提出 universal inference,为复合假设提供了一个无需正则性条件的 e-value 构造,但代价是功效通常较低;Grünwald et al. (2024) 提出 GROW (growth-rate optimal) 准则,通过反向信息投影 (RIPr) 在点备择下寻找最优 e-value;Larsson et al. (2024) 将 RIPr 推广到无任何假设的 numeraire e-variable。 - 主要进展(不可能推断):Bertanha & Moreira (2020) 从弱拓扑角度系统化了“不可能推断”(检验功效小于显著性水平),将 Kraft 的思想拓展到计量经济学模型;Ramdas et al. (2022) 引入 fork-convexity 概念,证明了在可交换性零假设下不存在非平凡的非负超鞅;Gangrade et al. (2023) 进一步证明对所有高斯分布(乃至所有 log-concave 分布),不存在具有非平凡 e-power 的 e-variable(作者引用句:"there does not exist an e-variable with nontrivial e-power, even non-exact")。 - 当前 frontier 与本文位置:上述“不可能”结果均针对特定分布族,缺乏一般性的存在性/不存在性代数刻画。本文填补了这一空白:当 \(\mathcal{P}, \mathcal{Q}\) 为凸多面体时,给出了精确/非精确 p/e-value 存在的充要条件;对一般集合,利用同步最优传输 (SOT, Wang & Zhang 2022) 刻画了有界非平凡 e-variable 的存在性;并首次一般性地刻画了“粗化过滤”现象。

子线索聚类 1. e-value 的优化与构造:聚焦于给定 \(\mathcal{P}\) 与点备择 \(Q\) 时,如何找到增长最快的 e-variable。核心工作为 Grünwald et al. (2024) 的 GROW/RIPr 与 Larsson et al. (2024) 的 numeraire e-variable。这一簇在寻找“最优”,但未回答“如果备择也是复合的,甚至不存在点备择的 RIPr,e-value 是否还能存在”。 2. 复合假设下的不可能推断:聚焦于证明在某些 \(\mathcal{P}\) 下,任何检验的功效都退化为 size。核心工作为 Bertanha & Moreira (2020) 的弱拓扑不可区分、Ramdas et al. (2022) 的 fork-convexity、Gangrade et al. (2023) 的 log-concave 不可能定理。这一簇给出了零星的不存在性反例,但未给出统一的判定准则。 3. 分布相容性与最优传输:Shen et al. (2019) 研究了多个测度下分布的相容性(异质性序);Wang & Zhang (2022) 提出同步最优传输 (SOT)。这一簇提供了处理向量值测度与多边际耦合的代数工具,本文将其首次引入假设检验的存在性判定。

这个方向在追问的核心问题 1. 存在性判定:给定 \(\mathcal{P}\)\(\mathcal{Q}\),非平凡的 p/e-value 是否存在?其代数/几何充要条件是什么? 2. 精确性 vs 非精确性:要求 p-value 精确均匀 / e-value 精确期望为 1,与允许 p-value 随机更大 / e-value 期望不超过 1,这两类要求的存在性门槛有何差异? 3. 过滤的粗化:在原始数据过滤下不存在非平凡检验时,能否通过丢弃信息(粗化过滤)来“创造”出非平凡检验?其一般性刻画是什么?

⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“已有文献要么只研究点备择下的最优构造,要么只给出特定分布族的不存在反例,缺乏对复合 vs 复合假设存在性的统一代数刻画”,从而让本文的凸多面体线性张成空间条件与 SOT 刻画成为“显然的下一步”。 - 被淡化的路线:Bertanha & Moreira (2020) 的弱拓扑不可区分性是一个极具竞争力的路线,它不依赖凸多面体假设,但作者仅在引用中提及,未在正文中深入对比弱拓扑条件与线性张成空间条件的包含/互斥关系。 - 缺失的引用:在讨论“粗化过滤”时,作者引用了 Vovk (2021) 的 conformal martingale 作为特例,但缺失了因果推断与代理变量中关于“粗化/降维数据反而有助于识别”的文献(如 k-class estimators, proximal causal inference 中的负面控制),这类文献在完全不同的设定下讨论了类似的信息丢弃现象,值得研究者去查。

张力 未见明显对立引用。Ramdas et al. (2022) 与 Gangrade et al. (2023) 证明了特定 \(\mathcal{P}\) 下不存在非平凡 e-variable,本文的定理包容了这些结果(因为这些 \(\mathcal{P}\) 的线性张成空间包含了备择),但两者在“判定工具”上分叉:前者依赖 fork-convexity 与鞅论,本文依赖线性代数与 SOT。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚 - \(\Omega\):样本空间(有限集,如 \(\{1, 2, 3\}\))。 - \(\mathcal{P}, \mathcal{Q}\):复合零假设与复合备择假设,均为 \(\Omega\) 上的概率测度集合。 - \(P, Q\)\(\mathcal{P}\)\(\mathcal{Q}\) 中的具体概率测度。 - \(X\):可观测随机变量,取值在 \(\Omega\) 中,其分布由 \(P\)\(Q\) 决定。 - \(e\):e-variable,即一个非负随机变量(\(\Omega \to \mathbb{R}_{\ge 0}\)),满足 \(\mathbb{E}_P[e] \le 1\) 对所有 \(P \in \mathcal{P}\)。 - \(p\):p-variable,即一个随机变量,满足 \(P(p \le \alpha) \le \alpha\) 对所有 \(P \in \mathcal{P}, \alpha \in [0,1]\)。 - \(\text{span}(\mathcal{P})\)\(\mathcal{P}\) 的线性张成空间,即由 \(\mathcal{P}\) 中所有测度作为向量生成的线性子空间。 - \(\mathcal{F}\):过滤,即 \(\Omega\) 上的划分(代数),代表观测者能看到的分辨率。 - \(\mathcal{F}' \subseteq \mathcal{F}\):粗化过滤,分辨率更低的划分(丢弃了部分信息)。

模型:数据生成机制为 \(X \sim R\),其中 \(R \in \mathcal{P} \cup \mathcal{Q}\)。研究者不知道 \(R\) 属于哪个集合,目标是基于 \(X\) 的观测值构造 \(e\)\(p\) 以判定 \(R\) 是否属于 \(\mathcal{Q}\)

可观测数据:研究者实际能观测到的是 \(X\) 在过滤 \(\mathcal{F}\) 下的取值(即知道 \(X\) 落在 \(\mathcal{F}\) 的哪个原子中)。潜在/不可观测的是真实的测度 \(R\)。在粗化过滤 \(\mathcal{F}'\) 下,研究者观测到的是 \(X\) 所属的 \(\mathcal{F}'\) 原子(它是 \(\mathcal{F}\) 原子的并集),即故意模糊化了 \(X\) 的精确位置。

第二步:讲最小内核(凸多面体情形下的二值/三值样本空间) 论文的一般情形只是以下特例的“加壳”:\(\Omega = \{1, 2, 3\}\)\(\mathcal{P}\)\(\mathcal{Q}\) 各为两个测度生成的凸多面体(线段)

\(\mathcal{P} = \text{conv}\{P_1, P_2\}\)\(\mathcal{Q} = \text{conv}\{Q_1, Q_2\}\),其中 \(P_1 = (0.5, 0.5, 0)\)\(P_2 = (0, 0.5, 0.5)\)\(Q_1 = (0.5, 0, 0.5)\)\(Q_2 = (0, 1, 0)\)。 - 线性张成空间判定\(\text{span}(\mathcal{P})\)\((0.5, 0.5, 0)\)\((0, 0.5, 0.5)\) 生成,其向量为 \((1, 1, 0)\)\((0, 1, 1)\),张成空间为 \(\{v : v_1 - v_3 = 0\}\)\(Q_1 = (0.5, 0, 0.5)\) 满足 \(v_1 - v_3 = 0\),故 \(Q_1 \in \text{span}(\mathcal{P})\)\(Q_2 = (0, 1, 0)\) 满足 \(v_1 - v_3 = 0\),故 \(Q_2 \in \text{span}(\mathcal{P})\)。因此 \(\mathcal{Q} \subseteq \text{span}(\mathcal{P})\)。 - 核心命题退化:本文定理 3.2 退化成——若 \(\mathcal{Q} \subseteq \text{span}(\mathcal{P})\),则不存在精确的 p-value(\(P(p \le \alpha) = \alpha\))和精确的 e-value(\(\mathbb{E}_P[e] = 1\))。 - 证明怎么走:假设存在精确 e-value \(e = (e_1, e_2, e_3)\)。精确性要求 \(\mathbb{E}_{P_1}[e] = 0.5e_1 + 0.5e_2 = 1\)\(\mathbb{E}_{P_2}[e] = 0.5e_2 + 0.5e_3 = 1\)。这两个线性方程的解空间为 \(e_1 = e_3\)\(e_2 = 2 - e_1\)。因为 \(\mathcal{Q} \subseteq \text{span}(\mathcal{P})\),任何 \(Q \in \mathcal{Q}\) 都是 \(P_1, P_2\) 的线性组合,故 \(\mathbb{E}_Q[e]\) 也被上述方程完全锁定,必然等于 1。因此 \(\mathbb{E}_Q[\log e] \le \log \mathbb{E}_Q[e] = 0\),e-value 在备择下对数期望不可能为正,非平凡功效不存在。 - 粗化过滤的破局:在原始过滤 \(\mathcal{F} = \{\{1\}, \{2\}, \{3\}\}\) 下,上述不可能定理成立。但若我们粗化过滤为 \(\mathcal{F}' = \{\{1, 3\}, \{2\}\}\),即故意不区分状态 1 和 3。此时 \(e\) 必须在 \(\{1, 3\}\) 上取常值,即 \(e_1 = e_3\)。这恰好是之前精确性方程解空间的约束!在 \(\mathcal{F}'\) 下,\(e_1 = e_3\) 不再是被迫的结果,而是主动的设计。此时,\(\mathcal{P}\)\(\mathcal{F}'\) 上的投影退化为单点(因为 \(P_1, P_2\)\(\{1, 3\}\) 上的概率和相同),\(\text{span}(\mathcal{P}_{\mathcal{F}'})\) 的维度降低,\(\mathcal{Q}_{\mathcal{F}'}\) 可能逃出该张成空间,从而非平凡 e-value 得以存在。这就是最小内核揭示的数学本质:线性约束的耦合导致了不可能,而粗化过滤通过合并样本点打破了这种耦合


三、这篇论文做了什么

三句话 ①研究了复合零假设 \(\mathcal{P}\) 与复合备择 \(\mathcal{Q}\) 下,具有非平凡功效的 p-value 与 e-value 的存在性问题;②核心工具是线性代数(凸多面体的张成空间)与同步最优传输 (SOT);③主要结论是:精确 p/e-value 存在的充要条件是 \(\mathcal{Q} \not\subseteq \text{span}(\mathcal{P})\),非精确的存在性只需 \(\mathcal{P} \cap \mathcal{Q} = \emptyset\),且粗化过滤能将“不可能”转化为“可能”。

关键设定与假设 - 凸多面体假设\(\mathcal{P}, \mathcal{Q}\) 是概率空间中的凸多面体(有限个测度的凸包)。统计含义是假设集合由有限个线性约束定义(如有限维离散分布的凸集)。相比已有文献(如 Gangrade et al. 2023 的无限维 log-concave),这是为了引入线性张成空间刻画的强假设,但在第四节被部分放宽。 - 精确 vs 非精确:精确 p-value 要求 \(P(p \le \alpha) = \alpha\)(均匀分布),精确 e-value 要求 \(\mathbb{E}_P[e] = 1\);非精确 p-value 要求 \(P(p \le \alpha) \le \alpha\)(随机更大),非精确 e-value 要求 \(\mathbb{E}_P[e] \le 1\)。统计含义是:精确性意味着检验在零假设下“不保守”,非精确性允许保守检验。 - 粗化过滤\(\mathcal{F}' \subseteq \mathcal{F}\)。统计含义是研究者故意忽略数据的某些细节(如只看样本均值,不看样本本身),这在经典统计中通常被认为会损失功效,但本文证明它能“创造”功效。

主要结果 - 定理 3.2(凸多面体下的精确存在性):若 \(\mathcal{P}, \mathcal{Q}\) 为凸多面体,存在精确 p-value 与精确 e-value(在 \(\mathcal{Q}\) 下随机更小/对数期望为正)的充要条件是 \(\mathcal{Q} \not\subseteq \text{span}(\mathcal{P})\)。直觉:\(\mathcal{Q} \subseteq \text{span}(\mathcal{P})\) 时,精确性约束(\(\mathbb{E}_P[e]=1\))将 e-value 在 \(\text{span}(\mathcal{P})\) 的支撑上锁定为常数,使得 \(\mathbb{E}_Q[e]\) 也被锁定为 1,无法产生功效;反之,若 \(\mathcal{Q}\) 逃出张成空间,存在自由度让 e-value 在 \(\mathcal{Q}\) 的支撑上取更大值。 - 定理 3.4(凸多面体下的非精确存在性):若 \(\mathcal{P}, \mathcal{Q}\) 为凸多面体且不相交(\(\mathcal{P} \cap \mathcal{Q} = \emptyset\)),则存在非精确的 p-value 与 e-value。直觉:放宽精确性约束后,只需在 \(\mathcal{P}\) 上取较小值、在 \(\mathcal{Q}\) 上取较大值,凸集分离定理(超平面分离)保证了这种取值的存在。 - 定理 4.3(一般集合下的 SOT 刻画):对非多面体的任意 \(\mathcal{P}, \mathcal{Q}\),有界非平凡 e-variable(期望在 \(\mathcal{P}\) 下精确为 1,在 \(\mathcal{Q}\) 下大于 1)存在的充要条件是:存在一个过滤 \(\mathcal{F}'\),使得 \(\mathcal{P}_{\mathcal{F}'}, \mathcal{Q}_{\mathcal{F}'}\) 之间存在一个 SOT 耦合,将 \(\mathcal{P}_{\mathcal{F}'}\) 的边际质量精确映射到 \(\mathcal{Q}_{\mathcal{F}'}\),且在 \(\mathcal{Q}_{\mathcal{F}'}\) 的支撑上具有正的传输密度。直觉:SOT 将“寻找 e-variable”转化为“寻找多边际的联合耦合”,e-variable 的值即为传输密度的倒数。

证明路线与技术技巧 - 整体路线(定理 3.2): 1. 将概率测度视为向量,将 \(\mathcal{P}, \mathcal{Q}\) 视为凸多面体。 2. 精确 e-value 的条件 \(\mathbb{E}_P[e]=1\) 对所有 \(P \in \mathcal{P}\) 构成一组线性方程,其解空间由 \(\text{span}(\mathcal{P})\) 的正交补决定。 3. 若 \(\mathcal{Q} \subseteq \text{span}(\mathcal{P})\),则 \(\mathbb{E}_Q[e]\) 被线性方程锁定为 1,对数期望必为 0,不可能存在。 4. 若 \(\mathcal{Q} \not\subseteq \text{span}(\mathcal{P})\),利用 \(\mathcal{Q}\) 逃出张成空间的自由度,构造一个在 \(\text{span}(\mathcal{P})\) 正交补方向上倾斜的 \(e\),使得 \(\mathbb{E}_Q[e] > 1\)。 - 关键跳跃点(定理 4.3 的 SOT 转化):难点在于一般集合没有有限维线性代数可用。作者跳跃到 SOT 框架,将 e-variable 的存在性转化为“是否存在一个向量值测度 \(\mu\),其边际分别为 \(\mathcal{P}\)\(\mathcal{Q}\) 的元素,且 \(\mu\) 的分量比值(即 \(dQ/dP\))构成一个有界非负函数”。这个转化的难点在于 SOT 的边际约束是向量值的,经典 MOT 只处理标量边际。 - 技术技巧点名: - 凸集分离定理:用于定理 3.4,在 \(\mathcal{P} \cap \mathcal{Q} = \emptyset\) 时构造非精确 e-value(超平面分离两个凸集)。 - 同步最优传输 (SOT):用于定理 4.3,处理向量值边际的耦合存在性(Wang & Zhang 2022 的框架)。 - 粗化过滤的迭代构造:用于定理 5.2,通过不断合并样本点(降低 \(\text{span}(\mathcal{P})\) 的维度),直到 \(\mathcal{Q}\) 逃出张成空间,显式算法构造非平凡 e-value。 - Shen et al. (2019) 的分布相容性:用于引理 3.5,将 e-variable 的存在性转化为分布的异质性序(多边际相容性)。

真实例子与应用 本文为纯理论 / 无实证例子。所有论点均通过抽象的概率空间与代数结构证明,未涉及具体数据集或模拟实验。

🔎 结论是否比证明窄 - 作者在摘要与引言中泛泛 claim:“我们回答了这些基本问题”,但严格证明仅覆盖了凸多面体(定理 3.2, 3.4)与有界 e-variable(定理 4.3)。对于无界 e-variable 在一般集合下的存在性,证明未覆盖,仅在第四节留下 conjecture。 - 定理 4.3 的 SOT 刻画要求 e-variable 有界,但作者在讨论时有时泛化为“非平凡 e-variable”,未明确强调有界性假设的必要性。研究者需核验:去掉有界性后,SOT 耦合是否仍存在?


四、开放问题(点到为止,扎根具体语句)

  1. 无界 e-variable 的存在性刻画:定理 4.3 证明了有界非平凡 e-variable 的存在性等价于 SOT 耦合的存在性。若去掉有界性假设,充要条件是什么?(扎根:Section 4 末尾对 boundedness 的讨论,及 Theorem 4.3 的陈述限制)。
  2. 弱拓扑与线性张成空间的包含关系:Bertanha & Moreira (2020) 用弱拓扑不可区分性刻画不可能推断,本文用线性张成空间刻画。两者在什么条件下等价或互斥?(扎根:Introduction 对 Kraft's theorem 与 Bertanha & Moreira 的引用,未深入对比拓扑条件)。
  3. 粗化过滤的最优性:本文给出了迭代粗化算法,但未回答“哪个粗化过滤能产生增长最快的 e-value”?这与 Larsson et al. (2024) 的 numeraire e-variable 在粗化过滤下的关系是什么?(扎根:Section 5 的迭代构造,及末尾提及的 fastest growth under a specific alternative)。
  4. 连续样本空间与鞅的构造:本文在有限 \(\Omega\) 上刻画了粗化过滤,对于连续时间/连续样本空间,如何构造复合非负鞅?(扎根:Section 6 的 conjecture on composite nonnegative martingales)。

提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论