Strong duality for the GROW criterion¶
作者: Ashwin Ram, Martin Larsson, Johannes Ruf, Aaditya Ramdas
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.24768
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的根本问题是:在“通过下注进行假设检验”的框架下,如何为复合零假设 \( \mathcal{P} \) 与复合备择假设 \( \mathcal{Q} \) 设计最优的 e-变量(e-variable)。e-变量是一个非负随机变量 \( X \),满足对所有 \( P \in \mathcal{P} \) 有 \( \mathbb{E}_P[X] \le 1 \)。核心目标是最大化最坏情况下的对数期望收益,即求解 GROW (Growth Rate that is Optimal in the Worst case) 值:
发展脉络¶
- 奠基工作:Kelly 准则与赌注检验
- Kelly (1956), Breiman (1961), Cover (1987):提出在赌博或投资中最大化对数财富的准则,为“通过下注进行检验”提供了思想源头。
- Shafer (2021):系统阐述了“通过下注进行检验”的统计哲学,将赌注与证据联系起来。
-
Grünwald, de Heide, Koolen (2024a):正式提出 GROW 准则与 s-值(safe test)框架,将最优 s-值与联合信息投影(JIPr)联系起来,并给出了强对偶成立的充分条件(如 \( \mathcal{P}, \mathcal{Q} \) 具有共同控制测度且相对熵有限)。留下的口子:他们的充分条件较强,且未处理无界 e-变量的一般情形。
-
主要进展:简单备择下的完全刻画
- Larsson, Ramdas, Ruf (2025):对任意复合零假设 \( \mathcal{P} \) 与简单备择 \( \mathcal{Q} = \{Q\} \),证明了无任何限制下的强对偶:
\[\sup_{X \in \mathcal{E}} \mathbb{E}_Q[\log X] = \inf_{P \in \mathcal{P}_{\text{eff}}} H(Q \| P),\]并识别出“计价单位 e-变量”(numeraire)与反向信息投影(RIPr)。留下的口子:仅处理了简单备择,复合备择情形未解决。
- Lardy, Grünwald, Harremoës (2024):将 RIPr 推广到相对熵无穷的情形,扩展了 GROW 准则的适用范围。
-
Li (1999):早期关于信息投影与最优检验的工作,为后续发展提供了基础。
-
当前 frontier:复合备择下的强对偶与正则性条件
- Huber & Strassen (1973):在“最不利分布对”(least favorable distribution pair)存在的强假设下,证明了 \( G = \inf_{P \in \mathcal{P}} \inf_{Q \in \mathcal{Q}} H(Q \| P) \)。留下的口子:该假设非常强,不适用于许多非参数情形。
- Saha & Ramdas (2025):给出了 Huber 稳健似然比检验的 e-值框架,并提供了相对熵对偶的自包含证明。
- Arnold & Clerico (2026):首次在非相互绝对连续假设下,为有界随机变量的均值检验导出了最优 e-值,并比较了 GROW 与 REGROW 准则。
- Larsson, Ruf, Ramdas (2026b):完成了 Le Cam 关于可检验性(testability)的纲领,证明了无任何假设下,非平凡检验存在当且仅当 \( \text{co}^*(\mathcal{P}) \) 与 \( \text{co}^*(\mathcal{Q}) \) 在总变差距离下分离。本文的位置:本文是 Larsson et al. (2025) 从简单备择到任意复合备择的推广,其结构与 Larsson et al. (2026b) 平行——将总变差距离替换为相对熵,将检验替换为有界 e-变量,将 minimax 风险替换为 GROW 准则。
子线索聚类¶
- 信息投影与对偶理论:Csiszár (1975, 1984), Topsøe (1979), Li (1999), Lardy et al. (2024), Larsson et al. (2025)。这一簇关注相对熵的变分刻画、I-投影、反向 I-投影及其在最优 e-变量中的应用。
- 赌注检验与 e-值框架:Kelly (1956), Breiman (1961), Cover (1987), Shafer (2021), Grünwald et al. (2024a), Ramdas & Wang (2025)。这一簇将假设检验重新解释为赌博游戏,强调 e-值的序贯性质与可合并性。
- 可检验性与 minimax 检验:Kraft (1955), Huber & Strassen (1973), Larsson et al. (2026b)。这一簇关注在什么条件下存在非平凡检验,以及 minimax 最优检验的构造。
- 特殊模型下的最优 e-值:Arnold & Clerico (2026), Saha & Ramdas (2025), Ram & Ramdas (2026)。这一簇针对具体统计问题(有界均值、稳健检验、增长速率)导出显式最优 e-变量。
这个方向在追问的核心问题¶
- 强对偶何时成立? 即 \( G = \inf_{Q \in \mathcal{Q}} \inf_{P \in \mathcal{P}_{\text{eff}}} H(Q \| P) \) 是否成立?需要哪些正则性条件?
- 有界 e-变量与无界 e-变量的差距有多大? 即 \( G_b \) 与 \( G \) 何时相等?何时严格不等?
- 如何构造达到最优的 e-变量? 在复合备择下,最优 e-变量是否总是似然比形式?何时存在?
- REGROW 准则的强对偶如何刻画? 当引入偏移函数 \( \xi \) 后,对偶形式如何变化?
当前主流方法与已知瓶颈:主流方法是通过凸对偶与信息投影建立强对偶。瓶颈在于:对于无界 e-变量,强对偶需要额外假设(如紧性、控制测度、相对熵有限),且存在反例表明这些假设不能完全去掉。
⚠️ 作者的 framing¶
作者将缺口 frame 成:“Larsson et al. (2025) 只处理了简单备择,本文将其推广到任意复合备择。” 他们淡化或回避的竞争路线包括: - Huber-Strassen 的最不利分布对方法:作者指出其假设太强(需要 LFD 存在),但未深入讨论 LFD 与 JIPr 之间的精确关系。 - Grünwald et al. (2024a) 的充分条件:作者指出其假设(如 \( H(Q \| Q') < \infty \) 对所有 \( Q, Q' \in \mathcal{Q} \))比本文的 JIPr 存在性更强,但未系统比较两者的适用范围。
什么明显该被引 / 该存在、却没出现在 intro 里?
- 关于计算复杂度的讨论:本文完全未涉及 e-变量的计算成本。对于高维或非参数问题,构造最优 e-变量可能涉及高维积分或优化,其计算可行性是一个自然的问题。这与研究者对“统计-计算权衡”的兴趣直接相关。
- 高阶 e-变量:本文只考虑单个 e-变量,未讨论如何组合多个 e-变量(如通过乘积或合并)来提升检验功效。这与研究者对高阶 U-统计量的兴趣有潜在联系。
张力¶
未见明显对立引用。各工作主要在假设强度与适用范围上存在差异,而非根本性矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号:
- \( (\Omega, \mathcal{F}) \):可测空间,样本空间。
- \( \mathcal{M} \):\( \mathcal{F} \) 上的有限符号(countably additive)测度集合。
- \( \mathcal{M}_+, \mathcal{M}_1 \):非负测度、概率测度。
- \( \mathcal{P} \subseteq \mathcal{M}_1 \):复合零假设,研究者声称数据来自某个 \( P \in \mathcal{P} \)。
- \( \mathcal{Q} \subseteq \mathcal{M}_1 \):复合备择假设,怀疑者认为数据来自某个 \( Q \in \mathcal{Q} \)。
- \( X \):e-变量,非负随机变量,满足 \( \mathbb{E}_P[X] \le 1 \) 对所有 \( P \in \mathcal{P} \)。
- \( \mathcal{E} \):所有 e-变量的集合。
- \( \mathcal{E}_b \):所有有界 e-变量的集合。
- \( \mathcal{P}_{\text{eff}} \):有效零假设,定义为 \( \{ P \in \mathcal{M}_+ : \mathbb{E}_P[X] \le 1 \text{ for all } X \in \mathcal{E} \} \)。
- \( \text{co}^*(S) \):集合 \( S \subseteq \mathcal{M}_1 \) 在 \( \text{ba} \)(有界有限可加测度空间)中的弱-*闭凸包。
- \( H(Q \| P) \):相对熵(Kullback-Leibler 散度),定义扩展到 \( \text{ba}_1 \)。
- \( G = \sup_{X \in \mathcal{E}} \inf_{Q \in \mathcal{Q}} \mathbb{E}_Q[\log X] \):GROW 值。
-
\( G_b = \sup_{X \in \mathcal{E}_b} \inf_{Q \in \mathcal{Q}} \mathbb{E}_Q[\log X] \):有界 GROW 值。
-
模型:数据生成机制未知,但研究者假设其属于 \( \mathcal{P} \) 或 \( \mathcal{Q} \)。没有指定任何参数形式或分布族。这是一个非参数假设检验问题。
-
可观测数据:研究者观测到一个样本 \( \omega \in \Omega \)。e-变量 \( X(\omega) \) 是一个可观测的随机变量(赌注的回报)。想要但观测不到的是数据真正的分布 \( P \) 或 \( Q \)。所有推断都基于对 \( X \) 的期望约束 \( \mathbb{E}_P[X] \le 1 \)。
第二步:讲最小内核¶
最简特例:考虑有限样本空间 \( \Omega = \{1, 2, \dots, d\} \),且 \( \mathcal{P} \) 和 \( \mathcal{Q} \) 都是概率单纯形 \( \Delta_d \) 中的凸紧集。假设 \( \mathcal{P} \) 在所有坐标上都有正质量(即 \( \sup_{P \in \mathcal{P}} P_i > 0 \) 对所有 \( i \))。
在这个特例下,所有 e-变量自动有界(因为取值有限),所以 \( \mathcal{E} = \mathcal{E}_b \),\( G = G_b \)。本文的定理 4.23 断言:
为什么这是最小内核? 因为: - 有限样本空间消除了所有测度论与拓扑的复杂性(弱-*闭包、有限可加性等)。 - 凸紧性保证了最小化问题有解。 - 正质量假设保证了似然比有限。 - 这个特例直接展示了本文核心结论的本质:GROW 值等于两个凸集之间的最小相对熵,最优 e-变量是达到该最小值的分布对的似然比。
核心思路:在有限情形下,问题退化为一个凸优化问题。\( \sup_{X} \inf_{Q} \mathbb{E}_Q[\log X] \) 可以通过 minimax 定理与相对熵的变分表示转化为 \( \min_{Q} \min_{P} H(Q \| P) \)。证明的关键是 Sion 的 minimax 定理与相对熵的 Donsker-Varadhan 表示。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在复合零假设 \( \mathcal{P} \) 与复合备择假设 \( \mathcal{Q} \) 下,刻画有界 e-变量与无界 e-变量的 GROW 值,建立强对偶定理。
- 核心工具 / 方法:凸对偶(Sion 的 minimax 定理)、弱-*拓扑下的信息投影、相对熵的 Donsker-Varadhan 变分表示、Yosida-Hewitt 分解、有限可加测度。
- 主要结论:对于有界 e-变量,无任何假设下强对偶成立:\( G_b = \min_{P \in \text{co}^*(\mathcal{P}), Q \in \text{co}^*(\mathcal{Q})} H(Q \| P) \)。对于无界 e-变量,强对偶在若干正则性条件下成立(如 \( \mathcal{P} \) 为单点、JIPr 存在、\( \mathcal{Q} \) 集态紧、\( \mathcal{P}, \mathcal{Q} \) 弱紧等),并给出反例表明这些条件不能完全去掉。
关键设定与假设¶
- 基本设定:\( (\Omega, \mathcal{F}) \) 是一般可测空间,\( \mathcal{P}, \mathcal{Q} \subseteq \mathcal{M}_1 \) 是任意非空子集。
- 有界 e-变量情形(定理 3.1):无任何假设。结论涉及弱-*闭凸包 \( \text{co}^*(\mathcal{P}), \text{co}^*(\mathcal{Q}) \),其中闭包在 \( \text{ba} \)(有界有限可加测度空间)中取。
- 无界 e-变量情形:
- 定理 4.2(单点零假设):\( \mathcal{P} = \{P\} \),\( \mathcal{Q} \) 凸,且满足假设 4.1(如 \( H(Q \| \text{GIPr}) < \infty \) 对所有 \( Q \in \mathcal{Q} \))。相比 Grünwald et al. (2024a):纠正了其证明中的错误,指出 GIPr 不一定属于 \( \mathcal{Q} \),因此 \( G \) 不一定等于 \( H(\text{GIPr} \| P) \)。
- 定理 4.10(JIPr 存在):存在联合信息投影对 \( (P^*, Q^*) \in \mathcal{P}_{\text{eff}} \times \mathcal{Q}_I \) 满足定义 4.7,且假设 4.9 成立。相比 Grünwald et al. (2024a):去掉了 \( H(Q \| Q') < \infty \) 对所有 \( Q, Q' \in \mathcal{Q} \) 的要求。
- 定理 4.17(\( \mathcal{Q} \) 集态紧):\( \mathcal{Q} \) 凸且集态紧(setwise compact),\( \mathcal{P} \) 任意。集态紧是一个强假设,等价于存在一个有限测度 \( \mu \) 使得 \( \mathcal{Q} \) 关于 \( \mu \) 一致绝对连续。
- 定理 4.19(\( \mathcal{P}, \mathcal{Q} \) 弱紧):\( \Omega \) 为 Polish 空间,\( \mathcal{P}, \mathcal{Q} \) 凸且弱紧。此时结论涉及连续有界 e-变量。
- 定理 4.23(有限样本空间):\( \Omega \) 有限,\( \mathcal{P}, \mathcal{Q} \) 凸紧,\( \mathcal{P} \) 在所有坐标上有正质量。
主要结果¶
-
定理 3.1(有界 GROW 的强对偶):对任意 \( \mathcal{P}, \mathcal{Q} \subseteq \mathcal{M}_1 \),
\[G_b = \min_{P \in \text{co}^*(\mathcal{P}), Q \in \text{co}^*(\mathcal{Q})} H(Q \| P),\]且最小值可达。直觉:有界 e-变量无法区分“太接近”的分布,因此需要将 \( \mathcal{P}, \mathcal{Q} \) 扩充到它们的弱-闭凸包(包含有限可加测度)才能得到精确对偶。必要条件:无。解决的技术难点*:需要将相对熵的定义扩展到有限可加测度,并证明其变分表示(引理 2.4)与 Yosida-Hewitt 分解下的性质(命题 2.5)。 -
定理 4.2(单点零假设的强对偶):若 \( \mathcal{P} = \{P\} \),\( \mathcal{Q} \) 凸,且假设 4.1 成立,则
\[G = \inf_{Q \in \mathcal{Q}} H(Q \| P),\]且最优 e-变量为 \( dQ_{\text{GIPr}} / dP \)。直觉:当零假设为单点时,问题简化为寻找 \( P \) 在 \( \mathcal{Q} \) 上的广义 I-投影。必要条件:假设 4.1 确保 GIPr 的似然比在 \( \mathcal{Q} \) 上具有一致的下界。解决的技术难点:纠正了 Grünwald et al. (2024a) 中关于 GIPr 属于 \( \mathcal{Q} \) 的错误假设。 -
定理 4.19(弱紧下的强对偶):若 \( \Omega \) 为 Polish 空间,\( \mathcal{P}, \mathcal{Q} \) 凸且弱紧,则
\[G = G_b = G_{bc} = \min_{Q \in \mathcal{Q}} \min_{P \in \mathcal{P}} H(Q \| P),\]其中 \( G_{bc} \) 是连续有界 e-变量的 GROW 值。直觉:弱紧性保证了 Sion 的 minimax 定理可以直接应用于连续函数空间,无需引入有限可加测度。必要条件:Polish 空间与弱紧性。解决的技术难点:需要证明鲁棒的 Donsker-Varadhan 公式(引理 4.20),即 \( \sup_{g \in C_b} \inf_{P \in \mathcal{P}} (\mathbb{E}_Q[g] - \log \mathbb{E}_P[e^g]) = \min_{P \in \mathcal{P}} H(Q \| P) \)。
证明路线与技术技巧¶
以定理 3.1(有界 GROW)为例:
- 整体路线:
- 步骤 1:将 e-变量 \( X \) 替换为 \( g = \log X \),定义 \( \Gamma = \{ g \in B_b : \sup_{P \in \mathcal{P}} \mathbb{E}_P[e^g] \le 1 \} \)。通过引理 3.9,将 \( G_b \) 转化为 \( \sup_{g \in \Gamma} \inf_{Q \in \mathcal{Q}} \mathbb{E}_Q[g] \)。
- 步骤 2:引入偏移函数 \( \xi \) 的凹双共轭 \( \xi^{\star\star}_{\mathcal{Q}} \),通过引理 3.8 将 \( \inf_{Q \in \mathcal{Q}} \mathbb{E}_Q[g] \) 替换为 \( \inf_{\nu \in \text{co}^*(\mathcal{Q})} (\int g d\nu - \xi^{\star\star}_{\mathcal{Q}}(\nu)) \)。
- 步骤 3:应用 Sion 的 minimax 定理交换 \( \sup_{g \in \Gamma} \) 与 \( \inf_{\nu \in \text{co}^*(\mathcal{Q})} \),得到 \( \inf_{\nu \in \text{co}^*(\mathcal{Q})} \sup_{g \in \Gamma} (\int g d\nu - \xi^{\star\star}_{\mathcal{Q}}(\nu)) \)。
- 步骤 4:利用引理 3.10(单点备择的对偶)计算 \( \sup_{g \in \Gamma} \int g d\nu = \min_{\mu \in \text{co}^*(\mathcal{P})} H(\nu \| \mu) \)。
-
步骤 5:结合步骤 3 与 4,得到 \( G_b = \min_{\mu \in \text{co}^*(\mathcal{P}), \nu \in \text{co}^*(\mathcal{Q})} (H(\nu \| \mu) - \xi^{\star\star}_{\mathcal{Q}}(\nu)) \)。令 \( \xi = 0 \) 即得定理 3.1。
-
关键跳跃点:
- 从 e-变量到 \( \Gamma \) 的转化(引理 3.9):需要处理 \( \log X \) 可能无界的问题。技巧是引入 \( X_\varepsilon = \varepsilon + (1-\varepsilon)X \),使得 \( \log X_\varepsilon \) 有界,然后取极限。
- 凹双共轭的引入(引理 3.8):需要证明 \( \xi^{\star\star}_{\mathcal{Q}} \) 是弱-上半连续且凹的,并且等式 (14) 成立。这依赖于 \( \text{co}^*(\mathcal{Q}) \) 的弱-紧性(Banach-Alaoglu 定理)。
-
单点备择的对偶(引理 3.10):需要将 \( \sup_{g \in \Gamma} \int g d\nu \) 与 \( \min_{\mu \in \text{co}^*(\mathcal{P})} H(\nu \| \mu) \) 联系起来。关键工具是相对熵的 Donsker-Varadhan 表示(引理 2.4)与 Sion 的 minimax 定理。
-
技术技巧点名:
- Sion 的 minimax 定理:用于交换 \( \sup \) 与 \( \inf \),是整篇论文的核心工具。
- Banach-Alaoglu 定理:保证 \( \text{co}^*(\mathcal{P}) \) 和 \( \text{co}^*(\mathcal{Q}) \) 在 \( \text{ba} \) 中是弱-*紧的。
- Yosida-Hewitt 分解:用于将有限可加测度分解为可数可加部分与纯有限可加部分,从而将相对熵的定义扩展到 \( \text{ba}_1 \)(命题 2.5)。
- Donsker-Varadhan 变分表示:将相对熵表示为 \( \sup_{g \in B_b} (\int g dQ - \log \int e^g dP) \),是建立对偶的关键。
- 分布一致的单调收敛定理(引理 4.16):在集态紧假设下,用于处理无界 e-变量的极限。
真实例子与应用¶
本文包含多个理论例子,但没有真实数据应用。例子包括: - 例 3.2:展示 \( \mathcal{P}_{\text{eff}} \) 与 \( \text{co}^*(\mathcal{P}) \) 的必要性。\( \Omega = [0,1] \),\( \mathcal{P} \) 是 \( P_0 = \varepsilon U + (1-\varepsilon)\delta_0 \) 与所有 Dirac 测度的凸包,\( \mathcal{Q} = \{U\} \)。说明 \( \inf_{P \in \mathcal{P}} H(Q \| P) \) 可以很大,但 \( \inf_{P \in \text{co}^*(\mathcal{P})} H(Q \| P) = 0 \)。 - 例 3.3:展示最小化对 \( (P^*, Q^*) \) 可以是纯有限可加的。\( \Omega = \mathbb{N} \),\( \mathcal{P} = \{P_n\} \),\( \mathcal{Q} = \{Q_n\} \),其中 \( P_n, Q_n \) 是经验分布。说明弱-闭包的必要性。 - 例 4.3:展示即使 \( \inf_{Q \in \mathcal{Q}} H(Q \| P) < \infty \),强对偶也可能失败。\( \Omega = [0,1] \),\( \mathcal{P} = \{U\} \),\( \mathcal{Q} \) 包含 \( Q_0 \) 与所有 Dirac 测度的凸包。说明需要额外假设(如假设 4.1)。 - 例 5.1:展示 \( G > G_b \) 可以发生。\( \Omega = \mathbb{N}_0 \),\( \mathcal{P} = \{\frac{1}{2}\delta_0 + \frac{1}{2}\delta_1\} \),\( \mathcal{Q} = \{Q_n\} \) 其中 \( Q_n = \frac{1}{n}\delta_n + (1-\frac{1}{n})\delta_0 \)。说明即使有共同控制测度,有界与无界 e-变量也可能有本质区别。 - 例 5.5*:高斯均值漂移与重尾离群值。\( \mathcal{P} = \{N(0,1)\} \),\( \mathcal{Q} \) 包含 \( N(\theta,1) \) 与 Student-t 分布的混合。展示“屏蔽定理”(定理 5.4)的应用:通过一个在“坏”备择上具有无穷对数期望的 e-变量来保护 GROW 值。
🔎 结论是否比证明窄¶
- 定理 3.1 的结论与证明一致:强对偶对任意 \( \mathcal{P}, \mathcal{Q} \) 成立,证明完整。
- 定理 4.2 的结论与证明一致:在假设 4.1 下成立。但作者在例 5.3 中承认,Grünwald et al. (2024a) 的结论(\( G = H(\text{GIPr} \| P) \))在一般情况下不成立,本文的假设 4.1 是更弱的充分条件。
- 定理 4.10 的结论与证明一致:在 JIPr 存在且假设 4.9 下成立。但作者在例 4.8 中展示,JIPr 存在(满足 (i)(ii))不一定意味着条件 (iii)(即 \( (P^*, Q^*) \) 达到 \( \inf_{P \in \mathcal{P}_{\text{eff}}, Q \in \mathcal{Q}} H(Q \| P) \))成立。
- 第 6 节“Summary”:作者明确写道:“It remains open to what extent such restrictions are necessary... it remains open whether some alternative universal dual representation for unbounded GROW exists.” 这表明对于无界 e-变量,是否存在一个“无假设”的强对偶定理仍然是一个开放问题,本文的结论比这个更窄。
四、开放问题¶
-
无界 GROW 的通用强对偶是否存在? 作者在第 6 节明确写道:“it remains open whether some alternative universal dual representation for unbounded GROW exists.” 扎根于论文第 26 页第 6 节。目前已知的反例(例 4.3、5.2)表明简单的相对熵对偶不成立,但可能存在其他形式的对偶表示。
-
有界与无界 GROW 的差距何时严格为正? 例 5.1 展示了 \( G > G_b \) 可以发生,但刻画这一差距的充分必要条件是什么?扎根于论文第 22 页例 5.1 与第 26 页第 6 节。
-
JIPr 存在的充分条件是什么? 定义 4.7 给出了 JIPr 的概念,但除了通过 RIPr 与 GIPr 的构造外,是否存在更直接的刻画?扎根于论文第 14 页定义 4.7 与第 15 页定理 4.10。
-
计算可行性:本文完全未讨论最优 e-变量的计算成本。对于高维或非参数问题,构造 JIPr 或求解 minimax 问题可能涉及高维优化。这与研究者对“统计-计算权衡”的兴趣直接相关。扎根于论文未涉及的部分,但这是一个自然的延伸。
Maintained by 陈星宇 · Homepage · Source on GitHub