跳转至

Reformulation Invariance and the Axiomatic Foundations of Inference

作者: Rapha\"el Tr\'esor, Thijs van de Laar, Bert de Vries
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.21551


一、领域脉络与小综述

这个方向是什么

本文致力于回答推断领域的一个基本问题:为什么在推断中通常使用 Kullback-Leibler (KL) 散度,而非其他散度(如 α-散度或一般的 f-散度)?作者从“重述不变性”(reformulation invariance)这一单一公理出发,证明它是唯一能通过一个自然的层次(一般 f-散度 → α-散度 → KL 散度)强制选择的散度。该子方向是推断的公理化基础,旨在为最大熵、贝叶斯更新和指数族估计等广泛使用的推断原则提供一个统一的、基于第一性原理的证明,其核心问题是:是否存在一组“理性”假设,能唯一地(或严格地限制)选择出那个“正确”的散度/推断规则? 该方向的成熟度较高,已有多个经典公理化体系,但争议(尤其是关于 KL 散度唯一性的争议)持续至今,表明核心问题尚未完全解决。

发展脉络 (history)

  1. 奠基工作:启发式原则与第一次公理化尝试

    • Jaynes [1957, 1982] 提出了最大熵原则,作为在约束下选择概率分布的启发式规则。
    • Shore 和 Johnson [1980]Csiszar [1991] 作出了开创性的第一次严格公理化。他们各自为一组看似合理的公理,证明了最小化某个特定散度(如 KL 散度或 I-散度)的推断算子是唯一满足这些公理的算子。作者指出,这些工作是“正确但在其定义域上是不完整的”,问题在于:(a) 它们将推断算子公理化为一种数值方法,因此 f-→ α-→ KL 的层次是事后重构的,而非自然涌现的;(b) 它们都局限于有限离散样本空间,没有处理一般可测空间的能力。
    • Csiszár [2008] 对这些早期工作进行了综述。
  2. 主要进展(与争议):唯一性之争与广义熵

    • Uffink [1995] 是一个关键节点。他尖锐地指出,Shore-Johnson 公理在有限离散空间上也没有唯一地选出 KL 散度,Rényi 散度族同样是兼容的,并且这些公理无法扩展到连续空间。这一争论引发了复杂系统物理学界的讨论:Pressé et al. [2013] 为 Shore-Johnson 公理辩护,反对Tsallis 型熵;Tsallis [2015] 则质疑其概念上对于广泛类别的系统是不充分的。
    • Jizba 和 Korbel [2019, 2020] 尝试调和,他们统一了 Shannon-Khinchin 和 Shore-Johnson 公理化,恢复了一个单参数的 Uffink-Jizba-Korbel 可容许熵族。这从侧面印证了 Uffink 的批评——在不引入额外结构的情况下,KL 散度并非唯一。
  3. 当前 Frontier(另一条路径):范畴论与信息论量的函数性表征

    • ˇCencov [1982] 是另一条路线的里程碑。他用范畴论工具刻画了统计模型,证明了 Fisher 度量是唯一满足马尔可夫核不变性的度量(后续再通过线性重参数化不变性孤立出来)。本文的结构与之高度相似。
    • Baez et al. [2011]Baez 和 Fritz [2014] 建立了信息论量(Shannon 熵、KL 散度)的函子性(functorial)表征。例如,Baez 和 Fritz 证明 KL 散度是唯一在有限范畴 FinStat 上满足函子性、凸线性、下半连续的信息损失分配。
    • Gagné 和 Panangaden [2018] 将这一表征从 FinStat 提升到了标准 Borel 空间。
    • Perrone [2024] 走了另一条路,她用散度丰富了一个马尔可夫范畴,以此来定义熵和互信息。作者指出,其一般情况下的数学处理是有问题的(因为原子分布上的熵退化)。
  4. 本文的位置 本文宣称自身是唯一一个同时满足以下所有条件的工作:

    • 推断算子本身(而非其数值或派生对象)作为待表征的对象。
    • 从一个单一的、自然的“重述不变性”原理出发,而不是一组数值或逻辑公理。
    • 通过依次增加独立性要求,自然地揭示了 f-散度 → α-散度 → KL 散度的内在层次,从而封闭了 Uffink 指出的唯一性缺口(该层次从 f-散度层排除 Tsallis 型熵,从 KL 层排除 Rényi 族)。
    • 通过自创的“序闭包”(ordering closure)构造,将有限空间上的结论推广到了一般 σ-有限可测空间,比早期公理化更一般。

子线索聚类

  1. (纯)推断算子的公理化:以 Shore-Johnson 和 Csiszár 为中心。目的是用一组独立的“理性”公理直接定义“好”的推断算子。主要瓶颈在于唯一性不强(Rényi 族依然可行)和只能处理有限离散空间。
  2. 信息论量的函数性/范畴论刻画:以 ˇCencov, Baez 和 Fritz 为中心。目标是证明某个信息理论量(散度、Fisher 度量)是唯一的、满足特定(函子)不变性的对象。瓶颈是它们表征的是派生的数值量(如散度值、熵值),而非推断算子本身。因此,它们无法像本文一样,从“重述不变性”自下而上地构造出整个推断过程。
  3. 最大熵和广义熵的物理/逻辑基础:以 Jaynes, Knuth 和 Skilling 为中心。从逻辑(如 Cox 定理)或序理论出发,同样以建立推断的基础为目标。本文指出 Knuth 和 Skilling 的思路“在精神上是正确的,但只是一个概念性的计划,而非一个被证明的定理”。本文的贡献之一是将贝叶斯更新作为其一个一致性公理的推论(Corollary 4.9.1)推导出来,而非将其作为一个先验假设。

这个方向在追问的核心问题

  1. 唯一性问题:哪一组最少的、最合理的公理能唯一地将推断算子确定为 KL 散度最小化?
  2. 可推广性问题:这些公理和结论能否从有限离散空间推广到连续空间乃至一般可测空间?
  3. 统一性问题:能否用一个统一的框架来推导出目前看似拼凑在一起的各种推断原则(最大熵、贝叶斯更新、指数族估计)?
  4. 选择问题:如果 KL 散度并非唯一合理的解,那么在不同的场景下(譬如涉及长尾分布的复杂系统),Tsallis 等广义熵是否拥有等价的逻辑地位?

⚠️ 作者的 framing

  • 作者的缺口框架:作者将之前的公理化(Shore-Johnson, Csiszár)定位为“可以正确,但不够好”。他们批评的两点是:(a) 它们依赖一系列“独立”的公理(如 Subset Independence, System Independence),而本文只有一个“组织原则”——重述不变性(reformulation invariance)。(b) 它们都缺少 σ-代数作为原始概念,因此无法处理一般可测空间。作者的这项工作,通过对“重述不变性”的形式化——将其等价为从信息范畴 I 到统计模型范畴 M 的一个协变函子——从而“变得显然”。
  • 被淡化或回避的竞争路线:作者反复强调,本文表征的是推断算子本身,与 Baez 等人表征派生数值量的工作有本质不同。这暗示了 Baez 路线虽然高雅,但在回答“为何是这个推断算子”这个核心问题上,不如本文直接。但他们没有深入比较,对于职能推断算子本身的后续推论(如为贝叶斯更新提供一个统一推导),他们的路线是否能给出类似的结论。
  • 未被引用的可能相关工作的张力:作者在 Section 6.2 的 Table 2 中,将他们的公理与 Shore-Johnson 和 Csiszár 进行了逐行对比。他们声称其额外的(I5)“线性变换一致性”公理对应 Csiszár 的“传递性”(Transitivity)公理,从而封闭了 KL 散度的唯一性,这是前人未做到的。这一点值得研究者去重点验证 Csiszár 原文中“传递性”公理的定义以及本文作者建立的映射关系是否成立。
  • 值得进一步验证的张力:从被引文献来看,一个潜在的张力存在于:本文强调,只有通过将重述不变性作为原始公理,才能统一公理化。而Uffink [1995] 的回应则是,即便在 Shore-Johnson 的更合理的公理下,KL 散度也并非唯一。本文说他们通过增加“严格正的可测加权”来排除 Rényi 族,从而“在他们的地盘上”封闭了唯一性缺口。这意味着 Uffink 的论证虽然成立,但忽略了 Shore-Johnson 框架中一个必要的结构(加权不变性)。但这到底是一个自然的结构补全,还是为了达成特定结论而引入的额外假设?论文作者认为是前者,因为“重述不变性”会自然要求加权不变性,因此这个假设是隐含的。这是一个有争议点,值得研究者带着批判去判断。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号

    • (Ω, A):可测空间,Ω 是样本空间,A 是其上的 σ-代数。
    • M(Ω, A)一切有限非负测度的集合(正的总质量)。这是“可观测”度量(或“推断目标”)的总体。
    • P, Q ∈ M(Ω, A):Q 是“参考测度”(prior/reference measure),P 是“变量测度”(后验/推断得出的测度)。P 和 Q 都是我们需要处理的数学对象。
    • A' ⊆ A:粗粒度 σ-代数(coarse σ-algebra)。它们对信息进行粗粒化编码。
    • P|A':测度 P 在粗粒度 σ-代数 A' 上的限制(coarse-graining)。它为 A' 的每个原子赋一个测度(质量)。
    • P^A':测度 P 的分布(profile)在 A' 分辨率下的表现,即给 A' 每个原子赋一个条件概率分布。它包含了子空间内的分布信息,但不包含总质量。
    • f: Ω → R₊:一个严格正的、A-可测的权(weighting)函数。f·P 表示用 f 对 P 进行加权:(f·P)(ω) = f(ω)P(ω)。这是用来定义“矩”信息的工具。
    • [P]:P 的射线(ray),即所有与 P 成比例的测度的集合:[P] = {c·P: c > 0}。它编码了 P 的分布轮廓(distribution profile),丢弃了关于总质量的信息。
    • I, I(Ω, A):信息集(information set),是 M(Ω, A) 的子集,代表一个推断问题里我们已知的约束。I(Ω, A) 是一个 σ-代数。
    • T:推断算子(inference operator),它接受一个信息集 I,返回该约束集内的一个子集 T(I) 作为推断结果(通常是单个点或凸集)。
  • 模型: 它是一个公理化的理想化模型,没有特定的数据生成过程。核心模型是:假设我们有一个“真实的”但未知的测度 P。我们关于 P 的知识由信息 I 来描述。一个理性的算子 T 必须基于这些信息产生一个推断(一个测度或测度集)。作者通过公理来定义理性,然后证明理性必然等价于最小化一个散度 DT(I) = argmin_{P∈I} D(P||Q)。这里的 Q 也是一个测度(先验),它本身不是自由的,而是由推理不变性强制得出的。

  • 可观测数据

    • 直接可观测:我们作为研究者,真正“看到”的是测度值。在论文的框架里,我们能看到一个参考测度 Q(通常作为已知的“数据生成机制”/“基准”)和一个候选测度 P。通过 T 操作,我们 “看到” 了 T(I) 这个测度集。
    • 潜在/不可观测
      • 不同信息集之间的等价关系(基于测度空间之间的可测映射的重述)。
      • 先验 Q在作者框架中是推断算子 T的一个内在属性(通过“Prior Consistent (I2)”公理构建的),而不是我们直接输入的。它源自 T 必须满足“信息尺度一致性”,从某种意义上说是隐藏在 T 的计算逻辑中的。
      • 细粒度的分布信息总质量信息。算子 T 必须能够区分两者,并且在独立处理它们(由独立性公理 (I4) 和 (I5) 要求)时,其内部的“分布参考”和“质量参考”必须是不同且独立的。

第二步:讲最小内核

  • 最简特例:有限离散的“建筑大楼”问题

  • 设定:一个建筑 B 有 3 层(F1, F2, F3),每层有若干房间 (R1F1…)。我们要推断在楼里的人数 P,即在每个房间、楼层、整栋楼的计数(P 是 M 上的点)。

  • 可观测数据: 我们知道各种形式的“信息”,但不知道真正的分布。这些信息以约束 I 的形式给出。 例如: - I₁: P(F1) = 5 (关于一楼总人数的约束) 。这个信息“生活”在粗粒度的 σ-代数 A_F("楼层")上,对更细的 σ-代数 A_R("房间")一无所知。 - I₂: 7 ≤ P(F2 ∪ F3) ≤ 12 (关于其他两层的约束)。同样在 A_F 上。 - 此外,我们还有一个参考测度 Q(相当于先验),它被证明是推断算子的一个内在属性。

  • 最小内核(重述不变性): - 核心问题:一个“好”的推断算子 T 必须保证:当用一个等价的方式重新表述同一个问题时,T 必须返回相同的答案。 - 内核的体现: 1. 标签重新标记 (Relabelling):将 F1 改名为“Ground floor”,一个理性的推断不应该因此改变房间内的人数分配。这对应了“函数性”的最基本要求:不同标签空间上定义的相同问题,应得到相同的结构。 2. 分离子问题 (Disjoint problems):关于 F1 的约束 I₁ 与关于 F2 ∪ F3 的约束 I₂ 没有提供任何将两人群联系起来的共同信息,因此它们是互相独立的。一个好的算子 T 在处理 I₁ 时必须独立于 I₂,这也是 T 在两种测度空间 (Ω1, A|F1)(Ω2, A|F2∪F3) 上的分解与组合的相容性要求。 3. 粗粒度信息 (Coarse-resolution information):如果信息只指定了楼层的合计人数,而没有描述房间分配。在环境 B 中,T 必须能将这些粗粒度约束 I_coarse 映射回细粒度空间,但不带有任何关于房间的信息。这意味着,在 A_R 分辨率上处理信息的方法,当其限制到 A_F 时,必须等价于直接在 A_F 上处理信息的方法。这对应了函数性中“推前 (pushforward)”图表的交换性。

  • 推论(最小内核如何产生层次): - 仅仅满足以上三条(⇒ 公理 I1~I3),作者的定理表明 T 必须对应某种 f-散度的最小化。f-散度是 KL 散度的广泛泛化(如 Pearson's χ², Hellinger)。 - 质量-分布独立性:在房间分配和楼层总数之间没有额外信息的情况下,我们要求:改变一个楼层的总人数约束(比如 5 人变成 7 人)不应该改变我们对房间比例的分配推断(假设无条件)。这要求算子 T 在处理“分布信息”(房间比例)和“质量信息”(楼层总数)时是独立的。这个独立性(公理 I4)将 f-散度族限制为了α-散度(只有 α-散度满足这种“质量-分布分离”属性)。 - 矩-分布独立性:如果对每个人的计数乘以一个正权重 f (比如房费),即统计加权的总价。如果我们有信息说“一楼的加权总价”或“房间一和二的价格比例”,那么改变前者(总价)不应影响后者的推断。这个“矩-分布独立性”(公理 I5)进一步将 α-散度族限制到了 KL 散度。这是只有 KL 散度(以及其对偶形式)才具有的性质:其最小化之后的条件分布(exponential family)独立于总质量。

总之,这个“建筑”例子完美地演示了如何通过一个简单的“重述不变性”要求,自然地、分层次地推导出 KL 散度的唯一性。重述不变性、独立性(质量/分布解耦、矩/分布解耦)通过序列“公理 I1~I3 → I4 → I5”来体现,而这些公理化序列正好对应着三种常见的散度:f-散度, α-散度, KL 散度。

三、这篇论文做了什么(本次重心,务必讲透)

三句话

  1. 研究了什么问题:证明了“重述不变性”——即当一个推断问题以等价形式呈现时,推断算子必须返回相同答案——这一单一公理唯一地、层次分明地决定了推断算子必然是对某个经典散度(f-散度 → α-散度 → KL 散度)的最小化。
  2. 核心工具/方法:作者绕过传统数值最小化的视角,将推断算子重新解释为在正测度构成的预序(preorder)中选择最小元。这种预序是通过一个协变函子(covariant functor)从“信息范畴”映射到“Cencov 的统计模型范畴”来构建的,函数性条件编码了重述不变性。
  3. 主要结论:在 σ-有限空间上,满足一组一致性公理(可被证明等价于上述函子)的推断算子必然等价于最小化一个 f-散度。加上质量-分布独立性(公理 I4),它被限制为 α-散度;加上矩-分布独立性(公理 I5),它被唯一确定为 KL 散度。另外,标签重标不变性强制先验为均匀分布 (Q uniform),将最小化散度变为最大化熵。

关键设定与假设

  • 可测空间及其上测度(E, E, ν) 是一个 σ-有限的测度空间。所有与 ν 绝对连续的测度 P 都用密度 p ∈ L¹₊(ν) 表示。这是公理化系统能适用于一般连续和抽象可测空间的基础。
  • 可容许信息集I(Ω, A)M(Ω, A) 上的一个 σ-代数,通过 ev 映射与 Borel σ-代数 R^{card(At(A))} 同构。这赋予了信息集合与逻辑运算 (AND、OR、NOT) 对应的结构。
  • “先验” Q:作者没有假设一个先验 Q,而是通过公理 I2(Prior Consistent)和函数性,证明了每个由函子性定义的推断算子都自然地携带一个参考测度 Q。这是推论,而非假设。
  • 很强但很自然的假设
    • 连续性:预序族是连续的,确保其能被数值表示。
    • 非平凡性:预序不是全序,确保在给定某些约束后仍有选择。
    • 族对比:不同测度空间的预序族是“测度一致”的(measure-consistent),这确保了重述不变性跨空间有效。

主要结果

  • 定理 4.4(散度表示定理):这是核心理论结果。

    • (i) 公理 O1-O3 (Locality + Reference-Measure + Upper Scale Consistency) ⇒ f-散度:S一个满足公理 O1(预序加性)、O2(参考测度给出最简答)、O3(上尺度一致性)的预序族,可以唯一地表示为一个连续严格凸函数 f 产生的 f-散度 D_q(p) = ∫ p(x) f(q(x)/p(x)) dν(x)
    • (ii) + 公理 O4 (Lower Scale Consistency) ⇒ α-散度:加上O4(分布分的独立于总质量的变化),f 被限定为幂函数(Rényi/Tsallis 家族对应的 α-散度)。
    • (iii) + 公理 O5 (Linear Map Invariance) ⇒ KL 散度:再加上 O5(矩的权重变换与分布推断无关),f 被唯一确定为 –log,即 KL 散度。
  • 定理 4.9(推断表示定理):这是从散度理论到推断算子 T 的并非平凡的直接推广。它表明,如果 T 满足推断的具体公理 (I1~I3)、(I4)、(I5),那么它们等价于在相应的约束集上自上而下地最小化上述散度。

  • 推论 4.9.1(贝叶斯特征化):这是该理论一个漂亮的应用——f-散度最小化是唯一的与贝叶斯条件化兼容的加法散度推断。这表明该理论统一了最大熵和贝叶斯推断。

证明路线与技术技巧

  • 整体路线(三步走 + 序闭包提升):

    1. 将算子转化为序 (Section 4.1):把 T 表示为在一个预序 上选择最小元,绕开了散度本身的数值结构。
    2. 在有限空间上证明 (Appendix A):使用 Debreu 的基数表示定理(Cardinal Representation Theorem),将公理 O1(局部性)转化为每个原子(atom)上独立性论证,从而刻画出了加性函数 d(q, p)。然后,通过公理 O2 和 O3 推导出 d 的形式为 p f(q/p)(通过函数方程 Lemma C.1 和 C.2)。这部分证明:
      • 公理 O1 + 连续性 ⇒ 加性可分离结构 D(Ω,A,Q)(P) = ∑_{a∈At(A)} d(Q(a), P(a)) (Lemma A.4)。
      • 公理 O2 + O3 ⇒ d(up, p) = f(u)p,其中 f 是凸函数,给出 f-散度 (Theorem A.5)。
      • 公理 O4 ⇒ 函数方程 f(xU) = a(U) f(x) + b(U) 的唯一解是幂函数和 –log,给出 α-散度 (Theorem A.6)。
      • 公理 O5 ⇒ 在 α-散度中,只有 f = –log 满足在多个不同的矩约束下给出同一个先验 Q,从而唯一决定 KL 散度 (Theorem A.8)。
    3. 提升到一般可测空间 (Appendix B):这是证明中最棘手的部分。
      • 关键跳跃:之前所有定理都在有限 σ-代数 A_ν 上成立,但我们需要一个在所有集上定义的预序。作者没有使用泛函分析(Bot-Banach空间)技术来直接处理 Radon-Nikodym 导数(这会非常复杂),而是通过一种新颖的序闭包 (ordering closure, Definition 4.3) 方法。
      • 构造:对任意密度 p,作者构建了一个递增的有限划分序列 (A_{p,k})_{k} ⊆ A_ν。通过包含这个序列的任意 Borel σ-代数 B_k,我们可以近似 p 在细粒度空间上的性质。然后通过在这些粗粒化的有限 σ-代数上的 D 值来定义 ⪯_{A_ν,q}
      • 技术难点与解法
        • 挑战:不同 p 可能有不同的收敛序列 A_{p,k},需要整个定义是良好且一致的。
        • 解法:使用 SupLim 定义,并通过 Lemma B.2 证明任意两个这样的构造定义出来的闭包在它们都定义良好的地方是一致的。具体来说,对于积分有限的 p(属于 ),Lemma B.4 证明 D_q(p) 是有限分割 D_{(E, A, qdν)}(pdν) 的上确界,保证了收敛性质。对于积分无限的 p,Lemma B.5 证明它们在序闭包中位于底部(劣于所有积分有限的 p),从而完整且一致地定义了整个序。
    4. 回到算子 (Section 5):作者将重述不变性正式化——证明了推断算子 T 是信息范畴 I 到测度范畴 M 的一个协变函子,而这一函数性等价于推断公理 (I1~I3)(及扩展公理 (I4), (I5))。从而完成了“不变性 ⇒ 公理化 ⇒ 散度最小化”的完整蓝图。
  • 技巧点名

    • Debreu 基数表示定理:用于证明公理 (O1) 能将关于全局测度的预序解构为每个原子上的可加可分离函数。
    • 函数方程 (Cauchy 类型):用于将公理 (O4) 和 (O5) 转化为 f 必须满足的方程(如 Lemma C.1, C.2),从而缩小散度族。
    • 序闭包 (Ordering Closure):一个巧妙的、初等的(functional-analysis-free)工具,局部定义了序,并证明了它等于全局定义下的 KL 散度。
    • 函子 (Functor):是连接“不变性”和“一致性公理”的核心桥梁。证明范畴之间的函子性等价于公理 (I1~I3) 是 Section 5 的核心。
    • Borwein 和 Lewis [1991] 的凸对偶: 用于证明 KL 散度是在 ADD 公理 (线性映射不变性) 下唯一保留“同一先验”的 α-散度。

真实例子与应用

论文本身是纯理论性的,没有任何真实数据例子、数值模拟或实际应用。全文是一个逻辑论证,从公理推导出结论。在 Section 3 的“指导性示例”(大楼例子)和 Figure 1 的数据(不同房间人数)只是为了形象地说明这些抽象公理的含义,而非作为实证应用。

🔎 结论是否比证明窄

  • 限制:(1) 最大熵(Q 均匀)的结论在 Theorem B.8 (一般可测空间) 中并未给出,仅在“自由先验”部分(Theorem B.6)中涉及。作者明确指出(Section 6.4):最大熵特例只在有限空间上成立,因为“一般可测空间上没有标准的均匀参考”。这是一个限定。
  • 潜台词:他们对经典公理化(Csiszar, Shore-Johnson)的批评在于它们只适用于有限离散空间。他们声称自己的公理覆盖一般可测空间。但细细品味,其唯一且核心的结论(KL 散度是唯一的)是在有限/离散问题上成立,然后通过序闭包扩展到一般空间,但序闭包本身只适用于被一个共同激励测度主导的测度。能否处理无主导的情况(广泛存在于统计模型中的奇异分布)被提及(Section 6.4)但未被解决,只是说 “这是一个极限”。
  • 声明:作者自豪地指出,他们“解决了 Uffink [1995]在其自己地盘上提出的唯一性问题”。这“自己地盘”可能很大程度上指:在有限离散空间上的分布Q 自由的)情形,Uffink 指出了 Rényi 族的存在性。本文通过增加 Linear Map Invariance 来封闭缺口。这确实是有力的反驳,但其实际限制在于:是否我们需要无差别的“矩-分布独立性”作为推断的第一原则?这取决于具体应用,因为某些推断问题(如方差不可分离)中,独立性假设可能不成立。

四、开放问题(点到为止,扎根具体语句)

  1. 非主导测度族:全文工作有一个潜在前提:所有我们比较的测度都绝对连续于一个固定的 σ-有限参考测度 ν。在 Section 6.4 中,作者承认“落在框架之外的,是质量相对于参考测度是奇异的,即没有密度的测度”。在统计学中,非主导模型无处不在(如非参数模型)。问题:能否将此公理化推广到处理不带密度(绝对连续不满)的度量,同时保持 KL 散度的唯一性?这扎根于 Section 6.4。

  2. 量子 / 非交换散度的推广:在 Section 7 (结论) 中,作者写下:“该框架自然欢迎向非交换和量子散度的扩展”。在量子信息论中,相对熵也存在,但往往缺乏像 f-散度那样类似经典概念的显式层次关系。问题:本文的公理(如“质量-分布独立性”或“线性映射不变性”)如何翻译到非交换概率空间?是否能证明某种量子相对熵是唯一满足“量子重述不变性”的散度?这扎根于 Section 7 的第一句。

  3. 与“结构约束”推断问题的交互:Section 7 提到“具有结构化约束的推断问题(出现在编码、估计和学习中)”。在机器学习中,我们还面对大量的结构学习问题(如因果图的结构推断)。问题:在推断结构化约束(如稀疏性约束、图模型中的模块性约束)下,是否还能保留“重述不变性”这一原则?这些“约束”往往本身是不变的(图结构的自然同构),但散度最小化的结果可能取决于约束的参数化。这扎根于 Section 7。

  4. 先验的最优性与数据驱动:在本文中,先验 Q 是由函数性强制导出的,而非来自数据。这在某种程度上是一个“逻辑必要”而非“统计推理”。问题:如果需要将先验 Q 同意被估计(或通过某种层级方法学习),这种重述不变性的逻辑是否会崩溃?或者,是否可以发展出一个具有“属性”层次结构的自解释框架,其中 Q 可以被视为一个母过程隐变量,其本身也可以由“更高不变性”推理得到?这来自对作者“Prior Consistent”公理性质的批判性思考(该公理将 Q 固定在 T 之中,而非视为可学习)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论