From List-Decodability to Proximity Gaps¶

作者: Yiwen Gao, Dongliang Cai, Yang Xu, Haibin Kan
来源: IEEE Transactions on Information Theory
主题: 其他
相关性: 1/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1109/tit.2026.3679739

一、领域脉络与小综述¶

这个方向是什么：这个子方向属于编码理论与密码学协议的交叉地带，核心统计/组合问题是：给定一个有限域上的线性码 \(C\)，如何高效且可靠地验证一批词是否“接近”该码。更具体地，它研究“proximity gap”——当一批词中存在远离码的字时，它们的随机线性组合仍然看起来远离码的概率有多大。这直接决定了密码协议（如零知识证明、多方计算）中 proximity testing 的 soundness 强度与查询复杂度。当前该方向在组合界与容量限理论层面已相当成熟，但在将 list-decodability（列表可解码性）系统转化为 proximity gap 的一般性框架上，仍处于刚被打通的阶段。

发展脉络： - 奠基工作：列表可解码性作为编码理论的核心概念，其组合界与容量限由 Guruswami–Sudan 等人奠定。Johnson bound 是连接相对距离与 list-decodability 参数的经典桥梁，它给出了任何码从距离 \(\Delta\) 到 list-size \(L\) 的普适转换。 - 主要进展：Proximity testing 与 interactive oracle proofs (IOP) 的兴起，使得“如何用极少查询验证一批词是否在码附近”成为密码协议的实际瓶颈。Ben-Sasson 等人（如 FRI 协议）将 Reed-Solomon 码的 proximity testing 推向实用，但 soundness 分析往往依赖码的特定代数结构。 - 当前 frontier：近两三年，研究者开始寻找更普适的 soundness 来源。Roth–Zamir (2022) 提出了“correlated agreement”的概念，为随机线性组合保持距离提供了组合解释；同时，多项工作（如 Berman–Roth–Zamir, 2023）开始探索从 list-decodability 直接推导 proximity gap 的可能性，但往往只针对特定码（如 MDS 码）或需要较强的代数假设。 - 本文的位置：本文提供了一个从任意 \((p,L)\)-list-decodable 码推导 proximity gap 的通用框架，不再依赖特定代数结构，而是纯粹基于组合界与 Johnson bound，并将结果落实到随机穿孔与折叠 Reed-Solomon 码这两个达到容量的经典码族上。

子线索聚类： 1. List-decodability 的组合与容量理论：关注码在多大噪声下仍能恢复出有限列表，核心是 Johnson bound、容量限、以及随机穿孔/折叠 RS 码的 list-decodability 证明（Guruswami–Rudra, 2008; Guruswami–Xing, 2013 等）。 2. Proximity testing 与 IOP 的 soundness 分析：关注密码协议中如何用低查询复杂度验证批量词的 proximity，核心是 soundness error 的组合界与查询数的权衡（Ben-Sasson et al., FRI; CAMI 等）。 3. Correlated agreement 与线性组合的距离保持：关注一批词的随机线性组合在什么条件下保持与码的距离，这是 proximity gap 的组合内核，也是 soundness 分析的基石（Roth–Zamir, 2022; Berman–Roth–Zamir, 2023）。

这个方向在追问的核心问题： 1. 给定一个 \((p,L)\)-list-decodable 码，包含 \(\delta\)-far 词的 \(t\) 个词的随机线性组合仍 \(\delta\)-far 的概率，能否给出仅依赖 \(p, L, t, q\) 的显式上界，而不依赖码的代数细节？ 2. 这个概率界能否做到关于 \(t\) 是线性的（linear proximity gap），从而在协议中支持大批量验证而不使 soundness error 随 \(t\) 爆炸？ 3. 对于达到 list-decoding 容量的码族（如折叠 RS 码），能否在 Johnson bound 的参数范围内直接继承线性 proximity gap？

⚠️ 作者的 framing： - 作者将缺口 frame 为：已有工作要么只针对特定码（如 MDS 码），要么需要额外的代数假设，缺乏一个从 list-decodability 到 proximity gap 的通用、纯组合转化框架。这使得本文的“显然下一步”就是：用 Johnson bound 把 list-decodability 参数直接映射成 proximity gap 界。 - 被淡化或回避的竞争路线：基于代数几何码或更高级数论结构的 proximity testing（如某些 IOP 协议用代数域的特定性质绕过组合界），作者未讨论这些路线是否能在更宽参数范围内达到更紧的界。 - 明显该被引却未出现的：关于 low-degree testing 与 RS 码 proximity 的经典 PCP 文献（如 Arora–Safra, 1998; Polischuk–Spielman, 1994），这些工作最早建立了 RS 码 proximity 的组合与代数基础，但 intro 中未提及。另外，关于 list-decodability 的平均-case 分析与随机码的文献（如 Guruswami–Håstad–Sudan, 2002 的平均-case list-decoding）也未出现，这可能限制了框架对非确定性码的适用性。值得研究者去查：这些遗漏是否意味着框架对非线性码或非 Johnson bound 可覆盖的参数范围有盲区。

张力：未见明显对立引用。已有工作在特定码上达到更紧界，本文在通用框架上放宽了代数假设但界可能稍松，两者在不同应用场景下互补而非矛盾。

二、这篇论文做了什么¶

三句话： ①研究了任意 \((p,L)\)-list-decodable 线性码的 proximity gap 问题，即包含 \(\delta\)-far 词的 \(t\) 个词的随机线性组合仍 \(\delta\)-far 的概率上界。 ②核心工具是 Johnson bound 与 list-decoding 的组合界，将 list-decodability 参数转化为距离保持的概率控制。 ③主要结论：对 \(\delta \le 1-\sqrt{1-p+\varepsilon}\)，该概率被 \(O\left(\frac{tL^2pn}{q} + \frac{t}{\varepsilon q}\right)\) 控制，且对随机穿孔与折叠 RS 码建立了线性 proximity gap。

关键设定与假设： - 线性码 \(C \subseteq \mathbb{F}_q^n\)：有限域 \(\mathbb{F}_q\) 上的长度 \(n\) 线性码，这是所有组合分析的基础；非线性码不在框架内。 - 最小相对距离 \(\Delta_C > p\)：码的任意两个码字间的相对 Hamming 距离大于 \(p\)。这保证了码本身有足够的纠错能力，是 Johnson bound 应用的前提。 - \((p, L)\)-list-decodable：任何与码距离不超过 \(p\) 的词，其附近最多有 \(L\) 个码字。这是框架的输入参数，替代了以往工作对码代数结构的直接依赖。 - \(\delta \le 1-\sqrt{1-p+\varepsilon}\)：这是 Johnson bound 将 \(\Delta_C > p\) 转化为 list-decodability 参数时自然出现的阈值，也是本文概率界成立的参数范围。统计含义：\(\delta\) 不能太大，否则随机组合可能“抹平”距离，Johnson bound 无法提供足够小的列表来控制概率。 - 随机线性组合：\(t\) 个词 \(\mathbf{w}_1, \dots, \mathbf{w}_t\) 在 \(\mathbb{F}_q\) 上的随机系数线性组合 \(\sum \alpha_i \mathbf{w}_i\)，系数均匀随机。这是 proximity testing 协议中验证者使用的标准操作。

主要结果： - Theorem 1（主定理，通用 proximity gap）：设 \(C\) 是 \(\mathbb{F}_q^n\) 上的 \((p, L)\)-list-decodable 线性码，\(\Delta_C > p\)，且 \(\delta \le 1-\sqrt{1-p+\varepsilon}\)。若 \(\mathbf{w}_1, \dots, \mathbf{w}_t\) 中至少有一个与 \(C\) 的距离 \(\ge \delta\)，则随机线性组合 \(\sum \alpha_i \mathbf{w}_i\) 与 \(C\) 的距离仍 \(\ge \delta\) 的概率不超过 \(O\left(\frac{tL^2pn}{q} + \frac{t}{\varepsilon q}\right)\)。 - 直觉：随机组合“投影”到码附近的空间中，由于码是 list-decodable 的，投影目标只有 \(L\) 个候选码字；每个候选能“吸收”组合的概率很小（约 \(1/q\) 量级），乘以列表大小 \(L\) 和维度 \(t\) 的组合数，得到总概率。 - 必要条件：\(\delta\) 必须在 Johnson bound 覆盖范围内（\(\le 1-\sqrt{1-p+\varepsilon}\)），否则 list-size 可能爆炸，概率界失效。 - 技术难点：如何将“至少一个词 \(\delta\)-far”的条件与随机组合的距离保持联系起来，而不依赖词的具体结构；作者通过将问题转化为“组合落入某个小列表附近”的计数，绕过了对词的依赖。 - Corollary（线性 proximity gap 对 RS 码族的应用）：对随机穿孔 Reed-Solomon 码与折叠 Reed-Solomon 码（在 Johnson bound 参数范围内已知达到 list-decoding 容量），主定理直接给出线性 proximity gap，即概率界关于 \(t\) 是线性的。 - 统计含义：在协议中验证 \(t\) 个词时，soundness error 只随 \(t\) 线性增长，而非指数或高阶多项式增长，这使得大批量验证在实际有限域（较小 \(q\)）上仍可行。

证明路线与技术技巧： - 整体路线： 1. 设定与目标：给定 \(t\) 个词，至少一个 \(\delta\)-far，要证随机线性组合 \(\delta\)-far 的概率小。 2. Johnson bound 转化：利用 \(\Delta_C > p\) 与 \(\delta \le 1-\sqrt{1-p+\varepsilon}\)，通过 Johnson bound 得到码在距离 \(\delta\) 附近的列表大小不超过 \(L\)（或其多项式级函数）。 3. 投影与计数：将随机线性组合的问题转化为：组合 \(\sum \alpha_i \mathbf{w}_i\) 落在某个固定码字 \(\mathbf{c}\) 的 \(\delta\)-附近（即距离 \(< \delta\)）的概率。由于 \(\mathbf{w}_i\) 中至少一个 \(\delta\)-far，该词与 \(\mathbf{c}\) 的距离 \(\ge \delta\)，随机系数 \(\alpha_i\) 使组合偏离 \(\mathbf{c}\) 的概率至少 \(1/q\) 量级。 4. 列表求和：对所有可能的候选码字（列表大小 \(L\)）求和，得到总概率界 \(O(tL^2pn/q)\)；同时处理 \(\varepsilon\)-余量带来的额外项 \(O(t/\varepsilon q)\)。 5. 线性码性质：利用线性码的封闭性，确保随机组合的结构不超出码的线性空间，从而将计数限制在 \(L\) 个候选而非整个空间。 - 关键跳跃点： - Lemma（从“至少一个 \(\delta\)-far”到“组合偏离每个候选”）：这是证明中最吃功夫的步骤。难点在于：即使一个词 \(\delta\)-far，其他词可能非常接近码，随机组合可能被“拉回”码附近。作者通过分析线性组合在固定候选码字上的投影，利用 \(\delta\)-far 词的偏离贡献与随机系数的独立性，证明组合偏离每个候选的概率有下界。 - Johnson bound 的参数映射：将 \(\Delta_C > p\) 与 \(\delta\) 的关系通过 Johnson bound 映射到 \(L\)，使得列表大小可控。这一步是纯组合的，但需要精确处理 \(\varepsilon\)-余量，否则界会变松。 - 技术技巧点名： - Johnson bound：经典组合工具，用于从码的最小距离推导 list-decodability 参数（列表大小）。在本文中起“桥梁”作用，将 \(\Delta_C > p\) 转化为 \(\delta\)-附近的列表大小 \(\le L\)。 - 线性空间投影与计数：将随机组合的概率问题转化为线性空间中投影的计数问题，利用有限域上随机系数的均匀性控制偏离概率。起“核心计算”作用。 - Correlated agreement 形式：将 proximity gap 的结论重新表述为“如果一批词的随机组合接近码，则这些词彼此在大部分位置上一致”的形式，这是密码协议 soundness 分析中的标准表述，起“应用转化”作用。

真实例子与应用： - 场景：随机穿孔 Reed-Solomon 码与折叠 Reed-Solomon 码的 proximity testing，这是零知识证明与多方计算协议中的核心组件。 - 怎么用上去：将主定理的通用界直接代入这两个码族的 list-decodability 参数（已知它们在 Johnson bound 范围内达到容量，即 \(L\) 有显式界），得到概率界 \(O(tL^2pn/q + t/\varepsilon q)\)。 - 得到什么结果：对这两个码族，概率界关于 \(t\) 是线性的，且在较小有限域（\(q\) 不太大）上仍可控制，使得协议的查询复杂度从以往的 \(O(t \log q)\) 级别降低到更实用的水平。 - 想说明什么：验证通用框架不是空壳，能直接落实到达到容量的经典码族上，且给出线性 proximity gap，改善协议的 soundness 与查询复杂度。

🔎 结论是否比证明窄： - 主定理的结论严格在 \(\delta \le 1-\sqrt{1-p+\varepsilon}\) 下证明，但 abstract 与 intro 中泛泛 claim “建立了从 list-decodability 到 proximity gap 的通用框架”，未明确强调 \(\delta\) 超出 Johnson bound 范围时框架失效。具体语句：Abstract 中 “for \(\delta \le 1-\sqrt{1-p+\varepsilon}\)” 是条件，但随后 “This result also establishes a form of (mutual) correlated agreement” 的表述未重申此限制，可能误导读者以为 correlated agreement 在更宽范围内成立。 - 对随机穿孔与折叠 RS 码的应用，结论依赖这些码在 Johnson bound 参数范围内达到 list-decoding 容量的已知结果；若 \(\delta\) 超出此范围，主定理的界不适用，但论文未明确讨论此边界外的替代方案或已知瓶颈。

三、开放问题¶

\(\delta\) 超出 Johnson bound 范围时的 proximity gap：主定理在 \(\delta > 1-\sqrt{1-p+\varepsilon}\) 时失效，此时列表大小 \(L\) 可能爆炸。要证/估：在此范围内，是否存在其他组合工具（如 list-decoding 的平均-case 界或代数几何界）能给出类似概率控制？扎根在主定理的 \(\delta\) 条件与 Abstract 对“通用框架”的泛泛 claim 之间的落差。
非线性码的 proximity gap：框架完全依赖线性码的封闭性与投影性质。要证：对非线性码（如某些代数几何码或随机码），随机组合（或其他组合方式）的距离保持概率能否用 list-decodability 控制？扎根在 intro 中只讨论线性码的设定，且未引用非线性码的 proximity testing 文献。
概率界的紧性：界 \(O(tL^2pn/q + t/\varepsilon q)\) 中 \(L^2\) 与 \(pn\) 的乘积可能偏松。要估：是否存在达到容量的码族，使得该界在常数因子内紧，或能改进到 \(O(tL/q)\) 级别？扎根在主定理的证明中列表求和步骤，每个候选的贡献可能被重复计算。

四、最核心、最简单的例子 / 数学问题¶

最简特例：\(t=1\)，单个词 \(\mathbf{w}\) 与码 \(C\) 的距离 \(\ge \delta\)，随机系数 \(\alpha\) 均匀取自 \(\mathbb{F}_q\)。

在这个特例下，要证的命题退化成： “若 \(\mathbf{w}\) 与 \(C\) 的距离 \(\ge \delta\)，则 \(\alpha \mathbf{w}\) 与 \(C\) 的距离仍 \(\ge \delta\) 的概率不超过 \(O(L^2pn/q + 1/\varepsilon q)\)。”

证明怎么走： 1. \(\alpha \mathbf{w}\) 与某个固定码字 \(\mathbf{c}\) 的距离 \(< \delta\)，意味着 \(\alpha \mathbf{w}\) 在 \(\mathbf{c}\) 的 \(\delta\)-球内。 2. 由于 \(\mathbf{w}\) 与 \(\mathbf{c}\) 的距离 \(\ge \delta\)，\(\mathbf{w}\) 不在 \(\mathbf{c}\) 的 \(\delta\)-球内；\(\alpha \mathbf{w}\) 进入该球需要 \(\alpha\) 满足特定约束（使 \(\mathbf{w}\) 的偏离位置被 \(\alpha\) 缩小）。 3. 在有限域上，\(\alpha\) 使 \(\alpha \mathbf{w}\) 落入 \(\mathbf{c}\) 的 \(\delta\)-球的概率 \(\le 1/q\)（因为 \(\mathbf{w}\) 至少有一个位置偏离 \(\mathbf{c}\)，\(\alpha\) 需精确匹配才能消除偏离）。 4. 对所有候选码字（列表大小 \(\le L\)）求和，总概率 \(\le L/q\)；加上 Johnson bound 余量项，得到 \(O(L/q + 1/\varepsilon q)\)。

为什么成立：核心是有限域上随机系数的“稀释”效应——一个偏离词的随机缩放，极大概率仍保持偏离，因为有限域的离散性使精确匹配概率极小。一般情形的证明只是在这个直觉上叠加 \(t\) 个词的组合计数与列表大小的求和，本质是同一个“稀释 + 计数”逻辑的加壳。

Maintained by 陈星宇 · Homepage · Source on GitHub

From List-Decodability to Proximity Gaps¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论