跳转至

Finite-sample bounds for regularized optimal transport

作者: Alberto González-Sanz, Marcel Nutz, Austin J. Stromme
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.25947


一、领域脉络与小综述

这个方向是什么

这个子方向研究的是正则化最优传输(Regularized Optimal Transport, ROT)的有限样本复杂度。根本的统计问题是:给定两个概率分布 \(P\)\(Q\) 的 i.i.d. 样本,如何用正则化后的 OT 代价函数 \( \widehat{\text{OT}}_{\phi,\varepsilon} \) 去估计其总体版本 \( \text{OT}_{\phi,\varepsilon} \),并给出非渐近的偏差与方差界,且显式依赖正则化参数 \(\varepsilon\) 和边际分布的(内在)维度。当前成熟度:对于熵正则化(EOT),已有若干有限样本界和中心极限定理;对于 \(L^p\) 正则化(特别是 QOT),直到最近才出现参数化收敛率的结果,但常数未被量化,且 \(p>2\) 的情形此前完全未知。

发展脉络

  1. 奠基工作:未正则化 OT 的“维度诅咒”

    • Fournier & Guillin (2015)Dudley (1968) 证明了经验 OT 代价收敛到总体 OT 代价的速率一般为 \(n^{-1/d}\),即遭受维度诅咒。这直接催生了正则化 OT 的研究。
  2. 主要进展:熵正则化(EOT)的突破

    • Cuturi (2013) 从计算角度推广了 EOT,指出其可通过 Sinkhorn 算法高效求解。
    • Genevay et al. (2019) 首次证明 EOT 可以避免维度诅咒(对固定 \(\varepsilon>0\)),但常数关于 \(1/\varepsilon\) 是指数级的。
    • Mena & Niles-Weed (2019)Rigollet & Stromme (2022) 将常数改进为多项式依赖(对光滑或 Lipschitz 成本),而 Stromme (2023) 进一步揭示了“最小内在维度缩放(MID scaling)”现象,即收敛率只取决于两个边际中更简单的那一个的内在维度。
    • del Barrio et al. (2022)Goldfeld et al. (2022) 等建立了 EOT 的中心极限定理,证明了 \(\sqrt{n}\) 收敛率,但常数未被量化。
  3. 当前 Frontier:替代正则化(\(L^p\) / QOT)的样本复杂度

    • Blondel et al. (2017), Lorenz et al. (2019), Essid & Solomon (2017) 等开始研究 \(L^2\) 正则化(QOT)等替代方案,发现其能产生稀疏的传输计划,与 EOT 的全支撑形成对比。
    • Eckstein & Nutz (2022) 给出了正则化 OT 的收敛率,但依赖于量化维度。
    • González-Sanz, Eckstein & Nutz (2025)González-Sanz, del Barrio & Nutz (2025) 分别对 \(p\in[1,2)\)\(p=2\) 的 Tsallis 正则化证明了中心极限定理,首次暗示了参数化收敛率。,这些 CLT 的证明依赖于紧性论证,无法量化常数,因此无法与 EOT 的有限样本界进行直接比较。
    • 本文的位置:本文填补了上述空白,首次为一般凸正则化(包括 \(L^p\) 正则化,\(1<p<\infty\))提供了完全量化的有限样本界,统一并改进了 EOT 的现有结果,并首次给出了 \(p>2\) 的参数化收敛率。

子线索聚类

  1. 熵正则化(EOT)的样本复杂度:以 [22, 39, 47, 44, 18] 为代表,核心是证明 EOT 能避免维度诅咒,并不断改进常数(从指数到多项式)和揭示内在维度缩放。本文在此基础上,通过新的证明技术(见下文)改进了 EOT 的有限样本界。
  2. 替代正则化(\(L^p\) / QOT)的理论:以 [40, 4, 17, 38, 16, 30, 25] 为代表,研究 \(L^p\) 正则化(特别是 QOT)的稀疏性、计算性质和统计性质。本文首次为这类正则化提供了完全量化的有限样本界。
  3. 统计推断与中心极限定理:以 [39, 12, 24, 31, 32, 23, 36, 3, 30, 25] 为代表,建立各种正则化 OT 代价、计划和势函数的 CLT。本文也贡献了一个新的 CLT(Theorem 3.4),其证明方法(基于 Efron-Stein)与现有工作不同。

这个方向在追问的核心问题

  1. 收敛率:对于给定的正则化 \(\phi\) 和成本 \(c\),经验 ROT 代价 \( \widehat{\text{OT}}_{\phi,\varepsilon} \) 以多快的速率收敛到其总体版本 \( \text{OT}_{\phi,\varepsilon} \)?这个速率如何依赖 \(\varepsilon\) 和维度 \(d\)
  2. 偏差-方差权衡:如何选择 \(\varepsilon\) 作为 \(n\) 的函数,以最优速率估计未正则化的 OT 代价 \( \text{OT} \)?不同正则化(EOT vs. QOT)在此权衡下表现如何?
  3. 常数量化:能否给出收敛率中常数的显式(多项式)依赖,而不仅仅是“存在常数”?这对于实际应用和不同方法间的比较至关重要。
  4. 内在维度:收敛率是否只依赖于数据的内在维度(如流形维度),而非环境维度?这就是“最小内在维度缩放”或“低复杂度适应”现象。

已知瓶颈:对于 EOT,常数对 \(1/\varepsilon\) 的依赖在维度高时很糟糕(指数级或高次多项式)。对于 QOT,其势函数不光滑,导致传统分析工具失效,此前被认为可能遭受维度诅咒。

⚠️ 作者的 framing

作者将缺口 frame 为:“尽管已有 CLT 暗示了参数化收敛率,但这些结果无法量化常数,因此无法与 EOT 的有限样本界进行直接比较,也无法用于指导实际中 \(\varepsilon\) 的选择。本文首次为一般凸正则化提供了完全量化的有限样本界,从而统一并改进了现有结果。”

  • 被淡化的竞争路线:作者淡化了 EOT 在计算上的巨大优势(Sinkhorn 算法),而强调 QOT 的稀疏性和更优的偏差-方差权衡。作者在引言中明确提到“the limited smoothness of the resulting dual problem might lead one to conjecture that such ROT problems have significantly worse sample complexity than EOT”,然后通过自己的结果反驳了这一点。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?:intro 中未提及任何关于统计-计算权衡的文献。对于 QOT 这种计算上更复杂(需要求解非光滑凸问题)的方法,其统计优势是否以计算成本为代价?这是一个值得研究者去查的问题。此外,intro 也未提及任何关于高维 U-统计量张量网络复杂度的文献,尽管本文的证明中使用了类似图拉普拉斯的技巧,这与研究者本人的兴趣有潜在联系。

张力

未见明显对立引用。所有被引工作都指向一个共识:正则化可以缓解 OT 的维度诅咒,但不同正则化在稀疏性、光滑性和统计效率之间存在权衡。本文的工作是在这个共识下,首次为 \(L^p\) 正则化提供了量化的证据。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \(P, Q\):两个总体概率分布,定义在 \(\mathbb{R}^d\) 上,有紧支撑 \(\Omega, \Omega'\)
    • \(X_i \sim P, Y_j \sim Q\):i.i.d. 样本。
    • \(\hat{P} = \frac{1}{n}\sum_{i=1}^n \delta_{X_i}, \hat{Q} = \frac{1}{n}\sum_{j=1}^n \delta_{Y_j}\):经验分布。
    • \(c(x,y)\):传输成本函数,假设有界且 Lipschitz。
    • \(\varepsilon > 0\):正则化参数。
    • \(\phi(t)\):严格凸的正则化函数(如 \(t\log t\)\(t^p/p\))。
    • \(\psi(s) = \sup_{t\ge 0}\{st - \phi(t)\}\)\(\phi\) 的凸共轭。
    • \(\text{OT}_{\phi,\varepsilon}(P,Q)\):总体 ROT 代价,定义为 \(\inf_{\pi \in \Pi(P,Q)} \int c d\pi + \varepsilon D_\phi(\pi | P\otimes Q)\)
    • \(\widehat{\text{OT}}_{\phi,\varepsilon} = \text{OT}_{\phi,\varepsilon}(\hat{P}, \hat{Q})\):经验 ROT 代价。
    • \((f_\varepsilon, g_\varepsilon)\):总体 ROT 问题的对偶势函数(dual potentials)。
    • \((\hat{f}, \hat{g})\):经验 ROT 问题的对偶势函数。
    • \(\rho_\varepsilon(x,y) = \psi'\left( \frac{f_\varepsilon(x) + g_\varepsilon(y) - c(x,y)}{\varepsilon} \right)\):最优传输计划的密度。
    • \(\text{Var}_{P\otimes Q}[\rho_\varepsilon]\):该密度的总体方差。
    • \(d\):环境维度。\(d_P\):大于 \(\Omega\) 的 Minkowski 维度的任意实数。
  • 模型:数据生成机制是 \(X_i \overset{i.i.d.}{\sim} P, Y_j \overset{i.i.d.}{\sim} Q\),且两个样本独立。\(P\)\(Q\) 是未知的,但假设其支撑集有界,且成本函数 \(c\) 有界。对于“快速率”结果,还需假设支撑集是凸的且密度有界。

  • 可观测数据:研究者能观测到的是样本 \(\{X_i\}_{i=1}^n\)\(\{Y_j\}_{j=1}^n\)想要但观测不到的是总体分布 \(P, Q\),以及由此定义的总体 ROT 代价 \(\text{OT}_{\phi,\varepsilon}\) 和对偶势函数 \((f_\varepsilon, g_\varepsilon)\)。研究者只能通过经验分布 \(\hat{P}, \hat{Q}\) 来计算经验 ROT 代价 \(\widehat{\text{OT}}_{\phi,\varepsilon}\) 和经验势函数 \((\hat{f}, \hat{g})\)

第二步:讲最小内核

本文的核心是分析偏差 \(\mathbb{E}[\widehat{\text{OT}}_{\phi,\varepsilon}] - \text{OT}_{\phi,\varepsilon}\)。其最小内核可以浓缩为以下命题(Proposition 3.1 的第一部分):

\[\left( \mathbb{E}[\widehat{\text{OT}}_{\phi,\varepsilon}] - \text{OT}_{\phi,\varepsilon} \right)^2 \le 2 \min_{a,b \in \mathbb{R}} \mathbb{E}\left[ \|f_\varepsilon - \hat{f} - a\|_{L^2(\hat{P})}^2 + \|g_\varepsilon - \hat{g} - b\|_{L^2(\hat{Q})}^2 \right] \frac{\text{Var}_{P\otimes Q}[\rho_\varepsilon]}{n}.\]

这个命题在说什么? 它把偏差的平方分解成了两个部分的乘积: 1. 势函数误差:经验势函数 \((\hat{f}, \hat{g})\) 与总体势函数 \((f_\varepsilon, g_\varepsilon)\)\(L^2\) 意义下的平均距离。这个量会随着 \(n\) 增大而趋于 0。 2. 密度方差:最优传输计划密度 \(\rho_\varepsilon\) 的总体方差除以 \(n\)。这个量是 \(O(1/n)\) 的,但其常数依赖于 \(\varepsilon\) 和维度。

为什么这是最小内核? 因为整篇论文的“慢速率”和“快速率”结果,本质上都是在不同的假设下,对这个命题中的两个项进行更精细的界。

  • 慢速率(Theorem 1.1):用势函数的有界性(Proposition 2.3(vi))直接替换掉势函数误差项(即用常数 \(5\|c\|_\infty + \varepsilon\phi'(1)\) 上界),然后集中精力去界 \(\text{Var}_{P\otimes Q}[\rho_\varepsilon]\)。通过 Lipschitz 成本和 Minkowski 维度的假设,Lemma 3.13 给出了 \(\text{Var}_{P\otimes Q}[\rho_\varepsilon] \lesssim \varepsilon^{-\frac{d_P}{1+d_P(p-1)}}\)。代入后即得“慢速率”结果。

  • 快速率(Theorem 1.2):不满足于用常数替换势函数误差,而是去证明势函数误差本身以 \(O(1/n)\) 的速度收敛(Theorem 1.3)。这需要更精细的分析(证明路线见第三节),最终得到 \(\mathbb{E}[\widehat{\text{OT}}_{\phi,\varepsilon}] - \text{OT}_{\phi,\varepsilon} \lesssim \varepsilon^{-(3d+2 + \frac{d}{1+d(p-1)})}/n\),比“慢速率”的 \(O(1/\sqrt{n})\) 更快。

最简特例:考虑 \(d=1\)\(P=Q=\text{Uniform}([0,1])\)\(c(x,y)=|x-y|\)\(\phi(t)=t^2/2\)(QOT)。那么“慢速率”结果(Corollary 3.16)说:

\[\mathbb{E}\left[ (\widehat{\text{OT}}_{\phi,\varepsilon} - \text{OT}_{\phi,\varepsilon})^2 \right] \lesssim \frac{\varepsilon^{-1}}{n}.\]
而“快速率”结果(Theorem 1.2)说:
\[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi,\varepsilon} - \text{OT}_{\phi,\varepsilon} \right] \lesssim \frac{\varepsilon^{-(3+1+1/2)}}{n} = \frac{\varepsilon^{-4.5}}{n}.\]
虽然快速率的常数对 \(\varepsilon\) 的依赖更差,但收敛率从 \(1/\sqrt{n}\) 提升到了 \(1/n\)。当 \(n\) 很大时,快速率最终会胜出。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:为一般凸正则化(包括 KL 散度和 \(L^p\) 惩罚)的 OT 问题,提供了经验代价函数的非渐近偏差与方差界,并显式依赖正则化参数 \(\varepsilon\) 和边际分布的内在维度。
  2. 核心工具 / 方法:利用对偶表示和凸性,将偏差分解为势函数误差和密度方差的乘积(Proposition 3.1);通过 Efron-Stein 不等式给出与 \(\varepsilon\) 无关的方差界(Proposition 3.3);对于“快速率”,通过精细分析对偶问题的二阶泰勒展开,建立了一个经验版本的 Polyak-Łojasiewicz (PL) 不等式,并利用随机几何图拉普拉斯和 Poincaré 不等式来证明势函数的参数化收敛。
  3. 主要结论:统一并改进了 EOT 的有限样本界;首次为 \(L^p\) 正则化(\(1<p<\infty\))提供了完全量化的结果;特别地,对于二次成本,QOT 估计未正则化 OT 代价的收敛率为 \(n^{-2/(d+4)}\),这是目前基于正则化 OT 的估计器中最快的非渐近率。

关键设定与假设

  • Standing Assumption 2.1 (Regularization)\(\phi\) 严格凸,其共轭 \(\psi \in C^1(\mathbb{R})\),且 \(\psi'(x) \to \infty\)\(x \to \infty\)。这比 [30] 的 \(\psi \in C^2\) 更弱,允许覆盖 \(p\ge 2\) 的 Tsallis 熵。
  • Standing Assumption 2.5 (Bounded supports)\(P, Q\) 有紧支撑。这是为了确保势函数有界,简化分析。
  • Standing Assumption 2.6 (Bounded cost):成本函数 \(c\) 有界且可测。
  • Assumption 3.5 (Cost is Lipschitz in first argument):成本函数在第一个变量上 Lipschitz。这是为了得到改进的密度方差界(Lemma 3.6),并最终导出依赖 Minkowski 维度的结果。
  • Assumption 4.1 (Strengthened assumption on the divergence)\(\psi \in C^{1,1}_{\text{loc}}(\mathbb{R})\),即其一阶导数是局部 Lipschitz 的。这比 Assumption 2.1 更强,是推导“快速率”所必需的,因为它允许对 \(\Gamma(t)\) 进行二阶泰勒展开。对于 Tsallis 熵,这要求 \(p \in [1,2]\)
  • Assumption 4.2 (Strengthened assumption on \(P\))\(P\) 的支撑集 \(\Omega\) 是凸的,且 \(P\) 有 Lebesgue 密度,密度上下有界。这是为了使用 Poincaré 不等式(Lemma C.7)和随机几何图的结果,是“快速率”证明的核心。

相比已有文献:本文的假设在“慢速率”部分比 [30] 更弱(不需要 \(\psi \in C^2\)),在“快速率”部分与 [47] 类似,但 [47] 假设流形无边界,而本文允许有边界的凸集。

主要结果

  1. Theorem 1.1 (Slow rate):对于 \(p \in [1, \infty)\) 的 Tsallis 熵,在 Lipschitz 成本和 Minkowski 维度假设下,有

    \[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi_p,\varepsilon} \right] - \text{OT}_{\phi_p,\varepsilon} \lesssim \frac{\varepsilon^{-\frac{\alpha}{2(1+(p-1)\alpha)}}}{\sqrt{n}}.\]

    • 直觉:偏差以 \(1/\sqrt{n}\) 速率收敛,但常数随 \(\varepsilon\) 减小而增大。维度 \(\alpha\) 的影响体现在指数上。对于 EOT (\(p=1\)),指数是 \(\alpha/2\),对维度敏感;对于 \(p>1\),指数趋于常数 \(1/(2(p-1))\),对维度不敏感。
    • 必要条件\(\alpha > \dim_M(\Omega)\)
    • 解决的技术难点:首次为 \(p>2\) 的 Tsallis 熵提供了参数化收敛率,并量化了常数。
  2. Theorem 1.2 (Fast rate):对于 \(p \in [1,2]\) 的 Tsallis 熵,在更强的假设(凸支撑、密度有界)下,有

    \[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi_p,\varepsilon} \right] - \text{OT}_{\phi_p,\varepsilon} \lesssim \frac{\varepsilon^{-(3d+2 + \frac{d}{1+d(p-1)})}}{n}.\]

    • 直觉:偏差以更快的 \(1/n\) 速率收敛,但常数对 \(\varepsilon\) 的依赖更差(指数更高)。
    • 必要条件:Assumptions 3.18, 4.1, 4.2。
    • 解决的技术难点:证明了势函数的参数化收敛(Theorem 1.3),这是本文最核心的技术贡献。
  3. Proposition 3.23 (Improved bound for QOT with quadratic cost):对于 QOT 和二次成本 \(c(x,y) = \|x-y\|^2\),有

    \[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi_2,\varepsilon} \right] - \text{OT} \lesssim n^{-\frac{2}{d+4}}.\]

    • 直觉:通过优化 \(\varepsilon\) 来平衡统计误差和正则化偏差,QOT 能以接近 minimax 最优的速率 \(n^{-2/d}\)(当 \(d>4\))来估计未正则化的 OT 代价。这是目前所有基于正则化 OT 的估计器中最快的非渐近率。

证明路线与技术技巧(理论型)

核心:证明势函数的参数化收敛(Theorem 1.3)

  1. 整体路线

    • Step 1: 二阶泰勒展开:定义凸函数 \(\Gamma(t) = -\hat{\Phi}_{\phi,\varepsilon}((1-t)(\hat{f},\hat{g}) + t(f_\varepsilon, g_\varepsilon))\)。利用 \(\psi \in C^{1,1}\),对 \(\Gamma(t)\) 进行二阶泰勒展开(Lemma C.1),得到:
      \[\Gamma(t) = \Gamma(0) + \int_0^t \int_0^s \frac{1}{\varepsilon} \int (\hat{f} - f_\varepsilon \oplus \hat{g} - g_\varepsilon)^2 \psi''(\gamma_r) d(\hat{P} \otimes \hat{Q}) dr ds.\]
      其中 \(\gamma_r\) 是插值后的参数。这个展开将势函数误差与一个包含 \(\psi''\) 的二次型联系了起来。
    • Step 2: 建立经验 PL 不等式:核心目标是证明存在一个随机下界 \(\hat{\beta} > 0\),使得
      \[\int (\hat{f} - f_\varepsilon \oplus \hat{g} - g_\varepsilon)^2 \psi''(\gamma_r) d(\hat{P} \otimes \hat{Q}) \ge \hat{\beta} \| \hat{f} - f_\varepsilon \oplus \hat{g} - g_\varepsilon \|_{L^2(\hat{P} \otimes \hat{Q})}^2.\]
      这等价于证明一个经验版本的 PL 不等式。
    • Step 3: 分量 coercivity:首先证明二次型在第一个分量上是 coercive 的(Proposition C.2),即
      \[\text{二次型} \ge \hat{\alpha} \text{Var}_{\hat{P}}[\hat{f} - f_\varepsilon].\]
      这通过以下技巧实现:
      • 图拉普拉斯:将二次型与一个随机几何图的图拉普拉斯联系起来(Lemma C.3),该图的边权重为 \(1_{\|X_i - X_\ell\| \le C\varepsilon}\)
      • 传输映射:在事件 \(E_n\)(存在一个将 \(P\) 推到 \(\hat{P}\) 且偏差为 \(O(\varepsilon)\) 的映射)下,利用该映射将离散的图拉普拉斯与连续的 Poincaré 不等式联系起来(Lemma C.6, C.7)。
    • Step 4: 整体 coercivity:利用分量 coercivity 和谱分析,证明整个二次型是 coercive 的(Proposition C.8),即存在 \(\hat{\beta}\)
    • Step 5: 控制随机下界:证明 \(\hat{\beta}\) 以高概率接近其总体版本 \(\beta_{n,\varepsilon}\)。这需要控制三个随机量:经验球的最小质量(Proposition C.9)和 \(\infty\)-Wasserstein 距离(Corollary C.11)。
    • Step 6: 完成证明:将 PL 不等式代入泰勒展开,得到关于势函数误差的二次不等式,解之即得 Theorem 1.3。再将此结果代入 Proposition 3.1,即得 Theorem 1.2。
  2. 关键跳跃点:最吃功夫的是 Step 3 和 Step 4,即如何从 \(\psi''\) 的局部性质出发,建立全局的 coercivity。难点在于 \(\psi''\) 可能在某些区域为 0(对于 \(L^p\) 正则化,\(\psi''(t) = 0\)\(t < 0\)),导致二次型退化。作者通过巧妙地构造事件 \(E_n\) 和利用图拉普拉斯,确保了在势函数最优解附近,\(\psi''\) 是严格正的,从而绕过了退化问题。

  3. 技术技巧点名

    • Efron-Stein 不等式:用于证明与 \(\varepsilon\) 无关的方差界(Proposition 3.3)和中心极限定理(Theorem 3.4)。
    • 随机几何图拉普拉斯:用于将经验二次型与图上的差分联系起来(Lemma C.3)。
    • Poincaré 不等式:用于将图上的差分与连续空间上的方差联系起来(Lemma C.7)。
    • \(\infty\)-Wasserstein 距离:用于控制传输映射的偏差,从而连接离散和连续世界(Corollary C.11)。
    • VC 理论 / Dudley 积分:用于控制经验球的最小质量(Proposition C.9)。

真实例子与应用

本文为纯理论,无实证例子。

🔎 结论是否比证明窄

  • Theorem 1.1 (Slow rate) 的证明依赖于 Minkowski 维度,但作者在 Remark 3.14 中指出,更精细的条件是覆盖数 \(N(\Omega, \delta) \le C' \delta^{-d_P}\)。对于流形等常见情况,\(d_P\) 可以取为 Minkowski 维度本身。结论与证明的覆盖范围一致。
  • Theorem 1.2 (Fast rate) 的证明依赖于 Assumption 4.2(凸支撑、密度有界)。作者在 Remark 4.3 中声称可以放宽到“connected domain with Lipschitz boundary”,但代价是增加一个额外的常数。这是一个值得注意的放宽,但并未在定理陈述中体现。结论的适用范围比证明中使用的严格假设要广,但作者给出了明确的指引。
  • Proposition 3.23 (Improved bound for QOT) 的证明依赖于 [16, Corollary 3.14] 给出的正则化误差界,该界本身是在特定假设下证明的。结论的成立范围受限于该引用的假设。

四、开放问题

  1. 快速率对 \(p>2\) 的推广:Theorem 1.2 和 1.3 要求 \(p \in [1,2]\)(即 \(\psi \in C^{1,1}\))。对于 \(p>2\)\(\psi\) 的光滑性更差,能否建立类似的快速率?这扎根于 Assumption 4.1 的限制。
  2. 常数的最优性:本文给出的常数(如 \(\varepsilon^{-(3d+2)}\))是否是最优的?特别是对于 EOT,能否改进到 \(\varepsilon^{-O(d)}\)?这扎根于 Theorem 1.2 和 1.3 的陈述,以及作者在引言中提到的与 [47] 的比较。
  3. 计算-统计权衡:本文证明了 QOT 在统计上优于 EOT(更快的估计未正则化 OT 的速率),但 QOT 的计算更复杂(需要求解非光滑凸问题)。是否存在一个计算上高效(如 Sinkhorn 算法)且统计上同样优秀的正则化方案?这扎根于引言中未提及的“统计-计算权衡”文献。
  4. 与高维 U-统计量的联系:本文证明中使用的图拉普拉斯技巧,本质上是在分析一个关于样本对 \((X_i, X_\ell)\) 的 U-统计量。能否将本文的分析框架推广到更一般的、基于张量网络的高阶 U-统计量?这扎根于研究者本人的兴趣,以及本文技术技巧的潜在可迁移性。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论