Finite-sample bounds for regularized optimal transport¶

作者: Alberto González-Sanz, Marcel Nutz, Austin J. Stromme
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.25947

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向研究的是正则化最优传输（Regularized Optimal Transport, ROT）的有限样本复杂度。根本的统计问题是：给定两个概率分布 \(P\) 和 \(Q\) 的 i.i.d. 样本，如何用正则化后的 OT 代价函数 \( \widehat{\text{OT}}_{\phi,\varepsilon} \) 去估计其总体版本 \( \text{OT}_{\phi,\varepsilon} \)，并给出非渐近的偏差与方差界，且显式依赖正则化参数 \(\varepsilon\) 和边际分布的（内在）维度。当前成熟度：对于熵正则化（EOT），已有若干有限样本界和中心极限定理；对于 \(L^p\) 正则化（特别是 QOT），直到最近才出现参数化收敛率的结果，但常数未被量化，且 \(p>2\) 的情形此前完全未知。

发展脉络¶

奠基工作：未正则化 OT 的“维度诅咒”
- Fournier & Guillin (2015) 和 Dudley (1968) 证明了经验 OT 代价收敛到总体 OT 代价的速率一般为 \(n^{-1/d}\)，即遭受维度诅咒。这直接催生了正则化 OT 的研究。
主要进展：熵正则化（EOT）的突破
- Cuturi (2013) 从计算角度推广了 EOT，指出其可通过 Sinkhorn 算法高效求解。
- Genevay et al. (2019) 首次证明 EOT 可以避免维度诅咒（对固定 \(\varepsilon>0\)），但常数关于 \(1/\varepsilon\) 是指数级的。
- Mena & Niles-Weed (2019) 和 Rigollet & Stromme (2022) 将常数改进为多项式依赖（对光滑或 Lipschitz 成本），而 Stromme (2023) 进一步揭示了“最小内在维度缩放（MID scaling）”现象，即收敛率只取决于两个边际中更简单的那一个的内在维度。
- del Barrio et al. (2022) 和 Goldfeld et al. (2022) 等建立了 EOT 的中心极限定理，证明了 \(\sqrt{n}\) 收敛率，但常数未被量化。
当前 Frontier：替代正则化（\(L^p\) / QOT）的样本复杂度
- Blondel et al. (2017), Lorenz et al. (2019), Essid & Solomon (2017) 等开始研究 \(L^2\) 正则化（QOT）等替代方案，发现其能产生稀疏的传输计划，与 EOT 的全支撑形成对比。
- Eckstein & Nutz (2022) 给出了正则化 OT 的收敛率，但依赖于量化维度。
- González-Sanz, Eckstein & Nutz (2025) 和 González-Sanz, del Barrio & Nutz (2025) 分别对 \(p\in[1,2)\) 和 \(p=2\) 的 Tsallis 正则化证明了中心极限定理，首次暗示了参数化收敛率。但，这些 CLT 的证明依赖于紧性论证，无法量化常数，因此无法与 EOT 的有限样本界进行直接比较。
- 本文的位置：本文填补了上述空白，首次为一般凸正则化（包括 \(L^p\) 正则化，\(1<p<\infty\)）提供了完全量化的有限样本界，统一并改进了 EOT 的现有结果，并首次给出了 \(p>2\) 的参数化收敛率。

子线索聚类¶

熵正则化（EOT）的样本复杂度：以 [22, 39, 47, 44, 18] 为代表，核心是证明 EOT 能避免维度诅咒，并不断改进常数（从指数到多项式）和揭示内在维度缩放。本文在此基础上，通过新的证明技术（见下文）改进了 EOT 的有限样本界。
替代正则化（\(L^p\) / QOT）的理论：以 [40, 4, 17, 38, 16, 30, 25] 为代表，研究 \(L^p\) 正则化（特别是 QOT）的稀疏性、计算性质和统计性质。本文首次为这类正则化提供了完全量化的有限样本界。
统计推断与中心极限定理：以 [39, 12, 24, 31, 32, 23, 36, 3, 30, 25] 为代表，建立各种正则化 OT 代价、计划和势函数的 CLT。本文也贡献了一个新的 CLT（Theorem 3.4），其证明方法（基于 Efron-Stein）与现有工作不同。

这个方向在追问的核心问题¶

收敛率：对于给定的正则化 \(\phi\) 和成本 \(c\)，经验 ROT 代价 \( \widehat{\text{OT}}_{\phi,\varepsilon} \) 以多快的速率收敛到其总体版本 \( \text{OT}_{\phi,\varepsilon} \)？这个速率如何依赖 \(\varepsilon\) 和维度 \(d\)？
偏差-方差权衡：如何选择 \(\varepsilon\) 作为 \(n\) 的函数，以最优速率估计未正则化的 OT 代价 \( \text{OT} \)？不同正则化（EOT vs. QOT）在此权衡下表现如何？
常数量化：能否给出收敛率中常数的显式（多项式）依赖，而不仅仅是“存在常数”？这对于实际应用和不同方法间的比较至关重要。
内在维度：收敛率是否只依赖于数据的内在维度（如流形维度），而非环境维度？这就是“最小内在维度缩放”或“低复杂度适应”现象。

已知瓶颈：对于 EOT，常数对 \(1/\varepsilon\) 的依赖在维度高时很糟糕（指数级或高次多项式）。对于 QOT，其势函数不光滑，导致传统分析工具失效，此前被认为可能遭受维度诅咒。

⚠️ 作者的 framing¶

作者将缺口 frame 为：“尽管已有 CLT 暗示了参数化收敛率，但这些结果无法量化常数，因此无法与 EOT 的有限样本界进行直接比较，也无法用于指导实际中 \(\varepsilon\) 的选择。本文首次为一般凸正则化提供了完全量化的有限样本界，从而统一并改进了现有结果。”

被淡化的竞争路线：作者淡化了 EOT 在计算上的巨大优势（Sinkhorn 算法），而强调 QOT 的稀疏性和更优的偏差-方差权衡。作者在引言中明确提到“the limited smoothness of the resulting dual problem might lead one to conjecture that such ROT problems have significantly worse sample complexity than EOT”，然后通过自己的结果反驳了这一点。
什么明显该被引 / 该存在、却没出现在 intro 里？：intro 中未提及任何关于统计-计算权衡的文献。对于 QOT 这种计算上更复杂（需要求解非光滑凸问题）的方法，其统计优势是否以计算成本为代价？这是一个值得研究者去查的问题。此外，intro 也未提及任何关于高维 U-统计量或张量网络复杂度的文献，尽管本文的证明中使用了类似图拉普拉斯的技巧，这与研究者本人的兴趣有潜在联系。

张力¶

未见明显对立引用。所有被引工作都指向一个共识：正则化可以缓解 OT 的维度诅咒，但不同正则化在稀疏性、光滑性和统计效率之间存在权衡。本文的工作是在这个共识下，首次为 \(L^p\) 正则化提供了量化的证据。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(P, Q\)：两个总体概率分布，定义在 \(\mathbb{R}^d\) 上，有紧支撑 \(\Omega, \Omega'\)。
- \(X_i \sim P, Y_j \sim Q\)：i.i.d. 样本。
- \(\hat{P} = \frac{1}{n}\sum_{i=1}^n \delta_{X_i}, \hat{Q} = \frac{1}{n}\sum_{j=1}^n \delta_{Y_j}\)：经验分布。
- \(c(x,y)\)：传输成本函数，假设有界且 Lipschitz。
- \(\varepsilon > 0\)：正则化参数。
- \(\phi(t)\)：严格凸的正则化函数（如 \(t\log t\) 或 \(t^p/p\)）。
- \(\psi(s) = \sup_{t\ge 0}\{st - \phi(t)\}\)：\(\phi\) 的凸共轭。
- \(\text{OT}_{\phi,\varepsilon}(P,Q)\)：总体 ROT 代价，定义为 \(\inf_{\pi \in \Pi(P,Q)} \int c d\pi + \varepsilon D_\phi(\pi | P\otimes Q)\)。
- \(\widehat{\text{OT}}_{\phi,\varepsilon} = \text{OT}_{\phi,\varepsilon}(\hat{P}, \hat{Q})\)：经验 ROT 代价。
- \((f_\varepsilon, g_\varepsilon)\)：总体 ROT 问题的对偶势函数（dual potentials）。
- \((\hat{f}, \hat{g})\)：经验 ROT 问题的对偶势函数。
- \(\rho_\varepsilon(x,y) = \psi'\left( \frac{f_\varepsilon(x) + g_\varepsilon(y) - c(x,y)}{\varepsilon} \right)\)：最优传输计划的密度。
- \(\text{Var}_{P\otimes Q}[\rho_\varepsilon]\)：该密度的总体方差。
- \(d\)：环境维度。\(d_P\)：大于 \(\Omega\) 的 Minkowski 维度的任意实数。
模型：数据生成机制是 \(X_i \overset{i.i.d.}{\sim} P, Y_j \overset{i.i.d.}{\sim} Q\)，且两个样本独立。\(P\) 和 \(Q\) 是未知的，但假设其支撑集有界，且成本函数 \(c\) 有界。对于“快速率”结果，还需假设支撑集是凸的且密度有界。
可观测数据：研究者能观测到的是样本 \(\{X_i\}_{i=1}^n\) 和 \(\{Y_j\}_{j=1}^n\)。想要但观测不到的是总体分布 \(P, Q\)，以及由此定义的总体 ROT 代价 \(\text{OT}_{\phi,\varepsilon}\) 和对偶势函数 \((f_\varepsilon, g_\varepsilon)\)。研究者只能通过经验分布 \(\hat{P}, \hat{Q}\) 来计算经验 ROT 代价 \(\widehat{\text{OT}}_{\phi,\varepsilon}\) 和经验势函数 \((\hat{f}, \hat{g})\)。

第二步：讲最小内核¶

本文的核心是分析偏差 \(\mathbb{E}[\widehat{\text{OT}}_{\phi,\varepsilon}] - \text{OT}_{\phi,\varepsilon}\)。其最小内核可以浓缩为以下命题（Proposition 3.1 的第一部分）：

\[\left( \mathbb{E}[\widehat{\text{OT}}_{\phi,\varepsilon}] - \text{OT}_{\phi,\varepsilon} \right)^2 \le 2 \min_{a,b \in \mathbb{R}} \mathbb{E}\left[ \|f_\varepsilon - \hat{f} - a\|_{L^2(\hat{P})}^2 + \|g_\varepsilon - \hat{g} - b\|_{L^2(\hat{Q})}^2 \right] \frac{\text{Var}_{P\otimes Q}[\rho_\varepsilon]}{n}.\]

这个命题在说什么？ 它把偏差的平方分解成了两个部分的乘积： 1. 势函数误差：经验势函数 \((\hat{f}, \hat{g})\) 与总体势函数 \((f_\varepsilon, g_\varepsilon)\) 在 \(L^2\) 意义下的平均距离。这个量会随着 \(n\) 增大而趋于 0。 2. 密度方差：最优传输计划密度 \(\rho_\varepsilon\) 的总体方差除以 \(n\)。这个量是 \(O(1/n)\) 的，但其常数依赖于 \(\varepsilon\) 和维度。

为什么这是最小内核？ 因为整篇论文的“慢速率”和“快速率”结果，本质上都是在不同的假设下，对这个命题中的两个项进行更精细的界。

慢速率（Theorem 1.1）：用势函数的有界性（Proposition 2.3(vi)）直接替换掉势函数误差项（即用常数 \(5\|c\|_\infty + \varepsilon\phi'(1)\) 上界），然后集中精力去界 \(\text{Var}_{P\otimes Q}[\rho_\varepsilon]\)。通过 Lipschitz 成本和 Minkowski 维度的假设，Lemma 3.13 给出了 \(\text{Var}_{P\otimes Q}[\rho_\varepsilon] \lesssim \varepsilon^{-\frac{d_P}{1+d_P(p-1)}}\)。代入后即得“慢速率”结果。
快速率（Theorem 1.2）：不满足于用常数替换势函数误差，而是去证明势函数误差本身以 \(O(1/n)\) 的速度收敛（Theorem 1.3）。这需要更精细的分析（证明路线见第三节），最终得到 \(\mathbb{E}[\widehat{\text{OT}}_{\phi,\varepsilon}] - \text{OT}_{\phi,\varepsilon} \lesssim \varepsilon^{-(3d+2 + \frac{d}{1+d(p-1)})}/n\)，比“慢速率”的 \(O(1/\sqrt{n})\) 更快。

最简特例：考虑 \(d=1\)，\(P=Q=\text{Uniform}([0,1])\)，\(c(x,y)=|x-y|\)，\(\phi(t)=t^2/2\)（QOT）。那么“慢速率”结果（Corollary 3.16）说：

\[\mathbb{E}\left[ (\widehat{\text{OT}}_{\phi,\varepsilon} - \text{OT}_{\phi,\varepsilon})^2 \right] \lesssim \frac{\varepsilon^{-1}}{n}.\]

而“快速率”结果（Theorem 1.2）说：

\[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi,\varepsilon} - \text{OT}_{\phi,\varepsilon} \right] \lesssim \frac{\varepsilon^{-(3+1+1/2)}}{n} = \frac{\varepsilon^{-4.5}}{n}.\]

虽然快速率的常数对 \(\varepsilon\) 的依赖更差，但收敛率从 \(1/\sqrt{n}\) 提升到了 \(1/n\)。当 \(n\) 很大时，快速率最终会胜出。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：为一般凸正则化（包括 KL 散度和 \(L^p\) 惩罚）的 OT 问题，提供了经验代价函数的非渐近偏差与方差界，并显式依赖正则化参数 \(\varepsilon\) 和边际分布的内在维度。
核心工具 / 方法：利用对偶表示和凸性，将偏差分解为势函数误差和密度方差的乘积（Proposition 3.1）；通过 Efron-Stein 不等式给出与 \(\varepsilon\) 无关的方差界（Proposition 3.3）；对于“快速率”，通过精细分析对偶问题的二阶泰勒展开，建立了一个经验版本的 Polyak-Łojasiewicz (PL) 不等式，并利用随机几何图拉普拉斯和 Poincaré 不等式来证明势函数的参数化收敛。
主要结论：统一并改进了 EOT 的有限样本界；首次为 \(L^p\) 正则化（\(1<p<\infty\)）提供了完全量化的结果；特别地，对于二次成本，QOT 估计未正则化 OT 代价的收敛率为 \(n^{-2/(d+4)}\)，这是目前基于正则化 OT 的估计器中最快的非渐近率。

关键设定与假设¶

Standing Assumption 2.1 (Regularization)：\(\phi\) 严格凸，其共轭 \(\psi \in C^1(\mathbb{R})\)，且 \(\psi'(x) \to \infty\) 当 \(x \to \infty\)。这比 [30] 的 \(\psi \in C^2\) 更弱，允许覆盖 \(p\ge 2\) 的 Tsallis 熵。
Standing Assumption 2.5 (Bounded supports)：\(P, Q\) 有紧支撑。这是为了确保势函数有界，简化分析。
Standing Assumption 2.6 (Bounded cost)：成本函数 \(c\) 有界且可测。
Assumption 3.5 (Cost is Lipschitz in first argument)：成本函数在第一个变量上 Lipschitz。这是为了得到改进的密度方差界（Lemma 3.6），并最终导出依赖 Minkowski 维度的结果。
Assumption 4.1 (Strengthened assumption on the divergence)：\(\psi \in C^{1,1}_{\text{loc}}(\mathbb{R})\)，即其一阶导数是局部 Lipschitz 的。这比 Assumption 2.1 更强，是推导“快速率”所必需的，因为它允许对 \(\Gamma(t)\) 进行二阶泰勒展开。对于 Tsallis 熵，这要求 \(p \in [1,2]\)。
Assumption 4.2 (Strengthened assumption on \(P\))：\(P\) 的支撑集 \(\Omega\) 是凸的，且 \(P\) 有 Lebesgue 密度，密度上下有界。这是为了使用 Poincaré 不等式（Lemma C.7）和随机几何图的结果，是“快速率”证明的核心。

相比已有文献：本文的假设在“慢速率”部分比 [30] 更弱（不需要 \(\psi \in C^2\)），在“快速率”部分与 [47] 类似，但 [47] 假设流形无边界，而本文允许有边界的凸集。

主要结果¶

Theorem 1.1 (Slow rate)：对于 \(p \in [1, \infty)\) 的 Tsallis 熵，在 Lipschitz 成本和 Minkowski 维度假设下，有
\[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi_p,\varepsilon} \right] - \text{OT}_{\phi_p,\varepsilon} \lesssim \frac{\varepsilon^{-\frac{\alpha}{2(1+(p-1)\alpha)}}}{\sqrt{n}}.\]
- 直觉：偏差以 \(1/\sqrt{n}\) 速率收敛，但常数随 \(\varepsilon\) 减小而增大。维度 \(\alpha\) 的影响体现在指数上。对于 EOT (\(p=1\))，指数是 \(\alpha/2\)，对维度敏感；对于 \(p>1\)，指数趋于常数 \(1/(2(p-1))\)，对维度不敏感。
- 必要条件：\(\alpha > \dim_M(\Omega)\)。
- 解决的技术难点：首次为 \(p>2\) 的 Tsallis 熵提供了参数化收敛率，并量化了常数。
Theorem 1.2 (Fast rate)：对于 \(p \in [1,2]\) 的 Tsallis 熵，在更强的假设（凸支撑、密度有界）下，有
\[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi_p,\varepsilon} \right] - \text{OT}_{\phi_p,\varepsilon} \lesssim \frac{\varepsilon^{-(3d+2 + \frac{d}{1+d(p-1)})}}{n}.\]
- 直觉：偏差以更快的 \(1/n\) 速率收敛，但常数对 \(\varepsilon\) 的依赖更差（指数更高）。
- 必要条件：Assumptions 3.18, 4.1, 4.2。
- 解决的技术难点：证明了势函数的参数化收敛（Theorem 1.3），这是本文最核心的技术贡献。
Proposition 3.23 (Improved bound for QOT with quadratic cost)：对于 QOT 和二次成本 \(c(x,y) = \|x-y\|^2\)，有
\[\mathbb{E}\left[ \widehat{\text{OT}}_{\phi_2,\varepsilon} \right] - \text{OT} \lesssim n^{-\frac{2}{d+4}}.\]
- 直觉：通过优化 \(\varepsilon\) 来平衡统计误差和正则化偏差，QOT 能以接近 minimax 最优的速率 \(n^{-2/d}\)（当 \(d>4\)）来估计未正则化的 OT 代价。这是目前所有基于正则化 OT 的估计器中最快的非渐近率。

证明路线与技术技巧（理论型）¶

核心：证明势函数的参数化收敛（Theorem 1.3）

整体路线：
- Step 1: 二阶泰勒展开：定义凸函数 \(\Gamma(t) = -\hat{\Phi}_{\phi,\varepsilon}((1-t)(\hat{f},\hat{g}) + t(f_\varepsilon, g_\varepsilon))\)。利用 \(\psi \in C^{1,1}\)，对 \(\Gamma(t)\) 进行二阶泰勒展开（Lemma C.1），得到：
  \[\Gamma(t) = \Gamma(0) + \int_0^t \int_0^s \frac{1}{\varepsilon} \int (\hat{f} - f_\varepsilon \oplus \hat{g} - g_\varepsilon)^2 \psi''(\gamma_r) d(\hat{P} \otimes \hat{Q}) dr ds.\]
  其中 \(\gamma_r\) 是插值后的参数。这个展开将势函数误差与一个包含 \(\psi''\) 的二次型联系了起来。
- Step 2: 建立经验 PL 不等式：核心目标是证明存在一个随机下界 \(\hat{\beta} > 0\)，使得
  \[\int (\hat{f} - f_\varepsilon \oplus \hat{g} - g_\varepsilon)^2 \psi''(\gamma_r) d(\hat{P} \otimes \hat{Q}) \ge \hat{\beta} \| \hat{f} - f_\varepsilon \oplus \hat{g} - g_\varepsilon \|_{L^2(\hat{P} \otimes \hat{Q})}^2.\]
  这等价于证明一个经验版本的 PL 不等式。
- Step 3: 分量 coercivity：首先证明二次型在第一个分量上是 coercive 的（Proposition C.2），即
  \[\text{二次型} \ge \hat{\alpha} \text{Var}_{\hat{P}}[\hat{f} - f_\varepsilon].\]
  这通过以下技巧实现：
  - 图拉普拉斯：将二次型与一个随机几何图的图拉普拉斯联系起来（Lemma C.3），该图的边权重为 \(1_{\|X_i - X_\ell\| \le C\varepsilon}\)。
  - 传输映射：在事件 \(E_n\)（存在一个将 \(P\) 推到 \(\hat{P}\) 且偏差为 \(O(\varepsilon)\) 的映射）下，利用该映射将离散的图拉普拉斯与连续的 Poincaré 不等式联系起来（Lemma C.6, C.7）。
- Step 4: 整体 coercivity：利用分量 coercivity 和谱分析，证明整个二次型是 coercive 的（Proposition C.8），即存在 \(\hat{\beta}\)。
- Step 5: 控制随机下界：证明 \(\hat{\beta}\) 以高概率接近其总体版本 \(\beta_{n,\varepsilon}\)。这需要控制三个随机量：经验球的最小质量（Proposition C.9）和 \(\infty\)-Wasserstein 距离（Corollary C.11）。
- Step 6: 完成证明：将 PL 不等式代入泰勒展开，得到关于势函数误差的二次不等式，解之即得 Theorem 1.3。再将此结果代入 Proposition 3.1，即得 Theorem 1.2。
关键跳跃点：最吃功夫的是 Step 3 和 Step 4，即如何从 \(\psi''\) 的局部性质出发，建立全局的 coercivity。难点在于 \(\psi''\) 可能在某些区域为 0（对于 \(L^p\) 正则化，\(\psi''(t) = 0\) 当 \(t < 0\)），导致二次型退化。作者通过巧妙地构造事件 \(E_n\) 和利用图拉普拉斯，确保了在势函数最优解附近，\(\psi''\) 是严格正的，从而绕过了退化问题。
技术技巧点名：
- Efron-Stein 不等式：用于证明与 \(\varepsilon\) 无关的方差界（Proposition 3.3）和中心极限定理（Theorem 3.4）。
- 随机几何图拉普拉斯：用于将经验二次型与图上的差分联系起来（Lemma C.3）。
- Poincaré 不等式：用于将图上的差分与连续空间上的方差联系起来（Lemma C.7）。
- \(\infty\)-Wasserstein 距离：用于控制传输映射的偏差，从而连接离散和连续世界（Corollary C.11）。
- VC 理论 / Dudley 积分：用于控制经验球的最小质量（Proposition C.9）。

真实例子与应用¶

本文为纯理论，无实证例子。

🔎 结论是否比证明窄¶

Theorem 1.1 (Slow rate) 的证明依赖于 Minkowski 维度，但作者在 Remark 3.14 中指出，更精细的条件是覆盖数 \(N(\Omega, \delta) \le C' \delta^{-d_P}\)。对于流形等常见情况，\(d_P\) 可以取为 Minkowski 维度本身。结论与证明的覆盖范围一致。
Theorem 1.2 (Fast rate) 的证明依赖于 Assumption 4.2（凸支撑、密度有界）。作者在 Remark 4.3 中声称可以放宽到“connected domain with Lipschitz boundary”，但代价是增加一个额外的常数。这是一个值得注意的放宽，但并未在定理陈述中体现。结论的适用范围比证明中使用的严格假设要广，但作者给出了明确的指引。
Proposition 3.23 (Improved bound for QOT) 的证明依赖于 [16, Corollary 3.14] 给出的正则化误差界，该界本身是在特定假设下证明的。结论的成立范围受限于该引用的假设。

四、开放问题¶

快速率对 \(p>2\) 的推广：Theorem 1.2 和 1.3 要求 \(p \in [1,2]\)（即 \(\psi \in C^{1,1}\)）。对于 \(p>2\)，\(\psi\) 的光滑性更差，能否建立类似的快速率？这扎根于 Assumption 4.1 的限制。
常数的最优性：本文给出的常数（如 \(\varepsilon^{-(3d+2)}\)）是否是最优的？特别是对于 EOT，能否改进到 \(\varepsilon^{-O(d)}\)？这扎根于 Theorem 1.2 和 1.3 的陈述，以及作者在引言中提到的与 [47] 的比较。
计算-统计权衡：本文证明了 QOT 在统计上优于 EOT（更快的估计未正则化 OT 的速率），但 QOT 的计算更复杂（需要求解非光滑凸问题）。是否存在一个计算上高效（如 Sinkhorn 算法）且统计上同样优秀的正则化方案？这扎根于引言中未提及的“统计-计算权衡”文献。
与高维 U-统计量的联系：本文证明中使用的图拉普拉斯技巧，本质上是在分析一个关于样本对 \((X_i, X_\ell)\) 的 U-统计量。能否将本文的分析框架推广到更一般的、基于张量网络的高阶 U-统计量？这扎根于研究者本人的兴趣，以及本文技术技巧的潜在可迁移性。

Maintained by 陈星宇 · Homepage · Source on GitHub