跳转至

Optimal score function estimation via derivatives constraints

作者: Thomas Bonis, Thanh Mai Pham Ngoc, Viet Chi Tran
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.19084


一、领域脉络与小综述

这个方向是什么

本文研究的根本问题是:如何从 i.i.d. 样本中估计概率密度的得分函数(score function,即 ∇log density),并且使得估计的精度达到非参数极小化收敛率。 进一步,该问题与 score‑based generative model (SGM) 的质量相联系:得分估计的误差如何转化为生成样本分布的 Wasserstein 距离误差?当前此方向正处于从“纯非参数率推导”向“将率嵌入 SGM 理论分析”的过渡阶段,几乎所有工作都依赖于特定假设(密度光滑性、全空间或流形结构),但尚未建立起统一且易于验证的理论框架。

发展脉络(history)

奠基工作: - Stone [1982, 1983] 建立了密度及其导数估计的极小化收敛率:对于光滑度 \(s\)、支持在 \(\mathbb{R}^d\) 上的密度,其 \(\nu\)-阶导数的 \(L_2\) 极小化率为 \(n^{-2(s-\nu)/(2s+d)}\)。得分函数本质上是 log‑density 的一阶导数(但计算难度不低于密度导数估计),因此预期得分估计的极小化率为 \(n^{-2(s-1)/(2s+d)}\)。 - Hyvärinen [2005] 给出了得分函数的等价损失函数:最小化 \(\|\rho^*-g\|_{L^2(\mu)}\) 等价于最小化 \(\int(\|g\|^2+2\nabla\!\cdot\!g)\,\mathrm{d}\mu\),这一结果使 ERM 成为可能。

主要进展(非参数密度/导数估计): - Silverman [1982] 用惩罚对数似然做密度估计(惩罚项为导数的 \(L_2\) 范数),对应地,本文用惩罚相对 Fisher 信息做得分估计。 - Comte et al. [2020] 给出了导数估计的自适应框架,再次确认 Stone 的率为最优。 - Wibisono et al. [2024]核平滑(kernel smoothing)得到了当 \(s=2\) 时 sub‑Gaussian 测度上的最优得分率(含对数项),但他们用核平滑,与 SGM 采用的 ERM 形式不同。

扩散模型得分估计的理论分析: - Oko et al. [2023] 首次声称 SGM 可以导出最优测度估计率 \(n^{-(s+1)/(2s+d)}\)(Wasserstein‑1),但他们的证明依赖特殊的样条密度估计及相应神经网络,并非实践中常用的网络结构。 - Stephanovitch et al. [2025] 将这一结果推广到更一般的 sub‑Gaussian 测度,通过深度分析得分函数随时间的正则性(导数按 \(1/\sqrt{t}\) 爆炸),用神经网络近似 Sobolev 球并证明了最优率。但其假设中 \(\mu\) 拥有光滑密度且有界支集于 \(\mathbb{R}^D\)不覆盖流形情形。 - Divol [2022] 给出了流形上测度估计的 Wasserstein‑1 极小化率:若密度光滑度 \(s\)、流形维数 \(d\),则率为 \(n^{-(s+1)/(2s+d)}\),这为 SGM 下流形情形成了基准目标。

流形上的进一步探索: - Tang & Yang [2024], Zhang et al. [2026], Fu et al. [2026] 分别用不同技巧(得分分解、曲率控制等)试图处理流形,但仍依赖神经网络或其近似类,且证明中常需要额外条件(如 clipping 或已知流形结构)。 - Gabriel et al. [2025], Lyu et al. [2025] 用核平滑方法得到 \(s=1\) 的最优率,但不适用于 ERM 框架。

本文的位置: 本文是上述脉络的直接延续:它把 Stone 的极小化率思路搬到 ERM 框架下,证明了仅需将假设空间约束为 Sobolev 球(而不依赖神经网络的特殊结构),就能达到与非参数密度导数估计相同的率。然后,这一结果被推广到流形上的 SGM 场景,获得 Divol 意义下的最优率(至多对数因子)。作者明确称其工作为 Silverman [1982] 的“续篇”(“a continuation”),但用惩罚相对 Fisher 信息替代惩罚 KL 散度。

子线索聚类

线索 代表性工作 核心方法
经典密度/导数极小化率 Stone (1982,1983), Comte et al. (2020) 核估计、自适应
得分匹配与 Fisher 散度 Hyvärinen (2005), Vincent (2011) 损失等价性
SGM 的理论收敛率(全空间) Oko et al. (2023), Stephanovitch et al. (2025) 神经网络 + Sobolev 近似
流形上测度估计及 SGM Divol (2022), 本文** 熵正则化、半群平滑

这个方向在追问的核心问题(2‑4 个)

  1. score estimation 通过 ERM 能否达到极小化率? 以往达到极小化率的方法多为核平滑,与 SGM 实际使用的 ERM 形式差异大。
  2. 得分估计的误差如何控制 SGM 的最终生成质量? 需要一个将得分 \(L_2\) 误差转化为 Wasserstein 距离的紧上界(目前只有 Oko et al. [2023] 给出的引理,但需 clipping 等操作)。
  3. 流形假设下,得分函数在 \(t\to 0\) 时爆炸,如何同时获得方差控制? 流形情形下的爆炸速度比全空间更快(导数按 \(1/t\)),需更多正则化。
  4. 能否用普适的假设类(如 Sobolev 球)取代神经网络? 神经网络训练常通过隐式正则化控制导数,但理论上难以验证。本文直接显式约束 Sobolev 范数,但实践中如何实现仍是开放问题。

⚠️ 作者的 framing

作者将缺口 frame 为: 现有最优率证明要么依赖核平滑(与 ERM 不同),要么依赖特定神经网络结构(与实际用法不同),而本文用最抽象的 ERM + Sobolev 约束即可达到最优率,因此“凡是能控制导数范数的假设类(包括适当训练的网络)都能泛化”。这一 framing 显然意在淡化“神经网络”的附属性,强调正则化的通用性。

被淡化或回避的路线: - 本文不讨论自适应选择带宽 \(h\) 和惩罚 \(\lambda\) 的问题(假设光滑度 \(s\) 已知);Stone 及 Comte 的工作强调自适应,而本文未处理。 - 对于 SGM 部分,作者采用显式 clipping分段估计策略,这很可能是技术的便利而非必要;实践中往往统一用一种网络。作者承认“it is likely to be unnecessary in practice”。 - 论文完全不讨论计算复杂度(训练神经网络的优化问题),只建立统计率。

明显该存在却未被引用的潜在工作: - 关于非参数分式的 Stein's score matching 收敛性(如 Sriperumbudur et al. 2017, JMLR)未被提及。该工作研究核嵌入下的得分估计收敛速度,属于另一技术路线,但未与极小化率对标。 - 关于经验风险最小化在 Sobolev 约束下的极值统计特性(如 van de Geer 2000 的惩罚 M‑estimation 处理 Lasso 型问题)仅用 chaining 处理,但没有引用更早的 empirical process 经典教科书(如 van der Vaart & Wellner 1996),尽管证明了类似模式。

张力

未见明显对立引用。 所有被引工作均沿着“某种形式的光滑假设 → 最优率”的思路,彼此无矛盾。唯一可能的张力在于:Oko et al. [2023] 用 spline‑based 神经网络获得率,而 Stephanovitch et al. [2025] 用更一般的神经网络;本文脱离了神经网络,专注于 Sobolev 球,但这不等于与之前结论矛盾,而是覆盖了之前结论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号表:

符号 含义 类型
\(\mu\) 目标概率测度 未知分布
\(f^\mu\) \(\mu\) 的密度(关于体积测度或 Lebesgue 测度) 未知函数
\(\rho^* = \nabla \log f^\mu\) score 函数(向量场) 目标参数(函数)
\(X_1,\dots,X_n\) i.i.d. 样本,\(X_i\sim\mu\) 可观测数据
\(n\) 样本量 标量
\(d\) 空间维数 / 流形维数 已知常数
\(D\) 嵌入空间维数(流形情形) 已知常数
\(s\) 光滑性参数(\(f^\mu \in W^{s,\infty}\) 已知常数
\(\mathcal{F}\) 假设空间:候选向量场的集合 设计选择
\(\widehat{L}(g)\) 经验损失:\(\frac1n\sum_{i=1}^n(\|g(X_i)\|^2+2\nabla\!\cdot\!g(X_i))\) 可计算量
\(L(g)\) 总体损失:\(\int(\|g\|^2+2\nabla\!\cdot\!g)\,\mathrm{d}\mu\) 不可观测
\(\lambda\) 惩罚参数 调节变量
\(h\) “伪带宽”参数,控制假设类中函数的高阶导数界的大小 调节变量
\(\ell\) 额外光滑参数(假设类中允许更多阶导数约束) 整数,选足够大
\(\widehat{\rho}\) ERM 给出的估计:\(\arg\min_{g\in\mathcal{F}} (\widehat{L}(g)+\lambda\|\nabla^{s-1}g\|^2_{L^2(\mathbb{T}^d)})\) 估计量
\(\rho_{\mathcal{F}}\) 总体风险下的最小化器:\(\arg\min_{g\in\mathcal{F}} (L(g)+\lambda\|\nabla^{s-1}g\|^2_{L^2(\mathbb{T}^d)})\) 辅助量

模型(以平坦环面情形为例):

  • 假设 \(\mu\) 有密度 \(f^\mu\)\(d\) 维平坦环面 \(\mathbb{T}^d\) 上,且 \(f^\mu \ge f_{\min}>0\)\(f^\mu\in W^{s,\infty}(\mathbb{T}^d)\)\(s\ge 1\)
  • 在此假设下,score 函数 \(\rho^* = \nabla \log f^\mu\)\(s-1\) 阶导数有界:\(\|\rho^*\|_{W^{s-1,\infty}} \le R\)
  • 样本 \(\sim\mu\) 独立同分布。

可观测数据 仅有 \(X_1,\dots,X_n\);我们无法直接观测到 \(\rho^*(X_i)\)。损失函数中的项 \(\nabla\!\cdot\!g(X_i)\) 只需知道 \(g\) 的表达式(不依赖未知量)即可计算,因此整体损失可完全由样本计算。

不可观测的潜在量: 总体损失 \(L(g)\)、score 真值 \(\rho^*\)、密度 \(f^\mu\) 及其导数。

第二步:最小内核

最简特例: - \(d=1\)(一维环面,即圆 \(\mathbb{S}^1\)), - \(s=2\)(密度二阶光滑,一阶导数有界 Lipschitz,\(\rho^*\) 本身有界且一阶导数有界), - \(\ell\) 取足够大使得 \(2(s-1+\ell)>d\) 成立,例如 \(\ell=1\) 即可(因为 \(2(1+1)=4>1\))。

在此特例下,我们需要估计 \(\rho^*(x)=\frac{\mathrm{d}}{\mathrm{d}x}\log f^\mu(x)\)\(L^2(\mu)\) 范数下的误差。

论文的核心想法: 直接最小化经验损失 \(\widehat{L}(g)=\frac1n\sum_{i=1}^n (g(X_i)^2+2g'(X_i))\) 于假设类 \(\mathcal{F}\) 会过拟合。为了控制方差,我们在损失中加入惩罚项 \(\lambda\|g'\|^2_{L^2(\mathbb{T})}\),并将假设类限制为 Sobolev 球:

\[\mathcal{F} = \left\{g\in W^{1,\infty}(\mathbb{T}) \;\middle|\; \|g\|_{L^\infty}\le R,\; \|g'\|_{L^\infty}\le R,\; \|g''\|_{L^\infty}\le \frac{C}{h}\right\},\]
其中 \(h\) 是稍后将与 \(n\) 相适应的一个小量(类似于核平滑中的带宽),\(R\)\(\|\rho^*\|_{W^{1,\infty}}\) 的上界。

偏差:如果取 \(\rho_h\)\(\rho^*\) 的核平滑(核函数满足消失矩条件),可以证明 \(\rho_h\) 属于 \(\mathcal{F}\)(因为其导数被 \(h\) 缩放),且 \(L(\rho_h)-L(\rho^*) = \|\rho_h-\rho^*\|_{L^2(\mu)}^2 \le C h^{2}\)(因为 \(s-1=1\)\(\rho_h-\rho^* = O(h)\))。

方差:通过链锁论证(chaining)可以证明,对任何 \(g\in\mathcal{F}\),经验损失与总体损失之差的上确界被控制,最终得到 \(\mathbb{E}[\|\widehat{\rho}-\rho_{\mathcal{F}}\|_{L^2(\mu)}^2] \le C \lambda^{...} h^{-...} n^{-...}\)。代入最优 \(h \sim n^{-1/(2s+d)} = n^{-1/(4+1)} = n^{-1/5}\)\(\lambda \sim h^2 = n^{-2/5}\),则

\[\mathbb{E}[\|\widehat{\rho}-\rho^*\|_{L^2(\mu)}^2] \le C n^{-2(s-1)/(2s+d)} = C n^{-2/(5)} = C n^{-0.4}.\]
这正是 Stone 极小化率。

核心数学困难: 如何对 Sobolev 球的熵数做上界,并应用泛函型 Bernstein 不等式(chaining)。论文通过调用 Edmunds [2003] 的熵估计解决这一困难。

因此,本文在数学上干的事是: 证明了只要假设空间是“带宽 \(h\) 大小的 Sobolev 球”,那么 ERM + 导数惩罚就自动拥有与最优核平滑一样的偏差‑方差权衡。


三、这篇论文做了什么(重心,≥45%)

三句话

  1. 研究了什么: 在平坦环面和紧流形两种设定下,用 ERM 估计 score 函数,并证明 Sobolev 球约束足以获得非参数极小化收敛率。
  2. 核心方法: 对 ERM 施加高阶导数惩罚(\(L_2\) 范数在 \(s-1\) 阶导数上)并将假设类限制为 Sobolev 球(带宽 \(h\) 控制高阶导数界);链锁论证控制方差;核平滑控制偏差。
  3. 主要结论: 在平坦环面(Theorem 3)下达到极小化率 \(n^{-2(s-1)/(2s+d)}\);在流形 SGM 设定(Theorem 8 + Corollary 20)下达到测度估计最优率 \(n^{-(s+1)/(2s+d)}\)(除对数因子)。

关键设定与假设

  • Assumption 1 (平坦环面)\(\mu\) 支持在 \(\mathbb{T}^d\),密度 \(f^\mu\in W^{s,\infty}(\mathbb{T}^d)\)\(s\ge 1\),且 \(f^\mu\ge f_{\min}>0\)。这保证了 \(\rho^*\in W^{s-1,\infty}\) 且其高阶导数有界。
  • Assumption 6 (流形)\(\mu\) 支持在 \(\mathbb{R}^D\) 中的紧 \(d\) 维流形 \(\mathcal{M}\)(无边界,reach>0,\(k\)-光滑, \(k\ge s+2\)),密度 \(f^\mu\) 相对于流形体积测度满足 \(f^\mu\in W^{s,\infty}\)\(f^\mu\ge f_{\min}>0\)\(2\le s\le k-2\)。这一假设保证流形局部可以参数化且投影映射性质良好。
  • 惩罚类 \(\mathcal{F}_{s,R,h,\ell}\): 要求对所有 \(g\in\mathcal{F}\)
  • \(\|g\|_{W^{1,\infty}}\le R\),
  • \(k=0,\dots,\ell\)\(\|g\|_{W^{s-1+k,\infty}}\le RC(s)/h^k\)。 这一条件模拟核平滑后带宽 \(h\) 的精度。文末对比了与 Oko et al./Stephanovitch et al. 的差别:本文不需要 \(\|g\|_{L^\infty}\le R/\sqrt{1-e^{-2t}}\)(全空间中的强clip),而改用更弱但更自然的 \(\|P_t(\|g\|^2)\|_{L^\infty(\mathcal{M})}\le R^2/(1-e^{-2t})\) 隐含条件。

主要结果

Theorem 3(环面,非扩散): 设假设1成立,\(\mathcal{F}=\mathcal{F}_{s,R,h,\ell}\)\(2(s-1+\ell)>d\)\(\lambda<1\)。 则存在 \(C>0\) 使得

\[\mathbb{E}\big[\|\widehat{\rho}-\rho^*\|_{L^2(\mu)}^2\big] \le C\Big( \lambda^{\frac{d-2(s+\ell-2)}{(s-1)(d+2(s+\ell-2))}} h^{-\frac{2d\ell}{d+2(s+\ell-2)}} n^{-\frac{2(s+\ell-2)}{d+2(s+\ell-2)}} + h^{2(s-1)} + \lambda \Big).\]
特别地,取 \(\lambda=h^{2(s-1)}\)\(h=n^{-1/(2s+d)}\) 得:
\[\mathbb{E}\big[\|\widehat{\rho}-\rho^*\|_{L^2(\mu)}^2\big]\le 2C n^{-\frac{2(s-1)}{2s+d}}.\]

直觉: 第一项来自方差(由 \(\lambda^{...}h^{-...}n^{-...}\) 表达),第二三项来自偏差。调整 \(h,\lambda\) 使偏差与方差同阶,即得极小化率。

Theorem 8(流形,扩散情形): 设假设6成立,\(\mathcal{F}=\mathcal{F}_{t,s,R,h,\ell}\),若 \(1-e^{-2t}\le C/\log n\),则

\[\mathbb{E}\big[\|\widehat{\rho}_t-\rho^*_t\|_{L^2(\mu_t)}^2\big] \le \frac{C}{(1-e^{-2t})^2}\Big( h^{2(s+1)} + r_*^2 + \frac1n \Big),\]
其中 \(r_*^2\) 为 max 形式(见论文公式)。通过适当选 \(h\)\(t\),并可利用半群平滑性在不同时间区间切换,最终获得 Corollary 20 的最优测度率。

Corollary 20(SGM 生成质量): 若 \(d\ge 3\)\(2s(s+1)>d\),则存在构造的 estimator \(\widetilde{\rho}_t\)(见 Eq. (30) 的 clipping + 分段策略),使得

\[\mathbb{E}\big[W_1(\widehat{\mu}^{\mathrm{SGM}}_n,\mu)\big] \le C \log^{3/2} n \; n^{-\frac{s+1}{2s+d}}.\]
此率与 Divol [2022] 的下界匹配(除对数因子),故称为最优。

证明路线与技术技巧

以 Theorem 3 为例:

整体路线: 1. 偏差‑方差分解\(\|\widehat{\rho}-\rho^*\|^2_{L^2(\mu)} \le 2\|\rho_{\mathcal{F}}-\rho^*\|^2 + 2\|\widehat{\rho}-\rho_{\mathcal{F}}\|^2\)。 - 第一项称为偏差,由核平滑估计 \(\rho_h\) 构造一个属于 \(\mathcal{F}\) 的函数来控制。 - 第二项称为方差,由链锁论证控制。

  1. 偏差控制(Proposition 4)
  2. 构造核函数 \(K\) 满足对 \(j=1,\dots,s-1\) 有零矩,且 \(K\) 足够光滑。
  3. 定义 \(\rho_h(x)=\int h^{-d} K(\|y-x\|/h) \rho^*(y)dy\)
  4. 证明 \(\rho_h\in\mathcal{F}_{s,R,h,\ell}\):通过分部积分将导数转移到 \(\rho^*\) 上,利用 \(\rho^*\) 的导数有界及核的光滑性,得到所需各阶导数的界。
  5. \(\rho_{\mathcal{F}}\) 在总体风险上优于 \(\rho_h\),故 \(\|\rho_{\mathcal{F}}-\rho^*\|^2 \le L(\rho_h)-L(\rho^*)+\lambda\|\nabla^{s-1}\rho_h\|^2 \le C(h^{2(s-1)}+\lambda)\)

  6. 方差控制(Proposition 5)

  7. \(\widetilde{l}_g = l_g - \mathbb{E}[l_g(X_1)]\)。证明:
    \[\|\widehat{\rho}-\rho_{\mathcal{F}}\|^2 + \lambda\|\nabla^{s-1}(\widehat{\rho}-\rho_{\mathcal{F}})\|^2 \le \sup_{g\in\mathcal{F}} \frac1n\sum_{i=1}^n (\widetilde{l}_g-\widetilde{l}_{\rho_{\mathcal{F}}})(X_i).\]
  8. 对右式应用 chaining。引入 Rademacher 变量和对称化,将问题转化为控制过程 \(\frac1{\sqrt{n}}\sum \epsilon_i (\widetilde{l}_g-\widetilde{l}_{\rho_{\mathcal{F}}})\) 的上确界。
  9. 关键步骤:计算熵数 \(H(u)\)。利用 \(g\in\mathcal{F}\) 的导数有界性得到 \(\widetilde{l}_g\) 的光滑性(\(\|\widetilde{l}_g\|_{W^{s-2+\ell,\infty}}\le C/h^\ell\)),然后通过 Edmunds [2003, Theorem 2] 得到 \(H(u)\le C (h^\ell u)^{-d/(s+\ell-2)}\)
  10. 基于 \(H(u)\),通过 Boucheron et al. [2013] 的 Lemma 13.5 和 Theorem 13.19 完成 chaining,得到以高概率 \(\|\widehat{\rho}-\rho_{\mathcal{F}}\|^2 \le C \lambda^{1/(s-1)} (r_*^2 + x/n)\),再关于 \(x\) 积分取得期望。

关键跳跃点: - 在方差证明的 Step 2 中,需要解出 \(r_*\) 满足 \(\sqrt{n} r_*^2 = C \lambda^{-1/(s-1)} h^{-d\ell/(2(s+\ell-2))} r_*^{(2(s+\ell-2)-d)/(2(s+\ell-2))}\),这是通过一个隐式方程得到显式解的,需要精心处理指数。 - 在 Theorem 8 的方差部分,利用半群平滑性 Lemma 7 给出了 \(\|\widetilde{l}_{g,t}\|_{L^2(\mu)}\) 的更优上界,使得在 \(t\) 较大时熵数可以直接由 \(t\) 控制而不是由 \(h\) 控制,从而分区域得到两个可能的 \(r_*\)

技术技巧点名: - chaining (Boucheron et al. 2013):用于控制经验过程的极大偏差。 - Rademacher 对称化 (Boucheron et al., Lemma 11.4)。 - 熵数估计 (Edmunds 2003, Theorem 2):对 Sobolev 球的度量熵给出幂律上界,依赖 Sobolev 嵌入定理。 - Gagliardo‑Nirenberg 插值 (Aubin 1982):用于在方差证明末尾处理 \(\|\nabla\cdot(\widehat{\rho}-\rho_{\mathcal{F}})\|_{L^2(\mu)}\) 与更高阶导数的关系,从而消去余项。 - 半群平滑性 (Lemma 7):对 Ornstein-Uhlenbeck 半群,用 Hermite 多项式张量和 Cauchy-Schwarz 给出 \(|\nabla^k P_t \phi|\) 的上界,这对扩散情形熵数估计起关键作用。 - 积分变换与 Green 公式:在流形偏差证明(Lemma 14)中,对密度分解在流形局部坐标下的积分反复应用分部积分,以将导数转移到已知有界项。

真实例子与应用

本文为纯理论,无实证例子。 论文所有节(Section 3‑5)均为定理与证明,没有模拟实验或真实数据分析。5.6 节仅包含引理与命题的证明。结论中对 SGM 的数值效果没有任何实验验证。

🔎 结论是否比证明窄

是。以下三点值得注意:

  1. Theorem 8 的条件 \(1-e^{-2t}\le C/\log n\) 是证明中为了在流形附近控制尾部而引入的。作者在 Remark 11 中指出,当 \(t\) 较大时,只能用更粗糙的引理(s=-1)得到较低率,这在 Corollary 20 的分段策略中被弥补,但理论上是否真需要分段,作者未作严格说明。
  2. Corollary 20 需要条件 \(2s(s+1)>d\)。作者在第 4.5 节末尾写道:“We believe that the additional condition \(2s(s+1)>d\) is an artifact of our proof.” 这一条件在数值上可能很轻微(例如当 \(d=3,s=2\) 时 2·2·3=12>3),但并非对所有光滑度和维数都自动满足。
  3. clipping 和分段估计是“ad‑hoc”:论文中使用的估计器 Eq. (30) 需要分为“大时间”和“小时间”两个区域,并且在小时间区域做了 clipping(\(\|\widetilde{\rho}_t\|\le O(\sqrt{\log n/(1-e^{-2t})})\))。作者承认“It is likely to be unnecessary in practice”。这意味着 Corollary 20 的最优率是在一个可证明但未必可操作的算法上实现的。

四、开放问题(点到为止)

  1. 移除 \(2s(s+1)>d\) 的人为条件。 扎根于论文第 5.8 节末句(“we believe that the additional condition … is an artifact of our proof”)。此条件是流形 SGM Corollary 20 的限制,若能去除,则结果对低维流形高光滑度更自然。

  2. 证明从得分 \(L_2\) 误差到 Wasserstein 距离的紧上界,而不依赖 clipping。 本文直接依赖 Oko et al. [2023] 的 Lemma D.7,该引理本身假设得分估计被适当 clip。是否有更直接的连续性定理(如通过 Girsanov 变换)不引入 clip 也使误差传播成立?作者在引言中称之为“conjecture”,但未证明。

  3. 自适应选择带宽 \(h\) 和惩罚 \(\lambda\),不依赖已知光滑度 \(s\) 本文假设 \(s\) 已知且固定。Comte et al. [2020] 讨论了自适应导数估计,但本文未涉及。能否将 Stone [1982] 的自适应方法嵌入 Sobolev‑球 ERM 框架?

  4. 将 Sobolev 约束条件转化为实际网络训练中可施加的惩罚。 作者在引言末尾提到 Williams et al. [2019] 对简单 ReLU 网络已显示加权 \(L_2\) 惩罚近似对应二阶导惩罚,但未推广。待确认: 是否真有严格的理论桥梁将网络权重的正则化(如 weight decay)与输出函数导数界的显式控制联系起来?这是连接抽象理论到实践的关键。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论