Optimal score function estimation via derivatives constraints¶

作者: Thomas Bonis, Thanh Mai Pham Ngoc, Viet Chi Tran
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.19084

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：如何从 i.i.d. 样本中估计概率密度的得分函数（score function，即 ∇log density），并且使得估计的精度达到非参数极小化收敛率。 进一步，该问题与 score‑based generative model (SGM) 的质量相联系：得分估计的误差如何转化为生成样本分布的 Wasserstein 距离误差？当前此方向正处于从“纯非参数率推导”向“将率嵌入 SGM 理论分析”的过渡阶段，几乎所有工作都依赖于特定假设（密度光滑性、全空间或流形结构），但尚未建立起统一且易于验证的理论框架。

发展脉络（history）¶

奠基工作： - Stone [1982, 1983] 建立了密度及其导数估计的极小化收敛率：对于光滑度 \(s\)、支持在 \(\mathbb{R}^d\) 上的密度，其 \(\nu\)-阶导数的 \(L_2\) 极小化率为 \(n^{-2(s-\nu)/(2s+d)}\)。得分函数本质上是 log‑density 的一阶导数（但计算难度不低于密度导数估计），因此预期得分估计的极小化率为 \(n^{-2(s-1)/(2s+d)}\)。 - Hyvärinen [2005] 给出了得分函数的等价损失函数：最小化 \(\|\rho^*-g\|_{L^2(\mu)}\) 等价于最小化 \(\int(\|g\|^2+2\nabla\!\cdot\!g)\,\mathrm{d}\mu\)，这一结果使 ERM 成为可能。

主要进展（非参数密度/导数估计）： - Silverman [1982] 用惩罚对数似然做密度估计（惩罚项为导数的 \(L_2\) 范数），对应地，本文用惩罚相对 Fisher 信息做得分估计。 - Comte et al. [2020] 给出了导数估计的自适应框架，再次确认 Stone 的率为最优。 - Wibisono et al. [2024] 用核平滑（kernel smoothing）得到了当 \(s=2\) 时 sub‑Gaussian 测度上的最优得分率（含对数项），但他们用核平滑，与 SGM 采用的 ERM 形式不同。

扩散模型得分估计的理论分析： - Oko et al. [2023] 首次声称 SGM 可以导出最优测度估计率 \(n^{-(s+1)/(2s+d)}\)（Wasserstein‑1），但他们的证明依赖特殊的样条密度估计及相应神经网络，并非实践中常用的网络结构。 - Stephanovitch et al. [2025] 将这一结果推广到更一般的 sub‑Gaussian 测度，通过深度分析得分函数随时间的正则性（导数按 \(1/\sqrt{t}\) 爆炸），用神经网络近似 Sobolev 球并证明了最优率。但其假设中 \(\mu\) 拥有光滑密度且有界支集于 \(\mathbb{R}^D\)，不覆盖流形情形。 - Divol [2022] 给出了流形上测度估计的 Wasserstein‑1 极小化率：若密度光滑度 \(s\)、流形维数 \(d\)，则率为 \(n^{-(s+1)/(2s+d)}\)，这为 SGM 下流形情形成了基准目标。

流形上的进一步探索： - Tang & Yang [2024], Zhang et al. [2026], Fu et al. [2026] 分别用不同技巧（得分分解、曲率控制等）试图处理流形，但仍依赖神经网络或其近似类，且证明中常需要额外条件（如 clipping 或已知流形结构）。 - Gabriel et al. [2025], Lyu et al. [2025] 用核平滑方法得到 \(s=1\) 的最优率，但不适用于 ERM 框架。

本文的位置： 本文是上述脉络的直接延续：它把 Stone 的极小化率思路搬到 ERM 框架下，证明了仅需将假设空间约束为 Sobolev 球（而不依赖神经网络的特殊结构），就能达到与非参数密度导数估计相同的率。然后，这一结果被推广到流形上的 SGM 场景，获得 Divol 意义下的最优率（至多对数因子）。作者明确称其工作为 Silverman [1982] 的“续篇”（“a continuation”），但用惩罚相对 Fisher 信息替代惩罚 KL 散度。

子线索聚类¶

线索	代表性工作	核心方法
经典密度/导数极小化率	Stone (1982,1983), Comte et al. (2020)	核估计、自适应
得分匹配与 Fisher 散度	Hyvärinen (2005), Vincent (2011)	损失等价性
SGM 的理论收敛率（全空间）	Oko et al. (2023), Stephanovitch et al. (2025)	神经网络 + Sobolev 近似
流形上测度估计及 SGM	Divol (2022), 本文**	熵正则化、半群平滑

这个方向在追问的核心问题（2‑4 个）¶

score estimation 通过 ERM 能否达到极小化率？ 以往达到极小化率的方法多为核平滑，与 SGM 实际使用的 ERM 形式差异大。
得分估计的误差如何控制 SGM 的最终生成质量？ 需要一个将得分 \(L_2\) 误差转化为 Wasserstein 距离的紧上界（目前只有 Oko et al. [2023] 给出的引理，但需 clipping 等操作）。
流形假设下，得分函数在 \(t\to 0\) 时爆炸，如何同时获得方差控制？ 流形情形下的爆炸速度比全空间更快（导数按 \(1/t\)），需更多正则化。
能否用普适的假设类（如 Sobolev 球）取代神经网络？ 神经网络训练常通过隐式正则化控制导数，但理论上难以验证。本文直接显式约束 Sobolev 范数，但实践中如何实现仍是开放问题。

⚠️ 作者的 framing¶

作者将缺口 frame 为： 现有最优率证明要么依赖核平滑（与 ERM 不同），要么依赖特定神经网络结构（与实际用法不同），而本文用最抽象的 ERM + Sobolev 约束即可达到最优率，因此“凡是能控制导数范数的假设类（包括适当训练的网络）都能泛化”。这一 framing 显然意在淡化“神经网络”的附属性，强调正则化的通用性。

被淡化或回避的路线： - 本文不讨论自适应选择带宽 \(h\) 和惩罚 \(\lambda\) 的问题（假设光滑度 \(s\) 已知）；Stone 及 Comte 的工作强调自适应，而本文未处理。 - 对于 SGM 部分，作者采用显式 clipping 和分段估计策略，这很可能是技术的便利而非必要；实践中往往统一用一种网络。作者承认“it is likely to be unnecessary in practice”。 - 论文完全不讨论计算复杂度（训练神经网络的优化问题），只建立统计率。

明显该存在却未被引用的潜在工作： - 关于非参数分式的 Stein's score matching 收敛性（如 Sriperumbudur et al. 2017, JMLR）未被提及。该工作研究核嵌入下的得分估计收敛速度，属于另一技术路线，但未与极小化率对标。 - 关于经验风险最小化在 Sobolev 约束下的极值统计特性（如 van de Geer 2000 的惩罚 M‑estimation 处理 Lasso 型问题）仅用 chaining 处理，但没有引用更早的 empirical process 经典教科书（如 van der Vaart & Wellner 1996），尽管证明了类似模式。

张力¶

未见明显对立引用。 所有被引工作均沿着“某种形式的光滑假设 → 最优率”的思路，彼此无矛盾。唯一可能的张力在于：Oko et al. [2023] 用 spline‑based 神经网络获得率，而 Stephanovitch et al. [2025] 用更一般的神经网络；本文脱离了神经网络，专注于 Sobolev 球，但这不等于与之前结论矛盾，而是覆盖了之前结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号表：

符号	含义	类型
\(\mu\)	目标概率测度	未知分布
\(f^\mu\)	\(\mu\) 的密度（关于体积测度或 Lebesgue 测度）	未知函数
\(\rho^* = \nabla \log f^\mu\)	score 函数（向量场）	目标参数（函数）
\(X_1,\dots,X_n\)	i.i.d. 样本，\(X_i\sim\mu\)	可观测数据
\(n\)	样本量	标量
\(d\)	空间维数 / 流形维数	已知常数
\(D\)	嵌入空间维数（流形情形）	已知常数
\(s\)	光滑性参数（\(f^\mu \in W^{s,\infty}\)）	已知常数
\(\mathcal{F}\)	假设空间：候选向量场的集合	设计选择
\(\widehat{L}(g)\)	经验损失：\(\frac1n\sum_{i=1}^n(\\|g(X_i)\\|^2+2\nabla\!\cdot\!g(X_i))\)	可计算量
\(L(g)\)	总体损失：\(\int(\\|g\\|^2+2\nabla\!\cdot\!g)\,\mathrm{d}\mu\)	不可观测
\(\lambda\)	惩罚参数	调节变量
\(h\)	“伪带宽”参数，控制假设类中函数的高阶导数界的大小	调节变量
\(\ell\)	额外光滑参数（假设类中允许更多阶导数约束）	整数，选足够大
\(\widehat{\rho}\)	ERM 给出的估计：\(\arg\min_{g\in\mathcal{F}} (\widehat{L}(g)+\lambda\\|\nabla^{s-1}g\\|^2_{L^2(\mathbb{T}^d)})\)	估计量
\(\rho_{\mathcal{F}}\)	总体风险下的最小化器：\(\arg\min_{g\in\mathcal{F}} (L(g)+\lambda\\|\nabla^{s-1}g\\|^2_{L^2(\mathbb{T}^d)})\)	辅助量

模型（以平坦环面情形为例）：

假设 \(\mu\) 有密度 \(f^\mu\) 在 \(d\) 维平坦环面 \(\mathbb{T}^d\) 上，且 \(f^\mu \ge f_{\min}>0\)，\(f^\mu\in W^{s,\infty}(\mathbb{T}^d)\)，\(s\ge 1\)。
在此假设下，score 函数 \(\rho^* = \nabla \log f^\mu\) 的 \(s-1\) 阶导数有界：\(\|\rho^*\|_{W^{s-1,\infty}} \le R\)。
样本 \(\sim\mu\) 独立同分布。

可观测数据 仅有 \(X_1,\dots,X_n\)；我们无法直接观测到 \(\rho^*(X_i)\)。损失函数中的项 \(\nabla\!\cdot\!g(X_i)\) 只需知道 \(g\) 的表达式（不依赖未知量）即可计算，因此整体损失可完全由样本计算。

不可观测的潜在量： 总体损失 \(L(g)\)、score 真值 \(\rho^*\)、密度 \(f^\mu\) 及其导数。

第二步：最小内核¶

取 最简特例： - \(d=1\)（一维环面，即圆 \(\mathbb{S}^1\)）， - \(s=2\)（密度二阶光滑，一阶导数有界 Lipschitz，\(\rho^*\) 本身有界且一阶导数有界）， - \(\ell\) 取足够大使得 \(2(s-1+\ell)>d\) 成立，例如 \(\ell=1\) 即可（因为 \(2(1+1)=4>1\)）。

在此特例下，我们需要估计 \(\rho^*(x)=\frac{\mathrm{d}}{\mathrm{d}x}\log f^\mu(x)\) 在 \(L^2(\mu)\) 范数下的误差。

论文的核心想法： 直接最小化经验损失 \(\widehat{L}(g)=\frac1n\sum_{i=1}^n (g(X_i)^2+2g'(X_i))\) 于假设类 \(\mathcal{F}\) 会过拟合。为了控制方差，我们在损失中加入惩罚项 \(\lambda\|g'\|^2_{L^2(\mathbb{T})}\)，并将假设类限制为 Sobolev 球：

\[\mathcal{F} = \left\{g\in W^{1,\infty}(\mathbb{T}) \;\middle|\; \|g\|_{L^\infty}\le R,\; \|g'\|_{L^\infty}\le R,\; \|g''\|_{L^\infty}\le \frac{C}{h}\right\},\]

其中 \(h\) 是稍后将与 \(n\) 相适应的一个小量（类似于核平滑中的带宽），\(R\) 是 \(\|\rho^*\|_{W^{1,\infty}}\) 的上界。

偏差：如果取 \(\rho_h\) 为 \(\rho^*\) 的核平滑（核函数满足消失矩条件），可以证明 \(\rho_h\) 属于 \(\mathcal{F}\)（因为其导数被 \(h\) 缩放），且 \(L(\rho_h)-L(\rho^*) = \|\rho_h-\rho^*\|_{L^2(\mu)}^2 \le C h^{2}\)（因为 \(s-1=1\)，\(\rho_h-\rho^* = O(h)\)）。

方差：通过链锁论证（chaining）可以证明，对任何 \(g\in\mathcal{F}\)，经验损失与总体损失之差的上确界被控制，最终得到 \(\mathbb{E}[\|\widehat{\rho}-\rho_{\mathcal{F}}\|_{L^2(\mu)}^2] \le C \lambda^{...} h^{-...} n^{-...}\)。代入最优 \(h \sim n^{-1/(2s+d)} = n^{-1/(4+1)} = n^{-1/5}\)，\(\lambda \sim h^2 = n^{-2/5}\)，则

\[\mathbb{E}[\|\widehat{\rho}-\rho^*\|_{L^2(\mu)}^2] \le C n^{-2(s-1)/(2s+d)} = C n^{-2/(5)} = C n^{-0.4}.\]

这正是 Stone 极小化率。

核心数学困难： 如何对 Sobolev 球的熵数做上界，并应用泛函型 Bernstein 不等式（chaining）。论文通过调用 Edmunds [2003] 的熵估计解决这一困难。

因此，本文在数学上干的事是： 证明了只要假设空间是“带宽 \(h\) 大小的 Sobolev 球”，那么 ERM + 导数惩罚就自动拥有与最优核平滑一样的偏差‑方差权衡。

三、这篇论文做了什么（重心，≥45%）¶

三句话¶

研究了什么： 在平坦环面和紧流形两种设定下，用 ERM 估计 score 函数，并证明 Sobolev 球约束足以获得非参数极小化收敛率。
核心方法： 对 ERM 施加高阶导数惩罚（\(L_2\) 范数在 \(s-1\) 阶导数上）并将假设类限制为 Sobolev 球（带宽 \(h\) 控制高阶导数界）；链锁论证控制方差；核平滑控制偏差。
主要结论： 在平坦环面（Theorem 3）下达到极小化率 \(n^{-2(s-1)/(2s+d)}\)；在流形 SGM 设定（Theorem 8 + Corollary 20）下达到测度估计最优率 \(n^{-(s+1)/(2s+d)}\)（除对数因子）。

关键设定与假设¶

Assumption 1 (平坦环面)：\(\mu\) 支持在 \(\mathbb{T}^d\)，密度 \(f^\mu\in W^{s,\infty}(\mathbb{T}^d)\)，\(s\ge 1\)，且 \(f^\mu\ge f_{\min}>0\)。这保证了 \(\rho^*\in W^{s-1,\infty}\) 且其高阶导数有界。
Assumption 6 (流形)：\(\mu\) 支持在 \(\mathbb{R}^D\) 中的紧 \(d\) 维流形 \(\mathcal{M}\)（无边界，reach>0，\(k\)-光滑, \(k\ge s+2\)），密度 \(f^\mu\) 相对于流形体积测度满足 \(f^\mu\in W^{s,\infty}\)，\(f^\mu\ge f_{\min}>0\)，\(2\le s\le k-2\)。这一假设保证流形局部可以参数化且投影映射性质良好。
惩罚类 \(\mathcal{F}_{s,R,h,\ell}\): 要求对所有 \(g\in\mathcal{F}\)，
\(\|g\|_{W^{1,\infty}}\le R\),
对 \(k=0,\dots,\ell\)，\(\|g\|_{W^{s-1+k,\infty}}\le RC(s)/h^k\)。这一条件模拟核平滑后带宽 \(h\) 的精度。文末对比了与 Oko et al./Stephanovitch et al. 的差别：本文不需要 \(\|g\|_{L^\infty}\le R/\sqrt{1-e^{-2t}}\)（全空间中的强clip），而改用更弱但更自然的 \(\|P_t(\|g\|^2)\|_{L^\infty(\mathcal{M})}\le R^2/(1-e^{-2t})\) 隐含条件。

主要结果¶

Theorem 3（环面，非扩散）：设假设1成立，\(\mathcal{F}=\mathcal{F}_{s,R,h,\ell}\) 且 \(2(s-1+\ell)>d\)，\(\lambda<1\)。则存在 \(C>0\) 使得

\[\mathbb{E}\big[\|\widehat{\rho}-\rho^*\|_{L^2(\mu)}^2\big] \le C\Big( \lambda^{\frac{d-2(s+\ell-2)}{(s-1)(d+2(s+\ell-2))}} h^{-\frac{2d\ell}{d+2(s+\ell-2)}} n^{-\frac{2(s+\ell-2)}{d+2(s+\ell-2)}} + h^{2(s-1)} + \lambda \Big).\]

特别地，取 \(\lambda=h^{2(s-1)}\) 和 \(h=n^{-1/(2s+d)}\) 得：

\[\mathbb{E}\big[\|\widehat{\rho}-\rho^*\|_{L^2(\mu)}^2\big]\le 2C n^{-\frac{2(s-1)}{2s+d}}.\]

直觉： 第一项来自方差（由 \(\lambda^{...}h^{-...}n^{-...}\) 表达），第二三项来自偏差。调整 \(h,\lambda\) 使偏差与方差同阶，即得极小化率。

Theorem 8（流形，扩散情形）：设假设6成立，\(\mathcal{F}=\mathcal{F}_{t,s,R,h,\ell}\)，若 \(1-e^{-2t}\le C/\log n\)，则

\[\mathbb{E}\big[\|\widehat{\rho}_t-\rho^*_t\|_{L^2(\mu_t)}^2\big] \le \frac{C}{(1-e^{-2t})^2}\Big( h^{2(s+1)} + r_*^2 + \frac1n \Big),\]

其中 \(r_*^2\) 为 max 形式（见论文公式）。通过适当选 \(h\) 和 \(t\)，并可利用半群平滑性在不同时间区间切换，最终获得 Corollary 20 的最优测度率。

Corollary 20（SGM 生成质量）：若 \(d\ge 3\) 且 \(2s(s+1)>d\)，则存在构造的 estimator \(\widetilde{\rho}_t\)（见 Eq. (30) 的 clipping + 分段策略），使得

\[\mathbb{E}\big[W_1(\widehat{\mu}^{\mathrm{SGM}}_n,\mu)\big] \le C \log^{3/2} n \; n^{-\frac{s+1}{2s+d}}.\]

此率与 Divol [2022] 的下界匹配（除对数因子），故称为最优。

证明路线与技术技巧¶

以 Theorem 3 为例：

整体路线： 1. 偏差‑方差分解：\(\|\widehat{\rho}-\rho^*\|^2_{L^2(\mu)} \le 2\|\rho_{\mathcal{F}}-\rho^*\|^2 + 2\|\widehat{\rho}-\rho_{\mathcal{F}}\|^2\)。 - 第一项称为偏差，由核平滑估计 \(\rho_h\) 构造一个属于 \(\mathcal{F}\) 的函数来控制。 - 第二项称为方差，由链锁论证控制。

偏差控制（Proposition 4）：
构造核函数 \(K\) 满足对 \(j=1,\dots,s-1\) 有零矩，且 \(K\) 足够光滑。
定义 \(\rho_h(x)=\int h^{-d} K(\|y-x\|/h) \rho^*(y)dy\)。
证明 \(\rho_h\in\mathcal{F}_{s,R,h,\ell}\)：通过分部积分将导数转移到 \(\rho^*\) 上，利用 \(\rho^*\) 的导数有界及核的光滑性，得到所需各阶导数的界。
则 \(\rho_{\mathcal{F}}\) 在总体风险上优于 \(\rho_h\)，故 \(\|\rho_{\mathcal{F}}-\rho^*\|^2 \le L(\rho_h)-L(\rho^*)+\lambda\|\nabla^{s-1}\rho_h\|^2 \le C(h^{2(s-1)}+\lambda)\)。
方差控制（Proposition 5）：
记 \(\widetilde{l}_g = l_g - \mathbb{E}[l_g(X_1)]\)。证明：
\[\|\widehat{\rho}-\rho_{\mathcal{F}}\|^2 + \lambda\|\nabla^{s-1}(\widehat{\rho}-\rho_{\mathcal{F}})\|^2 \le \sup_{g\in\mathcal{F}} \frac1n\sum_{i=1}^n (\widetilde{l}_g-\widetilde{l}_{\rho_{\mathcal{F}}})(X_i).\]
对右式应用 chaining。引入 Rademacher 变量和对称化，将问题转化为控制过程 \(\frac1{\sqrt{n}}\sum \epsilon_i (\widetilde{l}_g-\widetilde{l}_{\rho_{\mathcal{F}}})\) 的上确界。
关键步骤：计算熵数 \(H(u)\)。利用 \(g\in\mathcal{F}\) 的导数有界性得到 \(\widetilde{l}_g\) 的光滑性（\(\|\widetilde{l}_g\|_{W^{s-2+\ell,\infty}}\le C/h^\ell\)），然后通过 Edmunds [2003, Theorem 2] 得到 \(H(u)\le C (h^\ell u)^{-d/(s+\ell-2)}\)。
基于 \(H(u)\)，通过 Boucheron et al. [2013] 的 Lemma 13.5 和 Theorem 13.19 完成 chaining，得到以高概率 \(\|\widehat{\rho}-\rho_{\mathcal{F}}\|^2 \le C \lambda^{1/(s-1)} (r_*^2 + x/n)\)，再关于 \(x\) 积分取得期望。

关键跳跃点： - 在方差证明的 Step 2 中，需要解出 \(r_*\) 满足 \(\sqrt{n} r_*^2 = C \lambda^{-1/(s-1)} h^{-d\ell/(2(s+\ell-2))} r_*^{(2(s+\ell-2)-d)/(2(s+\ell-2))}\)，这是通过一个隐式方程得到显式解的，需要精心处理指数。 - 在 Theorem 8 的方差部分，利用半群平滑性 Lemma 7 给出了 \(\|\widetilde{l}_{g,t}\|_{L^2(\mu)}\) 的更优上界，使得在 \(t\) 较大时熵数可以直接由 \(t\) 控制而不是由 \(h\) 控制，从而分区域得到两个可能的 \(r_*\)。

技术技巧点名： - chaining (Boucheron et al. 2013)：用于控制经验过程的极大偏差。 - Rademacher 对称化 (Boucheron et al., Lemma 11.4)。 - 熵数估计 (Edmunds 2003, Theorem 2)：对 Sobolev 球的度量熵给出幂律上界，依赖 Sobolev 嵌入定理。 - Gagliardo‑Nirenberg 插值 (Aubin 1982)：用于在方差证明末尾处理 \(\|\nabla\cdot(\widehat{\rho}-\rho_{\mathcal{F}})\|_{L^2(\mu)}\) 与更高阶导数的关系，从而消去余项。 - 半群平滑性 (Lemma 7)：对 Ornstein-Uhlenbeck 半群，用 Hermite 多项式张量和 Cauchy-Schwarz 给出 \(|\nabla^k P_t \phi|\) 的上界，这对扩散情形熵数估计起关键作用。 - 积分变换与 Green 公式：在流形偏差证明（Lemma 14）中，对密度分解在流形局部坐标下的积分反复应用分部积分，以将导数转移到已知有界项。

真实例子与应用¶

本文为纯理论，无实证例子。 论文所有节（Section 3‑5）均为定理与证明，没有模拟实验或真实数据分析。5.6 节仅包含引理与命题的证明。结论中对 SGM 的数值效果没有任何实验验证。

🔎 结论是否比证明窄¶

是。以下三点值得注意：

Theorem 8 的条件 \(1-e^{-2t}\le C/\log n\) 是证明中为了在流形附近控制尾部而引入的。作者在 Remark 11 中指出，当 \(t\) 较大时，只能用更粗糙的引理（s=-1）得到较低率，这在 Corollary 20 的分段策略中被弥补，但理论上是否真需要分段，作者未作严格说明。
Corollary 20 需要条件 \(2s(s+1)>d\)。作者在第 4.5 节末尾写道：“We believe that the additional condition \(2s(s+1)>d\) is an artifact of our proof.” 这一条件在数值上可能很轻微（例如当 \(d=3,s=2\) 时 2·2·3=12>3），但并非对所有光滑度和维数都自动满足。
clipping 和分段估计是“ad‑hoc”：论文中使用的估计器 Eq. (30) 需要分为“大时间”和“小时间”两个区域，并且在小时间区域做了 clipping（\(\|\widetilde{\rho}_t\|\le O(\sqrt{\log n/(1-e^{-2t})})\)）。作者承认“It is likely to be unnecessary in practice”。这意味着 Corollary 20 的最优率是在一个可证明但未必可操作的算法上实现的。

四、开放问题（点到为止）¶

移除 \(2s(s+1)>d\) 的人为条件。 扎根于论文第 5.8 节末句（“we believe that the additional condition … is an artifact of our proof”）。此条件是流形 SGM Corollary 20 的限制，若能去除，则结果对低维流形高光滑度更自然。
证明从得分 \(L_2\) 误差到 Wasserstein 距离的紧上界，而不依赖 clipping。 本文直接依赖 Oko et al. [2023] 的 Lemma D.7，该引理本身假设得分估计被适当 clip。是否有更直接的连续性定理（如通过 Girsanov 变换）不引入 clip 也使误差传播成立？作者在引言中称之为“conjecture”，但未证明。
自适应选择带宽 \(h\) 和惩罚 \(\lambda\)，不依赖已知光滑度 \(s\)。 本文假设 \(s\) 已知且固定。Comte et al. [2020] 讨论了自适应导数估计，但本文未涉及。能否将 Stone [1982] 的自适应方法嵌入 Sobolev‑球 ERM 框架？
将 Sobolev 约束条件转化为实际网络训练中可施加的惩罚。 作者在引言末尾提到 Williams et al. [2019] 对简单 ReLU 网络已显示加权 \(L_2\) 惩罚近似对应二阶导惩罚，但未推广。待确认： 是否真有严格的理论桥梁将网络权重的正则化（如 weight decay）与输出函数导数界的显式控制联系起来？这是连接抽象理论到实践的关键。

Maintained by 陈星宇 · Homepage · Source on GitHub