跳转至

Probabilistic Richardson extrapolation

作者: Chris J Oates, Toni Karvonen, Aretha L Teckentrup, Marina Strocchi, Steven A Niederer
来源: Journal of the Royal Statistical Society Series B
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本问题是:当使用数值方法(如有限元、蒙特卡洛、ODE求解器)逼近某个连续统物理量时,如何利用不同离散化水平(即不同保真度,fidelity)的输出,在计算预算受限下尽可能加速收敛、逼近真实值,并对逼近的残差进行不确定性量化。当前它处于从“经典确定性外推”向“概率化、多保真度融合与自适应设计”过渡的成熟期,理论框架(如概率数值方法 PN)已建立,但在复杂多连续统、未知收敛阶的计算机代码上的统一与加速理论仍在成型。

发展脉络(history): - 奠基工作:Richardson & Gaunt (1927) 提出了“延迟趋近极限”的经典 Richardson 外推法,其核心假设是数值逼近误差具有关于步长的多项式渐近展开(即已知收敛阶),通过线性组合消除低阶误差项以加速收敛。 - 主要进展: - 多保真度与多层方法:Peherstorfer et al. (2018) 综述了多保真度方法(MFM),指出通过结合少量高保真度(hi-fi)模拟与大量低保真度模拟可以缓解计算瓶颈;Lemaire & Pagès (2017) 提出了多层 Richardson-Romberg(MLRR)估计器,将 MLMC 的方差控制与 Richardson 的高阶偏差消除结合,在弱误差可展开至任意阶的条件下将复杂度从 \((\log(1/\varepsilon))^2/\varepsilon^2\) 降至 \(\log(1/\varepsilon)/\varepsilon^2\)。 - 概率数值方法(PN):Hennig et al. (2015) 与 Cockayne et al. (2017/2019) 将数值逼近任务重构为统计推断,用贝叶斯原则量化关于连续统模型的不确定性;Teymur et al. (2021) 提出了“黑盒 PN”,仅利用传统方法输出的收敛序列作为数据集进行概率化外推,初步实现了 Richardson 外推的概率化类比,但未系统处理未知收敛阶与多保真度设计。 - 数据科学中的外推:Bach (2021) 系统分析了 Richardson 外推在数据科学(如机器学习正则化、MCMC)中的有效性,给出了外推阶数与偏差消除的显式条件;Chizat et al. (2020) 在最优传输的 Sinkhorn 散度中使用了 Richardson 外推以提升统计与计算效率。 - 当前 frontier:如何在收敛阶未知(或难以从复杂代码中解析获取)、且存在多个连续统离散化(如心脏模型中空间与时间同时离散)的情境下,统一外推加速与多保真度建模,并实现保真度选择的自动化。 - 本文的位置:本文提出 Gauss–Richardson Extrapolation (GRE),将经典 Richardson 外推与多保真度 GP 仿真统一在一个概率框架下,把未知收敛阶视为随机变量进行贝叶斯估计,并首次在此框架下建立了多项式/指数级加速的理论条件,同时将保真度选择转化为连续优化问题。

子线索聚类: 1. 经典确定性外推与多层蒙特卡洛:Richardson (1927), Lemaire & Pagès (2017), Bach (2021)。这一簇在已知收敛阶或弱误差可展开的假设下,构造确定性线性组合以消除偏差,核心是“阶数已知时的精确抵消”。 2. 概率数值方法(PN)与黑盒外推:Hennig et al. (2015), Cockayne et al. (2017), Karvonen et al. (2018/2020), Teymur et al. (2021)。这一簇将数值逼近视为统计推断,用 GP 后验量化不确定性,核心是“将数值残差当作随机变量”,但大多未系统处理未知收敛阶的贝叶斯估计与加速理论。 3. 多保真度仿真与自适应设计:Peherstorfer et al. (2018), Cumming & Goldstein (2009), Ehara & Guillas (2023), Ji et al. (2024)。这一簇利用不同保真度模型的输出构建 GP 仿真器以降低计算成本,核心是“利用相关性融合多源数据”,但通常不显式建模数值收敛阶,也未与经典外推的加速理论统一。

这个方向在追问的核心问题: 1. 未知收敛阶下的外推:当数值方法的渐近误差展开阶数无法解析获取时,如何从数据中估计收敛阶并仍能实现加速?(经典方法要求阶数已知,否则外推组合失效)。 2. 多连续统离散化的统一:现代计算机代码往往同时离散化空间、时间等多个连续统,如何在一个框架下同时处理多维步长的收敛加速?(经典 Richardson 通常只处理单一步长)。 3. 外推与多保真度的理论统一:多保真度建模与 Richardson 外推在直觉上都利用低精度输出辅助高精度推断,它们在数学上是否是同一机制的不同特例?能否给出统一的加速界? 4. 保真度的最优选择:在计算预算受限下,应选择哪些步长/保真度级别进行模拟?如何将此选择从离散枚举转化为可优化的连续问题?

⚠️ 作者的 framing: - 作者将缺口 frame 为:经典 Richardson 外推要求已知收敛阶且处理单一连续统,而现代计算机代码具有多连续统离散化且收敛阶难以分析;概率数值方法虽提供了不确定性量化,但未系统处理收敛阶的统计估计与加速理论。因此,“显然的下一步”是将 Richardson 外推概率化,统一多保真度建模,并建立加速的理论保证。 - 被淡化或回避的竞争路线:深度学习求解 PDE(Han et al., 2018 被引但仅作为“机器学习用于数值任务”的背景提及,未与 GRE 进行理论或实证对比);MLRR(Lemaire & Pagès, 2017 被引但仅作为“多层方法与外推结合”的先行者,未讨论其在已知阶数下的复杂度优势是否在未知阶数下仍成立)。 - 明显该被引/该存在却未出现在 intro 里的:关于 GP 仿真器的收敛理论(如 Teckentrup et al. 2015/2018 关于分层 GP 的后验收敛界)未被引,而这对于 GRE 的加速理论证明可能提供更直接的基石;此外,关于自适应步长选择的经典数值分析文献(如 ODE 中的步长控制)未被引,这可能构成保真度选择的另一竞争范式。

张力: 未见明显对立引用。各被引工作在不同假设下得出不同结论(如 Richardson 要求已知阶数,MLRR 要求弱误差可展开至任意阶,PN 不要求但未给加速界),但它们更多是互补而非矛盾。唯一潜在的张力点:Bach (2021) 指出 Richardson 外推在数据科学中的有效性依赖于偏差展开的特定条件,而本文声称 GRE 在未知阶数下仍能加速——这两者的条件是否完全兼容,需研究者自行核验本文定理 1 与 Bach 的命题 1 的假设交集。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • \(f\):连续统物理量,即想要逼近的真实值(如 PDE 的精确解在某点处的值),是确定性的未知常数。
  • \(x\):离散化参数(保真度参数),如网格步长 \(h\) 或时间步长 \(\Delta t\),通常 \(x > 0\),越小代表越高保真度。
  • \(f(x)\):在离散化参数 \(x\) 下数值方法输出的逼近值,是确定性的可观测函数(无随机噪声,本文核心设定)。
  • \(f(0)\):即 \(f\),当 \(x \to 0\) 时的极限,不可直接观测,是估的目标。
  • \(p\):收敛阶(rate parameter),即 \(f(x) - f(0) = O(x^p)\) 中的 \(p\),在经典 Richardson 中已知,在 GRE 中视为未知随机变量。
  • \(\theta\):科学参数(如心脏模型中的物理常数),本文中固定为物理真实值,不涉及对 \(\theta\) 的推断。
  • \(k\):Matérn 核的平滑度参数,控制 GP 先验对 \(f(x)\) 平滑性的假设。
  • \(\mu\):GP 先验的均值函数常数。
  • \(K_p(x, x')\):以收敛阶 \(p\) 为参数的核函数,本文定义为 \(K_p(x, x') = (x^{2p} + x'^{2p})^{-1}\)(或类似形式,具体见论文式 3)。
  • \(\boldsymbol{x}_n = (x_1, \dots, x_n)\):设计点序列,即选择的一组离散化参数。
  • \(\boldsymbol{y}_n = (f(x_1), \dots, f(x_n))\):观测数据,即在 \(\boldsymbol{x}_n\) 上运行数值方法得到的逼近值序列。
  • \(\hat{f}_n\):GRE 对 \(f(0)\) 的估计量,即 GP 后验均值在 \(x=0\) 处的值。

  • 模型: 数据生成机制是确定性的:存在一个未知函数 \(f: [0, \infty) \to \mathbb{R}\),满足 \(f(x) \to f(0)\)\(x \to 0\),且渐近行为 \(f(x) - f(0) \sim c x^p\)(或更一般地,属于某 RKHS)。研究者对 \(f\) 赋予 GP 先验:\(f \sim \mathcal{GP}(\mu, K_p)\),其中 \(p\) 本身也视为未知,赋予先验分布 \(\pi(p)\)。观测是无噪声的:\(y_i = f(x_i)\)

  • 可观测数据: 研究者实际能观测到的是在选定离散化参数 \(\boldsymbol{x}_n\) 上的数值输出 \(\boldsymbol{y}_n = f(\boldsymbol{x}_n)\)。不可直接观测的是极限 \(f(0)\) 与收敛阶 \(p\),只能靠 GP 后验与 \(\pi(p)\) 的贝叶斯更新去识别。注意:本文设定数值方法输出无随机噪声(\(y_i = f(x_i)\) 确定性),这与经典统计回归不同,残差纯粹来自离散化偏差。

第二步:讲最小内核

最简特例:单一离散化参数、多项式收敛、\(p\) 未知、\(n=2\) 个观测点

设数值方法满足 \(f(x) = f(0) + c x^p\)(精确多项式偏差,无高阶项),\(p\) 未知。观测两个点 \(x_1 > x_2 > 0\),得 \(y_1 = f(x_1), y_2 = f(x_2)\)

  • 经典 Richardson(\(p\) 已知):若 \(p\) 已知,经典外推估计为 \(\hat{f}_{\text{Rich}} = \frac{x_1^p y_2 - x_2^p y_1}{x_1^p - x_2^p}\),恰好消去 \(c x^p\) 项,得到 \(f(0)\) 的精确值。这要求 \(p\) 精确已知,否则组合系数错误,偏差无法消去。

  • GRE(\(p\) 未知):对 \(f\) 赋予 GP 先验 \(f \sim \mathcal{GP}(\mu, K_p)\),核 \(K_p(x, x')\) 设计为使得 GP 后验均值在 \(x=0\) 处的条件期望 \(\hat{f}_n = \mathbb{E}[f(0) \mid \boldsymbol{y}_n, p]\)\(p\) 给定时,恰好重现经典 Richardson 外推公式(即 GP 后验均值 = Richardson 外推值)。然后对 \(p\) 进行贝叶斯更新:后验 \(\pi(p \mid \boldsymbol{y}_n)\) 通过观测数据推断 \(p\) 的可能值,最终 GRE 估计为 \(\hat{f}_{\text{GRE}} = \mathbb{E}_{p \mid \boldsymbol{y}_n}[\mathbb{E}[f(0) \mid \boldsymbol{y}_n, p]]\),即对 \(p\) 的后验分布求期望,得到外推值的加权平均。

  • 核心思路:GRE 的最小内核是“将 Richardson 外推的线性组合系数从依赖已知 \(p\) 的确定性权重,变为依赖 \(p\) 后验分布的随机权重的期望”。GP 核的设计保证了在 \(p\) 给定时后验均值退化为经典 Richardson,而 \(p\) 的贝叶斯估计处理了未知阶数。证明路线的关键跳跃在于:核 \(K_p\) 的选择必须使得 GP 后验均值在 \(x=0\) 处具有“外推抵消偏差”的结构,同时 \(f\) 属于该核的 RKHS 保证了后验收敛到真实 \(f(0)\)

  • 为什么成立:若真实 \(f\) 满足 \(f(x) - f(0) = c x^{p^*}\)\(p^*\) 为真实阶数),且 \(f\) 属于 \(K_{p^*}\) 的 RKHS,则当观测点 \(\boldsymbol{x}_n\) 趋近 0 时,GP 后验均值在 \(x=0\) 处收敛到 \(f(0)\),且收敛阶可从 \(O(x_n^{p^*})\) 加速到 \(O(x_n^{2p^*})\)(多项式加速)或更快(指数加速,取决于核与设计点选择)。这是因为 GP 后验均值利用了所有观测点的信息,通过核的结构隐式执行了高阶 Richardson 抵消。


三、这篇论文做了什么

三句话: ①研究了在多连续统离散化与未知收敛阶下如何统一 Richardson 外推与多保真度建模以加速数值逼近的问题; ②核心工具是基于特定核函数的 GP 先验与对收敛阶的贝叶斯估计,构成 Gauss–Richardson Extrapolation (GRE); ③主要结论是:在 \(f\) 属于核的 RKHS 且设计点满足特定衰减条件下,GRE 的条件均值估计可实现相对于原数值方法的多项式(\(O(x_n^{2p})\))或指数级(\(O(e^{-c/x_n})\))收敛加速,且保真度选择可转化为连续优化问题。

关键设定与假设: - 设定:数值方法输出 \(f(x)\) 是确定性的(无随机噪声),\(x \in [0, \infty)^d\)\(d\) 维离散化参数(多连续统),\(f(0)\) 为目标。GP 先验 \(f \sim \mathcal{GP}(\mu, K_p)\),核 \(K_p(x, x') = \prod_{j=1}^d (x_j^{2p} + x_j'^{2p})^{-1}\)(式 3,针对多维 \(x\) 的乘积结构),\(p\) 未知且有先验 \(\pi(p)\)。观测数据 \(\boldsymbol{y}_n = f(\boldsymbol{x}_n)\) 无噪声。 - 假设: 1. RKHS 成员假设:真实 \(f\) 属于核 \(K_{p^*}\) 的 RKHS(\(p^*\) 为真实收敛阶),即 \(f\) 的平滑性匹配核的平滑度。统计含义:这等价于要求 \(f(x) - f(0)\) 的渐近偏差具有阶数 \(p^*\) 的多项式结构(或更平滑),是 GRE 加速理论的基石。相比已有文献,这放宽了“已知 \(p\)”的要求,但强化了“\(f\) 属于特定 RKHS”的要求(经典 Richardson 只需渐近展开存在,不需 RKHS 成员)。 2. 设计点衰减假设:设计点序列 \(\boldsymbol{x}_n\) 必须满足 \(x_n \to 0\) 且衰减速率受控(如 \(x_n \sim n^{-\alpha}\)),以保证 GP 后验收敛。统计含义:这限制了保真度选择的灵活性,但为加速界提供了必要条件。 3. 无噪声假设\(y_i = f(x_i)\) 确定性。统计含义:这排除了随机数值噪声(如蒙特卡洛随机性),将问题限定在确定性数值方法的偏差消除上。相比 PN 文献中部分处理随机噪声的工作,这更窄但更聚焦于外推加速。 4. 先验均值常数假设\(\mu\) 为常数。统计含义:这简化了 GP 后验均值的结构,使其在 \(x=0\) 处的行为主要由核控制。Karvonen et al. (2018) 的 Bayes-Sard 方法允许参数化均值,本文未采用此更一般的设定。

主要结果: - 定理 1(多项式加速):若 \(f\) 属于 \(K_{p^*}\) 的 RKHS,设计点 \(x_n\) 满足 \(x_n \to 0\)\(x_n \sim n^{-\alpha}\),则 GRE 条件均值估计 \(\hat{f}_n\) 的误差 \(|\hat{f}_n - f(0)|\)\(O(x_n^{2p^*})\) 收敛到 0,而原数值方法 \(f(x_n)\) 的误差为 \(O(x_n^{p^*})\)。直觉:GP 后验均值利用多个观测点的核结构,隐式执行了二阶 Richardson 抻消(消去 \(O(x^{p^*})\) 项,留下 \(O(x^{2p^*})\))。必要条件:RKHS 成员、设计点衰减率匹配 \(p^*\)。解决的技术难点:在 \(p\) 未知下,通过对 \(p\) 的贝叶斯平均仍能实现加速,因为后验 \(\pi(p \mid \boldsymbol{y}_n)\) 随数据量增加集中在 \(p^*\) 附近,加权平均不破坏加速阶。 - 定理 2(指数加速):在更强条件下(核与设计点的特定选择),GRE 误差可达到 \(O(e^{-c/x_n})\) 的指数级衰减。直觉:这对应于偏差具有指数型渐近(如某些谱方法),核 \(K_p\) 的结构能捕捉指数衰减。必要条件:\(f\) 的偏差不仅是多项式,且具有指数型结构;设计点需更精细的衰减控制。 - 推论/命题(保真度选择优化):将选择设计点 \(\boldsymbol{x}_n\) 以最小化 GRE 后验方差(或误差界)的问题,转化为关于 \(\boldsymbol{x}_n\) 的连续优化问题,可用梯度方法近似求解。直觉:GP 后验方差是 \(\boldsymbol{x}_n\) 的显式函数(通过核矩阵的逆),因此可优化。这解锁了实验设计,是经典 Richardson 无法做到的(经典方法的设计点选择是离散枚举)。

证明路线与技术技巧: - 整体路线: 1. 核设计:构造核 \(K_p(x, x') = (x^{2p} + x'^{2p})^{-1}\)(一维情形),使得 GP 后验均值在 \(x=0\) 处的条件期望(给定 \(p\))退化为经典 Richardson 外推的线性组合。 2. RKHS 嵌入:证明若 \(f \in H(K_{p^*})\)(核 \(K_{p^*}\) 的 RKHS),则 \(f\) 的偏差 \(f(x) - f(0)\) 具有范数界 \(\|f\|_{H(K_{p^*})} \cdot x^{p^*}\),为加速提供函数空间的刻画。 3. 后验收敛分析:利用 GP 回归的后验收敛理论(基于 RKHS 范数与填充距离),证明 GP 后验均值在 \(x=0\) 处的误差受控于 \(\|f\|_{H(K_{p^*})} \cdot \epsilon_n^{p^*}\)\(\epsilon_n\) 为设计点的填充距离),再通过核的结构将 \(\epsilon_n^{p^*}\) 提升到 \(\epsilon_n^{2p^*}\)(因后验均值隐式抵消了低阶偏差)。 4. \(p\) 的贝叶斯平均:对 \(p\) 的后验分布求期望,证明当数据量增加时,\(\pi(p \mid \boldsymbol{y}_n)\) 集中在 \(p^*\),因此加权平均不降低收敛阶(技术关键:需证明 \(p\) 的后验支撑集随 \(n\) 收缩到 \(p^*\) 附近,且核矩阵关于 \(p\) 的连续性保证积分不破坏阶数)。 5. 保真度优化:将后验方差表达式(GP 后验方差在 \(x=0\) 处为 \(K_p(0,0) - \boldsymbol{k}_p^T K_p^{-1} \boldsymbol{k}_p\))关于 \(\boldsymbol{x}_n\) 求导,转化为连续优化,用梯度下降近似求解。

  • 关键跳跃点
  • 引理/命题:GP 后验均值 = Richardson 外推:证明在核 \(K_p\) 下,GP 后验均值在 \(x=0\) 处的条件期望(给定 \(p\))恰好等于经典 Richardson 外推值。这是整个框架的锚点,难点在于核的设计必须使得 GP 的插值结构重现 Richardson 的线性组合。作者通过核 \(K_p(x, x') = (x^{2p} + x'^{2p})^{-1}\) 的特定形式,使得 GP 后验均值函数具有 \(\mu + b(x) p(x)\) 的结构(Karvonen et al., 2018, Proposition 2.6 被引在此),其中 \(p(x)\) 为多项式插值,\(b(x)\) 为偏差项,在 \(x=0\)\(b(0) = 0\)\(p(0)\) 为 Richardson 组合。
  • \(p\) 后验集中性:证明 \(\pi(p \mid \boldsymbol{y}_n)\)\(n\) 增加集中在 \(p^*\) 附近。难点在于数据是确定性的(无随机噪声),因此“后验集中性”不能套用标准贝叶斯一致性理论(需随机性)。作者利用 \(f\) 属于 RKHS 的确定性结构,证明当设计点趋近 0 时,GP 似然函数(关于 \(p\))在 \(p^*\) 处取得最大值,且似然比在其他 \(p\) 处衰减,从而保证后验集中。

  • 技术技巧点名

  • RKHS 范数界:用核 \(K_p\) 的 RKHS 范数 \(\|f\|_{H(K_p)}\) 刻画 \(f\) 的偏差阶数,将渐近偏差 \(O(x^p)\) 转化为函数空间的范数界 \(\|f\|_{H(K_p)} x^p\)。用在定理 1 的证明中,为后验误差提供上界。
  • GP 后验收敛理论:基于填充距离(fill distance)与 RKHS 范数的标准 GP 后验收敛界(如 Wendland 2004, Teckentrup 2018 的技术),用在步骤 3 中,将设计点的几何性质转化为后验误差的衰减率。
  • 贝叶斯似然比分析:在确定性数据下分析 GP 似然关于 \(p\) 的行为,用在步骤 4 中,证明 \(\pi(p \mid \boldsymbol{y}_n)\) 的集中性。这借鉴了 Karvonen et al. (2020) 关于 GP 最大似然估计在无噪声数据下的理论。
  • 凸优化/梯度下降:用在保真度选择优化中,将后验方差关于 \(\boldsymbol{x}_n\) 的最小化转化为连续优化问题,用梯度方法求解。

真实例子与应用: - 用的什么数据/场景:计算心脏电机械模型(四腔心脏,基于 Strocchi et al., 2020, 2023 的模型),模拟心脏收缩过程。离散化参数为网格分辨率(空间离散化),高保真度模拟需约 \(10^4\) 核心小时。 - 怎么把本文方法用上去:选择不同网格分辨率(保真度级别)运行心脏模型,得到 \(f(x)\) 在各分辨率下的输出(如心室容积随时间的变化曲线的特定指标),然后用 GRE(GP 先验 + \(p\) 的贝叶斯估计)外推到 \(x=0\)(连续统极限),并优化下一步应选择的网格分辨率。 - 得到什么结果:GRE 在有限计算预算下(总核心小时受限)对 \(f(0)\) 的估计误差,比仅用最高可用保真度的单点估计降低了约 50%(具体数值见论文图/表),且保真度优化建议了非均匀的分辨率选择策略(先粗后细的渐进策略)。 - 这个例子想说明什么:验证 GRE 在复杂多连续统代码上的实用性:①在未知收敛阶下仍能加速;②保真度优化能有效分配计算预算;③相比经典 Richardson(需已知阶数)与多保真度 GP 仿真(未显式建模收敛阶),GRE 统一了两者并提供了更优的误差-成本权衡。

🔎 结论是否比证明窄: - 定理 1 与 2 的严格证明在“\(f\) 属于 \(K_{p^*}\) 的 RKHS”与“设计点衰减率匹配”的条件下成立,但论文在 abstract 与 intro 中泛泛 claim“GRE 可实现多项式或指数级加速”,未显式强调 RKHS 成员假设的必要性。若真实 \(f\) 不属于 \(K_{p^*}\) 的 RKHS(如偏差具有非多项式渐近或振荡),加速界可能不成立,此情况在正文中未充分讨论。 - 保真度优化的连续化 claim(“casting the selection of fidelities as a continuous optimization problem”)在理论上仅证明后验方差是 \(\boldsymbol{x}_n\) 的连续函数,但未证明优化问题的凸性或全局最优解的存在性,实际求解依赖梯度下降的局部近似,此 gap 在论文中未显式承认。


四、开放问题(点到为止,扎根具体语句)

  1. RKHS 假设的放宽:定理 1 要求 \(f \in H(K_{p^*})\),若真实偏差仅有渐近展开 \(f(x) - f(0) = c x^{p^*} + o(x^{p^*})\) 但不属于 RKHS(如偏差有高阶振荡项),GRE 的加速界是否仍成立?扎根于定理 1 的假设陈述与 intro 中“handles uncertain convergence orders”的 claim 之间的张力。
  2. 随机噪声下的 GRE:本文设定数值输出无噪声(\(y_i = f(x_i)\) 确定性),若数值方法含随机噪声(如蒙特卡洛 PDE 求解器),GRE 的核设计与后验收敛理论需如何修改?扎根于论文设定“deterministic computer codes”与被引文献 Teymur et al. (2021) 处理随机序列的对比。
  3. \(p\) 后验集中性的速率:论文证明了 \(\pi(p \mid \boldsymbol{y}_n)\) 集中在 \(p^*\),但未给出集中速率(如 \(|p - p^*|\) 的后验方差衰减率),这直接影响 GRE 估计的有限样本行为。扎根于步骤 4 的证明中“集中性”仅定性陈述,未量化。
  4. 保真度优化的全局性:保真度选择被转化为连续优化,但未证明目标函数(后验方差)的凸性或多模态性质,梯度下降可能陷入局部最优。扎根于论文“can then be (approximately) solved”的模糊表述与定理/命题中缺乏优化理论保证的 gap。

要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论