Probabilistic Richardson extrapolation¶

作者: Chris J Oates, Toni Karvonen, Aretha L Teckentrup, Marina Strocchi, Steven A Niederer
来源: Journal of the Royal Statistical Society Series B
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：当使用数值方法（如有限元、蒙特卡洛、ODE求解器）逼近某个连续统物理量时，如何利用不同离散化水平（即不同保真度，fidelity）的输出，在计算预算受限下尽可能加速收敛、逼近真实值，并对逼近的残差进行不确定性量化。当前它处于从“经典确定性外推”向“概率化、多保真度融合与自适应设计”过渡的成熟期，理论框架（如概率数值方法 PN）已建立，但在复杂多连续统、未知收敛阶的计算机代码上的统一与加速理论仍在成型。

发展脉络（history）： - 奠基工作：Richardson & Gaunt (1927) 提出了“延迟趋近极限”的经典 Richardson 外推法，其核心假设是数值逼近误差具有关于步长的多项式渐近展开（即已知收敛阶），通过线性组合消除低阶误差项以加速收敛。 - 主要进展： - 多保真度与多层方法：Peherstorfer et al. (2018) 综述了多保真度方法（MFM），指出通过结合少量高保真度（hi-fi）模拟与大量低保真度模拟可以缓解计算瓶颈；Lemaire & Pagès (2017) 提出了多层 Richardson-Romberg（MLRR）估计器，将 MLMC 的方差控制与 Richardson 的高阶偏差消除结合，在弱误差可展开至任意阶的条件下将复杂度从 \((\log(1/\varepsilon))^2/\varepsilon^2\) 降至 \(\log(1/\varepsilon)/\varepsilon^2\)。 - 概率数值方法（PN）：Hennig et al. (2015) 与 Cockayne et al. (2017/2019) 将数值逼近任务重构为统计推断，用贝叶斯原则量化关于连续统模型的不确定性；Teymur et al. (2021) 提出了“黑盒 PN”，仅利用传统方法输出的收敛序列作为数据集进行概率化外推，初步实现了 Richardson 外推的概率化类比，但未系统处理未知收敛阶与多保真度设计。 - 数据科学中的外推：Bach (2021) 系统分析了 Richardson 外推在数据科学（如机器学习正则化、MCMC）中的有效性，给出了外推阶数与偏差消除的显式条件；Chizat et al. (2020) 在最优传输的 Sinkhorn 散度中使用了 Richardson 外推以提升统计与计算效率。 - 当前 frontier：如何在收敛阶未知（或难以从复杂代码中解析获取）、且存在多个连续统离散化（如心脏模型中空间与时间同时离散）的情境下，统一外推加速与多保真度建模，并实现保真度选择的自动化。 - 本文的位置：本文提出 Gauss–Richardson Extrapolation (GRE)，将经典 Richardson 外推与多保真度 GP 仿真统一在一个概率框架下，把未知收敛阶视为随机变量进行贝叶斯估计，并首次在此框架下建立了多项式/指数级加速的理论条件，同时将保真度选择转化为连续优化问题。

子线索聚类： 1. 经典确定性外推与多层蒙特卡洛：Richardson (1927), Lemaire & Pagès (2017), Bach (2021)。这一簇在已知收敛阶或弱误差可展开的假设下，构造确定性线性组合以消除偏差，核心是“阶数已知时的精确抵消”。 2. 概率数值方法（PN）与黑盒外推：Hennig et al. (2015), Cockayne et al. (2017), Karvonen et al. (2018/2020), Teymur et al. (2021)。这一簇将数值逼近视为统计推断，用 GP 后验量化不确定性，核心是“将数值残差当作随机变量”，但大多未系统处理未知收敛阶的贝叶斯估计与加速理论。 3. 多保真度仿真与自适应设计：Peherstorfer et al. (2018), Cumming & Goldstein (2009), Ehara & Guillas (2023), Ji et al. (2024)。这一簇利用不同保真度模型的输出构建 GP 仿真器以降低计算成本，核心是“利用相关性融合多源数据”，但通常不显式建模数值收敛阶，也未与经典外推的加速理论统一。

这个方向在追问的核心问题： 1. 未知收敛阶下的外推：当数值方法的渐近误差展开阶数无法解析获取时，如何从数据中估计收敛阶并仍能实现加速？（经典方法要求阶数已知，否则外推组合失效）。 2. 多连续统离散化的统一：现代计算机代码往往同时离散化空间、时间等多个连续统，如何在一个框架下同时处理多维步长的收敛加速？（经典 Richardson 通常只处理单一步长）。 3. 外推与多保真度的理论统一：多保真度建模与 Richardson 外推在直觉上都利用低精度输出辅助高精度推断，它们在数学上是否是同一机制的不同特例？能否给出统一的加速界？ 4. 保真度的最优选择：在计算预算受限下，应选择哪些步长/保真度级别进行模拟？如何将此选择从离散枚举转化为可优化的连续问题？

⚠️ 作者的 framing： - 作者将缺口 frame 为：经典 Richardson 外推要求已知收敛阶且处理单一连续统，而现代计算机代码具有多连续统离散化且收敛阶难以分析；概率数值方法虽提供了不确定性量化，但未系统处理收敛阶的统计估计与加速理论。因此，“显然的下一步”是将 Richardson 外推概率化，统一多保真度建模，并建立加速的理论保证。 - 被淡化或回避的竞争路线：深度学习求解 PDE（Han et al., 2018 被引但仅作为“机器学习用于数值任务”的背景提及，未与 GRE 进行理论或实证对比）；MLRR（Lemaire & Pagès, 2017 被引但仅作为“多层方法与外推结合”的先行者，未讨论其在已知阶数下的复杂度优势是否在未知阶数下仍成立）。 - 明显该被引/该存在却未出现在 intro 里的：关于 GP 仿真器的收敛理论（如 Teckentrup et al. 2015/2018 关于分层 GP 的后验收敛界）未被引，而这对于 GRE 的加速理论证明可能提供更直接的基石；此外，关于自适应步长选择的经典数值分析文献（如 ODE 中的步长控制）未被引，这可能构成保真度选择的另一竞争范式。

张力：未见明显对立引用。各被引工作在不同假设下得出不同结论（如 Richardson 要求已知阶数，MLRR 要求弱误差可展开至任意阶，PN 不要求但未给加速界），但它们更多是互补而非矛盾。唯一潜在的张力点：Bach (2021) 指出 Richardson 外推在数据科学中的有效性依赖于偏差展开的特定条件，而本文声称 GRE 在未知阶数下仍能加速——这两者的条件是否完全兼容，需研究者自行核验本文定理 1 与 Bach 的命题 1 的假设交集。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(f\)：连续统物理量，即想要逼近的真实值（如 PDE 的精确解在某点处的值），是确定性的未知常数。
\(x\)：离散化参数（保真度参数），如网格步长 \(h\) 或时间步长 \(\Delta t\)，通常 \(x > 0\)，越小代表越高保真度。
\(f(x)\)：在离散化参数 \(x\) 下数值方法输出的逼近值，是确定性的可观测函数（无随机噪声，本文核心设定）。
\(f(0)\)：即 \(f\)，当 \(x \to 0\) 时的极限，不可直接观测，是估的目标。
\(p\)：收敛阶（rate parameter），即 \(f(x) - f(0) = O(x^p)\) 中的 \(p\)，在经典 Richardson 中已知，在 GRE 中视为未知随机变量。
\(\theta\)：科学参数（如心脏模型中的物理常数），本文中固定为物理真实值，不涉及对 \(\theta\) 的推断。
\(k\)：Matérn 核的平滑度参数，控制 GP 先验对 \(f(x)\) 平滑性的假设。
\(\mu\)：GP 先验的均值函数常数。
\(K_p(x, x')\)：以收敛阶 \(p\) 为参数的核函数，本文定义为 \(K_p(x, x') = (x^{2p} + x'^{2p})^{-1}\)（或类似形式，具体见论文式 3）。
\(\boldsymbol{x}_n = (x_1, \dots, x_n)\)：设计点序列，即选择的一组离散化参数。
\(\boldsymbol{y}_n = (f(x_1), \dots, f(x_n))\)：观测数据，即在 \(\boldsymbol{x}_n\) 上运行数值方法得到的逼近值序列。
\(\hat{f}_n\)：GRE 对 \(f(0)\) 的估计量，即 GP 后验均值在 \(x=0\) 处的值。
模型：数据生成机制是确定性的：存在一个未知函数 \(f: [0, \infty) \to \mathbb{R}\)，满足 \(f(x) \to f(0)\) 当 \(x \to 0\)，且渐近行为 \(f(x) - f(0) \sim c x^p\)（或更一般地，属于某 RKHS）。研究者对 \(f\) 赋予 GP 先验：\(f \sim \mathcal{GP}(\mu, K_p)\)，其中 \(p\) 本身也视为未知，赋予先验分布 \(\pi(p)\)。观测是无噪声的：\(y_i = f(x_i)\)。
可观测数据：研究者实际能观测到的是在选定离散化参数 \(\boldsymbol{x}_n\) 上的数值输出 \(\boldsymbol{y}_n = f(\boldsymbol{x}_n)\)。不可直接观测的是极限 \(f(0)\) 与收敛阶 \(p\)，只能靠 GP 后验与 \(\pi(p)\) 的贝叶斯更新去识别。注意：本文设定数值方法输出无随机噪声（\(y_i = f(x_i)\) 确定性），这与经典统计回归不同，残差纯粹来自离散化偏差。

第二步：讲最小内核

最简特例：单一离散化参数、多项式收敛、\(p\) 未知、\(n=2\) 个观测点。

设数值方法满足 \(f(x) = f(0) + c x^p\)（精确多项式偏差，无高阶项），\(p\) 未知。观测两个点 \(x_1 > x_2 > 0\)，得 \(y_1 = f(x_1), y_2 = f(x_2)\)。

经典 Richardson（\(p\) 已知）：若 \(p\) 已知，经典外推估计为 \(\hat{f}_{\text{Rich}} = \frac{x_1^p y_2 - x_2^p y_1}{x_1^p - x_2^p}\)，恰好消去 \(c x^p\) 项，得到 \(f(0)\) 的精确值。这要求 \(p\) 精确已知，否则组合系数错误，偏差无法消去。
GRE（\(p\) 未知）：对 \(f\) 赋予 GP 先验 \(f \sim \mathcal{GP}(\mu, K_p)\)，核 \(K_p(x, x')\) 设计为使得 GP 后验均值在 \(x=0\) 处的条件期望 \(\hat{f}_n = \mathbb{E}[f(0) \mid \boldsymbol{y}_n, p]\) 在 \(p\) 给定时，恰好重现经典 Richardson 外推公式（即 GP 后验均值 = Richardson 外推值）。然后对 \(p\) 进行贝叶斯更新：后验 \(\pi(p \mid \boldsymbol{y}_n)\) 通过观测数据推断 \(p\) 的可能值，最终 GRE 估计为 \(\hat{f}_{\text{GRE}} = \mathbb{E}_{p \mid \boldsymbol{y}_n}[\mathbb{E}[f(0) \mid \boldsymbol{y}_n, p]]\)，即对 \(p\) 的后验分布求期望，得到外推值的加权平均。
核心思路：GRE 的最小内核是“将 Richardson 外推的线性组合系数从依赖已知 \(p\) 的确定性权重，变为依赖 \(p\) 后验分布的随机权重的期望”。GP 核的设计保证了在 \(p\) 给定时后验均值退化为经典 Richardson，而 \(p\) 的贝叶斯估计处理了未知阶数。证明路线的关键跳跃在于：核 \(K_p\) 的选择必须使得 GP 后验均值在 \(x=0\) 处具有“外推抵消偏差”的结构，同时 \(f\) 属于该核的 RKHS 保证了后验收敛到真实 \(f(0)\)。
为什么成立：若真实 \(f\) 满足 \(f(x) - f(0) = c x^{p^*}\)（\(p^*\) 为真实阶数），且 \(f\) 属于 \(K_{p^*}\) 的 RKHS，则当观测点 \(\boldsymbol{x}_n\) 趋近 0 时，GP 后验均值在 \(x=0\) 处收敛到 \(f(0)\)，且收敛阶可从 \(O(x_n^{p^*})\) 加速到 \(O(x_n^{2p^*})\)（多项式加速）或更快（指数加速，取决于核与设计点选择）。这是因为 GP 后验均值利用了所有观测点的信息，通过核的结构隐式执行了高阶 Richardson 抵消。

三、这篇论文做了什么¶

三句话： ①研究了在多连续统离散化与未知收敛阶下如何统一 Richardson 外推与多保真度建模以加速数值逼近的问题； ②核心工具是基于特定核函数的 GP 先验与对收敛阶的贝叶斯估计，构成 Gauss–Richardson Extrapolation (GRE)； ③主要结论是：在 \(f\) 属于核的 RKHS 且设计点满足特定衰减条件下，GRE 的条件均值估计可实现相对于原数值方法的多项式（\(O(x_n^{2p})\)）或指数级（\(O(e^{-c/x_n})\)）收敛加速，且保真度选择可转化为连续优化问题。

关键设定与假设： - 设定：数值方法输出 \(f(x)\) 是确定性的（无随机噪声），\(x \in [0, \infty)^d\) 为 \(d\) 维离散化参数（多连续统），\(f(0)\) 为目标。GP 先验 \(f \sim \mathcal{GP}(\mu, K_p)\)，核 \(K_p(x, x') = \prod_{j=1}^d (x_j^{2p} + x_j'^{2p})^{-1}\)（式 3，针对多维 \(x\) 的乘积结构），\(p\) 未知且有先验 \(\pi(p)\)。观测数据 \(\boldsymbol{y}_n = f(\boldsymbol{x}_n)\) 无噪声。 - 假设： 1. RKHS 成员假设：真实 \(f\) 属于核 \(K_{p^*}\) 的 RKHS（\(p^*\) 为真实收敛阶），即 \(f\) 的平滑性匹配核的平滑度。统计含义：这等价于要求 \(f(x) - f(0)\) 的渐近偏差具有阶数 \(p^*\) 的多项式结构（或更平滑），是 GRE 加速理论的基石。相比已有文献，这放宽了“已知 \(p\)”的要求，但强化了“\(f\) 属于特定 RKHS”的要求（经典 Richardson 只需渐近展开存在，不需 RKHS 成员）。 2. 设计点衰减假设：设计点序列 \(\boldsymbol{x}_n\) 必须满足 \(x_n \to 0\) 且衰减速率受控（如 \(x_n \sim n^{-\alpha}\)），以保证 GP 后验收敛。统计含义：这限制了保真度选择的灵活性，但为加速界提供了必要条件。 3. 无噪声假设：\(y_i = f(x_i)\) 确定性。统计含义：这排除了随机数值噪声（如蒙特卡洛随机性），将问题限定在确定性数值方法的偏差消除上。相比 PN 文献中部分处理随机噪声的工作，这更窄但更聚焦于外推加速。 4. 先验均值常数假设：\(\mu\) 为常数。统计含义：这简化了 GP 后验均值的结构，使其在 \(x=0\) 处的行为主要由核控制。Karvonen et al. (2018) 的 Bayes-Sard 方法允许参数化均值，本文未采用此更一般的设定。

主要结果： - 定理 1（多项式加速）：若 \(f\) 属于 \(K_{p^*}\) 的 RKHS，设计点 \(x_n\) 满足 \(x_n \to 0\) 且 \(x_n \sim n^{-\alpha}\)，则 GRE 条件均值估计 \(\hat{f}_n\) 的误差 \(|\hat{f}_n - f(0)|\) 以 \(O(x_n^{2p^*})\) 收敛到 0，而原数值方法 \(f(x_n)\) 的误差为 \(O(x_n^{p^*})\)。直觉：GP 后验均值利用多个观测点的核结构，隐式执行了二阶 Richardson 抻消（消去 \(O(x^{p^*})\) 项，留下 \(O(x^{2p^*})\)）。必要条件：RKHS 成员、设计点衰减率匹配 \(p^*\)。解决的技术难点：在 \(p\) 未知下，通过对 \(p\) 的贝叶斯平均仍能实现加速，因为后验 \(\pi(p \mid \boldsymbol{y}_n)\) 随数据量增加集中在 \(p^*\) 附近，加权平均不破坏加速阶。 - 定理 2（指数加速）：在更强条件下（核与设计点的特定选择），GRE 误差可达到 \(O(e^{-c/x_n})\) 的指数级衰减。直觉：这对应于偏差具有指数型渐近（如某些谱方法），核 \(K_p\) 的结构能捕捉指数衰减。必要条件：\(f\) 的偏差不仅是多项式，且具有指数型结构；设计点需更精细的衰减控制。 - 推论/命题（保真度选择优化）：将选择设计点 \(\boldsymbol{x}_n\) 以最小化 GRE 后验方差（或误差界）的问题，转化为关于 \(\boldsymbol{x}_n\) 的连续优化问题，可用梯度方法近似求解。直觉：GP 后验方差是 \(\boldsymbol{x}_n\) 的显式函数（通过核矩阵的逆），因此可优化。这解锁了实验设计，是经典 Richardson 无法做到的（经典方法的设计点选择是离散枚举）。

证明路线与技术技巧： - 整体路线： 1. 核设计：构造核 \(K_p(x, x') = (x^{2p} + x'^{2p})^{-1}\)（一维情形），使得 GP 后验均值在 \(x=0\) 处的条件期望（给定 \(p\)）退化为经典 Richardson 外推的线性组合。 2. RKHS 嵌入：证明若 \(f \in H(K_{p^*})\)（核 \(K_{p^*}\) 的 RKHS），则 \(f\) 的偏差 \(f(x) - f(0)\) 具有范数界 \(\|f\|_{H(K_{p^*})} \cdot x^{p^*}\)，为加速提供函数空间的刻画。 3. 后验收敛分析：利用 GP 回归的后验收敛理论（基于 RKHS 范数与填充距离），证明 GP 后验均值在 \(x=0\) 处的误差受控于 \(\|f\|_{H(K_{p^*})} \cdot \epsilon_n^{p^*}\)（\(\epsilon_n\) 为设计点的填充距离），再通过核的结构将 \(\epsilon_n^{p^*}\) 提升到 \(\epsilon_n^{2p^*}\)（因后验均值隐式抵消了低阶偏差）。 4. \(p\) 的贝叶斯平均：对 \(p\) 的后验分布求期望，证明当数据量增加时，\(\pi(p \mid \boldsymbol{y}_n)\) 集中在 \(p^*\)，因此加权平均不降低收敛阶（技术关键：需证明 \(p\) 的后验支撑集随 \(n\) 收缩到 \(p^*\) 附近，且核矩阵关于 \(p\) 的连续性保证积分不破坏阶数）。 5. 保真度优化：将后验方差表达式（GP 后验方差在 \(x=0\) 处为 \(K_p(0,0) - \boldsymbol{k}_p^T K_p^{-1} \boldsymbol{k}_p\)）关于 \(\boldsymbol{x}_n\) 求导，转化为连续优化，用梯度下降近似求解。

关键跳跃点：
引理/命题：GP 后验均值 = Richardson 外推：证明在核 \(K_p\) 下，GP 后验均值在 \(x=0\) 处的条件期望（给定 \(p\)）恰好等于经典 Richardson 外推值。这是整个框架的锚点，难点在于核的设计必须使得 GP 的插值结构重现 Richardson 的线性组合。作者通过核 \(K_p(x, x') = (x^{2p} + x'^{2p})^{-1}\) 的特定形式，使得 GP 后验均值函数具有 \(\mu + b(x) p(x)\) 的结构（Karvonen et al., 2018, Proposition 2.6 被引在此），其中 \(p(x)\) 为多项式插值，\(b(x)\) 为偏差项，在 \(x=0\) 处 \(b(0) = 0\) 且 \(p(0)\) 为 Richardson 组合。
\(p\) 后验集中性：证明 \(\pi(p \mid \boldsymbol{y}_n)\) 随 \(n\) 增加集中在 \(p^*\) 附近。难点在于数据是确定性的（无随机噪声），因此“后验集中性”不能套用标准贝叶斯一致性理论（需随机性）。作者利用 \(f\) 属于 RKHS 的确定性结构，证明当设计点趋近 0 时，GP 似然函数（关于 \(p\)）在 \(p^*\) 处取得最大值，且似然比在其他 \(p\) 处衰减，从而保证后验集中。
技术技巧点名：
RKHS 范数界：用核 \(K_p\) 的 RKHS 范数 \(\|f\|_{H(K_p)}\) 刻画 \(f\) 的偏差阶数，将渐近偏差 \(O(x^p)\) 转化为函数空间的范数界 \(\|f\|_{H(K_p)} x^p\)。用在定理 1 的证明中，为后验误差提供上界。
GP 后验收敛理论：基于填充距离（fill distance）与 RKHS 范数的标准 GP 后验收敛界（如 Wendland 2004, Teckentrup 2018 的技术），用在步骤 3 中，将设计点的几何性质转化为后验误差的衰减率。
贝叶斯似然比分析：在确定性数据下分析 GP 似然关于 \(p\) 的行为，用在步骤 4 中，证明 \(\pi(p \mid \boldsymbol{y}_n)\) 的集中性。这借鉴了 Karvonen et al. (2020) 关于 GP 最大似然估计在无噪声数据下的理论。
凸优化/梯度下降：用在保真度选择优化中，将后验方差关于 \(\boldsymbol{x}_n\) 的最小化转化为连续优化问题，用梯度方法求解。

真实例子与应用： - 用的什么数据/场景：计算心脏电机械模型（四腔心脏，基于 Strocchi et al., 2020, 2023 的模型），模拟心脏收缩过程。离散化参数为网格分辨率（空间离散化），高保真度模拟需约 \(10^4\) 核心小时。 - 怎么把本文方法用上去：选择不同网格分辨率（保真度级别）运行心脏模型，得到 \(f(x)\) 在各分辨率下的输出（如心室容积随时间的变化曲线的特定指标），然后用 GRE（GP 先验 + \(p\) 的贝叶斯估计）外推到 \(x=0\)（连续统极限），并优化下一步应选择的网格分辨率。 - 得到什么结果：GRE 在有限计算预算下（总核心小时受限）对 \(f(0)\) 的估计误差，比仅用最高可用保真度的单点估计降低了约 50%（具体数值见论文图/表），且保真度优化建议了非均匀的分辨率选择策略（先粗后细的渐进策略）。 - 这个例子想说明什么：验证 GRE 在复杂多连续统代码上的实用性：①在未知收敛阶下仍能加速；②保真度优化能有效分配计算预算；③相比经典 Richardson（需已知阶数）与多保真度 GP 仿真（未显式建模收敛阶），GRE 统一了两者并提供了更优的误差-成本权衡。

🔎 结论是否比证明窄： - 定理 1 与 2 的严格证明在“\(f\) 属于 \(K_{p^*}\) 的 RKHS”与“设计点衰减率匹配”的条件下成立，但论文在 abstract 与 intro 中泛泛 claim“GRE 可实现多项式或指数级加速”，未显式强调 RKHS 成员假设的必要性。若真实 \(f\) 不属于 \(K_{p^*}\) 的 RKHS（如偏差具有非多项式渐近或振荡），加速界可能不成立，此情况在正文中未充分讨论。 - 保真度优化的连续化 claim（“casting the selection of fidelities as a continuous optimization problem”）在理论上仅证明后验方差是 \(\boldsymbol{x}_n\) 的连续函数，但未证明优化问题的凸性或全局最优解的存在性，实际求解依赖梯度下降的局部近似，此 gap 在论文中未显式承认。

四、开放问题（点到为止，扎根具体语句）¶

RKHS 假设的放宽：定理 1 要求 \(f \in H(K_{p^*})\)，若真实偏差仅有渐近展开 \(f(x) - f(0) = c x^{p^*} + o(x^{p^*})\) 但不属于 RKHS（如偏差有高阶振荡项），GRE 的加速界是否仍成立？扎根于定理 1 的假设陈述与 intro 中“handles uncertain convergence orders”的 claim 之间的张力。
随机噪声下的 GRE：本文设定数值输出无噪声（\(y_i = f(x_i)\) 确定性），若数值方法含随机噪声（如蒙特卡洛 PDE 求解器），GRE 的核设计与后验收敛理论需如何修改？扎根于论文设定“deterministic computer codes”与被引文献 Teymur et al. (2021) 处理随机序列的对比。
\(p\) 后验集中性的速率：论文证明了 \(\pi(p \mid \boldsymbol{y}_n)\) 集中在 \(p^*\)，但未给出集中速率（如 \(|p - p^*|\) 的后验方差衰减率），这直接影响 GRE 估计的有限样本行为。扎根于步骤 4 的证明中“集中性”仅定性陈述，未量化。
保真度优化的全局性：保真度选择被转化为连续优化，但未证明目标函数（后验方差）的凸性或多模态性质，梯度下降可能陷入局部最优。扎根于论文“can then be (approximately) solved”的模糊表述与定理/命题中缺乏优化理论保证的 gap。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Probabilistic Richardson extrapolation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论