Debiasing piecewise deterministic Markov process samplers using couplings¶

作者: Adrien Corenflos, Matthew Sutton, Nicolas Chopin
来源: Scandinavian Journal of Statistics
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：如何消除马尔可夫链蒙特卡洛（MCMC）及分段确定性马尔可夫过程（PDMP）采样器中因“链未跑够长而未达平稳分布”所带来的非渐近偏差，使得期望估计量在“计算核心数趋于无穷”而非“迭代次数趋于无穷”的极限下精确无偏，从而实现尴尬并行化。当前该方向处于方法成型与特定算法适配期：离散时间 MCMC 的无偏化框架已在 2020 年前后建立并有多篇实证跟进，但连续时间 PDMP 采样器的无偏化因路径连续、事件时间随机、缺乏现成耦合机制而一直未被攻克，本文首次填补了这一空白。

发展脉络： - 奠基工作（离散时间无偏 MCMC）：Glynn & Rhee 的望远镜和论证为无偏估计提供了核心数学结构；Jacob, O’Leary & Atchadé (2020) 将其与 MCMC 耦合结合，提出通过两条链的 meeting time 截断来消除非渐近偏差，并证明了估计量的有效性。作者引用时明确指出这是本文“推广至连续时间”的直接基石。 - 主要进展（离散时间耦合的实证与拓展）：Heng & Jacob (2019) 为 HMC 构造了具体耦合并实证了高维 scaling；Biswas et al. (2020) 在高维贝叶斯回归中验证了耦合诊断与无偏化的实用性；Middleton et al. (2020) 将其拓展至不可达似然模型。作者在 intro 中罗列这些，意在说明“离散时间框架已成功，但连续时间尚无”。 - PDMP 采样器的兴起与理论：Bouchard-Côté et al. (2018) 提出 BPS，Bierkens et al. (2019) 提出 Zig-Zag，Bierkens et al. (2020) 提出 Boomerang——这些 PDMP 因可避免拒绝步、支持精确子采样而受关注。Durmus et al. (2018, 2020) 为 BPS 建立了几何遍历性与耦合收敛率，Deligiannidis et al. (2019) 证明了 BPS 在高维下退化为 RHMC 且收敛率与维数无关。作者引用这些，定位了本文要处理的三类 PDMP（BPS, BS, CS）及其已知遍历性质。 - 当前 frontier 与本文位置：PDMP 的遍历性与收敛率已有结果，但“如何为 PDMP 构造耦合以实现无偏化”是空白。本文将 Jacob et al. (2020) 的离散时间无偏框架推广至连续时间 PDMP，为 BPS、BS、CS 构造了具体耦合机制，填补了这一 frontier 缺口。

子线索聚类： 1. 离散时间 MCMC 的无偏化与耦合：以 Jacob et al. (2020) 为核心，Heng & Jacob (2019)、Middleton et al. (2020)、Biswas et al. (2020) 等跟进，聚焦于为离散时间 MCMC（如 MH、HMC、Gibbs）构造耦合、估计 meeting time、消除 burn-in 偏差。 2. PDMP 采样器的算法与遍历理论：以 BPS（Bouchard-Côté et al. 2018）、ZZ（Bierkens et al. 2019）、BS（Bierkens et al. 2020）为代表，Durmus et al. (2018, 2020)、Deligiannidis et al. (2019) 提供遍历性与收敛率，聚焦于连续时间非可逆采样器的理论性质与高维 scaling。 3. 耦合构造的技术工具：Bou-Rabee et al. (2018) 为 HMC 提供收缩耦合与反射-maximal 耦合；Corenflos & Särkkä (2022) 解决不同协方差高斯的耦合；Wang et al. (2021) 提出 MH 的 maximal coupling。这些是本文构造 PDMP 耦合时直接调用的技术组件。

这个方向在追问的核心问题： 1. 如何为连续时间 PDMP 构造满足无偏化框架要求的耦合？——需保证两条链在有限期望时间内相遇，且相遇后路径完全重合。 2. PDMP 耦合的 meeting time 随目标维数 d 的 scaling 如何？——已知 BPS 收敛率与 d 无关（Deligiannidis et al. 2019），但耦合 meeting time 是否也维数无关？ 3. 无偏估计量的方差与计算成本如何权衡？——无偏化通常以方差增加为代价，需量化 PDMP 无偏估计量的效率。

⚠️ 作者的 framing： - 作者将缺口 frame 为“连续时间 PDMP 采样器缺乏无偏化方法”，好让本文成为“显然的下一步”：既然离散时间 MCMC 无偏化已成功（Jacob et al. 2020），PDMP 作为更高效的采样器自然也需要无偏化。 - 被淡化或回避的竞争路线：作者未讨论 Zig-Zag sampler（Bierkens et al. 2019）的无偏化——ZZ 是 PDMP 中另一重要算法，本文只处理了 BPS、BS、CS，未解释为何排除 ZZ 或其耦合是否更难构造。也未对比“子采样 PDMP”（如 ZZ 的精确子采样）与“无偏化 PDMP”在大数据场景下的计算效率权衡。 - 明显该被引却未出现的：关于连续时间过程耦合的经典文献（如 Lindvall 1992 的 Lectures on the Coupling Method，作者只在证明中提及而 intro 未引）；关于 PDMP 数值模拟误差与无偏化的关系（如 PDMP 模拟需事件时间精确采样，若用近似积分则引入偏差，本文假设精确模拟但未引相关数值误差文献）。

张力：未见明显对立引用。被引工作之间互补：离散时间无偏化框架（Jacob et al. 2020）与 PDMP 遍历理论（Durmus et al. 2020）分别在不同设定下成立，本文将二者结合，未触及二者结论冲突之处。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(\pi(x)\)：目标分布（概率密度），通常为贝叶斯后验，\(x \in \mathbb{R}^d\) 为位置变量。本文要估的是 \(\pi\) 下的期望 \(\mathbb{E}_\pi[h(X)]\)，其中 \(h: \mathbb{R}^d \to \mathbb{R}\) 为可测函数。
\((X_t, V_t)\)：PDMP 的状态过程，\(X_t \in \mathbb{R}^d\) 为位置，\(V_t \in \mathbb{R}^d\) 为速度。PDMP 的不变分布为 \(\pi(x, v) = \pi(x) \varphi(v)\)，其中 \(\varphi(v)\) 为速度分布（通常为标准正态 \(\mathcal{N}(0_d, I_d)\)）。
\(U(x) = -\log \pi(x)\)：负对数目标密度（势函数）。
\(\lambda(x, v)\)：事件发生率，决定 PDMP 速度更新的时间点。对 BPS，\(\lambda(x, v) = \max(0, \langle \nabla U(x), v \rangle) + \lambda_{\text{ref}}\)，其中 \(\lambda_{\text{ref}}\) 为刷新率常数。
\(\tau_k\)：第 \(k\) 个事件时间，\(\tau_0 = 0\)，\(\tau_{k+1} = \tau_k + \Delta_k\)，其中 \(\Delta_k \sim \text{Exp}(\lambda(X_{\tau_k}, V_{\tau_k}))\)（指数分布，率参数为当前状态的 \(\lambda\)）。
可观测数据：研究者实际能观测到的是 PDMP 的模拟路径 \(\{(X_t, V_t) : t \in [0, T]\}\)（通过精确模拟事件时间与速度更新得到），以及沿路径计算的函数值 \(h(X_t)\)。不可观测的是 \(\pi\) 本身（只知 \(U\) 或其梯度），以及“链若从平稳分布出发”的理想路径——后者只能靠耦合与 meeting time 间接推断。

第二步：最小内核——BPS 在标准高斯目标下的同步耦合与 meeting time

剥掉所有一般性（非高斯目标、刷新率、boomerang 的椭圆轨道等），考虑最简特例： - 目标分布：\(\pi(x) = \mathcal{N}(0_d, I_d)\)，故 \(U(x) = \frac{1}{2} x^\top x\)，\(\nabla U(x) = x\)。 - PDMP：BPS（无刷新步，\(\lambda_{\text{ref}} = 0\)），事件率 \(\lambda(x, v) = \max(0, \langle x, v \rangle)\)。 - 两条链：链 1 初始状态 \((x_1, v_1)\)，链 2 初始状态 \((x_2, v_2)\)，均非平稳分布出发。 - 同步耦合：两条链共享同一组事件时间 \(\{\tau_k\}\)（即同一组指数随机变量 \(\Delta_k\)），且在事件时刻同步更新速度——若链 1 在 \(\tau_k\) 反射速度为 \(v_1' = v_1 - 2 \langle \nabla U(x_1), v_1 \rangle \nabla U(x_1) / \|\nabla U(x_1)\|^2\)，链 2 反射为 \(v_2' = v_2 - 2 \langle \nabla U(x_2), v_2 \rangle \nabla U(x_2) / \|\nabla U(x_2)\|^2\)。在事件间隔 \([\tau_k, \tau_{k+1})\) 内，两条链各自沿直线运动：\(X_{1,t} = X_{1,\tau_k} + (t - \tau_k) V_{1,\tau_k}\)，\(X_{2,t}\) 类似。

核心数学问题：在这样的同步耦合下，两条链是否会在有限期望时间内“相遇”（即 \((X_{1,t}, V_{1,t}) = (X_{2,t}, V_{2,t})\) 对某个 \(t\)），且相遇后路径完全重合？若会，则可构造无偏估计量：

\[\hat{H} = h(X_{1,T}) + \sum_{k=0}^{K-1} \left( h(X_{1,\tau_{k+1}}) - h(X_{2,\tau_{k+1}}) \right),\]

其中 \(K\) 为 meeting time（两条链首次状态完全相同的步数），\(T\) 为截断时间（如 \(K\) 或某个固定值）。关键在于证明 \(\mathbb{E}[K] < \infty\) 且 \(\hat{H}\) 无偏。

为什么成立（直觉）：在高斯目标下，BPS 的反射步本质上是将速度关于 \(\nabla U(x) = x\) 做镜像反射。当两条链的位置差 \(\|x_1 - x_2\|\) 较大时，反射步倾向于缩小速度差（因为反射方向由各自位置决定，位置差大时反射方向不同，但同步事件时间迫使两条链在同一时刻“调整”速度）。当位置差足够小时，可引入刷新步（\(\lambda_{\text{ref}} > 0\)），在刷新时刻两条链可尝试将速度耦合为相同值（用高斯 maximal coupling），一旦位置差与速度差同时为 0，两条链即相遇并此后完全重合。本文的核心技术贡献正是为 BPS、BS、CS 分别设计了这样的“同步事件 + 条件性速度耦合”机制，并证明 \(\mathbb{E}[K] < \infty\)。

三、这篇论文做了什么¶

三句话： ①研究了如何为连续时间 PDMP 采样器（BPS、BS、CS）构造耦合以消除 MCMC 估计量的非渐近偏差； ②核心工具是同步耦合（共享事件时间）与条件性速度耦合（在刷新/反射步尝试让两条链速度相同），结合 Jacob et al. (2020) 的望远镜和估计量框架； ③主要结论是为三类 PDMP 构造了具体耦合算法，证明了 meeting time 的期望有限，从而得到可尴尬并行化的无偏估计量，初步实验显示方法随维数 d 的 scaling 合理。

关键设定与假设： - PDMP 模型：状态空间 \((x, v) \in \mathbb{R}^d \times \mathbb{R}^d\)，不变分布 \(\pi(x, v) = \pi(x) \varphi(v)\)。事件率 \(\lambda(x, v)\) 与速度更新机制因算法不同而异： - BPS：\(\lambda(x, v) = \max(0, \langle \nabla U(x), v \rangle) + \lambda_{\text{ref}}\)，事件时反射速度 \(v' = v - 2 \langle \nabla U(x), v \rangle \nabla U(x) / \|\nabla U(x)\|^2\) 或刷新速度 \(v' \sim \varphi\)。 - BS：基于椭圆轨道（参考高斯测度），事件率涉及 \(U\) 与参考测度的差异，速度更新为椭圆反射。 - CS：坐标采样器，每次只更新一个坐标方向的速度，事件率与该坐标的偏导数相关。 - 假设： 1. PDMP 可精确模拟：事件时间可从指数分布精确采样，速度更新可精确计算（无数值积分误差）。这是 PDMP 无偏化的前提——若模拟本身有偏差，无偏化框架无法消除。 2. \(\pi\) 满足遍历条件：沿用 Durmus et al. (2020) 的条件（如 \(\nabla U\) 存在、\(\lambda_{\text{ref}} > 0\) 保证不可约性），保证 PDMP 几何遍历。 3. 速度分布 \(\varphi\) 为高斯：\(\varphi(v) = \mathcal{N}(0_d, \Sigma)\)（BPS 为 \(\Sigma = I_d\)，BS 为参考测度的协方差），便于构造高斯耦合。 - 相比已有文献的放宽/强化：相比 Jacob et al. (2020) 的离散时间框架，本文需处理连续时间路径的耦合（事件时间随机、路径连续），技术难度更高；相比 Durmus et al. (2020) 的 BPS 遍历耦合，本文的耦合需额外保证“相遇后完全重合”（而非仅收缩），故强化了耦合的设计要求。

主要结果： 1. 定理：PDMP 无偏估计量的有效性（对应 Jacob et al. 2020 的 Theorem 1 在连续时间的推广）：在所构造的耦合下，meeting time \(K\) 的期望 \(\mathbb{E}[K] < \infty\)，且望远镜和估计量 \(\hat{H}\) 是 \(\mathbb{E}_\pi[h(X)]\) 的无偏估计量，方差有限。直觉：两条链在耦合下以正概率在每步收缩，几何遍历性保证 \(\mathbb{E}[K] < \infty\)；无偏性来自望远镜和的数学结构（与离散时间情形相同）。 2. 算法：三类 PDMP 的具体耦合机制： - BPS 耦合：同步事件时间 + 反射步同步计算 + 刷新步用 Reflection-maximal 高斯耦合（Bou-Rabee et al. 2018 的方法）。关键：反射步不直接尝试让速度相同（因反射方向由各自位置决定），但刷新步是让速度相同的时机——当位置差小时，刷新步的高斯耦合有高概率让速度相同，从而相遇。 - BS 耦合：同步事件时间 + 椭圆反射同步计算 + 刷新步用高斯耦合。因 BS 的轨道是椭圆（非直线），位置差的演化更复杂，但核心思路同 BPS。 - CS 耦合：同步事件时间 + 坐标方向速度更新的同步 + 刷新步耦合。CS 每次只更新一个坐标，耦合需保证两条链选择同一坐标方向（共享随机数），然后在该方向上尝试速度耦合。 3. 证明路线与技术技巧： - 整体路线： 1. 构造同步耦合：两条链共享事件时间序列 \(\{\tau_k\}\)（同一组指数随机变量），保证两条链在同一时刻考虑速度更新。 2. 在事件时刻，根据事件类型（反射或刷新）分别处理：反射步各自计算（不强制速度相同），刷新步尝试用 maximal coupling 让速度相同。 3. 证明收缩性：在耦合下，位置差 \(\|X_{1,t} - X_{2,t}\|\) 的期望随时间收缩（利用 PDMP 的几何遍历性与耦合不等式）。 4. 证明相遇概率：当位置差足够小时，刷新步的高斯耦合以正概率让速度差也为 0，从而两条链相遇（状态完全相同）。 5. 结合几何遍历性（收缩保证位置差达小的期望时间有限）与相遇概率（位置差小时有正概率相遇），得 \(\mathbb{E}[K] < \infty\)。 - 关键跳跃点： - 连续时间路径的相遇定义：离散时间 MCMC 的相遇是两条链在某步状态相同；连续时间 PDMP 的相遇需两条链在某时刻 \(t\) 状态 \((x, v)\) 完全相同，且此后路径重合。本文通过“刷新步速度耦合 + 此后共享事件时间与速度更新”保证相遇后重合，这是从离散到连续的关键跳跃。 - 不同协方差高斯的耦合：BS 的刷新步涉及不同协方差的高斯（因参考测度不同）， maximal coupling 无闭式解。本文调用 Corenflos & Särkkä (2022) 的耦合拒绝采样器处理此情况，保证耦合概率有下界。 - 技术技巧点名： - Lindvall 的耦合不等式：用于将 meeting time 的期望与 PDMP 的总变差收敛率联系，是证明 \(\mathbb{E}[K] < \infty\) 的核心工具。 - Reflection-maximal 高斯耦合（Bou-Rabee et al. 2018）：用于 BPS 刷新步的速度耦合，保证同协方差高斯下的 maximal coupling。 - 耦合拒绝采样器（Corenflos & Särkkä 2022）：用于 BS 刷新步的不同协方差高斯耦合，保证耦合概率有正下界。 - 望远镜和论证（Glynn & Rhee, Jacob et al. 2020）：用于构造无偏估计量 \(\hat{H}\)，数学结构与离散时间情形相同，本文直接沿用。

真实例子与应用： - 实验设计：本文包含初步模拟实验，验证耦合机制的有效性与维数 scaling。 - 场景 1：标准高斯目标 \(\mathcal{N}(0_d, I_d)\)，维数 \(d\) 从 2 到 100 递增，测试 BPS、BS、CS 耦合的 meeting time 随 \(d\) 的增长。结果：meeting time 随 \(d\) 增长但增速合理（非指数级），与 Heng & Jacob (2019) 的耦合 HMC 结果可比。 - 场景 2：logistic 回归后验（真实数据），测试 BPS 耦合在高维非高斯目标下的表现。结果：meeting time 仍有限，无偏估计量方差可控。 - 想说明什么：验证本文耦合机制在合理维数下可行，且 scaling 与已知离散时间耦合结果可比；并非要证明 PDMP 无偏化优于离散时间无偏化，而是展示其可行性。

🔎 结论是否比证明窄： - 本文在“PDMP 可精确模拟”的假设下严格证明了无偏性与 \(\mathbb{E}[K] < \infty\)，但在实际应用中 PDMP 模拟常需数值积分（如 BS 的椭圆轨道需 ODE 求解器），引入数值误差。作者在文中未将此误差纳入无偏性证明，却在实验中用了精确模拟（高斯目标下可闭式计算事件时间）。这是一个“条件 X 下严格证明、实际可能不满足”的缺口——若目标非高斯，PDMP 模拟的数值误差是否破坏无偏性？作者未 claim 可处理此情况，但读者需注意此假设的限制。

四、开放问题（点到为止，扎根具体语句）¶

Zig-Zag sampler 的无偏化：本文只处理了 BPS、BS、CS，未涉及 ZZ。ZZ 的速度更新是坐标方向翻转（非反射），其耦合机制是否可类似构造？扎根在 intro 中“we focus on the latter three methods”的限定——ZZ 的耦合可能需不同技术（因翻转步不涉及梯度方向，收缩性证明可能更难）。
数值误差对无偏性的影响：本文假设 PDMP 可精确模拟，但实际中 BS 的椭圆轨道常需数值 ODE 求解器，引入离散化误差。如何将数值误差纳入无偏化框架（如用 Multilevel Monte Carlo 补偿）？扎根在“we assume the PDMP can be simulated exactly”的假设——这是证明的必要条件，但实际常不满足。
meeting time 的高维 scaling 理论率：实验显示 meeting time 随 \(d\) 增长合理，但未给出理论率（如 \(\mathbb{E}[K] = O(d^\alpha)\) 的 \(\alpha\)）。已知 BPS 收敛率与 \(d\) 无关（Deligiannidis et al. 2019），但耦合 meeting time 是否也维数无关？扎根在实验部分的“reasonable scaling”描述——缺乏理论界是本文的明确缺口。
子采样 PDMP 的无偏化：PDMP 的优势之一是支持精确子采样（如 ZZ 的子采样版本不引入偏差），但本文的耦合机制是否适用于子采样 PDMP？扎根在 intro 对 PDMP 优势的描述（引用 Bierkens et al. 2019 的子采样）——本文未讨论子采样下的耦合，这可能是一个有意义的拓展。

要确认某条是否真 gap，建议读 PDMP 与无偏 MCMC 近期约 5 篇的 intro——若都指向“ZZ 耦合难构造”或“数值误差未处理”，则为共识真 gap；若互相打架（有人已解决 ZZ 耦合），则为机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Debiasing piecewise deterministic Markov process samplers using couplings¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论