On mixing rates for Bayesian CART¶
作者: Jungeum Kim, Veronika Ročková
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: University of Chicago(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 这个子方向要解决的根本问题是:在贝叶斯非参数回归(特别是基于树/森林的模型)中,后验分布的统计最优性(如收敛速率、覆盖率)与计算可达性(MCMC 算法的 mixing time)之间是否存在鸿沟。当前成熟度处于“统计理论已基本完备,但计算复杂度理论刚刚起步”的阶段——人们已经知道树后验能达到近 minimax 速率,但直到最近才开始严格证明用来逼近这些后验的 MCMC 链到底需要跑多久。
发展脉络 - 奠基工作(统计理论):Castillo & Ročková (2019) [5] 将 Bayesian CART 重构为“结构化小波收缩”,证明其后验在 supremum norm 下达到近 minimax 收敛速率,并构造了自适应置信带。Ročková & Rousseau (2021) [4] 进一步证明 spike-and-slab 先验与 Bayesian CART 在局部 Hölder 函数下具有局部自适应速率。这两篇确立了后验作为统计对象是优良的,但未触及 MCMC 的计算复杂度。 - 主要进展(计算复杂度初探):Yang, Wainwright & Jordan (2015) [7] 在高维贝叶斯变量选择中,通过 canonical path ensemble 证明 Metropolis-Hastings 算法在截断稀疏先验下可达到线性(对数因子内)的 mixing time,首次将后验集中与快速 mixing 显式挂钩。Belloni & Chernozhukov (2007) [15] 在大样本下对 Metropolis 随机游走给出了多项式复杂度界,但依赖于准后验的 Laplace-Bernstein-Von Mises 形状(局部正态),对树这种离散/非凸空间不适用。 - 当前 frontier(树模型的 mixing 下界与补救):Ronen 等 (2022) [6] 对简化版 BART 给出了指数级 mixing time 下界,首次严格证实了树 MCMC 的慢 mixing 现象。Zhou 等 (2021) [3] 在变量选择中证明 informed proposal 可达到与维数无关的 mixing time,展示了“利用局部后验信息加速”的路线。Pratola (2013) [2] 提出树旋转等复杂 proposal 以改善 mixing,但无理论速率。 - 本文的位置:填补了 Bayesian CART(单树)mixing time 上界的空白,同时给出标准 grow-and-prune 的指数下界,并提出 Twiggy/informed 变体以多项式时间绕过障碍。
子线索聚类 1. 后验统计最优性:[5, 4, 16]——证明树后验/森林后验在统计上达到 minimax 或局部自适应速率,不涉及计算。 2. MCMC mixing time 理论(变量选择/连续空间):[7, 3, 15]——在变量选择或准后验框架下给出多项式 mixing 界或 dimension-free 界,为树模型提供方法论参照(canonical path, informed proposal, drift condition)。 3. 树 MCMC 的实证慢 mixing 与工程补救:[2, 18, 20, 19, 12]——从工程角度提出旋转、SMC、Particle Gibbs、XBART warm start 等加速方案,缺乏严格 mixing rate 分析。 4. 树 MCMC 的严格下界:[6]——给出 BART(单树简化版)的指数 mixing 下界,揭示标准 proposal 的根本缺陷。
这个方向在追问的核心问题 1. Stat-Computing Gap 是否存在? 后验集中速率快,是否意味着 MCMC 也能快速逼近它?[6] 给出了下界证据,本文补充上界与条件,显式刻画了 gap 的边界(信号结构假设)。 2. 信号结构如何决定 mixing rate? 树后验的支撑集依赖于信号的树拓扑连通性;孤立信号 vs 连通信号是否导致 polynomial vs exponential 的分野? 3. Proposal 设计能否消除 gap? 局部 proposal(grow/prune)vs 全局 proposal(twig attach/detach)vs informed proposal,在何种假设下能将 exponential 降为 polynomial 甚至 dimension-free?
⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“Bayesian CART 的 inferential theory 已有 [5, 4],但 MCMC mixing time 的刻画除了下界 [6] 外几乎空白”,从而将自己的工作定位为“首次给出 mixing 上界、揭示信号连通性假设的关键角色、并提出 Twiggy/informed 变体实现多项式 mixing”。 - 被淡化的竞争路线:SMC/Particle Gibbs [18, 20] 与 XBART [19] 作为替代采样/初始化方案,作者仅在背景中提及,未在理论层面比较其 mixing rate;变量选择中的 dimension-free informed proposal [3] 被引用为方法论灵感,但作者未讨论 BART 森林(多树)的 mixing 是否也能 dimension-free。 - 缺失的引用:泛函空间上的 MCMC mixing 理论(如 Hamiltonian Monte Carlo 在连续非参数模型中的 spectral gap 分析)未出现;低维树结构上的 combinatorial mixing 分析(如 random walk on binary trees 的 hitting time 经典结果)也未引用。这可能是作者刻意聚焦于“统计信号结构驱动的 mixing”所致,但读者可去查:连续非参数 MCMC 的 mixing bound 是否与这里的 polynomial/exponential 分野有对应关系?
张力 未见明显对立引用。[6] 给出指数下界,本文给出指数下界(强化)与多项式上界(条件性),两者在“标准 proposal 下存在 exponential barrier”上是一致的;张力体现在“是否需要连通性假设才能多项式 mixing”——本文说“需要(对标准 proposal)”,但 Twiggy 变体说“不需要”,这是内部张力,而非文献间对立。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- \(f_0\):真实回归函数(未知,要估的对象),属于 \(L^2[0,1]\) 或局部 Hölder 类。
- \(Y_i\):可观测响应变量,\(Y_i = f_0(x_i) + \varepsilon_i\),\(i=1,\dots,n\)。
- \(x_i\):可观测设计点,固定在 \([0,1]\) 上的等距网格 \(x_i = i/n\)(固定设计)。
- \(\varepsilon_i\):不可观测噪声,\(\varepsilon_i \sim \mathcal{N}(0, \sigma^2)\),\(\sigma^2\) 已知(简化设定;论文也讨论 \(\sigma^2\) 未知但先验集中于真值的情况)。
- \(T\):二叉回归树(随机变量,MCMC 的状态),由内部节点集合 \(T_{\text{int}}\)(决定分割规则)和终端节点集合 \(T_{\text{term}}\)(叶子,决定局部常数拟合)构成。\(T\) 的深度/结构是随机的。
- \((l,k)\):树节点的坐标,\(l\) 为深度(level),\(k\) 为该深度下的位置索引,\(l=0\) 为根节点。
- \(\Theta_T\):树 \(T\) 下的参数向量(叶子均值),维度 \(= |T_{\text{term}}|\)。
- \(\Pi(\cdot \mid Y_1,\dots,Y_n)\):树后验分布(目标分布),由先验 \(\Pi(T)\)(节点分裂概率 \(p_{lk}\) 控制)与似然 \(L(Y \mid T, \Theta_T)\) 构成。
- \(K\):MCMC 转移核(proposal + accept/reject),\(T^{(i)} \sim K(T^{(i-1)}, \cdot)\)。
- \(\tau_{\text{mix}}(\epsilon)\):Mixing time,定义为达到总变差距离 \(\leq \epsilon\) 所需的最小迭代步数,\(\tau_{\text{mix}}(\epsilon) = \min\{t : \max_{T_0} \|K^t(T_0, \cdot) - \Pi(\cdot \mid Y)\|_{\text{TV}} \leq \epsilon\}\)。
- \(\beta_{lk}\):小波系数(wavelet representation),\(f_0\) 在树 \(T\) 下的投影系数,\(\beta_{lk} \approx \int f_0 \psi_{lk}\)。树后验可重构为对 \(\{\beta_{lk}\}\) 的结构化收缩。
第二步:最小内核——深层孤立信号下的 exponential barrier
剥掉所有一般性讨论,支撑本文核心论断的最小内核是:一个深层孤立的大信号系数,如何让标准 grow-and-prune MCMC 卡死。
- 最简特例设定:假设 \(f_0\) 的小波表示中,只有一个系数 \(\beta_{L,k^*}\) 显著非零(\(L\) 较深,如 \(L \sim \log_2 n\)),其余所有系数近乎零。这对应一个极窄的尖峰信号。真实树 \(T^*\) 必须在深度 \(L\) 的位置 \(k^*\) 有一个内部节点(才能捕捉该系数),而从根到该节点的路径上所有祖先节点 \((l, k_l)\) 也必须存在(树的结构约束)。
- 标准 proposal 的困境:标准 Bayesian CART 的 proposal 只有 grow(在某叶子节点分裂,增加一个内部节点)和 prune(删除一个内部节点,合并两个叶子)。要从空树(或浅树)到达 \(T^*\),必须依次 grow 出从根到 \((L, k^*)\) 的整条路径。每一步 grow 的候选节点是当前树的所有叶子(数量随深度增长),而分裂位置 \(k_l\) 的选择是连续区间离散化后的众多候选。关键在于:在路径尚未完成时,中间步骤的树拟合极差(因为中间树只能用局部常数拟合一个尖峰,残差巨大),导致后验概率 \(\Pi(T_{\text{intermediate}} \mid Y)\) 极低;而 grow proposal 提议这些中间树的概率被分散到众多叶子与分割位置上。结果:从浅树向深树转移的接受率极低,链在浅树处停留极久。
- 要证的命题(退化形式):在上述孤立信号设定下,标准 grow-and-prune MCMC 的 mixing time 下界为 \(\tau_{\text{mix}} \geq C \cdot e^{c L}\)(\(L \sim \log_2 n\) 时即为 \(e^{c' n}\) 量级),即 exponential in \(n\)。
- 证明直觉:构造一个瓶颈集 \(A\)(包含所有不包含节点 \((L, k^*)\) 的树),证明从 \(A\) 转移到补集 \(A^c\)(包含 \((L, k^*)\) 的树)的概率极小(因为需要连续多次“幸运”的 grow 提议且被接受),而 \(A^c\) 的后验质量不小(因为 \(T^*\) 拟合好)。由 Cheeger 不等式或直接 conductance 论证,spectral gap 极小,mixing time 极大。
- Twiggy 变体如何破局:Twiggy Bayesian CART 的 proposal 不是 grow/prune 单个节点,而是 attach/detach 整条 twig(从某叶子到目标深度的一条完整路径)。在孤立信号例子中,一步 attach 就能从浅树直接跳到包含 \((L, k^*)\) 的深树,绕过了中间极低后验概率的瓶颈。因此 mixing time 从 exponential 降为 polynomial。
三、这篇论文做了什么¶
三句话 ①研究了 Bayesian CART MCMC 算法的 mixing time 上界与下界,刻画了信号结构假设与 proposal 设计对收敛速率的影响。 ②核心工具是树的小波表示(将树后验重构为结构化小波收缩)与 canonical path / drift condition / conductance 分析。 ③主要结论:标准 grow-and-prune 在信号满足 hierarchical connectivity 时多项式 mixing,但对深层孤立信号 exponential mixing;Twiggy Bayesian CART 无需 connectivity 假设即可多项式 mixing;informed 变体可达更快收敛。
关键设定与假设 - 模型:非参数回归 \(Y_i = f_0(x_i) + \varepsilon_i\),固定等距设计,\(\varepsilon_i \sim \mathcal{N}(0, \sigma^2)\),\(\sigma^2\) 可已知或未知(未知时配 Inverse-Gamma 先验,后验集中于真值)。 - 先验: - 树结构先验 \(\Pi(T)\):节点 \((l,k)\) 分裂的概率 \(p_{lk} = \alpha (1 + l)^{-\beta}\)(\(\alpha, \beta\) 控制树的深度与大小),分裂位置均匀分布。 - 叶子参数先验 \(\Pi(\Theta_T \mid T)\):独立 \(\mathcal{N}(0, \tau^2)\),\(\tau^2\) 配 Inverse-Gamma 或固定为大值。 - 信号假设(关键): 1. Hierarchical Connectivity:若深度 \(l\) 的系数 \(\beta_{lk}\) 显著(\(> \rho_n\)),则其所有祖先系数 \(\beta_{l',k'}\)(\(l' < l\))也显著。这对应小波树上的连通信号(如连续函数的平滑区域或间断点)。这是标准 Bayesian CART 多项式 mixing 的充分条件。 2. Near-parametric Sparsity:显著系数数量 \(s_n = o(n / \log n)\),保证后验集中在稀疏树上。 3. Signal Strength:显著系数 \(|\beta_{lk}| > \rho_n \asymp \sqrt{\log n / n}\),保证检测性。 - 相比已有文献的放宽/强化: - 相比 [5, 4] 的后验集中理论,本文新增了 mixing time 分析,但统计假设基本沿用(connectivity 是 [5] 中树后验集中的自然条件,本文显式指出它也是 mixing 的关键)。 - 相比 [6] 的下界,本文给出匹配的下界(标准 proposal 下 exponential)并补充上界(connectivity 下 polynomial),刻画了完整边界。 - Twiggy 变体放宽了 connectivity 假设,在孤立信号下仍多项式 mixing,这是对 [5, 6] 假设的实质性放松。
主要结果
- Theorem 1(标准 Bayesian CART 的多项式 mixing 上界):
- 陈述:在 hierarchical connectivity 与 near-parametric sparsity 假设下,标准 grow-and-prune Bayesian CART 的 mixing time \(\tau_{\text{mix}}(\epsilon) \leq C n^{c}\)(多项式级),其中常数依赖于 \(\alpha, \beta, \rho_n\)。
- 直觉:连通信号意味着真实树 \(T^*\) 的路径上每一步 grow 都能被后验支持(因为祖先系数也显著,中间树不会拟合极差),从而 canonical path 上的每步转移都有合理接受率,conductance 不太小。
- 必要条件:connectivity 假设是关键的;去掉它则退化为 exponential(见 Theorem 2)。
-
解决的技术难点:如何在离散树空间上构造 canonical path 并控制每步的接受率,同时处理树结构约束(分裂位置连续性离散化后的众多候选)与叶子参数的连续积分。
-
Theorem 2(标准 Bayesian CART 的 exponential mixing 下界):
- 陈述:存在信号配置(深层孤立大系数,不满足 connectivity),使得标准 grow-and-prune 的 mixing time \(\tau_{\text{mix}} \geq e^{c n}\)。
- 直觉:如最小内核所述,孤立信号导致中间树后验极低,conductance 极小。
- 必要条件:信号必须“深层且孤立”——浅层孤立信号仍可能被快速捕捉(因为 grow 步数少)。
-
解决的技术难点:构造具体的信号配置并严格计算 conductance 下界,需要精确控制 grow proposal 的分散性与中间树的后验质量。
-
Theorem 3-4(Twiggy Bayesian CART 的多项式 mixing):
- 陈述:Twiggy Bayesian CART(attach/detach 整条 twig)在无 connectivity 假设下,mixing time 仍为多项式级 \(\tau_{\text{mix}} \leq C n^{c'}\);informed Twiggy 变体(利用局部后验信息加权提议 twig)可达更快速率(\(n\) 的更低阶多项式)。
- 直觉:twig attach 一步跳过瓶颈路径;informed proposal 进一步集中提议于高后验概率的 twig,减少无效探索。
- 解决的技术难点:twig attach 的候选空间更大(整条路径的分割位置组合),需证明提议概率的分散不会抵消一步跳跃的优势;informed proposal 需控制局部后验计算的额外成本并证明其不破坏 polynomial 界。
证明路线与技术技巧
- 整体路线(Theorem 1 上界):
- 小波重构:将树后验 \(\Pi(T, \Theta_T \mid Y)\) 重构为对小波系数 \(\{\beta_{lk}\}\) 的结构化收缩后验,利用 [5] 的框架,将树结构约束转化为系数的连通性约束。
- 后验集中:引用 [5] 的结果,证明后验集中在真实树 \(T^*\) 的邻域(\(T^*\) 包含所有显著系数的路径)。
- Canonical Path 构造:在树空间上构造从任意树 \(T\) 到 \(T^*\) 的 canonical path,每步为单个 grow 或 prune(标准 proposal 支持的操作)。利用 connectivity 假设,保证路径上每步的中间树 \(T_i\) 都包含 \(T^*\) 的某个祖先子树,从而拟合不极差。
-
Conductance/Spectral Gap 界:通过 canonical path 的流量分析,控制每步转移的接受率下界,进而得到 conductance 下界 \(\Phi \geq \text{poly}(1/n)\),由 Cheeger 不等式得 spectral gap \(\geq \text{poly}(1/n)\),mixing time \(\leq \text{poly}(n)\)。
-
整体路线(Theorem 2 下界):
- 构造孤立信号:设定 \(f_0\) 只有深层系数 \(\beta_{L,k^*}\) 显著。
- 瓶颈集构造:定义 \(A\) 为所有不包含节点 \((L, k^*)\) 的树集合,证明 \(\Pi(A \mid Y)\) 不极小(因为浅树有先验支持)。
- 转移概率界:计算从 \(A\) 到 \(A^c\) 的转移概率上界 \(K(A, A^c) \leq e^{-c n}\),因为需要连续 \(L\) 次 grow 且每次分裂位置必须精确命中 \(k^*\) 的祖先路径,概率极小。
-
Conductance 下界:由 \(\Phi \leq K(A, A^c) / \Pi(A \mid Y) \leq e^{-c' n}\),得 mixing time \(\geq 1 / \Phi \geq e^{c' n}\)。
-
整体路线(Theorem 3-4 Twiggy 上界):
- Twig 操作定义:attach = 在某叶子下一次性生长出深度 \(d\) 的完整子树(twig);detach = 删除某内部节点下的整棵子树。候选 twig 的分割位置组合是多项式级(\(O(n^d)\))。
- Canonical Path 修改:从 \(T\) 到 \(T^*\) 的路径不再逐步 grow,而是按 twig 逐步 attach;每步 attach 直接跳过瓶颈,因为整条 twig 的拟合改善是显著的(即使信号孤立,twig 包含目标节点后拟合立即改善)。
- 接受率控制:twig attach 的提议概率虽分散(\(O(1/n^d)\)),但接受率因拟合改善而高(\(O(1)\) 或 \(\text{poly}(1)\)),且 detach 的反向转移概率也有合理控制(先验惩罚与拟合恶化的平衡),总体 conductance \(\geq \text{poly}(1/n)\)。
-
Informed 变体:利用局部后验信息(如残差下降量)加权提议 twig,将提议概率集中于高接受率 twig,进一步提升 conductance。
-
关键跳跃点:
- 从树空间到小波空间的映射:这是本文的理论基石,允许将树结构的组合复杂性转化为系数空间的代数结构,从而利用 [5] 的后验集中结果。难点在于树结构约束(分裂位置依赖)在小波空间中表现为系数的连通性,如何精确控制这一映射的误差。
-
Canonical Path 上的接受率精确计算:标准 proposal 的接受率涉及连续参数(叶子均值)的积分与离散结构(分裂位置)的组合数,需要同时控制两者;本文通过“条件先验”(给定树结构下参数的先验)与“似然比”的分解,将接受率简化为可计算的量。
-
技术技巧点名:
- Wavelet representation of trees([5] 的框架):将树后验重构为结构化小波收缩,利用树拓扑诱导的系数相关性,是后验集中与 mixing 分析的统一基础。
- Canonical path ensemble([7] 的方法):在离散状态空间上构造从任意状态到目标状态的路径集合,通过流量分析控制 conductance,是 mixing 上界的标准工具。
- Drift condition / Two-stage drift([3] 的启发):对 informed proposal 变体,使用 drift condition(向高后验区域漂移)替代纯 conductance 分析,以处理非均匀提议概率。
- Cheeger's inequality:连接 conductance 与 spectral gap,是 mixing time 界的桥梁。
- Tail bounds for \(\chi^2\)([24]):控制噪声项 \(\|\varepsilon\|_2^2\) 的尾部,用于证明后验集中在拟合好的树上(似然比检验的阈值化)。
- Twig attach/detach proposal:本文新提出的组合操作,一步修改整条路径而非单节点,是绕过 exponential barrier 的关键设计。
真实例子与应用 - 仿真实验:论文包含 thorough simulation study,对比 spike-and-slab prior(连续小波空间)与 Bayesian CART(离散树空间)在多种 proposal(标准 grow/prune, Twiggy, informed Twiggy)下的 mixing 表现。 - 场景设计:构造满足 connectivity 的信号(如 Doppler, Blocks)与孤立信号(如单尖峰),观察不同 proposal 的收敛轨迹(trace plot of tree depth/fit)。 - 结果:标准 Bayesian CART 在连通信号下 mixing 可接受,在孤立信号下极慢;Twiggy 在孤立信号下显著加速;informed Twiggy 最快。Spike-and-slab prior(连续空间)在孤立信号下也慢,但比标准树 proposal 好(因为连续空间无树结构约束)。 - 说明什么:验证理论预测(connectivity 决定标准 proposal 的 mixing;twig 操作绕过瓶颈;informed 进一步加速),并展示树模型与连续小波模型在计算复杂度上的结构性差异。
🔎 结论是否比证明窄 - Theorem 1 的多项式上界在 connectivity 假设下严格证明,但作者在讨论中暗示“实际中许多信号近似满足 connectivity”,这是泛泛 claim,未严格量化“近似连通”的容忍度(多少孤立小系数可被容忍仍保持多项式 mixing)。 - Theorem 3-4 的 Twiggy 多项式界在无 connectivity 假设下证明,但依赖于 twig 深度 \(d\) 的选择(\(d\) 需足够大以覆盖孤立信号的深度),作者未显式讨论 \(d\) 的自适应选择如何影响 mixing rate(实际中 \(d\) 是固定的或随机选择的,理论界可能随 \(d\) 增大而变差)。 - Informed Twiggy 的更快速率在定理中陈述,但证明细节相对简略(依赖 drift condition 的泛界),具体的速率阶数(如 \(n^{c}\) vs \(n^{c'}\) 的 \(c, c'\) 差异)未完全显式化。
四、开放问题(点到为止,扎根具体语句)¶
-
多树森林(BART)的 mixing time 界:本文聚焦单树 Bayesian CART,而 BART 是多树叠加;作者在 intro 提到“BART 的 backfitting 可能缓解单树的慢 mixing”,但未给出理论界。要证什么:BART MCMC(多树交替更新)在孤立信号下的 mixing time 是 polynomial 还是 exponential?扎根于 intro 第 1 页“Another way to prevent single trees from getting stuck is by adding them up and by performing Bayesian back-fitting (see the BART method of [11])”——这是未严格验证的 claim。
-
“近似连通”信号的 mixing rate 量化:Theorem 1 要求严格 hierarchical connectivity,实际信号常有少量孤立小系数;要估什么:容忍 \(k\) 个孤立系数时,标准 proposal 的 mixing time 从 polynomial 退化为何种 rate(如 \(n^{c} \cdot e^{c' k}\))?扎根于 Section 6 讨论“connectivity restriction may be typically satisfied in practice”——这是泛泛断言,未给出量化容忍度。
-
Twig 深度 \(d\) 的自适应选择与 mixing rate 的依赖关系:Theorem 3 的多项式界隐式依赖于 twig 深度 \(d\) 足够大以覆盖信号深度;要算什么:若 \(d\) 随机选择或随链迭代自适应调整,mixing rate 如何变化?扎根于 Section 4 Twiggy Bayesian CART 定义中 \(d\) 的固定设定——理论界未显式包含 \(d\) 的成本。
-
连续小波空间(spike-and-slab)与离散树空间的 stat-computing gap 精确比较:仿真显示 spike-and-slab 在孤立信号下也慢但比标准树好;要证什么:spike-and-slab MCMC 在孤立信号下的 mixing time 下界是何种阶数(exponential in \(n\) or in \(\log n\))?扎根于 Section 5 仿真对比与 Section 6 讨论“discrepancies between spike-and-slab priors and Bayesian CART”——这是实证观察,未严格理论化。
Maintained by 陈星宇 · Homepage · Source on GitHub