跳转至

A data-dependent DKW inequality for regenerative Markov chains

作者: Daniel Jerison
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.30866


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是为马尔可夫链的平稳分布函数(CDF)构建非渐近的、可计算的均匀置信带。核心问题是:给定一条马尔可夫链的样本路径,能否给出一个关于 sup_x |ˆπ_n(θ ≤ x) - π(θ ≤ x)| 的、以高概率成立的显式上界?这个上界需要是数据依赖的(empirical/data-dependent),即其主项能从样本路径本身计算,而不依赖于链的收敛速度的先验知识。该方向属于“经验浓度不等式”在依赖数据场景下的推广,其成熟度处于从“存在理论保证”向“实用且紧的界”过渡的阶段

发展脉络(history)

  • 奠基工作:经典 i.i.d. DKW 不等式。Dvoretzky, Kiefer, Wolfowitz (1956) 和 Massart (1990) 给出了 i.i.d. 样本下 sup_x |F_n(x) - F(x)| 的指数型尾概率界,常数被精确化。这是所有后续工作的基准。
  • 主要进展:将 DKW 型不等式推广到依赖数据。Doukhan, Massart, Rio (1995) 等早期工作针对强混合序列建立了经验过程的 invariance principles。Kontorovich & Weiss (2012) 和 Paulin (2015) 分别利用 Markov 收缩和谱方法,为几何遍历的 Markov 链证明了 DKW 型不等式。这些结果提供了理论保证,但上界依赖于链的混合时间(或谱隙)的先验知识,而该知识在实践中往往过于保守或无法获得。
  • 当前 frontier:经验浓度不等式(empirical concentration inequalities)。Maurer & Pontil (2009) 提出了经典的“经验 Bernstein 不等式”,用样本方差替代总体方差,使上界能自适应于数据的实际变异性。Martinez-Taboada & Ramdas (2025) 对其进行了大幅定量改进。Wintenberger (2017) 和 Mirzaei et al. (2025) 将经验 Bernstein 不等式推广到了几何遍历 Markov 链和 β-混合序列。但这些工作都只针对单个期望值 E_π[f] 的估计,而非整个 CDF 的均匀收敛
  • 本文的位置:本文是第一个将“经验浓度不等式”的思想与“DKW 型均匀界”结合的工作。它针对具有再生结构的 Markov 链,给出了一个数据依赖的 DKW 不等式,其主项完全由样本路径决定,而链的收敛速度(通过 B, γ)仅影响一个低阶项。

子线索聚类

  1. 经典 DKW 及其改进:Dvoretzky, Kiefer, Wolfowitz (1956); Massart (1990); Reeve (2024)。核心是 i.i.d. 情形下的最优常数和简洁证明。
  2. 依赖数据的 DKW 型不等式:Doukhan et al. (1995); Kontorovich & Weiss (2012); Paulin (2015); Glynn & Rhee (2014)。核心是假设链满足某种混合条件(强混合、几何遍历、谱隙),给出依赖于混合参数的上界。
  3. 经验浓度不等式:Maurer & Pontil (2009); Martinez-Taboada & Ramdas (2025); Wintenberger (2017); Mirzaei et al. (2025)。核心是构造数据依赖的界(如用样本方差替代总体方差),使界能自适应于数据的实际变异性。本文属于此线索。
  4. Wasserstein 距离下的经验测度收敛:Fournier & Guillin (2015); Bobkov & Ledoux (2019); Boissard (2011); Fournier (2023)。本文在证明中使用了 1-Wasserstein 距离来控制再生时间分布的学习误差,这些文献提供了必要的工具。

这个方向在追问的核心问题

  1. 如何构造一个“紧”且“实用”的界? 现有依赖数据的 DKW 界要么依赖于未知的混合参数(过于保守),要么只针对单个期望值而非整个分布。本文试图解决后者。
  2. 如何将“经验”思想从期望值推广到整个分布函数? 对于 CDF,误差来源不仅是均值,还有每个分位点上的偏差。如何将样本路径信息(如再生次数、最大游程长度)转化为对 CDF 的均匀控制?
  3. 如何在不依赖强混合假设(如均匀遍历性)的情况下获得近最优的 n 依赖? 本文通过再生结构,将问题分解为 i.i.d. 块,从而绕开了对链的全局混合速度的依赖,仅需控制再生时间的尾部。

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者认为,现有 DKW 型不等式的主要问题是上界依赖于链的收敛速度的先验知识,而这个知识要么没有,要么过于保守。因此,他构造了一个“数据依赖”的界,使得主项 C_1(X, δ) 完全由样本路径决定,从而在链的实际收敛速度远快于理论保证时,能得到更紧的界。他将自己的结果定位为“经验浓度不等式”在 CDF 上的首次应用。
  • 哪些竞争路线被他淡化或回避了
    • 基于谱隙的方法(如 Paulin 2015):作者在引言中承认这些方法存在,但指出它们需要先验的谱隙信息。他回避了与这些方法在相同假设下的直接定量比较。他的方法需要构造再生时间,这本身就是一个非平凡的任务。
    • 均匀遍历性假设:作者在脚注中提到,均匀遍历性可以去掉对数因子,但他没有选择这条路,因为该假设对许多 MCMC 链不现实。
  • 什么明显该被引 / 该存在、却没出现在 intro 里? 作者没有引用任何关于高维或非参数 Markov 链的 DKW 型结果。这暗示本文目前只处理一维函数 θ 的 CDF,而非更一般的函数空间。这是一个明显的限制,也是未来工作的方向。

张力

未见明显对立引用。被引工作之间是互补关系:经典 DKW 是基准,依赖数据的 DKW 是推广,经验浓度不等式是工具,Wasserstein 距离是分析手段。本文是这些线索的汇合。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • (X_t)_{t≥0}: 离散时间 Markov 链,状态空间 X
    • π: 链的平稳分布。
    • θ: X → R: 一个可观测的实值函数(我们关心的量)。
    • F(x) = π(θ ≤ x): 目标 CDF(我们想估计的东西)。
    • ˆπ_n(θ ≤ x) = (1/n) Σ_{t=0}^{n-1} 1{θ(X_t) ≤ x}: 基于样本路径的经验 CDF。
    • T_0 = 0, T_1, T_2, ...: ν-再生时间序列。T_k 是第 k 次再生的时刻。
    • ν: 再生测度。X_{T_k} ~ ν,且与历史独立。
    • W_k = T_k - T_{k-1}: 第 k 个游程的长度(i.i.d. 随机变量)。
    • T = T_1: 第一个正再生时间。
    • B, γ: 控制 P(T > t) ≤ B e^{-γt} 的常数(先验知识)。
    • K: 固定的再生次数(我们决定跑多少个游程)。
    • n = T_K: 第 K 次再生时的总步数(随机变量)。
    • M = max(W_1, ..., W_K): 观测到的最大游程长度。
    • m_j = #{1 ≤ k ≤ K: W_k > j}: 长度超过 j 的游程个数。
    • π_j(·) = P(X_j ∈ · | T > j): 给定游程长度超过 j 的条件下,第 j 步的条件分布。
    • q_j = P(T > j) / E[T]: 平稳分布中,链处于“距上次再生 j 步”的状态的长期比例。
  • 模型

    • 数据生成机制:一个具有再生结构的 Markov 链 (X_t)。这意味着存在一个序列的随机时间 T_k,使得链在这些时间点“重置”到由测度 ν 独立抽取的状态上。因此,链的样本路径被分割成一系列独立同分布(i.i.d.)的游程 (X_t)_{T_{k-1} ≤ t < T_k}
    • 已知条件:我们已知 Bγ 的值,使得 P(T > t) ≤ B e^{-γt}。这是唯一的先验知识。
    • 要估的对象:平稳分布 πθ 的 CDF,即 F(x)
  • 可观测数据

    • 可观测:我们能看到整个样本路径 (X_0, ..., X_{n-1}),并且能识别出每个再生时间 T_k 的位置(通过事先选好的小集 A 和抛硬币机制)。因此,我们能计算出 K, n, M, m_j,以及每个游程内的样本。
    • 不可观测 / 潜在:平稳分布 π 本身、再生时间 T 的真实分布、条件分布 π_j 都是未知的。我们只能通过样本路径去推断它们。

第二步:讲最小内核

本文的核心思路可以浓缩为一个最简特例:假设游程长度 W_k有界的,即 P(W_k > L) = 0 对某个已知的 L 成立。在这个特例下,Bγ 可以取为 B=1, γ=∞(或等价地,P(T > t) = 0t ≥ L),且 M ≤ L

在这个特例下,问题退化成什么?

  1. 分解:由于最大游程长度 M ≤ L,我们最多只需要考虑 j = 0, 1, ..., L-1L 个“位置”。平稳分布 π 可以精确地写为 L 个条件分布 π_j 的加权平均:F(x) = Σ_{j=0}^{L-1} q_j π_j(θ ≤ x)。经验 CDF 也可以写成:ˆF(x) = Σ_{j=0}^{L-1} (m_j / n) ˆF_j(x),其中 ˆF_j 是基于 m_j 个 i.i.d. 样本(来自 π_j)的经验 CDF。

  2. 误差分解:由 Lemma 2.3,总误差被分解为两部分: sup_x |ˆF(x) - F(x)| ≤ Σ_j (m_j/n) * sup_x |ˆF_j(x) - π_j(θ ≤ x)| + Σ_j |m_j/n - q_j|

    • 第一项:学习每个 π_j 的误差。由于 ˆF_j 基于 i.i.d. 样本,我们可以对每个 j 应用经典的 DKW 不等式。
    • 第二项:学习游程长度分布的误差。m_j/n 是经验权重,q_j 是真实权重。这个误差可以通过控制 W_1 的经验分布与真实分布之间的 1-Wasserstein 距离来 bound。
  3. 为什么这个特例是“最小内核”?

    • 去掉了尾部风险:在有界游程长度下,M 是确定的,m_j 的分布是多项分布,没有“长尾游程”带来的不确定性。这使得证明中处理 Σ_{j≥M} 的部分(Lemma 2.7)完全消失。
    • 核心思想清晰可见:即使在这个简化设定下,本文的核心思想——利用再生结构将依赖数据问题分解为多个 i.i.d. 子问题——已经完整呈现。第一项用经典 DKW,第二项用 Wasserstein 距离控制分布学习误差。
    • 一般情形的“加壳”:当游程长度无界时,我们不知道 M 的上界。这时,我们需要处理 j ≥ M 的尾部项。Lemma 2.7 的作用就是利用先验的指数衰减界 P(T > t) ≤ B e^{-γt} 和观测到的最大游程 M,来 bound 这些尾部项对 Wasserstein 距离的贡献。这就是一般情形下额外增加的“壳”。

一句话总结:本文在数学上干的事是:利用再生结构,将 Markov 链的 CDF 估计问题分解为一系列 i.i.d. 子问题(每个 j 对应一个条件分布 π_j),然后用经典 DKW 控制每个子问题的估计误差,并用 1-Wasserstein 距离控制子问题权重的学习误差,最后用先验的指数衰减界来处理游程长度的尾部不确定性。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:为具有再生结构的 Markov 链的平稳分布函数 F(x) = π(θ ≤ x) 构建一个数据依赖的、非渐近的均匀置信带。
  2. 核心工具 / 方法:利用再生结构将链分解为 i.i.d. 游程,将 CDF 分解为条件分布 π_j 的加权平均,然后分别用经典 DKW 不等式和 1-Wasserstein 距离控制条件分布和权重的估计误差。
  3. 主要结论:定理 2.1 给出了一个显式的上界,其主项 (log n)/√n * C_1(X, δ) 完全由样本路径决定(通过 M, m_j),而链的收敛速度(B, γ)仅影响一个低阶项 (log n)/n * C_2(B, γ, δ)

关键设定与假设

  • 设定
    • (X_t) 是离散时间 Markov 链,具有平稳分布 π
    • 存在一个概率测度 ν 和一系列 ν-再生时间 0 = T_0 < T_1 < T_2 < ...,使得游程 (X_t)_{T_{k-1} ≤ t < T_k} 是 i.i.d. 的。
    • 链从 X_0 ~ ν 开始(即从一次再生开始)。
  • 假设
    • 再生结构存在:这是最关键的假设。它要求我们能构造出再生时间。作者在 1.1 节描述了通过“小集”(small set)和“漂移函数”(drift function)来构造的标准方法。这个假设限制了应用范围——并非所有 Markov 链都容易找到小集。
    • 指数衰减的游程长度尾部P(T > t) ≤ B e^{-γt},其中 B, γ > 0 是已知常数。这等价于链是几何遍历的,但作者指出这比几何遍历性弱(不要求非周期性)。这个假设提供了处理长尾游程所需的先验信息。
    • 与已有文献的对比:相比 Kontorovich & Weiss (2012) 和 Paulin (2015) 的假设(需要知道谱隙或混合时间),本文的假设更侧重于可构造性(再生结构)而非全局混合速度。本文的假设允许链有很慢的混合,只要再生时间尾部是指数衰减的。

主要结果

  • 定理 2.1:这是本文的核心定理。它给出了一个以概率至少 1-δ 成立的显式上界。上界由两部分组成:
    1. 数据依赖的主项(1/√(2n)) * Σ_{j=0}^{M-1} √[(m_j/n) * log(6n/(δ m_j))] ∧ (2m_j^2/n) + (√K / n) * (M / √(δ/3)) 这部分完全由样本路径计算出的 K, n, M, m_j 决定。它对应着学习每个条件分布 π_j 的误差(通过 DKW)和学习游程长度分布的误差(通过 Wasserstein 距离的均值 bound)。
    2. 依赖于先验知识的低阶项(2 / (n √(δ/3))) * [ (log(BK)/γ) * √(log(3/δ)) + 1/(1 - e^{-γ/2}) ] 这部分依赖于 Bγ。它对应着处理游程长度尾部不确定性所需的代价。
  • 定理的直觉:主项是“经验”的,它反映了样本路径实际展现出的混合行为(通过 Mm_j 体现)。如果链混合得很快(游程短,M 小),主项就会很小。低阶项是“理论”的,它是对我们无法观测到的长尾游程的一种保险,其大小由先验的指数衰减界决定。
  • 必要条件:需要 K 足够大,使得 log(BK)/γ 项有意义。作者在 2.1 节分析了上界的形式,并论证了低阶项在 log(BK)/γ ≥ 1 时具有最优的 nB, γ 依赖。
  • 解决的技术难点:如何将 Wasserstein 距离的均值 bound(Lemma 2.6)转化为一个高概率 bound。作者承认无法直接应用现有的指数浓度不等式(如 McDiarmid 不等式的扩展),因此退而求其次,使用了 Markov 不等式(Lemma 2.8),这导致了对 δ 的依赖是 1/√δ 而非 log(1/δ),这是本文的一个主要弱点。

证明路线与技术技巧

  • 整体路线

    1. 分解误差(Lemma 2.3):将总误差 sup_x |ˆF - F| 分解为“学习每个条件分布 π_j 的误差”和“学习游程长度分布权重的误差”。
    2. 控制条件分布误差(Lemma 2.4):对每个 jˆF_j 基于 m_j 个 i.i.d. 样本。用经典 DKW 不等式和 union bound,以概率 1-δ/3 控制所有 j 的误差之和。
    3. 控制权重误差(Lemma 2.5):将权重误差 Σ_j |m_j/n - q_j| 与经验分布 ˆp 和真实分布 p 之间的 1-Wasserstein 距离 W_1(ˆp, p) 联系起来。
    4. bound Wasserstein 距离的均值(Lemma 2.6 & 2.7):利用 m_j ~ Binomial(K, P_j) 的性质,将 E[W_1^2] 的上界转化为 Σ_j √[P_j(1-P_j)] 的和。将这个和拆分为 j < Mj ≥ M 两部分。j < M 部分用 M/2 平凡 bound。j ≥ M 部分利用“最大游程 M 意味着 P_M 很小”这一事实(Lemma 2.7 的证明),结合指数衰减界 P_j ≤ B e^{-γj},得到 bound。
    5. 从均值 bound 到高概率 bound(Lemma 2.8):对非负随机变量 Z = W_1(ˆp, p),用 Markov 不等式得到 Z ≤ √(E[Z^2]) / √(δ/3) 以概率 1-δ/3
    6. 合并:将步骤 2、3、4、5 的结果通过 union bound 合并,得到定理 2.1。
  • 关键跳跃点

    • E[W_1^2] 到高概率 bound:这是证明中最“吃劲”的地方。作者承认无法使用更紧的指数浓度不等式(如 McDiarmid 的扩展),因为 W_1 作为 K 个 i.i.d. 游程长度的函数,其差分的界依赖于游程长度本身,难以控制。他选择使用 Markov 不等式,这导致了对 δ 的依赖是 1/√δ,而非更优的 log(1/δ)。这是一个明显的技术妥协。
    • 处理尾部 j ≥ M:Lemma 2.7 的证明巧妙地结合了“观测到的最大游程 M 意味着 P_M 很小”这一概率论事实和先验的指数衰减界。它用 1/K * log(3/δ) 来 bound P_M,然后用指数衰减界来 bound 更远的 P_j,从而将无穷级数截断为有限项。
  • 技术技巧点名

    • 经典 DKW 不等式:用于控制每个 i.i.d. 子问题(ˆF_jπ_j)的误差。
    • 1-Wasserstein 距离:作为衡量两个离散分布(游程长度)差异的度量,其 L1 形式 Σ_j |ˆP_j - P_j| 与权重误差 Σ_j |m_j/n - q_j| 自然关联。
    • 二项分布方差Var(ˆP_j) = P_j(1-P_j)/K,用于 bound E[W_1^2]
    • Markov 不等式:用于将二阶矩 bound 转化为高概率 bound,这是本文的一个弱点。
    • Jensen 不等式:用于简化数据依赖主项的形式(Lemma 2.2)。

真实例子与应用

本文为纯理论 / 无实证例子。论文没有包含任何模拟实验或真实数据应用。作者在 1.5 节“讨论”中提到了一个 bimodal 的例子,但仅用于说明其下界的最优性,并非实证验证。

🔎 结论是否比证明窄

  • 是的。定理 2.1 的证明依赖于 Markov 不等式(Lemma 2.8),这导致了对置信水平 δ 的依赖是 1/√δ,而非经典 DKW 不等式中的 log(1/δ)。作者在 1.5 节明确承认了这一点:“First, the dependence on δ could be improved by replacing the use of Markov’s inequality in Lemma 2.8 with an exponential concentration inequality.” 因此,定理 2.1 中关于 δ 的依赖是次优的,作者将其作为一个开放问题提出。
  • 此外,定理的证明假设了固定再生次数 K,而实践中更常见的是固定样本量 n。作者在 2.1 节提到这两种设定“makes very little difference”,但并未给出从固定 K 到固定 n 的严格转换。这是一个需要读者自行判断的 gap。

四、开放问题

  1. 改进对 δ 的依赖:能否用指数浓度不等式(如 McDiarmid 不等式的扩展,或基于 Stein 方法)来替代 Lemma 2.8 中的 Markov 不等式,从而将上界中的 1/√δ 因子改进为 log(1/δ)扎根于:Section 1.5 和 Lemma 2.8 的证明。
  2. 推广到函数族:能否将结果从单个函数 θ 的 CDF 推广到一族函数 {θ_s}_{s∈S} 的 CDF 的 uniform bound?扎根于:Section 1.5 的讨论:“it is likely that empirical process theory could be used to bound sup_{s∈S} sup_x ...”。
  3. 时间一致性的界:能否得到一个对所有样本量 n 同时成立的界(即 sequential DKW 不等式),类似于 Howard & Ramdas (2022) 对 i.i.d. 情形的结果?扎根于:Section 1.5 的讨论:“we could hope for a bound that is uniform over all possible choices of n”。
  4. 超越再生结构:对于无法构造再生时间的 Markov 链(例如,只有谱隙 bound),能否设计出类似的数据依赖的 DKW 不等式?扎根于:Section 1.5 的讨论:“What can be said about Markov chains for which the a priori convergence bound comes in some other form, such as a bound on the spectral gap?”

Maintained by 陈星宇 · Homepage · Source on GitHub

评论