A data-dependent DKW inequality for regenerative Markov chains¶

作者: Daniel Jerison
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.30866

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是为马尔可夫链的平稳分布函数（CDF）构建非渐近的、可计算的均匀置信带。核心问题是：给定一条马尔可夫链的样本路径，能否给出一个关于 sup_x |ˆπ_n(θ ≤ x) - π(θ ≤ x)| 的、以高概率成立的显式上界？这个上界需要是数据依赖的（empirical/data-dependent），即其主项能从样本路径本身计算，而不依赖于链的收敛速度的先验知识。该方向属于“经验浓度不等式”在依赖数据场景下的推广，其成熟度处于从“存在理论保证”向“实用且紧的界”过渡的阶段。

发展脉络（history）¶

奠基工作：经典 i.i.d. DKW 不等式。Dvoretzky, Kiefer, Wolfowitz (1956) 和 Massart (1990) 给出了 i.i.d. 样本下 sup_x |F_n(x) - F(x)| 的指数型尾概率界，常数被精确化。这是所有后续工作的基准。
主要进展：将 DKW 型不等式推广到依赖数据。Doukhan, Massart, Rio (1995) 等早期工作针对强混合序列建立了经验过程的 invariance principles。Kontorovich & Weiss (2012) 和 Paulin (2015) 分别利用 Markov 收缩和谱方法，为几何遍历的 Markov 链证明了 DKW 型不等式。这些结果提供了理论保证，但上界依赖于链的混合时间（或谱隙）的先验知识，而该知识在实践中往往过于保守或无法获得。
当前 frontier：经验浓度不等式（empirical concentration inequalities）。Maurer & Pontil (2009) 提出了经典的“经验 Bernstein 不等式”，用样本方差替代总体方差，使上界能自适应于数据的实际变异性。Martinez-Taboada & Ramdas (2025) 对其进行了大幅定量改进。Wintenberger (2017) 和 Mirzaei et al. (2025) 将经验 Bernstein 不等式推广到了几何遍历 Markov 链和 β-混合序列。但这些工作都只针对单个期望值 E_π[f] 的估计，而非整个 CDF 的均匀收敛。
本文的位置：本文是第一个将“经验浓度不等式”的思想与“DKW 型均匀界”结合的工作。它针对具有再生结构的 Markov 链，给出了一个数据依赖的 DKW 不等式，其主项完全由样本路径决定，而链的收敛速度（通过 B, γ）仅影响一个低阶项。

子线索聚类¶

经典 DKW 及其改进：Dvoretzky, Kiefer, Wolfowitz (1956); Massart (1990); Reeve (2024)。核心是 i.i.d. 情形下的最优常数和简洁证明。
依赖数据的 DKW 型不等式：Doukhan et al. (1995); Kontorovich & Weiss (2012); Paulin (2015); Glynn & Rhee (2014)。核心是假设链满足某种混合条件（强混合、几何遍历、谱隙），给出依赖于混合参数的上界。
经验浓度不等式：Maurer & Pontil (2009); Martinez-Taboada & Ramdas (2025); Wintenberger (2017); Mirzaei et al. (2025)。核心是构造数据依赖的界（如用样本方差替代总体方差），使界能自适应于数据的实际变异性。本文属于此线索。
Wasserstein 距离下的经验测度收敛：Fournier & Guillin (2015); Bobkov & Ledoux (2019); Boissard (2011); Fournier (2023)。本文在证明中使用了 1-Wasserstein 距离来控制再生时间分布的学习误差，这些文献提供了必要的工具。

这个方向在追问的核心问题¶

如何构造一个“紧”且“实用”的界？ 现有依赖数据的 DKW 界要么依赖于未知的混合参数（过于保守），要么只针对单个期望值而非整个分布。本文试图解决后者。
如何将“经验”思想从期望值推广到整个分布函数？ 对于 CDF，误差来源不仅是均值，还有每个分位点上的偏差。如何将样本路径信息（如再生次数、最大游程长度）转化为对 CDF 的均匀控制？
如何在不依赖强混合假设（如均匀遍历性）的情况下获得近最优的 n 依赖？ 本文通过再生结构，将问题分解为 i.i.d. 块，从而绕开了对链的全局混合速度的依赖，仅需控制再生时间的尾部。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者认为，现有 DKW 型不等式的主要问题是上界依赖于链的收敛速度的先验知识，而这个知识要么没有，要么过于保守。因此，他构造了一个“数据依赖”的界，使得主项 C_1(X, δ) 完全由样本路径决定，从而在链的实际收敛速度远快于理论保证时，能得到更紧的界。他将自己的结果定位为“经验浓度不等式”在 CDF 上的首次应用。
哪些竞争路线被他淡化或回避了：
- 基于谱隙的方法（如 Paulin 2015）：作者在引言中承认这些方法存在，但指出它们需要先验的谱隙信息。他回避了与这些方法在相同假设下的直接定量比较。他的方法需要构造再生时间，这本身就是一个非平凡的任务。
- 均匀遍历性假设：作者在脚注中提到，均匀遍历性可以去掉对数因子，但他没有选择这条路，因为该假设对许多 MCMC 链不现实。
什么明显该被引 / 该存在、却没出现在 intro 里？ 作者没有引用任何关于高维或非参数 Markov 链的 DKW 型结果。这暗示本文目前只处理一维函数 θ 的 CDF，而非更一般的函数空间。这是一个明显的限制，也是未来工作的方向。

张力¶

未见明显对立引用。被引工作之间是互补关系：经典 DKW 是基准，依赖数据的 DKW 是推广，经验浓度不等式是工具，Wasserstein 距离是分析手段。本文是这些线索的汇合。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- (X_t)_{t≥0}: 离散时间 Markov 链，状态空间 X。
- π: 链的平稳分布。
- θ: X → R: 一个可观测的实值函数（我们关心的量）。
- F(x) = π(θ ≤ x): 目标 CDF（我们想估计的东西）。
- ˆπ_n(θ ≤ x) = (1/n) Σ_{t=0}^{n-1} 1{θ(X_t) ≤ x}: 基于样本路径的经验 CDF。
- T_0 = 0, T_1, T_2, ...: ν-再生时间序列。T_k 是第 k 次再生的时刻。
- ν: 再生测度。X_{T_k} ~ ν，且与历史独立。
- W_k = T_k - T_{k-1}: 第 k 个游程的长度（i.i.d. 随机变量）。
- T = T_1: 第一个正再生时间。
- B, γ: 控制 P(T > t) ≤ B e^{-γt} 的常数（先验知识）。
- K: 固定的再生次数（我们决定跑多少个游程）。
- n = T_K: 第 K 次再生时的总步数（随机变量）。
- M = max(W_1, ..., W_K): 观测到的最大游程长度。
- m_j = #{1 ≤ k ≤ K: W_k > j}: 长度超过 j 的游程个数。
- π_j(·) = P(X_j ∈ · | T > j): 给定游程长度超过 j 的条件下，第 j 步的条件分布。
- q_j = P(T > j) / E[T]: 平稳分布中，链处于“距上次再生 j 步”的状态的长期比例。
模型：
- 数据生成机制：一个具有再生结构的 Markov 链 (X_t)。这意味着存在一个序列的随机时间 T_k，使得链在这些时间点“重置”到由测度 ν 独立抽取的状态上。因此，链的样本路径被分割成一系列独立同分布（i.i.d.）的游程 (X_t)_{T_{k-1} ≤ t < T_k}。
- 已知条件：我们已知 B 和 γ 的值，使得 P(T > t) ≤ B e^{-γt}。这是唯一的先验知识。
- 要估的对象：平稳分布 π 下 θ 的 CDF，即 F(x)。
可观测数据：
- 可观测：我们能看到整个样本路径 (X_0, ..., X_{n-1})，并且能识别出每个再生时间 T_k 的位置（通过事先选好的小集 A 和抛硬币机制）。因此，我们能计算出 K, n, M, m_j，以及每个游程内的样本。
- 不可观测 / 潜在：平稳分布 π 本身、再生时间 T 的真实分布、条件分布 π_j 都是未知的。我们只能通过样本路径去推断它们。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：假设游程长度 W_k 是有界的，即 P(W_k > L) = 0 对某个已知的 L 成立。在这个特例下，B 和 γ 可以取为 B=1, γ=∞（或等价地，P(T > t) = 0 对 t ≥ L），且 M ≤ L。

在这个特例下，问题退化成什么？

分解：由于最大游程长度 M ≤ L，我们最多只需要考虑 j = 0, 1, ..., L-1 这 L 个“位置”。平稳分布 π 可以精确地写为 L 个条件分布 π_j 的加权平均：F(x) = Σ_{j=0}^{L-1} q_j π_j(θ ≤ x)。经验 CDF 也可以写成：ˆF(x) = Σ_{j=0}^{L-1} (m_j / n) ˆF_j(x)，其中 ˆF_j 是基于 m_j 个 i.i.d. 样本（来自 π_j）的经验 CDF。
误差分解：由 Lemma 2.3，总误差被分解为两部分： sup_x |ˆF(x) - F(x)| ≤ Σ_j (m_j/n) * sup_x |ˆF_j(x) - π_j(θ ≤ x)| + Σ_j |m_j/n - q_j|
- 第一项：学习每个 π_j 的误差。由于 ˆF_j 基于 i.i.d. 样本，我们可以对每个 j 应用经典的 DKW 不等式。
- 第二项：学习游程长度分布的误差。m_j/n 是经验权重，q_j 是真实权重。这个误差可以通过控制 W_1 的经验分布与真实分布之间的 1-Wasserstein 距离来 bound。
为什么这个特例是“最小内核”？
- 去掉了尾部风险：在有界游程长度下，M 是确定的，m_j 的分布是多项分布，没有“长尾游程”带来的不确定性。这使得证明中处理 Σ_{j≥M} 的部分（Lemma 2.7）完全消失。
- 核心思想清晰可见：即使在这个简化设定下，本文的核心思想——利用再生结构将依赖数据问题分解为多个 i.i.d. 子问题——已经完整呈现。第一项用经典 DKW，第二项用 Wasserstein 距离控制分布学习误差。
- 一般情形的“加壳”：当游程长度无界时，我们不知道 M 的上界。这时，我们需要处理 j ≥ M 的尾部项。Lemma 2.7 的作用就是利用先验的指数衰减界 P(T > t) ≤ B e^{-γt} 和观测到的最大游程 M，来 bound 这些尾部项对 Wasserstein 距离的贡献。这就是一般情形下额外增加的“壳”。

一句话总结：本文在数学上干的事是：利用再生结构，将 Markov 链的 CDF 估计问题分解为一系列 i.i.d. 子问题（每个 j 对应一个条件分布 π_j），然后用经典 DKW 控制每个子问题的估计误差，并用 1-Wasserstein 距离控制子问题权重的学习误差，最后用先验的指数衰减界来处理游程长度的尾部不确定性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：为具有再生结构的 Markov 链的平稳分布函数 F(x) = π(θ ≤ x) 构建一个数据依赖的、非渐近的均匀置信带。
核心工具 / 方法：利用再生结构将链分解为 i.i.d. 游程，将 CDF 分解为条件分布 π_j 的加权平均，然后分别用经典 DKW 不等式和 1-Wasserstein 距离控制条件分布和权重的估计误差。
主要结论：定理 2.1 给出了一个显式的上界，其主项 (log n)/√n * C_1(X, δ) 完全由样本路径决定（通过 M, m_j），而链的收敛速度（B, γ）仅影响一个低阶项 (log n)/n * C_2(B, γ, δ)。

关键设定与假设¶

设定：
- (X_t) 是离散时间 Markov 链，具有平稳分布 π。
- 存在一个概率测度 ν 和一系列 ν-再生时间 0 = T_0 < T_1 < T_2 < ...，使得游程 (X_t)_{T_{k-1} ≤ t < T_k} 是 i.i.d. 的。
- 链从 X_0 ~ ν 开始（即从一次再生开始）。
假设：
- 再生结构存在：这是最关键的假设。它要求我们能构造出再生时间。作者在 1.1 节描述了通过“小集”（small set）和“漂移函数”（drift function）来构造的标准方法。这个假设限制了应用范围——并非所有 Markov 链都容易找到小集。
- 指数衰减的游程长度尾部：P(T > t) ≤ B e^{-γt}，其中 B, γ > 0 是已知常数。这等价于链是几何遍历的，但作者指出这比几何遍历性弱（不要求非周期性）。这个假设提供了处理长尾游程所需的先验信息。
- 与已有文献的对比：相比 Kontorovich & Weiss (2012) 和 Paulin (2015) 的假设（需要知道谱隙或混合时间），本文的假设更侧重于可构造性（再生结构）而非全局混合速度。本文的假设允许链有很慢的混合，只要再生时间尾部是指数衰减的。

主要结果¶

定理 2.1：这是本文的核心定理。它给出了一个以概率至少 1-δ 成立的显式上界。上界由两部分组成：
1. 数据依赖的主项： (1/√(2n)) * Σ_{j=0}^{M-1} √[(m_j/n) * log(6n/(δ m_j))] ∧ (2m_j^2/n) + (√K / n) * (M / √(δ/3)) 这部分完全由样本路径计算出的 K, n, M, m_j 决定。它对应着学习每个条件分布 π_j 的误差（通过 DKW）和学习游程长度分布的误差（通过 Wasserstein 距离的均值 bound）。
2. 依赖于先验知识的低阶项： (2 / (n √(δ/3))) * [ (log(BK)/γ) * √(log(3/δ)) + 1/(1 - e^{-γ/2}) ] 这部分依赖于 B 和 γ。它对应着处理游程长度尾部不确定性所需的代价。
定理的直觉：主项是“经验”的，它反映了样本路径实际展现出的混合行为（通过 M 和 m_j 体现）。如果链混合得很快（游程短，M 小），主项就会很小。低阶项是“理论”的，它是对我们无法观测到的长尾游程的一种保险，其大小由先验的指数衰减界决定。
必要条件：需要 K 足够大，使得 log(BK)/γ 项有意义。作者在 2.1 节分析了上界的形式，并论证了低阶项在 log(BK)/γ ≥ 1 时具有最优的 n 和 B, γ 依赖。
解决的技术难点：如何将 Wasserstein 距离的均值 bound（Lemma 2.6）转化为一个高概率 bound。作者承认无法直接应用现有的指数浓度不等式（如 McDiarmid 不等式的扩展），因此退而求其次，使用了 Markov 不等式（Lemma 2.8），这导致了对 δ 的依赖是 1/√δ 而非 log(1/δ)，这是本文的一个主要弱点。

证明路线与技术技巧¶

整体路线：
1. 分解误差（Lemma 2.3）：将总误差 sup_x |ˆF - F| 分解为“学习每个条件分布 π_j 的误差”和“学习游程长度分布权重的误差”。
2. 控制条件分布误差（Lemma 2.4）：对每个 j，ˆF_j 基于 m_j 个 i.i.d. 样本。用经典 DKW 不等式和 union bound，以概率 1-δ/3 控制所有 j 的误差之和。
3. 控制权重误差（Lemma 2.5）：将权重误差 Σ_j |m_j/n - q_j| 与经验分布 ˆp 和真实分布 p 之间的 1-Wasserstein 距离 W_1(ˆp, p) 联系起来。
4. bound Wasserstein 距离的均值（Lemma 2.6 & 2.7）：利用 m_j ~ Binomial(K, P_j) 的性质，将 E[W_1^2] 的上界转化为 Σ_j √[P_j(1-P_j)] 的和。将这个和拆分为 j < M 和 j ≥ M 两部分。j < M 部分用 M/2 平凡 bound。j ≥ M 部分利用“最大游程 M 意味着 P_M 很小”这一事实（Lemma 2.7 的证明），结合指数衰减界 P_j ≤ B e^{-γj}，得到 bound。
5. 从均值 bound 到高概率 bound（Lemma 2.8）：对非负随机变量 Z = W_1(ˆp, p)，用 Markov 不等式得到 Z ≤ √(E[Z^2]) / √(δ/3) 以概率 1-δ/3。
6. 合并：将步骤 2、3、4、5 的结果通过 union bound 合并，得到定理 2.1。
关键跳跃点：
- 从 E[W_1^2] 到高概率 bound：这是证明中最“吃劲”的地方。作者承认无法使用更紧的指数浓度不等式（如 McDiarmid 的扩展），因为 W_1 作为 K 个 i.i.d. 游程长度的函数，其差分的界依赖于游程长度本身，难以控制。他选择使用 Markov 不等式，这导致了对 δ 的依赖是 1/√δ，而非更优的 log(1/δ)。这是一个明显的技术妥协。
- 处理尾部 j ≥ M：Lemma 2.7 的证明巧妙地结合了“观测到的最大游程 M 意味着 P_M 很小”这一概率论事实和先验的指数衰减界。它用 1/K * log(3/δ) 来 bound P_M，然后用指数衰减界来 bound 更远的 P_j，从而将无穷级数截断为有限项。
技术技巧点名：
- 经典 DKW 不等式：用于控制每个 i.i.d. 子问题（ˆF_j 对 π_j）的误差。
- 1-Wasserstein 距离：作为衡量两个离散分布（游程长度）差异的度量，其 L1 形式 Σ_j |ˆP_j - P_j| 与权重误差 Σ_j |m_j/n - q_j| 自然关联。
- 二项分布方差：Var(ˆP_j) = P_j(1-P_j)/K，用于 bound E[W_1^2]。
- Markov 不等式：用于将二阶矩 bound 转化为高概率 bound，这是本文的一个弱点。
- Jensen 不等式：用于简化数据依赖主项的形式（Lemma 2.2）。

真实例子与应用¶

本文为纯理论 / 无实证例子。论文没有包含任何模拟实验或真实数据应用。作者在 1.5 节“讨论”中提到了一个 bimodal 的例子，但仅用于说明其下界的最优性，并非实证验证。

🔎 结论是否比证明窄¶

是的。定理 2.1 的证明依赖于 Markov 不等式（Lemma 2.8），这导致了对置信水平 δ 的依赖是 1/√δ，而非经典 DKW 不等式中的 log(1/δ)。作者在 1.5 节明确承认了这一点：“First, the dependence on δ could be improved by replacing the use of Markov’s inequality in Lemma 2.8 with an exponential concentration inequality.” 因此，定理 2.1 中关于 δ 的依赖是次优的，作者将其作为一个开放问题提出。
此外，定理的证明假设了固定再生次数 K，而实践中更常见的是固定样本量 n。作者在 2.1 节提到这两种设定“makes very little difference”，但并未给出从固定 K 到固定 n 的严格转换。这是一个需要读者自行判断的 gap。

四、开放问题¶

改进对 δ 的依赖：能否用指数浓度不等式（如 McDiarmid 不等式的扩展，或基于 Stein 方法）来替代 Lemma 2.8 中的 Markov 不等式，从而将上界中的 1/√δ 因子改进为 log(1/δ)？扎根于：Section 1.5 和 Lemma 2.8 的证明。
推广到函数族：能否将结果从单个函数 θ 的 CDF 推广到一族函数 {θ_s}_{s∈S} 的 CDF 的 uniform bound？扎根于：Section 1.5 的讨论：“it is likely that empirical process theory could be used to bound sup_{s∈S} sup_x ...”。
时间一致性的界：能否得到一个对所有样本量 n 同时成立的界（即 sequential DKW 不等式），类似于 Howard & Ramdas (2022) 对 i.i.d. 情形的结果？扎根于：Section 1.5 的讨论：“we could hope for a bound that is uniform over all possible choices of n”。
超越再生结构：对于无法构造再生时间的 Markov 链（例如，只有谱隙 bound），能否设计出类似的数据依赖的 DKW 不等式？扎根于：Section 1.5 的讨论：“What can be said about Markov chains for which the a priori convergence bound comes in some other form, such as a bound on the spectral gap?”

Maintained by 陈星宇 · Homepage · Source on GitHub