Catoni-type Confidence Sequences under Infinite Variance¶

作者: Guanhua Fang, Sujay Bhatt, Ping Li, Gennady Samorodnitsky
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.5705/ss.202024.0249

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是序列统计推断中最核心的工具之一——置信序列（Confidence Sequences）。置信序列是一组随时间更新的置信区间，其关键性质是“任意停时有效性”（any-time validity）：无论数据收集过程何时停止，根据该序列给出的置信区间都包含真实参数的概率不低于预设的置信水平。这与经典固定样本量的置信区间不同，后者仅在预设的样本量下保证覆盖。该方向的核心统计问题在于：如何为均值参数构造宽度尽可能窄、且能在任意停时下有效覆盖的序列化置信区间，尤其是在数据生成分布的矩条件很弱（如方差不存在）时。

该子方向近年来非常活跃，尤其是重尾分布下的稳健方法。本论文的工作将置信序列从有限方差（p=2）情形的成熟理论，拓展到仅有有界p阶矩（1<p<2）的无限方差情形，填补了该领域的关键空白。

发展脉络（history）¶

奠基工作——Catoni 与重尾下的稳健估计（2012）: Catoni (2012) 的开创性工作提出了一种稳健的均值估计器，通过引入一个指数上界（a soft truncation via an exponential link），实现了对仅有有界p阶矩的重尾分布均值的最优（minimax）估计。该方法的核心理念是：给定一个有界p阶矩的分布，可以构造一个估计量，使其以高概率聚集在真实均值附近，聚集速度为 \(O(n^{-(p-1)/p})\)，这与信息论下界匹配。这为后续重尾分布的置信区间理论奠定了方法基础，但Catoni的工作主要针对固定样本量。
主要进展——置信序列的统一框架（Howard et al., 2021）: Howard et al. (2021, Time-uniform, self-normalized concentration via Ville's inequality) 是现代置信序列理论的系统性构建者。他们利用 Ville 不等式（用于连续时间鞅的不等式，是序列分析的基石）将概率论的浓度不等式转化为时间均匀的置信序列。他们为有限方差、亚高斯乃至指数族分布提供了简洁而紧的置信序列构造。但他们明确将“无限方差”的情况作为开放问题。Ville不等式要求对象是一个非负鞅（或上鞅），Howard等人的构造依赖于指数鞅，这通常要求矩母函数（MGF）存在，而重尾分布（p<2）的MGF是无穷的。
当前Frontier——不等式技巧的多样化：由于Howard的指数鞅框架失效，向无限方差的拓展转而依赖其他不等式。Dubins-Savage 不等式是一种通用的重尾序列不等式，但其界相对保守。Bercu et al. (2015, Adaptive Robust Estimation of the Mean and the Covariance Matrix with Minimax Rate) 等的工作开始尝试结合Catoni估计与序列分析，但效果有限。本论文正是从这一缺口切入。
本文的位置：本文直接面对上述缺口。它证明了：传统的基于Ville不等式的Catoni型置信序列在p∈(1,2)时存在统计局限性，其界不能通过单纯优化Ville不等式线上的Catoni估计量来改进。然后，它引入拼接（stitching）方法，通过在不同时间尺度上应用不同参数的Catoni估计量，最终构造出与信息论下界（论文推出的下界）匹配的更紧密的置信序列。

子线索聚类¶

稳健均值估计（Robust Mean Estimation）：这一簇主要关注如何设计单个（固定样本量）的估计量，使其对重尾分布有最优的收敛率。核心方法包括Catoni型估计量（基于引理函数的截断）、中位数-of-均值（Median-of-Means）等。本论文的Catoni型置信序列直接借用这一簇的估计量构造，并对其进行序列化改造。
序列置信区间的构造与不等式：这一簇关注如何利用序列不等式（Ville, Dubins-Savage, 自正则化等）来获得时间均匀的频次保证。主要工作包括Howard et al. (2021) 的统一框架，以及针对特定族的改进（如对拟亚高斯族）。本论文属于这一簇，并尝试将不等式工具扩展到重尾情形。
重尾与无限方差的序列推断：这是一个更小的前沿子簇，直接论述方差不存在时的无先验停时推断。相关工作较少，主要依赖Dubins-Savage不等式，但界很松。本论文的核心贡献就是改进并在这个子簇中建立了更紧的界。

这个方向在追问的核心问题与瓶颈¶

如何识别（identify）任意停时？ - 核心是时间均匀的概率控制，这是一个序列假设检验的“长臂管辖权”问题。经典方法要求构造一个非负鞅（或上鞅），这限制了其适用性。
在重尾下如何获得亚高斯式的浓度？ - 方差有限时，中心极限定理和Hoeffding类界提供了亚高斯速度（\(O(\sqrt{\log(1/\delta)/n})\)）。当只有p阶矩存在时，最佳收敛速度是多项式型的 \(O(n^{-(p-1)/p})\)，这是一个本质性的“减速”。
不等式工具的天花板：对于重尾分布，Ville不等式路线是否能构造出匹配信息论下界的置信序列？下界的形式是什么？本文直接部分回答了这个问题，揭示了Ville不等式路线的统计局限性。
何时需采用拼接方法？ - 当单个平滑度参数的Catoni估计量无法在所有时间尺度上同时最优时，拼接成了弥补理论界与实际限制之间的关键桥梁。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者的缺口 frame：作者将缺口精确 frame 为：“利用Ville不等式 + Catoni估计量推导p∈(1,2)情形的置信序列，并且发现上界与下界之间存在系统性差距，然后引入拼接方法来弥合这一差距。” 他们把自己的工作定位为“比 vanilla Dubins-Savage 不等式更紧的界”和“拼接方法可以弥合Ville路线上的差距”。
被淡化/回避的竞争路线：作者提及了Dubins-Savage不等式（他们的方法界更紧），但没有对比中位数-of-均值（MoM） 路线。MoM在重尾均值估计中同样很出色，它也可以被序列化吗？作者既没有讨论MoM的序列化难度，也没有对比MoM界的紧密性。这是否意味着MoM在序列设置下有难以克服的弱点（比如，中位数过程不是鞅）？
缺失的引用或讨论：（值得研究者去查的问题）Bercu et al. (2015) 的被引，摘要强调“具有p阶矩的最小最大率”的自适应算法，文献中是否有结合MoM和序列分析的工作？作者对Howard等人的框架有继承，但没有任何关于最小假设（例如只需1阶矩或“尾部指数α<1”）的置信序列的讨论。是否确实需要矩条件？对于分布“重”到连矩都不存在的柯西分布，是否有可能构造实用置信序列？

张力¶

未见明显对立引用。现有工作主要在“更容易处理的矩条件（如次高斯/有限方差）”与“更困难的重尾条件（只有有限p阶矩）”之间自然分化。作者的结论是推进而非推翻。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(X_1, X_2, \dots\) ：可观测的独立同分布（i.i.d.）随机样本。
- \(\mu = \mathbb{E}[X_i]\)：感兴趣的参数（总体的期望均值）。
- \(p \in (1, 2]\)：矩参数。分布有界p阶矩，即 \(\mathbb{E}[|X_i|^p] < \infty\)。当 \(p<2\) 时，方差 \(\text{Var}(X_i) = \mathbb{E}[(X_i-\mu)^2] = \infty\)。
- \(v_p\)：有界矩的界值，即 \(\mathbb{E}[|X_i|^p] \leq v_p\)。
- \(t\)：时间指标（当前样本量）。
- \(\delta \in (0,1)\)：目标显著性水平（错误的覆盖概率）。
- \(\mu_t := \sum_{i=1}^t X_i / t\)：样本均值。
- \(\hat{\mu}_t^{(Catoni)}\)：Catoni型稳健均值估计量。
- \(CI_t\)：在时间 \(t\) 发布的置信区间。
- \(\rho\)：Catoni估计量中的调整参数或影响函数的缩放因子。
模型：
- 数据生成机制：数据 \(X_1, \dots, X_t \sim F\)，一个分布族 \( \mathcal{F}_p(v_p) \)，其中 \(F\) 满足 \(\mathbb{E}_F[|X|^p] \leq v_p\) 且 \(\mathbb{E}_F[X] = \mu\)。这是重尾分布的一种半参数设定：尾部衰减如幂律 \(P(|X| > x) \propto x^{-p}\)。
- 要估的对象：\(\mu\)，即总体的均值。这是最经典但也是最基础的一个一维参数。
可观测数据：
- 实际能观测到：样本流 \(X_1, X_2, \dots, X_t, \dots\)，每个时刻t我们已知前面所有t个数据点。
- 观测不到的 / 需要假设：矩界 \(v_p\) 是不可观测的。需要事先假定它存在或有合理的上界。此外，p本身是已知先验参数？这在实际中通常要猜测。但论文将此作为已知前提。
- 关键区分：我们想要保证的是：对于任意停时 \(\tau\)（可能是由数据驱动的任意停止规则），置信区间 \(CI_\tau\) 包含 \(\mu\) 的条件概率 \(P(\mu \in CI_\tau) \geq 1-\delta\)。这比固定样本量的“边际”覆盖要强得多。

第二步：讲最小内核¶

最简特例：不妨设 \(p=1.5\)，\(\mu = 0\)， \(v_{1.5}=1\)。数据来自一个对称稳定性分布，具有无穷方差但有限1.5阶矩。我们的目标：构造一个置信序列 \( \{ CI_t \}_{t \ge 1} \) 使得在任何数据驱动的停止时间 \(\tau\)，都有 \(P(0 \in CI_\tau) \ge 0.95\)。
1. Catoni 估计量的构造：对于时间点 \(t\)，引入一个缩放参数 \(\rho_t > 0\)。Catoni 估计量 \(\hat{\mu}_t\) 是通过求解一个关于 \(\mu\) 的方程得到的，该方程旨在控制一个指数型上界。最直白的构造是用一个引理函数 \(\psi(x) = \min\{\text{sign}(x) |x|^{\alpha}, 1\}\) 进行截断，但Catoni (2012) 使用了一个更光滑的函数，其核心是：
  \[\sum_{i=1}^t \psi(\rho_t (X_i - \hat{\mu}_t)) = 0\]
  其中 \(\psi(x)\) 是凸的且满足 \(\psi(-x) = -\psi(x)\)，且 \(\psi'(0)=1\)。在这个特例中，关键想法是选择 \(\rho_t\) 与 \(t^{-1/p}\) 成正比（比如 \( \rho_t \propto t^{-2/3}\)），以确保以下界成立：
  \[P\left( \sum_{i=1}^t \psi(\rho_t X_i) > t \cdot \delta' \right) \le \delta\]
  更关键是，它能证明 \(\hat{\mu}_t\) 以高概率 \(1-\delta\) 被限制在 \([-C (t^{-(p-1)/p}), C (t^{-(p-1)/p})]\) 内，其中 \(C\) 依赖于 \(v_p, p\) 和 \(\delta\)。这正是Catoni的稳健估计令人惊讶地高效之处：尽管只有1.5阶矩，它仍能以 \(O(t^{-1/3})\) 的多项式速度聚集，而样本均值可能发散。
2. 从固定样本到序列 (Ville 不等式)：固定样本量的浓度界 \(P(|\hat{\mu}_t| > \epsilon_t) \le \delta\)，可以通过Boole's inequality转化为家族式的联合界，但对任意停时失效。Ville不等式要求我们构建一个非负上鞅（super-martingale）\(M_t\)，使得 \(\sup_{t > 0} M_t\) 的概率控制可以用来推导序列置信下界。作者的关键发现是：对于上文定义的Catoni型估计量，通过适当定义如下鞅：
  \[M_t = \prod_{i=1}^t \frac{\exp\left( \lambda \psi(\rho_i X_i) \right)}{\mathbb{E}[\exp(\lambda \psi(\rho_i X_i))]}\]
  为方便推导，对于形状合适的\(\psi\)（比如其指数矩有界），可以证明\(\mathbb{E}[\exp(\lambda \psi(\rho_i X_i))] \le \exp(C \lambda^2 \rho_i^2 v_p)\)，从而可以放缩并得到一个容易处理的指数鞅。然后利用Ville不等式：
  \[P\left( \sup_{t\ge0} M_t \ge 1/\delta \right) \le \delta\]
  反解即可得到一个在任意停时都有效的置信区间。
3. 核心思路产出：在这个 \(p=1.5\) 的特例下，核心思路就是三点：① 利用Catoni引理函数来“驯服”重尾、并获得多项式型尾部界；② 将Catoni估计量嵌入到指数形式的鞅中，使得其上鞅性质可以通过条件矩控制；③ 对随t变化的调整参数\(\rho_t\)做分段（拼接）优化，而不是用固定速率，从而做到随时间推移充分收紧。论文的一般情形只是将该特例的 \(p\) 推广到 (1,2]区间、并将尾部界显式写成含参数的形式，而没有根本性的困难变动。

三、这篇论文做了什么¶

三句话¶

研究的问题：构建当分布方差不存在（即仅存在有界p阶矩，1<p<2）时，关于均值的任意停时有效置信序列。
核心工具/方法：采用Catoni型稳健估计量作为鞅的核心构件，利用Ville不等式推导序列置信界；对于其统计局限性，进一步采用拼接（stitching）方法对Catoni估计量的调整参数进行时间动态调整，以弥合理论上下界。
主要结论：① 推导了Ville不等式下的Catoni型置信序列，其宽度比基于vanilla Dubins-Savage不等式的置信序列更紧；② 建立了该类型置信序列宽度的下界（对于任意固定的调整参数\(\rho\)），揭示了单纯靠Ville不等式技术的统计天花板；③ 通过拼接方法构造了可达的下界匹配的置信序列。

关键设定与假设¶

假设1（有界矩）：存在常数 \(v_p > 0\) 和 \(p \in (1, 2]\)，使得 \(\mathbb{E}[|X_i - \mu|^p] \le v_p\)。本文关注的核心区域是 \(p \in (1, 2)\)，此时方差无穷。p=2是已知有限方差的边角情况。
假设2（Catoni函数性质）：存在一个函数 \(\psi: \mathbb{R} \to \mathbb{R}\)，满足：
- \(\psi\)单调递增，奇函数，且\(\psi'(0) = 1\)。
- \(\psi(x) \le \log(1 + x + x^2/2)\) 对某正\(x\)成立。这是为了获取指数矩界。作者采用了Catoni(2012)的经典选取，并用其性质保证：存在常数\(c_1, c_2\)，使得 \(\mathbb{E}[\exp(\lambda \psi(Z))] \le \exp(c_1 \lambda^2 \mathbb{E}[Z^2]/2 + c_2 \lambda^p \mathbb{E}[|Z|^p])\)。这个条件允许分解出“优良的亚高斯部分”和“重尾幂律尾部部分”。
假设3（独立同分布）：样本 \(X_1, X_2, \dots\) 是i.i.d.的。这一假设对于鞅构造和矩条件是标准的。
相对已有文献的放宽/强化：这个设定是放宽：经典的置信序列要求二阶矩甚至MGF存在，本文只需p阶矩（p<2）。但也是对Catoni（2012）的强化：Catoni的原始结果是针对固定样本量，本文将其序列化。

主要结果¶

定理1（下界——Ville不等式路线的局限性）：
- 陈述：对于任何一个通过Ville不等式（非负鞅方法）构造的、利用固定参数\(\rho\)的Catoni型置信序列，其预期宽度（更技术地，在某个特定signal-to-noise scale下）不能快于\(O(t^{-(p-1)/p})\)。
- 直觉/条件：\(p\in(1,2)\)。证明依赖于构造一个“最坏情况”的分布族，该分布族满足p阶矩有界。证明思路是构造一个复合鞅，证明寻求更紧界的任何非负鞅都必须以特定的polynomial速度衰减，从而导致区间宽度有下界。
- 解决的技术难点：揭示了单纯利用Ville不等式和在每一时间点对Catoni估计量做优化无法得到信息论最优的、与t相关的最佳多项式速率。下界证明了这会遇到类似于“constant design matrix”中的信息结构问题，导致一个固定的统计能力瓶颈。
定理2（拼接方法的上界——可达成更好下界）：
- 陈述：存在一个“拼接”后的Catoni置信序列，其宽度能以\(O(t^{-(p-1)/p} \cdot \text{polylog}(t))\)的速度收缩，这匹配(匹配至对数项)了定理1的下界。
- 方法：拼接的核心是将整个时间轴切割成块，例如“几何增长块”：时间点 \(t_{k} = \lfloor (1+\eta)^k \rfloor\)，其中\(\eta>0\)。在每一块内（或每几个块），Caton估计量使用一个不同的、被优化过的调整参数（依赖于该块的时间标度）。关键是在不同块之间使用Bonferroni校正或Ville不等式对不同块作联合控制（例如，为每块分配独立的显著性预算\(\delta_k = \delta/k(k+1)\)之类的）。但论文用了更巧妙的方法：利用一个能在“所有时间点”同时成立的修正切线法。
- 解决的技术难点：不同时间点Catoni估计量的“参数”是常数是不行的；现在需要随时间改变\(\rho_t\)，但直接对每个t做定制的独立估计会违反鞅的重整化。作者巧妙地将拼接方法作为一个通过不同\(t\)的变量解码来联合界定的工具，维持鞅性质。

证明路线与技术技巧¶

整体路线：
1. 鞅的构造：对于每个时间点\(t\)，基于Catoni引理函数定义一个指数型鞅 \(M_t = \prod_{i=1}^t \exp(\lambda \psi(\rho_i X_i)) / \mathbb{E}[...]\)，其中\(\lambda\)和\(\rho_i\)待定。主要的繁重工作在于界 \(\mathbb{E}[\exp(\lambda \psi(\rho_i X_i))]\)。利用假设2的“亚高斯+幂律尾部”分解，他们能证明 \(\mathbb{E}[\exp(\lambda \psi(\rho_i X_i))] \le \exp(\rho_i^2 \lambda^2 C_1 + \rho_i^p |\lambda|^p C_2)\)。
2. 解密不等式：对鞅应用Ville不等式，得到序列不等式：\(P(\sum_i \log(...) > log(1/\delta)) \le \delta\)。通过把指数矩对数移到另一边，反解出关于\(\sum_i X_i/t\)的约束，从而得出一个置信区间。
3. 优化参数\(\rho\)：如果全时间轴用单一的、固定的\(\rho\)，那么对于所有\(t\)，界的形式是常数——这意味着当\(t\)增大时，该区间不会收缩（只有一项与t无关的偏差项）。这就导致了Ville不等式路线的下限不可能随时间收缩。定理1下界正式化这一观察。
4. 拼接方法的引入：为了克服“固定\(\rho\)无收缩”的弱点，需要让\(\rho_i\)随着\(i\)增加而递减。论文采用了“拼接”该链：将时间轴分为\(n_k\)段（例如几何增长的块）。在每一段\([B_k, B_{k+1})\)，令\(\rho_i\)为一个常数\(\rho_k\)（与块索引k相关）。这问题的代价是不同块之间的依赖——由于Catoni鞅不能自然跨块成为鞅。解决方案是在每个块内构造独立的Ville控制，然后使用一个并集的Bonferroni校正来保证所有块的同时有效性，或者沿袭更巧妙的“时间-参数双扫描”技术。
关键跳跃点：整个证明中，最难的点在于Linking: 将传统固定样本的Catoni指数界与“连续鞅”的Ville正确性粘合。论文需要非常严谨地证明，通过适当的参数缩放，放缩后的指数鞅仍然是一个上鞅——这涉及到对\(\rho_i\)和\(\lambda\)的联合选择。另一个困难是“拼接”的不同块之间的概率叠加：如果直接平方所有显著性水平，会导致界退化。
技术技巧点名：
- Catoni型上界：反复使用幂律矩的Taylor型展开，使用其所定义的\(\psi\)函数限制指数矩。这是一种经典的“去指数-截断”技术。
- Ville不等式：用于对所有时间的联合概率做控制。它比简单的马尔可夫不等式更强，因为\(\sup_{t \ge 0} M_t\)被纳入。
- 拼接/几何时间块：用于实现时间自适应。本质上将无限时间轴划分成许多段，在每一段应用一个固定参数的Catoni估计，并用Bonferroni或Ville自身进行多重比较校正。
- Dubins-Savage不等式：作为基线对比对象。

真实例子与应用¶

本文为纯理论 / 无实证例子。方法和结果的展示完全是数学推导和不等式比较，未提供任何关于真实数据或模拟研究的结果。这使得实用性部分待检验，但数学严谨性是其核心。论文末：只说明了方法“可以便捷应用于风险控制和参数估计问题”，没有放任何模拟/应用。

🔎 结论是否比证明窄¶

潜在的过度claim?：当作者写“The derived results are shown to be better than confidence sequences obtained using vanilla Dubins-Savage inequality.”——这里的“better”仅指其推导出的上界更紧，且仅在理论比较下成立。并没有证明在所有实际数据设置(如混合分布、具厚尾但高概率有界值等)下，其闭合形式的置信区间一定优于Dubins-Savage。此外，“stitching methods”被声称能‘弥合差距’，但那是指上界与下界之间的理论差距——界限都带对数因子，实际中这个对数因子在有限样本下到底意味着多少程度的改进是未知的。
有不必要的假设吗：在推导下界时，使用的是“最坏情况”分布。在这种对抗性(pessimistic)数据下界下，任何置信序列或方法都必须达到一定多项式速率。但是现实中的数据集可能展现出更好的结构（如重尾但具有更紧的维纳条件），因此定理1的下界在实际中可能不是紧的局限。但这不是论文的过错，这是理论下界固有的保守性。

四、开放问题¶

自适应识别矩参数\(p\)和矩界\(v_p\)：本论文将\(p\)和\(v_p\)视为已知参数。一个重要的开放问题是：当\(p\)和\(v_p\)未知时，如何在不显著损失效率的前提下，自适应地构造在任意停时有效的置信序列？ 是否可能通过一个两层自适应过程，先在线估计\(p\)，再将其代入论文框架？（扎根于论文末尾的总结：“Our results rely on prior knowledge of the p-th moment bound…” 等未来工作方向。）
匹配对数因子的去除：定理2的拼接上界与定理1的下界之间只差对数因子 \(\text{polylog}(t)\)。是否可以完全消除这个对数因子，达到精确 \(O(t^{-(p-1)/p})\) 的宽度？ 还是说这个对数因子是拼接方法固有的成本？（扎根于拼接界本身带对数项的事实，以及定理1证明的“纯Ville路线”的定性限制——拼接已经比它更优，但未达到常数最优。）
扩展到更一般的参数的均值：本论文完成了均值的序列置信区间。关键的扩展是：能否对此框架进行推广，构造线性泛函、U-统计量或半参数模型参数的序列置信序列？ 例如，能否将Catoni + Ville技巧应用于带高维协变量的回归系数，或应用于更复杂的因果参数（如ATE）的序列检验？（扎根于论文引言只限于“均值和参数估计”，但同时文献中U-统计量等的序列推理是空白的。）
停时依赖更复杂的序列或非i.i.d.情境：本文假设i.i.d.。一个更大的开放问题是：对于非平稳时间序列（如具有相互依赖或波动性的金融收益），Catoni型置信序列是否依然能实现任意停时有效性？ 要求是否可以放松，或者需要引入新的序列自正则化技术？（基于论文假设3 – i.i.d.，以及Howard et al. 最初的方法正是从i.i.d.扩展到某些依赖结构的。）

Maintained by 陈星宇 · Homepage · Source on GitHub