Yurinskii’s coupling for martingales¶

作者: Matias D. Cattaneo, Ricardo P. Masini, William G. Underwood
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2538

核心问题与动机¶

本文要解决的是高维相依数据下非渐近分布逼近的统计学问题。Yurinskii 耦合是数学统计与概率论中进行非渐近分布分析（即构造高斯强逼近并给出显式误差界）的重要理论工具。其重要性在于：在样本量与维度共同增长时，传统中心极限定理（CLT）往往失效或难以给出有限样本保证，而 Yurinskii 耦合能在易验证的条件下提供显式的误差界。已有方法的不足在于：经典 Yurinskii 耦合仅适用于独立向量的 $\ell_2$ 范数；近年虽有向 $\ell_p$ 范数（$1 \le p \le \infty$）或鞅序列的 $\ell_2$ 范数推广，但均要求极强的条件，极大限制了其在时间序列、高维统计等实际相依数据场景中的应用。

主要贡献¶

放宽条件的 $\ell_p$ 范数鞅耦合：首次在 $\ell_p$ 范数下建立了近似鞅的 Yurinskii 耦合，条件相比现有文献大幅减弱。
高斯混合分布逼近：将逼近的目标分布从纯高斯分布扩展到更一般的高斯混合分布，提升了方法的灵活性。
三阶耦合方法：提出了一种新颖的三阶耦合技术，在特定设定下能够给出比传统二阶方法更紧的逼近误差界。
鞅经验过程的均匀强逼近：推导了鞅经验过程的均匀高斯混合强逼近。
统计方法论应用：将理论应用于非参数分块回归与局部多项式回归，以及高维鞅向量的中心极限定理。

方法框架¶

模型设定：考虑近似鞅序列 $S_n = \sum_{i=1}^n X_{i,n}$，其中 ${X_{i,n}}$ 构成关于某滤流的近似鞅（包含鞅、混合鞅、独立序列作为特例）。
关键假设：
近似鞅条件：条件期望的偏差可控（弱于严格的鞅差假设）。
矩条件：相较于现有文献，对高阶矩（特别是三阶或四阶矩）的可积性要求显著放宽。
方法步骤：
在扩大的概率空间上，构造与原近似鞅序列具有相同协方差结构（或前三阶矩结构）的高斯或高斯混合变量 $T_n$。
利用 Yurinskii 的经典分块与条件化技术，结合本文新引入的三阶耦合修正，控制 $S_n$ 与 $T_n$ 之间的差异。
给出 $|S_n - T_n|_p$ 的显式非渐近概率界。

主要理论结果¶

主定理（Yurinskii 耦合界）：对于近似鞅序列，在 $\ell_p$ 范数下，存在高斯混合变量 $T_n$ 使得 $\Pr(|S_n - T_n|_p > \text{bound}) \le \delta$，其中 bound 给出了显式的非渐近速率，且对维度的依赖关系明确。
三阶耦合的改进界：在特定矩条件下，三阶耦合的误差阶数比传统二阶方法更低（更紧）。
高维鞅 CLT：作为推论，导出了高维鞅向量的 CLT，给出了维度 $p$、样本量 $n$ 与逼近误差之间的显式非渐近关系。
非参数回归的渐近性质：为基于分块和局部多项式的非参数估计量提供了均匀高斯强逼近的理论保证。

实验 / 数值仿真¶

无（本文为纯理论概率与数理统计论文，侧重非渐近界与渐近分布的严格推导，应用部分仅给出统计方法的定理级推论，未涉及蒙特卡洛仿真或实证数据分析）。

与研究者兴趣的关联¶

高维统计与随机矩阵理论：高维鞅向量的 CLT 及 $\ell_p$ 范数强逼近，是分析高维统计量（如高维 M-估计量、随机矩阵特征向量）分布性质的基石。
半参数与非参数理论：对分块回归与局部多项式回归的均匀强逼近，直接服务于半参数/非参数估计量的分布推断。
因果推断与纵向数据：鞅结构天然对应纵向数据或序贯处理下的累积量，高斯混合逼近为复杂相依结构（如动态处理机制）下的稳健推断提供了潜在的理论工具。

局限性与开放问题¶

界的紧致性：尽管条件放宽且引入了三阶耦合，Yurinskii 型界在极高维情况下对维度 $p$ 的多项式依赖可能仍非极小化极大最优，与 KMT 匈牙利构造的对数依赖仍有差距。
统计计算可行性：理论构造了耦合变量，但如何在有限样本下高效模拟或数值实现该高斯混合耦合，仍缺乏算法层面的探讨。
开放问题：能否将此近似鞅的 $\ell_p$ 强逼近结果应用于高维 debiased ML 估计量的分布推断？以及在因果推断的纵向/序贯设定中，如何利用该三阶耦合改进动态处理效应的置信区间构造？

Maintained by 陈星宇 · Homepage · Source on GitHub