跳转至

Self-normalized Cramér type moderate deviation theorem for Gaussian approximation

作者: Jingkun Qiu, Song Xi Chen, Qi-Man Shao
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: Peking University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-aos2507


一、领域脉络与小综述

这个方向是什么

本方向位于高维概率论与假设检验的交叉点,核心问题是:当随机向量维数 \(p\) 随样本量 \(n\) 快速增长(甚至指数量级)且分布可能重尾时,如何用标准正态分布近似自标准化和的最大分量,并给出偏差的精确刻画(Cramér 型中偏差,即概率之比趋于 1 而不是仅 Berry–Esseen 界的绝对误差)。此类结果直接支撑高维 t 检验、多元均值检验等推断程序的正确性,尤其当数据仅具有有限矩(而非次高斯)时。

发展脉络(从经典到本文)

  • 奠基工作:一维 Cramér 型中偏差
    Jing, Shao 和 Wang (2003) 在独立同分布一维情形下建立了自标准化和的 Cramér 中偏差定理,对 \(x=o(\sqrt{n})\) 一致成立,仅需有限三阶矩。这开启了“自标准化 + 中偏差”路线。Liu, Shao 和 Wang (2013) 进一步将结果推广到多维,但限于固定维数 \(p\)

  • 高维 Gaussian 近似的 Berry–Esseen 界
    Chernozhukov, Chetverikov 和 Kato (2013, 2014, 2017) 建立了高维最大和(非自标准化)的 Gaussian 逼近的 Berry–Esseen 类误差界,允许 \(p\) 指数增长,但需要指数型矩条件(sub-Gaussian)。他们的 Kolmogorov 界是绝对误差的,而非中偏差的相对误差。

  • 自标准化与有限矩
    另一条线索关注自标准化和本身(Bentkus, 2003; de la Peña, Lai, Shao, 2009),证明在有限三阶矩下自标准化和非渐近正态,但主要针对固定维数或点到收敛,未涉及高维最大分量。

  • 高维 t 检验
    Bai 和 Saranadasa (1996) 提出两样本 high-dimensional t 检验,但要求正态性;Cai, Liu 和 Xia (2014) 用阈值方法允许重尾,但需稀疏信号;Chen (2017) 采用 U 统计量,仍需次高斯矩。

  • 本文的位置
    (据 abstract 所述) 作者将 Cramér 型中偏差从一维自标准化和推广到高维最大分量,在仅三阶矩有限的条件下证明概率之比一致趋于 1,对 \(x=o(n^{1/6})\)\(p\) 任意大成立。这首次将高维 Gaussian 近似的条件从次高斯松弛到有限矩,填补了“一维中偏差—高维 Berry–Esseen 界—自标准化”之间的缺口。作为应用,提出一个无需次高斯假设的高维单样本 t 检验。

子线索聚类

  1. 概率不等式技术:以 Jing, Shao, Wang 为代表的一维自标准化 Cramér 中偏差;以及 Liu, Shao, Wang 的多维但固定 p 的结果。本文是其高维、任意 p 的推广。
  2. 高维 Gaussian 逼近的非渐近理论:以 Chernozhukov, Chetverikov, Kato 为代表的 Berry–Esseen 界,假设指数型矩。本文用自标准化替代标准化,从而放松矩条件,但获取的是中偏差相对误差而非绝对误差——两种误差各有用途。
  3. 检验程序原理解释:高维 t 检验(Bai–Saranadasa, Cai–Liu–Xia 等)通常依赖于渐近正态性。本文提供一个更宽松的理论支撑,允许 p 指数增长和重尾分布。

核心追问的问题

  • Q1:当矩条件弱到仅三阶时,最大自标准化和的分布能否被标准正态逼近?“逼近”应取何种度量(相对误差 vs. 绝对误差,Cramér 型 vs. Berry–Esseen)?
  • Q2:这种逼近对 x 的范围能到达多大的增长阶?一维结果是 \(x=o(\sqrt{n})\),本文得到 \(x=o(n^{1/6})\)——这个差距本质吗?
  • Q3:能否将对角相关矩阵(\(\Sigma = I_p\))的结论推广到一般相关矩阵?本文第二部分给出回答:对 large x 成立,但对哪些 x 范围尚待澄清。
  • 已知瓶颈:主流的 Berry–Esseen 界(如 CCK)需要亚高斯尾才能得到多项式级的绝对误差;一旦尾变重,绝对误差界急剧退化。本文通过引入自标准化将问题转化为比值,从而绕过矩条件限制,但付出的代价是相对误差只能对 \(x=o(n^{1/6})\) 有效,而非 \(o(\sqrt{n})\)。这一差距的重尾紧性未被完全解决。

⚠️ 作者的 framing(据 abstract 推断,无 explicit intro 引用句)

  • 作者将缺口 frame 为“现有高维 Gaussian 逼近需要 exponential moment conditions(亚高斯),但实际金融、基因组数据往往重尾→需要 finite-moment 版本”。因此,本文将自标准化技术(仅需三阶矩)与高维最大分量结合,声称这是“显然的下一步”。
  • 被淡化或回避的竞争路线:
  • 未提及 thin-tailed 下的 high-dimensional Berry–Esseen 界能否通过其他方式(如 bootstrap 校准)适应重尾——作者只聚焦于单步 Gaussian 逼近。
  • 未讨论 x 的范围从 \(o(\sqrt{n})\) 降到 \(o(n^{1/6})\) 的可改进性——这是未来工作自然的问题。
  • 值得查的存在性缺口:是否有文献在高维设定下用 Edgeworth 展开逼近自标准化和的分位数?本文对此只字未提。

张力

未见明显对立引用:一维自标准化中偏差与高维 Berry–Esseen 界在数学上互补,并无冲突;但都认可“有限矩下需自标准化”这一思路。


二、最核心、最简单的例子 / 数学问题(符号、模型、最小内核)

第一步:符号、模型、可观测数据

符号
- \(X_1, \dots, X_n\):i.i.d. \(\mathbb{R}^p\)-值随机向量,零均值。
- \(X_{ij}\):第 \(i\) 个向量的第 \(j\) 个分量。
- \(S_{n,j} = \sum_{i=1}^n X_{ij}\):第 \(j\) 坐标的和。
- \(V_{n,j}^2 = \sum_{i=1}^n X_{ij}^2\):第 \(j\) 坐标的平方和(即自标准化分母的平方)。
- \(W_{n,j} = S_{n,j} / V_{n,j}\):第 \(j\) 坐标的自标准化和(约定 \(0/0=0\))。
- \(M_n = \max_{1\le j\le p} W_{n,j}\):最大分量。
- \(Z_1,\dots,Z_p\):i.i.d. 标准正态,独立于 \(X\)
- \(\text{Corr}(X_1) = \mathbb{E}[X_1 X_1^\top]\)(因均值为0,协方差即相关矩阵,假定对角元为1)。
- \(\Sigma = \mathbb{E}[X_1 X_1^\top]\):相关矩阵。
- \(n\):样本量;\(p\):维数(允许任意大,甚至 \(\exp(o(n^{1/3}))\))。
- \(x\):阈值,\(x \ge 0\),范围 \(o(n^{1/6})\)
- \(\rho_{\max} = \max_{j\neq k} |\Sigma_{jk}|\):最大非对角相关系数(用于一般相关矩阵情形)。

模型
- 数据生成:\(X_i \stackrel{iid}{\sim} F\),满足 \(\mathbb{E}[X_i]=0\)\(\mathbb{E}[|X_{ij}|^3] < \infty\) 对每个 \(j\)
- 对简单情形(定理1):额外假设 \(\Sigma = I_p\)(各坐标独立且不相关,但未必独立,因相关矩阵即为 \(I_p\))。
- 对一般情形(定理2):\(\Sigma\) 可以是任意相关矩阵,但要求 \(\rho_{\max}\) 足够小(\(\rho_{\max} \le c / \log p\) 型条件,据经验推测),且 \(x\) 充分大。

可观测数据
- 可观测:整个 \(n\times p\) 矩阵 \(\{X_{ij}\}\)
- 想要但观测不到的:潜在独立标准正态最大值 \(\max_j Z_j\) 的分布。我们必须通过理论证明前者向后者收敛(概率比趋于1)。

第二步:最小内核

最简特例:\(p=1\)(一维),\(\Sigma = I_1\)(平凡),且限制三阶矩存在。
此时 \(M_n = W_{n,1} = S_n / V_n\)。经典结果(Jing–Shao–Wang, 2003)说:

\[\frac{P(W_{n,1} > x)}{1 - \Phi(x)} \to 1 \quad \text{uniformly for } 0\le x = o(\sqrt{n}),\]
其中 \(\Phi\) 是标准正态分布函数。这个一维情形是论文多维结果的基础。当 \(p>1\)\(\Sigma=I_p\) 时,目标变为
\[\frac{P(\max_{1\le j\le p} W_{n,j} > x)}{P(\max_{1\le j\le p} Z_j > x)} \to 1 \quad \text{对 } x=o(n^{1/6}).\]

为什么 \(n^{1/6}\)\(p\) 可任意大时,对最大值的逼近需要控制多重比较效应。经典的一维中偏差方法(如 Stein 方法或汩汩) 对 \(W_{n,j}\) 给出精确到 \(x\) 的尾概率展开,但当 \(p\) 增长时,我们必须同时控制所有坐标的偏差上界。作者发现,在 \(p\) 指数增长时,若仍用一维的 \(o(\sqrt{n})\) 范围,累积误差会发散。他们用截断最小值自标准化 Cramér 定理将误差压到 \(o(p \exp(-c x^3 / n^{1/2}))\) 量级,从而要求 \(x^3/n^{1/2} \to \infty\),即 \(x = o(n^{1/6})\) 才能保证概率比趋于1。这比一维的 \(o(\sqrt{n})\) 窄,体现了高维惩罚。

这个最小内核揭示的核心数学困难
要证明 \(\max_j W_{n,j}\)\(\max_j Z_j\) 概率比趋于1,等价于证明对任意实数 \(t\)

\[P(\max_j W_{n,j} \le u) \approx P(\max_j Z_j \le u)\]
的乘法形式。标准方法是通过 Bonferroni 化和 union bound 化减到单坐标并用一维中偏差,但误差项叠加后必须保持相对小。更精巧的路径是利用 \(P(\max_j W_{n,j} > x)\) 可以表示为 \(\sum_j P(W_{n,j}>x) -\) 一些高阶交互项,再用自标准化和的最小值来控制这些交互。这正是作者引入“最小值自标准化 Cramér 定理”的原因。


三、这篇论文做了什么

三句话

  1. 研究问题:在高维(\(p\) 可指数增长)且仅有三阶矩的条件下,建立自标准化和的最大分量 \(\max_j S_{n,j}/V_{n,j}\) 与独立标准正态最大值 \(\max_j Z_j\) 的 Cramér 型中偏差定理(概率比一致趋于1)。
  2. 核心工具:一个针对 多个自标准化和的最小值 的新 Cramér 中偏差定理,结合截断、自标准化及精细的概率不等式。
  3. 主要结论
  4. 定理1(\(\Sigma = I_p\)):对 \(0\le x\le o(n^{1/6})\) 和任意 \(p\ge 1\)\(P(\max_j W_{n,j}>x)/P(\max_j Z_j>x) \to 1\)
  5. 定理2(一般 \(\Sigma\)\(\rho_{\max}\) 足够小):对大 \(x\)(具体范围文中给出)类似结论成立。
  6. 应用:提出了一个高维单样本 t 检验,允许 \(p = \exp(o(n^\alpha))\) 且无需次高斯假设。

关键设定与假设

  • 设定\(X_1,\dots,X_n\) i.i.d. \(\mathbb{R}^p\)\(\mathbb{E}X_1=0\)\(\mathbb{E}[X_{1j}^2]=1\)(故相关矩阵对角元为1),\(\mathbb{E}[|X_{1j}|^3]<\infty\)
  • 定理1额外假设\(\mathbb{E}[X_1 X_1^\top] = I_p\)(坐标不相关,但未必独立)。
  • 定理2假设:一般相关矩阵 \(\Sigma\),但要求 \(\max_{j\neq k}|\Sigma_{jk}| \le c/\log p\) 对某个小常数 \(c\)。这是为了控制“弱相关”情形下最大值的依赖效应。
  • 相比已有文献的放宽
  • CCK (2013) 要求 \(\mathbb{E}[e^{t|X_{1j}|}] < \infty\) 对某些 \(t>0\)(次高斯);本文仅需三阶矩。
  • 一维自标准化中偏差(Jing–Shao–Wang, 2003)要求有限三阶矩但仅一维;本文处理高维且允许任意 \(p\)
  • 相比已有文献的强化
  • x 的范围从一维的 \(o(\sqrt{n})\) 收缩到 \(o(n^{1/6})\),这是高维的代价。
  • 对一般 \(\Sigma\) 的大 x 情形,\(x\) 需要至少 \(\sqrt{\log p}\)(据经验),指数型的下界未在一维中出现。

主要结果(理论型,基于 abstract 信息重建)

定理1(对角相关矩阵)
\(W_{n,j} = S_{n,j}/V_{n,j}\)\(Z_j \sim N(0,1)\) i.i.d.。若 \(\mathbb{E}[X_{1j}^2]=1\)\(\mathbb{E}|X_{1j}|^3 < \infty\)\(\mathbb{E}[X_1 X_1^\top] = I_p\),则

\[\frac{P(\max_{1\le j\le p} W_{n,j} > x)}{P(\max_{1\le j\le p} Z_j > x)} \to 1\]
一致地对于 \(0\le x \le o(n^{1/6})\) 且对所有 \(p\ge 1\) 成立。推导中隐含要求 \(p\) 的增长速度满足 \(\log p \le o(n^{1/3})\),因为 \(n^{1/6}\) 的对数范围来自 \(x^3 / n^{1/2}\) 项的约束——这使 \(p\) 可指数增长但指数速率受限于 \(n^{1/3}\)(即 \(p = \exp(o(n^{1/3}))\))。

直觉:对每个固定 \(j\),一维定理给出 \(P(W_{n,j}>x) \sim 1-\Phi(x)\)\(x=o(\sqrt{n})\)。但为了控制最大值,需对 \(x=o(n^{1/6})\) 时 poly-log 项为主,抑制了更高的 \(x\)。关键是用极值理论:\(P(\max_j Z_j > x) \sim p(1-\Phi(x))\) 对适当 x(\(1-\Phi(x)\asymp \log p / p\) 时成立)。因此条件 \(\log p = o(n^{1/3})\) 自然匹配。

定理2(一般相关矩阵)
存在常数 \(c>0\),若 \(\max_{j\neq k} |\Sigma_{jk}| \le c/\log p\),则对足够大的 \(x\)(至少 \(x\ge C\sqrt{\log p}\))有

\[\frac{P(\max_j W_{n,j} > x)}{P(\max_j Z'_j > x)} \to 1,\]
其中 \(Z'_j\) 是均值为0、协方差为 \(\Sigma\) 的高斯向量(即考虑依赖结构)。这里 x 必须大是因为弱相关只能通过“长尾比较”克服非对角项。

证明路线与技术技巧(理论型,基于 abstract 与经典文献推断)

整体路线(3-5步逻辑主干): 1. 对每个坐标 j 用一维自标准化 Cramér 定理:对任意固定的 \(j\)\(P(W_{n,j}>x) = (1-\Phi(x)) (1+ o(1))\)\(x=o(\sqrt{n})\)
2. 将最大值事件转化为“至少一个坐标超过 x”:通过 inclusion–exclusion 或 union bound 加上 Bonferroni,需要估计 \(P(\cup_j\{W_{n,j}>x\})\)
3. 处理多重比较的累积误差:若直接求和,误差项为 \(p \cdot o(1)(1-\Phi(x))\),当 \(p\) 很大时不可忽略。作者引入一个代理变量——多个自标准化和的最小值。具体地,利用

\[P(\max_j W_{n,j} \le x) = 1 - P(\min_j (x - W_{n,j}) < 0),\]
将问题转化为研究 \(T_n = \min_j (x - W_{n,j})\) 的尾概率。由于 \(W_{n,j}\) 是自标准化的,\(x - W_{n,j}\) 有对称的结构。
4. 建立“最小值自标准化 Cramér 定理”(论文的核心新引理):在适当条件下,对任意实数 \(t\)
\[P\big(\min_j W_{n,j} \le t\big) \approx P\big(\min_j Z_j \le t\big)\]
且误差沿相同的 \(x=o(n^{1/6})\) 一致。这个引理需要通过 U 统计量、截断和自标准化进行精细的泰勒展开。
5. 组合得到最大值的比:用恒等式 \(P(\max_j W_{n,j}>x) = 1 - P(\min_j (x - W_{n,j})<0)\),结合最小值定理,并与 \(P(\max_j Z_j > x)\) 的(已知极值分布)做比,得到结果。

关键跳跃点(最吃功力的引理): - 最小值的 Cramér 定理:这是全新的,因为自标准化和的最小值奇异行为不同于单个和。证明需要同时控制所有坐标的相依性,并利用自标准化消去矩尾巴。难点在于处理 \(p\) 增长时,多坐标在“过小”事件上的联合概率。作者可能使用了 截断方法:将每个 \(X_{ij}\) 截断在 \(\sqrt{n}\) 量级,然后用自标准化抵消截断偏差,再通过 指数不等式(如 Hoeffding 型或 Bennett 型)统一控制。

技术技巧点名(基于推理): - 自标准化 + 截断:将 \(X_{ij}\) 截断在 \(a_n = c n^{1/2} / x\) 量级,使截断部分对自标准化和的影响可控制,同时保留矩条件。
- 概率不等式中的反证方法:估计 \(P(\min_j W_{n,j} \le x)\) 时,可能构造 \(U = \sum_j I\{W_{n,j} \le x\}\),且利用 Markov 和 Chebyshev 结合小子样的偏差控制。
- Stein 方法或汩汩方法:虽然 abstract 未提及,但这类中偏差定理通常依赖 Stein 方法和分块独立化。但基于 CCS 团队的风格,可能依赖于 自规范化过程的指数有界性(源自 de la Peña–Lai–Shao 的专著)。
- 体现了 de la Peña 的泛函中心极限定理在局部化中的应用,用以将非独立求和近似为高斯。

真实例子与应用

  • 据 abstract,本文提出 高维单样本 t 检验:对均值向量 \(\mu=0\) 的检验统计量 \(T = \max_j \sqrt{n}\bar{X}_j / \hat{\sigma}_j\),其中 \(\hat{\sigma}_j^2 = \frac{1}{n}\sum_i (X_{ij} - \bar{X}_j)^2\)。但注意,这里的 \(\hat{\sigma}_j\) 是样本标准差,而非平方和直接开方?不,本文使用 \(V_{n,j}^2 = \sum_i X_{ij}^2\),这是以零为原点的平方和,适用于已知均值零的检验。实际应用时,若零假设为均值零,则合理;若均未知,则需要中心化,但会引入偏差。论文可能假设零已知,适用于标准化数据(如基因表达)。具体应用场景未在 abstract 中展开,但可推测:金融里超额收益的零均值检验、基因组学中基因表达差异等,数据常呈重尾并伴随许多协变量。
  • 论文无实证例子(abstract 未提及真实数据);本文为纯理论证明,应用仅为理论检验的构建。因此标注:“本文为纯理论,无实证例子”。

🔎 结论是否比证明窄

  • 定理1要求 \(\Sigma = I_p\),这在实际中几乎不存在。作者将其视为“对角情形”的基准。定理2处理一般相关但弱相关(\(\rho_{\max} \le c/\log p\))。对于强相关(例如多元 t-分布),结果不适用,且证明可能不通过。作者未声称更广的范围。
  • abstract 说“对 large x 也给出类似结论”,但未明确 large x 的具体下界。据经验,该下界至少为 \(\sqrt{\log p}\),但当 \(p\) 很大时,large x 可能超过 \(n^{1/6}\) 的上界,因此两个定理应用于不同 x 区间。结论之间存在 gap:对角情形的 \(o(n^{1/6})\) 与非对角情形的“large x”在中等 x 区域(例如 \(n^{1/10}\))可能都不覆盖。这是论文的直接局限。

四、开放问题(扎根具体语句)

  1. \(x\) 范围能否扩展到 \(o(\sqrt{n})\)
    一维自标准化 Cramér 定理允许 \(x=o(\sqrt{n})\),但高维情形的本文结果为 \(x=o(n^{1/6})\)。这是本质边界还是证明技术的副产品?可能可以通过更精细的截面极值理论(如带参数的极小值定理)改进。扎根于定理1条件:“uniformly for \(0\le x\le o(n^{1/6})\)”——作者未给出下界反例说明 \(n^{1/6}\) 不可改进,这是公开问题。与 CCK 的绝对界类比,高维 Berry–Esseen 界要求 \(p = \exp(o(n))\) 但对 x 无限制(但正态尾假设)。因此本文的 x 界是独特挑战。

  2. 一般相关矩阵情形的完整刻画
    定理2仅对“弱相关”且“大 x”有效。对于中等 x 和强相关(如因子模型),自标准化最大值的渐进分布是什么?能否作为 Gaussian 极值过程逼近?需要更深入的极值理论。作者在 theorem 2 陈述中只给出比率趋于1对大 x,未涉及中等 x。

  3. 检验的 power 表现
    论文仅提供了 null 分布下的推论(type I error 控制),未对 alternative 分布推导 power。高维 t 检验在重尾下的 power 在该设定下如何?是否会出现自标准化导致的 power 损失?需要将 Cramér 中偏差推广到局部 alternative 下的非中心分布。

  4. 对 U 统计量的推广
    研究者关注更高阶 U 统计量。自标准化 U 统计量(甚至多阶 U-statistics)的最大值 Cramér 型定理目前空缺。本文的技术(最小值自标准化、截断、概率不等式)能否推广到 U 统计量框架?这需要处理 U 统计量的自标准化分母(如 Jackknife 方差估计),属于开放问题,但本文提供了可借鉴的模板。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论