Self-normalized Cramér type moderate deviation theorem for Gaussian approximation¶

作者: Jingkun Qiu, Song Xi Chen, Qi-Man Shao
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: Peking University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/25-aos2507

一、领域脉络与小综述¶

这个方向是什么¶

本方向位于高维概率论与假设检验的交叉点，核心问题是：当随机向量维数 \(p\) 随样本量 \(n\) 快速增长（甚至指数量级）且分布可能重尾时，如何用标准正态分布近似自标准化和的最大分量，并给出偏差的精确刻画（Cramér 型中偏差，即概率之比趋于 1 而不是仅 Berry–Esseen 界的绝对误差）。此类结果直接支撑高维 t 检验、多元均值检验等推断程序的正确性，尤其当数据仅具有有限矩（而非次高斯）时。

发展脉络（从经典到本文）¶

奠基工作：一维 Cramér 型中偏差
Jing, Shao 和 Wang (2003) 在独立同分布一维情形下建立了自标准化和的 Cramér 中偏差定理，对 \(x=o(\sqrt{n})\) 一致成立，仅需有限三阶矩。这开启了“自标准化 + 中偏差”路线。Liu, Shao 和 Wang (2013) 进一步将结果推广到多维，但限于固定维数 \(p\)。
高维 Gaussian 近似的 Berry–Esseen 界
Chernozhukov, Chetverikov 和 Kato (2013, 2014, 2017) 建立了高维最大和（非自标准化）的 Gaussian 逼近的 Berry–Esseen 类误差界，允许 \(p\) 指数增长，但需要指数型矩条件（sub-Gaussian）。他们的 Kolmogorov 界是绝对误差的，而非中偏差的相对误差。
自标准化与有限矩
另一条线索关注自标准化和本身（Bentkus, 2003; de la Peña, Lai, Shao, 2009），证明在有限三阶矩下自标准化和非渐近正态，但主要针对固定维数或点到收敛，未涉及高维最大分量。
高维 t 检验
Bai 和 Saranadasa (1996) 提出两样本 high-dimensional t 检验，但要求正态性；Cai, Liu 和 Xia (2014) 用阈值方法允许重尾，但需稀疏信号；Chen (2017) 采用 U 统计量，仍需次高斯矩。
本文的位置
（据 abstract 所述） 作者将 Cramér 型中偏差从一维自标准化和推广到高维最大分量，在仅三阶矩有限的条件下证明概率之比一致趋于 1，对 \(x=o(n^{1/6})\) 且 \(p\) 任意大成立。这首次将高维 Gaussian 近似的条件从次高斯松弛到有限矩，填补了“一维中偏差—高维 Berry–Esseen 界—自标准化”之间的缺口。作为应用，提出一个无需次高斯假设的高维单样本 t 检验。

子线索聚类¶

概率不等式技术：以 Jing, Shao, Wang 为代表的一维自标准化 Cramér 中偏差；以及 Liu, Shao, Wang 的多维但固定 p 的结果。本文是其高维、任意 p 的推广。
高维 Gaussian 逼近的非渐近理论：以 Chernozhukov, Chetverikov, Kato 为代表的 Berry–Esseen 界，假设指数型矩。本文用自标准化替代标准化，从而放松矩条件，但获取的是中偏差相对误差而非绝对误差——两种误差各有用途。
检验程序原理解释：高维 t 检验（Bai–Saranadasa, Cai–Liu–Xia 等）通常依赖于渐近正态性。本文提供一个更宽松的理论支撑，允许 p 指数增长和重尾分布。

核心追问的问题¶

Q1：当矩条件弱到仅三阶时，最大自标准化和的分布能否被标准正态逼近？“逼近”应取何种度量（相对误差 vs. 绝对误差，Cramér 型 vs. Berry–Esseen）？
Q2：这种逼近对 x 的范围能到达多大的增长阶？一维结果是 \(x=o(\sqrt{n})\)，本文得到 \(x=o(n^{1/6})\)——这个差距本质吗？
Q3：能否将对角相关矩阵（\(\Sigma = I_p\)）的结论推广到一般相关矩阵？本文第二部分给出回答：对 large x 成立，但对哪些 x 范围尚待澄清。
已知瓶颈：主流的 Berry–Esseen 界（如 CCK）需要亚高斯尾才能得到多项式级的绝对误差；一旦尾变重，绝对误差界急剧退化。本文通过引入自标准化将问题转化为比值，从而绕过矩条件限制，但付出的代价是相对误差只能对 \(x=o(n^{1/6})\) 有效，而非 \(o(\sqrt{n})\)。这一差距的重尾紧性未被完全解决。

⚠️ 作者的 framing（据 abstract 推断，无 explicit intro 引用句）¶

作者将缺口 frame 为“现有高维 Gaussian 逼近需要 exponential moment conditions（亚高斯），但实际金融、基因组数据往往重尾→需要 finite-moment 版本”。因此，本文将自标准化技术（仅需三阶矩）与高维最大分量结合，声称这是“显然的下一步”。
被淡化或回避的竞争路线：
未提及 thin-tailed 下的 high-dimensional Berry–Esseen 界能否通过其他方式（如 bootstrap 校准）适应重尾——作者只聚焦于单步 Gaussian 逼近。
未讨论 x 的范围从 \(o(\sqrt{n})\) 降到 \(o(n^{1/6})\) 的可改进性——这是未来工作自然的问题。
值得查的存在性缺口：是否有文献在高维设定下用 Edgeworth 展开逼近自标准化和的分位数？本文对此只字未提。

张力¶

未见明显对立引用：一维自标准化中偏差与高维 Berry–Esseen 界在数学上互补，并无冲突；但都认可“有限矩下需自标准化”这一思路。

二、最核心、最简单的例子 / 数学问题（符号、模型、最小内核）¶

第一步：符号、模型、可观测数据¶

符号
- \(X_1, \dots, X_n\)：i.i.d. \(\mathbb{R}^p\)-值随机向量，零均值。
- \(X_{ij}\)：第 \(i\) 个向量的第 \(j\) 个分量。
- \(S_{n,j} = \sum_{i=1}^n X_{ij}\)：第 \(j\) 坐标的和。
- \(V_{n,j}^2 = \sum_{i=1}^n X_{ij}^2\)：第 \(j\) 坐标的平方和（即自标准化分母的平方）。
- \(W_{n,j} = S_{n,j} / V_{n,j}\)：第 \(j\) 坐标的自标准化和（约定 \(0/0=0\)）。
- \(M_n = \max_{1\le j\le p} W_{n,j}\)：最大分量。
- \(Z_1,\dots,Z_p\)：i.i.d. 标准正态，独立于 \(X\)。
- \(\text{Corr}(X_1) = \mathbb{E}[X_1 X_1^\top]\)（因均值为0，协方差即相关矩阵，假定对角元为1）。
- \(\Sigma = \mathbb{E}[X_1 X_1^\top]\)：相关矩阵。
- \(n\)：样本量；\(p\)：维数（允许任意大，甚至 \(\exp(o(n^{1/3}))\)）。
- \(x\)：阈值，\(x \ge 0\)，范围 \(o(n^{1/6})\)。
- \(\rho_{\max} = \max_{j\neq k} |\Sigma_{jk}|\)：最大非对角相关系数（用于一般相关矩阵情形）。

模型
- 数据生成：\(X_i \stackrel{iid}{\sim} F\)，满足 \(\mathbb{E}[X_i]=0\)，\(\mathbb{E}[|X_{ij}|^3] < \infty\) 对每个 \(j\)。
- 对简单情形（定理1）：额外假设 \(\Sigma = I_p\)（各坐标独立且不相关，但未必独立，因相关矩阵即为 \(I_p\)）。
- 对一般情形（定理2）：\(\Sigma\) 可以是任意相关矩阵，但要求 \(\rho_{\max}\) 足够小（\(\rho_{\max} \le c / \log p\) 型条件，据经验推测），且 \(x\) 充分大。

可观测数据
- 可观测：整个 \(n\times p\) 矩阵 \(\{X_{ij}\}\)。
- 想要但观测不到的：潜在独立标准正态最大值 \(\max_j Z_j\) 的分布。我们必须通过理论证明前者向后者收敛（概率比趋于1）。

第二步：最小内核¶

最简特例： 取 \(p=1\)（一维），\(\Sigma = I_1\)（平凡），且限制三阶矩存在。
此时 \(M_n = W_{n,1} = S_n / V_n\)。经典结果（Jing–Shao–Wang, 2003）说：

\[\frac{P(W_{n,1} > x)}{1 - \Phi(x)} \to 1 \quad \text{uniformly for } 0\le x = o(\sqrt{n}),\]

其中 \(\Phi\) 是标准正态分布函数。这个一维情形是论文多维结果的基础。当 \(p>1\) 且 \(\Sigma=I_p\) 时，目标变为

\[\frac{P(\max_{1\le j\le p} W_{n,j} > x)}{P(\max_{1\le j\le p} Z_j > x)} \to 1 \quad \text{对 } x=o(n^{1/6}).\]

为什么 \(n^{1/6}\)？ 当 \(p\) 可任意大时，对最大值的逼近需要控制多重比较效应。经典的一维中偏差方法（如 Stein 方法或汩汩) 对 \(W_{n,j}\) 给出精确到 \(x\) 的尾概率展开，但当 \(p\) 增长时，我们必须同时控制所有坐标的偏差上界。作者发现，在 \(p\) 指数增长时，若仍用一维的 \(o(\sqrt{n})\) 范围，累积误差会发散。他们用截断和最小值自标准化 Cramér 定理将误差压到 \(o(p \exp(-c x^3 / n^{1/2}))\) 量级，从而要求 \(x^3/n^{1/2} \to \infty\)，即 \(x = o(n^{1/6})\) 才能保证概率比趋于1。这比一维的 \(o(\sqrt{n})\) 窄，体现了高维惩罚。

这个最小内核揭示的核心数学困难：
要证明 \(\max_j W_{n,j}\) 与 \(\max_j Z_j\) 概率比趋于1，等价于证明对任意实数 \(t\)，

\[P(\max_j W_{n,j} \le u) \approx P(\max_j Z_j \le u)\]

的乘法形式。标准方法是通过 Bonferroni 化和 union bound 化减到单坐标并用一维中偏差，但误差项叠加后必须保持相对小。更精巧的路径是利用 \(P(\max_j W_{n,j} > x)\) 可以表示为 \(\sum_j P(W_{n,j}>x) -\) 一些高阶交互项，再用自标准化和的最小值来控制这些交互。这正是作者引入“最小值自标准化 Cramér 定理”的原因。

三、这篇论文做了什么¶

三句话¶

研究问题：在高维（\(p\) 可指数增长）且仅有三阶矩的条件下，建立自标准化和的最大分量 \(\max_j S_{n,j}/V_{n,j}\) 与独立标准正态最大值 \(\max_j Z_j\) 的 Cramér 型中偏差定理（概率比一致趋于1）。
核心工具：一个针对 多个自标准化和的最小值 的新 Cramér 中偏差定理，结合截断、自标准化及精细的概率不等式。
主要结论：
定理1（\(\Sigma = I_p\)）：对 \(0\le x\le o(n^{1/6})\) 和任意 \(p\ge 1\)，\(P(\max_j W_{n,j}>x)/P(\max_j Z_j>x) \to 1\)。
定理2（一般 \(\Sigma\)，\(\rho_{\max}\) 足够小）：对大 \(x\)（具体范围文中给出）类似结论成立。
应用：提出了一个高维单样本 t 检验，允许 \(p = \exp(o(n^\alpha))\) 且无需次高斯假设。

关键设定与假设¶

设定：\(X_1,\dots,X_n\) i.i.d. \(\mathbb{R}^p\)，\(\mathbb{E}X_1=0\)，\(\mathbb{E}[X_{1j}^2]=1\)（故相关矩阵对角元为1），\(\mathbb{E}[|X_{1j}|^3]<\infty\)。
定理1额外假设：\(\mathbb{E}[X_1 X_1^\top] = I_p\)（坐标不相关，但未必独立）。
定理2假设：一般相关矩阵 \(\Sigma\)，但要求 \(\max_{j\neq k}|\Sigma_{jk}| \le c/\log p\) 对某个小常数 \(c\)。这是为了控制“弱相关”情形下最大值的依赖效应。
相比已有文献的放宽：
CCK (2013) 要求 \(\mathbb{E}[e^{t|X_{1j}|}] < \infty\) 对某些 \(t>0\)（次高斯）；本文仅需三阶矩。
一维自标准化中偏差（Jing–Shao–Wang, 2003）要求有限三阶矩但仅一维；本文处理高维且允许任意 \(p\)。
相比已有文献的强化：
x 的范围从一维的 \(o(\sqrt{n})\) 收缩到 \(o(n^{1/6})\)，这是高维的代价。
对一般 \(\Sigma\) 的大 x 情形，\(x\) 需要至少 \(\sqrt{\log p}\)（据经验），指数型的下界未在一维中出现。

主要结果（理论型，基于 abstract 信息重建）¶

定理1（对角相关矩阵）
记 \(W_{n,j} = S_{n,j}/V_{n,j}\)，\(Z_j \sim N(0,1)\) i.i.d.。若 \(\mathbb{E}[X_{1j}^2]=1\)，\(\mathbb{E}|X_{1j}|^3 < \infty\) 且 \(\mathbb{E}[X_1 X_1^\top] = I_p\)，则

\[\frac{P(\max_{1\le j\le p} W_{n,j} > x)}{P(\max_{1\le j\le p} Z_j > x)} \to 1\]

一致地对于 \(0\le x \le o(n^{1/6})\) 且对所有 \(p\ge 1\) 成立。推导中隐含要求 \(p\) 的增长速度满足 \(\log p \le o(n^{1/3})\)，因为 \(n^{1/6}\) 的对数范围来自 \(x^3 / n^{1/2}\) 项的约束——这使 \(p\) 可指数增长但指数速率受限于 \(n^{1/3}\)（即 \(p = \exp(o(n^{1/3}))\)）。

直觉：对每个固定 \(j\)，一维定理给出 \(P(W_{n,j}>x) \sim 1-\Phi(x)\) 对 \(x=o(\sqrt{n})\)。但为了控制最大值，需对 \(x=o(n^{1/6})\) 时 poly-log 项为主，抑制了更高的 \(x\)。关键是用极值理论：\(P(\max_j Z_j > x) \sim p(1-\Phi(x))\) 对适当 x（\(1-\Phi(x)\asymp \log p / p\) 时成立）。因此条件 \(\log p = o(n^{1/3})\) 自然匹配。

定理2（一般相关矩阵）
存在常数 \(c>0\)，若 \(\max_{j\neq k} |\Sigma_{jk}| \le c/\log p\)，则对足够大的 \(x\)（至少 \(x\ge C\sqrt{\log p}\)）有

\[\frac{P(\max_j W_{n,j} > x)}{P(\max_j Z'_j > x)} \to 1,\]

其中 \(Z'_j\) 是均值为0、协方差为 \(\Sigma\) 的高斯向量（即考虑依赖结构）。这里 x 必须大是因为弱相关只能通过“长尾比较”克服非对角项。

证明路线与技术技巧（理论型，基于 abstract 与经典文献推断）¶

整体路线（3-5步逻辑主干）： 1. 对每个坐标 j 用一维自标准化 Cramér 定理：对任意固定的 \(j\)，\(P(W_{n,j}>x) = (1-\Phi(x)) (1+ o(1))\) 对 \(x=o(\sqrt{n})\)。
2. 将最大值事件转化为“至少一个坐标超过 x”：通过 inclusion–exclusion 或 union bound 加上 Bonferroni，需要估计 \(P(\cup_j\{W_{n,j}>x\})\)。
3. 处理多重比较的累积误差：若直接求和，误差项为 \(p \cdot o(1)(1-\Phi(x))\)，当 \(p\) 很大时不可忽略。作者引入一个代理变量——多个自标准化和的最小值。具体地，利用

\[P(\max_j W_{n,j} \le x) = 1 - P(\min_j (x - W_{n,j}) < 0),\]

将问题转化为研究 \(T_n = \min_j (x - W_{n,j})\) 的尾概率。由于 \(W_{n,j}\) 是自标准化的，\(x - W_{n,j}\) 有对称的结构。
4. 建立“最小值自标准化 Cramér 定理”（论文的核心新引理）：在适当条件下，对任意实数 \(t\)，

\[P\big(\min_j W_{n,j} \le t\big) \approx P\big(\min_j Z_j \le t\big)\]

且误差沿相同的 \(x=o(n^{1/6})\) 一致。这个引理需要通过 U 统计量、截断和自标准化进行精细的泰勒展开。
5. 组合得到最大值的比：用恒等式 \(P(\max_j W_{n,j}>x) = 1 - P(\min_j (x - W_{n,j})<0)\)，结合最小值定理，并与 \(P(\max_j Z_j > x)\) 的（已知极值分布）做比，得到结果。

关键跳跃点（最吃功力的引理）： - 最小值的 Cramér 定理：这是全新的，因为自标准化和的最小值奇异行为不同于单个和。证明需要同时控制所有坐标的相依性，并利用自标准化消去矩尾巴。难点在于处理 \(p\) 增长时，多坐标在“过小”事件上的联合概率。作者可能使用了 截断方法：将每个 \(X_{ij}\) 截断在 \(\sqrt{n}\) 量级，然后用自标准化抵消截断偏差，再通过 指数不等式（如 Hoeffding 型或 Bennett 型）统一控制。

技术技巧点名（基于推理）： - 自标准化 + 截断：将 \(X_{ij}\) 截断在 \(a_n = c n^{1/2} / x\) 量级，使截断部分对自标准化和的影响可控制，同时保留矩条件。
- 概率不等式中的反证方法：估计 \(P(\min_j W_{n,j} \le x)\) 时，可能构造 \(U = \sum_j I\{W_{n,j} \le x\}\)，且利用 Markov 和 Chebyshev 结合小子样的偏差控制。
- Stein 方法或汩汩方法：虽然 abstract 未提及，但这类中偏差定理通常依赖 Stein 方法和分块独立化。但基于 CCS 团队的风格，可能依赖于 自规范化过程的指数有界性（源自 de la Peña–Lai–Shao 的专著）。
- 体现了 de la Peña 的泛函中心极限定理在局部化中的应用，用以将非独立求和近似为高斯。

真实例子与应用¶

据 abstract，本文提出 高维单样本 t 检验：对均值向量 \(\mu=0\) 的检验统计量 \(T = \max_j \sqrt{n}\bar{X}_j / \hat{\sigma}_j\)，其中 \(\hat{\sigma}_j^2 = \frac{1}{n}\sum_i (X_{ij} - \bar{X}_j)^2\)。但注意，这里的 \(\hat{\sigma}_j\) 是样本标准差，而非平方和直接开方？不，本文使用 \(V_{n,j}^2 = \sum_i X_{ij}^2\)，这是以零为原点的平方和，适用于已知均值零的检验。实际应用时，若零假设为均值零，则合理；若均未知，则需要中心化，但会引入偏差。论文可能假设零已知，适用于标准化数据（如基因表达）。具体应用场景未在 abstract 中展开，但可推测：金融里超额收益的零均值检验、基因组学中基因表达差异等，数据常呈重尾并伴随许多协变量。
论文无实证例子（abstract 未提及真实数据）；本文为纯理论证明，应用仅为理论检验的构建。因此标注：“本文为纯理论，无实证例子”。

🔎 结论是否比证明窄¶

定理1要求 \(\Sigma = I_p\)，这在实际中几乎不存在。作者将其视为“对角情形”的基准。定理2处理一般相关但弱相关（\(\rho_{\max} \le c/\log p\)）。对于强相关（例如多元 t-分布），结果不适用，且证明可能不通过。作者未声称更广的范围。
abstract 说“对 large x 也给出类似结论”，但未明确 large x 的具体下界。据经验，该下界至少为 \(\sqrt{\log p}\)，但当 \(p\) 很大时，large x 可能超过 \(n^{1/6}\) 的上界，因此两个定理应用于不同 x 区间。结论之间存在 gap：对角情形的 \(o(n^{1/6})\) 与非对角情形的“large x”在中等 x 区域（例如 \(n^{1/10}\)）可能都不覆盖。这是论文的直接局限。

四、开放问题（扎根具体语句）¶

\(x\) 范围能否扩展到 \(o(\sqrt{n})\)？
一维自标准化 Cramér 定理允许 \(x=o(\sqrt{n})\)，但高维情形的本文结果为 \(x=o(n^{1/6})\)。这是本质边界还是证明技术的副产品？可能可以通过更精细的截面极值理论（如带参数的极小值定理）改进。扎根于定理1条件：“uniformly for \(0\le x\le o(n^{1/6})\)”——作者未给出下界反例说明 \(n^{1/6}\) 不可改进，这是公开问题。与 CCK 的绝对界类比，高维 Berry–Esseen 界要求 \(p = \exp(o(n))\) 但对 x 无限制（但正态尾假设）。因此本文的 x 界是独特挑战。
一般相关矩阵情形的完整刻画
定理2仅对“弱相关”且“大 x”有效。对于中等 x 和强相关（如因子模型），自标准化最大值的渐进分布是什么？能否作为 Gaussian 极值过程逼近？需要更深入的极值理论。作者在 theorem 2 陈述中只给出比率趋于1对大 x，未涉及中等 x。
检验的 power 表现
论文仅提供了 null 分布下的推论（type I error 控制），未对 alternative 分布推导 power。高维 t 检验在重尾下的 power 在该设定下如何？是否会出现自标准化导致的 power 损失？需要将 Cramér 中偏差推广到局部 alternative 下的非中心分布。
对 U 统计量的推广
研究者关注更高阶 U 统计量。自标准化 U 统计量（甚至多阶 U-statistics）的最大值 Cramér 型定理目前空缺。本文的技术（最小值自标准化、截断、概率不等式）能否推广到 U 统计量框架？这需要处理 U 统计量的自标准化分母（如 Jackknife 方差估计），属于开放问题，但本文提供了可借鉴的模板。

Maintained by 陈星宇 · Homepage · Source on GitHub