Cramér-type moderate deviation for quadratic forms with a fast rate¶

作者: Xiao Fang, Song-Hao Liu, Qi-Man Shao
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个方向研究的是多元统计量分布逼近的精细渐近理论，核心问题在于：当统计量形式复杂（如二次型）时，其尾部概率与正态参照之间的相对误差能以多快的速率收敛到零？这直接决定了假设检验中 p 值与置信区间的精度。当前该领域已从经典的 Berry-Esseen 绝对误差界（\(O(1/\sqrt{n})\)）发展到追求 Cramér 型中等偏差的相对误差界，后者在统计推断中更具实用价值。本文首次在多元二次型设定下实现了 \(O(1/n)\) 的快速收敛率，将一元 Cramér 理论推广到了高维情形。

发展脉络¶

奠基工作（Berry-Esseen 型绝对误差）： - Bentkus & Götze (1997a)：证明了 \(d\) 维独立随机向量和的二次型 \(\mathbb{Q}[S_N]\) 与对应高斯二次型分布函数之差的上确界 \(\Delta_N = O(1/n)\)，但要求维度 \(d \geq 9\)。这是该领域的经典结果，但维度门槛过高。 - Götze & Zaitsev (2011)：将上述 \(O(1/n)\) 速率的 Berry-Esseen 界从 \(d \geq 9\) 降至最优的 \(d \geq 5\)，并给出了显式常数。作者在 introduction 中引用此工作作为背景，指出其结果（公式 1.3）中出现了因子 \(1/\det(Q^{1/2})\)，本文的界中也保留了这一结构。

主要进展（从绝对误差到相对误差）： - Cramér (1938)：开创了中等偏差理论，对一元独立和证明了相对误差在 \(x = o(n^{1/2})\) 范围内以 \(O(1/\sqrt{n})\) 速率收敛。这是所有后续工作的起点。 - Raïkov (1938)：将 Cramér 结果推广到 \(\chi^2\) 统计量（即独立高斯平方和），但仅限于高斯情形。 - Rosen (2011)：首次对非高斯的一元二次型（\(d=1\)）建立 Cramér 型中等偏差，但速率仅为 \(O(1/\sqrt{n})\)，且偏差范围受限。 - Liu, Shao & Wang (2022)：对一元情形（\(d=1\)）证明了相对误差可达 \(O(1/n)\) 的快速收敛，偏差范围扩展到 \(x = o(n^{1/6})\)。这是本文的直接前作，作者明确指出本文是将该结果向多元推广。

当前 Frontier 与本文位置：本文位于"将一元精细渐近理论向多元推广"这条线索的前沿。作者在 introduction 中明确 framing：虽然 Götze & Zaitsev (2011) 已解决多元二次型的绝对误差问题（\(d \geq 5\) 时 \(\Delta_N = O(1/n)\)），但多元二次型的相对误差（Cramér 型中等偏差）一直是空白。本文填补了这一空白，并证明在 \(d \geq 5\) 时同样能达到 \(O(1/n)\) 的快速收敛。

子线索聚类¶

被引文献可归为三条子线索：

多元二次型的 Berry-Esseen 界（绝对误差）：
Bentkus & Götze (1997a), Götze & Zaitsev (2011), Bentkus & Götze (1999)。
这条线关注 \(\sup_x |\mathbb{P}(Q[S_N] \leq x) - \mathbb{P}(Q[G] \leq x)|\) 的收敛速率，核心困难在于处理格点问题与特征值分布。结论是 \(d \geq 5\) 时可达 \(O(1/n)\)。
一元情形的 Cramér 型中等偏差（相对误差）：
Cramér (1938), Rosen (2011), Liu, Shao & Wang (2022)。
这条线关注 \(\mathbb{P}(W > x)/\mathbb{P}(Z > x) - 1\) 的渐近行为，从经典的 \(O(1/\sqrt{n})\) 发展到近年的 \(O(1/n)\)。
格点问题与数论背景：
Bentkus & Götze (1999), Götze (2004)。
这类工作将二次型分布逼近与数论中的格点计数问题联系起来，揭示了 \(d \geq 5\) 这一维度门槛的几何来源。

这个方向在追问的核心问题¶

维度门槛的来源：为什么 \(d \geq 5\) 是获得 \(O(1/n)\) 速率的关键？这与格点问题中的 Oppenheim 猜想有深刻联系。
相对误差 vs 绝对误差：相对误差要求在尾部 \(x \to \infty\) 时仍保持精度，技术难度远高于绝对误差。如何将 Berry-Esseen 理论的工具迁移到 Cramér 理论？
偏差范围的最优性：\(x = o(n^{1/6})\) 这一范围由什么决定？能否扩展到 \(o(n^{1/2})\)？

⚠️ 作者的 framing¶

作者如何定位 gap：作者将本文定位为"首次将 Cramér 型中等偏差推广到多元二次型并取得快速收敛率"。作者强调两点最优性：\(d \geq 5\) 的维度门槛与 \(x = o(n^{1/6})\) 的偏差范围，均与已知下界匹配。
被淡化的竞争路线：Introduction 未提及高维情形（\(d\) 随 \(n\) 增长）下的相关文献。当前结果要求 \(d\) 固定，若 \(d \to \infty\) 则本文界中的常数 \(C\) 依赖 \(d\)，可能失效。这是潜在的局限。
缺失的引用：未讨论与随机矩阵理论中二次型极限分布（如 Marchenko-Pastur 律）的联系。若 \(d/n \to \gamma\)，二次型的极限行为完全不同，本文方法是否可推广？

张力¶

未见明显对立引用。Götze & Zaitsev (2011) 与本文结论一致：均要求 \(d \geq 5\) 才能获得 \(O(1/n)\) 速率。不同之处在于前者处理绝对误差，后者处理相对误差，技术路线差异较大。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号定义： - \(n\)：样本量（标量）。 - \(d\)：随机向量的维度（固定常数，不随 \(n\) 增长）。 - \(X_1, \ldots, X_n\)：独立同分布的 \(d\) 维随机向量，为可观测样本。 - \(X\)：与 \(X_1\) 同分布的随机向量，用于陈述假设条件。 - \(W = \frac{1}{\sqrt{n}} \sum_{i=1}^n X_i\)：标准化和，\(d\) 维随机向量。 - \(Z\)：\(d\) 维标准正态随机向量，\(Z \sim N(0, I_d)\)，作为渐近参照。 - \(Q\)：\(d \times d\) 对称正定矩阵，最大特征值 \(\lambda_{\max}(Q) = 1\)。这是二次型的系数矩阵。 - \(|\cdot|\)：欧氏范数。 - \(\det(Q^{1/2})\)：矩阵 \(Q^{1/2}\) 的行列式。 - \(x\)：偏差参数，控制尾部的远近。本文关注 \(x\) 较大但非极大的区域（中等偏差）。

模型与假设： - 数据生成机制：\(X_1, \ldots, X_n \overset{i.i.d.}{\sim} X\)，其中 \(\mathbb{E} X = 0\)，\(\mathrm{Cov}(X) = I_d\)（单位协方差阵）。 - 矩条件：存在正常数 \(t_0, c_0\) 使得 \(\mathbb{E} e^{t_0 |X|} \leq c_0 < \infty\)。这要求 \(X\) 具有有限的指数矩（比有限四阶矩更强）。 - 目标参数：本文不估计参数，而是研究统计量 \(|Q^{1/2} W|\) 的尾部概率。

可观测与不可观测： - 可观测：样本 \(X_1, \ldots, X_n\)，由此可计算 \(W\)。 - 不可观测（潜在参照）：\(Z\) 是理论构造的高斯参照，不可观测，用于渐近比较。 - 研究目标：比较 \(\mathbb{P}(|Q^{1/2} W| > x)\)（真实分布的尾部）与 \(\mathbb{P}(|Q^{1/2} Z| > x)\)（高斯参照的尾部）的相对误差。

第二步：最小内核¶

最简特例：\(d = 1\) 且 \(Q = 1\)

在此特例下，问题退化为： - \(W = \frac{1}{\sqrt{n}} \sum_{i=1}^n X_i\) 为一元标准化和。 - \(|Q^{1/2} W| = |W|\)，即 \(W\) 的绝对值。 - \(|Q^{1/2} Z| = |Z|\)，即标准正态的绝对值。

核心命题（退化形式）：在 \(d = 1\) 时，本文主定理退化为：对 \(0 \leq x \leq \varepsilon n^{1/6}\)，

\[\left| \frac{\mathbb{P}(|W| > x)}{\mathbb{P}(|Z| > x)} - 1 \right| \leq C \left( \frac{1 + x^5}{n} + \frac{x^6}{n} \right).\]

为什么这个特例能体现核心困难： 1. 相对误差的挑战：当 \(x\) 较大时，\(\mathbb{P}(|Z| > x) \sim \sqrt{2/\pi} \cdot e^{-x^2/2} / x\) 极小。要使相对误差 \(O(1/n)\)，需要绝对误差 \(\mathbb{P}(|W| > x) - \mathbb{P}(|Z| > x)\) 也是 \(O(e^{-x^2/2}/n)\) 量级，这比 Berry-Esseen 的 \(O(1/\sqrt{n})\) 要求高得多。 2. Edgeworth 展开的瓶颈：标准 Edgeworth 展开给出 \(\mathbb{P}(W \leq x) = \Phi(x) + \frac{\kappa_3}{6\sqrt{n}}(1-x^2)\phi(x) + O(1/n)\)，其中 \(\kappa_3\) 为三阶累积量。在 \(x\) 较大时，\((1-x^2)\phi(x)\) 项会放大误差，破坏相对误差界。 3. 对称性消去：若 \(X\) 分布对称（\(\kappa_3 = 0\)），则 \(1/\sqrt{n}\) 阶项消失，直接得到 \(O(1/n)\)。但本文不假设对称性，必须通过测度变换构造一个新分布，在新分布下"等效地"消除三阶项。

证明路线（最小内核版）： 1. 测度变换：定义新概率测度 \(\tilde{\mathbb{P}}\) 使得 \(\frac{d\tilde{\mathbb{P}}}{d\mathbb{P}} \propto e^{\tau W}\)（指数倾斜），选择合适的 \(\tau\) 使得在新测度下，\(W\) 的三阶累积量"被吸收"。 2. 两阶 Edgeworth 展开：在新测度下对 \(\tilde{W}\) 进行 Edgeworth 展开到 \(O(1/n)\) 阶。 3. 对称性消去：利用 \(|W|\) 的对称性（\(\mathbb{P}(|W| > x) = \mathbb{P}(W > x) + \mathbb{P}(W < -x)\)），在求和过程中 \(1/\sqrt{n}\) 阶项相互抵消。 4. 还原与控制：将新测度下的结果还原到原测度，控制变换带来的误差项，最终得到 \(O(1/n)\) 的相对误差界。

从 \(d=1\) 到 \(d \geq 5\) 的推广难点： - 多元 Edgeworth 展开涉及张量运算，\(1/\sqrt{n}\) 阶项为 \(\frac{1}{6\sqrt{n}} \sum_{i,j,k} \kappa_{ijk} H_{ijk}(x) \phi(x)\)，其中 \(\kappa_{ijk}\) 为三阶累积量张量，\(H_{ijk}\) 为 Hermite 多项式。 - 对称性消去需要处理高维球面上的积分，\(d \geq 5\) 的维度门槛来源于此：低维时某些积分发散或无法消去。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：多元独立随机向量标准化和的二次型尾部概率与高斯二次型尾部概率之间的相对误差收敛速率。
核心工具：新设计的测度变换、两阶 Edgeworth 展开、对称性消去技巧。
主要结论：在 \(d \geq 5\) 且 \(x = o(n^{1/6})\) 条件下，相对误差以 \(O(1/n)\) 速率收敛；在 \(1 \leq d \leq 4\) 时速率降为 \(O(n^{-d/(d+1)})\)。维度门槛与偏差范围均为最优。

关键设定与假设¶

定义与记号： - \(W = n^{-1/2} \sum_{i=1}^n X_i\)：标准化和。 - \(Q\)：对称正定矩阵，\(\lambda_{\max}(Q) = 1\)。\(Q^{1/2}\) 为其平方根矩阵。 - \(|Q^{1/2} W| = \sqrt{W^\top Q W}\)：二次型的欧氏范数形式。

核心假设： 1. 零均值与单位协方差：\(\mathbb{E} X = 0\)，\(\mathrm{Cov}(X) = I_d\)。这是标准化条件，无此条件则需额外处理非单位协方差。 2. 指数矩条件：\(\mathbb{E} e^{t_0 |X|} \leq c_0 < \infty\)。这比有限四阶矩（Götze & Zaitsev (2011) 的条件）更强，是为了控制 Edgeworth 展开中高阶项的余项。 3. 非退化条件：\(X\) 不集中于任何真子空间。隐含于 \(\mathrm{Cov}(X) = I_d\)。

与已有文献的对比： - Götze & Zaitsev (2011) 只需有限四阶矩，本文需要指数矩。这是从绝对误差到相对误差的代价：相对误差要求在 \(x\) 较大时仍精确，需要更强的矩条件控制尾部。 - Liu, Shao & Wang (2022) 处理 \(d=1\) 情形，本文推广到 \(d \geq 1\)。维度门槛 \(d \geq 5\) 与 Götze & Zaitsev (2011) 一致。

主要结果¶

定理 1.1（主定理）：设 \(X_1, \ldots, X_n\) i.i.d.，满足上述假设。则存在仅依赖 \(d, t_0, c_0\) 的正常数 \(\varepsilon, C\)，使得：

情形 \(d \geq 5\)：对 \(0 \leq x \leq \varepsilon n^{1/6}\)，

\[\left| \frac{\mathbb{P}(|Q^{1/2} W| > x)}{\mathbb{P}(|Q^{1/2} Z| > x)} - 1 \right| \leq C \left( \frac{1 + x^5}{\det(Q^{1/2}) n} + \frac{x^6}{n} \right).\]

情形 \(1 \leq d \leq 4\)：对 \(0 \leq x \leq \varepsilon n^{1/6}\)，

\[\left| \frac{\mathbb{P}(|Q^{1/2} W| > x)}{\mathbb{P}(|Q^{1/2} Z| > x)} - 1 \right| \leq C \left( \frac{1 + x^3}{\det(Q^{1/2}) n^{d/(d+1)}} + \frac{x^6}{n} \right).\]

统计含义： - \(d \geq 5\) 的快速率：相对误差 \(O(1/n)\) 意味着当 \(n\) 较大时，用高斯尾部 \(\mathbb{P}(|Q^{1/2} Z| > x)\) 近似真实尾部 \(\mathbb{P}(|Q^{1/2} W| > x)\) 的相对误差很小，可用于构造高精度的置信域与 p 值。 - \(d \leq 4\) 的慢速率：\(n^{-d/(d+1)}\) 在 \(d=1\) 时为 \(n^{-1/2}\)，\(d=4\) 时为 \(n^{-4/5}\)，均慢于 \(O(1/n)\)。这表明低维情形下获得快速率有本质困难。 - 偏差范围 \(x = o(n^{1/6})\)：这是 Cramér 型中等偏差的典型范围。当 \(x\) 更大（如 \(x \sim \sqrt{n}\)）时进入大偏差区域，本文方法失效。 - 因子 \(1/\det(Q^{1/2})\)：当 \(Q\) 接近奇异（行列式接近 0）时，界变差。这与 Götze & Zaitsev (2011) 的结果一致，反映了二次型在低维投影上的不稳定性。

最优性： - 维度门槛 \(d \geq 5\)：作者引用 Götze & Zaitsev (2011) 指出，\(d \leq 4\) 时 Berry-Esseen 界的 \(O(1/n)\) 速率不成立，本文结果与此一致。 - 偏差范围 \(x = o(n^{1/6})\)：作者指出这与一元情形的最优范围一致（Liu, Shao & Wang (2022)），且受限于 Edgeworth 展开中 \(x^6/n\) 项的增长。

证明路线与技术技巧¶

整体路线（5 步）：

测度变换：
定义指数倾斜测度 \(\tilde{\mathbb{P}}_\theta\)：\(\frac{d\tilde{\mathbb{P}}_\theta}{d\mathbb{P}} = \frac{e^{\theta^\top X}}{\mathbb{E} e^{\theta^\top X}}\)，其中 \(\theta \in \mathbb{R}^d\) 为参数。
选择 \(\theta\) 使得在新测度下，\(X\) 的三阶累积量张量"被吸收"到均值漂移中。具体地，设 \(\tilde{X} = X - \tilde{\mathbb{E}}_\theta X\)，则 \(\tilde{X}\) 在新测度下均值为零，且通过选择 \(\theta\) 可调整高阶累积量。
关键技巧：利用指数矩条件控制测度变换的 Radon-Nikodym 导数及其导数。
两阶 Edgeworth 展开：
在新测度 \(\tilde{\mathbb{P}}_\theta\) 下，对 \(\tilde{W} = n^{-1/2} \sum \tilde{X}_i\) 的密度函数进行 Edgeworth 展开到 \(O(1/n)\) 阶。
展开形式：\(f_{\tilde{W}}(x) = \phi(x) \left[ 1 + \frac{1}{\sqrt{n}} P_1(x) + \frac{1}{n} P_2(x) + o(1/n) \right]\)，其中 \(P_1, P_2\) 为 Hermite 多项式的线性组合。
技术难点：多元 Edgeworth 展开涉及张量缩并，需要精细控制各项的增长。
对称性消去：
目标：证明 \(\mathbb{P}(|Q^{1/2} W| > x)\) 的 Edgeworth 展开中 \(1/\sqrt{n}\) 阶项消失。
方法：将 \(\mathbb{P}(|Q^{1/2} W| > x)\) 写成球面积分形式，利用球对称性，\(1/\sqrt{n}\) 阶项（奇函数）在球面上积分为零。
维度门槛来源：\(d \geq 5\) 时，球面上某些涉及 Hermite 多项式的积分收敛且可消去；\(d \leq 4\) 时积分发散或无法完全消去。
尾部概率积分：
将密度函数的 Edgeworth 展开代入尾部概率积分 \(\mathbb{P}(|Q^{1/2} W| > x) = \int_{|Q^{1/2} w| > x} f_W(w) dw\)。
利用高斯尾部的渐近展开 \(\int_x^\infty e^{-t^2/2} dt \sim \frac{e^{-x^2/2}}{x}\) 控制主项。
关键技巧：分部积分与递推关系，将高阶 Hermite 多项式转化为低阶项。
还原与误差控制：
将新测度下的结果还原到原测度：\(\mathbb{P}(|Q^{1/2} W| > x) = \tilde{\mathbb{E}}_\theta \left[ e^{-\theta^\top W} \cdot \text{likelihood ratio} \cdot \mathbf{1}_{|Q^{1/2} W| > x} \right]\)。
控制测度变换引入的误差项，确保最终相对误差界为 \(O(1/n)\)。

关键跳跃点： - 引理 3.1（测度变换的构造）：如何选择 \(\theta\) 使得三阶项被吸收？作者利用隐函数定理证明存在合适的 \(\theta = \theta(x)\)（依赖于目标点 \(x\)），使得在新测度下 \(W\) 的分布"看起来更像高斯"。 - 引理 4.2（球面积分的消去）：证明在 \(d \geq 5\) 时，\(1/\sqrt{n}\) 阶项在球面上的积分为零。这是维度门槛的数学来源。

技术技巧点名： - 指数倾斜：经典工具，用于改变分布的均值与累积量结构。 - 多元 Edgeworth 展开：涉及 Hermite 张量与累积量张量的缩并，计算复杂度高。 - 球谐函数与对称性：利用球面调和分析处理高维积分。 - 分部积分与递推：控制尾部积分中的高阶项。 - 隐函数定理：证明测度变换参数 \(\theta\) 的存在性与光滑性。

真实例子与应用¶

本文为纯理论论文，无真实数据例子或模拟实验。作者在 introduction 中提到潜在应用：多元假设检验中 p 值的精确逼近、置信域构造。但未展开。

🔎 结论是否比证明窄¶

主定理的陈述与证明一致，未见明显过度 claim。作者明确指出： - 偏差范围 \(x = o(n^{1/6})\) 受限于 Edgeworth 展开中 \(x^6/n\) 项，若要扩展到 \(x = o(n^{1/2})\) 需要新方法。 - 维度门槛 \(d \geq 5\) 与已知下界匹配，无法改进。

四、开放问题¶

高维推广（\(d\) 随 \(n\) 增长）：本文要求 \(d\) 固定。若 \(d/n \to \gamma \in (0, \infty)\)，二次型的极限分布由随机矩阵理论刻画（如 Marchenko-Pastur 律），此时 Cramér 型中等偏差如何建立？这需要结合随机矩阵与 Edgeworth 展开的新工具。（扎根于 introduction 对固定 \(d\) 的假设）
弱化矩条件：本文要求指数矩条件。能否在有限四阶矩或更低矩条件下获得 \(O(1/n)\) 速率？Götze & Zaitsev (2011) 在有限四阶矩下获得 Berry-Esseen 界，但相对误差是否可行？（扎根于假设 1.2 与 Götze & Zaitsev (2011) 的对比）
偏差范围的扩展：当前 \(x = o(n^{1/6})\) 受限于 Edgeworth 展开的 \(x^6/n\) 项。能否通过更高阶展开或大偏差理论将范围扩展到 \(x = o(n^{1/2})\)？（扎根于 remark 对偏差范围的讨论）
低维情形的最优速率：\(d \leq 4\) 时速率为 \(n^{-d/(d+1)}\)，这是否为下界？能否通过其他方法（如 Stein 方法）改进？（扎根于定理 1.1 对 \(d \leq 4\) 的陈述）

Maintained by 陈星宇 · Homepage · Source on GitHub