Central limit theorem and near classical Berry-Esseen rate for self normalized sums in high dimensions¶

作者: Debraj Das
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

高维中心极限定理（high-dimensional CLT）研究的是：当随机向量维度 \(p\) 可能远大于样本量 \(n\) 时，标准化和 \(\frac{1}{\sqrt{n}}\sum_{i=1}^n X_i\)（或更一般的统计量）在超矩形类 \(\mathcal{A}^{\text{re}}\) 上的分布能否被多元正态分布均匀逼近，以及逼近误差的阶。经典的低维 CLT 要求 \(p\) 固定，但现代高维统计（如多重比较、大规模假设检验）要求 \(p\) 可随 \(n\) 指数增长。过去十五年，以 Chernozhukov–Chetverikov–Kato 系列工作为代表，发展出了一套成熟的理论，主要针对标准化和（分母为 \(\sqrt{n}\)），证明在次指数矩条件下可达到 \(\log p = o(n)\) 甚至 \(\log p = o(n^{1/5})\) 的增长率。但自归一化和（每个分量除以自身的标准差估计）在高维场景下几乎未被研究——这正是本文填补的缺口。

发展脉络（history）¶

奠基工作（标准化和的高维 CLT）：
- Chernozhukov, Chetverikov, Kato (2013) [被引2]：在高维 CLT 的开创性论文中，证明当 \(X_{ij}\) 具有次指数矩时，\(\rho_n(\mathcal{A}^{\text{re}}) \to 0\) 只要 \(\log p = o(n)\)。该文同时提出高斯乘子自助法。
- Chernozhukov, Chetverikov, Kato (2014) [被引3]：将结果推广到稀疏凸集，并证实 \(\log p = o(n)\) 在次指数条件下仍是最优增长率（不可提升为 \(\log p = Cn\)）。
- Chernozhukov, Chetverikov, Kato, Koike (2019) [被引4]：利用迭代随机 Lindeberg 方法，将 \(\log p\) 增长率从 \(o(n)\) 提升至 \(o(n^{1/5})\)（在同样次指数条件下），并给出更紧的 Berry–Esseen 界。
- Koike (2019) [被引6]：进一步改进，在次指数条件下得到 \(\log p = o(n^{1/5})\)，且误差界更优。

高维 CLT 的 Berry–Esseen 率与最优性：
- Fang & Koike (2020) [被引1]：使用 Stein 方法，对对数凹密度的独立同分布向量得到最优的 Berry–Esseen 界（\(O(n^{-1/2})\) 阶），且维度可指数增长。这是第一个给出 \(n^{-1/2}\) 速率且允许 \(p\) 指数增长的结果。
- Kuchibhotla & Rinaldo (2020) [被引10]：对非奇异协方差矩阵，在有限三阶矩下证明 \(n^{-1/2}\) 的 Berry–Esseen 界（基于 Senatov 的复合方法），但要求 \(p\) 增长缓慢（\(\log p = o(n^{1/3})\) 量级）。
- Das & Lahiri (2020) [被引11]：回答了标准化和在超矩形上均匀 CLT 的最优维度增长率：在次指数矩下为 \(\log p = o(n)\)，且即使在有界分布下也不能提升到 \(Cn\)。

自归一化和的极限理论（低维）：
- Robinson & Wang (2005) [被引9]：在仅有限四阶矩条件下，给出自归一化和 \(S_n/V_n\) 的 Cramér 型大偏差展开，误差为 \(O((1+x)/\sqrt{n})\)。
- Shao & Wang (2013) [被引5] 与 Sang & Ge (2013) [被引12]：系统总结了自归一化和的 CLT、大偏差、Berry–Esseen 界，强调多项式矩条件足以导出与正态接近的结果，与标准化和需要指数矩截然不同。

本文的位置：
在标准化和的高维 CLT 已成熟（次指数矩 \(\to\) \(\log p = o(n^{1/5})\)；对数凹矩 \(\to\) \(\log p\) 指数增长且 \(n^{-1/2}\) 率）的背景下，本文首次将高维 CLT 推广到自归一化和。它利用自归一化的“天生肥尾容忍”特性，证明仅需 2–4 阶多项式矩即可使 \(\log p = o(n^{1/2})\)（且不能改进），并在 \((2+\kappa)\) 阶绝对矩下得到 \(n^{-\kappa/2}\) 的 Berry–Esseen 率（\(\kappa=1\) 时最优）。这与标准化和高维 CLT 形成对比：后者需要次指数矩才可能实现指数维度增长，而本文只需多项式矩。

子线索聚类¶

标准化和的高维 CLT（Chernozhukov 系列、Koike、Fang & Koike、Kuchibhotla & Rinaldo、Das & Lahiri）：研究 \(n^{-1/2}\sum X_i\) 的均匀逼近，矩条件以次指数或对数凹为主，维度增长率可达 \(e^{o(n)}\)。
低维自归一化和的极限理论（Shao & Wang、Wang、Sang & Ge）：在有限 2–4 阶矩下，一维 \(S_n/V_n\) 的 CLT、Berry–Esseen、大偏差已被透彻研究，不需要指数矩。
高维自归一化和（本文）：将自归一化的优点（多项式矩即够）推广到高维均匀逼近，同时确定最优的 \(\log p\) 增长率和 Berry–Esseen 速率。此线索目前只有本文。

这个方向在追问的核心问题¶

核心 1：在什么矩条件下，高维（\(p\) 指数增长）自归一化和能有与标准化和相似的均匀 CLT？
核心 2：自归一化和的最优 \(\log p\) 增长率是多少？是否受限于标准化和的下界（\(Cn\)）？还是更宽松或更严格？
核心 3：自归一化和的 Berry–Esseen 率能否达到 \(n^{-1/2}\)？若能，需要何种矩条件？
核心 4：上述结论能否推广到非独立分量（如时间序列、有相关结构）的设定？

已知瓶颈：标准化和的高维 CLT 要求次指数矩或对数凹密度，这是较严格的分布假设；而自归一化和在低维下只需要有限 2–4 阶矩，其高维推广理应更弱，但需要处理“分母随机”带来的非线性以及高维概率的联合控制。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成： “标准化和的高维 CLT 被 Chernozhukov 等人从次指数矩做到对数凹矩，但其矩条件仍然严格；另一方面，低维自归一化和已知仅需多项式矩。因此，将自归一化和推进到高维应是‘显然的下一步’，并应能大幅放宽矩条件。” （对应引言：“The aim is to reduce the exponential moment conditions, generally assumed for exponential growth of the dimension … to some polynomial moment conditions.”）

被淡化或回避的竞争路线：
- 作者假设“components of \(X_i\) are iid”（即各维独立且同分布），这大幅简化了相关性结构。标准化和高维 CLT 的代表工作（Chernozhukov et al.）并不需要分量独立，可处理任意协方差结构。作者未讨论分量相关时的扩展可能性，只是作为后续工作留白。
- Fang & Koike (2020) 用 Stein 方法对对数凹密度得到 \(n^{-1/2}\) 率，本文在 \(\kappa=1\) 时也得到 \(n^{-1/2}\) 率，但需要分量 iid 假设；作者未深入对比两者适用范围的重叠与优劣。

什么明显该被引 / 该存在、却没出现在 intro 里？
- 未见对 高维 t 统计量（或学生化统计量）的高维 CLT 工作（如 “High-dimensional two-sample t-tests” or “High-dimensional CLT for t-type statistics” 方向）。这些工作与自归一化和直接相关，但作者未引用，暗示本文可能是该分支的首篇理论分析。值得研究者去查证是否存在平行工作。

张力¶

未见明显对立引用。Chernozhukov 系列与 Fang–Koike 系列在结果上互补（次指数 vs. 对数凹），但无矛盾。自归一化的低维结果高度一致。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(n\)：样本量（行数）
- \(p\)：维度（列数），可能随 \(n\) 增长
- \(X_i = (X_{i1}, \ldots, X_{ip})^\top\)：第 \(i\) 个观测向量，\(i=1,\ldots,n\)。可观测数据：\(n \times p\) 矩阵 \(\{X_{ij}\}_{i,j}\)。
- 假设：对每个 \(i\)，分量 \(X_{i1},\ldots,X_{ip}\) 独立同分布（iid across \(j\)）；且 \(X_1,\ldots,X_n\) 也 iid。故而所有 \(X_{ij}\) 是 i.i.d. 的随机变量——这是本文的核心简化假设。
- 记 \(X \equiv X_{11}\)（代表边际分布），设 \(\mathbb{E}[X] = 0\)，\(\mathbb{E}[X^2] = 1\)（可通过缩放归一化，不影响 CLT 结论）。
- \(S_j = \sum_{i=1}^n X_{ij}\)，\(V_j = \sqrt{\sum_{i=1}^n X_{ij}^2}\)，则自归一化和向量为

\[T_n = \left(\frac{S_1}{V_1}, \ldots, \frac{S_p}{V_p}\right)^\top \in \mathbb{R}^p.\]

- 近似目标：\(Z \sim N(0, I_p)\)，即各分量独立标准正态。
- 超矩形类：\(\mathcal{A}^{\text{re}} = \{\prod_{j=1}^p [a_j, b_j] \cap \mathbb{R} : -\infty \le a_j \le b_j \le \infty\}\)。
- 均匀 CLT 的误差度量：

\[\rho_n(\mathcal{A}^{\text{re}}) = \sup_{A \in \mathcal{A}^{\text{re}}} |P(T_n \in A) - P(Z \in A)|.\]

- Berry–Esseen 率：关心 \(\rho_n(\mathcal{A}^{\text{re}})\) 作为 \(n\) 的函数在允许 \(p\) 增长时的衰减阶数。

可观测数据 vs 潜在/不可观测量：
- 可直接观测的是 \(\{X_{ij}\}\)。
- 想要但观测不到的：各分量“真实”的均值（假设为 0 已知）、标准差的平方根（由样本估计，但已在 \(V_j\) 中）。这是自归一化设定——分母本身是随机变量、不假设已知尺度。
- 潜在量无关（因果推断中才涉及）。此为纯统计推断。

第二步：最小内核¶

为了看清核心困难，取最简特例：p = 1（一维）。
此时 \(T_n = S_1 / V_1 = \frac{\sum_{i=1}^n X_i}{\sqrt{\sum_{i=1}^n X_i^2}}\)，其中 \(X_i\) i.i.d.，\(\mathbb{E}[X]=0\)，\(\mathbb{E}[X^2]=1\)。一维自归一化和的经典结果（Shao & Wang 综述）说：
- 若 \(\mathbb{E}|X|^{2+\kappa} < \infty\)（\(0<\kappa\le 1\)），则有 Berry–Esseen 界

\[\sup_{x} |P(T_n \le x) - \Phi(x)| = O(n^{-\kappa/2}).\]

当 \(\kappa=1\)（有限三阶矩）时，界为 \(O(n^{-1/2})\) 且最优。

推广到高维 (\(p \gg 1\)) 时的核心困难：
由于分量 iid 假设，\(T_n\) 的坐标间相互独立。因此对于任意超矩形 \(A = \prod [a_j, b_j]\)，

\[P(T_n \in A) = \prod_{j=1}^p \left\{ P(T_{n1} \le b_j) - P(T_{n1} \le a_j) \right\},\]

其中 \(T_{n1}\) 代表任一分量的一维自归一化和。设 \(F_n(x) = P(T_{n1} \le x)\)，\(\Phi(x)\) 为标准正态 cdf。则

\[|P(T_n \in A) - P(Z \in A)| = \left| \prod_{j=1}^p \Delta_j - \prod_{j=1}^p \Phi\text{-diff}_j \right|,\]

其中 \(\Delta_j = F_n(b_j)-F_n(a_j)\)，\(\Phi\text{-diff}_j = \Phi(b_j)-\Phi(a_j)\)。利用简单不等式 \(| \prod a_j - \prod b_j| \le \sum_j |a_j - b_j|\)（因为每个 \(a_j,b_j \in [0,1]\)），得

\[\rho_n(\mathcal{A}^{\text{re}}) \le p \cdot \sup_{x} |F_n(x) - \Phi(x)|.\]

由此，若一维 Berry–Esseen 界为 \(O(n^{-\kappa/2})\)，则 \(\rho_n = O(p \, n^{-\kappa/2})\)。要求 \(\rho_n \to 0\) 只需 \(p = o(n^{\kappa/2})\)，即 \(\log p = o((\kappa/2)\log n)\)——这是多项式增长率，远弱于论文宣称的 指数增长率（\(\log p = o(n^{1/2})\)）。

这说明：简单乘积不等式给出的上界太松。 论文的真正贡献在于：利用更强的概率耦合（而非乘积界的累加），将 \(\rho_n\) 控制为一个与 \(p\) 几乎无关的量（指数衰减误差），从而允许 \(p\) 指数增长。最小内核因此不是乘积计算，而是如何直接构造 \(T_n\) 与 \(Z\) 的耦合，使得耦合失败的概率随 \(n\) 指数衰减——这正是论文证明的 backbone。

具体地（从论文证明缝合推断），证明路线使用了分位数耦合不等式（Mason & Zhou 2012）：对每个坐标 \(j\)，可在同一个概率空间上构造 \(T_{nj}\) 和其 Gaussian 近似 \(Z_j\)，使得

\[|T_{nj} - Z_j| \le C_n,\]

其中 \(C_n = O(n^{-\kappa/2})\) 以极高概率成立。由于坐标独立，这样构造的耦合向量 \((\tilde{Z}_1,\ldots,\tilde{Z}_p)\) 就是 i.i.d. \(N(0,1)\)。那么

\[|P(T_n \in A) - P(Z \in A)| \le P(\exists j: |T_{nj} - Z_j| > C_n) \le p \cdot P(|T_{n1} - Z_1| > C_n).\]

该概率若是指数小（如 \(O(e^{-cn^{\kappa/2}})\)），则 \(p\) 可指数增长。论文正是通过自归一化大偏差的结果（Wang 2005 等）证明这种指数衰减。因此，最小内核就是在弱矩条件下，证明一维自归一化和与正态的耦合误差尾部以指数速率衰减，然后利用坐标独立性直接放大到高维。

三、这篇论文做了什么¶

三句话¶

研究了什么问题： 高维自归一化和 \(T_n\) 在超矩形类上的均匀 CLT，目标是将矩条件从指数阶放松到多项式阶，并确定最优的 \(\log p\) 增长率。
核心工具/方法： 分位数耦合不等式（Mason–Zhou）+ 一维自归一化的大偏差与 Berry–Esseen 界的精细展开。
主要结论： (a) 仅需 \(X_{ij}\) 存在 2–4 阶矩，即可使 \(\rho_n(\mathcal{A}^{\text{re}}) \to 0\) 当 \(\log p = o(n^{1/2})\)，且该增长率不能改进（即使有界分布也如此）；(b) 若存在 \((2+\kappa)\) 阶绝对矩（\(0<\kappa\le 1\)），则 \(\rho_n = O(n^{-\kappa/2})\)，且 \(\kappa=1\) 时最优（即 \(n^{-1/2}\) 率）。

关键设定与假设¶

Assumption A（表里统一在此）：(i) 对每个 \(i\)，分量 \(X_{i1},\ldots,X_{ip}\) 独立同分布 (ii) 向量 \(X_1,\ldots,X_n\) 独立同分布。换言之，所有 \(X_{ij}\) i.i.d.。
可设 \(\mathbb{E}[X_{11}]=0\)，\(\mathbb{E}[X_{11}^2] = 1\)（归一化），且 \(\mathbb{E}[X_{11}^{m}]\) 对于某些 \(m\) 有限。
假设强度对比：相比标准化和高维 CLT 假设（次指数矩、对数凹密度）大幅放宽，但新增了“分量独立”——这是本文结果成立的关键（后续开放）。
论文还额外假设了某些矩的边界以防止分母退化，但本质上只需非零方差。

主要结果（定理）¶

定理 1（UCLT 的充分矩条件与最优增长率）：
在 Assumption A 下，若 \(\mathbb{E}[|X_{11}|^2] < \infty\)（即仅二阶矩），则当 \(p = e^{o(n^{1/2})}\) 时，\(\rho_n(\mathcal{A}^{\text{re}}) \to 0\)。更一般地，若 \(\mathbb{E}[|X_{11}|^{2+\kappa}] < \infty\)，则当 \(\log p = o(n^{\kappa/2})\) 时结论成立。
- 该定理证明：\(\log p\) 增长率可达 \(n^{1/2}\) 阶的任意次幂 \(o(n^{1/2})\)，但不能是 \(O(n^{1/2})\)。
- 下界：论文给出反例：当 \(p = e^{c\sqrt{n}}\) 时（某些 \(c>0\)），存在分布使得 \(\rho_n\) 不趋于 0。因此 \(o(n^{1/2})\) 是最优。

定理 2（Berry–Esseen 率）：
在 Assumption A 且 \(\mathbb{E}[|X_{11}|^{2+\kappa}] < \infty\) (\(0<\kappa\le1\)) 下，

\[\rho_n(\mathcal{A}^{\text{re}}) = O(n^{-\kappa/2}).\]

当 \(\kappa=1\) 时，该界最优（存在分布使得 \(\rho_n \ge c n^{-1/2}\)）。

定理 3（t 统计量版本）：
将 \(T_n\) 中每个分母替换为 \(\sqrt{\frac{1}{n-1}\sum_{i}(X_{ij}-\bar{X}_j)^2}\)（即通常的学生 t 统计量），上述结论仍成立，只需调整常数。

证明路线与技术技巧（理论型）¶

整体路线（3–5 步逻辑主干）：

Step 1: 降为一维问题（利用分量独立）
由于假设分量 i.i.d.，\(T_n\) 的联合分布是各坐标独立的一维自归一化和分布的乘积。因此只需处理一维情形，并通过耦合将高维概率与一维耦合误差关联。

Step 2: 构造一维自归一化和的高斯耦合
对每个坐标 \(j\)，使用 Mason–Zhou 分位数耦合不等式（Mason & Zhou 2012）将 \(T_{n1}\) 与一个标准正态变量 \(Z_1\) 放入同一概率空间，使得

\[|T_{n1} - Z_1| \le \delta_n,\]

其中 \(\delta_n\) 是依赖于 \(n\) 和 \(\kappa\) 的量。该不等式的关键是：若知道 \(T_{n1}\) 的分位数函数与 \(\Phi\) 的偏差，就能在构造时控制耦合误差。为此需要一维自归一化的大偏差或非均匀 Berry–Esseen 界。论文调用 Wang (2005) 和 Sang & Ge (2013) 的结果：在 \((2+\kappa)\) 阶绝对矩下，对任意 \(x>0\)，

\[|P(T_{n1} \le x) - \Phi(x)| \le C n^{-\kappa/2} (1 + |x|^C) e^{-x^2/2} ?\]

（更精确的是指数衰减型误差，见原引文。）由此可解出 \(\delta_n = O(n^{-\kappa/2})\) 且耦合失败概率 \(P(|T_{n1} - Z_1| > \delta_n) \le e^{-c n^{\kappa/2}}\) 或类似指数小。

Step 3: 扩展到高维耦合
由于各坐标独立，可独立地对每一坐标实施上述耦合，得到整体耦合向量 \(Z = (Z_1,\ldots,Z_p)\) 满足：以概率至少 \(1 - p e^{-c n^{\kappa/2}}\)，

\[\max_{1\le j\le p} |T_{nj} - Z_j| \le \delta_n.\]

Step 4: 转化为均匀逼近
对任意超矩形 \(A\)，考虑膨胀事件：

\[P(T_n \in A) \le P(Z \in A^{\delta_n}) + p e^{-c n^{\kappa/2}},\]

其中 \(A^{\delta_n}\) 是沿各边扩张 \(\delta_n\) 的矩形。利用高斯测度的 Lipschitz 性质，\(P(Z \in A^{\delta_n}) - P(Z \in A) \le C p \delta_n\)？但论文用了更精细的极值方法，得到

\[|P(T_n \in A) - P(Z \in A)| \le C n^{-\kappa/2} + p e^{-c n^{\kappa/2}}.\]

由 \(\log p = o(n^{\kappa/2})\) 知第二项也趋于 0，且第一项决定了速率 \(n^{-\kappa/2}\)。

Step 5: 下界构造
为证明最优增长率和最优 Berry–Esseen 率，论文构造反例：取 \(X_{ij}\) 为两点分布或其他特殊分布，计算 \(\rho_n\) 的下界，与上界匹配。

关键跳跃点：
- 耦合不等式中的指数衰减尾部：非平凡处在于，一维自归一化和的误差虽有非均匀 Berry–Esseen 形式（如 \((1+|x|)e^{-x^2/2}\) 权重），但通过 Mason–Zhou 技巧可将其转化为指数型耦合误差——这是连接“多项式矩”与“指数尾概率”的关键。
- 维度依赖项的放缩：在 Step 4 中，乘积的膨胀操作会引入 \(p \delta_n\) 项（一阶 Lipschitz），但论文证明实际是 \(p \cdot e^{-c n^{\kappa/2}} + \delta_n\)（即第二项是指数小而非线性），因此维度可指数增长。

技术技巧点名：
1. Mason–Zhou 分位数耦合不等式：用于将分布逼近转化为逐点耦合，核心工具。
2. 自归一化大偏差展开（Wang 2005, Sang & Ge 2013）：给出 \(T_{n1}\) 的分布与标准正态的指数阶误差，是耦合的必要输入。
3. 高斯测度的 Lipschitz 性质 / 反函数技巧：控制膨胀后概率的增量。
4. 极值概率的 Bonferroni 与指数不等式：处理 \(\max_j\) 事件。

真实例子与应用¶

本文为纯理论论文，无真实数据例子或模拟实验。 但第三节末明确指出：“As an application, we find respective versions for component-wise Student’s t-statistic”。这意味着所有结果可直接移植到高维 t 检验的统计量 \([T_n = (\sqrt{n}\,\bar{X}_j / s_j)]\)（其中 \(s_j^2 = \frac{1}{n-1}\sum (X_{ij} - \bar{X}_j)^2\)），因为学生化统计量与自归一化和相差一个 \(n^{-1/2}\) 倍数且分母稍有不同，但渐近等效。因此，本文的理论为高维多重 t 检验的正态近似提供了精确的矩条件与收敛速率保证。

🔎 结论是否比证明窄¶

分量 iid 假设：论文在“主要结果”中并未特别强调“假设分量独立”，但在证明中完全依赖此假设推导独立耦合。结论语句（如定理 1 中）可能直接称“在 \(X_{ij}\) i.i.d. 下”，但读者可能忽略。需注意：定理的适用范围严格限制在分量独立同分布，不能泛化为任意相关性结构。
最优增长率的“不能改进”证明：论文构造的反例中 \(X_{ij}\) 取伯努利分布或其他有界分布，此上界 \(o(n^{1/2})\) 是对整个矩形类而言，但也许对特定子类（如对称矩形）可以改进——论文未提及。

四、开放问题（扎根具体语句）¶

放松分量独立假设：本文的假设“components of \(X_i\) are iid”导致各维独立。在标准化和的高维 CLT 中，Chernozhukov 等人从不要求分量独立。扎根点：论文未来工作部分（若有）或结论部分的“it is of interest to consider correlated components”。具体语句未见，但基于常识，这是显然的下一个环节。需要证明在一般协方差结构下，自归一化和的 UCLT 是否仍允许多项式矩条件。
对超立方体类的最优增长率：论文只处理了超矩形类 \(\mathcal{A}^{\text{re}}\)。对于更一般的凸集（如欧几里得球、稀疏凸集），自归一化和的 UCLT 是否成立？扎根点：论文引言引用 [3] 的工作时提及对标准化和扩展到稀疏凸集，但本文未平行推广。
分量独立假设下的 Berry–Esseen 率是否能改进到 \(n^{-1/2}\log p\) 或更紧？ 论文在 \(\kappa=1\) 时得到 \(n^{-1/2}\) 且说是最优（通过反例证明确实不能小于 \(c n^{-1/2}\)），但反例是构造的特定分布。对于“典型”分布（如连续分布），可能真实常数更小，但论文未讨论。
高维两样本 t 检验的精确 null 分布：本文结论直接适用于单样本 t 统计量。但两样本问题（自归一化和表达式不同）是否有类似结果？扎根点：论文末尾提到的“component-wise Student’s t-statistic”特指单样本情形；两样本需另外处理。

（注意：以上每条后均应提醒研究者去查近期 5 篇 intro 确认是否为真 gap，此处因篇幅不展开。）

Maintained by 陈星宇 · Homepage · Source on GitHub