Randomized empirical likelihood test for ultra-high dimensional means under general covariances¶

作者: Yuexin Chen, Lixing Zhu, Wangli Xu
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 9/10
链接: https://doi.org/10.1093/jrsssb/qkaf004

一、领域脉络与小综述¶

这个方向是什么¶

本方向解决的根本问题是：当数据的维度 \(p\) 远大于样本量 \(n\)（超高维，\(p = o(n)\) 乃至 \(p \gg n\)），且协方差结构未知且可能有异质性时，如何检验总体均值向量是否等于某个固定向量（通常为零向量）？这是高维统计推断中最基本的问题之一，与多个假设检验、极限理论以及经验似然方法的推广紧密相关。当前成熟度：有许多方法（如CLX检验、HDQ检验），但很少有方法在允许协方差结构非常一般（非稀疏、任意相关）的同时，还能保持精确的渐近显著性水平，且不需要分块结构或协方差先验。

发展脉络（history）¶

根据论文引言（作者手绘的领域map）中的引用链：

奠基工作：经典的均值检验基于 \(T^2\) 统计量（Hotelling, 1931）或基于协方差估计的校准；当 \(p > n\) 时，这些方法直接崩溃。随后高维均值检验的早期尝试来自 Bai and Saranadasa (1996)（统计量基于二次型：\(\| \bX\|^2 - \text{tr}(S)\)），正向/负向偏差处理。此外，Owen (1990) 的基础经验似然法（EL）在低维下几乎无需方差估计，但在高维下EL优化不唯一。
主要进展：Chen and Qin (2010) 写成U-统计量形式修正偏差，渐近正态；Cai, Liu and Xia (2014, JRSSB) 提出的 CLX检验，基于协方差稀疏假设的阈截断 \(L_\infty\)-范数统计量，是当前非参数高维均值检验的benchmark标杆。此外，Chen, Peng and Qin (2021, JRSSB) 提出的EL-NABT（海量变量下基于EL的校准）解决了多元均值检验中对协方差估计敏感的问题，但EL‑NABT假设数据的协方差矩阵具有某种简洁参数结构，且在超超高维 (\(p=o(n^\alpha)、\alpha<1\)) 下功效不够好。
当前frontier：如何放松协方差假设至完全一般（任意相关、无稀疏），同时保持EL方法渐近控制第一类错误，并提供高功效（尤其对稀疏或非稀疏备择均一致有效）。本文自称：「没有一个已有的方法同时允许一般未知协方差、超高维，并能在稀疏与密集备择下都取得满意功效。」
本文在脉络中的位置：它声称首次在不假设协方差结构的情况下，使用随机投影 + 经验似然 + 随机对称化构造超高维均值检验，且与现有方法（CLX、EL‑NABT、HDQ）相比在多种设定（稀疏、密集、混合相关）下功效更高。注意：这是作者的framing，需保持批判。

子线索聚类¶

这些被引文献大致落在2-3条子线索：

基于二次型（U-统计量）的检验方法：Bai-Saranadasa (1996), Chen-Qin (2010), 后来的HDQ (由本文引用「用于超高维潜在备择检验的 F-type test」)等。这簇专注于：构造均值平方和的U-统计量，通过中心极限定理在无强协方差假设时逼近null，但功效依赖于信号信噪比的聚集（对稀疏信号弱）。
基于极值/最大-范数（threshold）的方法：Cai, Liu & Xia (2014, CLX)。这簇擅长检测稀疏信号（只有很少几个非零成分），但需要协方差矩阵的稀疏结构，或需先估计协方差的逆（bandable/sparse assumption），本文刻意批评这一假设：实际数据集的协方差矩阵很可能非稀疏，因此CLX的阈值截断依赖此假设，一旦违背该假设，检验的水平和功效控制都成谜。
基于经验似然（EL）的高维推广：Chen, Peng & Qin (2021) 为代表的EL-NABT，以及之前的下标累积EL（multiple EL ratios）。优势是无需估计方差，自动适应协方差不确定性，但协方差结构往往需要参数化（比如假设一个因子模型），或只能处理特定增长速度的小p（\(p=o(n)\)）。本文就是这条线索的延伸。

这个方向的核心问题（2-4个）与当前瓶颈¶

问题1（信号检测）：如何在没有先验关于备择信号的结构（稀疏vs密集；strong vs weak effect）条件下构造检验，使得检验在两种极端场景下功效都不太差？当前方法要么偏向稀疏（CLX），要么偏向聚集（U-stat 类），无法自动适配。
问题2（协方差结构鲁棒性）：如何构造检验使其在任意协方差（包括强相关、非稀疏）下仍然保持正确的渐近size？现有方法要么依赖协方差稀疏（CLX），要么依赖参数结构（EL‑NABT），几乎没有同时接受一般协方差 + 超高维的。
问题3（经验似然在高维下的计算稳定）：EL优化涉及 \(p\) 个参数的拉格朗日对偶，当 \(p \gg n\) 时原问题不再凸或解不唯一。如何设计能够避免崩溃的EL变体，同时借助随机投影降维，再结合拟牛顿进行可扩展计算？这是本方法直接处理的。
已知瓶颈：在最前沿做「同一检验同时处理稀疏、一般和密集备择」的工作极少。Wu (2023) 有人提出自适应阈值检验但计算极重。

⚠️ 作者的framing¶

作者的缺口描绘："对所有协方差结构、超高维情况，目前尚无同时提供逐点检验（不依赖稀疏假设）并能用经验似然控制size的检验。已有方法（CLX、HDQ、EL‑NABT）在何种备择下（稀疏vs非稀疏）至少有一个会严重失效。" —— 本文就把自己定位为填补这个缺失。在这个叙事中，EL‑NABT 被置于似乎只能在协方差参数结构下工作，而本文把相位投射绑定到无关分布假设的随机对称化上。

淡化/回避的竞争路线： - 夹逼/中的压缩方法的变体：如基于高维CV的目标夹逼（TOSSE）和基于Hubert's type M-estimators的方法——这些在第一类控制上更稳健，但被简介地忽略了。 - 双重检验：Multivariate sign test 的推广（Oja, 2010 之后的秩方法）无需矩假设，但计算复杂度也不低，未被对比。 - 明显该被引用但不存在的：用户可以从参考列表出发反查：是否存在「适应性高维均值检验，允许一般协方差」综述文章（如Bickel, 2018 ?）——作者若回避提及广泛文献中的讨论，可能因为自己不是综述文章而是给出单一解法。提醒用户：这是关键文献检查点——应查阅与本文接近的工作是否在讨论中缺席（比如Fan & Lv 的某些工作）。

张力¶

未见明显对立引用（通常一个引用用来支持一个观点）；但有隐含的张力：比如 High-dim CLX (2014) 的稀疏协方差前提与 EL-NABT (2021) 用的参数协方差假设前提是不同、甚至对立的。RB 等正交证明链在两者之间无达共识。本文通过sign-flip法「统一」了这些，但需要确认：它是否在两派假设都不满足时依然奏效？

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( \X_1, \ldots, \X_n \) i.i.d. \(p\)-维随机向量，每个 \(\X_i \in \mathbb{R}^p\)，观测样本矩阵为 \(n \times p\)。
\( \mu = \mathbb{E}[\X_i] \) 被检验的总体均值向量（参数/estimand）。
\( \Sigma = \text{Cov}(\X_i) \) 未知的 \(p \times p\) 协方差矩阵（参数）。
零假设 \( H_0: \mu = \mathbf{0} \)；备择 \( H_1: \mu \neq \mathbf{0} \)。
维数 \(p = p_n\) 是随 \(n\) 增长的（超高维： \(p \gg n\)，但 \(\log p = o(n)\) 是弱条件）。
通过随机投影，将 \(p\) 维观测投影到 \(k\) 条方向上（每条方向 \( \mathbf{b}_j \) 是单位向量）。 \( k\gg1\) 但远小于 \(n\)（实现降维）。
可观测数据：各 \(\X_i\)（数据）。但不可观测且需要识别的是 true \(\Sigma\)（无先验结构）以及备择的方向。
模型：\(\X_i = \mu + \epsilon_i\)，其中 \(\epsilon_i\) 来自某个未知的 \(p\)-variate分布，具有零均值和协方差 \(\Sigma\)，并且 \(p\) 会增加至 \(p \gg n\)。只有非常弱的矩条件（存在有限的第4阶矩分量；不用高斯假设）。
可观测与潜在的区别：
可观测：唯一可完全观测的是 \(\X_i\) 的每个样本（向量）；通过投影得到标量 \( \langle \X_i, \mathbf{b}_j \rangle \)。
不可观测/潜在：
- 真实的 \(\Sigma\) ——研究人员需要假设什么；该检验完全不需要任何关于 \(\Sigma\) 的假设。
- 备择方向（哪些坐标非零？模式未知）；方法通过多重随机投影来近似覆盖许多可能的信号方向。

第二步：讲最小内核 —— 最简特例¶

最简特例：\(p=1\)（单变量），此时退化为检验一个标量 \(\mu_0=0\)。但所需技术不够体现贡献。因此更确当的最简特例是单投影情形（\(k=1\)）：取一个固定单位向量 \(\mathbf{b}\)（比如 \((\frac1{\sqrt{p}}, \ldots, \frac1{\sqrt{p}})'\)，或者随机取某个坐标基），然后在这个投影方向上进行检验。

设定：投影后得到一维随机样本 \(Z_i = \mathbf{b}^\top \X_i\)，i.i.d. 未知真均值为 \(\theta=\mathbf{b}^\top\mu\)。如果原始 \(H_0: \mu=0\) 成立，则 \( \theta = 0\)；反之则 \(\theta\neq 0\)。

经典经验似然（EL）的一维形式：检验 \(H_0: \theta=0\) 的EL统计量是

\[\ell(\theta) = -2 \sum_{i=1}^n \log(1 + \lambda (Z_i - \theta))\]

其中 \(\lambda\) 满足矩条件 \(\sum_{i=1}^n \frac{Z_i-\theta}{1+\lambda(Z_i-\theta)}=0\)。经典EL：Wilks 定理给出 \(\ell(0) \xrightarrow{d} \chi^2_1\)。

vs 本文方法的玩法： 1. 本文直接构造的校准EL检验统计量（称 \(T\)）是：在给定投影 \(\mathbf{b}\) 下，定义带惩罚的EL比：

\[\tilde\ell(0) = -2 \sum \log(1 + \lambda_{opt} Z_i) + \text{一个小惩罚项} \quad (\text{对 } p=1 \text{情况该惩罚消失，退化为经典EL})\]

2. 其实对单投影，还没有体现本论文最重要的方法：随机对称化。那是因为随机对称化是为了在不知道 \(\Sigma\) 下确定多重投影联合的临界值。 3. 但你想把握符号翻转（sign flip）怎样帮助构建临界值，可看下面的模型：给定来自投影数据的一个向量 \(\mathbf{Y} = (Z_1,...,Z_n)\)，在 \(H_0\) 下，该向量的符号翻转（即随机地将每个 \(Z_i\) 乘以 \(\pm 1\) 并重算统计量）提供了旋转不变的重新采样机制，产生该统计量的精确零分布。随机符号翻转依赖于在 \(H_0\) 下，\(Z_i\) 分布关于原点对称这一事实——但在一般分布下，我们需要对数据进行中心化再翻转。文中通过一种巧妙校准（calibration，某种稳定性变换）来放松对称性假设。

以这个单投影为例看整体思路： - 为了免于估计协方差 \(\Sigma\)，转而用符号翻转组来生成与原始观测分布很相似但在零假设下已对称的样本，从而免去参数估计。 - 对单投影，若我们用 \(Z_i\) 计算 \(\ell(0)\)，随机对称化的null分布就是对数据 \(\{Z_i\}\) 的n次随机符号翻转，并取 \(\ell(0)\) 的90%或95%分位数。这种方法完全不需要任何\(\Sigma\)假设，并且当 \(n\) 大时，渐近拒绝域的分位数只需来自符号翻转样本。

所以最小内核是：用符号翻转组来为投影坐标构造经验似然的稳定临界值，等效于令所有推导都基于结果对符号翻转的不变性，从而完美避开协方差估计。

在此，「本文的核心数学贡献」就是在多投影（更高维）下：各自单独的翻转将产生不同叠加，统计量变为凸组合时，符号翻转的联合分布性质也保持——这就是一般情况。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：为超高维均值（\(p \gg n\)）构造一个无需协方差假设（甚至允许任意相关）且能在稀疏与密集备择信号下一致有效的检验，使用随机投影 + 经验似然 + 随机符号翻转。
核心方法/工具：将p维均值检验转化为多个随机投影（\(k\) 个）后的一维经验似然比的联合；使用随机符号翻转（sign flip）组来构建临界值，取代传统的渐近分布或自举方法，并利用拟牛顿算法处理EL优化需求。
主要结论：实验证明在不同信号结构下，该检验均能控制渐近第一类错误，且功效与已有方法持平或更好；特别在COV结构一般、p极高的情形下，相比CLX和HDQ减少了假阳性控制问题。

关键设定与假设¶

假设1（弱矩）：存在有限的第4阶矩分量：\(\max_j \mathbb{E}[X_{ij}^4] < \infty\)。这比高斯假设弱，但足以做CLT。
假设2（维数增长）：\(\log p = o(n)\)，允许指数级p，但不需要p比n的某个幂次高。
假设3（投影设定）：总选\(k\)个投影方向，且当\(k \to \infty\) 不可过快（相对于n）。需要\(k=o(n)\)或某种中间条件以保证符号翻转后构造的分位数逼近有效。更具体条件在命题中被显式化。
需要指出与已有文献的差异：相比CLX（要求协方差矩阵稀疏，即其谱范数近似diag），本文完全不需要任何有关协方差结构的要求。相比EL-NABT，本文不需要预先假设协方差因子模型。这是显著放松的要求。

主要结果¶

定理1 （单投影下校准EL的渐近行为）：给定一个固定投影方向 \(\mathbf{b}\)，在 \(H_0\) 下，校准后的经验似然比统计量 \(T_{\mathbf{b}}\) 收敛于一个标准正态分布（而非卡方），且收敛速率与传统的CLT一致。证明中的核心难点：校准项修正了传统EL的一个偏差（由高维效应引起）。这一结果不依赖于 \(\Sigma\)的结构。
定理2 （多重投影统计量的零分布）：当用 \(k\) 个随机正交投影时，该统计量记为 \(W\)，在 \(H_0\) 下它渐近服从中心卡方分布（自由度≈k）。但理论分布不用；而是经由符号翻转产生仿真分位数。核心技术创新：符号翻转组产生一个精确的零分布近似：Banach空间上投影的经验过程保证了对其用符号翻转的方法，即使\(k\)大也成立。
定理3 （检验功效）：对局部备择（\(\mu = n^{-1/2} \delta\)，其中\(\delta\)只需有一定的范数），检验的功效收敛于一个常数（>size），与投影如何选取有关。而且该定理指出：投影选取越「适配」信号方向，功效越高；但即使方向完全错配，功效不会低于已有基于U-stat的检验（如Bai & Saranadasa）。

证明路线与技术技巧（需要很具体）¶

整体路线（3-5步逻辑主干）：
第一步：单投影的校准EL — 使用多项式展开处理经验似然优化中的拉格朗日乘子，将其与「标度化偏差校正」相关联。具体而言，利用经验矩的渐近展开，识别出传统EL在高维下的偏差项（order \(p/n\)），校准因子正是该偏差的估计（基于数据的一步估计），确保所求统计量回归到均值为0方差为1。
第二步：处理多重投影的联合分布（主要贡献的关键跳跃）。将\(k\)个投影的统计量写成 \(k\)个依赖项；通过martingale 中心极限定理 + 随机对称化的交换论证，证明\(W\)在符号翻转下的条件分布（在观测的翻转下）收敛到渐近null分布（无论真实的Σ如何）。这里的Key step是利用符号翻转的置换组生成一套与原数据同分布的对称化版本数据，该版本在零假设下与本真数据同分布，然后在这种重抽样的条件分布中逼近null，从而产生可操作的临界值。
第三步：证明
\[W^\text{flipped} \xrightarrow{d} \chi^2_k\]
（条件几乎必然），因为翻转后的数据结构简化为独立同分布对称白噪声。
第四步：功效—利用Pitman型局部备择得到二次型统计量的非中心卡方极限，并确定其非中心性参数来自于投影方向与\(\mu\)的对齐。
第五步（计算方面）：EL优化中拉格朗日参数求解的拟牛顿迭代：利用对角Hessian矩阵近似（视为EL的方差结构可近似为拟-稀疏），处理 \(k\cdot p\)维优化实时通过辅助变量降维。
关键跳跃点：最深的引理是Lemma 3（原文本中）——它表述了在符号翻转集合 \(S = \{\pm1\}\) 上平均后的calibrated EL统计量的经验过程是渐近Donsker的，使得我们用经验分位数无需担心维度的暴增。难点是：证明这种符号翻转的过程不要求数据分布对称性——这正是「calibration (除以调整因子)」在其中角色：它将原本不对称的分布转化为几近对称的伪分布。完成点是通过收缩估计法，使用MLE型的矫正量。
技术技巧点名：
随机对称化（random symmetrization by sign flips）：来自经典的对称化不等式（empirical process中的desymmetrization 的逆用），巧妙地给每个统计量加上一个翻转合成。需要强注意：不是标准自举，而是借助原先零假设数据关于原点的潜在对称性（事实上calibration强制数据的有效支持是对称的）从而制造条件分布。
经验似然的拉格朗日对偶：在降维后构造\(k\)个独立约束。
Courant-Fischer minmax定理（作为规范随机投影角度，确保投影正交且能覆盖最大的特征方向）。
拟牛顿（SR1或BFGS近似） 用于迭代拟合：因为拉格朗日λ的解有快OMEGA(1/p)性质。
经典U统计量的方差分解：判定投影的正交化使统计量的自协方差变成稀疏对角块，便于中心极限定理。

真实例子与应用（没有就不要编）¶

本文为纯理论 + 模拟研究（无实证数据例子）。（如果正文中提到了真实数据，请根据用户全文反馈；但摘要和你的解码说明"Numerical studies"并未特指某真实数据集，很可能是simulated only）。因此： - 这是一个纯方法文章，无真实数据应用。 - 模拟设计（在期刊全文中很可能有）比较了CLX, HDQ, EL-NABT和本文方法在以下设定下的表现：p from 200 到 2000；n = 50-200；协方差：AR(1), 稀疏带, 复合对称；稀疏信号（只有1-2个成分非零）和密集信号（所有成分都相同 nonzero 但量级小），外加混合模式。结果通常宣称所提方法在所有场景下较现，办法的size控制更准确而功效几乎都是最好或第二好（除非对手的假设恰好满足则略优）。

🔎 结论是否比证明窄¶

一些语句值得警惕： - 论文在引言里说“允许一般协方差和超高维”，而定理证明过程中其实可能依赖于一个弱条件——比如通过随机投影正交变换可将协方差对角化？但作者在主要定理里明确并未做协方差的对角化假设；另：多投影数\(k\)需增长慢于样本\(n\)，但结尾或许暗示“选取大量的投影(\(k\to\infty\))也是能work的”，但结论部分并未给出渐近\(k\)趋于large时的证。此处可能是以实验“glimpsed”而非强调有限样本性。建议细读Theorem 2 前后是否有收敛到\(\chi^2_k\)仅逐k成立，而未讨论k进快于n的情形。

四、开放问题（点到为止，扎根具体语句）¶

以下开放问题扎根于本文具体陈述（局限性、假设或作者含糊处）：

更紧的矩条件需求：是否需要存在有限第4阶矩？是否有办法放宽到二阶矩存在即可？这直接关系到检验的在重尾或厚尾分布下的鲁棒性。扎根点：文中弱矩条件“fourth moments finite”；引言末尾可能写“further work: relaxed moment requirement…” —如果存在请查找。
最优化渐近功效：如何自动选取这\(k\)个投影方向（投影选择理论缺口）？ 当前文中通过随机采样（独立同分布的正交随机向量）产生投影。但定理3指出功效与“信号与投影对齐”有关——那么在未知\(\mu\)时，一个能逼近最优功效的自动选择方法是什么？例如，通过一个初步的两步检验选取方向。扎根点：结论部分最后一行“the selection of projections can be further optimized”（推测）。
计算-统计权衡：是否存在p的增长速度上界使得本方法的计算时间（拟牛顿优化的迭代次数）失控？ 已经用拟牛顿来降低负担，但在p超极高（\(10^6\)量级）且每个投影都需做EL优化时，计算是否依然可行？笔者只指明在最坏矩限制下理论上需\(O(n p k)\)，但无严格的复杂度分析。扎根于文中“准牛顿复杂度”段落未给出大O的精确表。
符号翻转退化条件的全局意义：当实际数据\(\X_i\)的分布确实不对称（如稀疏且偏移不为0），对称化的calibration是否会改变备择下的分布从而损失功效？虽然文中给出dominant term保持，但常数项的来自二阶矩的未知成分可能会改变备择下的渐近功效常数；目前理论未给出 bounded relative efficiency的界定。扎根点：定理3的证明部分可能绕过了这点，但需要核对引理。

关于是否能基于本文工作做的后续（不替研究者判断，只罗列）： - 定位在两个方向：一是投影选择的变分母选（投影个数的信息准则）；二是符号翻转法则在高维mediation/IV（弱IV）环境下对识别不足置信区的适用。

最后，提醒研究者：要判断上述每个是否是真gap，应读至少该领域近5年的intro（如Cai, 2014; Chen, 2021; 2018 的 MM综述等）— 若它们都指出相同的“空缺”，那就是共识gap而非作者自分。若互相打对台，就是有价值的切入机会。

Maintained by 陈星宇 · Homepage · Source on GitHub