Block-Independent Likelihood Ratio Testing for High-Dimensional Mean Vectors with Applications to Matrix-Variate Data¶

作者: Minsub Shin, Kwangok Seo, Sang Han Lee, Johan Lim
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://arxiv.org/abs/2605.21848

一、核心问题与贡献¶

①研究了高维设定（\(p \ge n\)）下两总体均值向量的检验问题，现有对角似然比检验（DLRT）因工作独立假设在变量相关时存在功效损失。②提出了分块独立似然比检验（BILT），通过构建分块对角工作协方差矩阵将工作独立假设放松为分块独立假设。③在温和正则条件下证明了固定\(n\)且\(p \to \infty\)时BILT统计量的渐近正态性与局部替代假设下的渐近功效，理论上与数值上均表明BILT在不牺牲第一类错误控制的前提下，较DLRT有显著功效提升。

二、基础设定¶

核心概念与符号：
\(X_i \sim N_p(\mu_1, \Sigma)\), \(Y_i \sim N_p(\mu_2, \Sigma)\)：两独立高维高斯总体。
\(\Sigma^w_{BILT} = \text{bdiag}(\Sigma_{11}, \dots, \Sigma_{KK})\)：分块对角工作协方差矩阵，\(\Sigma_{kk}\)为第\(k\)块的真实子协方差矩阵。
\(A_{N,k} = \frac{n_1 n_2}{N}(\bar{X}_k - \bar{Y}_k)^\top S_k^{-1}(\bar{X}_k - \bar{Y}_k)\)：第\(k\)块的 Hotelling \(T^2\) 型统计量。
\(U_{N,k} = N\log(1 + A_{N,k}/(N-2))\)：第\(k\)块的似然比统计量，\(T_{BILT} = \sum_{k=1}^K U_{N,k}\)。
\(D_s(x) = \Psi(\frac{x+1}{2}) - \Psi(\frac{x-s+1}{2})\)：Digamma函数的差分形式，用于刻画\(U_{N,k}\)的矩。
关键假设：
(C1') 强混合条件：序列\(\{U_{N,k}\}\)满足强混合条件\(\alpha_{BILT}(r) \to 0\)。含义：距离足够远的分块统计量之间近似独立。与DLRT对变量序列的混合假设相比，BILT将其提升到了分块层面。
(C2') 协方差可和性：混合系数衰减率满足求和条件，且滞后\(l\)的渐近协方差\(\gamma_{BILT}(l)\)存在。含义：保证长期方差估计量的一致性。
固定分块大小\(b\)与固定\(N\)：\(p_k = b\)为常数，\(N \ge b+3\)。含义：渐近理论纯粹建立在分块数\(K \to \infty\)（即\(p \to \infty\)）上，不依赖大样本协方差矩阵的渐近谱理论。
问题背景：经典 Hotelling \(T^2\) 在\(p>N-2\)时失效；DLRT (Hu et al., 2019) 假设变量工作独立，当真实\(\Sigma\)非对角时会导致功效损失；正则化Hotelling检验 (Li et al., 2020) 依赖收缩参数选择。BILT通过复合似然角度引入分块结构，填补了独立假设与全协方差建模之间的方法论空白。

三、主要定理 / 核心结果¶

定理3（零分布渐近正态性）：
原文陈述：在(C1')(C2')及固定\(b\)下，当\(p \to \infty\)时，\((T_{BILT} - K N D_b(N-2)) / (\tau_{BILT} \sqrt{K}) \xrightarrow{d} N(0,1)\)，其中\(\tau^2_{BILT} = -2N^2 D'_b(N-2) + 2 \sum_{l=1}^\infty \gamma_{BILT}(l)\)。
直观解释：BILT统计量是分块似然比之和，由于分块间存在弱依赖（混合序列），其中心极限定理需用长期方差\(\tau^2_{BILT}\)进行标准化，而非简单的各块方差之和。中心化常数\(N D_b(N-2)\)精确刻画了固定\(N\)下\(U_{N,k}\)的期望。
技术难点：DLRT中各变量统计量服从\(t\)分布，而BILT中各块统计量\(U_{N,k}\)服从缩放\(F\)分布，其矩的解析表达更为复杂，需引入Digamma函数的差分形式\(D_s(x)\)来精确计算。
局限：假设分块大小\(b\)固定。若\(b\)随\(p\)增长，块内样本协方差\(S_k\)将奇异，现有基于精确\(F\)分布的矩计算框架失效。
定理4（局部替代假设下渐近功效）：
原文陈述：在局部替代\(\mu_1 - \mu_2 = \sqrt{N/(n_1 n_2)} \delta\)下，水平\(q\)检验的渐近功效为\(1 - \Phi(z_q - \Delta^\top \Delta / (\sqrt{K} \tau_{BILT}))\)，其中\(\Delta_k = \delta_k^\top \Sigma_{kk}^{-1} \delta_k\)。
直观解释：非中心参数\(\Delta^\top \Delta\)本质上是信号在各块内经过真实块协方差逆矩阵加权后的马氏距离之和。相比DLRT的对角加权，BILT利用了块内相关性，当块内变量相关时能提取更多信号。

四、证明框架 / 方法设计¶

证明主干逻辑：精确矩计算 + 强混合序列CLT + 非中心\(F\)分布渐近展开。
关键逻辑步骤：
分布转化：证明\(U_{N,k} \overset{d}{=} N\log(1 + \frac{b}{N-b-1} F_k)\)，其中\(F_k \sim F(b, N-b-1)\)，将复杂统计量映射到已知分布。
矩的解析求解：利用Beta函数积分表示与Digamma函数性质（Lemma A.1），求出\(E[U_{N,k}]\)和\(Var(U_{N,k})\)的精确有限样本表达式。
混合CLT验证：验证\(E[|U_{N,k} - E[U_{N,k}]|^{2+\delta}] < \infty\)，结合强混合条件引用Hall & Heyde (2014) 的推论5.1建立渐近正态性。
功效推导：在\(H_1\)下，\(F_k\)变为非中心\(F\)分布。利用\(\log(1+x)\)的Taylor展开及非中心\(F\)的期望，推导出非中心参数\(\Delta^\top \Delta\)。
最关键的技巧性引理/跳跃点：Lemma A.1中对\(\int_0^1 \log(z) z^{a/2-1}(1-z)^{b/2-1} dz\)的积分计算。该技巧通过对Beta函数求导巧妙地将对数矩转化为Digamma函数，避免了直接处理高维样本协方差矩阵逆的随机误差。
数学工具评价：经典多元统计精确分布理论与时间序列混合渐近理论的组合。未引入高维随机矩阵理论（RMT），因为其设定为固定\(N\)的“大\(p\)小\(n\)”框架，这使得结论在极小样本下依然成立，但也限制了分块大小\(b\)的增长。

五、与研究者兴趣的关联¶

连接子方向：高维假设检验（结构化工作协方差）、矩阵变量数据推断。
可借鉴的核心思路：
工作协方差的结构化松弛：从对角（独立）到分块对角（块独立）的复合似然思想，可迁移至高维纵向因果推断或中介分析中，当精确似然不可用时，利用变量的时间或空间聚类结构构建分块伪似然。
矩阵变量的分块向量化映射：将\(\ell \times m\)矩阵向量化为\(p\)维向量并按行/列分块，使得块大小直接对应矩阵的行数（捕捉时间依赖）或其倍数（捕捉时空依赖）。这对处理神经影像等矩阵数据的均值检验具有直接的操作性。
值得精读的关键参考文献：
Hu et al. (2019) Diagonal likelihood ratio test... (Biometrics)：BILT的直接前置工作，理解DLRT的缺陷是理解BILT动机的基础。
Li et al. (2020) An adaptable generalization of Hotelling's T2 test... (AoS)：代表了高维均值检验的另一主流路线（正则化Hotelling），对比阅读可深刻理解“正则化全协方差”与“分块工作协方差”在处理奇异样本协方差时的理论权衡。

六、延伸思考与练习¶

假设扰动：若将固定分块大小\(b\)的假设放松为\(b \to \infty\)且\(b/N \to c \in (0,1)\)，结论会如何变化？技术上需要什么新工具？
变化：块内样本协方差\(S_k\)不再正定，基于精确\(F\)分布的矩计算失效，长期方差估计量\(\hat{\tau}^2_{BILT}\)的维度依赖性将显现。
新工具：需引入随机矩阵理论（RMT）中Marchenko-Pastur定律与Stieltjes变换，分析\(S_k^{-1}\)的渐近谱行为，重新推导\(U_{N,k}\)的随机等价形式。
开放问题：分块大小\(b\)的数据驱动选择方法。文中仅指出\(b\)增大存在偏差-方差权衡（模型偏差减小但有效样本量\(K\)减小），并推荐\(b=2\)，但缺乏自适应选择准则（如基于交叉验证或信息准则的最优\(b\)选取）。
理解检测题：假设真实协方差\(\Sigma\)是分块大小为\(B\)的分块对角矩阵，但你使用BILT时设定了分块大小\(b < B\)。请根据定理4的渐近功效公式，比较此时BILT与设定\(b=B\)时的Oracle BILT的非中心参数\(\Delta^\top \Delta\)，并解释为什么在\(b < B\)时BILT仍然可能比DLRT（\(b=1\)）有更高的功效。

Maintained by 陈星宇 · Homepage · Source on GitHub