跳转至

Tests of missing completely at random based on sample covariance matrices

作者: Alberto Bordino, Thomas B. Berrett
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 9/10
链接: https://doi.org/10.1214/25-aos2540


核心问题与动机

本文要解决高维数据中完全随机缺失(MCAR)的假设检验问题。MCAR是缺失数据处理和因果推断的基础假设,若被破坏会导致严重的偏差。然而,传统的MCAR检验方法(如Little检验)在高维设定下($p \to \infty$)往往失效或缺乏检验效力。已有方法通常依赖于均值或协方差的结构,但在高维下难以兼顾计算可行性与理论保证。本文的动机在于:将高维MCAR检验松弛为协方差矩阵族的相合性检验,从而利用高维随机矩阵理论和半定规划(SDP)工具,构建在维度随样本量增长时依然有效且具有最优性的检验程序。

主要贡献

  • 问题松弛与重构:将高维MCAR检验转化为检验不同缺失模式下观测子集的协方差矩阵是否相容,使问题在高维下可解。
  • 不相合性度量与对偶:定义了基于相关系数矩阵族的自然不相合性度量,证明其可表示为半定规划(SDP)问题的最优值,并建立关键的对偶定理,使得该度量可实际计算且具统计解释性。
  • 高维检验程序:基于该度量的插入估计量,分析其浓度性质,提出结合Bootstrap校准的新假设检验,证明其对任何具有不相合协方差矩阵的分布均具有检验效力。
  • 极小化极大最优性:针对特定的缺失结构,证明所提检验方法达到了极小化极大最优速率。

方法框架

  • 模型设定:设 $X \in \mathbb{R}^p$ 为随机向量,缺失模式由指示变量 $R \in {0,1}^p$ 决定。设 $\mathcal{S}$ 为所有可能出现的缺失模式集合,$\Sigma^{(s)}$ 为模式 $s$ 下完全观测子向量的协方差矩阵。
  • 关键假设
  • MCAR:$R \perp!!!\perp X$。在此假设下,所有 $\Sigma^{(s)}$ 必须是某个全局总体协方差矩阵 $\Sigma$ 的子矩阵,即协方差矩阵族是相合的
  • 方法步骤
  • 构建度量:定义相关系数矩阵族的不相合性度量 $\tau = \inf_{\tilde{R} \in \mathcal{C}} |\hat{R} - \tilde{R}|_F^2$($\mathcal{C}$ 为相合相关矩阵集合),将其表述为SDP问题。
  • 对偶求解:利用SDP对偶定理,将原问题转化为对偶形式,实现高效计算。
  • 插入估计:用样本协方差/相关矩阵替换总体版本,得到 $\hat{\tau}$。
  • Bootstrap校准:由于高维下 $\hat{\tau}$ 的渐近分布难以解析求出,采用Bootstrap方法估计其零分布,构建检验拒绝域。

主要理论结果

  • 浓度不等式:证明了插入估计量 $\hat{\tau}$ 在高维设定下围绕真实值 $\tau$ 的浓度性质,保证了估计的一致性。
  • 检验效力保证:所提Bootstrap检验在 $\tau > 0$(即不相合)的备择假设下具有渐近功效为1(一致性检验)。
  • 极小化极大速率:针对特定的缺失结构,推导了检验问题的极小化极大下界,并证明本文方法的检验速率达到了该下界,即具备极小化极大最优性。

实验 / 数值仿真

  • 实验设计:模拟不同维度 $p$ 与样本量 $n$ 的设定,生成具有特定缺失模式的数据,包括重尾分布(如厚尾分布)的数据生成机制。
  • 评估指标:第一类错误控制与第二类错误/检验功效。
  • 主要发现:所提检验能有效控制第一类错误,且在备择假设下展现出高检验效力;对重尾数据表现出良好的鲁棒性,验证了方法不依赖严格的亚高斯假设。

与研究者兴趣的关联

  • 假设检验与高维统计:直接对应研究者的核心兴趣,展示了在高维 $p \to \infty$ 框架下如何通过协方差结构构建具备极小化极大最优性的检验统计量。
  • 半参数/非参数理论:方法未对总体分布施加强参数假设,依赖浓度性质与Bootstrap,属于高维半参数检验范畴。
  • 统计计算:将统计检验问题转化为半定规划(SDP)并利用对偶理论求解,为研究者在处理复杂约束优化(如因果推断中的平衡约束)时提供了重要的计算范式借鉴。
  • 因果推断:MCAR是因果推断处理缺失数据的前提,该检验为观察性研究中缺失数据机制的敏感性分析提供了前置诊断工具。

局限性与开放问题

  • 松弛的等价性:MCAR蕴含协方差相合性,但协方差相合性并不严格等价于MCAR(仅涉及二阶矩,未涉及高阶矩或条件分布)。如何利用高阶矩或U-统计量构建更紧的MCAR检验是开放问题。
  • 重尾的理论保证:数值实验显示对重尾有效,但摘要未明确给出非亚高斯设定下的严格理论收敛速率或界,这可结合稳健协方差估计(如Kendall's tau)进一步探索。
  • 矩阵补全的拓展:文中提到方法可推广至带噪半正定矩阵补全的可行性检验,但理论如何精确映射到矩阵补全的极小化极大速率仍需深入。

Maintained by 陈星宇 · Homepage · Source on GitHub