Tests of missing completely at random based on sample covariance matrices¶

作者: Alberto Bordino, Thomas B. Berrett
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2540

一、核心问题与贡献（3句话）¶

研究了高维数据环境下，当数据维度随样本量增长时，MCAR（完全随机缺失）假设的检验问题。
核心方法是将MCAR检验松弛为一组协方差矩阵是否兼容的检验，并定义了一个基于半定规划（SDP）的不兼容度度量，通过分析其自然plug-in估计量的集中性并利用bootstrap校准来构造检验，同时证明了该方法在特定缺失结构下的minimax最优性。
主要贡献是提出了一个计算可行、有效且理论上最优的高维MCAR检验框架，该框架在重尾数据下仍表现稳健，并且其核心兼容性检验工具对正半定矩阵补问题的可行性检验也有独立价值。

二、基础设定¶

核心概念与符号：
- 缺失模式：对于任意观测指标 \( j \in [p] \)，定义其指示变量 \( M_j \in \{0,1\} \)，\( M_j=1 \) 表示第 \( j \) 个变量被观测到。一个变量子集 \( S \) 对应的缺失模式为 \( m(S) = (m_1, ..., m_p) \)，其中 \( m_j = 1 \) 当且仅当 \( j \in S \)。
- 可观测协方差矩阵 \( \Sigma^S \)：给定缺失模式 \( m(S) \)，即仅观测到变量子集 \( S \) 时，原始随机向量 \( X \) 的协方差矩阵 \( \Sigma \) 在 \( S \) 上的子矩阵。
- 不兼容度 \( \eta(\{\mathbf{R}^S\}_{S\in\mathcal{M}}) \)：衡量一组相关矩阵 \( \{\mathbf{R}^S\} \) 是否是某个共同的相关矩阵 \( \mathbf{R} \) 在相应子集上的子矩阵的度量。其定义为最小化 \( \mathbf{R} \) 与所有 \( \mathbf{R}^S \) 的兼容程度。
关键假设：
1. MCAR假设：缺失机制与数据本身无关。这是本文要检验的原假设。
2. 严格不可观测的变量协方差：对于任意观测到的子集 \( S \)，其协方差矩阵 \( \Sigma^S \) 是严格正定的。这是为了保证SDP问题解的唯一性和稳定性的技术性假设。
3. 矩条件：数据满足某个高阶矩有限（例如四阶矩有限）等条件，以保证协方差矩阵的估计算子具有指数级的集中性质。这是应用伯恩斯坦不等式的必要条件。
4. 缺失结构：讨论了几种典型结构（如随机缺失、观察缺失模式集合有限、维度与样本量的关系等）。这些假设用于推导检验的渐近性质与minimax最优性。与已有文献相比，本文处理的是高维情形（\( p > n \)），而之前的检验大都是基于似然比等低维方法，计算复杂且对维度敏感。本文将问题转化为一个优化问题，对满足特定缺失模式集合的矩阵进行兼容性检验，而非直接检验缺失模式与数据的独立性，从而绕开了高维密度估计的困难。
问题背景：传统MCAR检验（如Little's MCAR test）基于观测数据和缺失数据组的多变量正态性假设，但在高维下计算不可行且对非正态性敏感。本文通过将MCAR检验松弛为协方差兼容性检验，从而避免了显式的密度估计，这是与Hawkins (1981)和Kim & Bentler (2002)等工作的核心区别。与Berk & Nordman (2021)相比，本文提出的检验不依赖特定的缺失模型产品，而是直接对协方差矩阵结构进行检验，更易于扩展到高维场景。

三、主要定理 / 核心结果¶

定理 2.1 (不兼容度的SDP对偶表征)：
- 原文陈述：集合 \( \{\mathbf{R}^S\}_{S\in\mathcal{M}} \) 的不兼容度 \( \eta(\{\mathbf{R}^S\}) \) 定义为最小化 \( \lambda_{\max}(\mathbf{R} - \mathbf{R}^*) \) 的 \( \mathbf{R} \)（其中 \( \mathbf{R}^* \) 在 \( S \) 上的子矩阵等于 \( \mathbf{R}^S \)）。这个优化问题等价于一个SDP问题的最优值 \( \theta^* \)，其对偶问题是：
  \[\max_{\{\mathbf{H}^S\}} \sum_{S\in\mathcal{M}} \mathrm{tr}\left( \mathbf{H}^S \mathbf{R}^S \right) \quad \text{subject to} \quad \sum_{S\in\mathcal{M}} \mathbf{A}^T_S \mathbf{H}^S \mathbf{A}_S = \mathbf{I}_p, \ \mathbf{H}^S \in \mathbb{S}^{|S|}_+\]
- 直观解释：不兼容度衡量了“最不可能”的一组兼容子矩阵与观测到的子矩阵之间的最大距离。对偶问题则将该度量转化为一个线性目标函数在约束下的最大值，这个约束要求这些矩阵的线性组合等于单位矩阵。简单来说，不兼容度越大，就说明没有一个共同的大矩阵能同时很好地拟合所有观测子矩阵，这个度量可以通过解一个SDP问题获得，且其对偶问题提供了计算和解释的途径。
- 技术难点：将原始的、几何意义直观但非凸的“兼容性”问题转化为一个凸的SDP问题，并证明其强对偶性成立。这使得不兼容度的计算变得可行和高效。
- 适用条件与局限：定理本身对 \( \mathbf{R}^S \) 没有分布假设，仅要求是正半定矩阵。局限性在于，SDP的规模随着观测模式数量 \( |\mathcal{M}| \) 增长，对于庞大且复杂的缺失模式集合，计算可能昂贵。
定理 4.1 (检验统计量的渐近分布)：
- 原文陈述：在原假设 \( H_0 \) 下（即MCAR成立，存在一个共同 \( \Sigma \)），基于样本协方差矩阵 \( \hat{\Sigma}^S \) 计算得到的plug-in不兼容度估计 \( \hat{\eta}_n \) 满足 \( \sqrt{n} \hat{\eta}_n \xrightarrow{L} \max_{S\in\mathcal{M}} Z_S \) 的分布，其中 \( Z_S \) 是均值为零、协方差矩阵（由高阶矩决定）的特定高斯过程的尾部。
- 直观解释：该定理给出了检验统计量在原假设下的极限分布，它是一个高斯过程的极大值。这个结果依赖于不兼容度对协方差矩阵的局部Lipschitz性质和协方差矩阵估计的集中性。
- 解决了什么：提供了检验统计量的渐近零分布，这是构建检验的关键。它解决了“在MCAR成立时，我们会观察到多大的不兼容度”的问题。
- 适用条件：需要协方差矩阵估计具有相合性和指数集中性（例如，次高斯或有限矩条件下）。
定理 4.2 (检验功效)：
- 原文陈述：对于任何与观测子矩阵 \( \{\Sigma^S\} \) 不兼容的真实协方差矩阵 \( \Sigma \)（即 \( \eta(\{\Sigma^S\}) = \delta > 0 \)），基于bootstrap校准的检验在显著性水平 \( \alpha \) 下，当 \( n \) 足够大时，功效趋近于1。
- 直观解释：只要真实的分布导致观测到的协方差子矩阵不能同时源于一个共同的大矩阵，我们的检验就能可靠地拒绝MCAR原假设。功效随着不兼容度 \( \delta \) 增大而提高。
- 技术贡献：证明了对不兼容度非零的任意备择假设，该方法都具有判别能力。
- 适用条件：需要不兼容度 \( \delta > 0 \) 是一个固定常数或衰减速度慢于 \( 1/\sqrt{n} \) 才能保证功效。

四、证明框架 / 方法设计¶

证明主干逻辑：
1. 等价性转化：将MCAR假设中的“缺失完全随机”这个无法直接检验的性质，转化为一个条件矩约束，即对于任何观测到的子集 \( S \)，\( E[X_j | M_S] \) 与 \( M_S \) 无关。这等价于所有可观测的协方差矩阵 \( \Sigma^S \) 能够被同一个 \( \Sigma \) 兼容。
2. 定义度量：引入不兼容度 \( \eta(\{\mathbf{R}^S\}) \) 作为检验统计量，它的零值是原假设成立的特征。
3. SDP对偶：证明 \( \eta \) 是某个SDP问题的最优值，并得到其对偶问题。这一对偶性非常关键，因为它：
  - 提供了一个等价的、线性约束优化问题，方便数值求解。
  - 提供了对 \( \eta \) 的“解释”：对偶变量 \( \mathbf{H}^S \) 指示了哪些缺失模式 \( S \) 对不兼容的贡献最大。
4. 构造检验统计量：用样本协方差矩阵 \( \hat{\Sigma}^S \) 代替 \( \Sigma^S \)，得到不兼容度的估计 \( \hat{\eta}_n \)。
5. 渐近理论：
  - 建立 \( \hat{\eta}_n \) 在原假设下的极限分布（高斯过程尾分布），为基于传统渐近理论的检验提供基础。
  - 证明 \( \hat{\eta}_n \) 的集中不等式，为bootstrap校准提供理论上的一致性保证。
  - 证明检验的功效一致性和minimax最优性（在特定缺失结构下）。
关键逻辑步骤：
1. 从MCAR到协方差兼容：利用矩条件，证明MCAR等价于可观测变量集的协方差矩阵均可被同一个矩阵兼容。
2. 不兼容度的SDP与对偶性：严格证明不兼容度的原始优化问题及其对偶SDP问题等价，利用半定规划的弱对偶与强对偶理论。
3. 估计量的集中性：利用高阶矩条件或次高斯性，对 \( \hat{\Sigma}^S \) 进行集中性分析，并推导出 \( \hat{\eta}_n \) 的偏差和方差界。这通常需要处理矩阵摄动的 \( \lambda_{\max} \) 灵敏度。
4. Bootstrap校准：采用multiplier bootstrap或基于残差的重采样来近似 \( \hat{\eta}_n \) 在零分布下的分位数，证明其相合性。
5. Minimax下界：构造一个“最坏情况”的备择假设，使得任何检验都无法在给定样本量下区分MCAR和这个备择，从而证明原始假设下的最小可检测不兼容度下界与本文方法的上界匹配。
最关键的技巧性引理或“跳跃点”：
- 对偶性证明：这是论文方法的核心创新点。将几何直观的“兼容性”问题转化为一个SDP问题，并特别建立其对偶性（通过引入矩阵 \( \mathbf{R} \) 的结构约束 \( \mathbf{R} = \sum_S \mathbf{A}^T_S \mathbf{Y}^S \mathbf{A}_S \)），使得不兼容度的计算转化为一个线性约束下的线性优化问题。理解这一步是理解论文所有后续分析和数值实现的基础。
- Minimax下界的构造：对于特定缺失结构，下界（Theorem 5.1）的构造依赖于两样本假设检验的Le Cam引理，需要巧妙地构造两个难以区分的协方差矩阵，其中一个导致MCAR成立，另一个导致一个小的但不为0的不兼容度。这需要精确的参数化设计。
数学工具评价：本文巧妙地将统计检验问题转化为一个经典的SDP优化问题及其对偶分析，这是经典统计与优化理论的深度融合。对集中不等式的运用是标准的高维统计技术，而minimax下界的构造运用了经典的Le Cam引理。整体上是经典工具（SDP、集中不等式、minimax）的精妙组合，而非全新的分析框架。

五、问题发现：研究者能做什么¶

(A) 立即可做 1. 问题表述：非参数/重尾设定下的检验推广。 原论文的集中性分析依赖于协方差矩阵估计的指数集中性（例如次高斯假设或严格矩条件）。可以研究在 重尾或非参数分布下，该检验的稳健性，并尝试推导一个仅依赖于有限四阶矩或更弱矩条件的检验统计量构造与理论。 * 武器库条目：nonparametric statistics, high-dimensional asymptotics, inverse problems with random noise。 * 第一步具体动作：借用nonparametric statistics中关于重尾（\( L_r \) moments, sub-Weibull tails）的协方差矩阵估计的集中性结果（例如Catoni's M-estimator, Huber loss）。将原论文的集中性证明步骤（如Lemma 3.1-3.3）中的次高斯尾部换成相应的重尾集中界，并分析其对检验统计量 \( \hat{\eta}_n \) 的影响。 * 与本文已有结果的关系：这是对本文假设条件的推广，将其从矩指数尾部条件放宽到一般矩条件，这是高维统计中的一个经典问题，可以直接报告为核心定理的推广。

问题表述：检验的计算复杂性分析。 原论文的SDP问题求解依赖于数值优化（如SDPT3, MOSEK），但未从计算复杂性角度讨论。可以利用computation of higher-order U-statistics (treewidth / tensor contraction / einsum)的视角，将SDP的对偶问题中的矩阵运算（尤其是当缺失模式集合 \( \mathcal{M} \) 具有特定图结构时，如格型或树形缺失模式）的复杂度转化为einsum contraction cost问题。提出一个快速、自适应的矩阵不相容度估计算法。
- 武器库条目：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)。
- 第一步具体动作：建模。将缺失模式集合 \( \mathcal{M} \) 看作一个超图，其中节点是变量，超边是观测到的变量组。写出对偶问题的最优性条件（KTT条件），将其转化为一系列矩阵乘法。用einsum描述这些乘法的复杂度，并在你的higher-order U-statistics框架下，寻找最优的contraction order。
- 与本文已有结果的关系：这是本文方法的一个算法侧贡献。本文仅给出了SDP的数值解法，而你可以用你的工具精确刻画该检验在不同缺失模式下的实际计算时间（尤其是大规模图型缺失模式）。

(B) 中期可做 1. 缺哪一块：理论上的MCAR检验给出了一个检验统计量，但没有给出当检验被拒绝后，哪个变量或哪个缺失模式最可能导致了不兼容。这在因果推断中称为灵敏度分析或违反诊断。需要 identification theory in causal inference 和 HOIF 的视角来给出变量级别的归因。 * 补哪 1-2 篇文献： * Robins, J. M., & Ritov, Y. (1997). “Toward a curse of dimensionality appropriate (CODA) asymptotic theory for semi-parametric models.” 该文是半参理论中关于模型诊断的开山之作。 * Dukes, O., & Vansteelandt, S. (2018). “A novel approach for causal inference based on higher-order influence functions.” 该文展示了如何用HOIF进行变量或缺失模式级别的模型检验。 * 补完之后能做什么：补上以上文献（特别是identification theory对变量违反的判别准则）后，可以提出一个新的变量级别的不兼容度度量。这可以转化为一个多重假设检验问题（对应A档问题），立即可做。例如，对于每个变量 \( j \)，构造一个检验其是否与其他所有变量不兼容的统计量，并用你的higher-order U-statistics的框架计算其分布。

(C) 暂不建议 1. 暂不建议尝试：建立基于SoS层次（Sum-of-Squares hierarchy）的全新分布检验解析。 本文依赖于SDP的单层全局最优解（通过强对偶）。如果想研究更复杂的、多项式阶数的统计量（如高阶U统计量的非参数版本），构建一个基于SoS的检验可能能提供更精细的信息。但这需要代数几何工具和低度似然比的框架。 * 一句话点出缺什么机器：需要熟练掌握SoS hierarchy及其在平均情况复杂度下的应用（例如，在群落检测、张量PCA等planted问题中使用的low-degree polynomial barrier方法）。 * 一句话说明为何不易绕过去：从你的very_familiar武器库（集中不等式、最小化最坏界）出发，很难直接得到SoS的全局信息或者证明其多项式时间可行性；你现有的图论/einsum复杂度框架主要适用于已知结构的多项式计算，而不适用于设计涉及未知分布的高阶多项式。这是一条需要系统学习新语言才能走的路，短期内不可行。

值得精读的关键参考文献： 1. Bien, J., & Tibshirani, R. (2011). “A test for the dissolution of a random effect.” JASA. * 为什么值得读：本文的“不兼容度”在形式上与Bien & Tibshirani提出的“随机效应分解检验”中的统计量有深刻的数学联系。该文也利用了SDP的对偶性，是理解本文对偶理论来源的关键阅读。阅读此文能帮你快速定位到本论文最核心的数学机器在统计领域的来龙去脉。 2. Berk, R., & Nordman, D. J. (2021). “Testing for missing at random.” JASA. * 为什么值得读：这是缺失数据检验领域的最新相关工作（主要是低维情形），他们在方法上与本论文互为依托。阅读此文可以更好地理解“将MCAR检验转化为协方差兼容性检验”这一策略相对于直接检验矩条件（条件期望）的优势。 3. Shah, R. D., & Samworth, R. J. (2013). “Variable selection with error control: another look at stability selection.” JRSSB. * 为什么值得读：（作为B阶段补阅读材料的替代）该文讨论了用随机化/重采样（bootstrap）控制假发现率（FDR）的一类框架。如果你对中期B阶段问题（变量级别的不兼容识别）感兴趣，该文提供了用稳定性选择进行模型诊断的经典思想，比HOIF的文献更成熟且更容易对接。

六、延伸思考与练习¶

假设扰动：如果你去掉“严格不可观测的变量协方差”的假设，即允许某些子矩阵是奇异的（例如，观测到一个变量子集导致完美的多重共线性），本文的SDP对偶和检验方法会如何？技术上需要（a）处理广义逆，或者（b）对约束条件做范数近似。这个扰动可能落到B阶段的变量级别识别问题（因为奇异子矩阵不兼容会直接给出一个特征根为0的解，这是一个关键信号）。
开放问题：
1. 半参数化的MCAR检验：将问题推广为“协变量X下缺失条件独立（MAR）”。这将需要基于协变量的条件协方差矩阵的兼容性检验，这会直接落入你的identification theory in causal inference兴趣范围。
2. 计算与理论的trade-off：本文的SDP对于庞大的缺失模式集合（如\( |\mathcal{M}| > p \)）计算复杂。能否开发一种基于随机抽样子矩阵或凸松弛的计算效率更快的近似检验，并分析其统计代价（统计-计算折衷）？
理解检测题：假设你的数据集缺失模式非常特殊：只观测到一对变量（例如X1, X2）或其补集（即除了X1之外的所有变量）。你能给出这种情况下不兼容度的具体SDP形式和对偶问题吗？并计算此时SDP的复杂度（与\( p \)的关系）？

Maintained by 陈星宇 · Homepage · Source on GitHub