Paired Sample Tests for High-dimensional Uncorrelatedness via Random Integration¶

作者: Shiyao Huang, Xiaojun Song
主题: 数理统计 / 假设检验
相关性: 9/10
链接: https://arxiv.org/abs/2606.15636

一、领域脉络与小综述¶

这个方向是什么：高维不相关性/独立性检验要解决的根本统计问题是：当随机向量的维度 \(p\) 远大于或与样本量 \(n\) 同步增长时，如何基于有限样本判断两个随机向量 \(X \in \mathbb{R}^p\) 与 \(Y \in \mathbb{R}^p\) 之间是否存在依赖关系。当前该方向的成熟度处于“高维独立性检验已有大量成果但存在理论瓶颈，而高维不相关性检验刚刚起步”的阶段。

发展脉络： - 奠基工作：经典固定维度的独立性检验工具（如距离协方差 Székely et al. 2007、符号协方差 Bergsma & Dassios 2014）在 \(p\) 固定时理论完备，但无法直接推向高维。 - 主要进展（高维独立性）：Székely & Rizzo (2013) 将距离相关推向 \(n\) 固定 \(p \to \infty\)；Zhu et al. (2020) 提出聚合边际距离/核协方差以捕捉非线性依赖；Gao et al. (2021) 允许 \(n, p \to \infty\) 并给出收敛率；Zhou et al. (2024) 引入基于秩的指标（Hoeffding's D 等）实现分布无关检验。 - 当前 frontier 与理论瓶颈：Zhu et al. (2020) 与 Gao et al. (2021) 证明了一个关键负面结果：在高维下（\(p\) 相对 \(n\) 增长过快），距离协方差等独立性检验退化成不相关性检验；Gao et al. (2021) 进一步指出，要保持距离相关捕捉非线性依赖的能力，必须满足 \(p^2/n \to 0\) 这一严苛速率限制。这意味着在 \(p/n \to \infty\) 的超高维下，直接检验不相关性是自然且合理的退路，但高维不相关性检验的文献“rather limited”（作者原话）。 - 本文的位置：填补高维不相关性检验的空白。最相关的现有工作是 Yang & Pan (2015) 基于典型相关的不相关性检验，但作者指出其两大局限：1) 要求 \(p/n \to c \in (0, \infty)\)，排除了 \(p/n \to \infty\) 的超高维设定；2) 假设均值已知，不现实。本文通过推广 Jiang et al. (2023, 2024) 的随机积分（RID）框架到配对样本，构造无需均值先验、允许 \(p/n \to \infty\) 的加权 \(L^2\) 范数检验。

子线索聚类： 1. 距离/核/秩基独立性检验：Székely et al. 2007; Zhu et al. 2020; Gao et al. 2021; Zhou et al. 2024; Deb & Sen 2023。这一簇致力于在高维下捕捉非线性依赖，但受制于 \(p^2/n \to 0\) 的速率瓶颈。 2. 典型相关基不相关性检验：Yang & Pan 2015。这一簇直接检验 \(\Sigma = O_p\)，但受制于 \(p/n \to c\) 与均值已知的假设。 3. 随机积分（RID）基两样本检验：Jiang et al. 2023, 2024。这一簇通过引入权重矩阵 \(W\) 构造加权 \(L^2\) 范数，已在均值与协方差矩阵相等性检验中证明对“弱但广泛”信号的功效优势，本文将其首次移植到配对样本的不相关性检验。

核心追问与瓶颈： 1. 在 \(p/n \to \infty\) 时，如何构造一个自中心化（无需均值先验）且渐近正态的不相关性检验统计量？ 2. 现有 \(L^2\) 范数检验（如 \(\text{tr}(\Sigma\Sigma')\)）对“弱但广泛”依赖（信号微弱但矩阵稠密无零元）为何功效低下？如何通过加权突破？ 3. 权重矩阵 \(W\) 的选择如何影响渐近相对效率（ARE）？在什么条件下 \(W \neq I_p\) 必然带来功效提升？

⚠️ 作者的 framing： - 作者将缺口 frame 为“高维不相关性检验文献 rather limited”，并将 Yang & Pan (2015) 的 \(p/n \to c\) 与均值已知假设刻画为“key limitation”，从而让本文的 \(p/n \to \infty\) 与自中心化 RID 成为“显然的下一步”。 - 被淡化的竞争路线：作者未在 intro 中讨论 Wang et al. (2026) 的秩基 max-sum 检验（仅在模拟中作为 baseline 出现），也未讨论 Gao et al. (2025) 的 Random-Lifter 方法（该方法同样旨在给出标准正态极限且具 minimax 性质，是直接竞争者，但 intro 完全未引）。 - 明显该引却未引的：Shah & Peters (2020) 关于条件独立性检验硬度的结果被引了，但仅作为“近期发展”的点缀，未深入讨论不相关性检验在因果发现（条件独立性）中的核心应用场景；高维 \(U\)-统计量的经典渐近理论（如 Chen & Qin 2010 的 Hoeffding 分解与鞅差序列 CLT）是本文证明的基石，但 intro 仅将其作为“one-sided rejection rule”的引用，未点明技术传承。

张力：未见明显对立引用。但存在一个隐含张力：Zhu et al. (2020) 与 Gao et al. (2021) 证明独立性检验在高维下必然退化为不相关性检验，这似乎为本文“直接检验不相关性”提供了合法性；但 Székely et al. (2007) 的初衷是捕捉非线性依赖，本文彻底放弃了这一目标，两者在“检验目的”上存在取舍张力，作者未显式讨论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\Sigma_1 = E[(X-\mu_1)(X-\mu_1)']\)：\(X\) 的协方差矩阵（\(p \times p\)）。
\(\Sigma_2 = E[(Y-\mu_2)(Y-\mu_2)']\)：\(Y\) 的协方差矩阵（\(p \times p\)）。
\(\Sigma = E[(X-\mu_1)(Y-\mu_2)']\)：\(X\) 与 \(Y\) 的交叉协方差矩阵（\(p \times p\)），这是要检验的核心对象。
\(Q = \text{tr}(W\Sigma W\Sigma')\)：\(\Sigma\) 的加权平方 \(L^2\) 范数，\(Q=0\) 等价于 \(\Sigma=O_p\)。
随机变量 / 样本：
\((X_i, Y_i), i=1,\ldots,n\)：\(n\) 个独立同分布的配对观测样本，每个为 \(2p\) 维向量。
\(\bar{X}, \bar{Y}\)：样本均值向量。
维数 / 样本量指标：
\(p\)：随机向量维度，\(p \to \infty\)。
\(n\)：样本量，\(n \to \infty\)。
\(d\)：潜在因子维度，\(d \ge 2p\)。
潜在 / 不可观测量：
\(\mu_1 = E(X), \mu_2 = E(Y)\)：总体均值，不可观测，但本文方法无需其先验知识。
\(Z_i \in \mathbb{R}^d\)：潜在的因子向量，\(X_i = \mu_1 + \Gamma_1 Z_i\), \(Y_i = \mu_2 + \Gamma_2 Z_i\)，\(Z_i\) 不可观测但假定存在。
\(\Gamma_1, \Gamma_2\)：\(p \times d\) 的载荷矩阵，不可观测，满足 \(\Gamma_1\Gamma_1'=\Sigma_1\), \(\Gamma_2\Gamma_2'=\Sigma_2\), \(\Gamma_1\Gamma_2'=\Sigma\)。
模型（数据生成机制）：
线性因子模型：\(X_i = \mu_1 + \Gamma_1 Z_i\), \(Y_i = \mu_2 + \Gamma_2 Z_i\)。
\(Z_i\) 独立同分布，\(E(Z_i)=0_d\), \(\text{Var}(Z_i)=I_d\)，分量 \(Z_{ij}\) 具有限 8 阶矩且满足伪独立性（不同分量的乘积期望可分解）。
\(E(Z_{ij}^4) = 3 + \Delta\)（\(\Delta\) 为常数，高斯时 \(\Delta=0\)）。
可观测数据：
研究者实际观测到的是配对样本 \(\{(X_i, Y_i)\}_{i=1}^n\)，维度为 \(2p\)，样本量为 \(n\)。\(\mu_1, \mu_2, \Gamma_1, \Gamma_2, Z_i\) 均不可观测，只能通过样本均值 \(\bar{X}, \bar{Y}\) 中心化，并靠假设去识别 \(\Sigma\) 的结构。

第二步：最小内核——最简特例 \(W=I_p\) 且 \(Z_i\) 为高斯

剥掉权重矩阵 \(W\) 的灵活性与非高斯假设，支撑整篇论文的最小内核是：在 \(W=I_p\)（即标准 \(L^2\) 范数）、\(Z_i\) 为高斯（\(\Delta=0\)）的特例下，证明基于样本构造的退化 \(U\)-统计量 \(\hat{Q}_n\) 在 \(H_0: \Sigma=O_p\) 下，经恰当标准化后渐近服从 \(N(0,1)\)，且其方差的主阶仅依赖 \(\text{tr}(\Sigma_1^2)\text{tr}(\Sigma_2^2)\)。

在这个特例下，要证的命题与证明路线如下： 1. 目标量退化：\(Q = \text{tr}(\Sigma\Sigma')\)。在 \(H_0\) 下，\(Q=0\)。 2. 估计量构造：\(\hat{Q}_n\) 是 \(Q\) 的无偏估计，可分解为 \(\tilde{Q}_{n1} - 2\tilde{Q}_{n2} + \tilde{Q}_{n3}\)（Hoeffding 分解）。在 \(W=I_p\) 且高斯下，\(\tilde{Q}_{n1} = \frac{1}{n(n-1)}\sum_{i \neq j} A_i' A_j B_j' B_i\)（\(A_i=X_i-\mu_1, B_i=Y_i-\mu_2\)）。 3. 方差主阶提取：通过 Hoeffding 分解方差公式，\(\text{Var}(\tilde{Q}_{n1})\) 的主阶为 \(\frac{2}{n(n-1)}\text{tr}(\Sigma_1^2)\text{tr}(\Sigma_2^2)\)，而 \(\tilde{Q}_{n2}, \tilde{Q}_{n3}\) 的方差为高阶小量 \(o(\sigma_n^2)\)。因此 \(\text{Var}(\hat{Q}_n) \approx \sigma_n^2 = \frac{2}{n(n-1)}\text{tr}(\Sigma_1^2)\text{tr}(\Sigma_2^2)\)。 4. 鞅差序列 CLT：将 \(\tilde{Q}_{n1}\) 进一步 Hoeffding 分解为 \(\frac{1}{n(n-1)}\sum_{i \neq j} \eta_{ij}^*\)（二阶退化核），按指标 \(j\) 重排后构造部分和 \(S_l = \sum_{j=2}^l W_j\)，验证 \(\{S_l, \mathcal{F}_l\}\) 构成鞅差序列。通过计算条件方差收敛与 Lindeberg 条件（依赖 \(\text{tr}(\Sigma_1^4)/\text{tr}^2(\Sigma_1^2) \to 0\) 等谱条件），应用 Hall & Heyde (1980) 的鞅差 CLT 得到 \(\tilde{Q}_{n1}/\sigma_n \xrightarrow{d} N(0,1)\)。 5. 自中心化：实际中 \(\mu_1, \mu_2\) 未知，用 \(\bar{X}, \bar{Y}\) 替换。关键在于 \(\hat{Q}_n\) 的构造天然具有位置平移不变性（\(\hat{Q}_n\) 用 \(X_i, Y_i\) 直接计算等于用 \(A_i, B_i\) 计算），因此无需均值先验且不引入额外偏差。

一般情形只是在此最小内核上：1) 将 \(I_p\) 推广为 \(W = B + aa'\)（引入权重以放大“弱但广泛”信号）；2) 将高斯推广到非高斯（引入 \(\Delta\) 与 Hadamard 积 \(\circ\) 的交叉项，需额外谱条件控制）；3) 将 \(\mu\) 未知推广到自中心化（利用不变性避开均值估计误差）。

三、这篇论文做了什么¶

三句话： ① 研究了两个高维随机向量 \(X, Y\) 在 \(p/n \to \infty\) 下的不相关性检验问题 \(H_0: \Sigma=O_p\)； ② 核心方法是推广随机积分（RID）框架，构造估计加权平方 \(L^2\) 范数 \(Q=\text{tr}(W\Sigma W\Sigma')\) 的自中心化退化 \(U\)-统计量 \(\hat{Q}_n\)； ③ 主要结论是在因子模型与谱条件下，\(\hat{Q}_n/\hat{\sigma}_n \xrightarrow{d} N(0,1)\)（无需指定 \(n, p\) 相对速率），且当 \(pr^2 \to c>0\) 时，加权矩阵 \(W\) 相比 \(I_p\) 在“弱但广泛”替代假设下具有严格大于 1 的渐近相对效率。

关键设定与假设： - 设定：因子模型 \(X_i = \mu_1 + \Gamma_1 Z_i\), \(Y_i = \mu_2 + \Gamma_2 Z_i\)，\(d \ge 2p\)（相比两样本检验的 \(d \ge p\) 更强，因配对结构需 \(\Gamma_1, \Gamma_2\) 行向量联合线性无关）。 - Assumption 3.1：因子模型设定，\(Z_i\) 伪独立且有限 8 阶矩，\(E(Z_{ij}^4)=3+\Delta\)。统计含义：允许非高斯与重尾，但要求分量间弱相关（伪独立）。 - Assumption 3.2：\(\text{tr}((W\Sigma_i)^2) \to \infty\) 且 \(\text{tr}((W\Sigma_i)^4) = o(\text{tr}^2((W\Sigma_i)^2))\)。统计含义：谱条件，防止协方差矩阵谱过度集中（如尖刺谱），是高维 CLT 的标准要求，隐含允许 \(p/n \to \infty\)。 - Assumption 3.3（替代假设下）：\(\text{tr}^2(W\Sigma W\Sigma') = o(\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2))\) 且 \(\text{tr}(W\Sigma_1 W\Sigma W\Sigma_2 W\Sigma') = o(n^{-1}\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2))\)。统计含义：信号不能过强，否则方差主阶被信号项污染，CLT 失效；同时保证了局部替代假设的检测速率。 - 放宽/强化：相比 Yang & Pan (2015)，放宽了 \(p/n \to c\) 与均值已知；相比 Jiang et al. (2023, 2024) 的两样本检验，强化了 \(d \ge 2p\)（因配对结构）。

主要结果： - Theorem 3.2：在 \(H_0\) 下，\(\hat{T}_n = \hat{Q}_n/\hat{\sigma}_n \xrightarrow{d} N(0,1)\)。直觉：\(\hat{Q}_n\) 是退化 \(U\)-统计量，经 Hoeffding 分解后主阶为二阶核的求和，按指标重排构成鞅差序列，谱条件保证条件方差收敛与 Lindeberg 条件。必要条件：\(\text{tr}((W\Sigma_i)^4)/\text{tr}^2((W\Sigma_i)^2) \to 0\)。解决的技术难点：配对结构下 \(\Gamma_1, \Gamma_2\) 联合线性无关导致交叉项 \(\Lambda_3\) 的控制更复杂。 - Theorem 3.3：在 \(H_1\) 下，\(\hat{Q}_n - Q/\sigma_n \xrightarrow{d} N(0,1)\)，且功效 \(\lim P(\hat{T}_n > z_{1-\alpha}) - \Phi(G_n - z_{1-\alpha}) = 0\)，其中 \(G_n = \sqrt{n(n-1)/2} \cdot \text{tr}(W\Sigma W\Sigma')/\sqrt{\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2)}\)。直觉：检验能检测的局部替代假设速率为 \(D(W;\Gamma_1,\Gamma_2) = \text{tr}(W\Sigma W\Sigma')/\sqrt{\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2)} = c/n\)，比固定维度的 \(n^{-1/2}\) 更快。 - Theorem 3.4：若 \(pr^2 \to c \in (0, \infty]\) 且 \(\Sigma\) 与 \(1_p 1_p'\) 在 \(L^2\) 范数下“高度相关”（如 \(\Sigma = c_2 1_p 1_p'\)），则 \(\lim \text{ARE}(W, I_p) > 1\)。直觉：当依赖结构弱但广泛（矩阵稠密、元素均等微弱），\(W\) 中的 \(a^2 1_p 1_p'\) 项能放大这种均等信号，而 \(I_p\) 则让信号被噪声淹没。

证明路线与技术技巧： - 整体路线： 1. 将检验目标 \(\Sigma=O_p\) 等价转化为 \(Q=\text{tr}(W\Sigma W\Sigma')=0\)（利用 \(\xi'\Sigma\eta=0\) 对所有 \(\xi, \eta\) 的等价性）。 2. 构造 \(Q\) 的无偏估计 \(\hat{Q}_n = \hat{Q}_{n1} - 2\hat{Q}_{n2} + \hat{Q}_{n3}\)（三阶 \(U\)-统计量），利用位置平移不变性实现自中心化。 3. 对 \(\tilde{Q}_{n1}\) 进行 Hoeffding 分解，提取二阶退化核 \(\eta_{ij}^*\) 作为主阶，一阶核 \(\xi_i^*\) 与常数项在 \(H_0\) 下消失。 4. 将 \(\sum_{i \neq j} \eta_{ij}^*\) 按第二个指标 \(j\) 重排，构造鞅差序列 \(S_l = \sum_{j=2}^l W_j\)。 5. 验证鞅差 CLT 的两个条件：条件方差收敛（依赖谱条件控制 \(\Psi_{it}\) 的期望与方差）与 Lindeberg 条件（依赖 4 阶矩界控制 \(\eta_{ij}^*\) 的尾项）。 6. 证明 \(\hat{Q}_{n2}, \hat{Q}_{n3}\) 的方差为 \(o(\sigma_n^2)\)，从而 \(\hat{Q}_n/\sigma_n\) 的极限由 \(\tilde{Q}_{n1}/\sigma_n\) 决定。 7. 构造 \(\sigma_n^2\) 的比例一致估计 \(\hat{\sigma}_n^2\)（基于 \(\hat{V}_x, \hat{V}_y\)），用 Slutsky 定理得到可行检验 \(\hat{T}_n\)。 - 关键跳跃点： - Lemma A.5 中 \(E(\Psi_{ij}^2)\) 与 \(E(\eta_{ij}^{*4})\) 的阶控制。这里需要将 \(\eta_{ij}^*\) 展开到 \(Z_i, Z_j\) 的四次矩，涉及 \(\Lambda_1, \Lambda_2, \Lambda_3\) 的交叉项与 Hadamard 积。难点在于非高斯下 \(\Delta \neq 0\) 引入的 \(\Lambda_i \circ \Lambda_j\) 项，作者通过 Cauchy-Schwarz 与谱条件 \(\text{tr}(\Lambda_i^4) = o(\text{tr}^2(\Lambda_i^2))\) 将其控制为高阶小量。 - 配对结构下 \(d \ge 2p\) 的必要性：在 \(H_0\) 下 \(\Sigma=O_p\) 要求 \(\Gamma_1\) 与 \(\Gamma_2\) 的行空间正交，故需 \(2p\) 个线性无关向量，导致 \(\Lambda_3 = \Lambda_1 \Lambda_2 = O_d\)（在 \(H_0\) 下），简化了方差主阶。 - 技术技巧点名： - Hoeffding 分解：用于将 \(U\)-统计量 \(\tilde{Q}_{n1}\) 分解为常数、一阶、二阶核，提取主阶 \(\eta_{ij}^*\)。 - 鞅差序列 CLT (Hall & Heyde 1980)：用于证明二阶退化核求和的渐近正态性，是高维 \(U\)-统计量理论的标准工具。 - Hadamard 积 (∘)：用于刻画非高斯四次矩 \(\Delta\) 引入的交叉项（如 \(\Lambda_1 \circ \Lambda_2\)），并通过迹不等式将其控制为 \(o(\text{tr}^2(\Lambda_i^2))\)。 - 位置平移不变性：\(\hat{Q}_n\) 用 \(X_i, Y_i\) 直接计算等于用 \(A_i, B_i\) 计算，避开均值估计误差，是自中心化的关键。 - Pólya 定理：用于从渐近正态推导功效函数的均匀收敛，得到 Theorem 3.3 的精确功效表达式。

真实例子与应用： - 数据/场景：TCGA 前列腺癌数据集（\(n=497\), \(p=13685\)），评估 DNA 甲基化（\(X\)）与基因表达（\(Y\)）之间的相关性。 - 怎么用上去：先对全样本计算各检验统计量的 \(p\)-值（均 \(<0.01\)，拒绝不相关）；再随机抽取子样本（\(n=30\), \(p \in \{50,75,100,150\}\)），重复 300 次，报告最大 \(p\)-值。 - 得到什么结果：在子样本中，\(\hat{T}_n(W_1)\) 与多数竞争方法的最大 \(p\)-值仍 \(<0.05\)，但 WLF_max 的最大 \(p\)-值 \(>0.45\)（无法拒绝）。 - 想说明什么：验证在真实高维基因数据中，依赖结构“弱但广泛”（即使子样本化后仍可检测），本文的加权 RID 检验比 max-type 检验（WLF_max）更稳健，后者在稠密信号下过于保守。

🔎 结论是否比证明窄： - Theorem 3.4 的条件 \(p^{-1}\max\{r^2, pr^4\}(1_p'\Sigma 1_p)^2/\text{tr}(\Sigma\Sigma') \to c \in (0, \infty]\) 是在 \(W = b^2 I_p + a^2 1_p 1_p'\) 这一极特殊的权重结构下严格证明的，但作者在结论与模拟中泛泛 claim “properly specified weighting matrix \(W\) can substantially enhance empirical power”，未对一般 \(W\) 给出证明。这是一个条件窄但 claim 广的地方。 - 模拟中 \(W_1\) 的设定 \(a=0.1p^{-1/2}\) 满足 \(pr^2 \to 0.01\)，严格落在 Theorem 3.4(2) 的条件内，但作者未讨论若 \(a\) 选得过大（\(pr^2 \to \infty\)）时功效是否可能下降（理论只证明了 \(pr^2 \to 0\) 时 ARE=1，未覆盖 \(pr^2 \to \infty\)）。

四、开放问题（点到为止）¶

数据驱动的权重选择：Theorem 3.4 证明了在已知 \(\Sigma\) 结构（如 \(\Sigma = c_2 1_p 1_p'\)）时 \(W\) 的优势，但实际中 \(\Sigma\) 未知。如何构造数据驱动的 \(a, b\) 选择程序，使得 ARE 优势仍成立？（扎根在 Section 6: "A data-driven selection procedure for the weighting matrix \(W\) is also worth studying."）
配对样本的均值/方差相等性检验：本文仅做了不相关性检验，RID 框架能否推广到配对样本的 \(H_0: \mu_1=\mu_2\) 或 \(H_0: \Sigma_1=\Sigma_2\)？配对结构下 \(d \ge 2p\) 的假设是否仍是必要？（扎根在 Section 6: "testing the equality of mean vectors or variance matrices for paired data."）
条件不相关性/独立性检验：本文检验的是边际不相关性 \(\Sigma=O_p\)，但在因果推断中核心是条件独立性 \(X \perp Y | Z\)。能否将 RID 框架嵌入残差化或偏协方差结构，构造高维条件不相关性检验？Shah & Peters (2020) 证明了条件独立性检验的硬度，RID 能否在特定结构假设下绕过？（扎根在 Intro 对 Shah & Peters (2020) 的引用，但未展开条件情形。）
与 Random-Lifter 的理论关系：Gao et al. (2025) 的 Random-Lifter 同样给出标准正态极限且声称 minimax 性质，本文的 RID 在检验同一假设（不相关性）时与 Random-Lifter 的渐近相对效率是多少？Intro 未引此文，留下一个未对比的竞争路线。（扎根在 Intro 缺失的引用与 Section 4 模拟仅对比 SR, ZZYS, GFLS, WLF。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Paired Sample Tests for High-dimensional Uncorrelatedness via Random Integration¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论