Paired Sample Tests for High-dimensional Uncorrelatedness via Random Integration¶
作者: Shiyao Huang, Xiaojun Song
主题: 数理统计 / 假设检验
相关性: 9/10
链接: https://arxiv.org/abs/2606.15636
一、领域脉络与小综述¶
这个方向是什么: 高维不相关性/独立性检验要解决的根本统计问题是:当随机向量的维度 \(p\) 远大于或与样本量 \(n\) 同步增长时,如何基于有限样本判断两个随机向量 \(X \in \mathbb{R}^p\) 与 \(Y \in \mathbb{R}^p\) 之间是否存在依赖关系。当前该方向的成熟度处于“高维独立性检验已有大量成果但存在理论瓶颈,而高维不相关性检验刚刚起步”的阶段。
发展脉络: - 奠基工作:经典固定维度的独立性检验工具(如距离协方差 Székely et al. 2007、符号协方差 Bergsma & Dassios 2014)在 \(p\) 固定时理论完备,但无法直接推向高维。 - 主要进展(高维独立性):Székely & Rizzo (2013) 将距离相关推向 \(n\) 固定 \(p \to \infty\);Zhu et al. (2020) 提出聚合边际距离/核协方差以捕捉非线性依赖;Gao et al. (2021) 允许 \(n, p \to \infty\) 并给出收敛率;Zhou et al. (2024) 引入基于秩的指标(Hoeffding's D 等)实现分布无关检验。 - 当前 frontier 与理论瓶颈:Zhu et al. (2020) 与 Gao et al. (2021) 证明了一个关键负面结果:在高维下(\(p\) 相对 \(n\) 增长过快),距离协方差等独立性检验退化成不相关性检验;Gao et al. (2021) 进一步指出,要保持距离相关捕捉非线性依赖的能力,必须满足 \(p^2/n \to 0\) 这一严苛速率限制。这意味着在 \(p/n \to \infty\) 的超高维下,直接检验不相关性是自然且合理的退路,但高维不相关性检验的文献“rather limited”(作者原话)。 - 本文的位置:填补高维不相关性检验的空白。最相关的现有工作是 Yang & Pan (2015) 基于典型相关的不相关性检验,但作者指出其两大局限:1) 要求 \(p/n \to c \in (0, \infty)\),排除了 \(p/n \to \infty\) 的超高维设定;2) 假设均值已知,不现实。本文通过推广 Jiang et al. (2023, 2024) 的随机积分(RID)框架到配对样本,构造无需均值先验、允许 \(p/n \to \infty\) 的加权 \(L^2\) 范数检验。
子线索聚类: 1. 距离/核/秩基独立性检验:Székely et al. 2007; Zhu et al. 2020; Gao et al. 2021; Zhou et al. 2024; Deb & Sen 2023。这一簇致力于在高维下捕捉非线性依赖,但受制于 \(p^2/n \to 0\) 的速率瓶颈。 2. 典型相关基不相关性检验:Yang & Pan 2015。这一簇直接检验 \(\Sigma = O_p\),但受制于 \(p/n \to c\) 与均值已知的假设。 3. 随机积分(RID)基两样本检验:Jiang et al. 2023, 2024。这一簇通过引入权重矩阵 \(W\) 构造加权 \(L^2\) 范数,已在均值与协方差矩阵相等性检验中证明对“弱但广泛”信号的功效优势,本文将其首次移植到配对样本的不相关性检验。
核心追问与瓶颈: 1. 在 \(p/n \to \infty\) 时,如何构造一个自中心化(无需均值先验)且渐近正态的不相关性检验统计量? 2. 现有 \(L^2\) 范数检验(如 \(\text{tr}(\Sigma\Sigma')\))对“弱但广泛”依赖(信号微弱但矩阵稠密无零元)为何功效低下?如何通过加权突破? 3. 权重矩阵 \(W\) 的选择如何影响渐近相对效率(ARE)?在什么条件下 \(W \neq I_p\) 必然带来功效提升?
⚠️ 作者的 framing: - 作者将缺口 frame 为“高维不相关性检验文献 rather limited”,并将 Yang & Pan (2015) 的 \(p/n \to c\) 与均值已知假设刻画为“key limitation”,从而让本文的 \(p/n \to \infty\) 与自中心化 RID 成为“显然的下一步”。 - 被淡化的竞争路线:作者未在 intro 中讨论 Wang et al. (2026) 的秩基 max-sum 检验(仅在模拟中作为 baseline 出现),也未讨论 Gao et al. (2025) 的 Random-Lifter 方法(该方法同样旨在给出标准正态极限且具 minimax 性质,是直接竞争者,但 intro 完全未引)。 - 明显该引却未引的:Shah & Peters (2020) 关于条件独立性检验硬度的结果被引了,但仅作为“近期发展”的点缀,未深入讨论不相关性检验在因果发现(条件独立性)中的核心应用场景;高维 \(U\)-统计量的经典渐近理论(如 Chen & Qin 2010 的 Hoeffding 分解与鞅差序列 CLT)是本文证明的基石,但 intro 仅将其作为“one-sided rejection rule”的引用,未点明技术传承。
张力: 未见明显对立引用。但存在一个隐含张力:Zhu et al. (2020) 与 Gao et al. (2021) 证明独立性检验在高维下必然退化为不相关性检验,这似乎为本文“直接检验不相关性”提供了合法性;但 Székely et al. (2007) 的初衷是捕捉非线性依赖,本文彻底放弃了这一目标,两者在“检验目的”上存在取舍张力,作者未显式讨论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(\Sigma_1 = E[(X-\mu_1)(X-\mu_1)']\):\(X\) 的协方差矩阵(\(p \times p\))。
- \(\Sigma_2 = E[(Y-\mu_2)(Y-\mu_2)']\):\(Y\) 的协方差矩阵(\(p \times p\))。
- \(\Sigma = E[(X-\mu_1)(Y-\mu_2)']\):\(X\) 与 \(Y\) 的交叉协方差矩阵(\(p \times p\)),这是要检验的核心对象。
- \(Q = \text{tr}(W\Sigma W\Sigma')\):\(\Sigma\) 的加权平方 \(L^2\) 范数,\(Q=0\) 等价于 \(\Sigma=O_p\)。
- 随机变量 / 样本:
- \((X_i, Y_i), i=1,\ldots,n\):\(n\) 个独立同分布的配对观测样本,每个为 \(2p\) 维向量。
- \(\bar{X}, \bar{Y}\):样本均值向量。
- 维数 / 样本量指标:
- \(p\):随机向量维度,\(p \to \infty\)。
- \(n\):样本量,\(n \to \infty\)。
- \(d\):潜在因子维度,\(d \ge 2p\)。
- 潜在 / 不可观测量:
- \(\mu_1 = E(X), \mu_2 = E(Y)\):总体均值,不可观测,但本文方法无需其先验知识。
- \(Z_i \in \mathbb{R}^d\):潜在的因子向量,\(X_i = \mu_1 + \Gamma_1 Z_i\), \(Y_i = \mu_2 + \Gamma_2 Z_i\),\(Z_i\) 不可观测但假定存在。
- \(\Gamma_1, \Gamma_2\):\(p \times d\) 的载荷矩阵,不可观测,满足 \(\Gamma_1\Gamma_1'=\Sigma_1\), \(\Gamma_2\Gamma_2'=\Sigma_2\), \(\Gamma_1\Gamma_2'=\Sigma\)。
- 模型(数据生成机制):
- 线性因子模型:\(X_i = \mu_1 + \Gamma_1 Z_i\), \(Y_i = \mu_2 + \Gamma_2 Z_i\)。
- \(Z_i\) 独立同分布,\(E(Z_i)=0_d\), \(\text{Var}(Z_i)=I_d\),分量 \(Z_{ij}\) 具有限 8 阶矩且满足伪独立性(不同分量的乘积期望可分解)。
- \(E(Z_{ij}^4) = 3 + \Delta\)(\(\Delta\) 为常数,高斯时 \(\Delta=0\))。
- 可观测数据:
- 研究者实际观测到的是配对样本 \(\{(X_i, Y_i)\}_{i=1}^n\),维度为 \(2p\),样本量为 \(n\)。\(\mu_1, \mu_2, \Gamma_1, \Gamma_2, Z_i\) 均不可观测,只能通过样本均值 \(\bar{X}, \bar{Y}\) 中心化,并靠假设去识别 \(\Sigma\) 的结构。
第二步:最小内核——最简特例 \(W=I_p\) 且 \(Z_i\) 为高斯
剥掉权重矩阵 \(W\) 的灵活性与非高斯假设,支撑整篇论文的最小内核是:在 \(W=I_p\)(即标准 \(L^2\) 范数)、\(Z_i\) 为高斯(\(\Delta=0\))的特例下,证明基于样本构造的退化 \(U\)-统计量 \(\hat{Q}_n\) 在 \(H_0: \Sigma=O_p\) 下,经恰当标准化后渐近服从 \(N(0,1)\),且其方差的主阶仅依赖 \(\text{tr}(\Sigma_1^2)\text{tr}(\Sigma_2^2)\)。
在这个特例下,要证的命题与证明路线如下: 1. 目标量退化:\(Q = \text{tr}(\Sigma\Sigma')\)。在 \(H_0\) 下,\(Q=0\)。 2. 估计量构造:\(\hat{Q}_n\) 是 \(Q\) 的无偏估计,可分解为 \(\tilde{Q}_{n1} - 2\tilde{Q}_{n2} + \tilde{Q}_{n3}\)(Hoeffding 分解)。在 \(W=I_p\) 且高斯下,\(\tilde{Q}_{n1} = \frac{1}{n(n-1)}\sum_{i \neq j} A_i' A_j B_j' B_i\)(\(A_i=X_i-\mu_1, B_i=Y_i-\mu_2\))。 3. 方差主阶提取:通过 Hoeffding 分解方差公式,\(\text{Var}(\tilde{Q}_{n1})\) 的主阶为 \(\frac{2}{n(n-1)}\text{tr}(\Sigma_1^2)\text{tr}(\Sigma_2^2)\),而 \(\tilde{Q}_{n2}, \tilde{Q}_{n3}\) 的方差为高阶小量 \(o(\sigma_n^2)\)。因此 \(\text{Var}(\hat{Q}_n) \approx \sigma_n^2 = \frac{2}{n(n-1)}\text{tr}(\Sigma_1^2)\text{tr}(\Sigma_2^2)\)。 4. 鞅差序列 CLT:将 \(\tilde{Q}_{n1}\) 进一步 Hoeffding 分解为 \(\frac{1}{n(n-1)}\sum_{i \neq j} \eta_{ij}^*\)(二阶退化核),按指标 \(j\) 重排后构造部分和 \(S_l = \sum_{j=2}^l W_j\),验证 \(\{S_l, \mathcal{F}_l\}\) 构成鞅差序列。通过计算条件方差收敛与 Lindeberg 条件(依赖 \(\text{tr}(\Sigma_1^4)/\text{tr}^2(\Sigma_1^2) \to 0\) 等谱条件),应用 Hall & Heyde (1980) 的鞅差 CLT 得到 \(\tilde{Q}_{n1}/\sigma_n \xrightarrow{d} N(0,1)\)。 5. 自中心化:实际中 \(\mu_1, \mu_2\) 未知,用 \(\bar{X}, \bar{Y}\) 替换。关键在于 \(\hat{Q}_n\) 的构造天然具有位置平移不变性(\(\hat{Q}_n\) 用 \(X_i, Y_i\) 直接计算等于用 \(A_i, B_i\) 计算),因此无需均值先验且不引入额外偏差。
一般情形只是在此最小内核上:1) 将 \(I_p\) 推广为 \(W = B + aa'\)(引入权重以放大“弱但广泛”信号);2) 将高斯推广到非高斯(引入 \(\Delta\) 与 Hadamard 积 \(\circ\) 的交叉项,需额外谱条件控制);3) 将 \(\mu\) 未知推广到自中心化(利用不变性避开均值估计误差)。
三、这篇论文做了什么¶
三句话: ① 研究了两个高维随机向量 \(X, Y\) 在 \(p/n \to \infty\) 下的不相关性检验问题 \(H_0: \Sigma=O_p\); ② 核心方法是推广随机积分(RID)框架,构造估计加权平方 \(L^2\) 范数 \(Q=\text{tr}(W\Sigma W\Sigma')\) 的自中心化退化 \(U\)-统计量 \(\hat{Q}_n\); ③ 主要结论是在因子模型与谱条件下,\(\hat{Q}_n/\hat{\sigma}_n \xrightarrow{d} N(0,1)\)(无需指定 \(n, p\) 相对速率),且当 \(pr^2 \to c>0\) 时,加权矩阵 \(W\) 相比 \(I_p\) 在“弱但广泛”替代假设下具有严格大于 1 的渐近相对效率。
关键设定与假设: - 设定:因子模型 \(X_i = \mu_1 + \Gamma_1 Z_i\), \(Y_i = \mu_2 + \Gamma_2 Z_i\),\(d \ge 2p\)(相比两样本检验的 \(d \ge p\) 更强,因配对结构需 \(\Gamma_1, \Gamma_2\) 行向量联合线性无关)。 - Assumption 3.1:因子模型设定,\(Z_i\) 伪独立且有限 8 阶矩,\(E(Z_{ij}^4)=3+\Delta\)。统计含义:允许非高斯与重尾,但要求分量间弱相关(伪独立)。 - Assumption 3.2:\(\text{tr}((W\Sigma_i)^2) \to \infty\) 且 \(\text{tr}((W\Sigma_i)^4) = o(\text{tr}^2((W\Sigma_i)^2))\)。统计含义:谱条件,防止协方差矩阵谱过度集中(如尖刺谱),是高维 CLT 的标准要求,隐含允许 \(p/n \to \infty\)。 - Assumption 3.3(替代假设下):\(\text{tr}^2(W\Sigma W\Sigma') = o(\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2))\) 且 \(\text{tr}(W\Sigma_1 W\Sigma W\Sigma_2 W\Sigma') = o(n^{-1}\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2))\)。统计含义:信号不能过强,否则方差主阶被信号项污染,CLT 失效;同时保证了局部替代假设的检测速率。 - 放宽/强化:相比 Yang & Pan (2015),放宽了 \(p/n \to c\) 与均值已知;相比 Jiang et al. (2023, 2024) 的两样本检验,强化了 \(d \ge 2p\)(因配对结构)。
主要结果: - Theorem 3.2:在 \(H_0\) 下,\(\hat{T}_n = \hat{Q}_n/\hat{\sigma}_n \xrightarrow{d} N(0,1)\)。直觉:\(\hat{Q}_n\) 是退化 \(U\)-统计量,经 Hoeffding 分解后主阶为二阶核的求和,按指标重排构成鞅差序列,谱条件保证条件方差收敛与 Lindeberg 条件。必要条件:\(\text{tr}((W\Sigma_i)^4)/\text{tr}^2((W\Sigma_i)^2) \to 0\)。解决的技术难点:配对结构下 \(\Gamma_1, \Gamma_2\) 联合线性无关导致交叉项 \(\Lambda_3\) 的控制更复杂。 - Theorem 3.3:在 \(H_1\) 下,\(\hat{Q}_n - Q/\sigma_n \xrightarrow{d} N(0,1)\),且功效 \(\lim P(\hat{T}_n > z_{1-\alpha}) - \Phi(G_n - z_{1-\alpha}) = 0\),其中 \(G_n = \sqrt{n(n-1)/2} \cdot \text{tr}(W\Sigma W\Sigma')/\sqrt{\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2)}\)。直觉:检验能检测的局部替代假设速率为 \(D(W;\Gamma_1,\Gamma_2) = \text{tr}(W\Sigma W\Sigma')/\sqrt{\text{tr}((W\Sigma_1)^2)\text{tr}((W\Sigma_2)^2)} = c/n\),比固定维度的 \(n^{-1/2}\) 更快。 - Theorem 3.4:若 \(pr^2 \to c \in (0, \infty]\) 且 \(\Sigma\) 与 \(1_p 1_p'\) 在 \(L^2\) 范数下“高度相关”(如 \(\Sigma = c_2 1_p 1_p'\)),则 \(\lim \text{ARE}(W, I_p) > 1\)。直觉:当依赖结构弱但广泛(矩阵稠密、元素均等微弱),\(W\) 中的 \(a^2 1_p 1_p'\) 项能放大这种均等信号,而 \(I_p\) 则让信号被噪声淹没。
证明路线与技术技巧: - 整体路线: 1. 将检验目标 \(\Sigma=O_p\) 等价转化为 \(Q=\text{tr}(W\Sigma W\Sigma')=0\)(利用 \(\xi'\Sigma\eta=0\) 对所有 \(\xi, \eta\) 的等价性)。 2. 构造 \(Q\) 的无偏估计 \(\hat{Q}_n = \hat{Q}_{n1} - 2\hat{Q}_{n2} + \hat{Q}_{n3}\)(三阶 \(U\)-统计量),利用位置平移不变性实现自中心化。 3. 对 \(\tilde{Q}_{n1}\) 进行 Hoeffding 分解,提取二阶退化核 \(\eta_{ij}^*\) 作为主阶,一阶核 \(\xi_i^*\) 与常数项在 \(H_0\) 下消失。 4. 将 \(\sum_{i \neq j} \eta_{ij}^*\) 按第二个指标 \(j\) 重排,构造鞅差序列 \(S_l = \sum_{j=2}^l W_j\)。 5. 验证鞅差 CLT 的两个条件:条件方差收敛(依赖谱条件控制 \(\Psi_{it}\) 的期望与方差)与 Lindeberg 条件(依赖 4 阶矩界控制 \(\eta_{ij}^*\) 的尾项)。 6. 证明 \(\hat{Q}_{n2}, \hat{Q}_{n3}\) 的方差为 \(o(\sigma_n^2)\),从而 \(\hat{Q}_n/\sigma_n\) 的极限由 \(\tilde{Q}_{n1}/\sigma_n\) 决定。 7. 构造 \(\sigma_n^2\) 的比例一致估计 \(\hat{\sigma}_n^2\)(基于 \(\hat{V}_x, \hat{V}_y\)),用 Slutsky 定理得到可行检验 \(\hat{T}_n\)。 - 关键跳跃点: - Lemma A.5 中 \(E(\Psi_{ij}^2)\) 与 \(E(\eta_{ij}^{*4})\) 的阶控制。这里需要将 \(\eta_{ij}^*\) 展开到 \(Z_i, Z_j\) 的四次矩,涉及 \(\Lambda_1, \Lambda_2, \Lambda_3\) 的交叉项与 Hadamard 积。难点在于非高斯下 \(\Delta \neq 0\) 引入的 \(\Lambda_i \circ \Lambda_j\) 项,作者通过 Cauchy-Schwarz 与谱条件 \(\text{tr}(\Lambda_i^4) = o(\text{tr}^2(\Lambda_i^2))\) 将其控制为高阶小量。 - 配对结构下 \(d \ge 2p\) 的必要性:在 \(H_0\) 下 \(\Sigma=O_p\) 要求 \(\Gamma_1\) 与 \(\Gamma_2\) 的行空间正交,故需 \(2p\) 个线性无关向量,导致 \(\Lambda_3 = \Lambda_1 \Lambda_2 = O_d\)(在 \(H_0\) 下),简化了方差主阶。 - 技术技巧点名: - Hoeffding 分解:用于将 \(U\)-统计量 \(\tilde{Q}_{n1}\) 分解为常数、一阶、二阶核,提取主阶 \(\eta_{ij}^*\)。 - 鞅差序列 CLT (Hall & Heyde 1980):用于证明二阶退化核求和的渐近正态性,是高维 \(U\)-统计量理论的标准工具。 - Hadamard 积 (∘):用于刻画非高斯四次矩 \(\Delta\) 引入的交叉项(如 \(\Lambda_1 \circ \Lambda_2\)),并通过迹不等式将其控制为 \(o(\text{tr}^2(\Lambda_i^2))\)。 - 位置平移不变性:\(\hat{Q}_n\) 用 \(X_i, Y_i\) 直接计算等于用 \(A_i, B_i\) 计算,避开均值估计误差,是自中心化的关键。 - Pólya 定理:用于从渐近正态推导功效函数的均匀收敛,得到 Theorem 3.3 的精确功效表达式。
真实例子与应用: - 数据/场景:TCGA 前列腺癌数据集(\(n=497\), \(p=13685\)),评估 DNA 甲基化(\(X\))与基因表达(\(Y\))之间的相关性。 - 怎么用上去:先对全样本计算各检验统计量的 \(p\)-值(均 \(<0.01\),拒绝不相关);再随机抽取子样本(\(n=30\), \(p \in \{50,75,100,150\}\)),重复 300 次,报告最大 \(p\)-值。 - 得到什么结果:在子样本中,\(\hat{T}_n(W_1)\) 与多数竞争方法的最大 \(p\)-值仍 \(<0.05\),但 WLF_max 的最大 \(p\)-值 \(>0.45\)(无法拒绝)。 - 想说明什么:验证在真实高维基因数据中,依赖结构“弱但广泛”(即使子样本化后仍可检测),本文的加权 RID 检验比 max-type 检验(WLF_max)更稳健,后者在稠密信号下过于保守。
🔎 结论是否比证明窄: - Theorem 3.4 的条件 \(p^{-1}\max\{r^2, pr^4\}(1_p'\Sigma 1_p)^2/\text{tr}(\Sigma\Sigma') \to c \in (0, \infty]\) 是在 \(W = b^2 I_p + a^2 1_p 1_p'\) 这一极特殊的权重结构下严格证明的,但作者在结论与模拟中泛泛 claim “properly specified weighting matrix \(W\) can substantially enhance empirical power”,未对一般 \(W\) 给出证明。这是一个条件窄但 claim 广的地方。 - 模拟中 \(W_1\) 的设定 \(a=0.1p^{-1/2}\) 满足 \(pr^2 \to 0.01\),严格落在 Theorem 3.4(2) 的条件内,但作者未讨论若 \(a\) 选得过大(\(pr^2 \to \infty\))时功效是否可能下降(理论只证明了 \(pr^2 \to 0\) 时 ARE=1,未覆盖 \(pr^2 \to \infty\))。
四、开放问题(点到为止)¶
- 数据驱动的权重选择:Theorem 3.4 证明了在已知 \(\Sigma\) 结构(如 \(\Sigma = c_2 1_p 1_p'\))时 \(W\) 的优势,但实际中 \(\Sigma\) 未知。如何构造数据驱动的 \(a, b\) 选择程序,使得 ARE 优势仍成立?(扎根在 Section 6: "A data-driven selection procedure for the weighting matrix \(W\) is also worth studying.")
- 配对样本的均值/方差相等性检验:本文仅做了不相关性检验,RID 框架能否推广到配对样本的 \(H_0: \mu_1=\mu_2\) 或 \(H_0: \Sigma_1=\Sigma_2\)?配对结构下 \(d \ge 2p\) 的假设是否仍是必要?(扎根在 Section 6: "testing the equality of mean vectors or variance matrices for paired data.")
- 条件不相关性/独立性检验:本文检验的是边际不相关性 \(\Sigma=O_p\),但在因果推断中核心是条件独立性 \(X \perp Y | Z\)。能否将 RID 框架嵌入残差化或偏协方差结构,构造高维条件不相关性检验?Shah & Peters (2020) 证明了条件独立性检验的硬度,RID 能否在特定结构假设下绕过?(扎根在 Intro 对 Shah & Peters (2020) 的引用,但未展开条件情形。)
- 与 Random-Lifter 的理论关系:Gao et al. (2025) 的 Random-Lifter 同样给出标准正态极限且声称 minimax 性质,本文的 RID 在检验同一假设(不相关性)时与 Random-Lifter 的渐近相对效率是多少?Intro 未引此文,留下一个未对比的竞争路线。(扎根在 Intro 缺失的引用与 Section 4 模拟仅对比 SR, ZZYS, GFLS, WLF。)
Maintained by 陈星宇 · Homepage · Source on GitHub