Projective independence tests in high dimensions: the curses and the cures¶

作者: Yaowu Zhang, Liping Zhu
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asad070

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：给定两组高维随机向量 \(X \in \mathbb{R}^p\) 与 \(Y \in \mathbb{R}^q\)，基于 \(n\) 个独立同分布样本检验它们是否统计独立。当 \(p, q\) 较大时，传统基于距离、秩或特征函数的检验统计量面临计算复杂度爆炸、渐近零分布不可解（需依赖重抽样）、以及检验功效因维度灾难而急剧衰减的三重瓶颈。当前该方向处于“有成熟低维方法、但高维下的计算与理论双重可操作性仍在攻坚”的阶段。

发展脉络： - 奠基工作：基于距离的独立性检验（Székely et al., 2007, JASA）提出了距离协方差，在低维下给出了零分布的特征函数表达，但高维下计算与功效均受限。 - 主要进展：为克服距离相关在高维下的缺陷，Zhu et al. (2017, JASA) 提出了投影相关，通过在所有方向上积分投影后的依赖性，构造了具有旋转不变性的检验统计量。然而，作者在本文 intro 中明确指出其留下三个口子：“it suffers from at least three problems. First, it has a high computational complexity of \(O\{n^3(p+q)\}\)... Second, the asymptotic null distribution... is rarely tractable; therefore, random permutations are often suggested... Third, the power performance... deteriorates in high dimensions.” - 当前 frontier：针对计算与零分布的瓶颈，近期工作尝试通过修改核函数或权重来简化结构。例如 Zhu & Zhang (2024, JASA) 提出了投影相关的一种变体以降低计算阶数，但作者在本文中评判其仍不彻底：“the computational complexity is still \(O\{n^2p^2\}\)... and the asymptotic null distribution is still intractable”。 - 本文的位置：本文通过引入一种特定的修改权重函数，将计算复杂度降至 \(O\{n^2(p+q)\}\)，并利用高维设定（\(p+q\) 相对 \(n\) 的增长速率）证明渐近零分布为标准正态，从而同时解决了计算与零分布可解性两个口子；进一步引入特征筛选与交叉验证以应对高维功效衰减。

子线索聚类：被引文献大致落在三条子线索上： 1. 距离/能量相关类（Székely et al., 2007; Lyons, 2013）：基于特征函数或距离的独立性检验，低维理论完备，但高维下计算为 \(O(n^2)\) 且零分布依赖重抽样。 2. 投影相关类（Zhu et al., 2017; Zhu & Zhang, 2024）：通过球面积分构造旋转不变检验，计算为 \(O(n^3)\) 或 \(O(n^2p^2)\)，零分布不可解。 3. 高维特征筛选与交叉验证类（Fan & Lv, 2008; Chen & Chen, 2012; Zhu et al., 2020）：在高维下通过筛选稀疏信号或交叉验证选择模型以提升功效，本文将此路线与投影相关结合。

这个方向在追问的核心问题： 1. 计算可操作性：能否构造具有旋转不变性的独立性检验，使其计算复杂度从 \(O(n^3)\) 或 \(O(n^2d^2)\) 降至 \(O(n^2d)\) 且不损失统计性质？ 2. 零分布可解性：能否在不依赖 permutation 的前提下，得到检验统计量的精确或渐近零分布？ 3. 高维功效保持：当 \(p+q \gg n\) 时，如何避免检验功效因噪声维度稀释而衰减到零？

⚠️ 作者的 framing：作者将缺口 frame 为“现有投影相关同时受困于计算、零分布与功效三座大山”，从而让“修改权重以降阶 + 利用高维得正态零分布 + 篮选提功效”成为显然的下一步。被淡化的竞争路线是：基于距离的检验（如 dCov）在 \(O(n^2)\) 计算上其实不比本文的 \(O(n^2(p+q))\) 差（当 \(n \gg p+q\) 时本文反而更慢），但作者回避了在 \(n\) 极大而 \(d\) 极小情形下本文计算优势是否反转的讨论。明显该被引却未出现的：基于最大统计量或极值理论的超高维检验（如 Jiang, 2004 的基于最大相关系数的检验），以及近期基于 Chatterjee (2021) 等局部秩的快速检验——这些路线在计算上可能更优（\(O(n \log n)\)），作者未将其纳入对比框架，值得研究者去查。

张力：未见明显对立引用。各路线（距离、投影、筛选）更多是在不同设定下互补，而非在同一设定下得相反结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X, Y\)：待检验独立性的两个随机向量，\(X \in \mathbb{R}^p\), \(Y \in \mathbb{R}^q\)。
\(n\)：样本量；\(p, q\)：维度；\(d = p + q\) 为总维度。
\((X_i, Y_i), i=1,\dots,n\)：可观测的独立同分布样本。
\(U, V\)：潜在（不可观测）的独立副本，与 \((X, Y)\) 同分布且相互独立，用于定义期望形式的 estimand。
\(\mathbf{u}, \mathbf{v}\)：投影方向，\(\mathbf{u} \in \mathbb{S}^{p-1}\)（\(p\)维单位球面），\(\mathbf{v} \in \mathbb{S}^{q-1}\)。
Estimand（要估的对象）：改进的投影相关 \(\text{IPC}\)，定义为基于修改权重函数的期望积分。
\(\hat{\text{IPC}}_n\)：基于样本的 U-统计量估计量。
\(\sigma_0^2\)：U-统计量在零假设下的渐近方差。
\(T_n\)：标准化后的检验统计量，\(T_n = n \hat{\text{IPC}}_n / \sigma_0\)。

模型与数据生成机制：数据生成机制为 \((X, Y) \sim F_{XY}\)，其中 \(F_{XY}\) 是 \(\mathbb{R}^p \times \mathbb{R}^q\) 上的任意联合分布。零假设为 \(H_0: X \perp Y\)（即 \(F_{XY} = F_X F_Y\)）。模型对 \(F_{XY}\) 不做参数假设（半参数设定），只要求 \(X, Y\) 存在有界矩条件。维度 \(p, q\) 允许随 \(n\) 增长，核心理论要求 \(d / n \to \tau \in (0, \infty)\)（高维渐近设定）。

可观测数据：研究者实际能观测到的是 \(n\) 个样本对 \((X_i, Y_i) \in \mathbb{R}^p \times \mathbb{R}^q\)。不可观测的是：1）零假设下渐近方差 \(\sigma_0^2\) 的解析值（需通过样本估计）；2）投影方向 \((\mathbf{u}, \mathbf{v})\) 上的积分（需通过样本内积近似）。

第二步：最小内核——高维下 U-统计量的渐近正态性

整篇论文的证明本质上是高维设定下，特定二阶 U-统计量的 Hoeffding 分解退化，导致其渐近分布由标准正态主导这一特例的推广。

最简特例（\(p=1, q=1\)，线性核情形）：考虑 \(X, Y\) 均为一维（\(p=q=1\)），且假设我们构造的检验统计量是如下二阶 U-统计量：

\[\hat{U}_n = \frac{1}{n(n-1)} \sum_{i \neq j} h(X_i, Y_i, X_j, Y_j)\]

其中核函数 \(h\) 在 \(H_0\) 下满足 \(E[h] = 0\)。根据 Hoeffding 分解：

\[\hat{U}_n = \frac{2}{n} \sum_{i=1}^n g_1(X_i, Y_i) + \frac{1}{n(n-1)} \sum_{i \neq j} g_2(X_i, Y_i, X_j, Y_j)\]

其中 \(g_1\) 是一阶投影，\(g_2\) 是二阶退化核（\(E[g_2|X_i, Y_i] = 0\)）。

关键数学困难与破局点：在低维固定设定下，经典 U-统计量理论断言：如果 \(E[g_1^2] > 0\)，则 \(\sqrt{n} \hat{U}_n \to N(0, 4E[g_1^2])\)，一阶项主导；如果 \(E[g_1^2] = 0\)（即核是完全退化的），则 \(n \hat{U}_n\) 收敛到复杂的极限分布（常涉及 Wiener 过程积分），零分布不可解。

本文的最小内核在于：通过修改权重函数，作者构造的核函数 \(h\) 使得在 \(H_0\) 下，一阶投影 \(g_1\) 的方差 \(E[g_1^2]\) 随维度 \(d\) 增大而趋于零（具体地，\(E[g_1^2] = O(1/d)\)）。当 \(d/n \to \tau > 0\) 时，一阶项的方差贡献为 \(O(1/n) \times O(n/d) = O(1/d)\)，而二阶项的方差贡献为 \(O(1/n^2) \times O(n^2) = O(1)\)。因此，一阶项被高维噪声稀释掉，二阶项反而成为主导。

此时，由于二阶项是 \(n(n-1)\) 个独立同分布退化核的平均，且每个核的方差有界，在高维下利用 U-统计量的投影极限理论（或高阶 Hoeffding 分解的截断），二阶项的渐近分布收敛到标准正态。这就是“高维是 cure”的核心：维度灾难杀死了零分布不可解的一阶项，留下了二阶项的正态极限。

三、这篇论文做了什么¶

三句话： ①研究了高维随机向量独立性检验中投影相关的计算复杂度、零分布不可解与功效衰减三大问题； ②核心方法是修改投影相关的权重函数以降阶计算，并基于高维 U-统计量理论证明其零分布为标准正态，同时引入交叉验证特征筛选以恢复功效； ③主要结论是：计算复杂度降至 \(O\{n^2(p+q)\}\)，零分布无需 permutation 即为 \(N(0,1)\)，且在稀疏信号设定下筛选步骤使功效在 \(p+q \gg n\) 时仍保持非零。

关键设定与假设： - 修改权重函数：原投影相关（Zhu et al., 2017）使用球面均匀测度作为权重，本文将其修改为包含内积绝对值的权重 \(w(\mathbf{u}, \mathbf{v}) = |\mathbf{u}^\top (X_i - X_j)| |\mathbf{v}^\top (Y_i - Y_j)|\)（具体形式见其 Definition 1）。这一修改的统计含义是：对投影后差异大的方向赋予更大权重，同时使得内积平方的期望在球面上积分后产生 \(1/d\) 的衰减率，这是触发高维正态性的关键。相比 Zhu et al. (2017)，此假设强化了对核函数结构的控制，但弱化了零分布可解性的要求（从不可解变为正态）。 - 矩条件：要求 \(X, Y\) 的各分量存在有界的二阶或四阶矩（Assumption 1），以保证 U-统计量核的方差在高维下不爆炸。 - 高维渐近设定：\(p + q = d \to \infty\)，且 \(d / n \to \tau \in (0, \infty)\)（Assumption 2）。这是零分布为正态的必要条件；若 \(d\) 固定，零分布退化为不可解形式。 - 稀疏性与筛选设定：在功效提升部分，假设 \(X\) 与 \(Y\) 的依赖仅通过少量坐标（稀疏信号）产生，引入 SIS（Sure Independence Screening）与交叉验证步骤筛选出 \(m\) 个坐标，要求 \(m/n \to \kappa \in (0, \infty)\)。

主要结果： - 定理1（计算复杂度）：修改后的估计量 \(\hat{\text{IPC}}_n\) 可写为样本内积矩阵的二次型，计算复杂度严格为 \(O\{n^2(p+q)\}\)。直觉：原方法需对每对样本计算球面积分（\(O(n^3 d)\)），修改权重后积分可解析算出，退化为矩阵乘法（\(O(n^2 d)\)）。必要条件是权重函数的内积结构可分离。 - 定理2（渐近零分布）：在 \(H_0\) 与 \(d/n \to \tau\) 下，\(T_n = n \hat{\text{IPC}}_n / \hat{\sigma}_0 \to N(0,1)\)。直觉：如第二节最小内核所述，一阶投影方差 \(O(1/d)\) 被高维稀释，二阶项主导且其方差可估，Hoeffding 分解的高阶余项在矩条件下被截断控制。技术难点在于：证明二阶退化核的方差估计 \(\hat{\sigma}_0^2\) 收敛到真实 \(\sigma_0^2\)，且余项 \(R_n = o_p(1/n)\)。 - 定理3（功效保持与筛选）：在稀疏信号设定下，结合交叉验证筛选的检验统计量，在 \(p+q \gg n\) 时局部功效大于零。解决了原投影相关在高维下功效趋于零的诅咒。

证明路线与技术技巧： - 整体路线： 1. 构造与降阶：定义修改权重后的 estimand \(\text{IPC}\)，证明其等价于基于样本内积矩阵的二次型，从而计算复杂度从 \(O(n^3 d)\) 降至 \(O(n^2 d)\)。 2. U-统计量表征：将样本估计量 \(\hat{\text{IPC}}_n\) 写为二阶 U-统计量形式，提取其核函数 \(h(Z_i, Z_j)\)（其中 \(Z_i = (X_i, Y_i)\)）。 3. Hoeffding 分解与方差分析：对 \(\hat{\text{IPC}}_n\) 进行 Hoeffding 分解，计算一阶投影 \(g_1\) 的方差，证明 \(E[g_1^2] = O(1/d)\)；计算二阶核 \(g_2\) 的方差，证明 \(E[g_2^2] = O(1)\)。 4. 高维正态极限：在 \(d/n \to \tau\) 下，一阶项贡献 \(O_p(1/\sqrt{d})\)，二阶项贡献 \(O_p(1)\)；利用二阶退化 U-统计量的投影极限定理，证明 \(n \hat{\text{IPC}}_n / \sigma_0\) 收敛到正态。 5. 方差估计：构造 \(\hat{\sigma}_0^2\) 的无偏或渐近无偏估计，证明其一致性，从而 \(T_n\) 可用样本标准差标准化。 - 关键跳跃点： - 证明 \(E[g_1^2] = O(1/d)\)：这依赖于修改权重函数在球面上的积分性质，是整篇论文“高维 cure”成立的命门。若权重不产生 \(1/d\) 衰减，一阶项不消失，零分布不可解。 - 截断高阶余项：Hoeffding 分解的三阶及以上余项在高维下可能累积，需利用矩条件与 Markov 不等式证明其 \(o_p(1/n)\)。 - 技术技巧点名： - Hoeffding decomposition：用于将 U-统计量拆解为一阶与二阶项，是渐近分布分析的基础。 - Projection limit theory for degenerate U-statistics（Arcones & Giné, 1992）：用于证明二阶项在适当方差标准化下收敛到正态，而非 Wiener 过程积分。 - 球面积分与内积期望的解析计算：利用单位球面上均匀分布的内积平方期望为 \(1/d\) 的性质，将 \(O(n^3 d)\) 的积分降为 \(O(n^2 d)\) 的矩阵运算。 - Sure Independence Screening (SIS)（Fan & Lv, 2008）：用于在 \(p+q \gg n\) 时筛选出与 \(Y\) 相关的 \(X\) 的子集坐标，以恢复功效。 - Cross-validation：用于在无标签信息下选择筛选的阈值参数 \(m\)，保证筛选步骤的渐近功效。

真实例子与应用：本文包含大量数值模拟实验，但无真实数据例子。 - 模拟实验设定：采用多种联合分布模型（如线性模型、非线性模型、混合模型），维度设定从 \(d=10\) 到 \(d=2000\)，样本量 \(n=100, 200\)。 - 如何用上去：1）比较修改投影相关（IPC）与原投影相关（PC）、距离相关（dCov）在计算时间上的差异；2）比较 IPC 的经验零分布与标准正态的拟合度；3）在稀疏信号设定下，比较加入 SIS+CV 篮选的 IPC 与无筛选 IPC 的经验功效。 - 结果说明：1）计算时间从 PC 的数分钟降至 IPC 的数秒，验证 \(O(n^2 d)\) 的加速；2）经验零分布的分位数与 \(N(0,1)\) 理论分位数高度吻合，验证无需 permutation；3）在 \(d \gg n\) 时，无筛选 IPC 的功效接近 0（验证高维诅咒），而加入筛选后功效恢复到 0.5 以上（验证 cure）。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛 claim “its asymptotic null distribution is standard normal, thanks to the high dimensionality”，但定理2的严格证明要求 \(d/n \to \tau \in (0, \infty)\)。若 \(d/n \to 0\)（低维）或 \(d/n \to \infty\)（超高维），结论是否仍成立未被严格证明，仅在模拟中有所展示。超高维 \(d \gg n\) 下的正态性是一个未严格闭合的 conjecture。 - 功效提升部分的理论分析仅在稀疏信号与特定筛选阈值设定下给出，对非稀疏依赖结构（如全坐标弱依赖）的功效未做理论保证，但模拟中有所涉及。

四、开放问题（点到为止）¶

超高维下的零分布：当 \(d/n \to \infty\)（即 \(p+q\) 远大于 \(n\)）时，一阶投影方差 \(O(1/d)\) 衰减更快，二阶项是否仍主导且正态极限成立？本文定理2仅覆盖 \(d/n \to \tau \in (0, \infty)\)，超高维情形的理论断言在摘要中存在但未严格证明（扎根于定理2的假设条件与摘要 claim 的间隙）。
非稀疏依赖下的功效：当 \(X\) 与 \(Y\) 的依赖散布在所有坐标而非稀疏集中在少数坐标时，SIS 篮选会漏掉信号，此时本文的筛选+交叉验证路线是否仍能提供功效保证？扎根于定理3的稀疏假设与 intro 中“power deteriorates in high dimensions”的泛泛陈述。
计算复杂度的进一步下界：本文将计算降至 \(O(n^2 d)\)，但是否存在具有旋转不变性与零分布可解性的独立性检验，其计算复杂度可降至 \(O(n d)\) 或 \(O(n \log n)\)？扎根于 intro 对 Zhu & Zhang (2024) \(O(n^2 p^2)\) 复杂度的批评，本文是否已触及此类 U-统计量的计算下界未讨论。
与极值/最大统计量检验的理论对比：在 \(d \gg n\) 设定下，基于最大相关系数的检验（Jiang, 2004）计算为 \(O(n d)\) 且有渐近 Gumbel 零分布，本文的 \(O(n^2 d)\) 正态检验在功效与计算上是否严格优于或劣于极值路线？扎根于 intro 缺失的极值检验引用。

Maintained by 陈星宇 · Homepage · Source on GitHub

Projective independence tests in high dimensions: the curses and the cures¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论