On Azadkia–Chatterjee’s conditional dependence coefficient¶

作者: Hongjian Shi, Mathias Drton, Fang Han
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是条件独立性检验的统计效率。具体而言，在给定协变量 \(Z\) 的条件下，如何检验随机变量 \(X\) 与 \(Y\) 是否条件独立（\(X \perp \!\!\! \perp Y \mid Z\)）。这是一个在因果发现（causal discovery）、变量选择和图模型推断中处于核心地位的问题。当前该方向的成熟度呈现"有稳健的一致性方法，但效率分析滞后"的状态：虽然近年来出现了若干无需分布假设即可达到一致性的非参数检验统计量，但对其局部势和效率界的理论理解仍处于起步阶段，尤其是对"一致性方法是否有效率损失"这一关键问题缺乏精确回答。

发展脉络：从 introduction 和参考文献来看，这条线可以清晰地梳理为：

奠基工作（经典的参数 / 半参数方法）：早期工作主要集中在特定模型假设下的检验。例如，在参数模型或半参数模型下，似然比检验或 Score 检验是主流。这些方法通常具有渐近最优性（如达到局部渐近正态性下的效率界），但严重依赖模型设定。对于高维或非参数情形，经典方法面临维数灾难或无法识别的困境。
非参数度量的突破（Chatterjee 系数）： Chatterjee (2021) 提出了一种基于秩和最近邻图的新的相关系数，这是一个转折点。该系数在边际独立性检验中展现了惊人的性质：它不仅是相合的，而且计算复杂度低（\(O(n \log n)\)），且无需对分布做任何参数假设。这引发了后续一系列关于其效率的研究。
向条件独立性推广： Azadkia and Chatterjee (2021) 将上述思想推广到了条件独立性检验，提出了一个完全非参数的条件依赖系数（下文简称 AC 系数）。该系数利用最近邻图结构，被证明在原假设下相合。然而，作者留下的口子是：虽然证明了一致性，但并未给出其渐近分布，也未分析其检验效率。Azadkia and Chatterjee 在原文中提出了关于中心极限定理（CLT）的猜想，但未给出证明。
效率分析的起步与本文的位置：在本文之前，已有工作开始关注非参数系数的效率问题。例如，Lin and Han (2022b) 提出了 AC 系数的改进版本，旨在提升其效率。本文作者 Shi, Drton, Han 正是站在这个节点上，试图回答一个更根本的问题：原始的 AC 系数在理论上到底有多"差"？ 如果它效率低下，那么改进就是必要的；如果它本身效率尚可，那么改进的边际收益就有限。本文通过在条件随机化检验（CRT）框架下的局部势分析，给出了明确的负面答案——AC 系数即使在 CRT 加持下仍缺乏效率，从而为改进版本提供了坚实的理论动机。同时，本文解决了 AC 系数的 CLT 猜想，补全了其理论基础。

子线索聚类：被引文献大致落在以下几条子线索上：

线索一：非参数相关/依赖度量：包括 Chatterjee (2021), Azadkia and Chatterjee (2021), Deb and Sen (2021) 等。这一簇工作致力于构造无需分布假设的依赖度量，核心是利用秩和图结构。它们解决了"能不能做"的问题，确立了非参数检验的可行性。
线索二：条件独立性检验的计算与理论：包括 Candès et al. (2018) 提出的 Conditional Randomization Test (CRT)，以及 Shah and Peters (2020) 关于条件独立性检验不可能性的工作。这一簇工作关注"怎么算"（CRT 提供了在原假设下生成 null distribution 的通用框架）以及"理论边界"（在无假设下检验是不可能的）。本文正是将 AC 系数嵌入 CRT 框架来分析其效率。
线索三：局部渐近理论：涉及 Le Cam 的局部渐近正态性理论、Quadratic Mean Differentiable (QMD) 模型等经典统计推断文献（如 van der Vaart, 1998）。这一簇提供了分析检验效率的标准数学工具。本文将这套经典工具移植到了非参数图统计量的分析中。

这个方向在追问的核心问题： 1. 识别与检验的边界：在什么条件下，条件独立性是可以检验的？（Shah and Peters 2020 指出若无假设则不可检验）。 2. 非参数方法的效率代价：像 AC 系数这样"万能"的非参数方法，相比参数方法，在局部备择下损失了多少效率？ 3. 计算与统计的权衡：AC 系数计算简便，这种计算便利性是否以牺牲统计效率为代价？ 4. 渐近分布的精确化：对于复杂的图统计量，如何推导其中心极限定理并给出显式的渐近方差？

⚠️ 作者的 framing：作者将本文定位为对 AC 系数效率的"判决书"与"补全者"。 - 缺口 frame：作者指出，虽然 AC 系数被提出并广泛应用，但其"统计效率"是一个空白。作者通过局部势分析，frame 了一个"令人失望但重要"的结论：AC 系数效率低下，从而"显然"引出下一步——需要开发改进版本（如 Lin & Han 2022b）。 - 淡化的竞争路线：作者主要对比的是经典的参数效率界，较少讨论其他非参数检验（如基于核的方法、基于距离协方差的方法）在 CRT 框架下的表现。这可能是因为 AC 系数是目前唯一一个定义清晰且计算简便的条件依赖系数。 - 缺失的引用：Intro 中对高维情形下的条件独立性检验（如基于 DML 或 Neural Network 的方法）讨论较少。如果研究者关注高维设定，可能需要额外检索相关文献。

张力：未见明显对立引用。主流文献均承认 AC 系数的创新性，本文则是在此基础上指出了其效率短板，属于"补台"而非"拆台"。

二、最核心、最简单的例子 / 数学问题¶

在展开全文技术细节前，我们先确立记号系统，并用一个最简单的特例把核心问题讲透。

第一步：符号、模型与可观测数据¶

符号： - \((X, Y, Z)\)：定义在概率空间上的随机向量。\(X \in \mathbb{R}^{d_x}, Y \in \mathbb{R}^{d_y}, Z \in \mathbb{R}^{d_z}\) 分别是目标变量和条件变量。 - \((X_i, Y_i, Z_i)_{i=1}^n\)：独立同分布样本。 - \(H_0\)：原假设，即 \(X \perp \!\!\! \perp Y \mid Z\)（条件独立）。 - \(H_1\)：备择假设，即 \(X\) 与 \(Y\) 在给定 \(Z\) 下条件依赖。 - \(T_n\)：检验统计量，本文特指 Azadkia–Chatterjee 系数的经验版本。 - \(\mathcal{L}(X \mid Z)\)：给定 \(Z\) 时 \(X\) 的条件分布。 - \(\Phi(\cdot)\)：标准正态分布的 CDF。

模型：我们关心的是非参数模型，即对 \((X, Y, Z)\) 的联合分布 \(P\) 不做参数假设，仅假设其具有某种正则性（如连续分布、条件密度存在等）。在局部势分析中，考虑两类局部备择： 1. 参数备择：\(P_{\theta_n}\)，其中 \(\theta_n = \theta_0 + h / \sqrt{n}\)，\(\theta_0\) 对应 \(H_0\)。这要求模型是 QMD 的。 2. 非参数备择：\(P_n\) 属于 Hölder 光滑类，且与 \(H_0\) 的距离随 \(n\) 收缩（如 \(d(P_n, P_0) \sim n^{-\alpha}\)）。

可观测数据：研究者能观测到的是 i.i.d. 样本 \(\{(X_i, Y_i, Z_i)\}_{i=1}^n\)。 - 关键难点：在 \(H_0\) 下，\(T_n\) 的渐近分布难以推导，因为 \(Z\) 的分布未知且可能是高维的，无法直接通过简单的置换或 Bootstrap 来模拟 null distribution。 - CRT (Conditional Randomization Test) 的角色：CRT 是一种"作弊"手段。假设我们知道条件分布 \(\mathcal{L}(X \mid Z)\)（或者能精确估计它），我们可以保持 \((Y, Z)\) 不变，从 \(\mathcal{L}(X \mid Z)\) 中生成新的 \(X^{(1)}, \dots, X^{(M)}\)，构造经验分布。本文的理论分析假设 \(\mathcal{L}(X \mid Z)\) 已知，以此作为效率分析的上界。

第二步：最小内核¶

整篇论文的数学内核可以退化到一个经典的局部渐近正态性（LAN）框架下的检验效率问题。

最简特例：单变量情形下的线性模型备择 假设 \(d_x = d_y = d_z = 1\)。考虑模型：

\[Y = \beta X + \gamma Z + \epsilon, \quad X = \delta Z + \eta\]

其中 \(\epsilon, \eta\) 独立且服从 \(N(0, 1)\)。此时，\(X \perp \!\!\! \perp Y \mid Z\) 等价于 \(\beta = 0\)。

我们要比较两个检验统计量在局部备择 \(\beta_n = h / \sqrt{n}\) 下的表现： 1. Oracle 检验（似然比检验）：基于线性回归残差的 \(t\)-检验。这是有效率的。 2. AC 系数检验：基于最近邻图的秩统计量。

核心数学问题：在这个简单设定下，AC 系数 \(T_n\) 在 \(\beta_n = h / \sqrt{n}\) 下的极限分布是什么？ - 经典结果：对于 \(t\)-检验，其统计量在 \(\beta_n\) 下收敛于 \(N(\mu, 1)\)，其中 \(\mu\) 是非中心参数，正比于 \(h\)。这意味着它能区分 \(O(1/\sqrt{n})\) 的信号。 - 本文发现：作者证明，AC 系数 \(T_n\) 在 CRT 框架下，虽然也是相合的，但其局部势曲线"更平"。具体来说，在 QMD 备择下，AC 系数对应的非中心参数远小于有效检验应有的值，或者其收敛速度慢于 \(1/\sqrt{n}\)（在非参数备择下）。

直觉： AC 系数基于最近邻图，它利用的是"如果 \(X\) 和 \(Y\) 在给定 \(Z\) 下相关，那么在 \(Z\) 空间中距离近的点，其 \(X\) 和 \(Y\) 的秩也应有某种关联"。然而，最近邻图的构建本身带有随机性，且秩统计量丢弃了数据的度量信息，只保留了序关系。这种信息损失导致了效率的下降。本文通过严格的数学证明量化了这种损失：即使给定了 CRT 这个强有力的工具，AC 系数依然无法恢复 \(1/\sqrt{n}\) 速率的信号（在某些设定下），或者其效率常数远低于最优值。

三、这篇论文做了什么¶

三句话： 1. 研究了 Azadkia–Chatterjee 条件依赖系数在条件独立性检验中的局部势问题。 2. 核心工具是条件随机化检验（CRT）框架与局部渐近理论（QMD 与 Hölder 类）。 3. 主要结论是证明了 AC 系数即使在 CRT 框架下仍缺乏统计效率，并作为副产品解决了 AC 系数的中心极限定理猜想。

关键设定与假设： - 设定：样本 \((X_i, Y_i, Z_i)\) i.i.d.，\(Z\) 具有连续分布（保证最近邻定义无歧义）。 - CRT 框架：假设条件分布 \(\mathcal{L}(X \mid Z)\) 已知。这是一个强假设，但在理论分析中用于界定"最好可能表现"。作者证明了即便在这个理想假设下，AC 系数表现依然不佳，从而结论更强。 - QMD (Quadratic Mean Differentiable) 备择：假设备择分布相对于原假设分布是二次均方可微的。这是经典局部渐近理论的标准假设，用于研究 \(n^{-1/2}\) 邻域内的检验行为。 - Hölder 光滑备择：假设条件期望函数属于 Hölder 类 \(\Sigma(s, L)\)。用于研究非参数收敛速率 \(n^{-s/(2s+d_z)}\)。

主要结果：

定理：AC 系数的中心极限定理（CLT）
- 陈述：在 \(H_0\) 下，AC 系数 \(T_n\) 渐近服从正态分布 \(N(0, \sigma^2)\)，并给出了 \(\sigma^2\) 的显式公式。
- 意义：解决了 Azadkia and Chatterjee (2021) 的猜想。这使得我们可以计算检验的临界值。
- 技术难点：AC 系数是复杂的图统计量，涉及最近邻图的度数。证明其 CLT 需要处理项之间的复杂依赖关系。
定理：局部势分析（QMD 备择）
- 陈述：在 QMD 局部备择 \(P_{\theta_0 + h/\sqrt{n}}\) 下，基于 CRT 的 AC 系数检验，其势函数收敛于某个极限 \(\pi(h)\)。
- 核心发现：该极限势 \(\pi(h)\) 严格小于 1（对于 \(h \neq 0\)），且通常低于最优检验（如似然比检验）的势。更糟糕的是，在某些设定下，AC 系数甚至无法检测到 \(O(1/\sqrt{n})\) 的信号，这意味着它的"有效信号"速率可能更慢。
- 直觉：这表明 AC 系数作为检验统计量，其 Pitman 效率低于 1（相对于最优检验）。
定理：局部势分析（非参数备择）
- 陈述：在 Hölder 光滑备择下，检验能区分的最小信号强度为 \(n^{-s/(2s+d_z)}\)。
- 对比：这与非参数最优速率一致。但在常数因子上，AC 系数依然有效率损失。

证明路线与技术技巧：

整体路线：
1. 分解统计量：将 AC 系数分解为"主要项"和"余项"。
2. 处理图依赖：最近邻图引入了样本间的长程依赖。作者使用了Stein's Method 或 Dependency Graph 技术来控制这种依赖。
3. 局部渐近正态性：对于 QMD 备择，利用 Le Cam 的 LAN 理论，将统计量的分布归约为在原假设分布下的期望加上扰动项。
4. 计算影响函数：推导统计量的影响函数，确定其敏感度方向。
关键跳跃点：
- 从图统计量到 U 统计量结构：AC 系数虽然形式复杂，但本质上可以近似为某种高阶 U-统计量或其函数。作者需要证明这种近似的误差可控。
- 控制最近邻图的随机性：最近邻关系本身是随机的，这导致统计量的分母也是随机的。作者需要处理这种比（Ratio）统计量的渐近行为。
技术技巧点名：
- Hájek Projection：用于将复杂的图统计量投影到更简单的独立增量之和，从而利用经典 CLT。
- Empirical Process Theory：用于控制经验过程的一致收敛性，特别是在处理非参数备择时。
- Taylor Expansion for Ratio Statistics：处理分母随机且可能趋于零的情况。

真实例子与应用：本文为纯理论论文，无实证例子。所有的结论均通过数学定理和推论呈现。这在数理统计领域是标准做法，旨在提供方法论的理论边界。

🔎 结论是否比证明窄：作者的结论非常严谨。在 QMD 部分，明确限定了是"参数局部备择"；在非参数部分，限定了 Hölder 类。作者没有过度宣称 AC 系数"在所有情况下都差"，而是精确地指出了在局部备择框架下的效率缺失。这为后续改进（如 Lin & Han 2022b）指明了方向：改进的目标是提升局部势，而非仅仅保持一致性。

四、开放问题¶

本文留下了若干值得深究的开放问题，均扎根于具体结论：

如何构造高效率的非参数条件依赖系数？
- 扎根点：本文证明了 AC 系数效率低下，且引用了 Lin & Han (2022b) 的改进工作。一个自然的后续问题是：是否存在一个非参数系数，既能保持 AC 系数的计算便利性和一致性，又能达到半参数有效界？这涉及到半参数效率理论与图统计量的结合。
AC 系数在高维设定下的表现如何？
- 扎根点：本文设定中 \(d_z\) 固定或随 \(n\) 缓慢增长。若 \(d_z\) 很大（高维协变量），最近邻图会变得稀疏且不稳定。此时 AC 系数的收敛速率和势函数会如何变化？这涉及到高维统计与随机图理论的交叉。
能否放松 CRT 对 \(\mathcal{L}(X \mid Z)\) 已知的假设？
- 扎根点：本文理论分析假设 \(\mathcal{L}(X \mid Z)\) 已知（CRT 框架）。在实际应用中，条件分布需估计。若使用机器学习方法（如深度生成模型）估计条件分布，检验的性质（如 Type I error 控制）是否还能保持？这关联到DML (Double Machine Learning) 与Model-X knockoffs 等领域。
Higher-Order U-statistics 视角的重新审视
- 扎根点：AC 系数的结构隐约可见高阶 U-统计量的影子。利用研究者熟悉的Higher-Order Influence Function (HOIF) 理论，能否对 AC 系数进行去偏或修正，从而提升其效率？这直接关联到研究者的技术武器库。

Maintained by 陈星宇 · Homepage · Source on GitHub