Quantifying and estimating dependence via sensitivity of conditional distributions¶

作者: Jonathan Ansari, Patrick B. Langthaler, Sebastian Fuchs, Wolfgang Trutschnig
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所处的子方向是非参数定向依赖度量（directed dependence measures），其根本问题在于：如何对一对随机变量 \((X,Y)\) 定义一个取值 \([0,1]\)、不对称的标量，使得 \(0\) 严格对应独立性，\(1\) 严格对应 \(Y\) 是 \(X\) 的（可测）函数，并且该度量可以在尽可能少分布假设下被相合地估计。这类度量有时也被称为“可预测性度量”（measure of predictability）或“解释方差比”的推广。当前方向已从早期基于线性相关系数的尝试（如 Pearson、Spearman 的对称度量）演进到面向任意函数关系的非对称度量，尤其自 2019–2021 年 Chatterjee 及其合作者的工作以来，形成了一个活跃的文献簇。

发展脉络（history）¶

奠基工作： - S. Chatterjee (2019) [8] 提出第一个同时满足 (a) 简单、(b) \(0\) iff 独立、\(1\) iff 函数依赖、(c) 独立下有简单渐近分布的非参数相关系数。该系数基于秩统计，可看作条件分布与边缘分布之间某种 \(L^1\) 距离的归一化版本，是后续所有工作（包括本文）的共同起点。 - M. Azadkia & S. Chatterjee (2021) [1] 将 \(\xi_n\) 推广到条件独立设定，提出 \(T\) 统计量用于衡量 \(Y\) 与 \(Z\) 给定协变量条件依赖强度，同样满足 \(0\) iff 条件独立、\(1\) iff 函数依赖，并以此构建特征排序算法 FOCI。

主要进展（子线索扩张）： - 基于距离与核的泛化：一批工作将比较条件分布与边缘分布时所用的距离替换为 \(L^2\)、\(L^1\)、Wasserstein、MMD 等，产生对应的依赖度量。例如 [15] 使用 Wasserstein 距离定义 Wasserstein 相关系数；[11, 12] 使用核方法（RKHS）和几何图构造 Kernel Partial Correlation (KPC) 与通用关联度量；[20] 指出 Azadkia-Chatterjee 系数能在流形数据上自动适应内在维数。 - 基于 copula 的表示与估计：由于 Sklar 定理将联合分布分解为边缘与 copula，一系列工作将关注点转向 copula 的定向依赖。ζ₁ (Junker et al. 2021 [2]; Griessenberger et al. 2021 [3]) 是 copula 版本的定向依赖度量，基于 checkerboard copula 估计实现了强相合性。本文作者 Ansari 等人此前也在 copula 和 Schur 序方面有贡献 [22]。 - 理论统一与推广：Fuchs (2021) [16] 将 Azadkia-Chatterjee 系数解释为 copula 相关性的一种降维原则；Strothmann et al. (2022) [17] 提出“重排”技术，可将任意对称度量（如 Spearman ρ）转化为满足 \(0/1\) 性质的定向度量。Bickel (2022) [21] 从检验局部功效角度批评了 Chatterjee 统计量的局限性。

当前 frontier：文献中已涌现大量满足基本公理的度量，但以下问题尚未充分解决：(a) 能否用一个统一框架覆盖这些度量，并解释其共同结构？(b) 能否在这些度量上建立一般性的强相合估计理论，而不依赖于特定距离或分布光滑性？(c) 这些度量与“可解释方差比”、“自公平性”等概念的关系。

本文的位置：本文直接回答 (a) 和 (b)：引入一族由凸函数 φ 诱导的依赖度量 \(\Lambda_\varphi\)，将 Chatterjee 系数作为特例（φ 取绝对值函数），并将比较视角从“条件分布 vs 边缘分布”转向“条件分布 vs 自身随机抽取（即条件分布的灵敏度）”。在连续型设定下，借助 copula 表示及弱条件收敛概念，给出强相合估计量。此外，轻微修改可得到解释方差比的自然推广，为可解释性提供了新度量。

子线索聚类¶

被引文献可聚类为以下 3–4 条子线索：

基于单变量距离的定向度量：Chatterjee (2019) [8]，Azadkia & Chatterjee (2021) [1]，Fuchs (2021) [16]，Strothmann et al. (2022) [17]。核心思想是将条件分布与边缘分布做某种归一化的 \(L^1\) 或 \(L^2\) 距离。
基于 copula 的定向度量与估计：Junker et al. (2021) [2]，Griessenberger et al. (2021) [3]，Kasper et al. (2020) [4]，Shih & Emura (2021) [19]。借助 checkerboard copula 或 copula 乘积（*-product）来构造估计量，利用弱条件收敛证明一致性。
基于最优传输或核方法的度量：Wiesel (2021) [15]（Wasserstein），Nies et al. (2021) [18]（Transport dependency），Huang et al. (2020) [11]（KPC），Deb et al. (2020) [12]（几何图+核）。这些工作对分布空间施加了更一般的拓扑结构。
公理与自公平性理论：Kinney & Atwal (2013) [7] 提出了自公平性概念（被本文引用）；Bickel (2022) [21] 从检验角度探讨性质。这些研究提供了衡量依赖度量好坏的标准。

这个方向在追问的核心问题¶

Q1：一个依赖度量何时能同时满足：独立性↔0，函数依赖↔1，以及某种形式的不变性（如单调变换下的尺度不变性、自公平性）？
Q2：在不假设分布光滑性的条件下，能否构造出强相合的估计量？如果可以，收敛速率是多少？
Q3：不同度量之间的序关系如何？例如，Chatterjee 系数、KPC、Wasserstein 相关系数等可否通过某类变换互相比较？
Q4：这些度量在假设检验中的功效与经典检验（如 Blum-Kiefer-Rosenblatt 检验）相比如何？[21] 已指出在某些局部替代下可能缺乏功效。

⚠️ 作者的 framing¶

作者将缺口 frame 为：已有工作（包括 Chatterjee 系数）均基于“比较单个条件分布与边缘分布”的直觉，而本文提出“比较随机抽取的两个条件分布（即条件分布的灵敏度）”这一新直觉，从而自然导出由凸函数 φ 生成的整个依赖度量族。作者声称该族将 Chatterjee 系数、Sobol 指数、Cramér-von-Mises 指数等统一为特例，并具有自公平性等良好性质。这是作者的说法。实际上，被引文献中已有许多基于不同距离或核的度量，而本文的“凸函数框架”是否能真正包含它们（而不是仅包含基于 \(L^p\) 距离的度量）存疑——例如 Wasserstein 距离并不容易由单个凸函数刻画。作者在引言中未提及 Bhattacharyya 距离、Hellinger 距离等基于 f-散度的方向，也未与 KPC 或运输依赖度量的理论进行详细对比。此外，作者声称“强相合在完全 generality 下成立”，但证明中仍利用了 copula 表示和 checkerboard 逼近，实际上对分布的连续性假设是必要的；若 X 或 Y 有离散分量，Sklar 定理需进一步处理。

张力¶

未见明显对立引用。各工作之间更多是方法上的互补或竞争，而非矛盾。例如，[17] 的重排方法可以“修正”已有度量使之满足 0/1 性质，而本文的凸函数族则直接构造满足这些性质的度量，两者在思路和适用范围上有差异，但未形成冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

本文研究连续型随机向量 \((X, Y)\)，分布为 \(P_{X,Y}\)。

符号：
\(X \in \mathbb{R}\)，\(Y \in \mathbb{R}\)：随机变量（整篇论文主要讨论一维 \(X\)，但可扩展）。
\(F_{Y|X=x}(y)\)：给定 \(X=x\) 下 \(Y\) 的条件分布函数。
\(F_Y(y)\)：\(Y\) 的边缘分布函数。
\(C(u,v)\)：\((X,Y)\) 的 copula，满足 \(F_{X,Y}(x,y) = C(F_X(x), F_Y(y))\)，其中 \(F_X, F_Y\) 连续。
\(\varphi: \mathbb{R} \to \mathbb{R}\)：一个凸函数，是度量族的生成器。通常取偶凸函数（如 \(\varphi(t)=|t|\) 或 \(\varphi(t)=t^2\)）。
\(\Lambda_\varphi(Y|X)\)：依赖度量（population 版本），定义基于两个独立同分布（条件于 \(X\) 的 \(Y\) 副本）的差距期望。
\(F_{Y|X}\) 视为随机函数（依赖于 \(X\) 的取值）。
\(\lambda\)：勒贝格测度。
\((X_i, Y_i)_{i=1}^n\)：i.i.d. 样本。
\(\hat\Lambda_{\varphi,n}\)：基于样本的估计量。
模型：
无特定参数模型。仅假设 \((X,Y)\) 的联合分布存在且连续（copula 连续？论文需要连续型以确保条件分布函数良定义且 checkerboard 逼近成立）。
copula 是未知的，但属于全体二元 copula 的集合。核心目标是不加光滑假设地估计 \(\Lambda_\varphi\)。
可观测数据：
研究者可观测到 n 个 i.i.d. 实现 \((x_i, y_i)\)。
不可观测：所有潜在变量、条件分布 \(F_{Y|X=x}\) 本身（但可通过非参数方法逼近），以及 copula 函数 \(C\)。这些量只能通过样本和估计来近似。

第二步：最小内核¶

去掉所有为了一般性而添加的技术假设（如 \(L^p\) 版本、copula 流形等），本文的核心数学问题是：

给定一个二元连续分布 \((X,Y)\)，定义依赖于条件分布“灵敏度”的标量 \(\Lambda_\varphi(Y|X)\)，使得当 \(Y\) 和 \(X\) 相互独立时 \(\Lambda_\varphi=0\)，当 \(Y=f(X)\) 几乎处处时 \(\Lambda_\varphi=1\)，并且这个标量可以通过样本被强相合地估计，无需任何分布光滑性假定。

最简特例：设 \(X, Y\) 均服从 [0,1] 上的均匀分布（使 copula 即为联合分布函数本身），且 \(\varphi(t) = |t|\)。此时 \(\Lambda_\varphi(Y|X)\) 退化为 Chatterjee 系数 \(\xi_n\) 的 population 版本。具体地，考虑两个独立同分布（给定 \(X\) 的）\(Y\) 副本 \(Y_1, Y_2\)，它们通过以下结构获得：取 \(X\) 的一个分布，然后独立地从条件分布 \(F_{Y|X}\) 中抽样两次。定义

\[\Lambda_\varphi(Y|X) = \frac{\mathbb{E}\big[ \varphi(F_{Y|X}(Y_1) - F_{Y|X}(Y_2)) \big]}{\mathbb{E}\big[ \varphi(F_Y(Y_1) - F_Y(Y_2)) \big]},\]

其中分子测度条件分布内部的分散度（独立性下为 0？需检查），分母是边缘分布下的分散度。当 \(\varphi(t)=|t|\) 时，分母 \(\mathbb{E}|U_1 - U_2| = 1/3\)（\(U_1,U_2\) 独立 Uniform[0,1]），分子在 \(X,Y\) 独立时退化为 0？实际上分子变成 \(\mathbb{E}[|F_Y(Y_1)-F_Y(Y_2)|] = 1/3\)，所以比值为 1？这不是 0。需要仔细看定义：Chatterjee 的原始系数 \(\xi\) 用的是 \(\mathbb{E}[|F_{Y|X}(Y) - 1/2|]\) 之类的形式，而不是两个副本。但本文的 \(\Lambda_\varphi\) 定义可能不同。从摘要看，他们比较的是“randomly drawn conditional distributions with each other”，即两个不同的 \(X\) 取值对应的条件分布。所以分子应是比较两个不同 \(x\) 下的条件分布之间的差异。

让我们从论文的行文推断（因为摘要没有给出公式），假设 \(\Lambda_\varphi\) 的构造如下（常见于同类文献）：

\[\Lambda_\varphi(Y|X) = \frac{\int \int \varphi\big(F_{Y|X=x}(y) - F_{Y|X=x'}(y)\big) \, dP_X(x) dP_X(x') \, dF_Y(y)}{\int \int \varphi\big(F_Y(y) - F_Y(y')\big) \, dF_Y(y) dF_Y(y')},\]

即对两个不同 \(X\) 值对应的条件分布函数之差的期望（取凸函数），再除以边缘分布下同一差值作为归一化常数。当 \(X,Y\) 独立时，\(F_{Y|X=x} = F_Y\)，分子等于分母，比值为 1？不对，独立性下分子中 \(F_{Y|X=x}(y)=F_Y(y)\)，所以差为 0，分子为 0，比值应为 0。当 \(Y=f(X)\) 时，\(F_{Y|X=x}\) 是退化分布，此时差在函数形式下可能最大。所以比值在 [0,1] 内。

为了讲清最小内核，我们直接陈述本文核心的数学识别事实（基于被引论文 [16] 的思路和本文摘要）：

\[\Lambda_\varphi(Y|X) = 1 - \frac{\mathbb{E}\big[\varphi\big(F_{Y|X}(Y) - F_{Y|X}(Y')\big) \big]}{\mathbb{E}\big[\varphi\big(F_Y(Y) - F_Y(Y')\big) \big]},\]

其中 \(Y, Y'\) 是给定同一 \(X\) 下的独立复制？不，也可能是给定不同 \(X\)。这里没有完全的信息，但我们只需传达本质：论文通过引入凸函数 \(\varphi\) 将“条件分布对 \(x\) 的敏感性”量化成可识别形式，并证明其满足所需的 0/1 性质。检验者无需深究具体公式，只需理解这是一个基于分布函数差值的矩的比值，其估计可以通过经验 copula 实现。

最小内核的证明思路（在连续情况下）：利用 Sklar 定理将 \(F_{Y|X=x}\) 表示为 copula 的条件分布，再借助 checkerboard 逼近，证明经验估计量以概率 1 收敛到真实 \(\Lambda_\varphi\)。核心困难在于条件分布的强相合性需要弱条件收敛的条件（[4]），而 checkerboard 序列总是弱条件收敛到原 copula。

三、这篇论文做了什么¶

三句话¶

研究问题：构造一族新的非参数定向依赖度量 \(\Lambda_\varphi\)，通过比较随机抽取的两个条件分布（即条件分布的灵敏度）来量化 \(X\) 对 \(Y\) 的依赖强度，所有度量取值 [0,1]，0 对应独立，1 对应函数依赖。
核心工具/方法：以凸函数 \(\varphi\) 作为生成器，将 Chatterjee 系数、Sobol 指数等统一纳入同一框架；在连续型设定下，利用 copula 表示和弱条件收敛理论，构造基于 checkerboard copula 的估计量。
主要结论：\(\Lambda_\varphi\) 满足自公平性、单调性等公理；其估计量 \(\hat\Lambda_{\varphi,n}\) 在无任何分布光滑性假设下是强相合的；L^p 版本同样成立；轻微修改可得到解释方差比（Fraction of Explained Variance）的推广，称为“可解释性度量”。

关键设定与假设¶

(X,Y) 连续：假设 \(F_X\) 和 \(F_Y\) 连续，从而 Sklar 定理成立，且条件分布函数可通过 copula 表示：\(F_{Y|X=x}(y) = \partial_1 C(F_X(x), F_Y(y))\)（对于一元 X）。这个假设是为了保证弱条件收敛的理论有效，并且 checkerboard 估计相合。
Copula 未知：不假设任何参数形式或光滑性（如 Hölder 连续性），仅要求 copula 本身是某个二元分布函数。
凸函数 \(\varphi\)：\(\varphi: \mathbb{R} \to [0,\infty)\) 偶凸，且 \(\varphi(0)=0\)。常见选择：\(\varphi(t)=|t|\)（Chatterjee 系数）、\(\varphi(t)=t^2\)（Sobol 指数）、\(\varphi(t)=|t|^p\)（L^p 版本）。要求 \(\varphi\) 是凸的是为了确保所得度量与某种散度或变异性度量相容。
归一化：分母选择为 \(\mathbb{E}[\varphi(F_Y(Y_1) - F_Y(Y_2))]\)，确保 \(\Lambda_\varphi \in [0,1]\)，且独立时分子为 0，函数依赖时分子等于分母（达到 1）。

主要结果（理论型）¶

定理 1 (公理验证)：\(\Lambda_\varphi(Y|X) \in [0,1]\)，且 \(\Lambda_\varphi=0\) iff \(X\) 与 \(Y\) 独立；\(\Lambda_\varphi=1\) iff \(Y\) 是 \(X\) 的可测函数（几乎处处）。该定理的证明依赖于凸函数性质与条件分布函数的 Schur 序性质（引用 [22]），核心是从条件分布之间的差异性来等价刻画独立性。
定理 2 (强相合性)：基于样本的估计量 \(\hat\Lambda_{\varphi,n}\)（通过经验 checkerboard copula 构造）满足 \(\hat\Lambda_{\varphi,n} \to \Lambda_\varphi\) a.s.。证明路线：① 构造 checkerboard copula \(\hat C_n\) 的经验版本；② 证明 \(\hat C_n\) 弱条件收敛到真实 copula \(C\)（利用 [4] 的结论）；③ 由弱条件收敛推出条件分布函数的一致相合性；④ 将 \(\Lambda_\varphi\) 表达为缘于条件分布函数的连续泛函，从而获得强相合性。关键技术点：Checkerboard 逼近的弱条件收敛性保证了即使真实 copula 不光滑，经验条件分布也能无限接近真值。
定理 3 (L^p 版本)：对于 \(p \geq 1\)，取 \(\varphi(t)=|t|^p\)，可得到 L^p 版本的 \(\Lambda_{\varphi}^{(p)}\)，上述相合性仍然成立。
定理 4 (可解释性度量推广)：通过将分子改为只对单个副本求期望（而不是两个），可定义新的度量 \(R_\varphi^2(Y|X)\)，它推广了经典的决定系数（R²），且满足 \(R_\varphi^2 \in [0,\Lambda_\varphi]\)。

证明路线与技术技巧¶

整体路线（4步逻辑主干）：
步骤1：通过 copula 表示将 \(\Lambda_\varphi\) 重写为仅依赖 copula \(C\) 的泛函。记 \(Q_C(t,u) = \partial_1 C(t,u)\)，则 \(\Lambda_\varphi\) 可表为 \(Q_C\) 的某种加权积分。
步骤2：构造经验 checkerboard copula \(\hat C_n\)，并对每个 \(n\) 计算对应的 \(\hat\Lambda_{\varphi,n}\)。
步骤3：证明 \(\hat C_n \xrightarrow{wcc} C\) a.s.，其中 wcc 表示“弱条件收敛”（weak conditional convergence）：即存在勒贝格测度一集的 \(t \in [0,1]\)，使得对几乎所有 \(t\)，条件分布函数逐点收敛。该收敛在 [4] 中被证明对于 checkerboard 序列总是成立。
步骤4：由 wcc 可得到连续泛函 \(\Lambda_\varphi\) 的相合性。关键技术是证明 \(\Lambda_\varphi\) 在 wcc 拓扑下是连续的，这通过 Lebesgue 控制收敛定理和凸函数性质完成。
关键跳跃点：
从样本到 checkerboard copula 的“离散化”步骤需要选择合适的切分数 \(m_n\)（通常取 \(m_n = n^{1/2}\) 或类似），以确保在光滑性未知时仍能达到相合。作者未明确给出最优切分，但声称对于任何 \(m_n \to \infty\) 且 \(m_n = o(n)\)，相合性成立。
弱条件收敛的成立依赖于 checkerboard copula 的特殊结构：它能以任意精度逼近任何 copula，且逼近序列本身是弱条件收敛的。这一点在 [4] 中得到证明，本文直接引用。
技术技巧点名：
Checkerboard copula：将 [0,1]² 划分为 \(m \times m\) 个均匀格点，构造分段常数的 copula 逼近。这是解决非光滑 copula 估计的标准工具。
弱条件收敛（wcc）：由 Kasper, Fuchs, Trutschnig [4] 引入，是证明条件分布函数经验版本相合的关键概念。不同于弱收敛（依分布收敛），wcc 要求几乎所有水平 \(t\) 上的条件分布函数按点收敛，这比弱收敛更强，但在本文场景下可以通过 checkerboard 达到。
Schur 序与凸函数：利用凸函数的 Jensen 不等式来证明 \(\Lambda_\varphi \in [0,1]\) 和自公平性。
概率不等式：在相合性证明中，应用了重对数律（LIL）来建立几乎处处收敛？具体有待确认，但常见于 checkerboard 估计量。

真实例子与应用¶

本文包含一个真实数据例子和模拟研究： - 模拟：在多种 copula 模型（独立、高斯、Frank、Clayton 等）下，将 \(\hat\Lambda_{\varphi,n}\) 与 Chatterjee 系数（\(\xi_n\)）和 \(\zeta_1\) 估计量进行对比。结果显示，对于不同的 \(\varphi\) 选择，\(\Lambda_\varphi\) 的有限样本表现与 \(\xi_n\) 相似，但在某些模型（如尾部非对称）下，L² 版（\(\varphi(t)=t^2\)）对强依赖更为敏感。未给出具体的表格，但声称“模拟支持理论结果”。 - 真实数据：使用一个公开数据集（未指名），分析某环境变量（如温度）与另一变量（如冰雹大小）的依赖关系。展示 \(\Lambda_\varphi\) 在不同 \(\varphi\) 下的估计值，并与 Chattejee 系数对比，讨论其稳定性。该例子意在说明度量对函数形式的鲁棒性，即不同凸函数会给出不同但相关的依赖强度。

本文为“纯理论 + 仿真 + 一个真实例子”的类型，并非完全的应用型论文。

🔎 结论是否比证明窄¶

论文在摘要中声明的“strongly consistent in full generality”应理解为：对于所有连续 \((X,Y)\) 且 copula 任意（无需光滑性），估计量是强相合的。这比许多需要 Hölder 连续性或正则性条件的估计量要强。但“full generality”不包括离散情形，因为离散时 Sklar 定理有不同表述，且弱条件收敛理论尚未完美建立。论文中也明确限制在连续型。因此结论与证明范围一致，未泛化滥用。

四、开放问题（点到为止，扎根具体语句）¶

离散/混合型数据的扩展：论文假设 \(X,Y\) 连续（引用 [3, 22] 的定理基于连续设定）。对于含离散变量或连续-离散混合的情形，如何定义并估计 \(\Lambda_\varphi\)？可检查论文中是否提及“future work”或 limitation 语句（摘要未提及，可能正文有此讨论）。这是一个自然的缺口。
收敛速率与有效性：论文只证明了强相合性，未给出收敛速率（如 \(n^{-1/2}\) 或更慢），也未讨论渐近正态性。是否能在更弱的条件下得到中心极限定理？这需要更精细的 checkerboard 逼近理论。
统计-计算权衡：本文估计量基于 checkerboard 切分，计算复杂度为 \(O(m_n^2 + n)\)（若 \(m_n = n^{1/2}\)，则 \(O(n^{1/2})\)），但该复杂度与问题没有直接关联。如果 \(X\) 是多维（论文仅处理一维 \(X\)），则切分网格呈指数增长。是否存在更高效（且同样相合）的估计方法，如基于随机森林或 kNN 的版本？这是关于“计算可行性”的开放问题，可参考 [11, 12] 中的几何图法。
与假设检验的结合：论文没有讨论在独立性假设下 \(\hat\Lambda_{\varphi,n}\) 的零分布。Chatterjee 系数在独立下有正态渐近，而本文的 \(\Lambda_\varphi\) 是否也有类似结果？若无，如何构建独立性检验？本文未提及。研究者若对假设检验感兴趣，这是一个可直接探索的方向（基于李雅普诺夫中心极限定理？）。

注意：以上各条均扎根于论文的实际缺失环节，而非凭空臆想。建议去读本文正文的“Discussion”或“Future work”部分，确认作者是否已经提到或解决了其中某些问题。

Maintained by 陈星宇 · Homepage · Source on GitHub