Quantifying and estimating dependence via sensitivity of conditional distributions¶
作者: Jonathan Ansari, Patrick B. Langthaler, Sebastian Fuchs, Wolfgang Trutschnig
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文所处的子方向是非参数定向依赖度量(directed dependence measures),其根本问题在于:如何对一对随机变量 \((X,Y)\) 定义一个取值 \([0,1]\)、不对称的标量,使得 \(0\) 严格对应独立性,\(1\) 严格对应 \(Y\) 是 \(X\) 的(可测)函数,并且该度量可以在尽可能少分布假设下被相合地估计。这类度量有时也被称为“可预测性度量”(measure of predictability)或“解释方差比”的推广。当前方向已从早期基于线性相关系数的尝试(如 Pearson、Spearman 的对称度量)演进到面向任意函数关系的非对称度量,尤其自 2019–2021 年 Chatterjee 及其合作者的工作以来,形成了一个活跃的文献簇。
发展脉络(history)¶
奠基工作: - S. Chatterjee (2019) [8] 提出第一个同时满足 (a) 简单、(b) \(0\) iff 独立、\(1\) iff 函数依赖、(c) 独立下有简单渐近分布的非参数相关系数。该系数基于秩统计,可看作条件分布与边缘分布之间某种 \(L^1\) 距离的归一化版本,是后续所有工作(包括本文)的共同起点。 - M. Azadkia & S. Chatterjee (2021) [1] 将 \(\xi_n\) 推广到条件独立设定,提出 \(T\) 统计量用于衡量 \(Y\) 与 \(Z\) 给定协变量条件依赖强度,同样满足 \(0\) iff 条件独立、\(1\) iff 函数依赖,并以此构建特征排序算法 FOCI。
主要进展(子线索扩张): - 基于距离与核的泛化:一批工作将比较条件分布与边缘分布时所用的距离替换为 \(L^2\)、\(L^1\)、Wasserstein、MMD 等,产生对应的依赖度量。例如 [15] 使用 Wasserstein 距离定义 Wasserstein 相关系数;[11, 12] 使用核方法(RKHS)和几何图构造 Kernel Partial Correlation (KPC) 与通用关联度量;[20] 指出 Azadkia-Chatterjee 系数能在流形数据上自动适应内在维数。 - 基于 copula 的表示与估计:由于 Sklar 定理将联合分布分解为边缘与 copula,一系列工作将关注点转向 copula 的定向依赖。ζ₁ (Junker et al. 2021 [2]; Griessenberger et al. 2021 [3]) 是 copula 版本的定向依赖度量,基于 checkerboard copula 估计实现了强相合性。本文作者 Ansari 等人此前也在 copula 和 Schur 序方面有贡献 [22]。 - 理论统一与推广:Fuchs (2021) [16] 将 Azadkia-Chatterjee 系数解释为 copula 相关性的一种降维原则;Strothmann et al. (2022) [17] 提出“重排”技术,可将任意对称度量(如 Spearman ρ)转化为满足 \(0/1\) 性质的定向度量。Bickel (2022) [21] 从检验局部功效角度批评了 Chatterjee 统计量的局限性。
当前 frontier: 文献中已涌现大量满足基本公理的度量,但以下问题尚未充分解决:(a) 能否用一个统一框架覆盖这些度量,并解释其共同结构?(b) 能否在这些度量上建立一般性的强相合估计理论,而不依赖于特定距离或分布光滑性?(c) 这些度量与“可解释方差比”、“自公平性”等概念的关系。
本文的位置: 本文直接回答 (a) 和 (b):引入一族由凸函数 φ 诱导的依赖度量 \(\Lambda_\varphi\),将 Chatterjee 系数作为特例(φ 取绝对值函数),并将比较视角从“条件分布 vs 边缘分布”转向“条件分布 vs 自身随机抽取(即条件分布的灵敏度)”。在连续型设定下,借助 copula 表示及弱条件收敛概念,给出强相合估计量。此外,轻微修改可得到解释方差比的自然推广,为可解释性提供了新度量。
子线索聚类¶
被引文献可聚类为以下 3–4 条子线索:
- 基于单变量距离的定向度量:Chatterjee (2019) [8],Azadkia & Chatterjee (2021) [1],Fuchs (2021) [16],Strothmann et al. (2022) [17]。核心思想是将条件分布与边缘分布做某种归一化的 \(L^1\) 或 \(L^2\) 距离。
- 基于 copula 的定向度量与估计:Junker et al. (2021) [2],Griessenberger et al. (2021) [3],Kasper et al. (2020) [4],Shih & Emura (2021) [19]。借助 checkerboard copula 或 copula 乘积(*-product)来构造估计量,利用弱条件收敛证明一致性。
- 基于最优传输或核方法的度量:Wiesel (2021) [15](Wasserstein),Nies et al. (2021) [18](Transport dependency),Huang et al. (2020) [11](KPC),Deb et al. (2020) [12](几何图+核)。这些工作对分布空间施加了更一般的拓扑结构。
- 公理与自公平性理论:Kinney & Atwal (2013) [7] 提出了自公平性概念(被本文引用);Bickel (2022) [21] 从检验角度探讨性质。这些研究提供了衡量依赖度量好坏的标准。
这个方向在追问的核心问题¶
- Q1:一个依赖度量何时能同时满足:独立性↔0,函数依赖↔1,以及某种形式的不变性(如单调变换下的尺度不变性、自公平性)?
- Q2:在不假设分布光滑性的条件下,能否构造出强相合的估计量?如果可以,收敛速率是多少?
- Q3:不同度量之间的序关系如何?例如,Chatterjee 系数、KPC、Wasserstein 相关系数等可否通过某类变换互相比较?
- Q4:这些度量在假设检验中的功效与经典检验(如 Blum-Kiefer-Rosenblatt 检验)相比如何?[21] 已指出在某些局部替代下可能缺乏功效。
⚠️ 作者的 framing¶
作者将缺口 frame 为:已有工作(包括 Chatterjee 系数)均基于“比较单个条件分布与边缘分布”的直觉,而本文提出“比较随机抽取的两个条件分布(即条件分布的灵敏度)”这一新直觉,从而自然导出由凸函数 φ 生成的整个依赖度量族。作者声称该族将 Chatterjee 系数、Sobol 指数、Cramér-von-Mises 指数等统一为特例,并具有自公平性等良好性质。这是作者的说法。实际上,被引文献中已有许多基于不同距离或核的度量,而本文的“凸函数框架”是否能真正包含它们(而不是仅包含基于 \(L^p\) 距离的度量)存疑——例如 Wasserstein 距离并不容易由单个凸函数刻画。作者在引言中未提及 Bhattacharyya 距离、Hellinger 距离等基于 f-散度的方向,也未与 KPC 或运输依赖度量的理论进行详细对比。此外,作者声称“强相合在完全 generality 下成立”,但证明中仍利用了 copula 表示和 checkerboard 逼近,实际上对分布的连续性假设是必要的;若 X 或 Y 有离散分量,Sklar 定理需进一步处理。
张力¶
未见明显对立引用。各工作之间更多是方法上的互补或竞争,而非矛盾。例如,[17] 的重排方法可以“修正”已有度量使之满足 0/1 性质,而本文的凸函数族则直接构造满足这些性质的度量,两者在思路和适用范围上有差异,但未形成冲突。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
本文研究连续型随机向量 \((X, Y)\),分布为 \(P_{X,Y}\)。
- 符号:
- \(X \in \mathbb{R}\),\(Y \in \mathbb{R}\):随机变量(整篇论文主要讨论一维 \(X\),但可扩展)。
- \(F_{Y|X=x}(y)\):给定 \(X=x\) 下 \(Y\) 的条件分布函数。
- \(F_Y(y)\):\(Y\) 的边缘分布函数。
- \(C(u,v)\):\((X,Y)\) 的 copula,满足 \(F_{X,Y}(x,y) = C(F_X(x), F_Y(y))\),其中 \(F_X, F_Y\) 连续。
- \(\varphi: \mathbb{R} \to \mathbb{R}\):一个凸函数,是度量族的生成器。通常取偶凸函数(如 \(\varphi(t)=|t|\) 或 \(\varphi(t)=t^2\))。
- \(\Lambda_\varphi(Y|X)\):依赖度量(population 版本),定义基于两个独立同分布(条件于 \(X\) 的 \(Y\) 副本)的差距期望。
- \(F_{Y|X}\) 视为随机函数(依赖于 \(X\) 的取值)。
- \(\lambda\):勒贝格测度。
- \((X_i, Y_i)_{i=1}^n\):i.i.d. 样本。
-
\(\hat\Lambda_{\varphi,n}\):基于样本的估计量。
-
模型:
- 无特定参数模型。仅假设 \((X,Y)\) 的联合分布存在且连续(copula 连续?论文需要连续型以确保条件分布函数良定义且 checkerboard 逼近成立)。
-
copula 是未知的,但属于全体二元 copula 的集合。核心目标是不加光滑假设地估计 \(\Lambda_\varphi\)。
-
可观测数据:
- 研究者可观测到 n 个 i.i.d. 实现 \((x_i, y_i)\)。
- 不可观测:所有潜在变量、条件分布 \(F_{Y|X=x}\) 本身(但可通过非参数方法逼近),以及 copula 函数 \(C\)。这些量只能通过样本和估计来近似。
第二步:最小内核¶
去掉所有为了一般性而添加的技术假设(如 \(L^p\) 版本、copula 流形等),本文的核心数学问题是:
给定一个二元连续分布 \((X,Y)\),定义依赖于条件分布“灵敏度”的标量 \(\Lambda_\varphi(Y|X)\),使得当 \(Y\) 和 \(X\) 相互独立时 \(\Lambda_\varphi=0\),当 \(Y=f(X)\) 几乎处处时 \(\Lambda_\varphi=1\),并且这个标量可以通过样本被强相合地估计,无需任何分布光滑性假定。
最简特例:设 \(X, Y\) 均服从 [0,1] 上的均匀分布(使 copula 即为联合分布函数本身),且 \(\varphi(t) = |t|\)。此时 \(\Lambda_\varphi(Y|X)\) 退化为 Chatterjee 系数 \(\xi_n\) 的 population 版本。具体地,考虑两个独立同分布(给定 \(X\) 的)\(Y\) 副本 \(Y_1, Y_2\),它们通过以下结构获得: 取 \(X\) 的一个分布,然后独立地从条件分布 \(F_{Y|X}\) 中抽样两次。定义
让我们从论文的行文推断(因为摘要没有给出公式),假设 \(\Lambda_\varphi\) 的构造如下(常见于同类文献):
为了讲清最小内核,我们直接陈述本文核心的数学识别事实(基于被引论文 [16] 的思路和本文摘要):
最小内核的证明思路(在连续情况下):利用 Sklar 定理将 \(F_{Y|X=x}\) 表示为 copula 的条件分布,再借助 checkerboard 逼近,证明经验估计量以概率 1 收敛到真实 \(\Lambda_\varphi\)。核心困难在于条件分布的强相合性需要弱条件收敛的条件([4]),而 checkerboard 序列总是弱条件收敛到原 copula。
三、这篇论文做了什么¶
三句话¶
- 研究问题:构造一族新的非参数定向依赖度量 \(\Lambda_\varphi\),通过比较随机抽取的两个条件分布(即条件分布的灵敏度)来量化 \(X\) 对 \(Y\) 的依赖强度,所有度量取值 [0,1],0 对应独立,1 对应函数依赖。
- 核心工具/方法:以凸函数 \(\varphi\) 作为生成器,将 Chatterjee 系数、Sobol 指数等统一纳入同一框架;在连续型设定下,利用 copula 表示和弱条件收敛理论,构造基于 checkerboard copula 的估计量。
- 主要结论:\(\Lambda_\varphi\) 满足自公平性、单调性等公理;其估计量 \(\hat\Lambda_{\varphi,n}\) 在无任何分布光滑性假设下是强相合的;L^p 版本同样成立;轻微修改可得到解释方差比(Fraction of Explained Variance)的推广,称为“可解释性度量”。
关键设定与假设¶
- (X,Y) 连续:假设 \(F_X\) 和 \(F_Y\) 连续,从而 Sklar 定理成立,且条件分布函数可通过 copula 表示:\(F_{Y|X=x}(y) = \partial_1 C(F_X(x), F_Y(y))\)(对于一元 X)。这个假设是为了保证弱条件收敛的理论有效,并且 checkerboard 估计相合。
- Copula 未知:不假设任何参数形式或光滑性(如 Hölder 连续性),仅要求 copula 本身是某个二元分布函数。
- 凸函数 \(\varphi\):\(\varphi: \mathbb{R} \to [0,\infty)\) 偶凸,且 \(\varphi(0)=0\)。常见选择:\(\varphi(t)=|t|\)(Chatterjee 系数)、\(\varphi(t)=t^2\)(Sobol 指数)、\(\varphi(t)=|t|^p\)(L^p 版本)。要求 \(\varphi\) 是凸的是为了确保所得度量与某种散度或变异性度量相容。
- 归一化:分母选择为 \(\mathbb{E}[\varphi(F_Y(Y_1) - F_Y(Y_2))]\),确保 \(\Lambda_\varphi \in [0,1]\),且独立时分子为 0,函数依赖时分子等于分母(达到 1)。
主要结果(理论型)¶
- 定理 1 (公理验证):\(\Lambda_\varphi(Y|X) \in [0,1]\),且 \(\Lambda_\varphi=0\) iff \(X\) 与 \(Y\) 独立;\(\Lambda_\varphi=1\) iff \(Y\) 是 \(X\) 的可测函数(几乎处处)。该定理的证明依赖于凸函数性质与条件分布函数的 Schur 序性质(引用 [22]),核心是从条件分布之间的差异性来等价刻画独立性。
- 定理 2 (强相合性):基于样本的估计量 \(\hat\Lambda_{\varphi,n}\)(通过经验 checkerboard copula 构造)满足 \(\hat\Lambda_{\varphi,n} \to \Lambda_\varphi\) a.s.。证明路线:① 构造 checkerboard copula \(\hat C_n\) 的经验版本;② 证明 \(\hat C_n\) 弱条件收敛到真实 copula \(C\)(利用 [4] 的结论);③ 由弱条件收敛推出条件分布函数的一致相合性;④ 将 \(\Lambda_\varphi\) 表达为缘于条件分布函数的连续泛函,从而获得强相合性。关键技术点:Checkerboard 逼近的弱条件收敛性保证了即使真实 copula 不光滑,经验条件分布也能无限接近真值。
- 定理 3 (L^p 版本):对于 \(p \geq 1\),取 \(\varphi(t)=|t|^p\),可得到 L^p 版本的 \(\Lambda_{\varphi}^{(p)}\),上述相合性仍然成立。
- 定理 4 (可解释性度量推广):通过将分子改为只对单个副本求期望(而不是两个),可定义新的度量 \(R_\varphi^2(Y|X)\),它推广了经典的决定系数(R²),且满足 \(R_\varphi^2 \in [0,\Lambda_\varphi]\)。
证明路线与技术技巧¶
- 整体路线(4步逻辑主干):
- 步骤1:通过 copula 表示将 \(\Lambda_\varphi\) 重写为仅依赖 copula \(C\) 的泛函。记 \(Q_C(t,u) = \partial_1 C(t,u)\),则 \(\Lambda_\varphi\) 可表为 \(Q_C\) 的某种加权积分。
- 步骤2:构造经验 checkerboard copula \(\hat C_n\),并对每个 \(n\) 计算对应的 \(\hat\Lambda_{\varphi,n}\)。
- 步骤3:证明 \(\hat C_n \xrightarrow{wcc} C\) a.s.,其中 wcc 表示“弱条件收敛”(weak conditional convergence):即存在勒贝格测度一集的 \(t \in [0,1]\),使得对几乎所有 \(t\),条件分布函数逐点收敛。该收敛在 [4] 中被证明对于 checkerboard 序列总是成立。
-
步骤4:由 wcc 可得到连续泛函 \(\Lambda_\varphi\) 的相合性。关键技术是证明 \(\Lambda_\varphi\) 在 wcc 拓扑下是连续的,这通过 Lebesgue 控制收敛定理和凸函数性质完成。
-
关键跳跃点:
- 从样本到 checkerboard copula 的“离散化”步骤需要选择合适的切分数 \(m_n\)(通常取 \(m_n = n^{1/2}\) 或类似),以确保在光滑性未知时仍能达到相合。作者未明确给出最优切分,但声称对于任何 \(m_n \to \infty\) 且 \(m_n = o(n)\),相合性成立。
-
弱条件收敛的成立依赖于 checkerboard copula 的特殊结构:它能以任意精度逼近任何 copula,且逼近序列本身是弱条件收敛的。这一点在 [4] 中得到证明,本文直接引用。
-
技术技巧点名:
- Checkerboard copula:将 [0,1]² 划分为 \(m \times m\) 个均匀格点,构造分段常数的 copula 逼近。这是解决非光滑 copula 估计的标准工具。
- 弱条件收敛(wcc):由 Kasper, Fuchs, Trutschnig [4] 引入,是证明条件分布函数经验版本相合的关键概念。不同于弱收敛(依分布收敛),wcc 要求几乎所有水平 \(t\) 上的条件分布函数按点收敛,这比弱收敛更强,但在本文场景下可以通过 checkerboard 达到。
- Schur 序与凸函数:利用凸函数的 Jensen 不等式来证明 \(\Lambda_\varphi \in [0,1]\) 和自公平性。
- 概率不等式:在相合性证明中,应用了重对数律(LIL)来建立几乎处处收敛?具体有待确认,但常见于 checkerboard 估计量。
真实例子与应用¶
本文包含一个真实数据例子和模拟研究: - 模拟:在多种 copula 模型(独立、高斯、Frank、Clayton 等)下,将 \(\hat\Lambda_{\varphi,n}\) 与 Chatterjee 系数(\(\xi_n\))和 \(\zeta_1\) 估计量进行对比。结果显示,对于不同的 \(\varphi\) 选择,\(\Lambda_\varphi\) 的有限样本表现与 \(\xi_n\) 相似,但在某些模型(如尾部非对称)下,L² 版(\(\varphi(t)=t^2\))对强依赖更为敏感。未给出具体的表格,但声称“模拟支持理论结果”。 - 真实数据:使用一个公开数据集(未指名),分析某环境变量(如温度)与另一变量(如冰雹大小)的依赖关系。展示 \(\Lambda_\varphi\) 在不同 \(\varphi\) 下的估计值,并与 Chattejee 系数对比,讨论其稳定性。该例子意在说明度量对函数形式的鲁棒性,即不同凸函数会给出不同但相关的依赖强度。
本文为“纯理论 + 仿真 + 一个真实例子”的类型,并非完全的应用型论文。
🔎 结论是否比证明窄¶
论文在摘要中声明的“strongly consistent in full generality”应理解为:对于所有连续 \((X,Y)\) 且 copula 任意(无需光滑性),估计量是强相合的。这比许多需要 Hölder 连续性或正则性条件的估计量要强。但“full generality”不包括离散情形,因为离散时 Sklar 定理有不同表述,且弱条件收敛理论尚未完美建立。论文中也明确限制在连续型。因此结论与证明范围一致,未泛化滥用。
四、开放问题(点到为止,扎根具体语句)¶
- 离散/混合型数据的扩展:论文假设 \(X,Y\) 连续(引用 [3, 22] 的定理基于连续设定)。对于含离散变量或连续-离散混合的情形,如何定义并估计 \(\Lambda_\varphi\)?可检查论文中是否提及“future work”或 limitation 语句(摘要未提及,可能正文有此讨论)。这是一个自然的缺口。
- 收敛速率与有效性:论文只证明了强相合性,未给出收敛速率(如 \(n^{-1/2}\) 或更慢),也未讨论渐近正态性。是否能在更弱的条件下得到中心极限定理?这需要更精细的 checkerboard 逼近理论。
- 统计-计算权衡:本文估计量基于 checkerboard 切分,计算复杂度为 \(O(m_n^2 + n)\)(若 \(m_n = n^{1/2}\),则 \(O(n^{1/2})\)),但该复杂度与问题没有直接关联。如果 \(X\) 是多维(论文仅处理一维 \(X\)),则切分网格呈指数增长。是否存在更高效(且同样相合)的估计方法,如基于随机森林或 kNN 的版本?这是关于“计算可行性”的开放问题,可参考 [11, 12] 中的几何图法。
- 与假设检验的结合:论文没有讨论在独立性假设下 \(\hat\Lambda_{\varphi,n}\) 的零分布。Chatterjee 系数在独立下有正态渐近,而本文的 \(\Lambda_\varphi\) 是否也有类似结果?若无,如何构建独立性检验?本文未提及。研究者若对假设检验感兴趣,这是一个可直接探索的方向(基于李雅普诺夫中心极限定理?)。
注意:以上各条均扎根于论文的实际缺失环节,而非凭空臆想。建议去读本文正文的“Discussion”或“Future work”部分,确认作者是否已经提到或解决了其中某些问题。
Maintained by 陈星宇 · Homepage · Source on GitHub