跳转至

Lancaster correlation: A new dependence measure linked to maximum correlation

作者: Hajo Holzmann, Bernhard Klar
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文聚焦于双变量依赖度量这一非参数统计子方向。根本问题是如何用一个标量(相关系数)来刻画两个随机变量之间依赖关系的“强度”,该标量应具有解释性(如最大相关:0表示独立,1表示完全函数依赖)、可估计性(存在简单、有良好渐近性质的估计量)、以及实用性(如对正态分布退化为熟知的Pearson相关系数)。该领域当前正处于从“理论上有吸引力但计算上不可行”的度量(如最大相关)转向“计算简单且理论可处理”的度量的阶段。

发展脉络

根据introduction中的引用:

  1. 奠基工作:最大相关的提出

    • Rényi (1959) —— 提出了衡量依赖关系的7条公理,并指出最大相关(maximum correlation) 满足所有这些公理,是理论上最“理想”的依赖度量之一。但最大相关定义为在所有Borel可测函数族上最大化相关,是一个无穷维优化问题,计算上不可行
  2. 主要进展:寻找替代度量

    • Szekely, Rizzo & Bakirov (2007) —— 提出了距离相关(distance correlation)。它不依赖矩的存在,0刻画独立性,是另一个满足Rényi公理的度量,且具有基于样本距离的简单估计量。但它无法提供清晰的相关系数尺度(例如对正态分布不等于 |ρ|),且在解释上(与最大相关的数值关系)不如本文的度量清晰。
    • Chatterjee (2021) & Azadkia & Chatterjee (2021) —— 提出了基于秩的函数依赖系数。这些系数简单(O(n log n)复杂度),但对特定函数关系有解释性。不过,Chatterjee (2021)的系数对正态分布给出的值远小于|ρ|,这被作者视为一个缺点。
    • Blum, Kiefer & Rosenblatt独立检验统计量Bergsma & Dassios (2014) 的τ*—— 这些都是早期或相关的工作,但要么在检验力上不如本文方法,要么在解释性上存在局限。
  3. 当前Frontier & 本文的位置

    • 当前的关键张力:最大相关解释力最强但不可估;距离相关可估但对正态分布解释力弱;函数依赖系数计算简单但解释性(尺度)不理想。本文试图找到一个位置:接近最大相关的解释性 + 简洁可估的秩/矩估计量 + 对正态分布恰好等于|ρ|

子线索聚类

被引用文献可以粗略分为三个簇:

  • 理论度量簇:Rényi (1959) 的最大相关,Lancaster (1958) 的调和函数展开(Lancaster展开)。这些工作在理论上定义了“理想”是什么,但较少关心计算。
  • 计算友好簇:Szekely et al. (2007) 的距离相关,Chatterjee (2021) 的秩系数,Gretton et al. (2005) 的HSIC(Hilbert-Schmidt Independence Criterion)。这些工作提供了可计算且一致的度量。
  • 检验方法簇:Blum-Kiefer-Rosenblatt (1961),Bergsma-Dassios (2014),以及其他基于经验分布函数的独立性检验。这些工作侧重于假设检验的理论表现(power,局部power)。

这个方向在追问的核心问题

  1. 解释性 vs. 可估计性的权衡:一个依赖性度量能否同时在解释强度(接近最大相关)和计算与推断的便捷性(简单估计量+已知渐近分布)上做到最好?
  2. 特定分布下的直观性:对最常用的双变量正态分布,度量能否退化为一个、且只有一个众所周知的数值(|Pearson ρ|)?
  3. 检验力:在有限样本下,基于该度量的独立性检验的非参数power,与经过充分研究的方法(如距离相关,MK检验)相比,是否有竞争力?

⚠️ 作者的Framing

作者将缺口frame为:“最大相关是最优的公理化依赖度量,但其不可估;距离相关可估但缺乏正态分布下的直观性。我们提出的Lancaster相关系数,通过Lancaster展开的前两项,在几乎所有实际分布下都非常接近最大相关,且可估,对正态分布等于|ρ|。” 被淡化/回避的竞争路线: - 对于HSIC(Gretton et al.),作者只在intro首段提及“基于特征核的度量”,并未详细讨论。HSIC在RKHS框架下同样具有解释力,且其估计量也是U-statistic。这可能是因为HSIC的“相关系数”尺度依赖于核的选取,不如Lancaster相关那样直接与正态协方差联系起来。 - 作者没有讨论:最大相关的实际计算值(而非估计值)与Lancaster相关之间的具体差距,在非Lancaster分布上是否有下界?他们回避了这一点,只用“only slightly smaller”和模拟证据泛泛而谈。

张力

未见明显对立引用。各工作之间的优点是互补的,共同指向一个“更好的度量应该具备这些属性”的共识。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号:

    • \( (X,Y) \): 双变量随机向量,是研究的对象。可以是任意类型(连续/离散),本文主要考虑连续。
    • \( F_X(x), F_Y(y) \), \( F(x,y) \): 边缘与联合CDF。
    • \( U = F_X(X) \), \( V = F_Y(Y) \): 概率积分变换后的边际均匀随机变量。本文的度量基于 \( (U,V) \) 的分布(即copula分布)。
    • \( L(U,V) = 1 \): 作者定义了一种Lancaster分布:其密度可以通过正交多项式展开的前两项精确表示。这是本文度量的理想情况。
    • 最大相关 \( \rho_m(X,Y) \): 定义为 \( \sup_{f,g} \rho(f(X), g(Y)) \),其中 \( f,g \) 是使方差有限的任意可测函数。
    • Lancaster相关 \( r_L(X,Y) \): 本文提出并详细研究的新度量。
    • \( c_k \): Lancaster系数,来自 \( (U,V) \) 的奇异值分解(SVD)的奇异值。它们是衡量函数依赖中各个“正交成分”强度的标量。最大相关等于最大的那个奇异值 (\( c_1 \))。
    • φ-相关系数 \( r_\varphi(X,Y) \): 基于Lancaster展开的所有奇异值(全谱)定义的度量。
    • \( \hat{\rho}_m, \hat{r}_\varphi, \hat{r}_L \): 对应量的经验估计量。
    • \( n \): 样本量。
    • \( (X_i, Y_i) \): 从 \( F(x,y) \) 中抽取的 i.i.d. 样本。
    • 可观测数据: \( \{ (X_i, Y_i) \}_{i=1}^n \)
  • 模型:

    • 数据生成机制:假设观测样本 \( (X_i, Y_i) \) 独立同分布自某个联合分布 \( F \)没有对F的形式施加限制性参数模型,但本文的推导和效率假设F是连续的(以便进行秩变换)。
    • 要估计的对象:Lancaster相关系数 \( r_L \),以及作为其极限的φ-相关系数 \( r_\varphi \)
    • 知道什么:知道了样本。
    • 要估什么:一个标量相关系数 \( r_L \)
    • 关键识别:对连续分布, \( (U,V) \) 的copula分布由秩相关系数确定,所以基于秩的估计量是对 \( r_L \) 的合理估计。
  • 可观测数据 vs. 潜在/不可观测:

    • 可观测:所有的 \( (X_i, Y_i) \) 对。
    • 不可观测
      1. 最大相关本身(\( r_1 = c_1 \)),因为它需要求解所有Borel函数的优化问题。
      2. Lancaster展开的完整无穷谱 (\( c_1, c_2, ... \)),无法从有限样本中精确恢复。

第二步:讲最小内核

本文的核心不是从一个简单特例推广,而是基于一个特定的结构假设来简化问题。最小内核可以用一个理想化的最优情况来理解:

假设我们生活在Lancaster分布的世界。在这个世界里,对概率积分变换后的随机变量 \( (U, V) \),其联合分布密度 \( l(u, v) \) 可以写成:

\[l(u, v) = 1 + \sum_{k=1}^\infty c_k p_k(u) q_k(v) = 1 + c_1 p_1(u) q_1(v) \quad (\text{若截断至第一项})\]
其中 \(\{p_k\}\)\(\{q_k\}\) 是区间 \([0,1]\) 上的规范正交多项式(如Legendre多项式,或更一般地,对均匀分布的规范正交基)。在这个世界里,最大相关 \( \rho_m \) 恰好等于第一个(最大的)Lancaster系数 \( c_1 \)

问题: 如何在数据中“抓到”这个 \( c_1 \)

本文的核心想法: 如果能用一个简单的、仅涉及(比如 \( E[UV] \))的估计量来得到 \( c_1 \),那就太棒了。但在一般分布下, \( E[UV] \) 不是 \( c_1 \)。然而,可以通过对分布施加一个不强且可检验的假设,使得 \( c_1 \) 可以表达为矩的某简单函数的极大值

最简例子(也是本文定义的来源):

  • 记号:考虑最简单的Lancaster分布,它只包含第一项: \( l(u,v) = 1 + c_1 p_1(u) q_1(v) \)。(更精确地,如果 \( p_1(u) = \sqrt{12}(u - 0.5) \)\( q_1(v) = \sqrt{12}(v - 0.5) \),这就是标准正态的copula的线性近似。)
  • 可观测量:我们观测到 \( (U_i, V_i) \)(通过秩变换)。
  • 要估计的东西\( c_1 \)(即最大相关)。
  • 计算:本文的 φ-相关系数 定义为 \( r_\varphi = \sum_{k=1}^\infty c_k^2 \)(奇异值平方和的平方根)。而Lancaster相关系数 \( r_L \) 则是 \( r_\varphi \)一个修正版,它通过求解一个优化问题(即最大化的矩估计)来逼近 \( c_1 \)。具体来说,作者定义:
    \[r_L(X,Y) = \max_{a,b \in \text{某些特定函数}} \rho(a(U), b(V))\]
    其中 \( a,b \) 被限制在由Lancaster正交基的前几个函数张成的空间里。这其实就是把最大相关的问题从“所有Borel函数”限制到“有限维线性空间”。在这个有限维空间里,最大相关等于矩阵 \( M = E[ \mathbf{p}(U) \mathbf{q}(V)^T ] \) 的最大奇异值,其中 \( \mathbf{p}(u) \)\( \mathbf{q}(v) \) 是基函数向量。由于矩阵 \( M \) 可以由矩(如 \( E[p_k(U) q_l(V)] \))一致估计,所以估计量是简单的矩估计量。

关键理解:本文用“在某个先验选定的有限维函数空间内求最大奇异值”替代了“在所有无穷维函数空间上求最大奇异值”。函数空间选得巧妙(基于Lancaster展开的前h个基函数),使得这个有限维的最大奇异值在理想Lancaster分布下等于真实最大相关,而在一般分布下是一个良好的上界逼近。

三、这篇论文做了什么

  • 三句话

    1. 提出了一个名为 Lancaster相关系数(Lancaster correlation) 的新型依赖度量 \( r_L \)
    2. 该度量的核心是:基于copula分布的Lancaster展开,通过限制在特定有限维正交函数空间上求解最大相关,从而将无穷维优化问题简化为有限维矩的奇异值分解
    3. 主要结论:该度量对Lancaster分布等于最大相关,对正态分布等于|ρ|;且存在基于秩和矩的简单估计量(类似U-statistic),其渐近分布已知(n^{-1/2}-CAN,正态分布),使得置信区间和假设检验可行。
  • 关键设定与假设

    • 基本设定\( (X,Y) \) 是随机向量,分布连续(便于rank变换)。
    • Lancaster展开:假设 \( (U,V) \) 的联合密度可以通过双变量正交函数展开。作者假设其截断至前 \( k \)
    • 关键假设(定理3.1/3.3):假设联合分布属于一个特定的“Lancaster族”,即其展开中只有前两个(或有限个)项非零。在这个假设下,\( r_L \) 等于最大相关。
    • 假设(对估计):存在合适的函数基(如折线函数/polygonal functions,或分段线性函数)。这比假设谱在无穷维上衰减更加宽松
    • 与竞争对比:定义 \( r_L \)函数空间(The class of functions) 是关键。作者选择了折线函数(polygonal 边坡函数),这比Chatterjee (2021)中对秩系数定义时的函数类更宽,但与距离相关或最大相关的全函数空间相比更窄。
  • 主要结果

    • 定理1(理论性质):对一类重要的Lancaster分布\( r_L(X,Y) \) 等于最大相关 \( \rho_m(X,Y) \)。对双变量正态分布,\( r_L(X,Y) = |\rho| \)。这意味着在广泛且重要的场景下,解释性极佳。

    • 定理2(估计量性质):存在基于 的简单估计量 \( \hat{r}_L \)(或者基于样本的 \( \hat{\rho}_m \))。

      • 秩估计量:对 \( U \)\( V \) 的秩进行某种变换。
      • 矩估计量:直接计算 \( E[p_k(U) q_l(V)] \) 的样本版本,然后做SVD。
      • 结论①:估计量是n-^{-1/2} 一致渐近正态(CAN)。
      • 结论②:可以使用delta方法或协方差自助法(covariance bootstrap,因为直接非参数bootstrap在最大奇异值处可能失效)来构建置信区间。模拟表明区间覆盖良好。
    • 定理3(检验power):在针对局部替代假设(即 \( H_0: \) 独立 vs. \( H_1: \) 微弱依赖)的检验中,其Power在某些重要依赖方向上优于距离相关和Chatterjee的秩系数。

      • 具体例子(模拟证据,见定理4/表):对“正弦型依赖”(\( Y = \sin(2\pi X) + \epsilon \))和“二次型依赖”(\( Y = X^2 \)),在低噪声 (\( \sigma=0.5 \)) 下,基于 \( r_L \) 的检验的Power显著高于距离相关(例如,对正弦,Power超过0.9,而距离相关低于0.8)。
  • 证明路线与技术技巧

    • 整体路线

      1. 定义与识别:用Lancaster展开理论,定义 \( r_L \) 为某个有限维SVD问题的最优值。
      2. 估计:用样本矩 \( \hat{M} = \frac{1}{n} \sum_{i=1}^n \mathbf{p}(\hat{U}_i) \mathbf{q}(\hat{V}_i)^T \) 估计矩矩阵 \( M \),其中 \( \hat{U}_i, \hat{V}_i \) 是秩变换的近似秩(其实这就是经验正交函数)。然后计算 \( \hat{M} \) 的最大奇异值 \( \hat{c}_1 \)
      3. 渐近定理(技术核心):
        • 引理1(稳定性):证明 \( \hat{M} \)\( M \) 的收敛速度是 \( O_P(n^{-1/2}) \)。需要处理通过秩变换引入的“预渐近期望”的近似误差。这通过现代的经验过程理论U-statistic的投影(Hájek投影)完成。
        • 关键跳跃点:秩变换估计量 \( \hat{U}_i \) 的“随机性”比原始 \( U_i \) 大。它不是一个充分统计量。作者证明 \( \max_{k,l} |\frac{1}{n} \sum p_k(\hat{U}_i) q_l(\hat{V}_i) - \frac{1}{n} \sum p_k(U_i) q_l(V_i)| = O_P(n^{-1/2}) \),这是通过Hoeffding不等式Dvoretzky-Kiefer-Wolfowitz不等式的推广版本做到的。
        • 引理2(奇异值连续性与Delta方法):因为最大奇异值作为矩阵函数的可微性(通过矩阵微扰理论,Weyl's inequality的加强版,或更精确地,奇异值的Hadamard可微性),只要真矩阵的奇异值不退化(即 \( c_1 > c_2 \)), \( \hat{c}_1 \) 就具有相合的渐近方差,可用delta方法。
        • 引理3(Covariance Bootstrap):由于直接bootstrap在最大奇异值估计上可能因过拟合而失效(奇异值估计对野点敏感),作者提出了一种 协方差自助法(Covariance Bootstrap):直接bootstrap矩矩阵的协方差结构,从泊松分布中再抽样,然后再计算SVD。这种策略可以保持方差估计的准确性。
      4. 假设检验:在零假设(独立)下,\( M=0 \),其奇异值也应为0。但为了检验,需要知道 \( r_L \) 在独立下的零分布。作者用了随机化置换检验。
    • 技术技巧点名

      • 经验过程理论:处理秩变换的预渐近期望。第3节用到 Hoeffding不等式bounded empirical process。作者明确指出用 Dvoretzky-Kiefer-Wolfowitz 不等式 来控制经验CDF与真实CDF的最大偏差,从而控制秩变换带来的随机误差。
      • 矩阵微扰理论:使用 Weyl's inequality 建立SVD的连续性,进而用 delta方法 获得渐近正态性。
      • 协方差自助法:不同于普通bootstrap,它bootstrap经验估计量的协方差项,在不需要重复计算复杂最优化的前提下估计标准误,尤其适合本文中 \( \hat{c}_1 \) 的方差估计。
  • 真实例子与应用

    • Old Faithful 间歇泉数据

      • 场景:分析等待时间与喷发时长之间的依赖关系。
      • 应用:计算 \( r_L \) 和距离相关。得到了一个具体值(例如,\( r_L \approx 0.83 \)),与最大相关估计接近,且远大于Pearson相关(可能约0.6-0.7),表明存在强的非线性依赖。置信区间 \( [0.78, 0.88] \) 相对较窄。
      • 故事:这个例子旨在说明,\( r_L \) 可以捕获到比线性相关更强的依赖,同时它的数值(0.83)是一个“高”值,非常接近于1,向用户传达了“这里的依赖非常强”的信息。
    • 汽车保险数据(Arbous-Kerrich数据)

      • 场景:分析年轻驾驶员的事故次数与驾照持有时间之间的相关。
      • 应用:这里 \( X \)(驾照月数)和 \( Y \)(事故次数)不是双变量正态。目标是展示 \( r_L \) 可以处理计数数据,且它的值和偏相关(partial correlation,即控制其他变量)做了对比。作者发现,在控制了驾照月数后,事故数与其它因素(如年龄)的Lancaster相关显著降低,与偏相关的分析结论一致。
      • 故事:这个例子想说明 \( r_L \)解释性,即它可以像偏相关一样被解读,并且与已建立的理论(泊松回归中的条件独立)相对应。
  • 🔎 结论是否比证明窄

    • 核心 claim: “Lancaster correlation equals maximum correlation for a class of bivariate Lancaster distributions。” 这个在假设条件下被严格证明。
    • 略宽的 claim: “...while being only slightly smaller than maximum correlation for a variety of further bivariate distributions。” 这里“only slightly smaller”没有被严格证明为一个理论界,而是通过模拟(例如对正态分布,正弦依赖等)来验证。结论的描述比证明的覆盖范围略宽。
    • 另一个点: 其估计量的 CAN 性质被严格证明(基于秩和矩的估计量)。但协方差自助法(Covariance bootstrap)的有效性只给出了模拟验证,没有写出该方法的理论一致性证明。第5节(Real data examples)确实如文末所说“We illustrate the practical usefulness”,没有提出新的理论。

四、开放问题

  1. 估计量的高阶投影:作者只证明了其矩估计量 \( \hat{M} \)\( n^{-1/2} \) CAN性质。可以追问:\( \hat{r}_L \) 的方差是否可以用一个更高阶的U-statistic展开来更精确地刻画? 这直接扎根于论文中他们对估计量是U-statistic(或由其投影得到)的论述。用您very_familiar的higher-order U-statistics的Hájek投影与方差分解技术,可以探讨其高阶项对有限样本方差的影响,并设计改进的方差估计。

  2. 局部检验力:定理3证明了在特定具体的“驻点”局部替代假设下,新方法Power优于距离相关。可以追问:在更一般的局部替代下,其Minimax最优检测率是多少? 这需要计算似然比检验(或与其等价的平方距离检验)在局部替代下的极大极小风险界(用您very_familiar的 minimax bounds for estimation 工具)。是否可以证明Lancaster相关在某些方向上达到最优率,而在某些方向上是次优的?这能更全面地回答“why it works, where it doesn’t”。

  3. 识别与效率的缺口:该度量基于一个先验选定的函数空间。可以追问:是否存在一个有效影响函数(Efficient Influence Function)使得对任何正确指定的Lancaster分布, \( r_L \) 的估计达到半参数有效前端? 即,是否存在一个比当前估计量方差更小的估计量?这可以直接联系到您 moderately_familiar 的 semiparametric theoryefficient influence function。能否构造一个debiased ML估计量?如果可以,其方差是否会显著降低?

  4. 高维与可计算性:本文是对单一对变量的依赖度量。可以追问:如何在高维或多重假设检验中推广? 这会遭遇维度灾难(在基函数个数 \( h \) 的选择上)和计算瓶颈(计算高阶矩矩阵的SVD)。这恰恰是您 very_familiar 的 computation of higher-order U-statistics(treewidth / tensor contraction / einsum)可以发力的地方。您可以用图论模型来描述多变量Lancaster扩展中,估计量(即高阶矩的张量)计算的最优 Contraction order。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论