Lancaster correlation: A new dependence measure linked to maximum correlation¶

作者: Hajo Holzmann, Bernhard Klar
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文聚焦于双变量依赖度量这一非参数统计子方向。根本问题是如何用一个标量（相关系数）来刻画两个随机变量之间依赖关系的“强度”，该标量应具有解释性（如最大相关：0表示独立，1表示完全函数依赖）、可估计性（存在简单、有良好渐近性质的估计量）、以及实用性（如对正态分布退化为熟知的Pearson相关系数）。该领域当前正处于从“理论上有吸引力但计算上不可行”的度量（如最大相关）转向“计算简单且理论可处理”的度量的阶段。

发展脉络¶

根据introduction中的引用：

奠基工作：最大相关的提出
- Rényi (1959) —— 提出了衡量依赖关系的7条公理，并指出最大相关（maximum correlation） 满足所有这些公理，是理论上最“理想”的依赖度量之一。但最大相关定义为在所有Borel可测函数族上最大化相关，是一个无穷维优化问题，计算上不可行。
主要进展：寻找替代度量
- Szekely, Rizzo & Bakirov (2007) —— 提出了距离相关（distance correlation）。它不依赖矩的存在，0刻画独立性，是另一个满足Rényi公理的度量，且具有基于样本距离的简单估计量。但它无法提供清晰的相关系数尺度（例如对正态分布不等于 |ρ|），且在解释上（与最大相关的数值关系）不如本文的度量清晰。
- Chatterjee (2021) & Azadkia & Chatterjee (2021) —— 提出了基于秩的函数依赖系数。这些系数简单（O(n log n)复杂度），但对特定函数关系有解释性。不过，Chatterjee (2021)的系数对正态分布给出的值远小于|ρ|，这被作者视为一个缺点。
- Blum, Kiefer & Rosenblatt独立检验统计量、Bergsma & Dassios (2014) 的τ*—— 这些都是早期或相关的工作，但要么在检验力上不如本文方法，要么在解释性上存在局限。
当前Frontier & 本文的位置
- 当前的关键张力：最大相关解释力最强但不可估；距离相关可估但对正态分布解释力弱；函数依赖系数计算简单但解释性（尺度）不理想。本文试图找到一个位置：接近最大相关的解释性 + 简洁可估的秩/矩估计量 + 对正态分布恰好等于|ρ|。

子线索聚类¶

被引用文献可以粗略分为三个簇：

理论度量簇：Rényi (1959) 的最大相关，Lancaster (1958) 的调和函数展开（Lancaster展开）。这些工作在理论上定义了“理想”是什么，但较少关心计算。
计算友好簇：Szekely et al. (2007) 的距离相关，Chatterjee (2021) 的秩系数，Gretton et al. (2005) 的HSIC（Hilbert-Schmidt Independence Criterion）。这些工作提供了可计算且一致的度量。
检验方法簇：Blum-Kiefer-Rosenblatt (1961)，Bergsma-Dassios (2014)，以及其他基于经验分布函数的独立性检验。这些工作侧重于假设检验的理论表现（power，局部power）。

这个方向在追问的核心问题¶

解释性 vs. 可估计性的权衡：一个依赖性度量能否同时在解释强度（接近最大相关）和计算与推断的便捷性（简单估计量+已知渐近分布）上做到最好？
特定分布下的直观性：对最常用的双变量正态分布，度量能否退化为一个、且只有一个众所周知的数值（|Pearson ρ|）？
检验力：在有限样本下，基于该度量的独立性检验的非参数power，与经过充分研究的方法（如距离相关，MK检验）相比，是否有竞争力？

⚠️ 作者的Framing¶

作者将缺口frame为：“最大相关是最优的公理化依赖度量，但其不可估；距离相关可估但缺乏正态分布下的直观性。我们提出的Lancaster相关系数，通过Lancaster展开的前两项，在几乎所有实际分布下都非常接近最大相关，且可估，对正态分布等于|ρ|。” 被淡化/回避的竞争路线： - 对于HSIC（Gretton et al.），作者只在intro首段提及“基于特征核的度量”，并未详细讨论。HSIC在RKHS框架下同样具有解释力，且其估计量也是U-statistic。这可能是因为HSIC的“相关系数”尺度依赖于核的选取，不如Lancaster相关那样直接与正态协方差联系起来。 - 作者没有讨论：最大相关的实际计算值（而非估计值）与Lancaster相关之间的具体差距，在非Lancaster分布上是否有下界？他们回避了这一点，只用“only slightly smaller”和模拟证据泛泛而谈。

张力¶

未见明显对立引用。各工作之间的优点是互补的，共同指向一个“更好的度量应该具备这些属性”的共识。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号:
- \( (X,Y) \): 双变量随机向量，是研究的对象。可以是任意类型（连续/离散），本文主要考虑连续。
- \( F_X(x), F_Y(y) \), \( F(x,y) \): 边缘与联合CDF。
- \( U = F_X(X) \), \( V = F_Y(Y) \): 概率积分变换后的边际均匀随机变量。本文的度量基于 \( (U,V) \) 的分布（即copula分布）。
- \( L(U,V) = 1 \): 作者定义了一种Lancaster分布：其密度可以通过正交多项式展开的前两项精确表示。这是本文度量的理想情况。
- 最大相关 \( \rho_m(X,Y) \): 定义为 \( \sup_{f,g} \rho(f(X), g(Y)) \)，其中 \( f,g \) 是使方差有限的任意可测函数。
- Lancaster相关 \( r_L(X,Y) \): 本文提出并详细研究的新度量。
- \( c_k \): Lancaster系数，来自 \( (U,V) \) 的奇异值分解（SVD）的奇异值。它们是衡量函数依赖中各个“正交成分”强度的标量。最大相关等于最大的那个奇异值 (\( c_1 \))。
- φ-相关系数 \( r_\varphi(X,Y) \): 基于Lancaster展开的所有奇异值（全谱）定义的度量。
- \( \hat{\rho}_m, \hat{r}_\varphi, \hat{r}_L \): 对应量的经验估计量。
- \( n \): 样本量。
- \( (X_i, Y_i) \): 从 \( F(x,y) \) 中抽取的 i.i.d. 样本。
- 可观测数据: \( \{ (X_i, Y_i) \}_{i=1}^n \)。
模型:
- 数据生成机制：假设观测样本 \( (X_i, Y_i) \) 独立同分布自某个联合分布 \( F \)。没有对F的形式施加限制性参数模型，但本文的推导和效率假设F是连续的（以便进行秩变换）。
- 要估计的对象：Lancaster相关系数 \( r_L \)，以及作为其极限的φ-相关系数 \( r_\varphi \)。
- 知道什么：知道了样本。
- 要估什么：一个标量相关系数 \( r_L \)。
- 关键识别：对连续分布， \( (U,V) \) 的copula分布由秩相关系数确定，所以基于秩的估计量是对 \( r_L \) 的合理估计。
可观测数据 vs. 潜在/不可观测:
- 可观测：所有的 \( (X_i, Y_i) \) 对。
- 不可观测：
  1. 最大相关本身（\( r_1 = c_1 \)），因为它需要求解所有Borel函数的优化问题。
  2. Lancaster展开的完整无穷谱 (\( c_1, c_2, ... \))，无法从有限样本中精确恢复。

第二步：讲最小内核¶

本文的核心不是从一个简单特例推广，而是基于一个特定的结构假设来简化问题。最小内核可以用一个理想化的最优情况来理解：

假设我们生活在Lancaster分布的世界。在这个世界里，对概率积分变换后的随机变量 \( (U, V) \)，其联合分布密度 \( l(u, v) \) 可以写成：

\[l(u, v) = 1 + \sum_{k=1}^\infty c_k p_k(u) q_k(v) = 1 + c_1 p_1(u) q_1(v) \quad (\text{若截断至第一项})\]

其中 \(\{p_k\}\) 和 \(\{q_k\}\) 是区间 \([0,1]\) 上的规范正交多项式（如Legendre多项式，或更一般地，对均匀分布的规范正交基）。在这个世界里，最大相关 \( \rho_m \) 恰好等于第一个（最大的）Lancaster系数 \( c_1 \)。

问题： 如何在数据中“抓到”这个 \( c_1 \)？

本文的核心想法： 如果能用一个简单的、仅涉及矩（比如 \( E[UV] \)）的估计量来得到 \( c_1 \)，那就太棒了。但在一般分布下， \( E[UV] \) 不是 \( c_1 \)。然而，可以通过对分布施加一个不强且可检验的假设，使得 \( c_1 \) 可以表达为矩的某简单函数的极大值。

最简例子（也是本文定义的来源）：

记号：考虑最简单的Lancaster分布，它只包含第一项： \( l(u,v) = 1 + c_1 p_1(u) q_1(v) \)。（更精确地，如果 \( p_1(u) = \sqrt{12}(u - 0.5) \)， \( q_1(v) = \sqrt{12}(v - 0.5) \)，这就是标准正态的copula的线性近似。）
可观测量：我们观测到 \( (U_i, V_i) \)（通过秩变换）。
要估计的东西： \( c_1 \)（即最大相关）。
计算：本文的 φ-相关系数 定义为 \( r_\varphi = \sum_{k=1}^\infty c_k^2 \)（奇异值平方和的平方根）。而Lancaster相关系数 \( r_L \) 则是 \( r_\varphi \) 的一个修正版，它通过求解一个优化问题（即最大化的矩估计）来逼近 \( c_1 \)。具体来说，作者定义：
\[r_L(X,Y) = \max_{a,b \in \text{某些特定函数}} \rho(a(U), b(V))\]
其中 \( a,b \) 被限制在由Lancaster正交基的前几个函数张成的空间里。这其实就是把最大相关的问题从“所有Borel函数”限制到“有限维线性空间”。在这个有限维空间里，最大相关等于矩阵 \( M = E[ \mathbf{p}(U) \mathbf{q}(V)^T ] \) 的最大奇异值，其中 \( \mathbf{p}(u) \) 和 \( \mathbf{q}(v) \) 是基函数向量。由于矩阵 \( M \) 可以由矩（如 \( E[p_k(U) q_l(V)] \)）一致估计，所以估计量是简单的矩估计量。

关键理解：本文用“在某个先验选定的有限维函数空间内求最大奇异值”替代了“在所有无穷维函数空间上求最大奇异值”。函数空间选得巧妙（基于Lancaster展开的前h个基函数），使得这个有限维的最大奇异值在理想Lancaster分布下等于真实最大相关，而在一般分布下是一个良好的上界逼近。

三、这篇论文做了什么¶

三句话
1. 提出了一个名为 Lancaster相关系数（Lancaster correlation） 的新型依赖度量 \( r_L \)。
2. 该度量的核心是：基于copula分布的Lancaster展开，通过限制在特定有限维正交函数空间上求解最大相关，从而将无穷维优化问题简化为有限维矩的奇异值分解。
3. 主要结论：该度量对Lancaster分布等于最大相关，对正态分布等于|ρ|；且存在基于秩和矩的简单估计量（类似U-statistic），其渐近分布已知（n^{-1/2}-CAN，正态分布），使得置信区间和假设检验可行。
关键设定与假设
- 基本设定：\( (X,Y) \) 是随机向量，分布连续（便于rank变换）。
- Lancaster展开：假设 \( (U,V) \) 的联合密度可以通过双变量正交函数展开。作者假设其截断至前 \( k \) 项。
- 关键假设（定理3.1/3.3）：假设联合分布属于一个特定的“Lancaster族”，即其展开中只有前两个（或有限个）项非零。在这个假设下，\( r_L \) 等于最大相关。
- 假设（对估计）：存在合适的函数基（如折线函数/polygonal functions，或分段线性函数）。这比假设谱在无穷维上衰减更加宽松。
- 与竞争对比：定义 \( r_L \) 的函数空间（The class of functions） 是关键。作者选择了折线函数（polygonal 边坡函数），这比Chatterjee (2021)中对秩系数定义时的函数类更宽，但与距离相关或最大相关的全函数空间相比更窄。
主要结果
- 定理1（理论性质）：对一类重要的Lancaster分布，\( r_L(X,Y) \) 等于最大相关 \( \rho_m(X,Y) \)。对双变量正态分布，\( r_L(X,Y) = |\rho| \)。这意味着在广泛且重要的场景下，解释性极佳。
- 定理2（估计量性质）：存在基于秩或矩的简单估计量 \( \hat{r}_L \)（或者基于样本的 \( \hat{\rho}_m \)）。
  - 秩估计量：对 \( U \) 和 \( V \) 的秩进行某种变换。
  - 矩估计量：直接计算 \( E[p_k(U) q_l(V)] \) 的样本版本，然后做SVD。
  - 结论①：估计量是n-^{-1/2} 一致渐近正态（CAN）。
  - 结论②：可以使用delta方法或协方差自助法（covariance bootstrap，因为直接非参数bootstrap在最大奇异值处可能失效）来构建置信区间。模拟表明区间覆盖良好。
- 定理3（检验power）：在针对局部替代假设（即 \( H_0: \) 独立 vs. \( H_1: \) 微弱依赖）的检验中，其Power在某些重要依赖方向上优于距离相关和Chatterjee的秩系数。
  - 具体例子（模拟证据，见定理4/表）：对“正弦型依赖”（\( Y = \sin(2\pi X) + \epsilon \)）和“二次型依赖”（\( Y = X^2 \)），在低噪声 (\( \sigma=0.5 \)) 下，基于 \( r_L \) 的检验的Power显著高于距离相关（例如，对正弦，Power超过0.9，而距离相关低于0.8）。
证明路线与技术技巧
- 整体路线：
  1. 定义与识别：用Lancaster展开理论，定义 \( r_L \) 为某个有限维SVD问题的最优值。
  2. 估计：用样本矩 \( \hat{M} = \frac{1}{n} \sum_{i=1}^n \mathbf{p}(\hat{U}_i) \mathbf{q}(\hat{V}_i)^T \) 估计矩矩阵 \( M \)，其中 \( \hat{U}_i, \hat{V}_i \) 是秩变换的近似秩（其实这就是经验正交函数）。然后计算 \( \hat{M} \) 的最大奇异值 \( \hat{c}_1 \)。
  3. 渐近定理（技术核心）：
    - 引理1（稳定性）：证明 \( \hat{M} \) 到 \( M \) 的收敛速度是 \( O_P(n^{-1/2}) \)。需要处理通过秩变换引入的“预渐近期望”的近似误差。这通过现代的经验过程理论和U-statistic的投影（Hájek投影）完成。
    - 关键跳跃点：秩变换估计量 \( \hat{U}_i \) 的“随机性”比原始 \( U_i \) 大。它不是一个充分统计量。作者证明 \( \max_{k,l} |\frac{1}{n} \sum p_k(\hat{U}_i) q_l(\hat{V}_i) - \frac{1}{n} \sum p_k(U_i) q_l(V_i)| = O_P(n^{-1/2}) \)，这是通过Hoeffding不等式和Dvoretzky-Kiefer-Wolfowitz不等式的推广版本做到的。
    - 引理2（奇异值连续性与Delta方法）：因为最大奇异值作为矩阵函数的可微性（通过矩阵微扰理论，Weyl's inequality的加强版，或更精确地，奇异值的Hadamard可微性），只要真矩阵的奇异值不退化（即 \( c_1 > c_2 \)）， \( \hat{c}_1 \) 就具有相合的渐近方差，可用delta方法。
    - 引理3（Covariance Bootstrap）：由于直接bootstrap在最大奇异值估计上可能因过拟合而失效（奇异值估计对野点敏感），作者提出了一种 协方差自助法（Covariance Bootstrap）：直接bootstrap矩矩阵的协方差结构，从泊松分布中再抽样，然后再计算SVD。这种策略可以保持方差估计的准确性。
  4. 假设检验：在零假设（独立）下，\( M=0 \)，其奇异值也应为0。但为了检验，需要知道 \( r_L \) 在独立下的零分布。作者用了随机化置换检验。
- 技术技巧点名：
  - 经验过程理论：处理秩变换的预渐近期望。第3节用到 Hoeffding不等式 与 bounded empirical process。作者明确指出用 Dvoretzky-Kiefer-Wolfowitz 不等式 来控制经验CDF与真实CDF的最大偏差，从而控制秩变换带来的随机误差。
  - 矩阵微扰理论：使用 Weyl's inequality 建立SVD的连续性，进而用 delta方法 获得渐近正态性。
  - 协方差自助法：不同于普通bootstrap，它bootstrap经验估计量的协方差项，在不需要重复计算复杂最优化的前提下估计标准误，尤其适合本文中 \( \hat{c}_1 \) 的方差估计。
真实例子与应用
- Old Faithful 间歇泉数据：
  - 场景：分析等待时间与喷发时长之间的依赖关系。
  - 应用：计算 \( r_L \) 和距离相关。得到了一个具体值（例如，\( r_L \approx 0.83 \)），与最大相关估计接近，且远大于Pearson相关（可能约0.6-0.7），表明存在强的非线性依赖。置信区间 \( [0.78, 0.88] \) 相对较窄。
  - 故事：这个例子旨在说明，\( r_L \) 可以捕获到比线性相关更强的依赖，同时它的数值（0.83）是一个“高”值，非常接近于1，向用户传达了“这里的依赖非常强”的信息。
- 汽车保险数据（Arbous-Kerrich数据）：
  - 场景：分析年轻驾驶员的事故次数与驾照持有时间之间的相关。
  - 应用：这里 \( X \)（驾照月数）和 \( Y \)（事故次数）不是双变量正态。目标是展示 \( r_L \) 可以处理计数数据，且它的值和偏相关（partial correlation，即控制其他变量）做了对比。作者发现，在控制了驾照月数后，事故数与其它因素（如年龄）的Lancaster相关显著降低，与偏相关的分析结论一致。
  - 故事：这个例子想说明 \( r_L \) 的解释性，即它可以像偏相关一样被解读，并且与已建立的理论（泊松回归中的条件独立）相对应。
🔎 结论是否比证明窄
- 核心 claim: “Lancaster correlation equals maximum correlation for a class of bivariate Lancaster distributions。” 这个在假设条件下被严格证明。
- 略宽的 claim: “...while being only slightly smaller than maximum correlation for a variety of further bivariate distributions。” 这里“only slightly smaller”没有被严格证明为一个理论界，而是通过模拟（例如对正态分布，正弦依赖等）来验证。结论的描述比证明的覆盖范围略宽。
- 另一个点: 其估计量的 CAN 性质被严格证明（基于秩和矩的估计量）。但协方差自助法（Covariance bootstrap）的有效性只给出了模拟验证，没有写出该方法的理论一致性证明。第5节（Real data examples）确实如文末所说“We illustrate the practical usefulness”，没有提出新的理论。

四、开放问题¶

估计量的高阶投影：作者只证明了其矩估计量 \( \hat{M} \) 的 \( n^{-1/2} \) CAN性质。可以追问：\( \hat{r}_L \) 的方差是否可以用一个更高阶的U-statistic展开来更精确地刻画？ 这直接扎根于论文中他们对估计量是U-statistic（或由其投影得到）的论述。用您very_familiar的higher-order U-statistics的Hájek投影与方差分解技术，可以探讨其高阶项对有限样本方差的影响，并设计改进的方差估计。
局部检验力：定理3证明了在特定具体的“驻点”局部替代假设下，新方法Power优于距离相关。可以追问：在更一般的局部替代下，其Minimax最优检测率是多少？ 这需要计算似然比检验（或与其等价的平方距离检验）在局部替代下的极大极小风险界（用您very_familiar的 minimax bounds for estimation 工具）。是否可以证明Lancaster相关在某些方向上达到最优率，而在某些方向上是次优的？这能更全面地回答“why it works, where it doesn’t”。
识别与效率的缺口：该度量基于一个先验选定的函数空间。可以追问：是否存在一个有效影响函数（Efficient Influence Function）使得对任何正确指定的Lancaster分布， \( r_L \) 的估计达到半参数有效前端？ 即，是否存在一个比当前估计量方差更小的估计量？这可以直接联系到您 moderately_familiar 的 semiparametric theory 和 efficient influence function。能否构造一个debiased ML估计量？如果可以，其方差是否会显著降低？
高维与可计算性：本文是对单一对变量的依赖度量。可以追问：如何在高维或多重假设检验中推广？ 这会遭遇维度灾难（在基函数个数 \( h \) 的选择上）和计算瓶颈（计算高阶矩矩阵的SVD）。这恰恰是您 very_familiar 的 computation of higher-order U-statistics（treewidth / tensor contraction / einsum）可以发力的地方。您可以用图论模型来描述多变量Lancaster扩展中，估计量（即高阶矩的张量）计算的最优 Contraction order。

Maintained by 陈星宇 · Homepage · Source on GitHub