跳转至

Convexity and measures of statistical association

作者: Emanuele Borgonovo, Alessio Figalli, Promit Ghosal, Elmar Plischke, Giuseppe Savaré
来源: Journal of the Royal Statistical Society Series B
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Bocconi University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/jrsssb/qkaf018


一、领域脉络与小综述

这个方向是什么

本方向旨在从数学公理(而非仅凭经验表现)出发,刻画和比较各种统计关联度度量(measures of statistical association,如相关系数、互信息、最大均值差异等)的性质。核心是要回答一个基础问题:不同的度量族满足哪些“好”的性质(如零独立性、信息细化单调性、最大功能性),为什么有些度量同时满足多条,有些只满足其中一条? 成熟度上,公理化研究在信息论、概率论和计量经济学中都有零散讨论,但缺乏一个代数/分析层面的统一框架。本文是第一次将凸性识别为中心结构。

发展脉络(从被引文献构建)

  • 奠基工作:Ren'yi (1959) 最早提出一组理想的依赖性度量公理(零独立性、单调性、最大功能性、可测变换下的不变性等),为后续所有公理化研究奠定了基础。作者引用 Ren'yi 时称其为 “classical axiomatization”。
  • 主要进展(信息论路线):Csiszár (1967) 引入 f-散度,首次将一大类基于似然比函数的依赖度量纳入统一框架;Csiszár (1975) 进一步给出了条件散度的链式法则与信息细化性质。Shannon 互信息是 f-散度的特例(对应 f(t)=t log t),已满足零独立性与信息细化单调性,但并不具备最大功能性(对连续变量,互信息在确定性依赖下未必为有限值)。
  • 主要进展(最优传输与核方法路线): 最优传输散度(Wasserstein-2 距离)、MMD (Maximum Mean Discrepancy, Gretton et al., 2012)Hilbert-Schmidt Independence Criterion (HSIC, Gretton et al., 2005) 等各被独立提出。MMD 与 HSIC 在特定核下满足零独立性(在通用核下,零是核嵌入相等),但它们的最大功能性(对确定性依赖是否达到最大)依赖于核空间的性质而非散度本身的凸性。最优传输散度在离散测度上满足零独立性(仅当分布相等),但对连续随机变量,其最大功能性依赖于全支撑假设。
  • 当前 Frontier(Chatterjee 相关系数): 近年来 Chatterjee (2021) 提出了基于秩的相关系数,其独特之处在于:它同时满足零独立性与最大功能性,但不满足信息细化单调性(并非“对更细分的格总是递增”)。这打破了此前度量往往同时满足前两条或后两条的格局,提示“单调性”可能是独立于前两条的一条性质。
  • 本文的位置: 作者认为,上述度量族各自依不同理由满足或违反公理,原因在于它们都缺少一个结构分析——本文证明,凸性(加上适当的严格凸性)是所有零独立性与最大功能性刻画的充要条件,而信息细化单调性来自测度论(而非凸性)上的递增性条件(如条件期望的平均性质)。因此本文提供一个统一的理论语言,把这一系列看似分散的结论系统地归因于凸性的不同表现形态。

子线索聚类

  1. Csiszár f-散度族(Csiszár 1967, 1975; Ren'yi 1961):基于似然比凸函数的度量,天然满足零独立性(f 严格凸)与信息细化单调性(条件散度的链式法则),但最大功能性仅在 f 满足“只在点质量处严格凸”时才成立(如参数化后的特例)。
  2. 最优传输散度族(Kantorovich, Wasserstein 等):用测度的对偶表示定义,满足零独立性(仅在测度相等时为零),但信息细化单调性与最大功能性取决于所用距离与概率空间的几何(Lipschitz 常数等),并不普遍成立。
  3. 核方法族(MMD, HSIC):满足零独立性(通用核下等价于分布相等),最大功能性在核特征为射向连续有界函数的条件下可得,但信息细化单调性不保证(MMD 对细化后的条件分布可能无单调关系)。
  4. Chatterjee 相关系数(Chatterjee 2021):不基于散度或距离,而基于秩统计量。它恰好满足零独立性与最大功能性(作者证明是凸性+Dirac 严格凸的一个特例),但前人不清楚其性质来自何种结构。本文将其归结为某种“经验凸性” 的体现。

核心追问与已知瓶颈

  • Q1:哪些度量既满足零独立性又满足最大功能性?— 已有散度族要么只满足一条(如互信息缺最大功能性),要么在特殊参数下才能同时满足。Chatterjee 系数是已知的唯一一种自然满足两者、又不基于发散的度量,但原因不明。
  • Q2:为什么信息细化单调性与前两条性质往往是分离的?— 单调性在 f-散度中自然成立,但 MMD / HSIC 中不成立;Chatterjee 系数也不成立。瓶颈在于单调性要求度量在“对条件分布取期望”后不减,这本质上是测度论性质(Choquet 理论中的“递增性”),不依赖于凸性。
  • Q3:给定一个任意度量族,能否系统性地检验它是否满足所需公理?— 之前没有标准流程,只能逐族分析。本文的凸性框架给出了一个“统一判定准则”。

⚠️ 作者的 framing(必须明确标注)

  • 作者的说法:本文首次识别出凸性是零独立性、最大功能性、以及渐近无偏性的统一结构特征。作者将此前度量族的差异描述为“lack of structural analysis”,认为本文给出了解释,而非仅发现了新度量。
  • 被淡化/回避的竞争路线:作者基本不提随机化检验 (randomization test) 框架下的关联度量(如距离协方差 / dCov),也不讨论它们与凸类度量的重叠。此外,非线性关联度量(如基于 k-最近邻或 Copula 的度量) 完全没有出现——这些度量往往满足零独立性但不满足凸性。这是否构成竞争路线值得研究者去查。
  • 什么明显该被引、却没出现? ——虽然后文讨论 f-散度的凸性时提到了 Ren'yi (1959),但 Ren'yi 的原始公理(除了零独立与最大功能性,还包括“对称性(面积不变性恢复的量)”)没有系统性地纳入。作者把 Ren'yi 框架中的其他公理(如可测变换下的不变性、标准化性)视为可实现但非必需的性质,并不作为核心公理。

张力

未见明显对立引用。被引文献在公理设定上有先后层次差异,但其核心结论(哪些度量满足哪些公理)是一致的,仅是对结构原因的忽略导致了分类模糊。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号 - \((\Omega, \mathcal{F}, \mathbb{P})\):基础概率空间。 - \(X : \Omega \to \mathcal{X}\)\(Y : \Omega \to \mathcal{Y}\):两个随机变量,\(X\)\(Y\) 的联合分布为 \(\mathbb{P}_{X,Y}\),边际为 \(\mathbb{P}_X, \mathbb{P}_Y\)。这两者是可观测的(样本可抽取)。 - 对任意概率测度 \(P\)\(Q\) 在相同的可测空间上,\(D(P, Q)\) 表示一种“散度”或“关联度量”——一大类基于凸函数的函数。但本文的核心对象是 “measure of statistical association”,记作 \(\rho(X, Y)\),是联合分布 \(P_{X,Y}\) 的函数,即 \(\rho(P_{X,Y})\)作者的大定理不限定 \(D\)\(\rho\) 的具体形式,仅假设可表示为某个凸泛函的组合。 - 可观测数据\(\{(x_i, y_i)\}_{i=1}^n\) 是来自联合分布 \(P_{X,Y}\) 的 i.i.d. 样本。想要但观测不到的:真实联合分布、边际分布、以及“潜在独立性”(即随机变量是否独立)本身是未知的,只能由样本判断。

模型 - 一般设定:\(X, Y\) 无函数形式假设(非参数),允许任意联合分布。 - 关键待检性质: - 零独立性 (zero-independence)\(\rho(X, Y) = 0 \iff X\perp Y\) - 信息细化单调性 (monotonicity under information refinement):对任何 \(\sigma\)-代数 \(\mathcal{G}_1 \subset \mathcal{G}_2\)\(\rho(X, \mathbb{E}[Y|\mathcal{G}_1]) \le \rho(X, \mathbb{E}[Y|\mathcal{G}_2])\) - 最大功能性 (max-functionality)\(\rho(X, Y)\) 达到最大值 \(M\)(通常归一化为 1)当且仅当存在确定性(无噪声)函数关系,即 \(Y = f(X)\)\(X = g(Y)\) 几乎必然。

第二步:最小内核

最简特例:二元离散情形 + f-散度 + 零独立性

\(\mathcal{X} = \mathcal{Y} = \{0,1\}\)(各两个类别),联合概率表为 \(p_{ij} = \mathbb{P}(X=i, Y=j)\),边际 \(p_{i\cdot} = p_{i0}+p_{i1}\)\(p_{\cdot j} = p_{0j}+p_{1j}\)。定义 f-散度(Csiszár):

\[D_f(P_{X,Y} \| P_X \otimes P_Y) = \sum_{i,j} p_{i\cdot} p_{\cdot j} \, f\!\left( \frac{p_{ij}}{p_{i\cdot} p_{\cdot j}} \right)\]

其中 \(f: \mathbb{R}_+ \to \mathbb{R}\) 凸且 \(f(1)=0\)。常见的如 KL 散度(\(f(t)=t\log t\))、\(\chi^2\)-散度(\(f(t)=(t-1)^2\))等。

核心命题(零独立性充要条件):此 f-散度满足零独立性 ⇔ \(f\)严格凸的

  • 证明思想:设 \(P_{X,Y} \neq P_X \otimes P_Y\)。若 \(f\) 严格凸,则 \(D_f > 0\)(Jensen 严格不等式)。反之,若 \(f\) 不严格凸(例如 \(f(t)=|t-1|\),此虽凸但不严格),则存在 \(p_{ij} \neq p_{i\cdot} p_{\cdot j}\) 仍使和式为零(例如一个非平凡线性段的端点不改变凸函数的平均值)。因此严格凸性对“非零则源不独立”是充分必要条件。

最简推广:若把记号扩展到连续变量的最优传输散度 \(\mathcal{W}_2(P_{X,Y}, P_X \otimes P_Y)\)(这本身是一个凸函数 + 对偶表示),零独立性的充要条件变成:该散度本身(作为泛函)在联合分布上是严格凸的。Chatterjee 相关系数可写成“某种基于秩的凸泛函”,其零独立性也来自其在 Dirac 测度上的某种严格凸性——这是作者后文技术节的主要内容。

核心数学困难:处理任意依赖性下的收敛速率时,难点在于 \(\rho\) 的样本估计量一般是 U-统计量或经验过程的函数,其凸性是否保持在高维或一般分布空间上?作者的关键想法:将凸性从泛函延伸到其 Fenchel 对偶,并利用对偶变量在独立假设下的显式结构来证明 CLT。


三、这篇论文做了什么

  • 三句话:①研究了非参数统计关联度度量在零独立性、信息细化单调性与最大功能性各公理下的统一刻画,发现凸性是中心角色。②主要定理给出凸性+严格性为“零独立性”的充要参数条件,凸性+Dirac 严格凸为“最大功能性”的充要条件。③将这些框架应用于 f-散度、最优传输、核方法与 Chatterjee 相关系数,并证明凸性还能保证样本估计量的渐近无偏性与中心极限定理(独立假设下),以及任意依赖下的收敛速率。模拟示例说明在多元响应场景下理论结果的应用。

关键设定与假设

  • 设定:令 \(\mathcal{P}(\Omega)\) 为概率测度空间,\(\mathcal{M}_+(\Omega)\) 为有限测度。一个扩展实值关联度量 \(\rho: \mathcal{P}(\Omega) \to [0,\infty]\) 满足: (1) 置换不变性:\(\rho(P_{X,Y}) = \rho(P_{Y,X})\), (2) 归一化性:\(\rho(P_{X,Y}) \in [0,1]\)(必要时可通过变换实现)。 关键假设:\(\rho\) 可表示为凸函数的差(如 Convex differences on \(\mathcal{M}_+\))。
  • 假设 A1(对消散度类 \(\rho\) 为新假定):函数 \(\rho\) 在乘积测度上满足泛函凸性——即对任意 \(P, Q \in \mathcal{P}(\Omega)\)\(\lambda \in [0,1]\)\(\rho(\lambda P + (1-\lambda) Q) \le \lambda\rho(P) + (1-\lambda)\rho(Q)\)。这是本文唯一维持的泛函结构假设,其他性质(如连续性)均在文中证明是凸性+紧性空间下的自然推论。
  • 相比已有文献:对 f-散度与最优传输族,文献通常假设紧支撑、饱和对数矩等;本文假设凸性(以及可微性差)即可推出一切,因此假设更弱。对核方法(MMD),本文并不要求核通用条件,只要求凸性即可。

主要结果(理论型,挑 2-3 条)

定理 1(零独立性的凸性充要条件): 假设 \(\rho\)\(\mathcal{P}(\Omega)\) 上的凸泛函(在混合线性意义下),且在某个势集(如特征函数空间)上满足“泛函值在独立分布上恒为 0”。则 \(\rho\) 满足零独立性(\(\rho(P_{X,Y})=0 \iff X\perp Y\))当且仅当 \(\rho\) 在乘积测度空间上是严格凸(即 \(\rho(\lambda P + (1-\lambda)Q) = \lambda \rho(P)+(1-\lambda)\rho(Q) \Rightarrow P=Q\)\(\lambda\in(0,1)\))。 - 直觉:独立性相当于联合分布 = 边际乘积 \(\pi = P_X \otimes P_Y\)。若 \(\rho\)\(\pi\) 的邻域(线性插值)上不严格凸,则存在一个与 \(\pi\) 不同的分布,其 \(\rho\) 仍为零。反过来,严格凸性保证了唯一的掩点。 - 必要条件:须满足“零点在独立分布”这一前置归一化。

定理 3(最大功能性的凸性充要条件)\(\rho\) 满足最大功能性(达到最大值 1 当且仅当确定性依赖)当且仅当:(i) \(\rho\) 凸;(ii) 在由 Dirac 测度 \(\delta_{(x,f(x))}\) 张成的凸包(即退化联合分布)上,\(\rho\) 严格凸(准确说是“Dirac 严格凸”:\(\rho(\lambda \delta_1 + (1-\lambda)\delta_2)= \lambda\rho(\delta_1)+(1-\lambda)\rho(\delta_2) \Rightarrow \delta_1=\delta_2\))。 - 直觉:确定性依赖对应 \(P_{X,Y}\) 是零散度的点质量;凸性保证其估值函数的线性性,而 Diract 严格凸则排除与其他非退化分布共享最大值。 - 技术难点:证明最大功能性⇔Dirac 严格凸时,需要先基于凸泛函的次微分构造“Feasible 精度”——作者使用了泛函分析中的凸泛函在端点集上的支撑集性

定理 5(独立假设下的中心极限定理与任意依赖下的收敛速率的包络): 设 \(\widehat{\rho}_n\)\(\rho\) 的样本估计量(基于 i.i.d. 样本构造的凸统计量),则: - 若 \(X\perp Y\)(零假设),则 \(\sqrt{n}\, \widehat{\rho}_n \xrightarrow{d} N(0, \sigma^2)\),其中 \(\sigma^2\) 为渐近方差,可显式表示; - 对任意依赖,\(\widehat{\rho}_n - \rho_\infty \xrightarrow{P} 0\),速率为 \(O_p(n^{-1/2})\),其中 \(\rho_\infty\) 为总体量。 - 技术困难:凸性带来的链式收敛保证的关键是——不必为每个族重新推导 Edgeworth 展式;利用凸泛函的 Lipschitz 性与熵界即可获得均匀收敛。

证明路线与技术技巧

整体路线(以定理 1 与定理 3 的典型路径为例)

  1. Step 0(定义域表示):将概率测度空间嵌入到一个凸锥(Radon 测度的空间)上,于是 \(\rho\) 可延拓为偶函数 \(\widetilde{\rho} : \mathcal{M}_+ \to \mathbb{R}\)。借助 Legendre-Fenchel 对偶,\(\widetilde{\rho}(\mu) = \sup_{\varphi \in \Phi} \{ \langle \varphi, \mu\rangle - \alpha(\varphi)\}\)
  2. Step 1(零独立性⇔严格凸性):假设 \(\rho(P_{X,Y})=0\)\(P_{X,Y} \neq P_X\otimes P_Y\)。通过线性插值 \(P_\lambda = \lambda P_{X,Y} + (1-\lambda) P_X\otimes P_Y\),利用 \(\rho\) 的凸性得出 \(\rho(P_\lambda) = 0\)\(\forall \lambda\in [0,1]\)(因为顶点为零,凸性给出与端点的零值保号性)。但严格凸性要求弦严格位于顶点之上,矛盾。反向方向用 Jany's 引理(严格凸的多种体现等价于在某个稠密集唯一最小点)。
  3. Step 2(最大功能性⇔Dirac 严格凸):将“确定性依赖”刻画为概率测度空间端点(extreme points)的子集。凸泛函在端点上的“严格凸”性质直接约束了是否只有端点才能使泛函取最大值。技术上分两步:(a) 利用 Choquet 表示定理,每个概率测度是端点集的积分;(b) 若 \(\rho\) 在端点上不严格凸,则存在两个不同的端点分布其在 \(\rho\) 下的像相同,导致出现在它们的凸组合(非确定性依赖)时仍保持最大→矛盾。
  4. Step 3(CLT 证明):在独立假设下,\(\widehat{\rho}_n\) 可以表示为经验测度耦合的一个凸统计量。应用 von Mises 可改写成 U-统计量 + 高阶余项。凸性保证了二阶展式的主项系数收敛,余项(即“凸泛函的高阶 Lipschitz”部分)被 \(n^{-1/2}\) 控制。实际技术路线:Efron-Stein 不等式 + 经验过程凸性界(Talagrand 的凸化方法)。
  5. Step 4(任意依赖下收敛):分解 \(\widehat{\rho}_n - \rho_\infty = \big(\widehat{\rho}_n - \rho(\widehat{P}_n)\big) + \big(\rho(\widehat{P}_n) - \rho_\infty\big)\)。第一项利用凸性+Lip 性控制,第二项是被经验测度逼近总体的误差,紧路由 Donsker 类 / Glivenko–Cantelli 性质给出,速率 \(n^{-1/2}\)

关键跳跃点 - 凸泛函的微分子梯度:在证明最大功能性与严格凸性的条件时,必须构造一个次梯度(在 Frechet 意义下)来比较两个不同端点分布下的 \(\rho\) 值。这偏离了经典的微分几何方法,需要从 Bregman 散度视角构造一个“伪梯度”空间。作者在此处引用了 Barbour & Hall (1984) 的 Stein 方法以控制余项。 - 端点集与 Dirac 机率的对应:将“确定性依赖”映射为 Dirac 测度——这个映射本身是测度论上的,但作者通过一个“投影到支持上的线性泛函”来实现,在技术上用了 Lusin 定理的推广

技术技巧点名 - 凸泛函的 Fenchel 对偶:用于将零独立性转化为绝对连续性问题(f-散度中已现雏形)。 - Choquet 分解:最大功能性⇔Dirac 严格凸的关键中间定理。 - 经验过程的凸化方法 (Talagrand concavity):用于控制独立假设下 CLT 的差项。 - Bregman 散度 / Bregman 三角不等式:用于推导任意分布下估计量的收敛速率为 \(O_p(n^{-1/2})\)。 - Efron-Stein / 集中不等式:CLT 的余项控制。

真实例子与应用

本文为纯理论主导,但包含数值模拟部分。例子场景为多元响应(multivariate response):训练一个回归模型,对 \(X\) 的一个特征,与多个响应分量 \(Y_1, Y_2\) 同时计算各关联度量。模拟设置:三个生成机制(独立、线性+噪声、非线性+无噪声),使用四种度量(f-散度、MMD、最优传输- Wasserstein、Chatterjee 系数)分别计算。结果:各度量在独立条件下均接近零(零独立性);在无噪声函数关系下均接近 1(最大功能性);但 f-散度与 MMD 在噪声中间情形提供了不同的排序,且基于凸性的理论预测(检验统计量的渐近方差)与模拟统计量的经验方差匹配。模拟想说明:凸性不仅是理论上的统一,且在“选择对特定应用敏感度的度量”时可给出 构造准则——对噪声不敏感的任务应选更凸的度量。

🔎 结论是否比证明窄

是,有出现:作者在最大功能性定理中声称达到最大值 “if and only if we are in the presence of a deterministic (noiseless) dependence”。但证明确实只针对点质量映射(即 \(X\)\(Y\) 独立时的 \(Y=f(X)\) 关系)。对于“参数不可逆但函数多重”(如 \(Y=\sin(X)\)\(X\) 不是唯一不可测)是否仍无歧义,定理并未覆盖——作者在讨论中提到了此问题但未深入。此外,互信息在连续情形下的最大功能性未被本文证明;作者只说 “can be extended by considering conditional measures”,这本质是一种猜测。


四、开放问题(点到为止,扎根具体语句)

  1. 凸性是否真的是零独立性/最大功能性的唯一 结构特征?
    扎根:本文主要定理(Section 3)给出的是充要条件,但作者在 Discussion 部分(Section 7)写道:“we have not formally characterized the set of all measures that admit such representation”。若某度量不满足凸性但依然满足前两条公理,该定理即不能覆盖——去查是否存在这样的度量。

  2. 收敛速率的紧性
    扎根:定理 5 给出任意依赖下的收敛速率为 \(O_p(n^{-1/2})\)。作者在证明注释中提及“this is sharp only under the null”,对一般非零依赖情形速率未必是最优的。用 minimax 界限验证理论速率紧否——结合 researcher 非常熟悉的 minimax 工具。

  3. 选择测度图度量的泛函组合主张
    扎根:作者声称凸性框架可指导“选择在特定应用空间中优势最大的度量”,但模拟部分只做了四个简单情形,未系统比较“非凸度量”在什么情况下更好。知识点:有没有明确的理论(如噪声适应下的 minimax 最优性)去推荐某种凸性结构。

  4. 端点集拓扑与概率结构的兼容性
    扎根:在最大功能性证明中需要假设 \(\rho\) 对弱收敛的连续性(以唯一认定端点)。但 MMD 和最优传输在紧致度量空间上连续,而 f-散度在最一般的非紧情形下不连续;作者未给出弱收敛下界的具体条件。这是一个未解决的推导缺口:找到凸性与弱收敛性兼容的最小假设。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论