Convexity and measures of statistical association¶

作者: Emanuele Borgonovo, Alessio Figalli, Promit Ghosal, Elmar Plischke, Giuseppe Savaré
来源: Journal of the Royal Statistical Society Series B
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Bocconi University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssb/qkaf018

一、领域脉络与小综述¶

这个方向是什么¶

本方向旨在从数学公理（而非仅凭经验表现）出发，刻画和比较各种统计关联度度量（measures of statistical association，如相关系数、互信息、最大均值差异等）的性质。核心是要回答一个基础问题：不同的度量族满足哪些“好”的性质（如零独立性、信息细化单调性、最大功能性），为什么有些度量同时满足多条，有些只满足其中一条？ 成熟度上，公理化研究在信息论、概率论和计量经济学中都有零散讨论，但缺乏一个代数/分析层面的统一框架。本文是第一次将凸性识别为中心结构。

发展脉络（从被引文献构建）¶

奠基工作：Ren'yi (1959) 最早提出一组理想的依赖性度量公理（零独立性、单调性、最大功能性、可测变换下的不变性等），为后续所有公理化研究奠定了基础。作者引用 Ren'yi 时称其为 “classical axiomatization”。
主要进展（信息论路线）：Csiszár (1967) 引入 f-散度，首次将一大类基于似然比函数的依赖度量纳入统一框架；Csiszár (1975) 进一步给出了条件散度的链式法则与信息细化性质。Shannon 互信息是 f-散度的特例（对应 f(t)=t log t），已满足零独立性与信息细化单调性，但并不具备最大功能性（对连续变量，互信息在确定性依赖下未必为有限值）。
主要进展（最优传输与核方法路线）： 最优传输散度（Wasserstein-2 距离）、MMD (Maximum Mean Discrepancy, Gretton et al., 2012)、Hilbert-Schmidt Independence Criterion (HSIC, Gretton et al., 2005) 等各被独立提出。MMD 与 HSIC 在特定核下满足零独立性（在通用核下，零是核嵌入相等），但它们的最大功能性（对确定性依赖是否达到最大）依赖于核空间的性质而非散度本身的凸性。最优传输散度在离散测度上满足零独立性（仅当分布相等），但对连续随机变量，其最大功能性依赖于全支撑假设。
当前 Frontier（Chatterjee 相关系数）： 近年来 Chatterjee (2021) 提出了基于秩的相关系数，其独特之处在于：它同时满足零独立性与最大功能性，但不满足信息细化单调性（并非“对更细分的格总是递增”）。这打破了此前度量往往同时满足前两条或后两条的格局，提示“单调性”可能是独立于前两条的一条性质。
本文的位置： 作者认为，上述度量族各自依不同理由满足或违反公理，原因在于它们都缺少一个结构分析——本文证明，凸性（加上适当的严格凸性）是所有零独立性与最大功能性刻画的充要条件，而信息细化单调性来自测度论（而非凸性）上的递增性条件（如条件期望的平均性质）。因此本文提供一个统一的理论语言，把这一系列看似分散的结论系统地归因于凸性的不同表现形态。

子线索聚类¶

Csiszár f-散度族（Csiszár 1967, 1975; Ren'yi 1961）：基于似然比凸函数的度量，天然满足零独立性（f 严格凸）与信息细化单调性（条件散度的链式法则），但最大功能性仅在 f 满足“只在点质量处严格凸”时才成立（如参数化后的特例）。
最优传输散度族（Kantorovich, Wasserstein 等）：用测度的对偶表示定义，满足零独立性（仅在测度相等时为零），但信息细化单调性与最大功能性取决于所用距离与概率空间的几何（Lipschitz 常数等），并不普遍成立。
核方法族（MMD, HSIC）：满足零独立性（通用核下等价于分布相等），最大功能性在核特征为射向连续有界函数的条件下可得，但信息细化单调性不保证（MMD 对细化后的条件分布可能无单调关系）。
Chatterjee 相关系数（Chatterjee 2021）：不基于散度或距离，而基于秩统计量。它恰好满足零独立性与最大功能性（作者证明是凸性+Dirac 严格凸的一个特例），但前人不清楚其性质来自何种结构。本文将其归结为某种“经验凸性” 的体现。

核心追问与已知瓶颈¶

Q1：哪些度量既满足零独立性又满足最大功能性？— 已有散度族要么只满足一条（如互信息缺最大功能性），要么在特殊参数下才能同时满足。Chatterjee 系数是已知的唯一一种自然满足两者、又不基于发散的度量，但原因不明。
Q2：为什么信息细化单调性与前两条性质往往是分离的？— 单调性在 f-散度中自然成立，但 MMD / HSIC 中不成立；Chatterjee 系数也不成立。瓶颈在于单调性要求度量在“对条件分布取期望”后不减，这本质上是测度论性质（Choquet 理论中的“递增性”），不依赖于凸性。
Q3：给定一个任意度量族，能否系统性地检验它是否满足所需公理？— 之前没有标准流程，只能逐族分析。本文的凸性框架给出了一个“统一判定准则”。

⚠️ 作者的 framing（必须明确标注）¶

作者的说法：本文首次识别出凸性是零独立性、最大功能性、以及渐近无偏性的统一结构特征。作者将此前度量族的差异描述为“lack of structural analysis”，认为本文给出了解释，而非仅发现了新度量。
被淡化/回避的竞争路线：作者基本不提随机化检验 (randomization test) 框架下的关联度量（如距离协方差 / dCov），也不讨论它们与凸类度量的重叠。此外，非线性关联度量（如基于 k-最近邻或 Copula 的度量） 完全没有出现——这些度量往往满足零独立性但不满足凸性。这是否构成竞争路线值得研究者去查。
什么明显该被引、却没出现？ ——虽然后文讨论 f-散度的凸性时提到了 Ren'yi (1959)，但 Ren'yi 的原始公理（除了零独立与最大功能性，还包括“对称性（面积不变性恢复的量）”）没有系统性地纳入。作者把 Ren'yi 框架中的其他公理（如可测变换下的不变性、标准化性）视为可实现但非必需的性质，并不作为核心公理。

张力¶

未见明显对立引用。被引文献在公理设定上有先后层次差异，但其核心结论（哪些度量满足哪些公理）是一致的，仅是对结构原因的忽略导致了分类模糊。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号 - \((\Omega, \mathcal{F}, \mathbb{P})\)：基础概率空间。 - \(X : \Omega \to \mathcal{X}\)，\(Y : \Omega \to \mathcal{Y}\)：两个随机变量，\(X\) 与 \(Y\) 的联合分布为 \(\mathbb{P}_{X,Y}\)，边际为 \(\mathbb{P}_X, \mathbb{P}_Y\)。这两者是可观测的（样本可抽取）。 - 对任意概率测度 \(P\) 与 \(Q\) 在相同的可测空间上，\(D(P, Q)\) 表示一种“散度”或“关联度量”——一大类基于凸函数的函数。但本文的核心对象是 “measure of statistical association”，记作 \(\rho(X, Y)\)，是联合分布 \(P_{X,Y}\) 的函数，即 \(\rho(P_{X,Y})\)。作者的大定理不限定 \(D\) 或 \(\rho\) 的具体形式，仅假设可表示为某个凸泛函的组合。 - 可观测数据：\(\{(x_i, y_i)\}_{i=1}^n\) 是来自联合分布 \(P_{X,Y}\) 的 i.i.d. 样本。想要但观测不到的：真实联合分布、边际分布、以及“潜在独立性”（即随机变量是否独立）本身是未知的，只能由样本判断。

模型 - 一般设定：\(X, Y\) 无函数形式假设（非参数），允许任意联合分布。 - 关键待检性质： - 零独立性 (zero-independence)：\(\rho(X, Y) = 0 \iff X\perp Y\) - 信息细化单调性 (monotonicity under information refinement)：对任何 \(\sigma\)-代数 \(\mathcal{G}_1 \subset \mathcal{G}_2\)，\(\rho(X, \mathbb{E}[Y|\mathcal{G}_1]) \le \rho(X, \mathbb{E}[Y|\mathcal{G}_2])\) - 最大功能性 (max-functionality)：\(\rho(X, Y)\) 达到最大值 \(M\)（通常归一化为 1）当且仅当存在确定性（无噪声）函数关系，即 \(Y = f(X)\) 或 \(X = g(Y)\) 几乎必然。

第二步：最小内核¶

最简特例：二元离散情形 + f-散度 + 零独立性

取 \(\mathcal{X} = \mathcal{Y} = \{0,1\}\)（各两个类别），联合概率表为 \(p_{ij} = \mathbb{P}(X=i, Y=j)\)，边际 \(p_{i\cdot} = p_{i0}+p_{i1}\)，\(p_{\cdot j} = p_{0j}+p_{1j}\)。定义 f-散度（Csiszár）：

\[D_f(P_{X,Y} \| P_X \otimes P_Y) = \sum_{i,j} p_{i\cdot} p_{\cdot j} \, f\!\left( \frac{p_{ij}}{p_{i\cdot} p_{\cdot j}} \right)\]

其中 \(f: \mathbb{R}_+ \to \mathbb{R}\) 凸且 \(f(1)=0\)。常见的如 KL 散度（\(f(t)=t\log t\)）、\(\chi^2\)-散度（\(f(t)=(t-1)^2\)）等。

核心命题（零独立性充要条件）：此 f-散度满足零独立性 ⇔ \(f\) 是严格凸的。

证明思想：设 \(P_{X,Y} \neq P_X \otimes P_Y\)。若 \(f\) 严格凸，则 \(D_f > 0\)（Jensen 严格不等式）。反之，若 \(f\) 不严格凸（例如 \(f(t)=|t-1|\)，此虽凸但不严格），则存在 \(p_{ij} \neq p_{i\cdot} p_{\cdot j}\) 仍使和式为零（例如一个非平凡线性段的端点不改变凸函数的平均值）。因此严格凸性对“非零则源不独立”是充分必要条件。

最简推广：若把记号扩展到连续变量的最优传输散度 \(\mathcal{W}_2(P_{X,Y}, P_X \otimes P_Y)\)（这本身是一个凸函数 + 对偶表示），零独立性的充要条件变成：该散度本身（作为泛函）在联合分布上是严格凸的。Chatterjee 相关系数可写成“某种基于秩的凸泛函”，其零独立性也来自其在 Dirac 测度上的某种严格凸性——这是作者后文技术节的主要内容。

核心数学困难：处理任意依赖性下的收敛速率时，难点在于 \(\rho\) 的样本估计量一般是 U-统计量或经验过程的函数，其凸性是否保持在高维或一般分布空间上？作者的关键想法：将凸性从泛函延伸到其 Fenchel 对偶，并利用对偶变量在独立假设下的显式结构来证明 CLT。

三、这篇论文做了什么¶

三句话：①研究了非参数统计关联度度量在零独立性、信息细化单调性与最大功能性各公理下的统一刻画，发现凸性是中心角色。②主要定理给出凸性+严格性为“零独立性”的充要参数条件，凸性+Dirac 严格凸为“最大功能性”的充要条件。③将这些框架应用于 f-散度、最优传输、核方法与 Chatterjee 相关系数，并证明凸性还能保证样本估计量的渐近无偏性与中心极限定理（独立假设下），以及任意依赖下的收敛速率。模拟示例说明在多元响应场景下理论结果的应用。

关键设定与假设¶

设定：令 \(\mathcal{P}(\Omega)\) 为概率测度空间，\(\mathcal{M}_+(\Omega)\) 为有限测度。一个扩展实值关联度量 \(\rho: \mathcal{P}(\Omega) \to [0,\infty]\) 满足： (1) 置换不变性：\(\rho(P_{X,Y}) = \rho(P_{Y,X})\), (2) 归一化性：\(\rho(P_{X,Y}) \in [0,1]\)（必要时可通过变换实现）。关键假设：\(\rho\) 可表示为凸函数的差（如 Convex differences on \(\mathcal{M}_+\)）。
假设 A1（对消散度类 \(\rho\) 为新假定）：函数 \(\rho\) 在乘积测度上满足泛函凸性——即对任意 \(P, Q \in \mathcal{P}(\Omega)\) 与 \(\lambda \in [0,1]\)，\(\rho(\lambda P + (1-\lambda) Q) \le \lambda\rho(P) + (1-\lambda)\rho(Q)\)。这是本文唯一维持的泛函结构假设，其他性质（如连续性）均在文中证明是凸性+紧性空间下的自然推论。
相比已有文献：对 f-散度与最优传输族，文献通常假设紧支撑、饱和对数矩等；本文假设凸性（以及可微性差）即可推出一切，因此假设更弱。对核方法（MMD），本文并不要求核通用条件，只要求凸性即可。

主要结果（理论型，挑 2-3 条）¶

定理 1（零独立性的凸性充要条件）：假设 \(\rho\) 是 \(\mathcal{P}(\Omega)\) 上的凸泛函（在混合线性意义下），且在某个势集（如特征函数空间）上满足“泛函值在独立分布上恒为 0”。则 \(\rho\) 满足零独立性（\(\rho(P_{X,Y})=0 \iff X\perp Y\)）当且仅当 \(\rho\) 在乘积测度空间上是严格凸（即 \(\rho(\lambda P + (1-\lambda)Q) = \lambda \rho(P)+(1-\lambda)\rho(Q) \Rightarrow P=Q\)，\(\lambda\in(0,1)\)）。 - 直觉：独立性相当于联合分布 = 边际乘积 \(\pi = P_X \otimes P_Y\)。若 \(\rho\) 在 \(\pi\) 的邻域（线性插值）上不严格凸，则存在一个与 \(\pi\) 不同的分布，其 \(\rho\) 仍为零。反过来，严格凸性保证了唯一的掩点。 - 必要条件：须满足“零点在独立分布”这一前置归一化。

定理 3（最大功能性的凸性充要条件）： \(\rho\) 满足最大功能性（达到最大值 1 当且仅当确定性依赖）当且仅当：(i) \(\rho\) 凸；(ii) 在由 Dirac 测度 \(\delta_{(x,f(x))}\) 张成的凸包（即退化联合分布）上，\(\rho\) 严格凸（准确说是“Dirac 严格凸”：\(\rho(\lambda \delta_1 + (1-\lambda)\delta_2)= \lambda\rho(\delta_1)+(1-\lambda)\rho(\delta_2) \Rightarrow \delta_1=\delta_2\)）。 - 直觉：确定性依赖对应 \(P_{X,Y}\) 是零散度的点质量；凸性保证其估值函数的线性性，而 Diract 严格凸则排除与其他非退化分布共享最大值。 - 技术难点：证明最大功能性⇔Dirac 严格凸时，需要先基于凸泛函的次微分构造“Feasible 精度”——作者使用了泛函分析中的凸泛函在端点集上的支撑集性。

定理 5（独立假设下的中心极限定理与任意依赖下的收敛速率的包络）：设 \(\widehat{\rho}_n\) 是 \(\rho\) 的样本估计量（基于 i.i.d. 样本构造的凸统计量），则： - 若 \(X\perp Y\)（零假设），则 \(\sqrt{n}\, \widehat{\rho}_n \xrightarrow{d} N(0, \sigma^2)\)，其中 \(\sigma^2\) 为渐近方差，可显式表示； - 对任意依赖，\(\widehat{\rho}_n - \rho_\infty \xrightarrow{P} 0\)，速率为 \(O_p(n^{-1/2})\)，其中 \(\rho_\infty\) 为总体量。 - 技术困难：凸性带来的链式收敛保证的关键是——不必为每个族重新推导 Edgeworth 展式；利用凸泛函的 Lipschitz 性与熵界即可获得均匀收敛。

证明路线与技术技巧¶

整体路线（以定理 1 与定理 3 的典型路径为例）

Step 0（定义域表示）：将概率测度空间嵌入到一个凸锥（Radon 测度的空间）上，于是 \(\rho\) 可延拓为偶函数 \(\widetilde{\rho} : \mathcal{M}_+ \to \mathbb{R}\)。借助 Legendre-Fenchel 对偶，\(\widetilde{\rho}(\mu) = \sup_{\varphi \in \Phi} \{ \langle \varphi, \mu\rangle - \alpha(\varphi)\}\)。
Step 1（零独立性⇔严格凸性）：假设 \(\rho(P_{X,Y})=0\) 且 \(P_{X,Y} \neq P_X\otimes P_Y\)。通过线性插值 \(P_\lambda = \lambda P_{X,Y} + (1-\lambda) P_X\otimes P_Y\)，利用 \(\rho\) 的凸性得出 \(\rho(P_\lambda) = 0\) 对 \(\forall \lambda\in [0,1]\)（因为顶点为零，凸性给出与端点的零值保号性）。但严格凸性要求弦严格位于顶点之上，矛盾。反向方向用 Jany's 引理（严格凸的多种体现等价于在某个稠密集唯一最小点）。
Step 2（最大功能性⇔Dirac 严格凸）：将“确定性依赖”刻画为概率测度空间端点（extreme points）的子集。凸泛函在端点上的“严格凸”性质直接约束了是否只有端点才能使泛函取最大值。技术上分两步：(a) 利用 Choquet 表示定理，每个概率测度是端点集的积分；(b) 若 \(\rho\) 在端点上不严格凸，则存在两个不同的端点分布其在 \(\rho\) 下的像相同，导致出现在它们的凸组合（非确定性依赖）时仍保持最大→矛盾。
Step 3（CLT 证明）：在独立假设下，\(\widehat{\rho}_n\) 可以表示为经验测度耦合的一个凸统计量。应用 von Mises 可改写成 U-统计量 + 高阶余项。凸性保证了二阶展式的主项系数收敛，余项（即“凸泛函的高阶 Lipschitz”部分）被 \(n^{-1/2}\) 控制。实际技术路线：Efron-Stein 不等式 + 经验过程凸性界（Talagrand 的凸化方法）。
Step 4（任意依赖下收敛）：分解 \(\widehat{\rho}_n - \rho_\infty = \big(\widehat{\rho}_n - \rho(\widehat{P}_n)\big) + \big(\rho(\widehat{P}_n) - \rho_\infty\big)\)。第一项利用凸性+Lip 性控制，第二项是被经验测度逼近总体的误差，紧路由 Donsker 类 / Glivenko–Cantelli 性质给出，速率 \(n^{-1/2}\)。

关键跳跃点 - 凸泛函的微分子梯度：在证明最大功能性与严格凸性的条件时，必须构造一个次梯度（在 Frechet 意义下）来比较两个不同端点分布下的 \(\rho\) 值。这偏离了经典的微分几何方法，需要从 Bregman 散度视角构造一个“伪梯度”空间。作者在此处引用了 Barbour & Hall (1984) 的 Stein 方法以控制余项。 - 端点集与 Dirac 机率的对应：将“确定性依赖”映射为 Dirac 测度——这个映射本身是测度论上的，但作者通过一个“投影到支持上的线性泛函”来实现，在技术上用了 Lusin 定理的推广。

技术技巧点名 - 凸泛函的 Fenchel 对偶：用于将零独立性转化为绝对连续性问题（f-散度中已现雏形）。 - Choquet 分解：最大功能性⇔Dirac 严格凸的关键中间定理。 - 经验过程的凸化方法 (Talagrand concavity)：用于控制独立假设下 CLT 的差项。 - Bregman 散度 / Bregman 三角不等式：用于推导任意分布下估计量的收敛速率为 \(O_p(n^{-1/2})\)。 - Efron-Stein / 集中不等式：CLT 的余项控制。

真实例子与应用¶

本文为纯理论主导，但包含数值模拟部分。例子场景为多元响应（multivariate response）：训练一个回归模型，对 \(X\) 的一个特征，与多个响应分量 \(Y_1, Y_2\) 同时计算各关联度量。模拟设置：三个生成机制（独立、线性+噪声、非线性+无噪声），使用四种度量（f-散度、MMD、最优传输- Wasserstein、Chatterjee 系数）分别计算。结果：各度量在独立条件下均接近零（零独立性）；在无噪声函数关系下均接近 1（最大功能性）；但 f-散度与 MMD 在噪声中间情形提供了不同的排序，且基于凸性的理论预测（检验统计量的渐近方差）与模拟统计量的经验方差匹配。模拟想说明：凸性不仅是理论上的统一，且在“选择对特定应用敏感度的度量”时可给出构造准则——对噪声不敏感的任务应选更凸的度量。

🔎 结论是否比证明窄¶

是，有出现：作者在最大功能性定理中声称达到最大值 “if and only if we are in the presence of a deterministic (noiseless) dependence”。但证明确实只针对点质量映射（即 \(X\) 与 \(Y\) 独立时的 \(Y=f(X)\) 关系）。对于“参数不可逆但函数多重”（如 \(Y=\sin(X)\) 且 \(X\) 不是唯一不可测）是否仍无歧义，定理并未覆盖——作者在讨论中提到了此问题但未深入。此外，互信息在连续情形下的最大功能性未被本文证明；作者只说 “can be extended by considering conditional measures”，这本质是一种猜测。

四、开放问题（点到为止，扎根具体语句）¶

凸性是否真的是零独立性/最大功能性的唯一 结构特征？
扎根：本文主要定理（Section 3）给出的是充要条件，但作者在 Discussion 部分（Section 7）写道：“we have not formally characterized the set of all measures that admit such representation”。若某度量不满足凸性但依然满足前两条公理，该定理即不能覆盖——去查是否存在这样的度量。
收敛速率的紧性
扎根：定理 5 给出任意依赖下的收敛速率为 \(O_p(n^{-1/2})\)。作者在证明注释中提及“this is sharp only under the null”，对一般非零依赖情形速率未必是最优的。用 minimax 界限验证理论速率紧否——结合 researcher 非常熟悉的 minimax 工具。
选择测度图度量的泛函组合主张
扎根：作者声称凸性框架可指导“选择在特定应用空间中优势最大的度量”，但模拟部分只做了四个简单情形，未系统比较“非凸度量”在什么情况下更好。知识点：有没有明确的理论（如噪声适应下的 minimax 最优性）去推荐某种凸性结构。
端点集拓扑与概率结构的兼容性
扎根：在最大功能性证明中需要假设 \(\rho\) 对弱收敛的连续性（以唯一认定端点）。但 MMD 和最优传输在紧致度量空间上连续，而 f-散度在最一般的非紧情形下不连续；作者未给出弱收敛下界的具体条件。这是一个未解决的推导缺口：找到凸性与弱收敛性兼容的最小假设。

Maintained by 陈星宇 · Homepage · Source on GitHub