Wasserstein Boxplots for the Analysis of EEG Power Spectral Densities With Applications to Autism¶

作者: Puyuan Liu, Donatello Telesca, Abigail Dickinson, Shafali Jeste, Damla Şentürk
来源: Statistics in Medicine
主题: 其他
相关性: 2/10
机构绿灯: University of California, Los Angeles（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70511

一、领域脉络与小综述¶

这个方向是什么：这个子方向属于函数型数据分析与统计形状分析的交叉领域，核心问题是：当观测对象本身是"概率密度函数"（而非标量或向量）时，如何定义并估计其中心趋势、离散度与异常值？ 传统 FDA 方法通常将函数视为希尔伯特空间（如 \(L^2\)）中的点，利用欧氏距离或内积定义均值与方差。然而，概率密度函数具有天然的约束——非负性且积分为 1——这使得 \(L^2\) 距离在度量密度间的"形状差异"时存在缺陷（例如，它允许"负密度"，且对密度支撑集的平移不敏感）。本文所代表的路线，主张利用最优传输理论中的 Wasserstein 距离来替代欧氏距离，从而在密度空间构建符合几何直觉的统计汇总工具。当前该方向已从理论探索走向具体应用，在神经科学、基因组学等领域开始落地，但"协变量调整"与"跨样本比较"的框架仍在发展中。

发展脉络：

奠基：函数型数据可视化的经典框架
- Hyndman & Shang (2010)：提出了 函数型箱线图。这是本文的直接前身。他们将一维函数视为 \(L^2\) 空间的元素，利用带状深度定义中位数曲线与四分位带，成功将箱线图推广到函数数据。留下的口子：该方法依赖 \(L^2\) 度量，对于有约束的密度数据，可能产生度量失真（如中位数曲线可能跑出密度空间）。
核心工具：Wasserstein 几何与 Fréchet 均值
- Villani (2003) / Optimal Transport 文献：建立了 Wasserstein 距离的严格数学基础。虽然最初是分析工具，但为统计学提供了新的度量结构。
- Fréchet 均值概念：在非欧空间中，均值被定义为最小化平方距离的点。这为在 Wasserstein 空间定义"平均密度"提供了理论基础。
主要进展：密度数据的统计推断
- Petersen et al. (2016) / Petersen & Müller (2016)：系统研究了 Wasserstein 空间中的 Fréchet 均值与变异性分析。他们展示了如何利用最优传输映射将密度问题转化为分位数函数的 \(L^2\) 问题，这是本文技术路线的关键依赖。
- Panaretos et al. (2010, 2016)：在密度数据的统计推断方面做了早期探索，如密度数据的假设检验与主成分分析。
本文的位置：从"单样本描述"走向"比较与调整"
- 本文 Liu et al. (2022) 填补了一个具体的空白：已有的 Wasserstein 统计工具多集中在单一总体的均值估计或主成分分析，缺乏类似经典箱线图那样的探索性可视化工具，更缺乏在两组比较（参照组 vs 目标组）设定下的可视化方案，以及带协变量调整的密度比较框架。作者将 Fboxplot 的深度框架与 Wasserstein 几何结合，并进一步扩展到了"条件偏差"的层面。

子线索聚类：

线索 A：基于深度的函数可视化
- 关注如何定义函数的"中心"与"排序"。核心工具是 Band Depth 或 Modified Band Depth。
- 代表作：Sun & Genton (2011) 的函数型箱线图，Arribas-Gil & Romo (2014) 的异常值检测。
- 本文贡献：将这一线索从 \(L^2\) 空间平移到了 Wasserstein 空间。
线索 B：密度数据的几何与推断
- 关注密度作为统计对象的几何性质。核心工具是 Optimal Transport Map 与分位数函数。
- 代表作：Petersen & Müller (2016) 的 Fréchet 积分，Bigot et al. (2017) 的形状分析。
- 本文贡献：利用这一线索的"分位数函数表示法"来具体计算箱线图的各个组件。
线索 C：协变量调整的函数回归
- 关注函数响应变量与标量/函数协变量的关系。
- 代表作：函数线性模型。
- 本文贡献：提出了一种非参数的、基于几何距离的"余残"概念，而非传统的回归残差。

这个方向在追问的核心问题： 1. 度量选择：在什么情况下，Wasserstein 距离比 \(L^2\) 距离更适合描述密度数据的变异性？（本文通过避免"负密度"和捕捉"平移"来回答） 2. 计算可行性：高维密度或大样本下，Wasserstein 距离的计算成本如何克服？（本文主要处理一维密度，计算相对成熟） 3. 统计推断的完备性：在 Wasserstein 空间中，能否建立类似于欧氏空间的完整推断体系（均值、方差、分位数、回归）？

⚠️ 作者的 framing：作者将本文 frame 为 "填补密度数据探索性分析工具的空白"，并强调 "跨样本比较" 和 "协变量调整" 是实际应用（特别是自闭症 EEG 研究）中的刚需，而现有工具无法满足。 * 淡化的竞争路线：作者没有深入讨论 Log-Ratio Approach（利用对数变换将密度映射到希尔伯特空间），这是处理密度数据的另一大流派（Aitchison 几何），在 compositional data analysis 中非常主流。作者仅提及"avoid metric distortions associated with transformations"，暗示 Log-Ratio 方法可能扭曲几何结构，但未展开对比。 * 缺失的引用：Intro 中未引用关于 Wasserstein Barycenter 计算复杂度 的深入文献，对于大规模数据可能存在的计算瓶颈未作预警。也未引用 Functional Concurrent Regression 模型，这通常是处理协变量调整的标准方法，作者虽提出了新方案，但未与该经典模型详细对比。

张力：未见明显对立引用。文献主要呈现为技术叠加：Hyndman 的框架 + Petersen 的 Wasserstein 几何 + 应用需求。

二、最核心、最简单的例子 / 数学问题¶

在展开论文细节前，我们先建立一个最小内核。本文处理的是一维概率密度函数的统计汇总问题。

第一步：符号、模型与可观测数据¶

观测对象：假设我们有 \(n\) 个独立的观测对象（如 \(n\) 个儿童）。对于第 \(i\) 个对象，我们观测到一个概率密度函数 \(f_i(x)\)，其中 \(x \in \Omega \subset \mathbb{R}\) 是定义域（如频率）。
- 注：在实际数据中，\(f_i\) 往往不是直接观测到的，而是通过原始信号（EEG 时间序列）经傅里叶变换和平滑估计得到的。但在本文框架下，我们将 \(f_i\) 视为已知的观测单元。
目标：
1. 单样本汇总：给定 \(\{f_1, \dots, f_n\}\)，找到"中位数密度" \(f_{med}\) 和"四分位间距带"（IQR band），并标记异常密度。
2. 双样本比较：给定参照组 \(\{g_1, \dots, g_m\}\) 和目标组 \(\{f_1, \dots, f_n\}\)，量化目标组相对于参照组的偏离。
3. 协变量调整：若存在协变量 \(Z\)（如年龄），如何剔除 \(Z\) 的影响后，再比较密度？
核心几何工具：Wasserstein 距离
- 对于一维密度 \(f\) 和 \(g\)，其 2-Wasserstein 距离 \(W_2(f, g)\) 定义为：
  \[W_2^2(f, g) = \inf_{\pi} \int |x - y|^2 d\pi(x, y)\]
  其中 \(\pi\) 是边际分布为 \(f\) 和 \(g\) 的联合分布。
- 关键性质（一维特例）：在一维情形下，Wasserstein 距离有显式解。令 \(F^{-1}\) 和 \(G^{-1}\) 分别为 \(f\) 和 \(g\) 的分位数函数，则：
  \[W_2^2(f, g) = \int_0^1 (F^{-1}(u) - G^{-1}(u))^2 du = \|F^{-1} - G^{-1}\|_{L^2([0,1])}^2\]
- 这意味着：在 Wasserstein 空间中对密度做均值，等价于在 \(L^2\) 空间中对分位数函数做均值。 这是本文所有计算的基石。

第二步：最小内核——单样本 Wasserstein 箱线图¶

假设我们只有 \(n\) 个密度 \(f_1, \dots, f_n\)，我们要画一个箱线图。

数据变换：将每个密度 \(f_i\) 变换为分位数函数 \(Q_i(u) = F_i^{-1}(u)\)，定义域为 \([0, 1]\)。
定义中心：计算 Fréchet 均值 \(\mu_Q\)。由于 \(W_2\) 距离在分位数空间就是 \(L^2\) 距离，所以：
\[\mu_Q(u) = \frac{1}{n} \sum_{i=1}^n Q_i(u)\]
这就是"平均分位数函数"。将其变换回密度空间，即得到"平均密度"（Wasserstein Barycenter）。
定义深度与排序：
- 传统箱线图用"四分位数"排序。函数型箱线图用 Band Depth（带深度）。
- 简单理解：对于分位数函数 \(Q_i\)，看它在多大程度上被包含在其他函数形成的"带"内。
- 根据深度对所有 \(Q_i\) 排序，找到深度最大的 中位数曲线 \(Q_{med}\)（对应 \(f_{med}\)）。
构建箱体：
- 找到深度排在前 50% 的函数，它们构成的"最小包围带"就是箱线图的"箱体"。
- 找到深度排在前 75% 的函数，它们构成的"最小包围带"就是"须"。
异常值检测：落在须之外的函数，标记为异常值。

最小内核总结：本文的核心数学操作是——把密度问题转化为分位数函数的 \(L^2\) 问题，套用已有的 Functional Boxplot 框架，再转回密度空间。

三、这篇论文做了什么¶

三句话： ① 研究了概率密度函数样本的可视化与比较问题，特别是在自闭症 EEG 研究中如何量化功率谱密度的组间差异。 ② 核心方法是利用 Wasserstein 距离替代欧氏距离，构建了单样本、双样本比较及协变量调整三种箱线图工具。 ③ 主要结论是该方法能有效捕捉密度形状的差异（如 Peak Alpha Frequency 的平移），且协变量调整后的箱线图能揭示剔除年龄效应后的纯病理偏离。

关键设定与假设：

数据对象：一维概率密度函数 \(f(x)\)，支撑集紧致。
- 统计含义：这是本文的适用边界。若为高维密度或离散分布，Wasserstein 距离的计算复杂度急剧上升，本文方法可能失效。
度量假设：采用 2-Wasserstein 距离。
- 对比已有：传统 Functional Boxplot 使用 \(L^2\) 距离。作者指出 \(L^2\) 距离在密度空间有缺陷：两个密度 \(f(x)\) 和 \(f(x-\epsilon)\)（平移）在 \(L^2\) 下距离很大，但在 Wasserstein 下距离很小（仅 \(\epsilon\)）。对于 EEG 中的 PAF 平移现象，Wasserstein 度量更符合物理直觉。
协变量调整模型：
- 假设参照组的分位数函数 \(Q_{ref}(u)\) 与协变量 \(Z\)（年龄）之间存在回归关系：\(Q_{ref}(u) = \mu(u) + \beta(u) Z + \epsilon(u)\)。
- 这是一个 Concurrent Regression Model（同时回归模型），即对每一个分位点 \(u\) 分别做回归。
- 统计含义：这允许参照组的"正常发育轨迹"随年龄变化。

主要结果：

本文主要是方法论构建，结果以算法框架和实证分析形式呈现，而非传统的渐近定理。

单样本 Wasserstein Boxplot：
- 成功将 Functional Boxplot 推广至密度空间。证明了在分位数空间计算 Band Depth 等价于在密度空间计算 Wasserstein Depth。
- 解决了传统方法可能产生"负密度"中位数的问题（Wasserstein Barycenter 保持非负性）。
跨样本比较：
- 定义了 "Relative Center"：目标组的中位数密度相对于参照组 Fréchet 均值的偏离。
- 定义了 "Relative Box"：目标组的变异性相对于参照组的变异性。
- 这提供了一个直观的可视化工具：如果目标组的箱体完全落在参照组的箱体之外，则暗示显著的组间差异。
协变量调整箱线图：
- 这是本文技术含量最高的部分。
- 做法：
  1. 在参照组上拟合分位数回归模型 \(Q(u) \sim Z\)。
  2. 对于目标组的每一个体 \(i\)，给定其协变量 \(Z_i\)，预测其"理论正常分位数" \(\hat{Q}_i(u)\)。
  3. 计算残差分位数函数：\(R_i(u) = Q_i^{target}(u) - \hat{Q}_i(u)\)。
  4. 对残差分位数函数集合 \(\{R_i\}\) 做 Wasserstein Boxplot。
- 结果：得到的箱线图反映了"剔除年龄效应后，自闭症儿童相对于正常儿童的频谱偏离"。

证明路线与技术技巧：

本文虽偏应用，但包含重要的数学转换技巧。

整体路线：
- 密度空间 \(\xrightarrow{\text{CDF } F}\) 分位数空间 \(\xrightarrow{\text{Wasserstein } \approx L^2}\) 欧氏函数空间 \(\xrightarrow{\text{Functional Boxplot}}\) 可视化结果 \(\xrightarrow{\text{Inverse Quantile}}\) 密度空间结果。
关键技巧：分位数函数表示
- 这是绕开最优传输复杂计算的核心。作者利用一维 Wasserstein 距离的显式公式，将复杂的"密度配准"问题转化为简单的"函数对齐"问题。
- 技术难点在于：如何处理支撑集边界？作者假设密度支撑集紧致，避免了分位数函数在 0 或 1 处的奇异性问题。
协变量调整的技巧
- 作者没有在密度空间做回归（那需要 Wasserstein 回归，计算昂贵），而是先变换到分位数空间，做简单的函数回归（每个 \(u\) 独立回归），再做残差分析。这利用了 Wasserstein 几何的线性化特性。

真实例子与应用：

数据：EEG power spectral densities (PSD)。
- 样本：自闭症儿童（目标组）与神经典型发育儿童（参照组）。
- 关注特征：Peak Alpha Frequency (PAF)，这是一个与年龄相关的脑电特征。
应用过程：
1. 单样本分析：分别画出两组的 Wasserstein Boxplot。发现自闭症组的 PSD 分布更离散，中位数曲线的峰值位置略有不同。
2. 跨样本比较：将自闭症组的箱线图叠加在参照组的背景上。直观显示自闭症组的中心趋势偏离了参照组的"正常范围"。
3. 协变量调整（核心发现）：
  - 已知 PAF 随年龄增长向高频移动。
  - 若不做调整，两组的差异可能混杂了年龄效应。
  - 使用 Covariate-Adjusted Boxplot（调整年龄后），发现自闭症组的残差箱体仍然显著偏离零线，说明频谱差异不能完全由年龄解释，存在病理性的结构差异。
  - 这验证了方法的临床价值：能够分离发育效应与疾病效应。

🔎 结论是否比证明窄：本文未提供严格的统计推断理论（如渐近分布、假设检验的 p 值计算）。作者在文中明确指出这是 "Exploratory tool"（探索性工具）。 * 局限性：对于"这个偏离是否统计显著"，本文只提供了可视化证据，未给出 \(p\)-value 或置信区间。这是一个明显的理论缺口，作者在 Discussion 中承认了这一点，并指出未来的方向是建立 Wasserstein 空间的推断理论。

四、开放问题¶

本文留下了几个明确的接口，适合具备数理统计背景的研究者进一步探索：

推断理论缺失：
- 扎根点：Discussion 部分明确提到 "Inferential tools... are yet to be developed"。
- 问题：如何构建 Wasserstein 中位数或均值差异的假设检验？需要推导 Fréchet 均值的渐近正态性（已有文献，但未整合进 Boxplot 框架）或利用 Bootstrap 方法（在非欧空间中需谨慎）。
协变量调整模型的扩展：
- 扎根点：文中协变量调整仅使用了简单的线性分位数回归模型。
- 问题：若协变量效应是非线性的，或者存在多个协变量，当前的线性模型会失效。能否引入半参数或非参数的 Wasserstein 回归模型来构建更稳健的调整箱线图？
高维密度的推广：
- 扎根点：Introduction 提及 "Densities take on nonnegative values..."，但全文局限于 One-dimensional PSD。
- 问题：EEG 数据往往是多通道的（高维）。如何定义多变量密度或高维密度的 Wasserstein Boxplot？这涉及到高维最优传输计算（计算极其昂贵）与深度定义的难题。
与 Compositional Data Analysis 的对比：
- 扎根点：作者在 Intro 中一笔带过了 "transformations" 的缺陷。
- 问题：在什么具体数据设定下，Wasserstein Boxplot 优于基于 Log-Ratio Transform 的传统方法？这需要模拟研究来量化两种度量的偏差-方差权衡。

Maintained by 陈星宇 · Homepage · Source on GitHub