Wasserstein Boxplots for the Analysis of EEG Power Spectral Densities With Applications to Autism¶
作者: Puyuan Liu, Donatello Telesca, Abigail Dickinson, Shafali Jeste, Damla Şentürk
来源: Statistics in Medicine
主题: 其他
相关性: 2/10
机构绿灯: University of California, Los Angeles(US News 前 50,免分进入精读)
链接: https://doi.org/10.1002/sim.70511
一、领域脉络与小综述¶
这个方向是什么: 这个子方向属于函数型数据分析与统计形状分析的交叉领域,核心问题是:当观测对象本身是"概率密度函数"(而非标量或向量)时,如何定义并估计其中心趋势、离散度与异常值? 传统 FDA 方法通常将函数视为希尔伯特空间(如 \(L^2\))中的点,利用欧氏距离或内积定义均值与方差。然而,概率密度函数具有天然的约束——非负性且积分为 1——这使得 \(L^2\) 距离在度量密度间的"形状差异"时存在缺陷(例如,它允许"负密度",且对密度支撑集的平移不敏感)。本文所代表的路线,主张利用最优传输理论中的 Wasserstein 距离来替代欧氏距离,从而在密度空间构建符合几何直觉的统计汇总工具。当前该方向已从理论探索走向具体应用,在神经科学、基因组学等领域开始落地,但"协变量调整"与"跨样本比较"的框架仍在发展中。
发展脉络:
-
奠基:函数型数据可视化的经典框架
- Hyndman & Shang (2010):提出了 函数型箱线图。这是本文的直接前身。他们将一维函数视为 \(L^2\) 空间的元素,利用带状深度定义中位数曲线与四分位带,成功将箱线图推广到函数数据。留下的口子:该方法依赖 \(L^2\) 度量,对于有约束的密度数据,可能产生度量失真(如中位数曲线可能跑出密度空间)。
-
核心工具:Wasserstein 几何与 Fréchet 均值
- Villani (2003) / Optimal Transport 文献:建立了 Wasserstein 距离的严格数学基础。虽然最初是分析工具,但为统计学提供了新的度量结构。
- Fréchet 均值概念:在非欧空间中,均值被定义为最小化平方距离的点。这为在 Wasserstein 空间定义"平均密度"提供了理论基础。
-
主要进展:密度数据的统计推断
- Petersen et al. (2016) / Petersen & Müller (2016):系统研究了 Wasserstein 空间中的 Fréchet 均值与变异性分析。他们展示了如何利用最优传输映射将密度问题转化为分位数函数的 \(L^2\) 问题,这是本文技术路线的关键依赖。
- Panaretos et al. (2010, 2016):在密度数据的统计推断方面做了早期探索,如密度数据的假设检验与主成分分析。
-
本文的位置:从"单样本描述"走向"比较与调整"
- 本文 Liu et al. (2022) 填补了一个具体的空白:已有的 Wasserstein 统计工具多集中在单一总体的均值估计或主成分分析,缺乏类似经典箱线图那样的探索性可视化工具,更缺乏在两组比较(参照组 vs 目标组)设定下的可视化方案,以及带协变量调整的密度比较框架。作者将 Fboxplot 的深度框架与 Wasserstein 几何结合,并进一步扩展到了"条件偏差"的层面。
子线索聚类:
-
线索 A:基于深度的函数可视化
- 关注如何定义函数的"中心"与"排序"。核心工具是 Band Depth 或 Modified Band Depth。
- 代表作:Sun & Genton (2011) 的函数型箱线图,Arribas-Gil & Romo (2014) 的异常值检测。
- 本文贡献:将这一线索从 \(L^2\) 空间平移到了 Wasserstein 空间。
-
线索 B:密度数据的几何与推断
- 关注密度作为统计对象的几何性质。核心工具是 Optimal Transport Map 与分位数函数。
- 代表作:Petersen & Müller (2016) 的 Fréchet 积分,Bigot et al. (2017) 的形状分析。
- 本文贡献:利用这一线索的"分位数函数表示法"来具体计算箱线图的各个组件。
-
线索 C:协变量调整的函数回归
- 关注函数响应变量与标量/函数协变量的关系。
- 代表作:函数线性模型。
- 本文贡献:提出了一种非参数的、基于几何距离的"余残"概念,而非传统的回归残差。
这个方向在追问的核心问题: 1. 度量选择:在什么情况下,Wasserstein 距离比 \(L^2\) 距离更适合描述密度数据的变异性?(本文通过避免"负密度"和捕捉"平移"来回答) 2. 计算可行性:高维密度或大样本下,Wasserstein 距离的计算成本如何克服?(本文主要处理一维密度,计算相对成熟) 3. 统计推断的完备性:在 Wasserstein 空间中,能否建立类似于欧氏空间的完整推断体系(均值、方差、分位数、回归)?
⚠️ 作者的 framing: 作者将本文 frame 为 "填补密度数据探索性分析工具的空白",并强调 "跨样本比较" 和 "协变量调整" 是实际应用(特别是自闭症 EEG 研究)中的刚需,而现有工具无法满足。 * 淡化的竞争路线:作者没有深入讨论 Log-Ratio Approach(利用对数变换将密度映射到希尔伯特空间),这是处理密度数据的另一大流派(Aitchison 几何),在 compositional data analysis 中非常主流。作者仅提及"avoid metric distortions associated with transformations",暗示 Log-Ratio 方法可能扭曲几何结构,但未展开对比。 * 缺失的引用:Intro 中未引用关于 Wasserstein Barycenter 计算复杂度 的深入文献,对于大规模数据可能存在的计算瓶颈未作预警。也未引用 Functional Concurrent Regression 模型,这通常是处理协变量调整的标准方法,作者虽提出了新方案,但未与该经典模型详细对比。
张力: 未见明显对立引用。文献主要呈现为技术叠加:Hyndman 的框架 + Petersen 的 Wasserstein 几何 + 应用需求。
二、最核心、最简单的例子 / 数学问题¶
在展开论文细节前,我们先建立一个最小内核。本文处理的是一维概率密度函数的统计汇总问题。
第一步:符号、模型与可观测数据¶
- 观测对象:假设我们有 \(n\) 个独立的观测对象(如 \(n\) 个儿童)。对于第 \(i\) 个对象,我们观测到一个概率密度函数 \(f_i(x)\),其中 \(x \in \Omega \subset \mathbb{R}\) 是定义域(如频率)。
- 注:在实际数据中,\(f_i\) 往往不是直接观测到的,而是通过原始信号(EEG 时间序列)经傅里叶变换和平滑估计得到的。但在本文框架下,我们将 \(f_i\) 视为已知的观测单元。
-
目标:
- 单样本汇总:给定 \(\{f_1, \dots, f_n\}\),找到"中位数密度" \(f_{med}\) 和"四分位间距带"(IQR band),并标记异常密度。
- 双样本比较:给定参照组 \(\{g_1, \dots, g_m\}\) 和目标组 \(\{f_1, \dots, f_n\}\),量化目标组相对于参照组的偏离。
- 协变量调整:若存在协变量 \(Z\)(如年龄),如何剔除 \(Z\) 的影响后,再比较密度?
-
核心几何工具:Wasserstein 距离
- 对于一维密度 \(f\) 和 \(g\),其 2-Wasserstein 距离 \(W_2(f, g)\) 定义为:
\[W_2^2(f, g) = \inf_{\pi} \int |x - y|^2 d\pi(x, y)\]其中 \(\pi\) 是边际分布为 \(f\) 和 \(g\) 的联合分布。
- 关键性质(一维特例):在一维情形下,Wasserstein 距离有显式解。令 \(F^{-1}\) 和 \(G^{-1}\) 分别为 \(f\) 和 \(g\) 的分位数函数,则:
\[W_2^2(f, g) = \int_0^1 (F^{-1}(u) - G^{-1}(u))^2 du = \|F^{-1} - G^{-1}\|_{L^2([0,1])}^2\]
- 这意味着:在 Wasserstein 空间中对密度做均值,等价于在 \(L^2\) 空间中对分位数函数做均值。 这是本文所有计算的基石。
- 对于一维密度 \(f\) 和 \(g\),其 2-Wasserstein 距离 \(W_2(f, g)\) 定义为:
第二步:最小内核——单样本 Wasserstein 箱线图¶
假设我们只有 \(n\) 个密度 \(f_1, \dots, f_n\),我们要画一个箱线图。
- 数据变换:将每个密度 \(f_i\) 变换为分位数函数 \(Q_i(u) = F_i^{-1}(u)\),定义域为 \([0, 1]\)。
- 定义中心:计算 Fréchet 均值 \(\mu_Q\)。由于 \(W_2\) 距离在分位数空间就是 \(L^2\) 距离,所以:
\[\mu_Q(u) = \frac{1}{n} \sum_{i=1}^n Q_i(u)\]这就是"平均分位数函数"。将其变换回密度空间,即得到"平均密度"(Wasserstein Barycenter)。
- 定义深度与排序:
- 传统箱线图用"四分位数"排序。函数型箱线图用 Band Depth(带深度)。
- 简单理解:对于分位数函数 \(Q_i\),看它在多大程度上被包含在其他函数形成的"带"内。
- 根据深度对所有 \(Q_i\) 排序,找到深度最大的 中位数曲线 \(Q_{med}\)(对应 \(f_{med}\))。
- 构建箱体:
- 找到深度排在前 50% 的函数,它们构成的"最小包围带"就是箱线图的"箱体"。
- 找到深度排在前 75% 的函数,它们构成的"最小包围带"就是"须"。
- 异常值检测:落在须之外的函数,标记为异常值。
最小内核总结:本文的核心数学操作是——把密度问题转化为分位数函数的 \(L^2\) 问题,套用已有的 Functional Boxplot 框架,再转回密度空间。
三、这篇论文做了什么¶
三句话: ① 研究了概率密度函数样本的可视化与比较问题,特别是在自闭症 EEG 研究中如何量化功率谱密度的组间差异。 ② 核心方法是利用 Wasserstein 距离替代欧氏距离,构建了单样本、双样本比较及协变量调整三种箱线图工具。 ③ 主要结论是该方法能有效捕捉密度形状的差异(如 Peak Alpha Frequency 的平移),且协变量调整后的箱线图能揭示剔除年龄效应后的纯病理偏离。
关键设定与假设:
- 数据对象:一维概率密度函数 \(f(x)\),支撑集紧致。
- 统计含义:这是本文的适用边界。若为高维密度或离散分布,Wasserstein 距离的计算复杂度急剧上升,本文方法可能失效。
- 度量假设:采用 2-Wasserstein 距离。
- 对比已有:传统 Functional Boxplot 使用 \(L^2\) 距离。作者指出 \(L^2\) 距离在密度空间有缺陷:两个密度 \(f(x)\) 和 \(f(x-\epsilon)\)(平移)在 \(L^2\) 下距离很大,但在 Wasserstein 下距离很小(仅 \(\epsilon\))。对于 EEG 中的 PAF 平移现象,Wasserstein 度量更符合物理直觉。
- 协变量调整模型:
- 假设参照组的分位数函数 \(Q_{ref}(u)\) 与协变量 \(Z\)(年龄)之间存在回归关系:\(Q_{ref}(u) = \mu(u) + \beta(u) Z + \epsilon(u)\)。
- 这是一个 Concurrent Regression Model(同时回归模型),即对每一个分位点 \(u\) 分别做回归。
- 统计含义:这允许参照组的"正常发育轨迹"随年龄变化。
主要结果:
本文主要是方法论构建,结果以算法框架和实证分析形式呈现,而非传统的渐近定理。
-
单样本 Wasserstein Boxplot:
- 成功将 Functional Boxplot 推广至密度空间。证明了在分位数空间计算 Band Depth 等价于在密度空间计算 Wasserstein Depth。
- 解决了传统方法可能产生"负密度"中位数的问题(Wasserstein Barycenter 保持非负性)。
-
跨样本比较:
- 定义了 "Relative Center":目标组的中位数密度相对于参照组 Fréchet 均值的偏离。
- 定义了 "Relative Box":目标组的变异性相对于参照组的变异性。
- 这提供了一个直观的可视化工具:如果目标组的箱体完全落在参照组的箱体之外,则暗示显著的组间差异。
-
协变量调整箱线图:
- 这是本文技术含量最高的部分。
- 做法:
- 在参照组上拟合分位数回归模型 \(Q(u) \sim Z\)。
- 对于目标组的每一个体 \(i\),给定其协变量 \(Z_i\),预测其"理论正常分位数" \(\hat{Q}_i(u)\)。
- 计算残差分位数函数:\(R_i(u) = Q_i^{target}(u) - \hat{Q}_i(u)\)。
- 对残差分位数函数集合 \(\{R_i\}\) 做 Wasserstein Boxplot。
- 结果:得到的箱线图反映了"剔除年龄效应后,自闭症儿童相对于正常儿童的频谱偏离"。
证明路线与技术技巧:
本文虽偏应用,但包含重要的数学转换技巧。
-
整体路线:
- 密度空间 \(\xrightarrow{\text{CDF } F}\) 分位数空间 \(\xrightarrow{\text{Wasserstein } \approx L^2}\) 欧氏函数空间 \(\xrightarrow{\text{Functional Boxplot}}\) 可视化结果 \(\xrightarrow{\text{Inverse Quantile}}\) 密度空间结果。
-
关键技巧:分位数函数表示
- 这是绕开最优传输复杂计算的核心。作者利用一维 Wasserstein 距离的显式公式,将复杂的"密度配准"问题转化为简单的"函数对齐"问题。
- 技术难点在于:如何处理支撑集边界?作者假设密度支撑集紧致,避免了分位数函数在 0 或 1 处的奇异性问题。
-
协变量调整的技巧
- 作者没有在密度空间做回归(那需要 Wasserstein 回归,计算昂贵),而是先变换到分位数空间,做简单的函数回归(每个 \(u\) 独立回归),再做残差分析。这利用了 Wasserstein 几何的线性化特性。
真实例子与应用:
- 数据:EEG power spectral densities (PSD)。
- 样本:自闭症儿童(目标组)与神经典型发育儿童(参照组)。
- 关注特征:Peak Alpha Frequency (PAF),这是一个与年龄相关的脑电特征。
- 应用过程:
- 单样本分析:分别画出两组的 Wasserstein Boxplot。发现自闭症组的 PSD 分布更离散,中位数曲线的峰值位置略有不同。
- 跨样本比较:将自闭症组的箱线图叠加在参照组的背景上。直观显示自闭症组的中心趋势偏离了参照组的"正常范围"。
- 协变量调整(核心发现):
- 已知 PAF 随年龄增长向高频移动。
- 若不做调整,两组的差异可能混杂了年龄效应。
- 使用 Covariate-Adjusted Boxplot(调整年龄后),发现自闭症组的残差箱体仍然显著偏离零线,说明频谱差异不能完全由年龄解释,存在病理性的结构差异。
- 这验证了方法的临床价值:能够分离发育效应与疾病效应。
🔎 结论是否比证明窄: 本文未提供严格的统计推断理论(如渐近分布、假设检验的 p 值计算)。作者在文中明确指出这是 "Exploratory tool"(探索性工具)。 * 局限性:对于"这个偏离是否统计显著",本文只提供了可视化证据,未给出 \(p\)-value 或置信区间。这是一个明显的理论缺口,作者在 Discussion 中承认了这一点,并指出未来的方向是建立 Wasserstein 空间的推断理论。
四、开放问题¶
本文留下了几个明确的接口,适合具备数理统计背景的研究者进一步探索:
-
推断理论缺失:
- 扎根点:Discussion 部分明确提到 "Inferential tools... are yet to be developed"。
- 问题:如何构建 Wasserstein 中位数或均值差异的假设检验?需要推导 Fréchet 均值的渐近正态性(已有文献,但未整合进 Boxplot 框架)或利用 Bootstrap 方法(在非欧空间中需谨慎)。
-
协变量调整模型的扩展:
- 扎根点:文中协变量调整仅使用了简单的线性分位数回归模型。
- 问题:若协变量效应是非线性的,或者存在多个协变量,当前的线性模型会失效。能否引入半参数或非参数的 Wasserstein 回归模型来构建更稳健的调整箱线图?
-
高维密度的推广:
- 扎根点:Introduction 提及 "Densities take on nonnegative values...",但全文局限于 One-dimensional PSD。
- 问题:EEG 数据往往是多通道的(高维)。如何定义多变量密度或高维密度的 Wasserstein Boxplot?这涉及到高维最优传输计算(计算极其昂贵)与深度定义的难题。
-
与 Compositional Data Analysis 的对比:
- 扎根点:作者在 Intro 中一笔带过了 "transformations" 的缺陷。
- 问题:在什么具体数据设定下,Wasserstein Boxplot 优于基于 Log-Ratio Transform 的传统方法?这需要模拟研究来量化两种度量的偏差-方差权衡。
Maintained by 陈星宇 · Homepage · Source on GitHub