跳转至

High-dimensional multivariate analysis of variance via geometric median and bootstrapping

作者: Guanghui Cheng, Ruitao Lin, Liuhua Peng
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 8/10
机构绿灯: University of Melbourne(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae088


一、领域脉络与小综述

这个方向是什么

本方向研究高维多元方差分析(High-dimensional MANOVA, HD-MANOVA)。经典MANOVA用于检验多个总体的均值向量是否相等,但其依赖的Wilk's Lambda或Pillai's Trace等检验在维数p超过样本量n(p >> n)时失效。根本原因有两层:一是样本协方差矩阵不可逆(无法构造F分布),二是均值估计在p >> n下不稳定,且传统检验统计量的渐近分布依赖于p固定、n→∞的经典框架。该方向的核心统计问题是:在p随n增长甚至远大于n的高维设定下,如何构造一个既能控制第一类错误(size),又具备一致检验效力(power)的多组位置检验。

当前该领域已分化为几个主流路线:基于随机矩阵理论(RMT)的校正检验、基于U-statistics的投影检验、以及基于最大型统计量(maximum-type)的检验。这篇Cheng, Lin & Peng (2023)的工作属于第三条路线,但将位置参数从均值替换为几何中位数(geometric median),以同时应对高维和厚尾分布带来的挑战。

发展脉络(history)

从作者的introduction和引用体系看,该子领域的关键发展脉络如下:

  1. 奠基工作:高维均值检验的两范数困境(Bai & Saranadasa, 1996;Chen & Qin, 2010)

    • Bai & Saranadasa (1996) 最早系统处理高维两样本均值检验,提出基于组内偏差平方和校正的检验统计量,避免了必须估计可逆协方差矩阵(因为p>n时不可逆)的问题。他们发现:在p/n → c的渐进框架下,经典Hotelling's T²的渐近正态逼近失效。这是该领域第一个严谨的正弦结果。
    • Chen & Qin (2010) 进一步改进,提出U-统计量形式的检验统计量(仅使用交叉项避免自乘偏差,获得零假设下更优的收敛速度),并放宽了分布假设。这两篇奠定了“平方和(quadratic form)”型检验的基石。作者引用它们时用到“classical tests fail”来定位其为待改进的早期方法。
  2. 主要进展:最大型统计量的崛起(Cai, Liu & Xia, 2013, 2014)

    • Cai, Liu & Xia (2013) 提出两样本均值检验的最大型统计量(max-type):取各分量均值差异的最大绝对值 max_j |X̄_(1)j - X̄_(2)j|,通过Gaussian approximation(或极值理论)逼近其分布。与平方和型比,最大型对稀疏备择(只有少数分量为非零组间差异)具有更好的检测效力(更敏锐),但要求更强的协方差结构条件(如带稀疏协方差估计)。
    • Cai, Liu & Xia (2014) 将其拓展到多样本(MANOVA)设定。最大型统计量在高维假设检验中成为主流之一。作者用“propose a maximum-type test…”来指向它,描述为“consistent but sensitive to outliers”,从而为自身引入几何中位数埋下伏笔。
  3. 当前frontier:鲁棒性诉求与几何中位数的引入

    • 在真实数据(如基因表达、金融数据)中,数据往往含有离群点或呈厚尾分布。均值在厚尾下不再是最优位置参数(爆炸方差),而经典最大型检验基于均值,受离群值影响极大。作者在这一缺口上定位:「By replacing the sample mean with the sample geometric median, our test statistic retains the sensitivity to sparse alternatives while being resistant to outliers.」 即将鲁棒位置估计(几何中位数)与敏感的最大型统计量结合起来——这是这篇论文的核心贡献claim。
    • 几何中位数作为多变量的中位数推广(成为频率学派/稳健统计中L1型估计的经典),最早由Haldane (1948) 提出,但直到在计算方面的高维可处理性被发现(如Vardi & Zhang, 2000, 及其后的subgradient方法)才重获关注。不过几何中位数的统计推断在高维MANOVA设定下尚未被系统研究,这正是作者抓住的切入点。

子线索聚类

该领域可被大致分为以下三条子技术路线(按统计量的构造方式):

线索名称 代表工作 核心思路 优缺点/适用场景
平方和型(Quadratic form tests) Bai & Saranadasa (1996); Chen & Qin (2010); Srivastava (2009) 构造所有分量组间差异平方的和,通过U-统计量/删除交叉项消除自乘偏差,利用线性谱分布逼近其渐近分布 对全备备择(大部分分量有差异)敏感;但对稀疏备择(只有少数分量有差异)无检测效果
最大型(Max-type tests) Cai, Liu & Xia (2013, 2014); Chang et al. (2017) 取各分量组间差异的最大绝对值,利用Gaussian approximation/极值理论逼近渐近分布 对稀疏备择高度敏感;但对全备备择不敏感(只能检测最大分量,信息利用率低);对离群值极敏感(因为max取的是单个分量差异)
RMT型校正(Random matrix理论校正版) Ledoit & Wolf (2002); Schott (2007) 对经典Wilks Lambda等统计量进行p→∞→n→∞的渐近校正,利用RMT获得可逆协方差矩阵的极限谱分布替代 依赖线性谱分布条件与矩假设,在p>n时稳定性不如前两类

Cheng, Lin & Peng的工作落在第二类簇,但引入几何中位数调整位置估计。

这个方向在追问的核心问题(2-4个)

  1. 检验力最优性:在 p >> n 下,检验的 minimax optimal detection boundary 是什么?如何匹配稀疏性与全备性的自动适应?
  2. 对离群/厚尾的稳健性:当数据分布不满足正态性(且协方差谱未知)、或含有遭受污染的离群点时,高维假设检验的行为是什么?如何既控制size又保持power?
  3. 分布逼近的精度:Gaussian approximation(特别是对最大型统计量的极值逼近)需要的条件在p >> n下是否能遮住依赖尾部条件。

⚠️ 作者的framing(必须明确标注成“这是作者的说法”)

  • 作者的缺口claim:现有高维MANOVA方法(最大型检验)都使用样本均值估计位置,对离群值敏感。作者将此缺口frame为:「This makes the tests sensitive to outliers」→ 因此「geometric median」是自然替代。
  • 被淡化/回避的竞争路线
    • 作者引用了基于秩的高维非参数检验(如Mukherjee, 2020),但只在related work中轻描淡写一句,未与其方法进行power对比。对于厚尾情形,基于秩的方法(通过向符号空间秩投影)也是一种鲁棒性解决方案,且不依赖维数p的具体结构。作者未讨论其与几何中位数检验的power优劣对比。
    • 同样地,基于因子分解的高维协方差结构降维方法(如用PCA降维后做MANOVA)未被讨论——这可能是在p>n不靠RMT也能有实质检验力的另一分支。
  • 明显该出现但没出现的工作
    • 关于几何中位数的高维渐近分布理论(如van der Vaart & Wellner, 1996中的Z-estimator理论在p>n时的扩展?)该引述的文献似乎有空缺。几何中位数在p>n时的√n-正态性(非退化)的条件主要来自传统的p固定框架——作者的证明是否完全验证了p>n下的正态逼近条件?这需要细读。但本文声称使用Gaussian approximation而非直接正态性定理——将这个理论问题转移到了Gaussian approximation的条件验证上。

张力

未见明显对立引用。被引工作在同一方向(高维假设检验)上基本达成一致的共识是:均值检验在p>n时不可直接使用经典统计量,最大型与平方和型的适应情景不同且互相补充。无直接对立结论的引用。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚(必做,放在最前面)

符号: - K:组数(groups),文中假设 K ≥ 2(可被视为number of populations)。parallel问题:要检验K组的几何中位数是否全部相等。 - n_k:第k组的样本量,k = 1, ..., K。总样本量 N = ∑_{k=1}^K n_k。文中允许各组样本量不等。 - p:特征的维度。核心高维设定:p 可能远大于 n_k 甚至 N(即 p >> N 是允许的)。 - X_{k,i}:第k组的第i个观测向量,为p维随机向量(R^p 值)。 - μ_k:第k组的几何中位数(population版本),定义为:
μ_k = arg min_{θ ∈ R^p} E[||X_{k,1} - θ||_2 - ||X_{k,1}||_2]
即:最小化期望欧几里得距离(减去 ||X|| 保证有限性,但定义的明确形式可略)的那个点。它也就是 L2 中位数。注意:几何中位数是位置参数,不是均值。 - µ̂_k:第k组的样本几何中位数,定义为:
µ̂_k = arg min_{θ ∈ R^p} ∑_{i=1}^{n_k} ||X_{k,i} - θ||_2
这个定位点可以用迭代法(Weiszfeld算法,或它的修改版)来求解——优化目标为凸但不可微(norm函数在θ = X_{k,i}处不可导),使用次梯度迭代求解,通常收敛速度快(线性收敛或近似)。 - T:检验统计量(最大型),在零假设 H0: μ_1 = μ_2 = ... = μ_K 下的定义为零假设成立时的基量(见下文)。

可观测数据: - 我们的观测是 {X_{k,i}: k=1,...,K, i=1,...,n_k}。无潜在量(这就是一个纯粹的推断问题——高维假设检验)。潜在量只在因果推断中出现;这里没有。但作者假设数据独立同分布(各组间独立,组内独立同分布),无未观测的混杂或潜在变量,只有观测到的X而不涉及任何隐变量。

模型: - 作者并未假设数据来自特定的参数族(如正态分布)。核心假设是关于数据结构: - (C1) {X_{k,i}}是独立同分布(各组内部i.i.d.,组之间独立),但不要求各组间分布相同(零假设下组间几何中位数相等,其他方面可以不同——方差、相关性、分布都可以不同)。 - (C2) 协方差结构:允许p增长到无穷,且维数p与样本量N的关系满足某种具体条件(所得结果需要协方差矩阵的谱范数有界、各分量方差有界等条件——见第三节的假设列表)。 - (C3) 平滑性条件:随机变量 X_{k,i} 的分布应满足几何中位数的central limit性质所需要的光滑性(本质上是子梯度联合等势条件)。为检验的目的,作者假设其数据的分布满足某种多项式尾部条件(存在指数矩),使Gaussian approximation的误差有界(Berry-Esseen类型)。

想要但观测不到的量: - 作者需要知道:在零假设下,{µ̂_k}联合分布(或者至少它们的极值分布)。这自然不可直接观测,是推断的目标。为此,作者使用高斯逼近(用极限高斯向量的分布替代原始统计量的分布)和wild bootstrap(用数据的随机变换模拟该极限分布的近似实现)。

第二步:讲最小内核

我选择的最小特例是一个极低维低样本的情形,但它已经包含整篇论文的核心逻辑骨架,将其剥离出来展示。

最简特例:设K=2(仅有两组)、p=3(非常低的维数)、n₁=n₂=n=10(小样本)。假设两组来自同一分布(零假设为真),且X服从标准正态分布(产生该样本几何中位数)。

  • 检验问题H0: μ₁ = μ₂ vs H1: μ₁ ≠ μ₂
  • 传统均值最大型检验:取两组的均值向量 X̄₁X̄₂,构造统计量 T_mean = max_{j=1,2,3} |X̄₁ⱼ - X̄₂ⱼ|。因为 X̄₁ - X̄₂ 的每个分量是均值为0、方差为 2σ_jj/n(设协方差矩阵为对角阵?)的正态变量?不尽然,实际不一定边际正态;但对角化且已知方差结构平稳后,T_mean 在这个零假设下可以近似为三个独立或相关标准正态变量绝对值的最大值。
  • 作者的几何中位数最大型检验
  • 先估计两组的几何中位数:µ̂₁ = arg min_{θ} ∑_{i=1}^{10} ||X_{1,i} - θ||_2,类似地 µ̂₂。这个优化用Weiszfeld算法在小样本里做快速迭代求解。
  • 构造检验统计量:T_GM = max_{j=1,2,3} |µ̂₁ⱼ - µ̂₂ⱼ|
  • 零假设下的分布:如果零假设为真,则 µ̂₁µ̂₂ 都随机分布在真正的公共几何中位数 μ 附近。统计量 T_GM 的分布可以通过Gaussian approximation来逼近——作者证明,在合适条件下,T_GM 的分布可以被Replacement by a Gaussian vector (Z₁, Z₂, Z₃) 的max近似,其中 Z 是具有特定协方差结构的均值为0高斯向量(其协方差等于原始 µ̂_k 的渐近方差矩阵)。
  • 为什么几何中位数可能占优?:均值在p=3且样本有离群点时可能使两组的X̄₁和X̄₂被拉向离群值方向,从而(1)即使无真差异也可能巨大增加检验统计量,造成假阳性膨胀;(2) 有真实差异但离群值使统计数据混乱。而几何中位数对离群值不敏感(其影响函数有界:单点影响有限)。所以对污染分布,用几何中位数的检验有更稳健的size。
  • wild bootstrap的实施:要对 T_GM 的分布做逼近,作者使用一个重抽样方案
    (1) 对所有样本数据 X_{k,i} 的个体之乘以独立Rademacher随机变量 e_i(取±1概率各1/2),然后重新计算几何中位数估计。
    (2) 在新引导样本上重新计算 T_GM_boost。反复多次获得经验分布,用这个经验分布的α分位数作为拒绝域边界。
    这个过程的理论保证:引导分布一致逼近了原始统计量的零假设分布(在某种度量下)。

  • 这个小特例下的核心数学困难T_GM 的分布极度依赖于 µ̂_k 的联合分布——这在高维特别是p变大的时候,即使对于零假设也非平凡:µ̂_k 是p维的Z-estimator(随机优化器),它的渐近方差是人的无条件M-估计,需要整个协方差结构信息。逼近它的极值分布(最大值)尤为敏感。Cheng, Lin & Peng的工作核心就是:使用Gaussian approximation定理(Chernozhukov, Chetverikov & Kato, 2013等),将这个最大型统计量的分布逼近到可用的硬界,并用wild bootstrap避免直接估计复杂协方差矩阵

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在p可能远大于n的高维设定下,提出基于几何中位数的最大型检验统计量用于多样本MANOVA,检验K组的位置参数(几何中位数)是否全等。
  2. 核心工具/方法:将Cai, Liu & Xia (2013) 的max-type均值检验替换为几何中位数,利用Gaussian approximation定理导出零假设下的渐近分布,设计并理论验证wild bootstrap算法以实现该分布的实用逼近。
  3. 主要结论:推导了检验统计量在零假设下的极限分布(通过Gaussian vector的max逼近),证明了检验在备择假设下的一致检测能力(即当两组几何中位数有差异时,检验的power趋近于1)。同时,wild bootstrap方法被证明能满足某种Gaussian approximation条件,提供一致的分位数估计(证明了分布逼近的收敛性)。

关键设定与假设(完整列写,结合第二节最小记号补全)

要完整看懂证明框架,需引入以下额外记号和假设(出自论文Section 2和3):

μ̂_k 为第k组的样本几何中位数。
定义 V_{k,i} = ∂φ(X_{k,i}, μ_k) 是凸函数的子梯度(subgradient of φ),其中 φ(x, μ) = ||x-μ||_2。几何中位数的Z-estimation方程: (1/n_k) Σ_i V_{k,i} = 0 在µ̂_k处成立(次梯度条件)。

在此基础上,核心假设(全文最常见的四条)

  • (A1) 有界维数增长速度的条件log(p) ≤ c0 N 对于某个常数 c0(其实相当宽松,允许p指数级大)。更确切地说,标准化后数据的边际方差有一个均匀上界和下界、且p关于N可以增长到 exp(o(N^δ)) 的某种速率——具体量化在定理陈述里:p 可以被当作指数增长,但比例指数可能受限于某种阶。
  • (A2) 分布尾部条件:各分量的绝对矩有界:存在 s > 2 使 max_{k, j ≤ p} E[|X_{k,j}|^{4+δ}] < ∞ 对某个 δ > 0。这比正态假设宽很多,但比多项式尾部(如Cauchy)窄——作者的定理不允许Cauchy分布(因为几何中位数的Gaussian approximation在此类下不一定成立)。
  • (A3) 协方差谱条件:设 Σ_k = Cov(X_{k,1})(假如存在),要求 max_k λ_max(Σ_k)(最大特征值) 以某个量级的增长率增长(实际上需要控制在一定order内),更具体地说,trace(Σ_k) 或特征值之和的一个比例条件控制。对于交叉矩,要求某种稀疏性条件?作者并未明确要求稀疏,但隐式通过Gaussian approximation的控制条件要求某种最小化成对相关性近似因子结构
  • (A4) 光滑单调性条件:几何中位数的子梯度方程是可逆的(即 E[∇² φ(...)] 非退化),在秩条件上这是一个对分布不“衰落”于高维的隐式限制。

与已有最大型检验(基于均值)相比:
- 本工作的假设对协方差的矩阵谱结构的要求可能稍弱,因为几何中位数本身对群方差放大的鲁棒性使其估计量的方差可以保持稳定(这允许指出现有均值检验在某些谱展宽较大情况下用更紧的控制)。 - 但是,它也加强了对某种光滑性(分布CDF连续性+子梯度期望非退化)的要求,在极厚的尾部下退化为效率损失。

主要结果(理论型部分的2-3个关键定理)

定理 1 (零假设下Gaussian approximation)

陈述(非原文逐字,但为精神)
在(A1)-(A4)成立且 H0: μ₁ = ... = μ_K 为真(即K组几何中位数相等)时,存在一个均值0的p维高斯向量 G = (G_1, ..., G_p) (其协方差结构与近似前的统计量匹配),使得对于任意实数 t
|P(√N * max_{j ≤ p} |µ̂₁ⱼ - µ̂₂ⱼ·some normalization| ≥ t) - P(max_j |G_j| ≥ t)| → 0
更具体地,这个收敛速度与 pN 的关系可以显式量化(Berry-Esseen类型界),确保 log(p)=o(N^{1/3}) 时可以接受。

直觉:用高斯耦合代替原始统计量的联合分布,耦合误差依赖于(1)高维Lindeberg类论证(Chernozhukov-Chetverikov-Kato 2013框架);(2)几何中位数作为M-estimator的线性展开(将µ̂用数据矩表示成 µ̂_k ≈ μ_k + (1/n_k) Σ_i ψ(X_{k,i}, μ_k) + 小余项,其中ψ是某种影响函数)。一旦此线性展开成功,问题降阶为对“mean of ψ”进行Gaussian approximation,这变成经典高维CLT(有主项为均值)的领域。实现这个线性展开的关键技术引理是:几何中位数的Bahadur表示(即在p>n时的一个均匀线性近似)。

定理 2 (备择假设下检验的一致性)

如果 H1 成立:存在某个分量 j,使得 |μ₁ⱼ - μ₂ⱼ| > c √(log p / N)(一个非消失的稀疏信号阈值),并且该分量的方差有上界下界均匀,则检验的势(power)趋于1(即拒绝的空概率收敛到1)。

与已有的基于均值的最大型检验(Cai, Liu & Xia 2013, 2014)相比,对离群值的敏感性不同:在含离群点的污染分布下,原均值检验的size会严重膨胀;几何中位数版在全备备择下power可能略低(因为几何中位数不充分提取全部位置信息,尤其在全备全部分量有同向差异的场景下,效率不如均值)。但作者正是以鲁棒性换取这种情况下的引力——不往下补偿。

定理 3 (wild bootstrap的一致性)

定义wild bootstrap统计量 T* = max_j |(1/√N) Σ_i e_i ψ_k(X_{k,i}, µ̂_k)|,其中{e_i}是独立Rademacher随机变量(以概率1/2取+1)。有理论保证:在零假设下,T*的条件分布(给定数据)弱收敛于与 T 相同的极限分布(尽管这个分布的中心平移需要调整)。具体来说,Bootstrap分位数是原检验统计量零分布的一致估计。这一点保证wild bootstrap方法对任意显著性水平的test size控制是渐近有效的。

证明路线与技术技巧

整体路线(分成3-5个逻辑主干步):

  • 第1步:几何中位数的线性化。使用作者参考的M-estimator理论的变体(van der Vaart & Wellner, 1996, Ch 3.3),构造几何中位数的Bahadur表示。对每个组k,有:
    √n_k (µ̂_k - μ_k) = (1/√n_k) Σ_i A_k^{-1} · (X_{k,i} - μ_k)/||X_{k,i} - μ_k||_2 + o_P(1)
    其中 A_k = E[ I_{p×p} - (X_{k,i} - μ_k)(X_{k,i} - μ_k)ᵀ / ||X_{k,i} - μ_k||_2^2] / (||X_{k,i} - μ_k||_2)(某种缩放)。关键是:几何中位数的渐近行为由一个对数据坐标的"符号梯度"的主项控制——主项正是 S_{k,i} = (X_{k,i} - μ_k)/||...||,这是分布在单位球上的向量(即有界)。因为他有界,对厚尾的抗性由此而来。

  • 第2步:联合统计量的Gaussian approximation。定义 U_i = (U_{1,i}, ..., U_{p,i}) 为线性化后的主项(各分量值),转换成带某种标准化情况的标示。然后应用高维Gaussian approximation定理(Chernozhukov, Chetverikov & Kato, 2013, 简写CCK13)的关于max和sup类泛函的版本。这里最主要的难点是验证CCK13框架中的矩条件成立。作者通过几何中位数影响函数的有界性(这些S_i的范数≤1且各分量方差有界)跳过了许多尾部精细计算(注:均值检验直接做的话需要方差条件通过分位数调节)。线性化这一步的作用是将问题从复杂的非光滑优化输出转化为处理样本均值(核是一个有界向量)。

  • 第3步:耦合误差的Berry-Esseen界。验证出 max_j |P(√N D_j ≥ t) - Φ(t)| 可以用CCK13的极值类界控制(这个界将收敛速率表示为 (log(p)^7 / N)^{1/6} 之类),确保条件能满足p指数增长的情形。

  • 第4步:wild bootstrap的理论保证。因为线性化的主项是 ψ(X_{k,i}, μ_k)(向量形式的多元影响函数),直接对每个样本做Rademacher随机化,计算引导重采样版本 T* 的条件分布。关键在于验证bootstrap版本的Gaussian approximation同样成立(这可以基于耦合的中心限制定理在条件概率下的一类结果——如Deng & Zhang, 2020 "Rademacher bootstrap for Gumbel approximation" 或参照CCK13对bootstrap一致性的论证)。关键跳跃:若直接对几何中位数做bootstrap会很慢(因为每次要求在引导样本上重新优化Weiszfeld),但没有直接证据表明可以抛弃重新优化线——所以作者巧妙的是,他们直接把线性展开作为构造wild bootstrap统计量的锚点,不要求重新优化:T* = max_j |(1/√N) Σ_i e_i ψ̂_{k,i,j}|,其中ψ̂_k,i,j = 在µ̂_k处的经验子梯度/影响函数。这完全避免了对每个bootstrap样本重新计算几何中位数的昂贵开销。作者用理论证明这一近似bootstrap的分位数截断仍然有效。这是一个非常实用的工程技巧。

技术技巧点名

  1. 关键引理——几何中位数的Bahadur表示(即均匀线性近似)。它是将非光滑的M-估计转化为均值问题的基石。用次梯度条件的可逆性构造了关于误差项的展开(虽然非光滑,可逆的Jacobian是带有期望形式的对称正定矩阵,本质上是“平滑化”后的影响函数)。这可以回顾M-estimator的经典理论:非平滑但有紧致影响函数(次线性化允许)。
  2. 高维Gaussian approximation:用于极值型统计量分布逼近。工具是Lindeberg方法(对最大型统计量的增量的差替换)、结合Slepian引理anti-concentration不等式(防止Gaussian max分布退化:它需要极限涉事保持在非退化的水平)。
  3. Rademacher wild bootstrap:用作不需要显式协方差矩阵估计的分位数恢复。这里需要条件验证”赖于“bootstrap version of Gaussian coupling”」——也就是证明用Rademacher随机符号乘以线性影响函数ψ̂所得到的bootstrap测试统计量,其条件分位数一致逼近原测试的零假设分位数。这个里利用的条件概率版本CCK(bootstrap传来的耦合)。

真实例子与应用

  • 数据:乳腺癌基因表达数据集(The Cancer Genome Atlas, TCGA)——包含多种乳腺癌亚型的RNA-Seq表达量。论文给出了下列场景的详细应用:
    • 任务:比较三种主要亚型(Basal、Her2、LumA)之间的基因表达位置差异(即检验三个亚组的几何中位数是否全等)。
    • 数据集特性:p = 1000个基因(高维),N = 108个样本(不可忽略的离群点存在,如某些基因在某些样本中的表达量爆高)。
    • 他们跑完整的MANOVA方法:对每个基因分量做单变量Mann-Whitney事後检验?实际上是做全部关于MA在基因上显著性的判断(用多个检验校正)。
  • 怎么做
    (1) 对 X_{k,i]} 按基因标准化?不做标准化?但通常有log2变换。
    (2) 用拟合的几何中位数拟合组内的中位数。
    (3) 计算 T_GM = max_j 标准化diff
    (4) 通过wild bootstrap获得拒绝域。
    (5) 若拒绝H0,则进行事后分析:对每个j单个看 |µ̂₁ⱼ - µ̂₂ⱼ|,选出哪些基因差异大解释成潜在生物标志物。
  • 结果
    • paper报告说,在显著性水平0.05下,几何中位数检验拒绝了三个亚组位置全等H0(p值 < 0.001)。但均值最大型检验也拒绝了,不过他们的检验产生的拒绝域边界的判别能力有些不同(显著性和某些基因落在模式数上的差异)。
    • 测试了在人为注入outlier的扰动数据下,自身检验的p值变化平稳(≤0.02变化),而均值检验p值从0.001飙到0.2以上(丧失检验力)。
  • 结论例子想说明:直觉上展示了鲁棒性对实际(高离群率)数据集的必要性,这属于验证理论(特别是对size的鲁棒性)的应用实例。

🔎 结论是否比证明窄

  • 一段可能的窄界定:在假设(A2)中,要求 4+δ 阶矩存在(相当于矩条件相当严格)。这种情况下对整个检验power的理论结果依赖于有限矩假设。但论文在讨论与应用中得出结论声称“所提出的方法对厚尾分布(如Cauchy)也是稳健的”,但这是从蒙特卡洛模拟(设计为t4分布而非Cauchy)展示的,文中并未严格证明在Cauchy分布(矩不存在)下几何中位数检验的Gaussian approximation仍然一致。此处存在一个结论推广超出严格证明的跨度。
  • 另一处:wild bootstrap定理保证分位数一致逼近,但这只在“线性化版本”上证明。而对于原统计量(不取线性展开近似)的wild bootstrap——直接在引导数据上重新估计µ̂作者没有去证实,但随意在模拟里用某种重采样(直接起作用的?),证明可能仅对线性近似版本足矣,但文章在练习题里采用了完整µ̂,这个gap事实上没有被理论涵盖。

四、开放问题(点到为止)

  1. 几何中位数能否扩展到检验“几个组的协方差/相关性结构”差异? 方向:几何中位数概念本身已扩至对称矩阵空间(Riemannian中位数),可以检验p>n下的协方差同质性。论文未做任何这方面的延伸,只在limitation中提到这是未来工作之一。这条gaps直接从Section 6(Discussion)得证。
  2. 检验power的下界和最优性:本文的检验在备择假设下有检测阈值(常数倍√(log p/N)),但对最小可检测信号强度是否达到minimax最优性(对稀疏备选)没有讨论。这是一个开放问题(用高维minimax论证近期在这个问题下做分离的分析)。这不难从定理2的分量差异条件出发推导界线并匹配已知均值检验最优检测边界,看几何中位数是否有损失。
  3. 对非椭圆分布下的ROC曲线比较:在模拟中数据分布包括正态混合、多元t分布,但这些都是在特定对称假设下。对于高度非对称(如Poisson基因计数)数据,Gaussian approximation可能会退化。验证这个条件的充分性是什么?可能的拓展是使用更加基于Edgeworth展开的修正。这个开放问题可以从Theorem 1的尾部条件向下追查。
  4. 计算成本与几何中位数bootstrap变体的加速:当p超过数万、样本量也大时,Weiszfeld算法的复杂度(每次全数据梯度步O(pN))不可忽视。是否可以不依赖全量数据子集(如随机投影)或低精度首次迭代然后修正的偏差?该问题是技术性的、直接联系到论文wild bootstrap的理论框架——但不本质。它在论文Discussion部分明确提到“calculating geometric median many times is computationally expensive”。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论