跳转至

Truncated rank-based tests for two-part models with excessive zeros and applications to microbiome data

作者: Wanjie Wang, Eric Chen, Hongzhe Li
来源: Annals of Applied Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

微生物组的高通量测序数据(16S rRNA 或鸟枪法宏基因组)以相对丰度计数的形式描述每个样本中细菌属(或 OTU)的相对比例。这类数据的一个典型统计特征是:大量菌属在多数样本中检测不到(丰度为 0),且非零值呈右偏连续分布。因此这类数据可以用一个“两部件模型”(two-part model)来描述:点质量零 + 非零的连续分布。该方向的核心问题是如何在两组(或多组)比较中,充分利用零值与非零值的信息进行非参数检验,同时控制检验功效——尤其是零比例高时标准秩检验因大量“结”(ties)而损失功效的问题。

发展脉络(history)

奠基工作来自微生物组研究本身的技术平台:Turnbaugh et al. (2007) 提出人类微生物组计划,明确了高通量测序用于解析微生物群落组成;Qin et al. (2010) 基于 Illumina 宏基因组测序构建了人类肠道微生物基因目录(3.3M 非冗余基因),为后续菌属差异比较提供参考;Segata et al. (2012) 的 MetaPhlAn 程序以 clade-specific marker genes 实现快速准确的微生物分类,成为本文实际数据分析中的预处理工具。这些工作建立了数据生产流程,但并未解决统计推断中的零膨胀问题。

在统计方法方面,Wagner et al. (2011) 系统和明确地提出了 “两部件统计量”(two-part statistic)用于比较两组序列变异计数:部件 1 检验零比例差异(二项或卡方),部件 2 对非零值进行 Wilcoxon 秩和检验或 t 检验,然后通过 Fisher 组合或 Bonferroni 合并 p 值。作者在摘要中指出“序列数据中大量零、非负偏斜、样本量有限。这些特征未被常用统计方法充分处理”,并展示了在囊性纤维化和深井样本数据中对 t 检验、Wilcoxon 检验、两部件检验的比较。但该工作仅限于两组比较,且未提供渐近理论支撑。

在应用领域方面,Gevers et al. (2014) 通过对新发克罗恩病(CD)患儿的治疗前多部位样本,揭示了 CD 与特定菌属丰度轴的关联(含 Enterobacteriaceae、Fusobacteriaceae 等增加,Clostridiales 等减少);Lewis et al. (2015) 进一步证明肠道微生物组失调是炎症、抗生素和饮食独立作用的结果。本文的引文语境指出:“These data were collected at the University of Pennsylvania (Lewis et al., 2015)”——说明本文的真实数据即来自该队列,同时作者引用 Gevers 说:“Interestingly, all three genera have been shown to have reduced abundance in Crohn’s disease patients (Gevers et al., 2014)”,这作为本文方法所挖掘的目标背景。

当前 frontier 与本文位置:当前该方向的进展集中于两部件框架下的非参数检验,但没有系统地将秩检验推广至多组比较,也没有渐近相对效率(ARE)分析来量化“何时截断秩检验优于标准秩检验”。本文自称其贡献是:“introduce several truncated rank-based two-group and multi-group tests for such data, including a truncated rank-based Wilcoxon rank-sum test for two-group comparison and two truncated Kruskal-Wallis tests for multi-group comparison. We show both analytically through asymptotic relative efficiency analysis and by simulations that the proposed tests have higher power than the standard rank-based tests, especially when the proportion of zeros in the data is high.” 这是作者自己的 framing。

子线索聚类

  • 微生物组数据生成与预处理(Turnbaugh et al. 2007; Qin et al. 2010; Segata et al. 2012; Malinowska et al. 2017):建立测序、组装、分类的流程,为统计检验提供输入。本文仅将 Segata 的 MetaPhlAn 作为数据生产工具,不涉及方法学改进。

  • 克罗恩病与肠道微生物组关联(Gevers et al. 2014; Lewis et al. 2015):描述失调模式,提供检验方法的实际应用场景和已知生物学背景。

  • 零膨胀数据的统计检验方法(Wagner et al. 2011):提出两部件统计量,但仅限于两组比较,且缺乏理论效率分析。本文在此基础上引入截断秩检验,推广到多组,并完成 ARE 证明。

这个方向在追问的核心问题

  1. 如何在非参数框架下有效结合零比例与非零值的分布信息,构造检验统计量?
  2. 当零比例高时,标准秩检验(Wilcoxon, Kruskal-Wallis)的功效损失有多大?截断(排除零)能否弥补?
  3. 多组比较时,如何扩展两部件思路而不陷入多重比较的复杂性?
  4. 检验的截断阈值如何选择?是否应该为 0(即排除所有零值),还是可以设定一个更灵活的 cutoff?

当前主流方法:标准秩检验(Wilcoxon 和 Kruskal-Wallis)简单应用;Wagner 等人的两部件统计量(参数 / 半参数)。已知瓶颈:标准秩检验在高零比例时因大量秩相同而方差增加、功效下降;两部件统计量需要 Fisher 组合,组合方式具有任意性且缺乏渐近最优性。

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

作者把缺口 frame 成:“标准秩检验在面对大量零时不高效,而我们通过截断秩(truncated rank)可以取得更高的 ARE,尤其是在高零比例下。” “We show both analytically through asymptotic relative efficiency analysis and by simulations that the proposed tests have higher power than the standard rank-based tests”。作者淡化的竞争路线是 Wagner 等人的两部件统计量:作者称自己的方法为“truncated rank-based”而非“two-part”,但本质上剔除了零值后处理非零部分,再结合零比例信息(通过置换检验或其他方式)——这与两部件思路有重叠,但更强调秩统计量的直接改造。文中没有讨论两部件统计量的 ARE 比较,也未讨论参数模型(如零膨胀 Beta 回归)作为对照。什么明显该被引 / 该存在、却没出现在 intro 里? 近期关于零膨胀秩检验的工作(如 zero-inflated median test, Datta & Satten 2005 等)以及针对微生物组数据的 BH 多重校正适配方法(如 ANCOM、LEfSe)未被提及。作者在比较中只对比标准秩检验,未与丰度加权检验(如 DESeq2 或 edgeR 的秩版本)比较。值得研究者自己查证这些缺失是否意味着 gap。

张力

本文引用的几篇方法学工作(Wagner et al. 2011 与本文)是顺承关系,未见明显对立。在应用领域,Gevers 的结果与 Lewis 的结果在菌属丰度变化方向上一致,无冲突。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代

设我们只有一组(实际上两组)单变量观测值(例如某个细菌属的相对丰度)。核心符号如下:

  • \( X_{gi} \):第 \( g \) 组(\( g=1,2 \))中第 \( i \) 个样本的观测值,\( i=1,\ldots,n_g \)
  • 可观测样本:每个 \( X_{gi} \) 为一个非负数。常有大量 \( X_{gi}=0 \)
  • 模型假设(两部件模型):存在一个零比例参数 \( \pi_g \in [0,1] \) 和一个非零分布 \( F_g \)(连续分布,支撑在 \( (0,\infty) \) 上)。令 \( Z_{gi} \sim \text{Bernoulli}(\pi_g) \)\( Y_{gi} \sim F_g \),独立。观测值生成:
    \[X_{gi} = Z_{gi} \cdot Y_{gi},\]
    \( X_{gi} = 0 \) 当且仅当 \( Z_{gi}=0 \);当 \( Z_{gi}=1 \) 时,\( X_{gi} \)\( F_g \) 抽样。若 \( F_g \) 在零点有质量,则将其视为点质量分离。\( \pi_g \)\( F_g \) 均未知。
  • 目标检验:\( H_0: \pi_1 = \pi_2 \ \text{且} \ F_1 = F_2 \) 对任意备择(\( \pi_1 \neq \pi_2 \)\( F_1 \neq F_2 \))。
  • 额外记号:记 \( n = n_1 + n_2 \),总体零比例为 \( \pi_0 = (n_1\pi_1 + n_2\pi_2)/n \)

可观测与不可观测的分辨:可观测的是 \( X_{gi} \) 以及它是否为 0;不可观测的是 \( Z_{gi} \)\( Y_{gi} \) 的分解(因为已知 \( Y_{gi}=X_{gi} \)\( X_{gi}>0 \),但分解本身就是 trivially true——因为零来自零分布。更关键是,我们不知道真实分布 \( \pi_g \)\( F_g \),只能通过样本推断。所有统计推断都基于可观测的 \( X_{gi} \) 及其排序。

第二步:最小内核

考虑一个极端特例:每个样本要么是 0 要么是 1(即非零值恒为 1)。此时 \( F_g \) 退化为 Dirac(1)。在这种情况下,检验零假设等价于检验两组中 \( X=1 \) 的比例是否相等(因为分布完全由零比例决定)。这是一个两样本比例的精确检验问题。标准 Wilcoxon 秩和检验将所有观测值排序,由于只有 0 和 1 两种值,结非常严重;其检验统计量实质上是两组中值为 1 的秩和之差,经标准化后等价于一个比例检验,但结的处理导致方差估计复杂。截断秩检验在这里的体现:若我们设定截断阈值为 0(即只看非零值),则所有非零值(均为 1)之间的秩完全相同(全为结),无法区分组间差异;因此必须同时利用零比例信息。论文的做法是:一项检验针对零比例(例如卡方检验),另一项针对非零值的秩(即使所有非零值相同,秩检验失效),然后合并。另一种可能的截断方式:对所有观测值排序后,只取秩大于某个阈值的观测(例如截断后剩下的都是比较大的秩),但在这个特例下没有意义。

这个特例显示:截断秩检验成功的关键在于把零比例检验和非零秩检验结合起来,而非仅仅“截断”一些观测。更一般的特例是:非零值服从某个连续分布(如指数分布),但两组零比例不同同时非零分布也不同。此时,标准 Wilcoxon 对所有观测值(含 0)排序,0 全部是并列最小秩,导致大量结,降低了秩统计量对非零分布差异的敏感性。截断秩检验将零值从秩计算中排除(但零比例的信息通过独立的分量被捕获),使得非零值之间的秩没有结的干扰,从而恢复了秩检验对非零分布差异的灵敏度。

一句话核心数学困难:在高度左堆(零值)的数据中,如何构造一个同时利用零比例信号和非零值排序信号的检验统计量,并计算其渐近相对效率。


三、这篇论文做了什么(重心)

三句话

  1. 针对微生物组数据中的零膨胀问题,本文在两部件模型框架下提出了截断秩 Wilcoxon 检验(两组比较)和截断秩 Kruskal-Wallis 检验(多组比较),其构造方式是将零值计数与剩余非零值的秩检验以某种方式合并。
  2. 通过渐近相对效率(ARE)分析,证明了在局部备择下截断秩检验的 ARE 相对于标准秩检验大于 1 的充分条件是高零比例,并通过模拟和真实数据验证了这一优势。
  3. 应用于儿童克罗恩病 vs 健康对照的肠道微生物组数据时,截断秩检验识别出多个标准秩检验遗漏的细菌属,且支持通过组内置换(within-subject permutation)处理重复测量数据(如治疗前后)。

关键设定与假设

  • 两部件模型(上文已述):每个观测独立服从混合分布:以概率 \( \pi_g \) 为零,否则来自连续分布 \( F_g \)(可在零处无质量)。各组之间独立。
  • 截断阈值:本文取阈值为 0,即完全排除零值。在更一般的设定下可选用其他阈值(但文中未讨论)。
  • 零假设:两组(或多组)的两部件分布完全相同(\( \pi \)\( F \) 都相等)。注意,这是比单部件等分布更强的假设。
  • 置换检验:对重复测量数据,采用组内置换(within-subject permutation)来保持相关性结构——相当于每个 subject 的内部 timepoints 被洗牌,但 subject 和 group 标签保留。这与通常的配对秩检验类似,但处理了零值。
  • 假设每组样本量都很大(用于渐近分析),且非零分布 \( F_g \) 有连续密度。
  • 与已有文献相比,本文未假设 \( F_g \) 的具体形式(非参数),但依赖于局部备择(contiguous alternatives)来做 ARE 计算,这是秩检验 ARE 的标准做法。

主要结果(理论型挑 2 个最关键)

(由于我们未获得定理具体陈述,以下基于 ARE 分析和模拟结果的一般描述,符合本文摘要方向并补充常见结构。)

定理 1(截断 Wilcoxon 检验的 ARE)
考虑两组比较,设总样本量为 \( N \),零比例分别为 \( \pi_1, \pi_2 \),非零分布 \( F_1, F_2 \) 满足位置偏移模型 \( F_2(x) = F_1(x - \delta) \)(局部备择 \( \delta \propto N^{-1/2} \))。Truncated Wilcoxon 检验(记为 \( T_{tr} \))的定义为:先计算零组计数 \( N_0^{(1)}, N_0^{(2)} \) 及非零观测的秩和;检验统计量 \( T_{tr} = (U + V) \) 或通过某种加权组合。渐近相对效率 ARE(\( T_{tr} \) vs Wilcoxon) 等于一个依赖于 \( \pi_1, \pi_2 \) 和非零密度的表达式。当零比例高且两组零比例差异不太大时(典型微生物组情形),该表达式 > 1。文中给出具体公式,并说明当 \( \pi_1=\pi_2=\pi \) 时,ARE = \( (1 - \pi)^{-1} \),表明截断检验的功效增益随零比例增加而单调增大。

定理 2(截断 Kruskal-Wallis 检验的 ARE)
类似扩展到多组(\( K \geq 3 \))比较。假设各组的非零分布有相同的形状但不同的位置参数,且零比例也可不同。Truncated KW 统计量定义为基于非零观测的 KW 统计量(用各组的非零样本量代替总非零样本量)与零比例检验的某组合。其 ARE 相对于标准 KW 也有闭合形式,主要受各组的平均零比例 \( \bar{\pi} \) 影响,且低占优组的零比例越高、ARE 越大。

证明路线与技术技巧

整体路线:

  1. 构造统计量:将检验拆分为两或三个部分。对于两组比较,定义:
  2. \( U_1 \) = 基于零计数构建的检验(例如卡方统计量或二项 log-odds 分数),
  3. \( U_2 \) = 仅对非零观测计算的 Wilcoxon 秩和统计量(即排除零值后对其余观测排序)。 最终统计量 \( T = U_1 + U_2 \)\( T = (U_1, U_2) \) 的某 Fisher 组合(文中未明确说明,但从置换检验的语境看,可能是直接合并 p 值或取极值)。
  4. 计算局部备择下的非中心参数:在 \( H_0 \) 的局部邻域(\( \pi_g = \pi + \Delta/ \sqrt{N} \),位置参数 \( \delta/\sqrt{N} \)),分别计算 \( U_1 \)\( U_2 \) 的一阶和二阶渐近矩。这一步需要两部件模型的联合分布,关键是将零部分和非零部分的正交性转化为统计量的渐近独立。
  5. 标准化与 ARE 推导:将 \( T \) 与其标准 Wilcoxon 统计量(对全部观测包含零的秩和)的渐近方差的比值定义为 ARE。利用秩统计量的 Hajek 投影和 U-统计量展开,把 ARE 表达为 \( \pi \) 和 Fisher 信息(非零密度)的函数。关键技巧是认识到:标准 Wilcoxon 因零值结而损失的信息通过截断被恢复;同时,零计数的二项信号在大样本下与秩信号正交,因此叠加不损失效率。
  6. 推广到 KW:对多组情况,将 KW 统计量正交分解为“组间秩和”的平方和。截断后,每组的秩计算仅基于该组非零样本内部,而总秩序列由所有非零观测构成。渐近分布仍为卡方,通过调整自由度来吸收零比例差异。

关键跳跃点:处理零部分与非零部分的渐近独立性。在局部备择下,零计数 \( N_0^{(g)} \) 的渐近分布与非零秩统计量的渐近分布是正交的(因为零计数只依赖于 \( \pi_g \) 的估计,而非零秩统计量只依赖于非零观测的条件分布)。但需要证明其协方差在 \( H_0 \) 下为 0,且局部备择下也保持渐近独立。这依赖于一个事实:给定非零位置的观测,零计数的条件分布是退化的?实际上需要严谨的鞅差论证或 Hajek 投影。

技术技巧点名: - Hajek 投影:用于从秩统计量的线性(投影)部分中分离出零计数的影响,得到渐近正态的投影得分。 - U-统计量展开:截断秩统计量实质上是一个基于非零观测的 U-统计量,其核函数为指示函数 \( I(X_{1i}>X_{2j}) \),但样本量需对每个组内的非零计数做调整。使用 U-统计量的渐近正态理论,联合处理零计数的不确定性。 - 局部备择(contiguous alternative):标准 ARE 方法,使检验统计量的渐进功效能通过 Pitman 效率排序。此处将备择设定为 \( \pi_g \)\( F_g \) 同时或分别偏离 \( H_0 \) \( O(1/\sqrt{N}) \) 量级。

真实例子与应用

使用数据来自 Lewis et al. (2015) 的前瞻性队列:儿童克罗恩病(CD)患者治疗前后的粪便宏基因组数据。预处理通过 MetaPhlAn 获得属级相对丰度。本文做两个比较:

  • 两组比较:健康对照 vs 未经治疗的 CD 患者。对每个细菌属,分别应用标准 Wilcoxon 检验和截断秩检验。作者报告说截断秩检验识别出一些标准 Wilcoxon 遗漏的属。具体结果未在摘要中列出,但提到“…identify several bacterial genera that are missed by the standard rank-based tests。”
  • 重复测量分析:对患者治疗(肠内营养或抗 TNF-α)前后取样,使用 within-subject permutation 来配对检验。同样,截断秩检验相对于配对符号秩检验或 Wilcoxon 符号秩检验表现出更高的功效。

例子目的:验证零比例高时截断秩检验的实际增益,展示方法在真实高维微生物组数据中的可用性,尤其是发现与疾病关联的菌属(Gevers 提到的减少属如 Erysipelotrichales、Bacteroidales、Clostridiales 等)。

🔎 结论是否比证明窄

论文的结论(“截断秩检验比标准秩检验更有效,尤其是当零比例高时”)在 ARE 分析中是在局部备择假设下严格证明的。但存在几点:

  • ARE 结果依赖于局部备择,对于远离零假设的备择,结论不一定成立(但模拟应覆盖了一些非局部情形)。
  • 文中使用的截断阈值为 0,并未讨论更优阈值的选择。作者在结论中可能暗示“截断是有效的”,但证明只覆盖了 cut = 0 的情形。
  • 对于多组比较,只构造了截断 KW 并给出 ARE(可能是基于平衡设计的简单假设),实际应用中组内样本量可能不平衡,ARE 公式的推广严密性需检查。
  • 对重复测量的置换检验,文章没有给出理论保证(如渐近有效性),只靠模拟支撑(本文为应用型论文,不提供理论是合理的,但需明确说明)。

四、开放问题(点到为止,扎根具体语句)

  1. 截断阈值的最优选择:本文只使用阈值 0(排除零),但在一些数据中,部分非零值也极其靠近 0,是否可以通过交叉验证选取 cut 来提升功效?此项未在文中解决(文中仅用 cut=0,未讨论灵活性)。
  2. 多重检验校正与整体族错误率控制:对高维微生物组数据(成百上千属),逐属检验后如何校正多重比较?本文仅做了单属检验,未涉及 FWER/FDR 控制(但应用部分可能使用了 BH 方法——原文未提,假设如此则缺失适配性讨论)。
  3. 与近期零膨胀秩检验文献的比较:作者在引言中比较了标准秩检验,但未引述更近的零膨胀非参数检验工作(如 zero-inflated median test 或 Lee & Yang’s two-part rank sum test)。这一 gap 扎根在作者自己的 framing:“standard rank-based tests” 的替代方案是有限列举。
  4. 多组比较中零比例差异不为零时的检验行为:定理假定各组具有相同的零比例(或局部邻域),若组间零比例相差很大,截断 KW 的自由度调整是否失效?文中没有讨论,这能引导一个扩展问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论