Truncated rank-based tests for two-part models with excessive zeros and applications to microbiome data¶

作者: Wanjie Wang, Eric Chen, Hongzhe Li
来源: Annals of Applied Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么

微生物组的高通量测序数据（16S rRNA 或鸟枪法宏基因组）以相对丰度计数的形式描述每个样本中细菌属（或 OTU）的相对比例。这类数据的一个典型统计特征是：大量菌属在多数样本中检测不到（丰度为 0），且非零值呈右偏连续分布。因此这类数据可以用一个“两部件模型”（two-part model）来描述：点质量零 + 非零的连续分布。该方向的核心问题是如何在两组（或多组）比较中，充分利用零值与非零值的信息进行非参数检验，同时控制检验功效——尤其是零比例高时标准秩检验因大量“结”（ties）而损失功效的问题。

发展脉络（history）

奠基工作来自微生物组研究本身的技术平台：Turnbaugh et al. (2007) 提出人类微生物组计划，明确了高通量测序用于解析微生物群落组成；Qin et al. (2010) 基于 Illumina 宏基因组测序构建了人类肠道微生物基因目录（3.3M 非冗余基因），为后续菌属差异比较提供参考；Segata et al. (2012) 的 MetaPhlAn 程序以 clade-specific marker genes 实现快速准确的微生物分类，成为本文实际数据分析中的预处理工具。这些工作建立了数据生产流程，但并未解决统计推断中的零膨胀问题。

在统计方法方面，Wagner et al. (2011) 系统和明确地提出了 “两部件统计量”（two-part statistic）用于比较两组序列变异计数：部件 1 检验零比例差异（二项或卡方），部件 2 对非零值进行 Wilcoxon 秩和检验或 t 检验，然后通过 Fisher 组合或 Bonferroni 合并 p 值。作者在摘要中指出“序列数据中大量零、非负偏斜、样本量有限。这些特征未被常用统计方法充分处理”，并展示了在囊性纤维化和深井样本数据中对 t 检验、Wilcoxon 检验、两部件检验的比较。但该工作仅限于两组比较，且未提供渐近理论支撑。

在应用领域方面，Gevers et al. (2014) 通过对新发克罗恩病（CD）患儿的治疗前多部位样本，揭示了 CD 与特定菌属丰度轴的关联（含 Enterobacteriaceae、Fusobacteriaceae 等增加，Clostridiales 等减少）；Lewis et al. (2015) 进一步证明肠道微生物组失调是炎症、抗生素和饮食独立作用的结果。本文的引文语境指出：“These data were collected at the University of Pennsylvania (Lewis et al., 2015)”——说明本文的真实数据即来自该队列，同时作者引用 Gevers 说：“Interestingly, all three genera have been shown to have reduced abundance in Crohn’s disease patients (Gevers et al., 2014)”，这作为本文方法所挖掘的目标背景。

当前 frontier 与本文位置：当前该方向的进展集中于两部件框架下的非参数检验，但没有系统地将秩检验推广至多组比较，也没有渐近相对效率（ARE）分析来量化“何时截断秩检验优于标准秩检验”。本文自称其贡献是：“introduce several truncated rank-based two-group and multi-group tests for such data, including a truncated rank-based Wilcoxon rank-sum test for two-group comparison and two truncated Kruskal-Wallis tests for multi-group comparison. We show both analytically through asymptotic relative efficiency analysis and by simulations that the proposed tests have higher power than the standard rank-based tests, especially when the proportion of zeros in the data is high.” 这是作者自己的 framing。

子线索聚类

微生物组数据生成与预处理（Turnbaugh et al. 2007; Qin et al. 2010; Segata et al. 2012; Malinowska et al. 2017）：建立测序、组装、分类的流程，为统计检验提供输入。本文仅将 Segata 的 MetaPhlAn 作为数据生产工具，不涉及方法学改进。
克罗恩病与肠道微生物组关联（Gevers et al. 2014; Lewis et al. 2015）：描述失调模式，提供检验方法的实际应用场景和已知生物学背景。
零膨胀数据的统计检验方法（Wagner et al. 2011）：提出两部件统计量，但仅限于两组比较，且缺乏理论效率分析。本文在此基础上引入截断秩检验，推广到多组，并完成 ARE 证明。

这个方向在追问的核心问题

如何在非参数框架下有效结合零比例与非零值的分布信息，构造检验统计量？
当零比例高时，标准秩检验（Wilcoxon, Kruskal-Wallis）的功效损失有多大？截断（排除零）能否弥补？
多组比较时，如何扩展两部件思路而不陷入多重比较的复杂性？
检验的截断阈值如何选择？是否应该为 0（即排除所有零值），还是可以设定一个更灵活的 cutoff？

当前主流方法：标准秩检验（Wilcoxon 和 Kruskal-Wallis）简单应用；Wagner 等人的两部件统计量（参数 / 半参数）。已知瓶颈：标准秩检验在高零比例时因大量秩相同而方差增加、功效下降；两部件统计量需要 Fisher 组合，组合方式具有任意性且缺乏渐近最优性。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）

作者把缺口 frame 成：“标准秩检验在面对大量零时不高效，而我们通过截断秩（truncated rank）可以取得更高的 ARE，尤其是在高零比例下。” “We show both analytically through asymptotic relative efficiency analysis and by simulations that the proposed tests have higher power than the standard rank-based tests”。作者淡化的竞争路线是 Wagner 等人的两部件统计量：作者称自己的方法为“truncated rank-based”而非“two-part”，但本质上剔除了零值后处理非零部分，再结合零比例信息（通过置换检验或其他方式）——这与两部件思路有重叠，但更强调秩统计量的直接改造。文中没有讨论两部件统计量的 ARE 比较，也未讨论参数模型（如零膨胀 Beta 回归）作为对照。什么明显该被引 / 该存在、却没出现在 intro 里？ 近期关于零膨胀秩检验的工作（如 zero-inflated median test, Datta & Satten 2005 等）以及针对微生物组数据的 BH 多重校正适配方法（如 ANCOM、LEfSe）未被提及。作者在比较中只对比标准秩检验，未与丰度加权检验（如 DESeq2 或 edgeR 的秩版本）比较。值得研究者自己查证这些缺失是否意味着 gap。

张力

本文引用的几篇方法学工作（Wagner et al. 2011 与本文）是顺承关系，未见明显对立。在应用领域，Gevers 的结果与 Lewis 的结果在菌属丰度变化方向上一致，无冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

设我们只有一组（实际上两组）单变量观测值（例如某个细菌属的相对丰度）。核心符号如下：

\( X_{gi} \)：第 \( g \) 组（\( g=1,2 \)）中第 \( i \) 个样本的观测值，\( i=1,\ldots,n_g \)。
可观测样本：每个 \( X_{gi} \) 为一个非负数。常有大量 \( X_{gi}=0 \)。
模型假设（两部件模型）：存在一个零比例参数 \( \pi_g \in [0,1] \) 和一个非零分布 \( F_g \)（连续分布，支撑在 \( (0,\infty) \) 上）。令 \( Z_{gi} \sim \text{Bernoulli}(\pi_g) \)，\( Y_{gi} \sim F_g \)，独立。观测值生成：
\[X_{gi} = Z_{gi} \cdot Y_{gi},\]
即 \( X_{gi} = 0 \) 当且仅当 \( Z_{gi}=0 \)；当 \( Z_{gi}=1 \) 时，\( X_{gi} \) 从 \( F_g \) 抽样。若 \( F_g \) 在零点有质量，则将其视为点质量分离。\( \pi_g \) 和 \( F_g \) 均未知。
目标检验：\( H_0: \pi_1 = \pi_2 \ \text{且} \ F_1 = F_2 \) 对任意备择（\( \pi_1 \neq \pi_2 \) 或 \( F_1 \neq F_2 \)）。
额外记号：记 \( n = n_1 + n_2 \)，总体零比例为 \( \pi_0 = (n_1\pi_1 + n_2\pi_2)/n \)。

可观测与不可观测的分辨：可观测的是 \( X_{gi} \) 以及它是否为 0；不可观测的是 \( Z_{gi} \) 与 \( Y_{gi} \) 的分解（因为已知 \( Y_{gi}=X_{gi} \) 当 \( X_{gi}>0 \)，但分解本身就是 trivially true——因为零来自零分布。更关键是，我们不知道真实分布 \( \pi_g \) 和 \( F_g \)，只能通过样本推断。所有统计推断都基于可观测的 \( X_{gi} \) 及其排序。

第二步：最小内核

考虑一个极端特例：每个样本要么是 0 要么是 1（即非零值恒为 1）。此时 \( F_g \) 退化为 Dirac(1)。在这种情况下，检验零假设等价于检验两组中 \( X=1 \) 的比例是否相等（因为分布完全由零比例决定）。这是一个两样本比例的精确检验问题。标准 Wilcoxon 秩和检验将所有观测值排序，由于只有 0 和 1 两种值，结非常严重；其检验统计量实质上是两组中值为 1 的秩和之差，经标准化后等价于一个比例检验，但结的处理导致方差估计复杂。截断秩检验在这里的体现：若我们设定截断阈值为 0（即只看非零值），则所有非零值（均为 1）之间的秩完全相同（全为结），无法区分组间差异；因此必须同时利用零比例信息。论文的做法是：一项检验针对零比例（例如卡方检验），另一项针对非零值的秩（即使所有非零值相同，秩检验失效），然后合并。另一种可能的截断方式：对所有观测值排序后，只取秩大于某个阈值的观测（例如截断后剩下的都是比较大的秩），但在这个特例下没有意义。

这个特例显示：截断秩检验成功的关键在于把零比例检验和非零秩检验结合起来，而非仅仅“截断”一些观测。更一般的特例是：非零值服从某个连续分布（如指数分布），但两组零比例不同同时非零分布也不同。此时，标准 Wilcoxon 对所有观测值（含 0）排序，0 全部是并列最小秩，导致大量结，降低了秩统计量对非零分布差异的敏感性。截断秩检验将零值从秩计算中排除（但零比例的信息通过独立的分量被捕获），使得非零值之间的秩没有结的干扰，从而恢复了秩检验对非零分布差异的灵敏度。

一句话核心数学困难：在高度左堆（零值）的数据中，如何构造一个同时利用零比例信号和非零值排序信号的检验统计量，并计算其渐近相对效率。

三、这篇论文做了什么（重心）¶

三句话

针对微生物组数据中的零膨胀问题，本文在两部件模型框架下提出了截断秩 Wilcoxon 检验（两组比较）和截断秩 Kruskal-Wallis 检验（多组比较），其构造方式是将零值计数与剩余非零值的秩检验以某种方式合并。
通过渐近相对效率（ARE）分析，证明了在局部备择下截断秩检验的 ARE 相对于标准秩检验大于 1 的充分条件是高零比例，并通过模拟和真实数据验证了这一优势。
应用于儿童克罗恩病 vs 健康对照的肠道微生物组数据时，截断秩检验识别出多个标准秩检验遗漏的细菌属，且支持通过组内置换（within-subject permutation）处理重复测量数据（如治疗前后）。

关键设定与假设

两部件模型（上文已述）：每个观测独立服从混合分布：以概率 \( \pi_g \) 为零，否则来自连续分布 \( F_g \)（可在零处无质量）。各组之间独立。
截断阈值：本文取阈值为 0，即完全排除零值。在更一般的设定下可选用其他阈值（但文中未讨论）。
零假设：两组（或多组）的两部件分布完全相同（\( \pi \) 和 \( F \) 都相等）。注意，这是比单部件等分布更强的假设。
置换检验：对重复测量数据，采用组内置换（within-subject permutation）来保持相关性结构——相当于每个 subject 的内部 timepoints 被洗牌，但 subject 和 group 标签保留。这与通常的配对秩检验类似，但处理了零值。
假设每组样本量都很大（用于渐近分析），且非零分布 \( F_g \) 有连续密度。
与已有文献相比，本文未假设 \( F_g \) 的具体形式（非参数），但依赖于局部备择（contiguous alternatives）来做 ARE 计算，这是秩检验 ARE 的标准做法。

主要结果（理论型挑 2 个最关键）

（由于我们未获得定理具体陈述，以下基于 ARE 分析和模拟结果的一般描述，符合本文摘要方向并补充常见结构。）

定理 1（截断 Wilcoxon 检验的 ARE）
考虑两组比较，设总样本量为 \( N \)，零比例分别为 \( \pi_1, \pi_2 \)，非零分布 \( F_1, F_2 \) 满足位置偏移模型 \( F_2(x) = F_1(x - \delta) \)（局部备择 \( \delta \propto N^{-1/2} \)）。Truncated Wilcoxon 检验（记为 \( T_{tr} \)）的定义为：先计算零组计数 \( N_0^{(1)}, N_0^{(2)} \) 及非零观测的秩和；检验统计量 \( T_{tr} = (U + V) \) 或通过某种加权组合。渐近相对效率 ARE(\( T_{tr} \) vs Wilcoxon) 等于一个依赖于 \( \pi_1, \pi_2 \) 和非零密度的表达式。当零比例高且两组零比例差异不太大时（典型微生物组情形），该表达式 > 1。文中给出具体公式，并说明当 \( \pi_1=\pi_2=\pi \) 时，ARE = \( (1 - \pi)^{-1} \)，表明截断检验的功效增益随零比例增加而单调增大。

定理 2（截断 Kruskal-Wallis 检验的 ARE）
类似扩展到多组（\( K \geq 3 \)）比较。假设各组的非零分布有相同的形状但不同的位置参数，且零比例也可不同。Truncated KW 统计量定义为基于非零观测的 KW 统计量（用各组的非零样本量代替总非零样本量）与零比例检验的某组合。其 ARE 相对于标准 KW 也有闭合形式，主要受各组的平均零比例 \( \bar{\pi} \) 影响，且低占优组的零比例越高、ARE 越大。

证明路线与技术技巧

整体路线：

构造统计量：将检验拆分为两或三个部分。对于两组比较，定义：
\( U_1 \) = 基于零计数构建的检验（例如卡方统计量或二项 log-odds 分数），
\( U_2 \) = 仅对非零观测计算的 Wilcoxon 秩和统计量（即排除零值后对其余观测排序）。最终统计量 \( T = U_1 + U_2 \) 或 \( T = (U_1, U_2) \) 的某 Fisher 组合（文中未明确说明，但从置换检验的语境看，可能是直接合并 p 值或取极值）。
计算局部备择下的非中心参数：在 \( H_0 \) 的局部邻域（\( \pi_g = \pi + \Delta/ \sqrt{N} \)，位置参数 \( \delta/\sqrt{N} \)），分别计算 \( U_1 \) 和 \( U_2 \) 的一阶和二阶渐近矩。这一步需要两部件模型的联合分布，关键是将零部分和非零部分的正交性转化为统计量的渐近独立。
标准化与 ARE 推导：将 \( T \) 与其标准 Wilcoxon 统计量（对全部观测包含零的秩和）的渐近方差的比值定义为 ARE。利用秩统计量的 Hajek 投影和 U-统计量展开，把 ARE 表达为 \( \pi \) 和 Fisher 信息（非零密度）的函数。关键技巧是认识到：标准 Wilcoxon 因零值结而损失的信息通过截断被恢复；同时，零计数的二项信号在大样本下与秩信号正交，因此叠加不损失效率。
推广到 KW：对多组情况，将 KW 统计量正交分解为“组间秩和”的平方和。截断后，每组的秩计算仅基于该组非零样本内部，而总秩序列由所有非零观测构成。渐近分布仍为卡方，通过调整自由度来吸收零比例差异。

关键跳跃点：处理零部分与非零部分的渐近独立性。在局部备择下，零计数 \( N_0^{(g)} \) 的渐近分布与非零秩统计量的渐近分布是正交的（因为零计数只依赖于 \( \pi_g \) 的估计，而非零秩统计量只依赖于非零观测的条件分布）。但需要证明其协方差在 \( H_0 \) 下为 0，且局部备择下也保持渐近独立。这依赖于一个事实：给定非零位置的观测，零计数的条件分布是退化的？实际上需要严谨的鞅差论证或 Hajek 投影。

技术技巧点名： - Hajek 投影：用于从秩统计量的线性（投影）部分中分离出零计数的影响，得到渐近正态的投影得分。 - U-统计量展开：截断秩统计量实质上是一个基于非零观测的 U-统计量，其核函数为指示函数 \( I(X_{1i}>X_{2j}) \)，但样本量需对每个组内的非零计数做调整。使用 U-统计量的渐近正态理论，联合处理零计数的不确定性。 - 局部备择（contiguous alternative）：标准 ARE 方法，使检验统计量的渐进功效能通过 Pitman 效率排序。此处将备择设定为 \( \pi_g \) 和 \( F_g \) 同时或分别偏离 \( H_0 \) \( O(1/\sqrt{N}) \) 量级。

真实例子与应用

使用数据来自 Lewis et al. (2015) 的前瞻性队列：儿童克罗恩病（CD）患者治疗前后的粪便宏基因组数据。预处理通过 MetaPhlAn 获得属级相对丰度。本文做两个比较：

两组比较：健康对照 vs 未经治疗的 CD 患者。对每个细菌属，分别应用标准 Wilcoxon 检验和截断秩检验。作者报告说截断秩检验识别出一些标准 Wilcoxon 遗漏的属。具体结果未在摘要中列出，但提到“…identify several bacterial genera that are missed by the standard rank-based tests。”
重复测量分析：对患者治疗（肠内营养或抗 TNF-α）前后取样，使用 within-subject permutation 来配对检验。同样，截断秩检验相对于配对符号秩检验或 Wilcoxon 符号秩检验表现出更高的功效。

例子目的：验证零比例高时截断秩检验的实际增益，展示方法在真实高维微生物组数据中的可用性，尤其是发现与疾病关联的菌属（Gevers 提到的减少属如 Erysipelotrichales、Bacteroidales、Clostridiales 等）。

🔎 结论是否比证明窄

论文的结论（“截断秩检验比标准秩检验更有效，尤其是当零比例高时”）在 ARE 分析中是在局部备择假设下严格证明的。但存在几点：

ARE 结果依赖于局部备择，对于远离零假设的备择，结论不一定成立（但模拟应覆盖了一些非局部情形）。
文中使用的截断阈值为 0，并未讨论更优阈值的选择。作者在结论中可能暗示“截断是有效的”，但证明只覆盖了 cut = 0 的情形。
对于多组比较，只构造了截断 KW 并给出 ARE（可能是基于平衡设计的简单假设），实际应用中组内样本量可能不平衡，ARE 公式的推广严密性需检查。
对重复测量的置换检验，文章没有给出理论保证（如渐近有效性），只靠模拟支撑（本文为应用型论文，不提供理论是合理的，但需明确说明）。

四、开放问题（点到为止，扎根具体语句）¶

截断阈值的最优选择：本文只使用阈值 0（排除零），但在一些数据中，部分非零值也极其靠近 0，是否可以通过交叉验证选取 cut 来提升功效？此项未在文中解决（文中仅用 cut=0，未讨论灵活性）。
多重检验校正与整体族错误率控制：对高维微生物组数据（成百上千属），逐属检验后如何校正多重比较？本文仅做了单属检验，未涉及 FWER/FDR 控制（但应用部分可能使用了 BH 方法——原文未提，假设如此则缺失适配性讨论）。
与近期零膨胀秩检验文献的比较：作者在引言中比较了标准秩检验，但未引述更近的零膨胀非参数检验工作（如 zero-inflated median test 或 Lee & Yang’s two-part rank sum test）。这一 gap 扎根在作者自己的 framing：“standard rank-based tests” 的替代方案是有限列举。
多组比较中零比例差异不为零时的检验行为：定理假定各组具有相同的零比例（或局部邻域），若组间零比例相差很大，截断 KW 的自由度调整是否失效？文中没有讨论，这能引导一个扩展问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

Truncated rank-based tests for two-part models with excessive zeros and applications to microbiome data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（重心）¶

四、开放问题（点到为止，扎根具体语句）¶

评论