跳转至

Testing for a difference in means of a single feature after clustering

作者: Yiqun T Chen, Lucy L Gao
来源: Biostatistics
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: Stanford University(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么 Post-selection inference(选择后推断,亦常称 Selective inference)要解决的根本统计问题是:当同一组数据既被用于“生成假设”(如选择变量、识别聚类、检测变点),又被用于“检验该假设”时,经典假设检验的 Type I error 会发生膨胀,p-value 失去频率派意义。该方向目前已有成熟的条件推断框架(条件化于选择事件),但在将选择事件从“低维/线性模型”推广到“高维/非线性/算法驱动选择”时,仍面临选择区域刻画困难与计算可行性两道硬墙。

发展脉络 - 奠基工作:Lee et al. (2013) 与 Fithian et al. (2014) 建立了 selective inference 的现代条件推断框架。前者针对 Lasso 提出了“条件化于变量选择事件”的精确推断,将选择事件表达为线性约束;后者提出了 selective Type I error 的概念(“仅在检验被执行时控制 Type I error”),并证明其与 sample splitting 具有类似直觉但更优的 power。 - 主要进展(变点与异常值):Jewell et al. (2019) 与 Hyun et al. (2018) 将 selective inference 推向变点检测,条件化于变点估计事件;Chen & Bien (2017) 推向异常值剔除后的推断。这些工作均依赖将算法的选择输出转化为数据空间上的多面体(Polytope,即有限个线性不等式的交集)。 - 主要进展(聚类):Gao et al. (2020) 首次将 selective inference 框架应用于层次聚类,条件化于“两个特定聚类被合并”的事件,证明了选择区域是 \(O(n^2)\) 个半平面的交集;Chen & Witten (2022) 将其推广至 k-means 聚类,条件化于 k-means 算法的中间迭代步骤。 - 当前 frontier 与本文位置:上述聚类推断工作均检验的是向量均值(即所有 \(p\) 个特征的均值差异是否为 0)。但在实际应用(如单细胞 RNA-seq)中,研究者往往只关心单一特征(某个基因)在两聚类间的差异。本文正是填补这一缺口:将 Gao (2020) 与 Chen & Witten (2022) 的框架从“向量均值检验”降维至“单一特征均值检验”,并维持有限样本下的 selective Type I error 控制与计算可行性。

子线索聚类 1. 算法驱动的多面体推断:Lee (2013), Gao (2020), Chen & Witten (2022), Jewell (2019)。核心:将算法(Lasso, 层次聚类, k-means, Binary Segmentation)的选择输出翻译成 \(Ax \le b\) 形式的多面体,再求 truncated normal 的 CDF。 2. 数据拆分与替代框架:Neufeld et al. (2022) 提出 count splitting(在 Poisson 假设下拆分计数数据),试图绕开多面体刻画的计算难题;但作者在 intro 引用中明确指出,sample splitting 在聚类场景下失效——对一部分数据聚类无法直接给出剩余数据的聚类标签(引用句:Chen and Witten [6], Gao et al. [10], Neufeld et al. [20])。 3. 聚类后差异检验的应用与修正:Hivert et al. (2022) 提出三种修正聚类后检验的方法;Aizarani et al. (2019) 代表了生物学家“先聚类、再差异表达分析”的标准流水线,是问题的应用源头。

这个方向在追问的核心问题 1. 选择事件的数学刻画:算法的输出如何精确表达为观测数据空间上的可计算区域?已知层次聚类与 k-means 的区域是 \(O(n^2)\) 个线性约束的交集,计算复杂度随 \(n\) 增长如何控制? 2. 条件推断的 Power 损耗:条件化于越多信息(如整个聚类树 vs. 仅最终两聚类),power 越低;如何条件化于“最少且必要”的信息以最大化 power? 3. 非高斯与高维设定:当前精确推断几乎全部依赖高斯假设与低维特征空间;当 \(p \gg n\) 或数据非高斯时,多面体与 truncated normal 的路线是否坍塌?

⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“现有聚类 selective inference 只检验向量均值,而实际应用(单细胞数据)需要检验单一特征均值”,从而让本文成为 Gao (2020) 与 Chen & Witten (2022) 的“显然的降维推广”。 - 被淡化或回避的竞争路线:作者在 intro 提及 Hivert et al. (2022) 时,仅以“While this manuscript is under preparation, Hivert et al. [13] proposed a related selective inference framework...”一笔带过,未详细对比两者的 power、假设要求或计算复杂度差异。此外,作者回避了高维 \(p \gg n\) 下多面体刻画可能失效的问题,整篇理论设定停留在固定 \(p\) 甚至 \(p=1\) 的单一特征检验。 - 缺失的引用:Intro 中未见对高维聚类推断(如基于随机矩阵理论的聚类检测界)或 semiparametric efficiency bound 在 post-selection 设定下的引用;也未见对多检验校正(FDR control post-clustering,如 Benjamini-Hochberg 在 selective p-value 上的适配)的系统性讨论,而这在单细胞差异表达分析中是不可或缺的下游步骤。

张力 未见明显对立引用。但存在平行开发的张力:Hivert et al. (2022) 与本文几乎同时攻击同一问题(单一特征聚类后检验),但技术路线不同(Hivert 提出三种检验,本文坚持多面体条件化)。这两篇的 power 对比与假设强弱对比,是研究者需要亲自去查证的证据。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代 - \(n\):样本量(观测数,如细胞数)。 - \(p\):特征数(如基因数)。本文核心设定中,检验针对单一特征,故实际推断维度可视为 \(1\),但聚类选择依赖全部 \(p\) 维数据。 - \(X \in \mathbb{R}^{n \times p}\):可观测数据矩阵。行 \(x_i \in \mathbb{R}^p\) 代表第 \(i\) 个观测的 \(p\) 维特征向量。 - \(x_j \in \mathbb{R}^n\):第 \(j\) 个特征(列向量),这是本文要检验的那个单一特征的样本。 - \(C_1, C_2\):由聚类算法(层次聚类或 k-means)作用于 \(X\) 后输出的两个聚类的索引集合。\(n_1 = |C_1|\), \(n_2 = |C_2|\)。 - \(\mu_{1j}, \mu_{2j}\):潜在参数——特征 \(j\) 在聚类 \(C_1\)\(C_2\) 下的真实均值。 - \(\mathcal{S}\):选择事件,即“聚类算法在数据 \(X\) 上输出恰好为 \(C_1, C_2\)(或包含 \(C_1, C_2\) 的特定分割)”这一事件在数据空间 \(\mathbb{R}^{n \times p}\) 中对应的区域。 - \(H_{0j}: \mu_{1j} = \mu_{2j}\):要检验的零假设。 - \(T_j\):检验统计量,通常取 \(T_j = \bar{x}_{1j} - \bar{x}_{2j}\)(两聚类在特征 \(j\) 上的样本均值差)。 - Selective Type I Error\(P_{H_{0j}}(\text{reject } H_{0j} \mid \mathcal{S}) \le \alpha\)。即在“我们确实选择了检验这两个聚类”的条件下,犯错的概率受控。

模型:假设 \(X\) 的行独立同分布,且 \(x_j\) 服从高斯分布(\(x_j \sim N(\mu_j, \sigma^2 I_n)\)\(\sigma^2\) 已知或可估)。聚类算法作为确定性函数 \(\mathcal{A}: \mathbb{R}^{n \times p} \to \text{Partitions}\),将 \(X\) 映射为某个分割。

可观测与不可观测:可观测的是 \(X\) 与算法输出的聚类标签 \(C_1, C_2\)。不可观测的是真实潜在分组(若存在)与真实均值 \(\mu_{1j}, \mu_{2j}\)。推断的目标是在承认“\(C_1, C_2\) 是由 \(\mathcal{A}(X)\) 生成”这一事实下,对 \(\mu_{1j} - \mu_{2j}\) 给出具有频率派保证的检验。

第二步:最小内核——单一特征下的 Truncated Normal 检验 剥掉层次聚类与 k-means 的算法细节,最小内核是一个高斯变量在线性约束交集下的条件分布检验

假设我们只看特征 \(j\),且 \(x_j \sim N(\mu_j, \sigma^2 I_n)\)。检验统计量 \(T_j = v^T x_j\)(其中 \(v\) 是指示 \(C_1, C_2\) 均值差的常数向量,如 \(v_i = 1/n_1\) if \(i \in C_1\), \(-1/n_2\) if \(i \in C_2\))。 在经典设定下,若 \(H_{0j}\) 成立,\(T_j \sim N(0, \sigma^2 \|v\|^2)\),我们用其 CDF 计算 p-value。

但在此处,我们仅在 \(x_j \in \mathcal{S}_j\) 时才执行检验\(\mathcal{S}_j\) 是选择事件 \(\mathcal{S}\) 投影到特征 \(j\) 的子空间上的区域。由于聚类算法的输出(如“点 \(i\) 属于 \(C_1\) 而非 \(C_2\)”)可被表达为关于 \(X\) 的一系列线性不等式(例如,点 \(i\)\(C_1\) 中心的距离小于到 \(C_2\) 中心的距离),这些不等式在给定其他特征 \(X_{-j}\) 时,对 \(x_j\) 构成了线性约束(即多面体)。

最小内核的数学命题退化成:

\(Z \sim N(\mu, \sigma^2)\),且我们仅在 \(Z \in [a, b]\) 时检验 \(H_0: \mu = 0\),则 \(Z \mid (Z \in [a, b])\) 服从截断正态分布。基于此截断分布的 CDF 计算的 p-value,严格满足 \(P_{H_0}(\text{p-value} \le \alpha \mid Z \in [a, b]) = \alpha\)

本文的全部技术努力,就是将“层次聚类或 k-means 产生特定聚类对”这一复杂算法事件,翻译成关于 \(x_j\) 的多维截断正态分布的约束区间 \([a(X_{-j}), b(X_{-j})]\)(实际上是多个线性不等式构成的多面体),并高效计算出该多面体下 \(T_j\) 的截断 CDF。证明路线本质上是 Fithian et al. (2014) 框架在特定算法多面体上的复现。


三、这篇论文做了什么

三句话 ① 研究了聚类(层次或 k-means)后对单一特征均值差异进行假设检验的问题;② 核心工具是 selective inference 框架,将聚类选择事件精确刻画为数据空间上的多面体,并对检验统计量条件化于此多面体求截断正态分布;③ 主要结论是所得 p-value 在有限样本下控制 selective Type I error,且计算可在 \(O(n^2)\) 约束下高效完成。

关键设定与假设 - 高斯假设\(X\) 的行独立同分布服从多元高斯。这是多面体推断的命门——截断正态的精确计算依赖此假设。相比 Gao (2020) 与 Chen & Witten (2022),假设未放宽。 - 确定性算法假设:聚类算法(给定初始种子后)是观测 \(X\) 的确定性函数。这使得选择事件 \(\mathcal{S}\)\(\mathbb{R}^{n \times p}\) 上的固定集合,而非随机集。 - 单一特征检验:零假设 \(H_{0j}: \mu_{1j} = \mu_{2j}\) 仅涉及第 \(j\) 个特征。相比前人检验 \(\mu_1 = \mu_2\)(向量均值),这是一个降维,使得条件化时可以剥离 \(X_{-j}\) 的影响,简化计算。 - 方差已知或独立估计:理论推导中假设 \(\sigma^2\) 已知;实际应用中作者使用独立数据或稳健估计替代,这是 selective inference 文献的标准操作。

主要结果 - Theorem (Selective Type I Error Control):在上述假设下,基于条件化于 \(\mathcal{S}\) 的截断分布计算的 p-value,满足 \(P_{H_{0j}}(p_j \le \alpha \mid \mathcal{S}) = \alpha\)。直觉:条件化抹去了选择带来的偏好,将“被选中的均值差”还原为“无偏的截断正态变量”。 - Theorem (Selection Region Characterization): - 对于层次聚类(常见 linkage),\(\mathcal{S}\)\(O(n^2)\) 个线性不等式的交集。这直接继承自 Gao et al. (2020) 的 Section 3.2。 - 对于 k-means 聚类\(\mathcal{S}\) 是“所有点在其当前聚类中心下的距离,小于其在任何其他聚类中心下的距离”的线性不等式交集,继承自 Chen & Witten (2022)。 - 计算可行性:计算截断正态在多面体上的 CDF,通常需要高维积分,但本文利用 \(T_j\) 是一维统计量且条件化剥离了 \(X_{-j}\),将问题降维至求一维截断正态在区间 \([a, b]\) 上的 CDF,其中 \([a, b]\) 由多面体与 \(T_j\) 的方向决定。计算转化为求根问题,可用二分法(bisection)高效求解(引用句:[4, 5])。

证明路线与技术技巧 1. 整体路线: - Step 1: 将聚类算法的选择输出(\(C_1, C_2\) 的形成)表达为关于数据矩阵 \(X\) 的线性不等式组 \(A X \le b\),即定义多面体 \(\mathcal{S}\)。 - Step 2: 利用高斯数据的旋转不变性,将 \(X\) 分解为与检验统计量 \(T_j\) 平行的成分 \(\phi\),与正交的成分 \(X_{-j, \perp}\)。 - Step 3: 条件化于正交成分 \(X_{-j, \perp}\)。此时,多面体 \(\mathcal{S}\)\(\phi\) 方向上退化为一个区间 \([\mathcal{V}^-(X_{-j, \perp}), \mathcal{V}^+(X_{-j, \perp})]\)。 - Step 4: 在给定 \(X_{-j, \perp}\)\(\mathcal{S}\) 下,\(T_j\) 的条件分布是一维截断正态 \(TN(\mu, \sigma^2, a, b)\)。 - Step 5: 基于此截断正态的 CDF 定义 p-value,由截断分布的性质直接得出 Selective Type I error 的精确控制。 2. 关键跳跃点:Step 3 中的分解与条件化是核心跳跃。它将一个看似需要 \(n\) 维积分的问题(\(X\) 在多面体上的分布),通过条件化于 \(n-1\) 维的正交成分,降维为 1 维的区间截断问题。这依赖于 Fithian et al. (2014) 的 Lemma(高斯向量在线性子空间上的条件分解)。 3. 技术技巧点名: - Affine decomposition of Gaussian vectors:将 \(x_j\) 写成 \(T_j\) 的投影加上残差,用于隔离检验统计量与选择约束的交互。 - Polytope characterization of algorithms:将“点 \(i\) 归入聚类 \(k\)”翻译成距离不等式,再展开为关于 \(X\) 的线性不等式。这是 Gao (2020) 与 Chen (2022) 的核心技术,本文直接继承。 - Truncated Normal CDF computation:利用 TN 的 CDF 与正态 CDF 的比值关系,通过数值求根计算 p-value 的阈值。

真实例子与应用 - 数据:单细胞 RNA-seq 数据(Aizarani et al. 2019 的人类肝脏细胞图谱,约 10,000 细胞)。 - 应用方式:先对细胞进行聚类(识别细胞亚型),然后选取特定基因(特征 \(j\)),检验该基因在两个估计出的细胞亚型间的表达差异。 - 结果:经典 t-test 在聚类后给出大量显著基因(Type I error 膨胀);本文的 selective test 仅给出少量显著基因,且在零特征(人为注入无差异的基因)上完美控制了 selective Type I error。 - 说明什么:实证验证了理论承诺的有限样本 Type I error 控制,并展示了相对于 naive 检验的保守性(power 损耗是 selective inference 的固有代价)。

🔎 结论是否比证明窄 - 作者在理论部分严格证明了在高斯分布、方差已知、确定性算法下的有限样本控制。但在应用部分,数据明显非高斯(计数数据),方差需估计,且 k-means 有随机初始化。作者泛泛 claim 方法在这些实际条件下“工作良好”(模拟中 Type I error 受控),但这部分没有严格理论证明,属于 empirical validity,是典型的“结论比证明宽”的地方。研究者若要推进,需注意这一断层。


四、开放问题(点到为止,扎根具体语句)

  1. 非高斯数据下的推断:本文的精确截断正态路线在非高斯下失效(如单细胞的 Poisson/Negative Binomial 计数)。要估什么:非高斯数据下聚类选择事件的条件分布逼近。扎根点:Intro 提及 Neufeld et al. [20] 的 count splitting 在 Poisson 下有效,但本文未提供非高斯的 selective inference 理论。
  2. 高维多特征多检验校正:本文只检验单一特征,但单细胞流水线需同时检验 \(p \gg n\) 个基因。要算什么:在 selective p-value 上的 FDR 控制机制。扎根点:Intro 仅提“testing for a difference in means of a single feature”,完全回避了 \(p\) 个特征同时检验时的多重比较问题。
  3. Power 的 minimax 最优性:条件化于 \(\mathcal{S}\) 导致 power 损耗,作者在模拟中展示了这一点。要证什么:在 selective Type I error 约束下,该截断检验是否达到 minimax power 下界,或是否存在条件化于更少信息(如仅条件化于聚类标签而非整个算法路径)的更优检验。扎根点:Section 3 的条件化事件继承了 Gao [10] 与 Chen [6] 的 \(O(n^2)\) 约束,条件信息量极大,直接导致 power 下降。
  4. 随机化算法的选择事件刻画:k-means 的结果依赖初始种子,本文将其视为确定性(固定种子)。要证什么:当算法输出是随机变量的分布时,如何定义与计算 \(\mathcal{S}\)。扎根点:Chen & Witten [6] 的框架假设算法确定性,本文同样如此,未触及随机算法的 selective inference。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论