Testing for a difference in means of a single feature after clustering¶

作者: Yiqun T Chen, Lucy L Gao
来源: Biostatistics
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: Stanford University（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 Post-selection inference（选择后推断，亦常称 Selective inference）要解决的根本统计问题是：当同一组数据既被用于“生成假设”（如选择变量、识别聚类、检测变点），又被用于“检验该假设”时，经典假设检验的 Type I error 会发生膨胀，p-value 失去频率派意义。该方向目前已有成熟的条件推断框架（条件化于选择事件），但在将选择事件从“低维/线性模型”推广到“高维/非线性/算法驱动选择”时，仍面临选择区域刻画困难与计算可行性两道硬墙。

发展脉络 - 奠基工作：Lee et al. (2013) 与 Fithian et al. (2014) 建立了 selective inference 的现代条件推断框架。前者针对 Lasso 提出了“条件化于变量选择事件”的精确推断，将选择事件表达为线性约束；后者提出了 selective Type I error 的概念（“仅在检验被执行时控制 Type I error”），并证明其与 sample splitting 具有类似直觉但更优的 power。 - 主要进展（变点与异常值）：Jewell et al. (2019) 与 Hyun et al. (2018) 将 selective inference 推向变点检测，条件化于变点估计事件；Chen & Bien (2017) 推向异常值剔除后的推断。这些工作均依赖将算法的选择输出转化为数据空间上的多面体（Polytope，即有限个线性不等式的交集）。 - 主要进展（聚类）：Gao et al. (2020) 首次将 selective inference 框架应用于层次聚类，条件化于“两个特定聚类被合并”的事件，证明了选择区域是 \(O(n^2)\) 个半平面的交集；Chen & Witten (2022) 将其推广至 k-means 聚类，条件化于 k-means 算法的中间迭代步骤。 - 当前 frontier 与本文位置：上述聚类推断工作均检验的是向量均值（即所有 \(p\) 个特征的均值差异是否为 0）。但在实际应用（如单细胞 RNA-seq）中，研究者往往只关心单一特征（某个基因）在两聚类间的差异。本文正是填补这一缺口：将 Gao (2020) 与 Chen & Witten (2022) 的框架从“向量均值检验”降维至“单一特征均值检验”，并维持有限样本下的 selective Type I error 控制与计算可行性。

子线索聚类 1. 算法驱动的多面体推断：Lee (2013), Gao (2020), Chen & Witten (2022), Jewell (2019)。核心：将算法（Lasso, 层次聚类, k-means, Binary Segmentation）的选择输出翻译成 \(Ax \le b\) 形式的多面体，再求 truncated normal 的 CDF。 2. 数据拆分与替代框架：Neufeld et al. (2022) 提出 count splitting（在 Poisson 假设下拆分计数数据），试图绕开多面体刻画的计算难题；但作者在 intro 引用中明确指出，sample splitting 在聚类场景下失效——对一部分数据聚类无法直接给出剩余数据的聚类标签（引用句：Chen and Witten [6], Gao et al. [10], Neufeld et al. [20]）。 3. 聚类后差异检验的应用与修正：Hivert et al. (2022) 提出三种修正聚类后检验的方法；Aizarani et al. (2019) 代表了生物学家“先聚类、再差异表达分析”的标准流水线，是问题的应用源头。

这个方向在追问的核心问题 1. 选择事件的数学刻画：算法的输出如何精确表达为观测数据空间上的可计算区域？已知层次聚类与 k-means 的区域是 \(O(n^2)\) 个线性约束的交集，计算复杂度随 \(n\) 增长如何控制？ 2. 条件推断的 Power 损耗：条件化于越多信息（如整个聚类树 vs. 仅最终两聚类），power 越低；如何条件化于“最少且必要”的信息以最大化 power？ 3. 非高斯与高维设定：当前精确推断几乎全部依赖高斯假设与低维特征空间；当 \(p \gg n\) 或数据非高斯时，多面体与 truncated normal 的路线是否坍塌？

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“现有聚类 selective inference 只检验向量均值，而实际应用（单细胞数据）需要检验单一特征均值”，从而让本文成为 Gao (2020) 与 Chen & Witten (2022) 的“显然的降维推广”。 - 被淡化或回避的竞争路线：作者在 intro 提及 Hivert et al. (2022) 时，仅以“While this manuscript is under preparation, Hivert et al. [13] proposed a related selective inference framework...”一笔带过，未详细对比两者的 power、假设要求或计算复杂度差异。此外，作者回避了高维 \(p \gg n\) 下多面体刻画可能失效的问题，整篇理论设定停留在固定 \(p\) 甚至 \(p=1\) 的单一特征检验。 - 缺失的引用：Intro 中未见对高维聚类推断（如基于随机矩阵理论的聚类检测界）或 semiparametric efficiency bound 在 post-selection 设定下的引用；也未见对多检验校正（FDR control post-clustering，如 Benjamini-Hochberg 在 selective p-value 上的适配）的系统性讨论，而这在单细胞差异表达分析中是不可或缺的下游步骤。

张力未见明显对立引用。但存在平行开发的张力：Hivert et al. (2022) 与本文几乎同时攻击同一问题（单一特征聚类后检验），但技术路线不同（Hivert 提出三种检验，本文坚持多面体条件化）。这两篇的 power 对比与假设强弱对比，是研究者需要亲自去查证的证据。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代 - \(n\)：样本量（观测数，如细胞数）。 - \(p\)：特征数（如基因数）。本文核心设定中，检验针对单一特征，故实际推断维度可视为 \(1\)，但聚类选择依赖全部 \(p\) 维数据。 - \(X \in \mathbb{R}^{n \times p}\)：可观测数据矩阵。行 \(x_i \in \mathbb{R}^p\) 代表第 \(i\) 个观测的 \(p\) 维特征向量。 - \(x_j \in \mathbb{R}^n\)：第 \(j\) 个特征（列向量），这是本文要检验的那个单一特征的样本。 - \(C_1, C_2\)：由聚类算法（层次聚类或 k-means）作用于 \(X\) 后输出的两个聚类的索引集合。\(n_1 = |C_1|\), \(n_2 = |C_2|\)。 - \(\mu_{1j}, \mu_{2j}\)：潜在参数——特征 \(j\) 在聚类 \(C_1\) 与 \(C_2\) 下的真实均值。 - \(\mathcal{S}\)：选择事件，即“聚类算法在数据 \(X\) 上输出恰好为 \(C_1, C_2\)（或包含 \(C_1, C_2\) 的特定分割）”这一事件在数据空间 \(\mathbb{R}^{n \times p}\) 中对应的区域。 - \(H_{0j}: \mu_{1j} = \mu_{2j}\)：要检验的零假设。 - \(T_j\)：检验统计量，通常取 \(T_j = \bar{x}_{1j} - \bar{x}_{2j}\)（两聚类在特征 \(j\) 上的样本均值差）。 - Selective Type I Error：\(P_{H_{0j}}(\text{reject } H_{0j} \mid \mathcal{S}) \le \alpha\)。即在“我们确实选择了检验这两个聚类”的条件下，犯错的概率受控。

模型：假设 \(X\) 的行独立同分布，且 \(x_j\) 服从高斯分布（\(x_j \sim N(\mu_j, \sigma^2 I_n)\)，\(\sigma^2\) 已知或可估）。聚类算法作为确定性函数 \(\mathcal{A}: \mathbb{R}^{n \times p} \to \text{Partitions}\)，将 \(X\) 映射为某个分割。

可观测与不可观测：可观测的是 \(X\) 与算法输出的聚类标签 \(C_1, C_2\)。不可观测的是真实潜在分组（若存在）与真实均值 \(\mu_{1j}, \mu_{2j}\)。推断的目标是在承认“\(C_1, C_2\) 是由 \(\mathcal{A}(X)\) 生成”这一事实下，对 \(\mu_{1j} - \mu_{2j}\) 给出具有频率派保证的检验。

第二步：最小内核——单一特征下的 Truncated Normal 检验 剥掉层次聚类与 k-means 的算法细节，最小内核是一个高斯变量在线性约束交集下的条件分布检验：

假设我们只看特征 \(j\)，且 \(x_j \sim N(\mu_j, \sigma^2 I_n)\)。检验统计量 \(T_j = v^T x_j\)（其中 \(v\) 是指示 \(C_1, C_2\) 均值差的常数向量，如 \(v_i = 1/n_1\) if \(i \in C_1\), \(-1/n_2\) if \(i \in C_2\)）。在经典设定下，若 \(H_{0j}\) 成立，\(T_j \sim N(0, \sigma^2 \|v\|^2)\)，我们用其 CDF 计算 p-value。

但在此处，我们仅在 \(x_j \in \mathcal{S}_j\) 时才执行检验。\(\mathcal{S}_j\) 是选择事件 \(\mathcal{S}\) 投影到特征 \(j\) 的子空间上的区域。由于聚类算法的输出（如“点 \(i\) 属于 \(C_1\) 而非 \(C_2\)”）可被表达为关于 \(X\) 的一系列线性不等式（例如，点 \(i\) 到 \(C_1\) 中心的距离小于到 \(C_2\) 中心的距离），这些不等式在给定其他特征 \(X_{-j}\) 时，对 \(x_j\) 构成了线性约束（即多面体）。

最小内核的数学命题退化成：

若 \(Z \sim N(\mu, \sigma^2)\)，且我们仅在 \(Z \in [a, b]\) 时检验 \(H_0: \mu = 0\)，则 \(Z \mid (Z \in [a, b])\) 服从截断正态分布。基于此截断分布的 CDF 计算的 p-value，严格满足 \(P_{H_0}(\text{p-value} \le \alpha \mid Z \in [a, b]) = \alpha\)。

本文的全部技术努力，就是将“层次聚类或 k-means 产生特定聚类对”这一复杂算法事件，翻译成关于 \(x_j\) 的多维截断正态分布的约束区间 \([a(X_{-j}), b(X_{-j})]\)（实际上是多个线性不等式构成的多面体），并高效计算出该多面体下 \(T_j\) 的截断 CDF。证明路线本质上是 Fithian et al. (2014) 框架在特定算法多面体上的复现。

三、这篇论文做了什么¶

三句话 ① 研究了聚类（层次或 k-means）后对单一特征均值差异进行假设检验的问题；② 核心工具是 selective inference 框架，将聚类选择事件精确刻画为数据空间上的多面体，并对检验统计量条件化于此多面体求截断正态分布；③ 主要结论是所得 p-value 在有限样本下控制 selective Type I error，且计算可在 \(O(n^2)\) 约束下高效完成。

关键设定与假设 - 高斯假设：\(X\) 的行独立同分布服从多元高斯。这是多面体推断的命门——截断正态的精确计算依赖此假设。相比 Gao (2020) 与 Chen & Witten (2022)，假设未放宽。 - 确定性算法假设：聚类算法（给定初始种子后）是观测 \(X\) 的确定性函数。这使得选择事件 \(\mathcal{S}\) 是 \(\mathbb{R}^{n \times p}\) 上的固定集合，而非随机集。 - 单一特征检验：零假设 \(H_{0j}: \mu_{1j} = \mu_{2j}\) 仅涉及第 \(j\) 个特征。相比前人检验 \(\mu_1 = \mu_2\)（向量均值），这是一个降维，使得条件化时可以剥离 \(X_{-j}\) 的影响，简化计算。 - 方差已知或独立估计：理论推导中假设 \(\sigma^2\) 已知；实际应用中作者使用独立数据或稳健估计替代，这是 selective inference 文献的标准操作。

主要结果 - Theorem (Selective Type I Error Control)：在上述假设下，基于条件化于 \(\mathcal{S}\) 的截断分布计算的 p-value，满足 \(P_{H_{0j}}(p_j \le \alpha \mid \mathcal{S}) = \alpha\)。直觉：条件化抹去了选择带来的偏好，将“被选中的均值差”还原为“无偏的截断正态变量”。 - Theorem (Selection Region Characterization)： - 对于层次聚类（常见 linkage），\(\mathcal{S}\) 是 \(O(n^2)\) 个线性不等式的交集。这直接继承自 Gao et al. (2020) 的 Section 3.2。 - 对于 k-means 聚类，\(\mathcal{S}\) 是“所有点在其当前聚类中心下的距离，小于其在任何其他聚类中心下的距离”的线性不等式交集，继承自 Chen & Witten (2022)。 - 计算可行性：计算截断正态在多面体上的 CDF，通常需要高维积分，但本文利用 \(T_j\) 是一维统计量且条件化剥离了 \(X_{-j}\)，将问题降维至求一维截断正态在区间 \([a, b]\) 上的 CDF，其中 \([a, b]\) 由多面体与 \(T_j\) 的方向决定。计算转化为求根问题，可用二分法（bisection）高效求解（引用句：[4, 5]）。

证明路线与技术技巧 1. 整体路线： - Step 1: 将聚类算法的选择输出（\(C_1, C_2\) 的形成）表达为关于数据矩阵 \(X\) 的线性不等式组 \(A X \le b\)，即定义多面体 \(\mathcal{S}\)。 - Step 2: 利用高斯数据的旋转不变性，将 \(X\) 分解为与检验统计量 \(T_j\) 平行的成分 \(\phi\)，与正交的成分 \(X_{-j, \perp}\)。 - Step 3: 条件化于正交成分 \(X_{-j, \perp}\)。此时，多面体 \(\mathcal{S}\) 在 \(\phi\) 方向上退化为一个区间 \([\mathcal{V}^-(X_{-j, \perp}), \mathcal{V}^+(X_{-j, \perp})]\)。 - Step 4: 在给定 \(X_{-j, \perp}\) 与 \(\mathcal{S}\) 下，\(T_j\) 的条件分布是一维截断正态 \(TN(\mu, \sigma^2, a, b)\)。 - Step 5: 基于此截断正态的 CDF 定义 p-value，由截断分布的性质直接得出 Selective Type I error 的精确控制。 2. 关键跳跃点：Step 3 中的分解与条件化是核心跳跃。它将一个看似需要 \(n\) 维积分的问题（\(X\) 在多面体上的分布），通过条件化于 \(n-1\) 维的正交成分，降维为 1 维的区间截断问题。这依赖于 Fithian et al. (2014) 的 Lemma（高斯向量在线性子空间上的条件分解）。 3. 技术技巧点名： - Affine decomposition of Gaussian vectors：将 \(x_j\) 写成 \(T_j\) 的投影加上残差，用于隔离检验统计量与选择约束的交互。 - Polytope characterization of algorithms：将“点 \(i\) 归入聚类 \(k\)”翻译成距离不等式，再展开为关于 \(X\) 的线性不等式。这是 Gao (2020) 与 Chen (2022) 的核心技术，本文直接继承。 - Truncated Normal CDF computation：利用 TN 的 CDF 与正态 CDF 的比值关系，通过数值求根计算 p-value 的阈值。

真实例子与应用 - 数据：单细胞 RNA-seq 数据（Aizarani et al. 2019 的人类肝脏细胞图谱，约 10,000 细胞）。 - 应用方式：先对细胞进行聚类（识别细胞亚型），然后选取特定基因（特征 \(j\)），检验该基因在两个估计出的细胞亚型间的表达差异。 - 结果：经典 t-test 在聚类后给出大量显著基因（Type I error 膨胀）；本文的 selective test 仅给出少量显著基因，且在零特征（人为注入无差异的基因）上完美控制了 selective Type I error。 - 说明什么：实证验证了理论承诺的有限样本 Type I error 控制，并展示了相对于 naive 检验的保守性（power 损耗是 selective inference 的固有代价）。

🔎 结论是否比证明窄 - 作者在理论部分严格证明了在高斯分布、方差已知、确定性算法下的有限样本控制。但在应用部分，数据明显非高斯（计数数据），方差需估计，且 k-means 有随机初始化。作者泛泛 claim 方法在这些实际条件下“工作良好”（模拟中 Type I error 受控），但这部分没有严格理论证明，属于 empirical validity，是典型的“结论比证明宽”的地方。研究者若要推进，需注意这一断层。

四、开放问题（点到为止，扎根具体语句）¶

非高斯数据下的推断：本文的精确截断正态路线在非高斯下失效（如单细胞的 Poisson/Negative Binomial 计数）。要估什么：非高斯数据下聚类选择事件的条件分布逼近。扎根点：Intro 提及 Neufeld et al. [20] 的 count splitting 在 Poisson 下有效，但本文未提供非高斯的 selective inference 理论。
高维多特征多检验校正：本文只检验单一特征，但单细胞流水线需同时检验 \(p \gg n\) 个基因。要算什么：在 selective p-value 上的 FDR 控制机制。扎根点：Intro 仅提“testing for a difference in means of a single feature”，完全回避了 \(p\) 个特征同时检验时的多重比较问题。
Power 的 minimax 最优性：条件化于 \(\mathcal{S}\) 导致 power 损耗，作者在模拟中展示了这一点。要证什么：在 selective Type I error 约束下，该截断检验是否达到 minimax power 下界，或是否存在条件化于更少信息（如仅条件化于聚类标签而非整个算法路径）的更优检验。扎根点：Section 3 的条件化事件继承了 Gao [10] 与 Chen [6] 的 \(O(n^2)\) 约束，条件信息量极大，直接导致 power 下降。
随机化算法的选择事件刻画：k-means 的结果依赖初始种子，本文将其视为确定性（固定种子）。要证什么：当算法输出是随机变量的分布时，如何定义与计算 \(\mathcal{S}\)。扎根点：Chen & Witten [6] 的框架假设算法确定性，本文同样如此，未触及随机算法的 selective inference。

Maintained by 陈星宇 · Homepage · Source on GitHub

Testing for a difference in means of a single feature after clustering¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论