Testing for a difference in means of a single feature after clustering¶

作者: Yiqun T Chen, Lucy L Gao
来源: Biostatistics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1093/biostatistics/kxae046

一、核心问题与贡献¶

①研究了在对观测数据进行聚类后，检验两个估计簇在某单一特征上的均值差异时，经典假设检验因选择性偏差导致第一类错误膨胀的问题。②提出基于选择性推断框架的条件检验方法，通过刻画聚类选择事件的截断分布来构建检验统计量。③该方法在有限样本下严格控制选择性第一类错误率，且具备高效计算性，适用于层次聚类和k-means聚类后的推断。

二、基础设定¶

核心概念与符号：
$X \in \mathbb{R}^{n \times p}$：样本数据矩阵，$n$个观测，$p$个特征。
$\hat{C}_1, \hat{C}_2$：由聚类算法（层次或k-means）估计出的两个簇。
$T_j(X)$：第 $j$ 个特征上两簇样本均值之差，作为基础检验统计量。
Selective Type I Error：选择性第一类错误，即在给定聚类选择事件 ${ \text{Algorithm}(X) = (\hat{C}_1, \hat{C}_2) }$ 发生的条件下，原假设成立时拒绝原假设的概率。
Selection Event $E$：聚类算法输出特定簇对的事件，可转化为对数据 $X$ 的一组多面体约束（Polyhedral constraint）。
关键假设：
特征的正态性：假设数据 $X$ 的行独立同分布于正态分布。这是实现有限样本精确推断的核心前提，使得在线性约束下统计量的截断分布具有解析形式。相比大样本渐近方法，此假设较强但换来了有限样本有效性。
聚类算法的确定性：给定数据 $X$，聚类结果唯一确定。对于k-means，需固定算法实现细节（如初始点或迭代规则），以避免选择事件的随机性破坏推断框架。
单特征检验：仅针对一个特征进行均值差异检验，避免了高维截断分布计算的维数灾难。
问题背景：
聚类后的假设检验属于"数据窥探"（data snooping/double dipping），经典t-test无视选择事件导致Type I error严重膨胀。传统数据分割法会损失统计功效。
与最相关文献的区别：传统Post-selection inference（如Lee et al. 2016针对Lasso）处理连续优化问题的KKT条件，而聚类涉及离散分配和迭代优化，选择事件更难刻画。本文将Gao et al. (2020)针对层次聚类的推断扩展至k-means，并聚焦单特征均值差异的精确检验。

三、主要定理 / 核心结果¶

核心发现的量化描述：
理论结果：在原假设 $H_0: \mu_{j, \hat{C}1} = \mu{j, \hat{C}2}$ 下，基于截断分布计算的p值 $p{\text{selective}}$ 满足 $P(p_{\text{selective}} \le \alpha | E) \le \alpha$，即有限样本下严格控制选择性第一类错误。
模拟结果：经典t-test的实证Type I error可高达0.8-1.0，而本文方法维持在 $\alpha$ 水平；在非正态数据（如重尾或负二项分布模拟单细胞数据）下，本文方法仍表现出良好的稳健性。
功效：随着簇间真实均值差异增大，检验功效迅速上升，且优于数据分割法。
与 baseline 的对比：
对比经典t-test：修正了选择性偏差，控制了条件错误率。
对比数据分割：利用全部数据进行推断，避免了样本量减半带来的功效损失。
结论的稳健性：
即使在数据生成分布偏离正态假设时，选择性Type I error控制依然稳健，这得益于中心极限定理在样本量适中时的效应及条件推断的局部性。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
检验统计量：两簇样本均值之差 $T_j(X) = \bar{X}{j, \hat{C}_1} - \bar{X}{j, \hat{C}_2}$。
条件推断框架：不使用 $T_j$ 的无条件分布，而是计算其在选择事件 $E$ 发生下的条件分布 $T_j | E$。
选择事件刻画：将 $E$ 转化为对数据 $X$ 的一组线性/仿射不等式约束。对于层次聚类，约束体现为簇内距离小于簇间距离；对于k-means，约束体现为分配到当前簇的残差平方和最小。
核心假设的可信度分析：
正态假设在单细胞RNA-seq等计数数据上严格不成立，但模拟显示稳健。若数据严重偏离正态，有限样本保证失效，需依赖渐近理论。
k-means的局部极小值问题使得选择事件高度依赖算法实现，本文通过固定算法路径确保确定性，这在实践中可行但限制了推断的普适性。
稳健性检验策略：
模拟中测试不同分布（正态、均匀、重尾、负二项）。
测试不同聚类算法参数（如k-means的k值，层次聚类的连接方式）。
计算/实现细节：
计算截断分布的累积概率是核心计算瓶颈。由于选择事件 $E$ 转化为多面体约束，利用Lee et al. (2016)的技巧，将高维截断正态分布的计算转化为一系列一维截断正态分布的乘积，通过数值积分快速计算。

五、与研究者兴趣的关联¶

连接到哪个子方向：数学统计（假设检验）中的 Selective Inference / Post-selection Inference。
可借鉴的核心思路或技术工具：
将离散选择事件（如聚类分配）转化为多面体约束的技巧，这对于处理其他离散优化问题（如因果推断中的处理变量选择或匹配）的Post-selection推断极具启发性。
条件推断框架（Conditioning on selection event）的思想，可直接迁移到因果推断中存在样本选择偏差或处理机制内生时的假设检验问题，避免因"挑选显著结果"带来的偏差。
值得精读的关键参考文献：
Lee, J. D., et al. (2016). Exact post-selection inference, with application to the lasso. JASA. (Selective inference的基石文献，提供了多面体约束下截断正态分布的计算框架)
Gao, L. L., et al. (2020). Selective inference for hierarchical clustering. arXiv/Stat. (本文的直接前置工作，专门处理层次聚类的选择事件刻画)

六、延伸思考与练习¶

假设扰动：若放宽"单特征检验"假设，要求同时检验多个特征的均值差异（多重检验），截断分布的维度将急剧上升，计算多面体约束下高维截断正态分布的p值在数值上极难实现。技术上可能需要引入Monte Carlo采样或基于MCMC的渐近近似工具。
开放问题：如何在k-means聚类中处理随机初始化带来的选择事件随机性？当前方法固定了算法路径，若对多次随机初始化的结果进行推断，选择性推断框架需如何扩展以避免"选择性偏差的偏差"？
理解检测题：假设数据 $X$ 服从 $N(\mu, I)$，你使用k-means将其分为两簇 $\hat{C}1, \hat{C}_2$。请写出检验 $H_0: \mu{1, \hat{C}1} = \mu{1, \hat{C}_2}$ 时，选择事件 $E = { \text{k-means assigns } i \text{ to } \hat{C}_1 \text{ and } j \text{ to } \hat{C}_2 }$ 对应的 $X$ 的线性不等式约束形式，并说明为什么这个约束使得 $T_1 | E$ 不再是标准的正态分布。

Maintained by 陈星宇 · Homepage · Source on GitHub