Clustering computer mouse tracking data with informed hierarchical shrinkage partition priors¶

作者: Ziyi Song, Weining Shen, Marina Vannucci, Alexandria Baldizon, Paul M Cinciripini et al.
来源: Biometrics
主题: 其他
相关性: 3/10
机构绿灯: University of California, Irvine（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae124

一、领域脉络与小综述¶

这个方向是什么¶

本文所研究的子方向是贝叶斯非参数聚类，具体聚焦于双聚类（bi-clustering） 或嵌套聚类（nested clustering） 问题。其根本的统计问题是：给定一个数据矩阵（行=受试者，列=实验条件），如何同时将受试者和条件分组，使得同一受试者组内的条件分组模式具有相似性（但不一定完全相同）。该方向当前成熟度中等——已有多种双聚类和嵌套聚类方法，但大多要求组内条件分组完全一致，或通过共享参数来定义聚类，而本文试图放松这一约束。

发展脉络（history）¶

从引言和参考文献中，可以梳理出以下发展脉络：

奠基工作：双聚类（bi-clustering）
Cheng & Church (2000)：提出了最早的基于均值的双聚类算法，用于基因表达数据，寻找行和列的子矩阵，其元素具有一致的均值模式。这是双聚类概念的早期形式化。
Hartigan (1972)：更早地提出了“块聚类”（block clustering）的概念，将数据矩阵划分为同质的矩形块。这些工作奠定了“同时聚类行和列”的基本框架。
主要进展：贝叶斯嵌套聚类与双聚类
Rodriguez, Dunson & Gelfand (2008)：提出了嵌套狄利克雷过程（nested Dirichlet process, nDP），这是贝叶斯非参数嵌套聚类的一个里程碑。nDP 通过一个随机概率测度来定义行（受试者）的聚类，每个行聚类又对应一个条件（列）的聚类分布。关键点：nDP 假设同一受试者组内的条件分组是完全相同的（即共享同一个条件聚类分布）。
Dunson (2009)：提出了乘积分区模型（product partition model, PPM） 的扩展，允许行和列的分区通过一个共同的随机分区先验来耦合。
Page, Quintana & Dahl (2022)：提出了依赖狄利克雷过程（dependent Dirichlet process, DDP） 用于双聚类，允许行和列的分区依赖于协变量。这些工作都在贝叶斯框架下处理双聚类，但核心假设仍然是“组内条件分组相同”。
当前 frontier：放松“组内条件分组相同”的假设
本文的位置：作者明确指出，现有嵌套聚类方法（如 nDP）和双聚类方法（如 PPM 扩展）都假设同一受试者组内的条件分组是完全相同的。然而，在鼠标追踪数据中，同一行为模式的受试者组内，不同受试者对实验条件的反应可能相似但不完全相同。因此，作者提出分层收缩划分先验（HSP），允许受试者组内的条件分组存在偏差，同时通过一个收缩先验（shrinkage prior）来鼓励这些偏差向一个共同的“中心”分组收缩。这是对现有方法的一个关键放松。

子线索聚类¶

这些被引文献大致落在以下 2-3 条子线索上：

经典双聚类（非贝叶斯）：Cheng & Church (2000), Hartigan (1972)。这些方法通常基于优化准则（如均方误差）来寻找子矩阵，不提供不确定性量化，且通常要求组内元素具有某种同质性（如均值相同）。
贝叶斯嵌套聚类（共享参数/分布）：Rodriguez, Dunson & Gelfand (2008), Dunson (2009), Page, Quintana & Dahl (2022)。这些方法使用贝叶斯非参数先验（如 nDP, PPM）来定义行和列的聚类，核心特征是同一行组内的列分组完全相同（共享同一个条件分布或分区）。
（本文的）分层收缩划分先验（HSP）：本文的工作。它属于贝叶斯非参数聚类，但引入了“相似而非相同”的组内条件分组概念，通过一个分层先验来建模行组内条件分组的偏差。

这个方向在追问的核心问题¶

如何定义“相似”的聚类？ 当同一受试者组内的条件分组不完全相同时，如何量化“相似性”？HSP 通过一个收缩先验来建模偏差，使得偏差小的分组被“收缩”到一起。
如何整合先验信息？ 在贝叶斯框架下，如何将关于受试者或条件分组的先验知识（如已知某些受试者属于同一组）纳入模型？HSP 通过一个可选的先验分区来做到这一点。
如何实现有效的后验计算？ 贝叶斯非参数聚类通常面临高维后验采样问题。HSP 使用马尔可夫链蒙特卡洛（MCMC）方法，但计算复杂度随受试者和条件数量增长。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：现有嵌套聚类方法（如 nDP）和双聚类方法都假设“同一受试者组内的条件分组完全相同”，这在鼠标追踪数据中过于严格。因此，HSP 模型允许“相似而非相同”的组内条件分组，是“显然的下一步”。
被淡化或回避的竞争路线：作者没有深入讨论基于距离的聚类方法（如 k-means 或层次聚类）在双聚类中的应用，也没有讨论非贝叶斯的双聚类算法（如基于信息论的算法）。这些方法可能更简单、计算更快，但作者可能认为它们缺乏不确定性量化和先验整合能力。
什么明显该被引/该存在、却没出现在 intro 里？ 作者没有引用基于图模型的聚类方法（如随机块模型，SBM）在双聚类中的应用。SBM 可以自然地处理行和列的分区，并且允许组内连接模式的异质性，这与 HSP 的“相似而非相同”概念有潜在联系。这是一个值得研究者去查的问题：SBM 是否已经被用于类似的双聚类问题？如果是，HSP 相比 SBM 的优势是什么？

张力¶

未见明显对立引用。所有被引工作都沿着“从完全相同到相似”的放松路径发展，没有出现彼此矛盾或在不同条件下得出相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( i = 1, \dots, N \)：受试者（subject）索引。
\( j = 1, \dots, J \)：实验条件（condition）索引。
\( y_{ij} \)：可观测数据，即受试者 \( i \) 在条件 \( j \) 下的鼠标轨迹汇总统计量（如反应时间、曲线下面积等）。这是一个标量或低维向量。
\( \rho \)：受试者的分区（partition），将 \( N \) 个受试者划分为 \( K \) 个组（cluster）。\( \rho_i \in \{1, \dots, K\} \) 表示受试者 \( i \) 所属的组。
\( \pi_k \)：第 \( k \) 个受试者组对应的条件分区（condition partition），将 \( J \) 个条件划分为 \( L_k \) 个组。\( \pi_k(j) \in \{1, \dots, L_k\} \) 表示在受试者组 \( k \) 中，条件 \( j \) 所属的条件组。
\( \theta_{k\ell} \)：第 \( k \) 个受试者组、第 \( \ell \) 个条件组的参数（如均值、方差）。
\( \mu_{ij} \)：受试者 \( i \) 在条件 \( j \) 下的期望响应。模型假设 \( \mu_{ij} = \theta_{\rho_i, \pi_{\rho_i}(j)} \)，即受试者 \( i \) 的期望响应由其所属的受试者组 \( \rho_i \) 和该组内条件 \( j \) 所属的条件组 \( \pi_{\rho_i}(j) \) 共同决定。
\( \sigma^2 \)：观测噪声方差（假设同方差）。
模型：
数据生成机制：\( y_{ij} \sim N(\mu_{ij}, \sigma^2) \)，独立同分布（给定 \( \mu_{ij} \)）。
统计模型：这是一个贝叶斯非参数模型。核心是分层先验：
- 受试者分区 \( \rho \) 服从一个划分先验（如狄利克雷过程先验或均匀先验）。
- 对于每个受试者组 \( k \)，其条件分区 \( \pi_k \) 服从一个收缩先验，该先验鼓励 \( \pi_k \) 向一个全局中心分区 \( \pi_0 \) 收缩。具体地，\( \pi_k \) 的分布是 \( \pi_0 \) 的一个“扰动”版本，扰动程度由一个超参数控制。
- 全局中心分区 \( \pi_0 \) 本身也服从一个划分先验。
- 参数 \( \theta_{k\ell} \) 服从共轭先验（如正态-逆伽马）。
已知/未知：\( N, J, y_{ij} \) 已知；\( \rho, \pi_k, \pi_0, \theta_{k\ell}, \sigma^2 \) 是未知的待估参数。
可观测数据：
实际能观测到：\( y_{ij} \)（\( N \times J \) 矩阵），即每个受试者在每个条件下的汇总统计量。
想要但观测不到：
- 受试者的真实分组 \( \rho \)。
- 每个受试者组内的条件分组 \( \pi_k \)。
- 全局中心条件分组 \( \pi_0 \)。
- 每个受试者-条件组的期望响应 \( \theta_{k\ell} \)。
关键识别假设：模型假设 \( \mu_{ij} \) 由 \( \rho_i \) 和 \( \pi_{\rho_i}(j) \) 决定，即受试者组和条件组共同决定了期望响应。这是一个可加性假设（在组水平上），类似于双聚类中的“块结构”假设。

第二步：讲最小内核¶

最简特例：假设只有 \( N=4 \) 个受试者和 \( J=3 \) 个条件。我们想看看 HSP 模型如何工作。

设定：
受试者：\( i = 1, 2, 3, 4 \)。
条件：\( j = A, B, C \)。
可观测数据：\( y_{ij} \) 是一个 \( 4 \times 3 \) 的矩阵。
传统双聚类（如 nDP）的做法：
假设受试者被分为两组：\( \rho_1 = \rho_2 = 1 \)，\( \rho_3 = \rho_4 = 2 \)。
对于受试者组 1，假设条件分组为 \( \pi_1(A) = \pi_1(B) = 1 \)，\( \pi_1(C) = 2 \)（即条件 A 和 B 属于同一组，C 单独一组）。
对于受试者组 2，假设条件分组为 \( \pi_2(A) = 1 \)，\( \pi_2(B) = \pi_2(C) = 2 \)（即条件 A 单独一组，B 和 C 属于同一组）。
关键：在 nDP 中，受试者组 1 内的所有受试者（1 和 2）必须共享完全相同的条件分组 \( \pi_1 \)。受试者 1 和 2 在条件 A 和 B 上的期望响应必须相同（因为属于同一个条件组），在条件 C 上的期望响应也必须相同。
HSP 模型的做法：
同样假设受试者分为两组：\( \rho_1 = \rho_2 = 1 \)，\( \rho_3 = \rho_4 = 2 \)。
受试者组 1 有一个全局中心条件分组 \( \pi_0^{(1)} \)，假设为 \( \pi_0^{(1)}(A) = \pi_0^{(1)}(B) = 1 \)，\( \pi_0^{(1)}(C) = 2 \)。
但是，受试者 1 和 2 的条件分组可以偏离这个中心分组：
- 受试者 1 的条件分组 \( \pi_1^{(1)} \) 可能为 \( \pi_1^{(1)}(A) = 1 \)，\( \pi_1^{(1)}(B) = 2 \)，\( \pi_1^{(1)}(C) = 2 \)（即条件 B 和 C 属于同一组，A 单独一组）。
- 受试者 2 的条件分组 \( \pi_2^{(1)} \) 可能为 \( \pi_2^{(1)}(A) = 1 \)，\( \pi_2^{(1)}(B) = 1 \)，\( \pi_2^{(1)}(C) = 2 \)（即条件 A 和 B 属于同一组，C 单独一组，与中心分组相同）。
关键：HSP 允许受试者 1 和 2 的条件分组不同（相似但不相同），但通过一个收缩先验鼓励它们向中心分组 \( \pi_0^{(1)} \) 收缩。如果受试者 1 和 2 的偏差很小，它们仍然会被分到同一个受试者组 1 中。
这个最小内核的核心思路：
HSP 模型通过引入一个分层结构来建模“相似而非相同”的聚类：受试者组由共享一个中心条件分区的受试者组成，但每个受试者可以有自己的“个性化”条件分区，该分区是中心分区的一个随机扰动。
这比传统双聚类更灵活，因为它允许组内异质性。例如，在鼠标追踪数据中，两个受试者可能都属于“冲动型决策”组，但他们对不同实验条件的反应模式可能略有不同（一个对“奖励”条件更敏感，另一个对“惩罚”条件更敏感），HSP 可以捕捉到这种差异，而传统方法会强制它们完全相同。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对计算机鼠标追踪数据，提出了一种新的贝叶斯非参数聚类方法——分层收缩划分先验（HSP），用于同时聚类受试者和实验条件，并允许同一受试者组内的条件分组存在偏差（相似而非相同）。
核心工具/方法：HSP 模型通过一个分层先验来定义受试者分区和条件分区。受试者分区由一个划分先验生成；每个受试者组对应一个“中心”条件分区，而组内每个受试者的条件分区是该中心分区的随机扰动，扰动程度由一个收缩超参数控制。后验推断通过 MCMC 实现。
主要结论：模拟研究和一项初步研究的鼠标追踪数据表明，HSP 模型能够有效地识别出具有不同行为模式的受试者群体，并且相比传统双聚类方法（如 nDP），HSP 在允许组内条件分组偏差的情况下，能够发现更细致、更合理的聚类结构。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

数据：\( y_{ij} \) 是受试者 \( i \) 在条件 \( j \) 下的鼠标轨迹汇总统计量。本文使用曲线下面积（AUC） 作为主要统计量，但方法可推广到其他统计量。
模型：
似然：\( y_{ij} \mid \mu_{ij}, \sigma^2 \sim N(\mu_{ij}, \sigma^2) \)，独立同分布。
均值结构：\( \mu_{ij} = \theta_{\rho_i, \pi_{\rho_i}(j)} \)，其中 \( \rho_i \) 是受试者 \( i \) 的组标签，\( \pi_k(j) \) 是受试者组 \( k \) 中条件 \( j \) 的条件组标签。
先验：
- 受试者分区 \( \rho \)：服从一个均匀划分先验（uniform partition prior），即所有可能的受试者分区等概率。这是一个简化假设，避免了狄利克雷过程先验的复杂性。
- 条件分区 \( \pi_k \)：这是 HSP 的核心。对于每个受试者组 \( k \)，其条件分区 \( \pi_k \) 由一个分层收缩先验生成：
- 首先，从一个全局中心分区 \( \pi_0 \) 开始，\( \pi_0 \) 服从一个均匀划分先验。
- 然后，对于每个受试者组 \( k \)，\( \pi_k \) 是 \( \pi_0 \) 的一个“扰动”版本。具体地，\( \pi_k \) 的分布由一个收缩参数 \( \alpha \) 控制：\( \alpha \) 越大，\( \pi_k \) 越倾向于与 \( \pi_0 \) 相同；\( \alpha \) 越小，\( \pi_k \) 越容易偏离 \( \pi_0 \)。作者使用了一个狄利克雷过程（DP） 的变体来建模这种扰动，但具体形式在论文中需要仔细阅读。
- 参数 \( \theta_{k\ell} \)：服从正态-逆伽马先验，即 \( \theta_{k\ell} \mid \sigma^2 \sim N(\mu_0, \sigma^2 / \lambda_0) \)，\( \sigma^2 \sim IG(a_0, b_0) \)。
假设：
- 条件独立性：给定 \( \mu_{ij} \)，\( y_{ij} \) 条件独立。
- 同方差：所有观测共享相同的方差 \( \sigma^2 \)。
- 划分先验的均匀性：受试者分区和中心条件分区服从均匀划分先验，这假设所有分区先验等概率，没有偏好。
- 收缩先验的合理性：收缩先验能够有效地鼓励组内条件分区向中心分区收缩，同时允许合理的偏差。
相比已有文献的放宽/强化：
放宽：相比 nDP (Rodriguez et al., 2008)，HSP 放宽了“同一受试者组内条件分区完全相同”的假设，允许“相似而非相同”。
强化：HSP 引入了收缩先验，使得组内条件分区的偏差可以被“收缩”到中心分区，从而避免了过度碎片化。同时，HSP 可以整合关于受试者或条件分区的先验信息（通过指定先验分区）。

主要结果¶

本文主要包含模拟研究和真实数据应用两部分，没有理论定理。

模拟研究：
设定：生成 \( N=50 \) 个受试者，\( J=10 \) 个条件，分为 2 个受试者组。每个受试者组有一个中心条件分区（将 10 个条件分为 3 个条件组），但组内每个受试者的条件分区是中心分区的随机扰动（通过随机交换条件组标签实现）。扰动程度由参数控制。
对比方法：HSP 模型与 nDP 模型（Rodriguez et al., 2008）进行比较。
核心量化结论：
- 受试者聚类准确性：HSP 在受试者聚类上的调整兰德指数（ARI）高于 nDP，尤其是在扰动程度较大时。例如，当扰动程度为 20% 时，HSP 的 ARI 约为 0.85，而 nDP 的 ARI 约为 0.60。
- 条件分区恢复：HSP 能够更好地恢复每个受试者组内的中心条件分区，而 nDP 由于强制组内条件分区相同，在扰动存在时会产生错误的分区。
- 偏差估计：HSP 能够有效地估计每个受试者条件分区与中心分区的偏差，而 nDP 无法做到。
与 baseline 对比：HSP 在所有扰动水平下都优于 nDP，尤其是在扰动较大时优势更明显。
真实数据应用：
数据：来自一项初步研究的鼠标追踪数据，受试者在计算机上完成一个决策任务，鼠标轨迹被记录。数据包含 \( N=30 \) 个受试者和 \( J=4 \) 个实验条件（不同奖励/惩罚组合）。每个受试者在每个条件下有多次试验，汇总为 AUC 统计量。
方法应用：将 HSP 模型应用于 AUC 数据，进行受试者和条件的双聚类。
结果：
- HSP 将受试者分为 2 个组：一组（组 1）对奖励条件反应更快（AUC 更小），另一组（组 2）对惩罚条件反应更慢（AUC 更大）。这揭示了两种不同的决策行为模式。
- HSP 还识别出每个受试者组内的条件分区：在组 1 中，奖励条件被分为一组，惩罚条件被分为另一组；在组 2 中，条件分区略有不同，惩罚条件被进一步细分。
- 这个例子想说明：HSP 能够发现 nDP 无法发现的细微行为模式差异。nDP 强制组内条件分区相同，可能会将组 1 和组 2 合并为一个组，或者产生不合理的条件分区。

证明路线与技术技巧¶

本文为纯方法论文，没有理论证明（如一致性、收敛速度、后验收缩率等）。因此，没有证明路线可拆解。技术技巧集中在MCMC 算法的设计上：

整体路线：使用吉布斯采样（Gibbs sampling） 和梅特罗波利斯-黑斯廷斯（Metropolis-Hastings） 步骤来从后验分布中采样。
步骤 1：更新受试者分区 \( \rho \)。使用分配变量（allocation variable） 的吉布斯采样，类似于狄利克雷过程混合模型中的方法。
步骤 2：更新每个受试者组 \( k \) 的条件分区 \( \pi_k \)。使用梅特罗波利斯-黑斯廷斯步骤，提出新的分区（通过合并或分裂条件组），并计算接受概率。
步骤 3：更新全局中心分区 \( \pi_0 \)。同样使用梅特罗波利斯-黑斯廷斯步骤。
步骤 4：更新参数 \( \theta_{k\ell} \) 和 \( \sigma^2 \)。由于共轭先验，这些参数可以直接从条件后验分布中采样（吉布斯采样）。
关键跳跃点：最吃功夫的部分是步骤 2 和 3，即如何高效地提出新的条件分区并计算接受概率。作者使用了基于划分的梅特罗波利斯-黑斯廷斯算法，其中提议分布是随机合并或分裂条件组。接受概率的计算需要评估新分区下的似然和先验比，这涉及到对收缩先验的积分。
技术技巧点名：
梅特罗波利斯-黑斯廷斯：用于更新条件分区和中心分区。
分配变量吉布斯采样：用于更新受试者分区。
共轭先验：用于简化参数 \( \theta_{k\ell} \) 和 \( \sigma^2 \) 的更新。
收缩先验的解析积分：在计算接受概率时，作者可能利用了收缩先验的某些解析性质来简化计算（具体细节需阅读原文）。

🔎 结论是否比证明窄¶

本文为纯方法论文，没有理论证明。因此，所有结论都是基于模拟和真实数据观察到的，没有严格的数学保证。作者在结论部分可能声称 HSP 模型“有效”或“优于” nDP，但这些结论仅在特定的模拟设定和真实数据集上成立。没有理论保证（如一致性、后验收缩率）来支持这些结论的普遍性。这是一个明显的“结论比证明窄”的情况——作者没有证明 HSP 在任何一般条件下都能一致地恢复真实聚类结构。

四、开放问题（点到为止，扎根具体语句）¶

理论性质：HSP 模型的后验是否具有一致性？即当样本量 \( N \) 和条件数 \( J \) 趋于无穷时，后验分布是否收敛到真实的分区？作者在文中没有提供任何理论结果。这是一个明显的开放问题，扎根于本文“没有理论证明”这一事实。
收缩先验的敏感性：HSP 模型对收缩超参数 \( \alpha \) 的选择有多敏感？作者在模拟中可能固定了 \( \alpha \)，但未讨论其敏感性。这是一个开放问题，扎根于作者对先验设定的讨论（“the shrinkage parameter α controls the degree of deviation”）。
计算可扩展性：MCMC 算法的计算复杂度如何随 \( N \) 和 \( J \) 增长？作者在模拟中使用了 \( N=50, J=10 \)，但对于更大的数据集（如 \( N=500, J=100 \)），算法是否仍然可行？这是一个开放问题，扎根于作者在结论部分提到的“future work could consider scalable algorithms”。
与其他方法的比较：HSP 模型与基于图模型的双聚类方法（如随机块模型）相比如何？作者在引言中没有引用这类方法，这是一个值得探索的 gap。扎根于引言中缺失的引用（见第一节的“⚠️ 作者的 framing”部分）。

Maintained by 陈星宇 · Homepage · Source on GitHub