Clustering computer mouse tracking data with informed hierarchical shrinkage partition priors¶
作者: Ziyi Song, Weining Shen, Marina Vannucci, Alexandria Baldizon, Paul M Cinciripini et al.
来源: Biometrics
主题: 其他
相关性: 3/10
机构绿灯: University of California, Irvine(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae124
一、领域脉络与小综述¶
这个方向是什么¶
本文所研究的子方向是贝叶斯非参数聚类,具体聚焦于双聚类(bi-clustering) 或嵌套聚类(nested clustering) 问题。其根本的统计问题是:给定一个数据矩阵(行=受试者,列=实验条件),如何同时将受试者和条件分组,使得同一受试者组内的条件分组模式具有相似性(但不一定完全相同)。该方向当前成熟度中等——已有多种双聚类和嵌套聚类方法,但大多要求组内条件分组完全一致,或通过共享参数来定义聚类,而本文试图放松这一约束。
发展脉络(history)¶
从引言和参考文献中,可以梳理出以下发展脉络:
- 奠基工作:双聚类(bi-clustering)
- Cheng & Church (2000):提出了最早的基于均值的双聚类算法,用于基因表达数据,寻找行和列的子矩阵,其元素具有一致的均值模式。这是双聚类概念的早期形式化。
-
Hartigan (1972):更早地提出了“块聚类”(block clustering)的概念,将数据矩阵划分为同质的矩形块。这些工作奠定了“同时聚类行和列”的基本框架。
-
主要进展:贝叶斯嵌套聚类与双聚类
- Rodriguez, Dunson & Gelfand (2008):提出了嵌套狄利克雷过程(nested Dirichlet process, nDP),这是贝叶斯非参数嵌套聚类的一个里程碑。nDP 通过一个随机概率测度来定义行(受试者)的聚类,每个行聚类又对应一个条件(列)的聚类分布。关键点:nDP 假设同一受试者组内的条件分组是完全相同的(即共享同一个条件聚类分布)。
- Dunson (2009):提出了乘积分区模型(product partition model, PPM) 的扩展,允许行和列的分区通过一个共同的随机分区先验来耦合。
-
Page, Quintana & Dahl (2022):提出了依赖狄利克雷过程(dependent Dirichlet process, DDP) 用于双聚类,允许行和列的分区依赖于协变量。这些工作都在贝叶斯框架下处理双聚类,但核心假设仍然是“组内条件分组相同”。
-
当前 frontier:放松“组内条件分组相同”的假设
- 本文的位置:作者明确指出,现有嵌套聚类方法(如 nDP)和双聚类方法(如 PPM 扩展)都假设同一受试者组内的条件分组是完全相同的。然而,在鼠标追踪数据中,同一行为模式的受试者组内,不同受试者对实验条件的反应可能相似但不完全相同。因此,作者提出分层收缩划分先验(HSP),允许受试者组内的条件分组存在偏差,同时通过一个收缩先验(shrinkage prior)来鼓励这些偏差向一个共同的“中心”分组收缩。这是对现有方法的一个关键放松。
子线索聚类¶
这些被引文献大致落在以下 2-3 条子线索上:
- 经典双聚类(非贝叶斯):Cheng & Church (2000), Hartigan (1972)。这些方法通常基于优化准则(如均方误差)来寻找子矩阵,不提供不确定性量化,且通常要求组内元素具有某种同质性(如均值相同)。
- 贝叶斯嵌套聚类(共享参数/分布):Rodriguez, Dunson & Gelfand (2008), Dunson (2009), Page, Quintana & Dahl (2022)。这些方法使用贝叶斯非参数先验(如 nDP, PPM)来定义行和列的聚类,核心特征是同一行组内的列分组完全相同(共享同一个条件分布或分区)。
- (本文的)分层收缩划分先验(HSP):本文的工作。它属于贝叶斯非参数聚类,但引入了“相似而非相同”的组内条件分组概念,通过一个分层先验来建模行组内条件分组的偏差。
这个方向在追问的核心问题¶
- 如何定义“相似”的聚类? 当同一受试者组内的条件分组不完全相同时,如何量化“相似性”?HSP 通过一个收缩先验来建模偏差,使得偏差小的分组被“收缩”到一起。
- 如何整合先验信息? 在贝叶斯框架下,如何将关于受试者或条件分组的先验知识(如已知某些受试者属于同一组)纳入模型?HSP 通过一个可选的先验分区来做到这一点。
- 如何实现有效的后验计算? 贝叶斯非参数聚类通常面临高维后验采样问题。HSP 使用马尔可夫链蒙特卡洛(MCMC)方法,但计算复杂度随受试者和条件数量增长。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
- 作者把缺口 frame 成:现有嵌套聚类方法(如 nDP)和双聚类方法都假设“同一受试者组内的条件分组完全相同”,这在鼠标追踪数据中过于严格。因此,HSP 模型允许“相似而非相同”的组内条件分组,是“显然的下一步”。
- 被淡化或回避的竞争路线:作者没有深入讨论基于距离的聚类方法(如 k-means 或层次聚类)在双聚类中的应用,也没有讨论非贝叶斯的双聚类算法(如基于信息论的算法)。这些方法可能更简单、计算更快,但作者可能认为它们缺乏不确定性量化和先验整合能力。
- 什么明显该被引/该存在、却没出现在 intro 里? 作者没有引用基于图模型的聚类方法(如随机块模型,SBM)在双聚类中的应用。SBM 可以自然地处理行和列的分区,并且允许组内连接模式的异质性,这与 HSP 的“相似而非相同”概念有潜在联系。这是一个值得研究者去查的问题:SBM 是否已经被用于类似的双聚类问题?如果是,HSP 相比 SBM 的优势是什么?
张力¶
未见明显对立引用。所有被引工作都沿着“从完全相同到相似”的放松路径发展,没有出现彼此矛盾或在不同条件下得出相反结论的情况。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号:
- \( i = 1, \dots, N \):受试者(subject)索引。
- \( j = 1, \dots, J \):实验条件(condition)索引。
- \( y_{ij} \):可观测数据,即受试者 \( i \) 在条件 \( j \) 下的鼠标轨迹汇总统计量(如反应时间、曲线下面积等)。这是一个标量或低维向量。
- \( \rho \):受试者的分区(partition),将 \( N \) 个受试者划分为 \( K \) 个组(cluster)。\( \rho_i \in \{1, \dots, K\} \) 表示受试者 \( i \) 所属的组。
- \( \pi_k \):第 \( k \) 个受试者组对应的条件分区(condition partition),将 \( J \) 个条件划分为 \( L_k \) 个组。\( \pi_k(j) \in \{1, \dots, L_k\} \) 表示在受试者组 \( k \) 中,条件 \( j \) 所属的条件组。
- \( \theta_{k\ell} \):第 \( k \) 个受试者组、第 \( \ell \) 个条件组的参数(如均值、方差)。
- \( \mu_{ij} \):受试者 \( i \) 在条件 \( j \) 下的期望响应。模型假设 \( \mu_{ij} = \theta_{\rho_i, \pi_{\rho_i}(j)} \),即受试者 \( i \) 的期望响应由其所属的受试者组 \( \rho_i \) 和该组内条件 \( j \) 所属的条件组 \( \pi_{\rho_i}(j) \) 共同决定。
-
\( \sigma^2 \):观测噪声方差(假设同方差)。
-
模型:
- 数据生成机制:\( y_{ij} \sim N(\mu_{ij}, \sigma^2) \),独立同分布(给定 \( \mu_{ij} \))。
- 统计模型:这是一个贝叶斯非参数模型。核心是分层先验:
- 受试者分区 \( \rho \) 服从一个划分先验(如狄利克雷过程先验或均匀先验)。
- 对于每个受试者组 \( k \),其条件分区 \( \pi_k \) 服从一个收缩先验,该先验鼓励 \( \pi_k \) 向一个全局中心分区 \( \pi_0 \) 收缩。具体地,\( \pi_k \) 的分布是 \( \pi_0 \) 的一个“扰动”版本,扰动程度由一个超参数控制。
- 全局中心分区 \( \pi_0 \) 本身也服从一个划分先验。
- 参数 \( \theta_{k\ell} \) 服从共轭先验(如正态-逆伽马)。
-
已知/未知:\( N, J, y_{ij} \) 已知;\( \rho, \pi_k, \pi_0, \theta_{k\ell}, \sigma^2 \) 是未知的待估参数。
-
可观测数据:
- 实际能观测到:\( y_{ij} \)(\( N \times J \) 矩阵),即每个受试者在每个条件下的汇总统计量。
- 想要但观测不到:
- 受试者的真实分组 \( \rho \)。
- 每个受试者组内的条件分组 \( \pi_k \)。
- 全局中心条件分组 \( \pi_0 \)。
- 每个受试者-条件组的期望响应 \( \theta_{k\ell} \)。
- 关键识别假设:模型假设 \( \mu_{ij} \) 由 \( \rho_i \) 和 \( \pi_{\rho_i}(j) \) 决定,即受试者组和条件组共同决定了期望响应。这是一个可加性假设(在组水平上),类似于双聚类中的“块结构”假设。
第二步:讲最小内核¶
最简特例:假设只有 \( N=4 \) 个受试者和 \( J=3 \) 个条件。我们想看看 HSP 模型如何工作。
- 设定:
- 受试者:\( i = 1, 2, 3, 4 \)。
- 条件:\( j = A, B, C \)。
-
可观测数据:\( y_{ij} \) 是一个 \( 4 \times 3 \) 的矩阵。
-
传统双聚类(如 nDP)的做法:
- 假设受试者被分为两组:\( \rho_1 = \rho_2 = 1 \),\( \rho_3 = \rho_4 = 2 \)。
- 对于受试者组 1,假设条件分组为 \( \pi_1(A) = \pi_1(B) = 1 \),\( \pi_1(C) = 2 \)(即条件 A 和 B 属于同一组,C 单独一组)。
- 对于受试者组 2,假设条件分组为 \( \pi_2(A) = 1 \),\( \pi_2(B) = \pi_2(C) = 2 \)(即条件 A 单独一组,B 和 C 属于同一组)。
-
关键:在 nDP 中,受试者组 1 内的所有受试者(1 和 2)必须共享完全相同的条件分组 \( \pi_1 \)。受试者 1 和 2 在条件 A 和 B 上的期望响应必须相同(因为属于同一个条件组),在条件 C 上的期望响应也必须相同。
-
HSP 模型的做法:
- 同样假设受试者分为两组:\( \rho_1 = \rho_2 = 1 \),\( \rho_3 = \rho_4 = 2 \)。
- 受试者组 1 有一个全局中心条件分组 \( \pi_0^{(1)} \),假设为 \( \pi_0^{(1)}(A) = \pi_0^{(1)}(B) = 1 \),\( \pi_0^{(1)}(C) = 2 \)。
- 但是,受试者 1 和 2 的条件分组可以偏离这个中心分组:
- 受试者 1 的条件分组 \( \pi_1^{(1)} \) 可能为 \( \pi_1^{(1)}(A) = 1 \),\( \pi_1^{(1)}(B) = 2 \),\( \pi_1^{(1)}(C) = 2 \)(即条件 B 和 C 属于同一组,A 单独一组)。
- 受试者 2 的条件分组 \( \pi_2^{(1)} \) 可能为 \( \pi_2^{(1)}(A) = 1 \),\( \pi_2^{(1)}(B) = 1 \),\( \pi_2^{(1)}(C) = 2 \)(即条件 A 和 B 属于同一组,C 单独一组,与中心分组相同)。
-
关键:HSP 允许受试者 1 和 2 的条件分组不同(相似但不相同),但通过一个收缩先验鼓励它们向中心分组 \( \pi_0^{(1)} \) 收缩。如果受试者 1 和 2 的偏差很小,它们仍然会被分到同一个受试者组 1 中。
-
这个最小内核的核心思路:
- HSP 模型通过引入一个分层结构来建模“相似而非相同”的聚类:受试者组由共享一个中心条件分区的受试者组成,但每个受试者可以有自己的“个性化”条件分区,该分区是中心分区的一个随机扰动。
- 这比传统双聚类更灵活,因为它允许组内异质性。例如,在鼠标追踪数据中,两个受试者可能都属于“冲动型决策”组,但他们对不同实验条件的反应模式可能略有不同(一个对“奖励”条件更敏感,另一个对“惩罚”条件更敏感),HSP 可以捕捉到这种差异,而传统方法会强制它们完全相同。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:针对计算机鼠标追踪数据,提出了一种新的贝叶斯非参数聚类方法——分层收缩划分先验(HSP),用于同时聚类受试者和实验条件,并允许同一受试者组内的条件分组存在偏差(相似而非相同)。
- 核心工具/方法:HSP 模型通过一个分层先验来定义受试者分区和条件分区。受试者分区由一个划分先验生成;每个受试者组对应一个“中心”条件分区,而组内每个受试者的条件分区是该中心分区的随机扰动,扰动程度由一个收缩超参数控制。后验推断通过 MCMC 实现。
- 主要结论:模拟研究和一项初步研究的鼠标追踪数据表明,HSP 模型能够有效地识别出具有不同行为模式的受试者群体,并且相比传统双聚类方法(如 nDP),HSP 在允许组内条件分组偏差的情况下,能够发现更细致、更合理的聚类结构。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 数据:\( y_{ij} \) 是受试者 \( i \) 在条件 \( j \) 下的鼠标轨迹汇总统计量。本文使用曲线下面积(AUC) 作为主要统计量,但方法可推广到其他统计量。
- 模型:
- 似然:\( y_{ij} \mid \mu_{ij}, \sigma^2 \sim N(\mu_{ij}, \sigma^2) \),独立同分布。
- 均值结构:\( \mu_{ij} = \theta_{\rho_i, \pi_{\rho_i}(j)} \),其中 \( \rho_i \) 是受试者 \( i \) 的组标签,\( \pi_k(j) \) 是受试者组 \( k \) 中条件 \( j \) 的条件组标签。
- 先验:
- 受试者分区 \( \rho \):服从一个均匀划分先验(uniform partition prior),即所有可能的受试者分区等概率。这是一个简化假设,避免了狄利克雷过程先验的复杂性。
- 条件分区 \( \pi_k \):这是 HSP 的核心。对于每个受试者组 \( k \),其条件分区 \( \pi_k \) 由一个分层收缩先验生成:
- 首先,从一个全局中心分区 \( \pi_0 \) 开始,\( \pi_0 \) 服从一个均匀划分先验。
- 然后,对于每个受试者组 \( k \),\( \pi_k \) 是 \( \pi_0 \) 的一个“扰动”版本。具体地,\( \pi_k \) 的分布由一个收缩参数 \( \alpha \) 控制:\( \alpha \) 越大,\( \pi_k \) 越倾向于与 \( \pi_0 \) 相同;\( \alpha \) 越小,\( \pi_k \) 越容易偏离 \( \pi_0 \)。作者使用了一个狄利克雷过程(DP) 的变体来建模这种扰动,但具体形式在论文中需要仔细阅读。
- 参数 \( \theta_{k\ell} \):服从正态-逆伽马先验,即 \( \theta_{k\ell} \mid \sigma^2 \sim N(\mu_0, \sigma^2 / \lambda_0) \),\( \sigma^2 \sim IG(a_0, b_0) \)。
-
假设:
- 条件独立性:给定 \( \mu_{ij} \),\( y_{ij} \) 条件独立。
- 同方差:所有观测共享相同的方差 \( \sigma^2 \)。
- 划分先验的均匀性:受试者分区和中心条件分区服从均匀划分先验,这假设所有分区先验等概率,没有偏好。
- 收缩先验的合理性:收缩先验能够有效地鼓励组内条件分区向中心分区收缩,同时允许合理的偏差。
-
相比已有文献的放宽/强化:
- 放宽:相比 nDP (Rodriguez et al., 2008),HSP 放宽了“同一受试者组内条件分区完全相同”的假设,允许“相似而非相同”。
- 强化:HSP 引入了收缩先验,使得组内条件分区的偏差可以被“收缩”到中心分区,从而避免了过度碎片化。同时,HSP 可以整合关于受试者或条件分区的先验信息(通过指定先验分区)。
主要结果¶
本文主要包含模拟研究和真实数据应用两部分,没有理论定理。
- 模拟研究:
- 设定:生成 \( N=50 \) 个受试者,\( J=10 \) 个条件,分为 2 个受试者组。每个受试者组有一个中心条件分区(将 10 个条件分为 3 个条件组),但组内每个受试者的条件分区是中心分区的随机扰动(通过随机交换条件组标签实现)。扰动程度由参数控制。
- 对比方法:HSP 模型与 nDP 模型(Rodriguez et al., 2008)进行比较。
- 核心量化结论:
- 受试者聚类准确性:HSP 在受试者聚类上的调整兰德指数(ARI)高于 nDP,尤其是在扰动程度较大时。例如,当扰动程度为 20% 时,HSP 的 ARI 约为 0.85,而 nDP 的 ARI 约为 0.60。
- 条件分区恢复:HSP 能够更好地恢复每个受试者组内的中心条件分区,而 nDP 由于强制组内条件分区相同,在扰动存在时会产生错误的分区。
- 偏差估计:HSP 能够有效地估计每个受试者条件分区与中心分区的偏差,而 nDP 无法做到。
-
与 baseline 对比:HSP 在所有扰动水平下都优于 nDP,尤其是在扰动较大时优势更明显。
-
真实数据应用:
- 数据:来自一项初步研究的鼠标追踪数据,受试者在计算机上完成一个决策任务,鼠标轨迹被记录。数据包含 \( N=30 \) 个受试者和 \( J=4 \) 个实验条件(不同奖励/惩罚组合)。每个受试者在每个条件下有多次试验,汇总为 AUC 统计量。
- 方法应用:将 HSP 模型应用于 AUC 数据,进行受试者和条件的双聚类。
- 结果:
- HSP 将受试者分为 2 个组:一组(组 1)对奖励条件反应更快(AUC 更小),另一组(组 2)对惩罚条件反应更慢(AUC 更大)。这揭示了两种不同的决策行为模式。
- HSP 还识别出每个受试者组内的条件分区:在组 1 中,奖励条件被分为一组,惩罚条件被分为另一组;在组 2 中,条件分区略有不同,惩罚条件被进一步细分。
- 这个例子想说明:HSP 能够发现 nDP 无法发现的细微行为模式差异。nDP 强制组内条件分区相同,可能会将组 1 和组 2 合并为一个组,或者产生不合理的条件分区。
证明路线与技术技巧¶
本文为纯方法论文,没有理论证明(如一致性、收敛速度、后验收缩率等)。因此,没有证明路线可拆解。技术技巧集中在MCMC 算法的设计上:
- 整体路线:使用吉布斯采样(Gibbs sampling) 和梅特罗波利斯-黑斯廷斯(Metropolis-Hastings) 步骤来从后验分布中采样。
- 步骤 1:更新受试者分区 \( \rho \)。使用分配变量(allocation variable) 的吉布斯采样,类似于狄利克雷过程混合模型中的方法。
- 步骤 2:更新每个受试者组 \( k \) 的条件分区 \( \pi_k \)。使用梅特罗波利斯-黑斯廷斯步骤,提出新的分区(通过合并或分裂条件组),并计算接受概率。
- 步骤 3:更新全局中心分区 \( \pi_0 \)。同样使用梅特罗波利斯-黑斯廷斯步骤。
- 步骤 4:更新参数 \( \theta_{k\ell} \) 和 \( \sigma^2 \)。由于共轭先验,这些参数可以直接从条件后验分布中采样(吉布斯采样)。
- 关键跳跃点:最吃功夫的部分是步骤 2 和 3,即如何高效地提出新的条件分区并计算接受概率。作者使用了基于划分的梅特罗波利斯-黑斯廷斯算法,其中提议分布是随机合并或分裂条件组。接受概率的计算需要评估新分区下的似然和先验比,这涉及到对收缩先验的积分。
- 技术技巧点名:
- 梅特罗波利斯-黑斯廷斯:用于更新条件分区和中心分区。
- 分配变量吉布斯采样:用于更新受试者分区。
- 共轭先验:用于简化参数 \( \theta_{k\ell} \) 和 \( \sigma^2 \) 的更新。
- 收缩先验的解析积分:在计算接受概率时,作者可能利用了收缩先验的某些解析性质来简化计算(具体细节需阅读原文)。
🔎 结论是否比证明窄¶
本文为纯方法论文,没有理论证明。因此,所有结论都是基于模拟和真实数据观察到的,没有严格的数学保证。作者在结论部分可能声称 HSP 模型“有效”或“优于” nDP,但这些结论仅在特定的模拟设定和真实数据集上成立。没有理论保证(如一致性、后验收缩率)来支持这些结论的普遍性。这是一个明显的“结论比证明窄”的情况——作者没有证明 HSP 在任何一般条件下都能一致地恢复真实聚类结构。
四、开放问题(点到为止,扎根具体语句)¶
- 理论性质:HSP 模型的后验是否具有一致性?即当样本量 \( N \) 和条件数 \( J \) 趋于无穷时,后验分布是否收敛到真实的分区?作者在文中没有提供任何理论结果。这是一个明显的开放问题,扎根于本文“没有理论证明”这一事实。
- 收缩先验的敏感性:HSP 模型对收缩超参数 \( \alpha \) 的选择有多敏感?作者在模拟中可能固定了 \( \alpha \),但未讨论其敏感性。这是一个开放问题,扎根于作者对先验设定的讨论(“the shrinkage parameter α controls the degree of deviation”)。
- 计算可扩展性:MCMC 算法的计算复杂度如何随 \( N \) 和 \( J \) 增长?作者在模拟中使用了 \( N=50, J=10 \),但对于更大的数据集(如 \( N=500, J=100 \)),算法是否仍然可行?这是一个开放问题,扎根于作者在结论部分提到的“future work could consider scalable algorithms”。
- 与其他方法的比较:HSP 模型与基于图模型的双聚类方法(如随机块模型)相比如何?作者在引言中没有引用这类方法,这是一个值得探索的 gap。扎根于引言中缺失的引用(见第一节的“⚠️ 作者的 framing”部分)。
Maintained by 陈星宇 · Homepage · Source on GitHub