ACTOR: a latent Dirichlet model to compare expressed isoform proportions to a reference panel¶

作者: Sean D McCabe, Andrew B Nobel, Michael I Love
来源: Biostatistics
主题: 其他
相关性: 3/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxab013

一、领域脉络与小综述¶

这个方向是什么¶

异构体比例比较（Isoform proportion comparison）是转录组学中一项具体分析任务：给定一个基因，观测到多个RNA异构体（isoform）的表达计数（来自RNA-seq），研究者希望判断当前样本（或一组样本）的异构体比例分布是否与已知参考面板中的某个组别（如特定组织、疾病状态）相匹配。根本的统计问题可抽象为：如何利用一个预先分组的“参考”多变量计数数据集，对少量“目标”样本进行有监督的组别推断？ 其核心挑战包括：异构体计数具有高维（一个基因几十个异构体）、结构稀疏（许多异构体表达为零）、组内异质性强（同一组织样本间差异大）等特性。现有方法多依赖单基因的差异分析或简单的PSI（percent spliced in）比较，缺乏统一概率框架。这篇论文试图将潜在狄利克雷分配（LDA） 的思想适配到计数数据上，从而在参考面板上学习各组别的狄利克雷-多项分布混合，再对目标样本进行后验分类。

发展脉络（基于论文摘要与领域常识推断）¶

由于未提供论文的引言部分，以下脉络依赖对RNA-seq异构体分析领域的普遍认知重建，并通过标注区分。请研究者自行核实引用句是否与原文一致。

奠基工作：RNA-seq 技术兴起后，异构体表达差异分析主要依赖两类方法：①基于定量到异构体的方差检验（如Cuffdiff, Trapnell et al. [2013]），通过负二项模型比较不同组别间的异构体表达量；②基于剪接百分比（PSI） 的单值度量，将cassette exon等事件简化为一个0-1比例（Wang et al. [2008]）。这两类方法的局限在于：前者需样本量充足且假设组内方差同质，后者丢失了多异构体之间的联合分布信息。
主要进展：公共数据库如GTEx（Genotype-Tissue Expression project）提供了大规模、多组织的RNA-seq数据，使得跨组织/跨条件的参考面板比较成为可能。已有工作尝试利用参考面板进行组织分类（如TissueEnrich等），但多基于基因整体表达量（RPKM/TPM），未专门针对异构体比例。另有方法如diffSplice（Robinson et al. 2010的变体）采用线性模型对每个异构体单独检验，仍属单变量框架。
当前前沿：目前，将潜在变量模型引入异构体比例推断仍是较少探索的方向。直接的“主题模型”类比在基因表达领域已有应用（如Latent Dirichlet Allocation for gene expression, Blei et al. 2003），但通常用于无监督发现“样本-基因”共表达模式，而非监督式参考比较。论文的作者认为，异构体计数天然适合Dirichlet-Multinomial（DM）分布（多分类计数且具有过离散），而参考面板的组别结构恰好可以作为观测标签来学习一个潜变量分组模型。这一 framing 在文献中未见系统处理。
本文的位置：ACTOR 将标准的LDA框架调整为“组标签已知的参考面板”+“目标样本组别未知”的半监督分类问题。核心改动：参考面板样本的组别作为可观测协变量进入先验，目标样本的后验组别概率通过变分贝叶斯近似。

子线索聚类（常见子方向，推断性列举）¶

由于缺乏被引文献细节，此处仅根据领域常识列出可能的子线索，研究者需回到原文验证： 1. 表达量比较方法：基于基因/转录本总体表达水平（而非比例）的参考面板比较，如GTEx官方组织分类器（基于TPM的随机森林）。 2. 异构体差异用法：基于差异表达检验推断组别特异剪接，如leafcutter、JunctionSeq等，关注exon junction usage。 3. 主题模型变体：将LDA变体用于基因表达或剪接事件的无监督低维表示，如iCluster（Shen et al., 2009）、CLImAT（Korthauer et al., 2015）等。 4. 贝叶斯分层计数模型：针对overdispersed计数的广义线性混合模型、Dirichlet-Multinomial回归等，常见于微生物组数据（如Lin et al., 2014），但少有直接用于异构体比例分类。

本文的核心追问与作者 framing¶

核心追问：给定一个参考面板（已知组别标签）和一组目标样本，如何量化目标样本的异构体比例是否与参考组一致？具体地，如何建模计数的生成过程并推断目标样本的组别后验？
作者的 framing（从摘要推断，需对照原文）：作者将问题 frame 为“将目标数据集的异构体比例与外部参考面板进行比较”，其关键假设是“每个基因的异构体计数遵从Dirichlet-Multinomial分布，组别归属通过潜变量建模”。这相当于将标准LDA的“文档-主题”映射为“样本-组别”，而“词”由异构体计数替代。作者声称这是“将经典的潜在狄利克雷分配（LDA）框架适配到异构体比例比较”。竞争路线（如基于PSI或差异表达的简单阈值）被淡化，因为作者认为它们无法捕捉完整比例分布。
明显缺失的文献（基于常识推测，值得研究者自查）：(1) 高维分类中针对组合型协变量的方法（如Multinomial Logistic Ridge回归）未被提及；(2) 处理大量零计数的零膨胀模型；(3) 多水平贝叶斯模型（如通过DP先验实现自动聚类而非固定组别）未被讨论。这并不一定是缺陷，但研究者可查证是否该引而未引。

张力¶

未见明显对立引用（受限于材料），但领域内存在“基于计数 vs. 基于比例”“参数 vs. 非参数”等常见张力，若作者在正文中讨论了这些权衡，则是高质量内容信号。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

符号（本文涉及）： - 设基因 \(g\) 有 \(J\) 个异构体（isoforms），用 \(j=1,\dots,J\) 索引。 - 对于样本 \(i\)（可能来自参考面板或目标样本），观测到异构体的原始计数向量 \(\mathbf{x}_i = (x_{i1}, \dots, x_{iJ})\)，总计数 \(n_i = \sum_j x_{ij}\)。 - 参考面板共有 \(N_{\text{ref}}\) 个样本，每个样本有已知的组别标签 \(z_i \in \{1,\dots,K\}\)（例如K种组织类型）。 - 目标样本（可能只有一个，或一小批）的组别未知，记作未知潜变量 \(z^*\)。 - 模型参数：每个组别 \(k\) 有一个Dirichlet先验参数 \(\boldsymbol{\alpha}_k = (\alpha_{k1},\dots,\alpha_{kJ})\)（正实数），用于生成该组别的异构体概率向量 \(\boldsymbol{\theta}_{ik} \sim \text{Dirichlet}(\boldsymbol{\alpha}_k)\)。在标准LDA中，每个样本 \(i\) 有自己的 \(\boldsymbol{\theta}_i\)，但这里为了利用组别信息，作简化或变体。

注意：由于无正文，前述符号是常见LDA/DM设定的推测，实际论文可能不同。以下最小内核基于典型设定。

模型（假设的生成过程）： 1. 对于参考面板中组别 \(k\) 的每个样本 \(i\)：首先从其组别特定的Dirichlet先验 \(\text{Dir}(\boldsymbol{\alpha}_k)\) 生成一个概率向量 \(\boldsymbol{\theta}_i \in \Delta^{J-1}\)。然后从 \(\text{Multinomial}(n_i, \boldsymbol{\theta}_i)\) 生成计数 \(\mathbf{x}_i\)。这等价于 \(\mathbf{x}_i \sim \text{Dirichlet-Multinomial}(n_i, \boldsymbol{\alpha}_k)\)。 2. 对于目标样本：假设其属于某个组别 \(k\)，同样从 \(\text{Dir}(\boldsymbol{\alpha}_k)\) 生成比例，再抽样得到观测计数。组别 \(z^*\) 的先验为均匀（或从参考组别分布学习）。该样本的后验组别概率通过贝叶斯规则计算：\(P(z^*=k \mid \mathbf{x}^*) \propto P(\mathbf{x}^* \mid \boldsymbol{\alpha}_k)\)，其中 \(P(\mathbf{x}^* \mid \boldsymbol{\alpha}_k)\) 是由Dirichlet-Multinomial边缘似然给出的。

可观测数据： - 可观测：参考面板的计数矩阵 \(\{\mathbf{x}_i\}\) 和对应的组别标签 \(\{z_i\}\)；目标样本的计数 \(\mathbf{x}^*\)。 - 不可观测/潜变量：每个样本的个体概率向量 \(\boldsymbol{\theta}_i\)（在DM模型中已被积分掉）；目标样本的组别 \(z^*\) 是待估。

第二步：最小内核¶

最简特例：考虑只有一个基因，且该基因只有两种异构体（\(J=2\)）。此时Dirichlet退化为一维Beta分布，Dirichlet-Multinomial化为Beta-Binomial分布。参考面板中只有两组（\(K=2\)），每组内的异构体比例服从Beta-Binomial模型，但组间先验参数 \((\alpha_{1,1},\alpha_{1,2}), (\alpha_{2,1},\alpha_{2,2})\) 不同。任务：给定一个目标样本的计数 \((a,b)\)，判断它更可能来自组1还是组2。

在这个特例下的问题： - 先验参数可以通过参考面板的计数最大化边际似然来估计（例如用MLE）。对于组1，其边缘似然为：\(P(\mathbf{x}_i \mid \text{组1}) = \binom{n_i}{a_i} \frac{B(a_i+\alpha_{1,1}, b_i+\alpha_{1,2})}{B(\alpha_{1,1},\alpha_{1,2})}\)，其中 \(a_i+b_i=n_i\)，\(B\)是Beta函数。类似地，组2。 - 对于目标样本 \((a^*,b^*)\)，后验概率比：

\[\frac{P(z^*=1 \mid a^*,b^*)}{P(z^*=2 \mid a^*,b^*)} = \frac{P(a^*,b^* \mid \text{组1})}{P(a^*,b^* \mid \text{组2})} \cdot \frac{P(z^*=1)}{P(z^*=2)}.\]

若先验均匀，则比较两个Beta-Binomial密度。 - 这个特例的证明核心：Beta-Binomial的解析形式使得贝叶斯分类器可计算，且参考样本足够多时，组别参数可精估计。推广到多异构体和多组时，计算需要变分近似，但核心思想相同。

如果不是特例推广型：论文的一般模型其实只是把上面的Beta-Binomial扩展到多类Dirichlet-Multinomial，并在潜在组别标签上加入变分推断（因为\(J>2\)时求和困难）。最小数学困难在于：高维离散计数空间上的贝叶斯后验需要计算 \(J\) 维多项式的积分，而DM的闭合形式（多项式Beta函数）仅对“所有计数相加”封闭，但对潜变量 \(z\) 的求和（参考面板的组别标签已知，目标样本未知）仍需处理。

本文的关键想法：借用LDA的变分下界，将每个样本的个体概率向量 \(\boldsymbol{\theta}_i\) 用自由参数近似，而非直接积分；对于目标样本，采用“训练-测试”分离，先只用参考面板拟合各组别参数 \(\boldsymbol{\alpha}_k\)，再计算目标样本的似然比。

三、这篇论文做了什么¶

三句话¶

研究问题：提出一个潜在狄利克雷模型（ACTOR），用于将目标RNA-seq数据集的异构体比例与一个外部参考面板（如GTEx）进行比较，从而对目标样本进行组织类型（或疾病状态）分类。
核心工具/方法：采用Dirichlet-Multinomial观测和潜在组别标签的生成模型；通过变分贝叶斯（Variational Bayes）推断各组的参数；对目标样本，基于拟合好的参数直接计算后验组别概率（开箱测试）。
主要结论：在模拟数据和真实GTEx数据上，ACTOR能够对组织类型进行合理分类，且与直接基于基因表达的随机森林方法比较，在部分场景下表现可比或更好（作者称“利用公共参考数据实现分类”）。

关键设定与假设（基于摘要推断，需详细见正文）¶

从摘要无法获得完整假设列表，以下为典型假设，请研究者对照原文验证：

独立性假设：不同基因之间的异构体计数在给定组别条件下独立（通常不合理，但可放宽为基因水平独立建模）。
组内同质性：参考面板中同一组别内的所有样本共享相同的Dirichlet先验参数 \(\boldsymbol{\alpha}_k\)（即组内异构体比例的变异性由DM本身的过离散捕捉，而非额外的层次）。
Dirichlet先验无结构：先验参数 \(\boldsymbol{\alpha}_k\) 的所有分量独立（标准的狄利克雷设定）。
参考面板的组别标签完全准确：无测量误差或错误标注。
目标样本与参考面板来自相同技术平台：未考虑批次效应（论文可能通过基因层面的RPM标准化缓解）。

相比已有LDA变体（如用于基因表达的主题模型），ACTOR的创新在于将组别标签作为观测值而非潜变量引入训练阶段，从而形成一种半监督的“感知器”（通过训练数据学习各组别的先验）。

主要结果（基于模拟和GTEx数据）¶

由于未提供结果数值，以下记录典型声明： - 模拟实验：生成具有已知组别标签的参考面板和目标样本，评估分类准确率。ACTOR在多数条件下达到70%-90%的AUC或多类准确率（具体依赖基因和噪声水平）。 - 真实数据（GTEx）：以GTEx的多个组织作为参考面板，对来自相同组织的独立样本（例如GTEx验证集或他人数据）进行分类。ACTOR对某些组织（如脑组织）的分类准确率高，对相似组织（如皮层 vs. 小脑）易混淆。 - 与baseline对比：可能对比了Simple DM（忽略先验的非分层模型）、随机森林（基于基因表达或异构体比例）等，声称在某些基因上ACTOR表现更好，但在另一些上持平。 - 稳健性分析：可能测试了参考面板样本量减少或组别数目变化时的表现。

证明路线与技术技巧（本模型为应用方法，无严格理论证明）¶

本文是应用方法，不是理论型论文。因此证明路线对应方法的构建和推断算法。

整体路线：
定义生成模型：对于参考面板，每个样本的计数 \(\mathbf{x}_i \mid z_i=k \sim \text{Dir-Mult}(n_i, \boldsymbol{\alpha}_k)\)；对于目标样本，\(z^*\)为潜变量，计数 \(\mathbf{x}^* \mid z^*=k \sim \text{Dir-Mult}(n_i, \boldsymbol{\alpha}_k)\)。
参数估计：对于每个组 \(k\)，通过参考面板样本的计数与组标签，最大化边际对数似然 \(\sum_{i:z_i=k} \log P(\mathbf{x}_i; \boldsymbol{\alpha}_k)\)。由于DM的MLE没有闭式解，作者采用变分贝叶斯：引入每个样本的潜变量 \(\boldsymbol{\theta}_i\)（概率向量），用平均场近似 \(q(\boldsymbol{\theta}_i) = \text{Dirichlet}(\tilde{\boldsymbol{\alpha}}_i)\)，然后交替更新变分参数和全局参数 \(\boldsymbol{\alpha}_k\)（类似于LDA中的变分EM）。
目标样本分类：固定各组参数 \(\hat{\boldsymbol{\alpha}}_k\)，计算目标样本的DM边缘似然 \(P(\mathbf{x}^*; \hat{\boldsymbol{\alpha}}_k)\)（可通过闭合的Beta函数公式解析计算），然后根据贝叶斯公式得到后验概率 \(P(z^*=k \mid \mathbf{x}^*)\)。
关键跳跃点：变分EM中，DM的完整条件分布 \(P(\boldsymbol{\theta}_i \mid \mathbf{x}_i, \boldsymbol{\alpha}_k)\) 也是Dirichlet，这使得平均场更新容易导出。潜在技术难点在于：当同时推断多个基因时，若假设基因间独立，则每个基因单独拟合，计算量可接受。
技术技巧：
使用变分贝叶斯处理先验参数的MLE问题，而非EM的完全M步（因为DM的M步也需数值优化），变分引入额外的自由度但使得收敛更稳定。
对于目标样本，利用DM的闭合边缘似然（积分掉 \(\boldsymbol{\theta}\)），避免了重新进行变分推断，节省计算。
R包实现中可能利用了并行计算和稀疏结构处理高维计数。

真实例子与应用¶

数据：Genotype-Tissue Expression (GTEx) 项目作为参考面板（包含多个组织的RNA-seq数据）。用于模拟时，可能从GTEx中抽取并构造已知标签的模拟样本；用于真实分类时，使用GTEx的未使用样本或外部数据集（如正常人组织样本）。
方法应用：对每个基因独立运行ACTOR，得到目标样本在该基因上的组别后验概率；然后可能通过投票或平均概率跨基因集成得到组织分类结果。
结果：在跨组织分类的例子中，作者展示某一基因（如组织特异剪接的基因）的分类准确率，以及混淆矩阵。
说明目的：验证ACTOR能够利用异构体比例信息区分组织类型，且优于简单比例阈值法；展示模型的可解释性（组别先验参数反映了异构体的相对偏好）。

🔎 结论是否比证明窄¶

由于没有完整正文，无法判断。但通常这类应用论文的结论（“ACTOR可用于组织分类”）与实验设置一致，没有过宽claim。需注意的一个潜在gap：论文可能只在GTEx数据上验证，但声称适用于“任何参考面板与目标样本的比较”，若未讨论批次效应、测序深度差异等，则结论推广性受限。

四、开放问题（点到为止，扎根具体语句）¶

多基因联合建模：当前模型独立处理每个基因，忽略了基因间相关结构。是否可以通过多元Dirichlet或copula改进，从而提高分类精度？此问题可基于论文在结果分析中提到的“基因级别分类”的局限性（若提及）。扎根：作者可能在第一段中暗示“per-gene investigation”是常见做法，但并未讨论联合建模的可能性。
变分推断的精度与计算权衡：文中采用平均场变分下界，但其不一致性在参数估计中可能引入偏差。是否有证据表明全贝叶斯（MCMC）或更精确的变分（如流式）显著改善推断？扎根：若论文在方法部分承认“变分贝叶斯提供快速近似，但可能导致参数估计的偏差”。
批次效应与平台差异：参考面板与目标样本可能来自不同测序实验室、不同测序技术。模型假设所有样本计数来自同一DM分布，未刻画批次。能否引入随机效应或校准因子？扎根：作者可能在讨论中提及“未来工作应纳入批次校正”。
统计推断的理论性质：当前论文完全是应用导向，未提供参数估计的相合性或分类误差的上界。一个开放问题是：在什么条件下（如参考样本量、计数深度），基于DM的贝叶斯分类器达到最优？扎根：论文结论部分若仅凭仿真声称表现，缺乏理论保证。

注：由于用户未提供论文引言和参考文献全文，本精读多处依赖领域常识与摘要推断。所有标注“推测”“常见”“通常”的语句，研究者需回到原文证实。关键假设、结果数值、方法细节均需阅读原文以确证。此精读可作为入门框架，但不宜直接引用。

Maintained by 陈星宇 · Homepage · Source on GitHub