Sequence interaction model with applications to TCR-peptide binding¶
作者: Ran Liu, Xinyi Tang, Xiaodan Fan
来源: Annals of Applied Statistics
主题: 其他
相关性: 2/10
机构绿灯: University of Hong Kong(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-aoas2114
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计/科学问题是:如何从仅有正样本(结合对)的配对序列数据中,学习两个序列(如蛋白质/多肽)之间的交互规律,并预测新的交互。当前该方向的成熟度处于"方法涌现期":高通量测序技术(如单细胞TCR-seq)产出了大量配对的正样本数据,但负样本(不结合对)的获取极度受限且充满测量偏差,导致传统的判别式分类框架失效,迫使研究者转向生成式建模与仅正样本学习。
发展脉络(history): - 奠基工作:TCR-peptide结合预测的早期工作主要基于物理化学亲和力测量与序列比对(如 Dash et al. 2017 的 GLIPH2 方法,通过聚类找共享肽基序的TCR),但这些方法无法给出定量的结合概率,且对非贡献残基的建模是粗粒度的。 - 主要进展(深度学习路线):近年来,判别式深度学习模型被广泛引入,如 Springer et al. 2020 的 TCRex 和 Weber et al. 2021 的 DeepTCR。这些工作将结合预测视为二分类问题,核心瓶颈在于负样本的构造:随机配对产生的负样本过于"简单"(与真实不结合对分布偏差大),导致模型在真实不结合对上泛化差。作者在 intro 中明确指出:"various deep-learning methodologies have been proposed... several challenges remain unsolved, including the absence of negative data"。 - 当前 frontier 与本文的位置:针对负样本缺失,一条路线是尝试无监督/弱监督对比学习(如 Gao et al. 2022 的 ATM模型),另一条即本文的概率生成路线。作者将缺口 frame 为:判别式模型依赖负样本且无法区分"非贡献残基"与"贡献残基",而生成式模型可以仅用正样本刻画联合分布,从而自然绕过负样本构造,并通过交互得分矩阵分离贡献与非贡献残基。本文即填补此缺口:提出 SIM (Sequence Interaction Model)。
子线索聚类: 被引文献及相关工作大致落在三条子线索上: 1. 判别式/分类路线:将结合预测视为 \(P(Y=1|X_1, X_2)\) 的估计。代表作如 TCRex, DeepTCR。这一簇的瓶颈是负样本偏差与过拟合。 2. 序列比对/聚类路线:基于共享基序找相似TCR。代表作如 GLIPH2。这一簇的瓶颈是缺乏定量概率与交互的残基级解析。 3. 生成式/仅正样本路线:建模 \(P(X_1, X_2 | Y=1)\) 或 \(P(X_1, X_2)\) 的特定子结构。本文属于此簇,且是目前唯一明确引入"交互得分矩阵"以分离贡献/非贡献残基的生成模型。
这个方向在追问的核心问题: 1. 仅正样本学习的识别性:在没有负样本时,仅靠正样本的联合分布,能否识别出交互结构(而非各自序列的边缘偏好)?当前主流方法(如判别式加伪负样本)回避了此问题,直接假设伪负样本分布近似真实负样本。 2. 非贡献残基的建模:序列中大量残基对结合无贡献(随机演化),如何在不引入先验生物学标注下,从数据中自动区分"贡献残基"与"非贡献残基"?当前方法通常将全序列一视同仁地输入神经网络,缺乏可解释的分离机制。 3. 模型验证策略:仅有正样本时,如何验证模型确实学到了"交互"而非边缘偏好?当前缺乏针对生成式交互模型的特异性验证框架。
⚠️ 作者的 framing: - 作者把缺口 frame 成"判别式模型依赖负样本且无法区分非贡献残基",好让 SIM 的生成式+交互得分矩阵成为"显然的下一步"。 - 被淡化或回避的竞争路线:作者未讨论对比学习/自监督路线(如基于序列扰动的负采样+对比损失,这在近年蛋白质交互预测中很活跃),也未讨论半参数/因果路线(将结合视为处理效应,用倾向得分或IV处理缺失负样本)。Intro 中明显缺失的是对"仅正样本学习"在统计理论上的识别性讨论——作者直接假设模型可识别,未引用任何仅正样本学习的统计理论文献(如 denoising / positive-unlabeled learning 的理论工作)。 - 明显该被引却未出现的:PU learning (Positive-Unlabeled learning) 的理论文献(如 Elkan & Noto 2008, Bekker et al. 2020),以及蛋白质交互预测中的对比学习近期工作。这是值得研究者去查的缺口:作者是否忽略了 PU 理论中关于识别性的关键假设?
张力: 未见明显对立引用。判别式路线与生成式路线在方法论上互补而非矛盾,但存在一个隐含张力:判别式路线认为"伪负样本虽偏差但可用偏差修正",生成式路线认为"应彻底回避负样本"。作者未对这两种哲学的统计风险做定量对比。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号与指标:
- \(X_1 \in \mathcal{A}^{L_1}\):序列1(如 TCR),长度 \(L_1\),字母表 \(\mathcal{A}=\{a_1,...,a_{20}\}\)(20种氨基酸)。
- \(X_2 \in \mathcal{A}^{L_2}\):序列2(如 peptide),长度 \(L_2\)。
- \(Y \in \{0, 1\}\):结合指示变量(1=结合,0=不结合)。
- \(S \in \mathbb{R}^{L_1 \times L_2}\):交互得分矩阵,\(S_{ij}\) 表示 \(X_1\) 第 \(i\) 位残基与 \(X_2\) 第 \(j\) 位残基的交互强度。
- \(\theta\):模型参数集,包含 \(S\) 及边缘分布参数。
-
\(n\):样本量(正样本对数)。
-
模型(数据生成机制): SIM 是一个概率生成模型,建模的是正样本的联合分布 \(P(X_1, X_2 | Y=1)\)。其核心结构将序列对的生成分解为:
- 非贡献残基:由各序列的边缘分布 \(P_{\text{null}}(X_1)\) 和 \(P_{\text{null}}(X_2)\) 生成,这些残基与结合无关,独立演化。
- 贡献残基:由交互得分矩阵 \(S\) 驱动,\(X_1\) 的第 \(i\) 位与 \(X_2\) 的第 \(j\) 位若 \(S_{ij}\) 大,则倾向于共同出现特定氨基酸组合(结合偏好)。
-
整体联合分布为边缘分布与交互分布的混合/叠加,受 \(S\) 调控。
-
可观测数据:
- 实际能观测到的是:\(n\) 个正样本对 \(\{(X_1^{(k)}, X_2^{(k)})\}_{k=1}^n\),即 \(Y=1\) 的配对序列。数据形态为两条离散字母序列的配对。
- 想要但观测不到的是:负样本 \((X_1, X_2 | Y=0)\) 的分布,以及结合指示 \(Y\) 的边缘分布 \(P(Y=1)\)(即先验结合率)。此外,"哪些位置是贡献残基"也是不可观测的潜在结构,只能靠 \(S\) 的稀疏性/阈值去识别。
第二步:最小内核——最简特例(\(L_1=1, L_2=1\),单残基对交互)
剥掉所有多位置、边缘分布复杂度,考虑最简特例:两条序列各只有1个残基(\(L_1=1, L_2=1\)),即单字母对 \((x_1, x_2)\) 的结合问题。
- 要估的对象:交互得分矩阵退化为 \(2 \times 2\) 矩阵(此处为 \(20 \times 20\) 的得分矩阵 \(S\)),每个元素 \(S_{ab}\) 表示氨基酸 \(a\) 与 \(b\) 的结合偏好强度。
- 模型退化:正样本的联合分布 \(P(x_1=a, x_2=b | Y=1) \propto P_{\text{null}}(a) P_{\text{null}}(b) \cdot \exp(S_{ab})\)(此处假设了类似 Ising/Potts 模型的指数族形式,交互项以 \(\exp(S_{ab})\) 调制边缘独立分布)。
- 最小内核的数学问题:仅从正样本 \(\{(a_k, b_k)\}_{k=1}^n\)(即 \(Y=1\) 的观测),能否分离出 \(S_{ab}\)(交互偏好)与 \(P_{\text{null}}(a)P_{\text{null}}(b)\)(边缘独立偏好)?
- 为什么成立/如何走:若假设 \(P_{\text{null}}\) 已知或可从单序列数据估出(TCR/peptide的边缘分布可从未配对测序数据获得),则正样本联合分布与边缘独立分布的比值直接给出 \(\exp(S_{ab})\) 的估计:\(\hat{S}_{ab} = \log \frac{\hat{P}_{\text{pos}}(a, b)}{\hat{P}_{\text{null}}(a)\hat{P}_{\text{null}}(b)}\)。这就是最小内核——交互得分是正样本联合分布与边缘独立分布的对数比。论文的一般情形只是将此逻辑扩展到多位置(\(S\) 变为 \(L_1 \times L_2\) 矩阵),并引入稀疏性假设(大部分 \(S_{ij}=0\) 即非贡献残基)与更精细的概率图模型结构。
三、这篇论文做了什么¶
三句话: ①研究了仅有正样本的配对序列交互预测问题(TCR-peptide结合); ②核心方法是概率生成模型 SIM,通过交互得分矩阵 \(S\) 分离贡献与非贡献残基,仅用正样本训练; ③主要结论是 SIM 能在无负样本下揭示结合偏好、生成特异性结合肽,并在模拟与真实结构数据上验证了交互得分的生物学可解释性。
关键设定与假设: 在最小记号基础上补全: - 假设1(仅正样本可学习性):正样本联合分布 \(P(X_1, X_2 | Y=1)\) 可分解为边缘独立分布与交互驱动的分布的混合,且交互部分由得分矩阵 \(S\) 参数化。统计含义:结合是由局部残基对交互驱动的,而非全局序列协变。 - 假设2(边缘分布已知/可估):\(P_{\text{null}}(X_1)\) 和 \(P_{\text{null}}(X_2)\) 可从单序列数据(未配对TCR/peptide库)估出,或作为模型参数与 \(S\) 联合估计。统计含义:这是识别性的关键——若边缘分布完全未知且与交互混杂,仅正样本无法识别 \(S\)(因为 \(P_{\text{pos}}\) 可被边缘偏好解释)。作者通过引入位置特异性边缘参数(position-specific null distributions)部分缓解此问题。 - 假设3(交互稀疏性):\(S\) 中大部分元素为0(非贡献残基对),只有少数位置对有非零得分。统计含义:这是高维问题的降维假设,\(S\) 的维度为 \(L_1 \times L_2 \times 20 \times 20\)(如 \(L_1=20, L_2=9\) 时约 72000 参数),稀疏性使估计可行。 - 假设4(条件独立性):给定 \(S\) 的非零位置对,非贡献残基之间独立,贡献残基对的交互仅依赖对应 \(S_{ij}\)。统计含义:类似 Potts 模型的局部交互假设,回避了长程依赖建模。
主要结果: - 结果1(模型估计与识别):SIM 通过最大化正样本的似然 \(P(X_1, X_2 | Y=1; S, \theta_{\text{null}})\) 估计 \(S\) 与边缘参数。在稀疏性约束下,\(S\) 的非零元素可被识别为贡献残基对。直觉:正样本中高频共现的残基对,若超出边缘独立预测的频率,即被 \(S\) 捕获为交互。 - 结果2(生成与预测):给定 TCR 序列 \(X_1\),SIM 可生成特异性结合的 peptide \(X_2\),通过条件分布 \(P(X_2 | X_1, Y=1; S)\) 实现。此生成能力是判别式模型不具备的。 - 结果3(验证策略):作者提出三层验证:(a) 模拟数据:验证 \(S\) 估计的准确性;(b) 配对序列数据:验证生成肽的特异性(与随机肽对比);(c) 实验结构数据(PDB数据库):将 \(S\) 的非零位置与已知晶体结构中的物理接触残基对比,验证生物学可解释性。这是本文最核心的量化结论:SIM 的交互得分矩阵与物理接触残基有显著对齐,而判别式模型的注意力权重对齐较差。
证明路线与技术技巧: 本文为应用/方法型,无传统定理证明,但模型推导与估计路线如下: - 整体路线: 1. 定义生成模型 \(P(X_1, X_2 | Y=1; S, \theta_{\text{null}})\)(Potts/Ising 型指数族)。 2. 引入稀疏性约束(\(S\) 的 \(L_1\) 或阈值惩罚),使非贡献残基对的得分趋于0。 3. 最大化正样本似然(或等价的对比目标:正样本联合概率 vs 边缘独立概率)。 4. 通过 \(S\) 的非零元素识别贡献残基,通过条件分布生成特异性肽。 - 关键跳跃点:仅正样本似然最大化如何避免退化为边缘分布?作者的关键设计是将边缘分布参数 \(\theta_{\text{null}}\) 与交互参数 \(S\) 解耦,并在似然中强制 \(S\) 解释"超出边缘独立"的共现信号。若 \(S=0\),模型退化为边缘独立;若 \(S\) 非零,模型必须用交互解释正样本的协变。这是识别性的核心跳跃。 - 技术技巧点名: - 指数族/ Potts 模型:用于参数化交互分布,\(S\) 作为耦合参数。 - 正样本对比学习:似然目标等价于拉大正样本联合概率与边缘独立概率的差距,类似无监督对比目标。 - 稀疏惩罚(L1或阈值):用于 \(S\) 的降维与非贡献残基的分离。 - EM/变分推断:在 \(S\) 与边缘参数联合估计时,处理隐变量(贡献/非贡献残基的分配)。
真实例子与应用: - 数据:(1) VDJdb 数据库(TCR-peptide配对正样本,来自免疫学文献 curated);(2) PDB 数据库(TCR-peptide复合物晶体结构,提供物理接触残基的 ground truth)。 - 如何用上去:在 VDJdb 正样本上训练 SIM,估计 \(S\);然后对特定 TCR(如针对 CMV pp65 肽的 TCR),生成预测结合肽,并与已知结合肽对比。在 PDB 结构数据上,提取晶体结构中的残基接触图,与 SIM 的 \(S\) 非零位置对比。 - 结果:SIM 生成的肽在序列相似性上显著高于随机肽;\(S\) 的非零位置与 PDB 接触残基的重叠率显著高于基线(边缘独立模型与判别式模型的注意力权重)。 - 想说明什么:验证 SIM 确实学到了"交互"而非边缘偏好,且交互得分有物理结构支撑(可解释性)。
🔎 结论是否比证明窄: - 作者在 abstract/intro 中 claim SIM 能"distinguishes between noncontributory residues and those essential for binding",但模型推导中此能力严格依赖稀疏性假设与边缘分布的正确估计。若边缘分布估偏(如单序列数据有选择偏差),\(S\) 会将边缘偏差误识别为"交互"。此识别性的严格条件(如边缘分布需满足何种覆盖条件)未被定量证明,仅靠模拟与结构验证支撑。这是典型的"结论宽于证明":claim 了一般性区分能力,但证明/验证仅在特定数据集与假设下成立。
四、开放问题(点到为止)¶
- 仅正样本学习的统计识别性界:在什么最小条件下(边缘分布的支撑条件、稀疏性度、样本量 \(n\) 相对维度 \(L_1 L_2 |\mathcal{A}|^2\) 的阶),仅正样本能以 \(\epsilon\)-误差估计 \(S\)?作者未给出理论界,仅靠模拟验证。扎根点:Abstract claim "trained solely on positive data sets... elucidates binding preference",但无定理保证识别性。
- 边缘分布偏差对 \(S\) 估计的影响:若单序列数据(估 \(P_{\text{null}}\))存在选择偏差(如测序偏好),\(S\) 的估计偏差有多大?能否引入 PU-learning 的偏差修正理论?扎根点:Intro 提到 "absence of negative data" 是挑战,但回避了正样本与边缘数据本身的选择偏差问题。
- 交互得分矩阵 \(S\) 的因果/中介解释:\(S_{ij}\) 作为残基对交互的度量,与因果中介分析中的"成分效应"有形式相似性——能否将 \(S\) 的估计框架嵌入因果图(残基位置作为处理/中介,结合作为结局),从而给出反事实解释("若突变第 \(i\) 位残基,结合概率变多少")?扎根点:Intro claim "distinguishes noncontributory residues",但未给出反事实/因果层面的形式化。
提醒:要确认上述第1条(识别性界)是否真 gap,去读近5篇 PU learning 与仅正样本交互估计的 intro——若都回避理论界,则是共识缺口;若有理论工作给出界但本文未引,则是作者遗漏。
Maintained by 陈星宇 · Homepage · Source on GitHub