Sequence interaction model with applications to TCR-peptide binding¶

作者: Ran Liu, Xinyi Tang, Xiaodan Fan
来源: Annals of Applied Statistics
主题: 其他
相关性: 2/10
机构绿灯: University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/25-aoas2114

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计/科学问题是：如何从仅有正样本（结合对）的配对序列数据中，学习两个序列（如蛋白质/多肽）之间的交互规律，并预测新的交互。当前该方向的成熟度处于"方法涌现期"：高通量测序技术（如单细胞TCR-seq）产出了大量配对的正样本数据，但负样本（不结合对）的获取极度受限且充满测量偏差，导致传统的判别式分类框架失效，迫使研究者转向生成式建模与仅正样本学习。

发展脉络（history）： - 奠基工作：TCR-peptide结合预测的早期工作主要基于物理化学亲和力测量与序列比对（如 Dash et al. 2017 的 GLIPH2 方法，通过聚类找共享肽基序的TCR），但这些方法无法给出定量的结合概率，且对非贡献残基的建模是粗粒度的。 - 主要进展（深度学习路线）：近年来，判别式深度学习模型被广泛引入，如 Springer et al. 2020 的 TCRex 和 Weber et al. 2021 的 DeepTCR。这些工作将结合预测视为二分类问题，核心瓶颈在于负样本的构造：随机配对产生的负样本过于"简单"（与真实不结合对分布偏差大），导致模型在真实不结合对上泛化差。作者在 intro 中明确指出："various deep-learning methodologies have been proposed... several challenges remain unsolved, including the absence of negative data"。 - 当前 frontier 与本文的位置：针对负样本缺失，一条路线是尝试无监督/弱监督对比学习（如 Gao et al. 2022 的 ATM模型），另一条即本文的概率生成路线。作者将缺口 frame 为：判别式模型依赖负样本且无法区分"非贡献残基"与"贡献残基"，而生成式模型可以仅用正样本刻画联合分布，从而自然绕过负样本构造，并通过交互得分矩阵分离贡献与非贡献残基。本文即填补此缺口：提出 SIM (Sequence Interaction Model)。

子线索聚类：被引文献及相关工作大致落在三条子线索上： 1. 判别式/分类路线：将结合预测视为 \(P(Y=1|X_1, X_2)\) 的估计。代表作如 TCRex, DeepTCR。这一簇的瓶颈是负样本偏差与过拟合。 2. 序列比对/聚类路线：基于共享基序找相似TCR。代表作如 GLIPH2。这一簇的瓶颈是缺乏定量概率与交互的残基级解析。 3. 生成式/仅正样本路线：建模 \(P(X_1, X_2 | Y=1)\) 或 \(P(X_1, X_2)\) 的特定子结构。本文属于此簇，且是目前唯一明确引入"交互得分矩阵"以分离贡献/非贡献残基的生成模型。

这个方向在追问的核心问题： 1. 仅正样本学习的识别性：在没有负样本时，仅靠正样本的联合分布，能否识别出交互结构（而非各自序列的边缘偏好）？当前主流方法（如判别式加伪负样本）回避了此问题，直接假设伪负样本分布近似真实负样本。 2. 非贡献残基的建模：序列中大量残基对结合无贡献（随机演化），如何在不引入先验生物学标注下，从数据中自动区分"贡献残基"与"非贡献残基"？当前方法通常将全序列一视同仁地输入神经网络，缺乏可解释的分离机制。 3. 模型验证策略：仅有正样本时，如何验证模型确实学到了"交互"而非边缘偏好？当前缺乏针对生成式交互模型的特异性验证框架。

⚠️ 作者的 framing： - 作者把缺口 frame 成"判别式模型依赖负样本且无法区分非贡献残基"，好让 SIM 的生成式+交互得分矩阵成为"显然的下一步"。 - 被淡化或回避的竞争路线：作者未讨论对比学习/自监督路线（如基于序列扰动的负采样+对比损失，这在近年蛋白质交互预测中很活跃），也未讨论半参数/因果路线（将结合视为处理效应，用倾向得分或IV处理缺失负样本）。Intro 中明显缺失的是对"仅正样本学习"在统计理论上的识别性讨论——作者直接假设模型可识别，未引用任何仅正样本学习的统计理论文献（如 denoising / positive-unlabeled learning 的理论工作）。 - 明显该被引却未出现的：PU learning (Positive-Unlabeled learning) 的理论文献（如 Elkan & Noto 2008, Bekker et al. 2020），以及蛋白质交互预测中的对比学习近期工作。这是值得研究者去查的缺口：作者是否忽略了 PU 理论中关于识别性的关键假设？

张力：未见明显对立引用。判别式路线与生成式路线在方法论上互补而非矛盾，但存在一个隐含张力：判别式路线认为"伪负样本虽偏差但可用偏差修正"，生成式路线认为"应彻底回避负样本"。作者未对这两种哲学的统计风险做定量对比。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与指标：
\(X_1 \in \mathcal{A}^{L_1}\)：序列1（如 TCR），长度 \(L_1\)，字母表 \(\mathcal{A}=\{a_1,...,a_{20}\}\)（20种氨基酸）。
\(X_2 \in \mathcal{A}^{L_2}\)：序列2（如 peptide），长度 \(L_2\)。
\(Y \in \{0, 1\}\)：结合指示变量（1=结合，0=不结合）。
\(S \in \mathbb{R}^{L_1 \times L_2}\)：交互得分矩阵，\(S_{ij}\) 表示 \(X_1\) 第 \(i\) 位残基与 \(X_2\) 第 \(j\) 位残基的交互强度。
\(\theta\)：模型参数集，包含 \(S\) 及边缘分布参数。
\(n\)：样本量（正样本对数）。
模型（数据生成机制）： SIM 是一个概率生成模型，建模的是正样本的联合分布 \(P(X_1, X_2 | Y=1)\)。其核心结构将序列对的生成分解为：
非贡献残基：由各序列的边缘分布 \(P_{\text{null}}(X_1)\) 和 \(P_{\text{null}}(X_2)\) 生成，这些残基与结合无关，独立演化。
贡献残基：由交互得分矩阵 \(S\) 驱动，\(X_1\) 的第 \(i\) 位与 \(X_2\) 的第 \(j\) 位若 \(S_{ij}\) 大，则倾向于共同出现特定氨基酸组合（结合偏好）。
整体联合分布为边缘分布与交互分布的混合/叠加，受 \(S\) 调控。
可观测数据：
实际能观测到的是：\(n\) 个正样本对 \(\{(X_1^{(k)}, X_2^{(k)})\}_{k=1}^n\)，即 \(Y=1\) 的配对序列。数据形态为两条离散字母序列的配对。
想要但观测不到的是：负样本 \((X_1, X_2 | Y=0)\) 的分布，以及结合指示 \(Y\) 的边缘分布 \(P(Y=1)\)（即先验结合率）。此外，"哪些位置是贡献残基"也是不可观测的潜在结构，只能靠 \(S\) 的稀疏性/阈值去识别。

第二步：最小内核——最简特例（\(L_1=1, L_2=1\)，单残基对交互）

剥掉所有多位置、边缘分布复杂度，考虑最简特例：两条序列各只有1个残基（\(L_1=1, L_2=1\)），即单字母对 \((x_1, x_2)\) 的结合问题。

要估的对象：交互得分矩阵退化为 \(2 \times 2\) 矩阵（此处为 \(20 \times 20\) 的得分矩阵 \(S\)），每个元素 \(S_{ab}\) 表示氨基酸 \(a\) 与 \(b\) 的结合偏好强度。
模型退化：正样本的联合分布 \(P(x_1=a, x_2=b | Y=1) \propto P_{\text{null}}(a) P_{\text{null}}(b) \cdot \exp(S_{ab})\)（此处假设了类似 Ising/Potts 模型的指数族形式，交互项以 \(\exp(S_{ab})\) 调制边缘独立分布）。
最小内核的数学问题：仅从正样本 \(\{(a_k, b_k)\}_{k=1}^n\)（即 \(Y=1\) 的观测），能否分离出 \(S_{ab}\)（交互偏好）与 \(P_{\text{null}}(a)P_{\text{null}}(b)\)（边缘独立偏好）？
为什么成立/如何走：若假设 \(P_{\text{null}}\) 已知或可从单序列数据估出（TCR/peptide的边缘分布可从未配对测序数据获得），则正样本联合分布与边缘独立分布的比值直接给出 \(\exp(S_{ab})\) 的估计：\(\hat{S}_{ab} = \log \frac{\hat{P}_{\text{pos}}(a, b)}{\hat{P}_{\text{null}}(a)\hat{P}_{\text{null}}(b)}\)。这就是最小内核——交互得分是正样本联合分布与边缘独立分布的对数比。论文的一般情形只是将此逻辑扩展到多位置（\(S\) 变为 \(L_1 \times L_2\) 矩阵），并引入稀疏性假设（大部分 \(S_{ij}=0\) 即非贡献残基）与更精细的概率图模型结构。

三、这篇论文做了什么¶

三句话： ①研究了仅有正样本的配对序列交互预测问题（TCR-peptide结合）； ②核心方法是概率生成模型 SIM，通过交互得分矩阵 \(S\) 分离贡献与非贡献残基，仅用正样本训练； ③主要结论是 SIM 能在无负样本下揭示结合偏好、生成特异性结合肽，并在模拟与真实结构数据上验证了交互得分的生物学可解释性。

关键设定与假设：在最小记号基础上补全： - 假设1（仅正样本可学习性）：正样本联合分布 \(P(X_1, X_2 | Y=1)\) 可分解为边缘独立分布与交互驱动的分布的混合，且交互部分由得分矩阵 \(S\) 参数化。统计含义：结合是由局部残基对交互驱动的，而非全局序列协变。 - 假设2（边缘分布已知/可估）：\(P_{\text{null}}(X_1)\) 和 \(P_{\text{null}}(X_2)\) 可从单序列数据（未配对TCR/peptide库）估出，或作为模型参数与 \(S\) 联合估计。统计含义：这是识别性的关键——若边缘分布完全未知且与交互混杂，仅正样本无法识别 \(S\)（因为 \(P_{\text{pos}}\) 可被边缘偏好解释）。作者通过引入位置特异性边缘参数（position-specific null distributions）部分缓解此问题。 - 假设3（交互稀疏性）：\(S\) 中大部分元素为0（非贡献残基对），只有少数位置对有非零得分。统计含义：这是高维问题的降维假设，\(S\) 的维度为 \(L_1 \times L_2 \times 20 \times 20\)（如 \(L_1=20, L_2=9\) 时约 72000 参数），稀疏性使估计可行。 - 假设4（条件独立性）：给定 \(S\) 的非零位置对，非贡献残基之间独立，贡献残基对的交互仅依赖对应 \(S_{ij}\)。统计含义：类似 Potts 模型的局部交互假设，回避了长程依赖建模。

主要结果： - 结果1（模型估计与识别）：SIM 通过最大化正样本的似然 \(P(X_1, X_2 | Y=1; S, \theta_{\text{null}})\) 估计 \(S\) 与边缘参数。在稀疏性约束下，\(S\) 的非零元素可被识别为贡献残基对。直觉：正样本中高频共现的残基对，若超出边缘独立预测的频率，即被 \(S\) 捕获为交互。 - 结果2（生成与预测）：给定 TCR 序列 \(X_1\)，SIM 可生成特异性结合的 peptide \(X_2\)，通过条件分布 \(P(X_2 | X_1, Y=1; S)\) 实现。此生成能力是判别式模型不具备的。 - 结果3（验证策略）：作者提出三层验证：(a) 模拟数据：验证 \(S\) 估计的准确性；(b) 配对序列数据：验证生成肽的特异性（与随机肽对比）；(c) 实验结构数据（PDB数据库）：将 \(S\) 的非零位置与已知晶体结构中的物理接触残基对比，验证生物学可解释性。这是本文最核心的量化结论：SIM 的交互得分矩阵与物理接触残基有显著对齐，而判别式模型的注意力权重对齐较差。

证明路线与技术技巧：本文为应用/方法型，无传统定理证明，但模型推导与估计路线如下： - 整体路线： 1. 定义生成模型 \(P(X_1, X_2 | Y=1; S, \theta_{\text{null}})\)（Potts/Ising 型指数族）。 2. 引入稀疏性约束（\(S\) 的 \(L_1\) 或阈值惩罚），使非贡献残基对的得分趋于0。 3. 最大化正样本似然（或等价的对比目标：正样本联合概率 vs 边缘独立概率）。 4. 通过 \(S\) 的非零元素识别贡献残基，通过条件分布生成特异性肽。 - 关键跳跃点：仅正样本似然最大化如何避免退化为边缘分布？作者的关键设计是将边缘分布参数 \(\theta_{\text{null}}\) 与交互参数 \(S\) 解耦，并在似然中强制 \(S\) 解释"超出边缘独立"的共现信号。若 \(S=0\)，模型退化为边缘独立；若 \(S\) 非零，模型必须用交互解释正样本的协变。这是识别性的核心跳跃。 - 技术技巧点名： - 指数族/ Potts 模型：用于参数化交互分布，\(S\) 作为耦合参数。 - 正样本对比学习：似然目标等价于拉大正样本联合概率与边缘独立概率的差距，类似无监督对比目标。 - 稀疏惩罚（L1或阈值）：用于 \(S\) 的降维与非贡献残基的分离。 - EM/变分推断：在 \(S\) 与边缘参数联合估计时，处理隐变量（贡献/非贡献残基的分配）。

真实例子与应用： - 数据：(1) VDJdb 数据库（TCR-peptide配对正样本，来自免疫学文献 curated）；(2) PDB 数据库（TCR-peptide复合物晶体结构，提供物理接触残基的 ground truth）。 - 如何用上去：在 VDJdb 正样本上训练 SIM，估计 \(S\)；然后对特定 TCR（如针对 CMV pp65 肽的 TCR），生成预测结合肽，并与已知结合肽对比。在 PDB 结构数据上，提取晶体结构中的残基接触图，与 SIM 的 \(S\) 非零位置对比。 - 结果：SIM 生成的肽在序列相似性上显著高于随机肽；\(S\) 的非零位置与 PDB 接触残基的重叠率显著高于基线（边缘独立模型与判别式模型的注意力权重）。 - 想说明什么：验证 SIM 确实学到了"交互"而非边缘偏好，且交互得分有物理结构支撑（可解释性）。

🔎 结论是否比证明窄： - 作者在 abstract/intro 中 claim SIM 能"distinguishes between noncontributory residues and those essential for binding"，但模型推导中此能力严格依赖稀疏性假设与边缘分布的正确估计。若边缘分布估偏（如单序列数据有选择偏差），\(S\) 会将边缘偏差误识别为"交互"。此识别性的严格条件（如边缘分布需满足何种覆盖条件）未被定量证明，仅靠模拟与结构验证支撑。这是典型的"结论宽于证明"：claim 了一般性区分能力，但证明/验证仅在特定数据集与假设下成立。

四、开放问题（点到为止）¶

仅正样本学习的统计识别性界：在什么最小条件下（边缘分布的支撑条件、稀疏性度、样本量 \(n\) 相对维度 \(L_1 L_2 |\mathcal{A}|^2\) 的阶），仅正样本能以 \(\epsilon\)-误差估计 \(S\)？作者未给出理论界，仅靠模拟验证。扎根点：Abstract claim "trained solely on positive data sets... elucidates binding preference"，但无定理保证识别性。
边缘分布偏差对 \(S\) 估计的影响：若单序列数据（估 \(P_{\text{null}}\)）存在选择偏差（如测序偏好），\(S\) 的估计偏差有多大？能否引入 PU-learning 的偏差修正理论？扎根点：Intro 提到 "absence of negative data" 是挑战，但回避了正样本与边缘数据本身的选择偏差问题。
交互得分矩阵 \(S\) 的因果/中介解释：\(S_{ij}\) 作为残基对交互的度量，与因果中介分析中的"成分效应"有形式相似性——能否将 \(S\) 的估计框架嵌入因果图（残基位置作为处理/中介，结合作为结局），从而给出反事实解释（"若突变第 \(i\) 位残基，结合概率变多少"）？扎根点：Intro claim "distinguishes noncontributory residues"，但未给出反事实/因果层面的形式化。

提醒：要确认上述第1条（识别性界）是否真 gap，去读近5篇 PU learning 与仅正样本交互估计的 intro——若都回避理论界，则是共识缺口；若有理论工作给出界但本文未引，则是作者遗漏。

Maintained by 陈星宇 · Homepage · Source on GitHub

Sequence interaction model with applications to TCR-peptide binding¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论