首页 > 分享 > 中科院深圳先进院殷鹏/胡帆AS：多模态蛋白表征方法及其迁移性量化

中科院深圳先进院殷鹏/胡帆AS：多模态蛋白表征方法及其迁移性量化

萌宠菠菠乐园
2024-10-27 22:45

5月30日，中国科学院深圳先进技术研究院数字所殷鹏团队在Advanced Science在线发表了最新研究成果，题为“A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks”。该工作提出了一种多模态蛋白质表征方法，通过融合多种蛋白质模态，包括序列、结构和基因本体（GO）信息来实现对蛋白的高效表征。同时，提出了一种基于最优传输的特征空间表示度量，用于量化从预训练的多模态表征到下游任务的动态迁移性。这种度量可以有效地捕捉任务间的分布差异，并预测任务间的适应性。这项研究的成果有助于更好地理解蛋白质的性质和功能，为计算生物学领域的研究提供了新的工具和方法。助理研究员胡帆博士为论文的第一作者，数字所硕士研究生胡奕绅、张维鸿为共同一作。潘毅教授为论文的共同作者，殷鹏副研究员为论文的通讯作者。

蛋白质是生命的物质基础，是构成细胞的最基本的有机物，担当着生命活动承担者的角色。针对蛋白质的表征学习，简单来说，就是通过计算机算法将蛋白质的复杂信息转化为一种可以被计算机理解和处理的形式，如向量、矩阵等。其意义在于使我们能够利用计算机的强大计算能力来研究和理解蛋白质的复杂性，以及预测蛋白质的行为。大多数现有的蛋白质表示方法都来自于为自然语言文本设计的自监督语言模型。然而，蛋白质的结构和功能是复杂的，且在不同的生物环境中可能会发生变化。因此，如何将蛋白质的序列、结构和功能进行有效融合，以掌握更丰富的多模态表征信息，进而提升下游任务的性能，如蛋白质功能和蛋白-蛋白结合预测等，是一个重要的挑战。另一方面，现有研究表明，下游任务通常可以从预训练模型的信息迁移中受益。那么，是否能量化这种迁移性，从而确定模型的预训练与下游任务间的定量关系以及任务间特征空间的分布与其相互间迁移性的定量关系？解决这些问题对于蛋白表征的训练及应用具有重要意义。

图1. 多模态蛋白表征框架及数据

这项工作使用的数据如图1右上所示，包含蛋白序列、结构、功能注释数据以及蛋白细粒度如motif、domain、region等信息。提出的多模态融合表征框架包括四个主要组成部分（图1左）：1）蛋白质序列、结构和GO的特征提取。2）通过自注意力机制对蛋白质序列和结构进行token-level的局部对齐。然后将序列-结构特征与GO特征进行全局对齐。3）使用五个特定的预训练目标对多模态模型进行预训练。4）将得到的蛋白质表示应用于下游任务和跨任务学习过程量化。

该方法得到的蛋白多模态表征在多项蛋白相关的下游任务（如蛋白稳定性预测、蛋白-蛋白互作预测等）取得了优异表现。另一方面，这项工作提出了一种新的跨任务迁移性度量方法（OTFRM），用于量化从预训练表征到相关下游任务以及下游任务间相互的动态迁移性。研究者计算了这些下游任务之间的成对距离，并观察到了任务间特征空间分布和适应性之间的强相关性（图2）。该度量方法可用于评估跨任务学习过程，预测适应性，引导各种任务的微调，并指导蛋白质表征学习的神经网络和训练目标设计。

图2. 跨任务迁移性度量方法

该论文的主要结论包括如下几点：

（2）模型架构。在多模态机器学习中，不同模态的对齐和融合是关键。跨模态的信息异质性可能阻碍有效的融合。每种蛋白质模态都与一个捕获领域特定特征的私有子空间和一个捕获共享特征的共享子空间相关联。过早进行多模态融合可能会导致模态特定特征的丢失。因此，研究团队分别提取了每种蛋白质模态的特征，包括序列和结构数据的进化和空间信息。然后，根据不同模态的特性，它们在token或global级别进行对齐。这种技术可以比传统方法（如在后期阶段不进行对齐就连接模态嵌入）保留更多的模态特定特征。在假设存在领域特定和共享特征的情况下，可以尝试更多方法。例如，通过训练一个领域分类器来最小化领域共享特征和最大化领域特定特征，可能会得到更好的表示。

（3）合适的训练目标。在表示学习中，如何设计相关的训练目标，从而指导模型优化和特征提取是非常重要的。然而，在定义预训练目标时，现有的方法大都依赖于从自然语言处理（如掩码语言建模，MLM）获得的经验。研究团队引入了更多的蛋白质特定训练目标，以提取高级和细粒度的蛋白质领域特征。虽然他们的有效性已经得到确认，但仍有很大的改进空间。例如，目前还不清楚基于哪些目标获得的哪些特征对特定的生物任务贡献最大。为给定任务封装所需属性设计一系列训练目标的合理性仍然是一个挑战。

（4）未来的研究方向。通过量化可转移性来合理设计蛋白质表示学习。需要强调的是，蛋白质的不同生物属性会对各种下游任务的表示提出不同的要求，所以想要将所有下游任务需求的特征嵌入到一个表示中是无法实现的。如果面向所有下游任务仅使用单一的蛋白质表示是无法达到最优效果的。因此，应该定量地分析生物属性与隐含特征之间的关系，以及在预训练阶段应该包含哪些模态或训练任务，从而提取并迁移特定任务最适合的属性及特征。该研究团队提出了一种新的度量方法，用于量化预训练蛋白质表示对下游任务的动态可转移性。他们已经证明，这个度量可以用来评估跨任务学习过程，预测适应性，并指导各种任务的微调。

WILEY

论文信息：

A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks

Fan Hu, Yishen Hu, Weihong Zhang, Huazhen Huang, Yi Pan, Peng Yin

Advanced Science

Advanced

Science

期刊简介

Advanced Science 是Wiley旗下创刊于2014年的优质开源期刊，发表材料科学、物理化学、生物医药、工程等各领域的创新成果与前沿进展。期刊为致力于最大程度地向公众传播科研成果，所有文章均可免费获取。被Medline收录，PubMed可查。最新影响因子为17.521，中科院2021年SCI期刊分区材料科学大类Q1区、工程技术大类Q1区。

AdvancedScienceNews

Wiley旗下科研资讯官方微信平台

分享前沿资讯｜聚焦科研动态

发表科研新闻或申请信息分享，请联系：ASNChina@Wiley.com

责任编辑：