J. Cheminform.丨瑞德林英国公司最新论文预测蛋白溶解度

2024年1月15日

2023年12月,来自瑞德林英国AI研发中心、英国伯明翰大学的刘健教授研究团队在国际知名学术期刊Journal of Cheminformatics(影响因子8.6)发表了题为“HybridGCN for protein solubility prediction with adaptive weighting of multiple features”的高质量长篇文章,展示了研究团队在AI辅助生化工程领域的最新研究成果。

以下为论文解析:

研究项目简介

蛋白质的溶解度是一个关键的生物物理特性,对于评估蛋白质在生物和化学工程中的有效性至关重要,它是影响药物研究和产量的主要因素。蛋白质的溶解性差会影响蛋白质的生产,蛋白质的一级结构,特别是氨基酸序列,是蛋白质溶解度的主要决定因素。许多研究表明,蛋白质的溶解度与基于序列的特征之间存在着很强的相关性,因此,探索如何使用基于序列信息来估计溶解度的预测技术至关重要。

 

为了解决这些问题,研究团队提出并实现了一种基于多特征自适应加权融合GCN的蛋白质溶解度的预测方法,称为HybridGCN,一个基于图卷积神经网络的统一框架,在充分整合人工特征和深度特征的优势下,用于预测蛋白质溶解度。

 

大多数现有模型都是针对二元分类任务设计的,将数据集分类为可溶和不可溶类别,忽略了溶解度的连续性。在蛋白质工程领域,连续溶解度值比二元分类更重要,因为它们为下游任务提供了更多指导信息。例如,在大型蛋白质数据集中,可以基于连续的溶解度值来选择最佳蛋白质序列,而二进制值无法完成这一任务。此外,由于手工特征的泛化能力有限,传统的机器学习模型在性能方面落后于深度学习模型。深度学习模型在各种蛋白质工程任务上都取得了最先进的性能,包括结构预测、蛋白质设计、蛋白质结合物设计、稳定性预测和溶解度预测。因此,了解如何以更灵活的方式将不同的生物物理特征与深度学习特征结合到一个模型中是可行的解决方案。

 

HybridGCN预测框架

首先使用零样本学习ESM-1v1模型对蛋白质数据进行特征提取获得深度特征,ESM-1v1特征捕获了与蛋白质功能和结构有关的广泛而相关的信息,从而有利于预测蛋白质溶解度。深度特征与5种人工特征组合在一起作为HybridGCN框架的输入。混合数据进入框架后,首先经过一种自适应特征重新加权(AFR)模块,该模块集成了手工特征中的领域知识与从深度学习模型中提取的深度线索。随后经过GCN模块、注意力模块、最后经过全连接层和sigmoid映射为预测的溶解度。将本方法应用于真实具有溶解度值的数据集eSOL和S. cerevisiae dataset上。在结果表明,该方法重点关注了深层特征和经典手工特征之间的相互作用,并观察到某些经典特征,特别是进化特征,与深层特征相辅相成,大大提高了蛋白质溶解度预测的准确性,获得了当前最先进的预测效果。
 

图1:HybridGCN框架图

为了验证所提模块对整体模型性能的贡献,研究团队对模型进行了消融实验,具体为从HybridGCN中单独移除AFR模块和ESM-1v特征,从而产生两个不同的模型:ESM+GCN模型和AFR+GCN模型。与单独使用GCN相比,在GCN中加入ESM-1v特征可以显著提高R2 (0.493) 和召回 (0.713) 。性能的显著提高主要因为ESM-1v模块,该模块作为一种强大的零样本学习功能,吸收了与蛋白质结构和功能有关的信息。这进一步强化了蛋白质溶解性与蛋白质结构和功能密切相关的概念。AFR模块还提高了 GCN在所有评估指标上的性能。这些发现表明,并非所有单个特征都同样重要,通过AFR模块学习到一种优越的复合特征,该特征有效地突出了与蛋白质溶解性有关的最具信息量的特征。

图2:HybridGCN和GCN在不同训练阶段的性能

图2展示了在不同训练阶段和各种评估指标上HybridGCN优于GCN。总体而言,HybridGCN在回归指标和分类指标上均在四种设置中表现最佳。观察到的性能改进可归因于ESM-1v特征和AFR模块的贡献。这些结果强调了设计良好的特征工程策略在蛋白质溶解度预测任务中的重要性。

性能比较

在eSOL数据集上,该方法跟当前多种蛋白质溶解度预测方法进行比较,结果见表1。GraphSoLEnsemble和GraphSoLSingle都采用了图卷积网络 (GCN) 作为网络架构,并利用多种传统特征作为输入,包括物理化学特征 (AAPHY7)、进化特征 (PSSM 和 HMM)、结构特征 (SPIDER3) 和Blosum62特征。GraphSoL的作者进行了广泛的消融实验,表明某些特征对于溶解度预测任务更重要,进化特征比结构特更关键。这些观察结果从两个方面启发了该方法:(1)引入AFR模块,能够根据特征与溶解度预测的相关性调整特征的重要性;(2)需要输入更强大的特征,如ESM-1v特征,它捕获了与蛋白质结构和功能相关的丰富信息。通过结合AFR模块和ESM-1v特征,该HybridGCN在eSOL数据集上超越了所有之前的方法。

表1:在ESOL数据集上与其他方法的性能比较

SeqVec和TAPE是用于溶解度预测的迁移学习框架,它们利用预先训练的深度网络中的深层特征或嵌入作为溶解度预测任务的输入。然而,由于缺乏可以补充深层特征的传统特征(如进化特征),它们的性能不如HybridGCN。DeepSoL整合了额外的生物和结构特征来改进深层特征,但其性能受到使用基本卷积神经网络作为网络架构的限制。虽然它包含来自多个来源的特征,但它只依赖于简单的连接操作来组合这些特征,这可能无法有效地选择和增强溶解度预测的最具信息量的特征。相比之下,HybridGCN是基于GCN的网络架构,直接处理图结构并利用蛋白质的结构信息。由于引入了AFR模块和ESM-1v特征,该HybridGCN在所有指标上始终优于所有其他模型。将HybridGCN与其他高性能方法在S. cerevisiae dataset上进行了比较,结果见表2。从结果种观察到OurEnsemble在比较方法中取得了最佳的R2结果 (0.390) ,这表明 HybridGCN在建模特征关系方面优于其他方法。值得注意的是,OurSingle (R2=0.378) 在S. cerevisiae dataset上的表现优于GraphSolEnsemble (R2=0.372) ,尽管性能增益很小,但该单个模型在推理过程中比集成模型更高效。

表2:在S. cerevisiae dataset上与其他方法的性能比较

总结

研究团队提出了一种新的图神经网络HybridGCN,它将深度特征与经典的溶解度相关特征相结合,以提高蛋白质溶解度预测的准确性。该模型考虑了蛋白质序列的结构和生物学特征,以及从高容量深度学习模型中提取的深层特征,以提高预测性能。分析可以识别深层特征和经典特征之间的相互作用,其中某些经典特征在溶解度预测任务中补充了深层特征。为了进一步改进预测任务,引入了ESM-1v特征,即零样本学习特征,以获取关于蛋白质功能和结构的全面和相关信息。此外,提出了一种自适应特征加权(AFR)模块,以探索特征相互作用并增强溶解度预测中最具信息量的特征。消融实验和比较证明了ESM-1v特征和AFR模块的有效性。HybridGCN在公开数据集上实现了最先进的性能,可以预测连续的溶解度值。

关于瑞德林

瑞德林致力于成为绿色活性原料全球领导者,采用新一代合成生物技术,专注于实现肽、蛋白、糖、核酸等活性原料的绿色生产。公司依托创业团队20多年的科研积累和产业经验,建立了国内领先的多学科交叉技术平台,现已实现包括司美格鲁肽、HMOs、蓝铜肽、NMN、S型玻色因、NAD+、麦角硫因等在内的数十种绿色活性原料量产,累计为功效护肤、生物医药、营养健康等领域的近千家知名企业提供高品质绿色活性原料。经过近6年的快速发展,公司实现在研发投入、规模和产出等方面都位居国内同类企业前列,已申请技术发明专利近百项,获得国家专精特新小巨人、国家高新技术企业、深圳市专精特新中小企业、深圳市潜在独角兽企业、深圳市博士后创新实践基地、深圳医疗健康创新30强、珠海市创新创业团队、甘肃省专精特新中小企业等国家、地方等各类称号十余项,2022年入选深圳高成长企业TOP100(未上市生物类企业第一)、2023年入选哈佛商业评论高能创新团队。

 

参考资料

文中使用的数据集是公开数据https://github.com/jcchan23/GraphSol/tree/master/Data

代码公开在github:https://github.com/IanDragon

原文请参考:

Chen, L., Wu, R., Zhou, F. et al. HybridGCN for protein solubility prediction with adaptive weighting of multiple features. J Cheminform 15, 118 (2023). https://doi.org/10.1186/s13321-023-00788-8




 

复制成功