创新与应用案例

谷歌AI一次性注释近10%蛋白质序列

日期:2022-03-22

|  来源:【字号:

 

谷歌与欧洲生物信息学研究所合作开发出一种名为ProtCNN的深度学习模型,其能够使用神经网络准确预测蛋白质序列的功能,使更多未知蛋白质序列得到注释。这种新方法可以较为准确地预测蛋白质功能、突变的功能效应,并进行蛋白质设计,进而应用于药物发现、酶设计,甚至是了解生命的起源。相关成果于221日发表于《自然 生物技术》杂志。

此前常用的蛋白质序列功能的注释方法是,在大型标记序列集合上进行成对比对的BLASTp查询方法和基于signature构建的profile 隐马尔可夫模型。这些方法虽然有效但效率相对较低。过去5年里,这些方法仅让主流蛋白质家族数据库Pfam中蛋白质序列数量增长了不到5%

谷歌的研究人员对深度学习模型是否可以补充现有方法进行探究,并提供了能够更广泛覆盖蛋白质宇宙的蛋白质序列功能预测模型ProtCNN。通过分析蛋白质序列中的随机和聚类分裂,研究人员发现,在注释保留的测试序列时,ProtCNN模型比当前方法在随机和聚类分裂中产生的错误更少。为确认模型捕捉到了未对齐蛋白质序列的结构,研究人员使用跨蛋白质家族学习的联合表示法,一次性学习注释模型未训练蛋白质家族的序列。此外,要为更多蛋白质序列集带来注释,还须进行远程同源性检测。而将ProtCNN模型与现有方法相结合,则大大提高了远程同源性检测的准确性,这对扩大蛋白质宇宙的覆盖范围至关重要。

谷歌的研究使Pfam数据库中注释的蛋白质序列的覆盖范围扩大了9.5%,一举超过了过去十年科学家在此领域的成果,并预测了360Pfam数据库未注释过的人类蛋白质的功能。研究结果证实,类似ProtCNN的深度学习模型将成为未来蛋白质注释工具的核心组成部分。

信息来源:

https://www.nature.com/articles/s41587-021-01179-w

DeepTech深科技. https://mp.weixin.qq.com/s/-QjVo7gsSjFlxveeR364gw

ScienceAI. https://mp.weixin.qq.com/s/NdtWRiZSche_k-B5J857wA

附件: