谷歌AI一次性注释近10%蛋白质序列----中国科学院网信工作网

创新与应用案例

谷歌AI一次性注释近10%蛋白质序列

日期：2022-03-22

| 来源：【字号：大中小】

谷歌与欧洲生物信息学研究所合作开发出一种名为ProtCNN的深度学习模型，其能够使用神经网络准确预测蛋白质序列的功能，使更多未知蛋白质序列得到注释。这种新方法可以较为准确地预测蛋白质功能、突变的功能效应，并进行蛋白质设计，进而应用于药物发现、酶设计，甚至是了解生命的起源。相关成果于2月21日发表于《自然生物技术》杂志。

此前常用的蛋白质序列功能的注释方法是，在大型标记序列集合上进行成对比对的BLASTp查询方法和基于signature构建的profile 隐马尔可夫模型。这些方法虽然有效但效率相对较低。过去5年里，这些方法仅让主流蛋白质家族数据库Pfam中蛋白质序列数量增长了不到5%。

谷歌的研究人员对深度学习模型是否可以补充现有方法进行探究，并提供了能够更广泛覆盖蛋白质宇宙的蛋白质序列功能预测模型ProtCNN。通过分析蛋白质序列中的随机和聚类分裂，研究人员发现，在注释保留的测试序列时，ProtCNN模型比当前方法在随机和聚类分裂中产生的错误更少。为确认模型捕捉到了未对齐蛋白质序列的结构，研究人员使用跨蛋白质家族学习的联合表示法，一次性学习注释模型未训练蛋白质家族的序列。此外，要为更多蛋白质序列集带来注释，还须进行远程同源性检测。而将ProtCNN模型与现有方法相结合，则大大提高了远程同源性检测的准确性，这对扩大蛋白质宇宙的覆盖范围至关重要。

谷歌的研究使Pfam数据库中注释的蛋白质序列的覆盖范围扩大了9.5%，一举超过了过去十年科学家在此领域的成果，并预测了360种Pfam数据库未注释过的人类蛋白质的功能。研究结果证实，类似ProtCNN的深度学习模型将成为未来蛋白质注释工具的核心组成部分。

信息来源：

https://www.nature.com/articles/s41587-021-01179-w

DeepTech深科技. https://mp.weixin.qq.com/s/-QjVo7gsSjFlxveeR364gw

ScienceAI. https://mp.weixin.qq.com/s/NdtWRiZSche_k-B5J857wA

附件：