华为与实验室客户联合创新,打造全流程蛋白质结构预测工具MEGA-Protein
本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>
近半个世纪以来,蛋白质结构预测一直被誉为“21世纪的生物物理学”最重要的课题之一。蛋白质在分子生物学的中心法则中具有十分重要的地位,在各种生命过程中不可或缺。蛋白质的功能多样性归因于它们能够从线性高分子形状折叠成独特而多样的三维结构形态,在阿尔茨海默病中它们会折叠和聚集,在囊性纤维化中它们会进入细胞中错误的空间,这些仅是众多致病机制中的一小部分。因此,准确快速的蛋白质结构预测不仅可以在学术研究领域帮助科学家快速获得或验证关键蛋白结构,促进人们对重要生命过程中分子机理的理解,而且可以在医疗健康和生物工程领域作为有利工具,引发药物靶点发现和功能蛋白设计等。
蛋白质构象数量巨大,计算过程十分复杂,通过AI对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍以传统的实验室手段为主,如X-ray、核磁共振和冷冻电镜等,单个蛋白质的观测成本高达数月及数百万人民币,而且无法预测精确的三维结构,很难直接通过它们去探索整个“蛋白质宇宙”。
2020年,谷歌DeepMind团队发布了基于人工智能的蛋白质结构预测工具AlphaFold2。AlphaFold2仅通过氨基酸序列就能以前所未有的准确度预测蛋白质三维结构,弥补了传统蛋白质结构预测方法一直存在的计算精度不足的缺陷,开启了计算生物学的新时代。自此,我国学术界也踏上追寻中国版AlphaFold的道路,这条路虽布满荆棘,但也终会迎来突破与创新。
华为实验室客户C着眼于解决国家乃至全人类面临的重大挑战,率先扛起大旗,选择与北京大学、深圳湾实验室以及华为共同合作,在中国算力网-智算网络关键节点“西安雁塔人工智能创新发展中心”的昇腾AI强大算力支持下,在全场景AI框架昇思MindSpore上推出了全流程蛋白质结构预测工具MEGA-Protein。
MEGA-Protein包含AI MSA引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集PSP等关键技术。该方案通过借助华为智算实验室行业解决方案中的异构计算架构CANN(Compute Architecture for NeuralNetwork)释放昇腾AI的澎拜算力,借助软硬件协同优化大大提高了蛋白质预测的计算效率;还能够在MSA少样本甚至零样本的情况下,帮助AlphaFold2维持甚至提高推理精度,突破在“孤儿序列”、“高异序列”和人造蛋白等MSA匮乏场景下无法做出准确预测的限制。
参考DeepMind于2021年7月份开源的蛋白质结构预测模型AlphaFold2,本次开源的蛋白质结构预测推理工具模型部分与其相同,在多序列比对阶段,采用了MMseqs2进行序列检索,相比于原版算法端到端运算速度有2-3倍的提升,混合精度下,单步迭代由20秒缩短至12秒,性能提升超过60%。训练长度由348提升至512。
CAMEO竞赛(Continous Automated Model Evaluation)是全球蛋白质结构预测领域最权威的比赛之一。2022年4月,基于全场景AI框架昇思Mindspore开发的蛋白质结构预测模型在CAMEO拿下竞赛第一,并连续霸榜四周!
这款基于昇腾AI的蛋白结构预测工具的出现不仅填补了中国AI基础软硬件在蛋白质结构预测领域成绩空白,还大大降低了广大生物医疗实验工作者的使用门槛,后续也将为生物蛋白质领域的基础研究与应用工作提供持续助力。昇思MindSpore首席架构师金雪锋评论称:“该工作是产学界合作的一次重大成功实践,也是科学计算与人工智能结合潜力的展示。支持多计算范式的MindSpore能够有效提高科研工作的生产力,大幅度提升科学计算场景的性能。”
自从合作以来,除了“蛋白质结构预测”工具的联创,华为实验室客户C与华为持续在其它多个项目取得突破性成果。而在未来,也必将有更多学术和科研界合作伙伴牵手华为,用创新ICT技术共同推进基础研究与应用研究融通发展,为建设世界科技强国提供有力支撑。