预测|AI破解生物界50年重大挑战!DeepMind精准预测蛋白质结构
智东西(公众号:zhidxcom)
编译 | 子佩
编辑 | Panken
智东西12月3日消息,Alphabet旗下公司DeepMind本周一在官网中宣布,已经开发出可以快速准确预测蛋白质结构的机器学习软件AlphaFold,用于药物开发。在两年一次的蛋白质结构预测评估(Critical Assessment of protein Structure Prediction,下称CASP)中,AlphaFold平均GDT得分达到92.4,与药物实验模拟结果相差无几。
DeepMind在博客中写道:AlphaFold解决了困扰生物界50年的问题——蛋白质是如何折叠的,这是一个巨大的科技突破。
文章插图
一、预测纳米级蛋白质结构,AlphaFold比药物模拟更强
对于生命来说,蛋白质必不可少:它们运输物质、作为酶进行化学反应,作为抗体抵御病毒……所有这些功能都是通过结构决定的。如果我们想要设计出有特定功能的蛋白质,我们必须了解不同的结构都具备怎样的功能。
一般来说,药理学家会通过大量的观察和统计,得到粗略的经验:怎样的蛋白质结构大致具备怎样的功能,但由于蛋白质是纳米量级上的3D结构,通过这样不断枚举的“笨”办法设计药物是非常棘手的。
所以目前,很多公司和高校都在研究,如何通过计算机程序检测组成蛋白质的各类氨基酸,再基于氨基酸反推蛋白质结构,DeepMind的AlphaFold就是其中之一,也是目前的第一。
创立于1994年的CASP,致力于促进蛋白质预测领域的研究,关注该领域的进展,以及建立最新的技术标准。
每两年,CASP都会以实验室最新研究出的蛋白质结构为目标,开展一次蛋白质结构预测比赛。各参赛团队在不知道该目标蛋白质的情况下,以功能需求为导向,设计该蛋白质结构,CASP会将各团队的预测结果与目标蛋白质的真实实验数据相比对,进行评分。
文章插图
▲GDT评分
在本周一,第14次的CASP评估中,AlphaFold在所有类别比赛上,GDT总体平均得分达到92.4,比药物模拟实验的得分(GDT90)还高,在最具挑战性的自由建模类中,中位数得分也达到了87.0。
GDT是Global Diatance Test的简称,也就是全局距离测试,代表两个蛋白质结构之间的相似度,分数从0到100,得分越高,预测模型与目标结构相似度越高。
文章插图
▲左为药物实验室结果,右为AlphaFold结果
【 预测|AI破解生物界50年重大挑战!DeepMind精准预测蛋白质结构】诺贝尔化学奖得主、英国结构生物学家Venki Ramakrishan说:“DeepMind的这项工作代表了蛋白质结构预测领域的惊人进展,这是一个生物学上的重大突破,将从根本上改变生物学研究方式。”
二、神经网络端对端训练,绘一张完整的“蛋白图”
在2018年,初代AlphaFold就参与了CASP测试,尽管GDT得分不足60,但排名仍位居第一,在随后的两年内,AlphaFold团队引入深度学习框架,基于初代模型不断改进创新。
文章插图
▲CASP历年自由建模类别,最佳模型GDT得分
折叠的蛋白质结构可以被简单视为“空间图”,已知的信息和结构是基点,所有的研究预测工作都是为了将这些基点连接起来,组成一张立体的空间图。
文章插图
▲AlphaFold神经网络模型架构
如果想要实现上述这一过程,模型必须要“理解”图中蛋白质内的相互作用和影响。
因此,AlphaFold研究团队创建了一个基于注意力的神经网络系统,通过端到端训练解释该图结构,同时对所隐含的信息进行推理预测,此外,AlphaFold还使用相关的蛋白质进化序列、多序列比对(MSA)以及氨基酸残基对表示法作为补充。
通过重复此过程,AlphaFold能够在几天内实现蛋白质高精度结构的预测,且基于内部置信度量度判断每个预测是否可靠。
AlphaFold使用了公开数据集进行了模型训练,包括来自蛋白质数据库的约170000种蛋白质结构以及其他未知结构的蛋白质序列数据集。AlphaFold基于约16个TPUv3(相当于128个TPUv3内核或大约相当于100到200个GPU)训练了几周时间,相对于大多数最新机器学习模型,计算量并不大。
AlphaFold研究团队表示正在准备相关论文,以将研究成果向同行分享。
三、要打击新冠,还要探测未知蛋白
在官网博客上,AlphaFold研究团队表示,AlphaFold未来会在新冠肺炎危机中大有可为。
- 智能手机|李彦宏出书预测:未来私家车的需求量将大幅降低
- 小米科技|12月见!小米12系列全方位预测
- 摩托罗拉|12月见!小米12系列全方位预测
- 摩托罗拉|联想29亿美元收购摩托罗拉,郎咸平当年就预测:买了栋没窗的破楼
- 华夏小康|百融云创创新破解“最后一公里” 科技赋能农村金融数字化
- 车辆|法雷奥发布旗下第三代激光雷达:能预测车辆运行轨迹
- 高通骁龙|13年前“破解”北斗, 获美高度肯定的清华女学霸, 现在研制AR地球仪
- 设备|36氪首发|「华控智加」获数千万Pre-A轮融资,自研多传感器信号采集方案实现预测性维护
- word|2021 年最常用密码公布:“123456”第一,1 秒即可破解
- 北斗导航|13年前“破解”北斗, 获美高度肯定的清华女学霸, 现在研制AR地球仪