阿尔法|击败李世石的AI公司,又研发出生物版“阿尔法狗”:破解50年生物学难题( 三 )


2018年第13届CASP比赛,DeepMind在“协同进化”和接触预测的基本观点上增加了两个重要的转折因素——距离和角度。首先,让算法预测蛋白质中所有氨基酸对之间的距离,而不是试图确定两个氨基酸是否会接触。其次,研发了第二个神经网络,以预测氨基酸对之间的角度。
至此,DeepMind的算法已经能够计算出蛋白质可能结构的粗略轮廓。然后又使用了一种非人工智能的算法对结构进行优化。将以上所有元素合并后,“AlphaFold”AI系统正式诞生。
阿尔法|击败李世石的AI公司,又研发出生物版“阿尔法狗”:破解50年生物学难题
文章插图
DeepMind高级研究员、蛋白质折叠问题团队负责人约翰·江珀 图据《财富》杂志
在2018年第13届CASP比赛中,AlphaFold击败了所有对手。在最难的43种蛋白质预测中,AlphaFold获得了25种蛋白质的最高分,而紧随其后的第二名仅得到了3个最高分。
比赛结果一出便震惊了整个领域。尽管如此,此时的AlphaFold距离哈萨比斯的目标——解决蛋白质折叠问题,还差得很远。AlphaFold几乎有一半的结果相当不准确,且在104个蛋白质靶点中,仅有三种情况的结果与X射线晶体学得出的结果一样好。“我们不仅仅想成为这方面的佼佼者,我们还想做到最好。我们实际上想要一个对生物学家有意义的系统,”江珀说道。
2018年比赛结束后,DeepMind开始更加努力。但研究团队并不是仅在AlphaFold的基础上改进,而是重新回到白板前,开始提出完全不同的想法,希望让系统更接近于X射线晶体学达到的精确度。
然而接下来,据江珀回忆,是整个项目中最可怕、最令人沮丧的一段时期:一切尝试都是无用功。他说道:“我们花了三个月的时间,都没有比CASP13更好的结果,这让我们开始感到恐慌。”但后来,研究人员尝试进行了一些轻微的改动,六个月后,该系统明显优于最初的AlphaFold。
在接下来的两年里,江珀和整个团队都陷入了一种循环:三个月没有任何进展,接着是三个月的快速发展,接着是另一个停滞期。
2019年11月21日,新系统AlphaFold 2终于在性能上有了巨大的飞跃。2020年5月至8月,第14届CASP比赛开始,11月30日公布排名中,AlphaFold 2打破了精确度的纪录,以平均预测准确度为92.4分(满分100分),最具挑战性的蛋白质分类平均得分87分的成绩,获得了比赛冠军,同时也撼动了全球生物学领域。
红星新闻采访人员 徐缓
编辑 张寻
(下载红星新闻,报料有奖!)