点评|颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从?

12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。(详见《解决生物学50年来的重大挑战!生物界“AlphaGo”精准预测蛋白质结构》)这一消息引发了全球媒体关注,前Genentech首席执行官Arthur D. Levinson博士盛赞这一成就是“划时代的进步”。人工智能的“进击”对生物学、对其他学科会有什么影响?网络上有人提出:AI都能解蛋白质结构了,结构生物学家是不是该失业了?《返朴》总编、结构生物学家颜宁特邀几位同仁对这一新闻各抒己见, 回答大家的疑问。
撰文 | 龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强
点评|颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从?
文章插图
by Asier Sanz | https://asiersanz.com/
AlphaFold2是个大突破,但我们还有努力的方向
张阳
(ITASSER创造者,美国密歇根大学教授)
AlphaFold2显然是蛋白质结构预测领域的重大突破。这可能是从1969年第一篇 Journal of Molecular Biology用比较建模方法预测蛋白质结构发表51年以来最大 的突破。这个领域过去20年来,进展一直比较缓慢。但是最近几年,随着共同进化 接触图预测以及引入深度学习之后,很多软件,比如I-TASSER和Rosetta等都有了 很大进步。就I-TASSER来讲,两年前在CASP13的时候,它能够正确预测非同源蛋白 的数目比其六年前在CASP11上提高了5倍。这次CASP14也比CASP13的预测能力提高 了很多。但是AlphaFold2这次比上次进步更大,和CASP13的AlphaFold相比,AlphaFold2的主要变化是直接训练蛋白质结构的原子坐标,而不是用以往常用的简 化了的原子间距或者接触图。传统上,蛋白质结构预测可以分成基于模板和从头预 测,但是AlphaFold2只用同一种方法--机器学习,对几乎所有的蛋白质都预测出了 正确的拓扑学的结构,其中有大约2/3的蛋白质精度达到了结构生物学实验的测量 精度。说他们接近解决了这个问题,这个说法没错,至少是在单结构域的蛋白结构 来讲是这样的。
谷歌这次为什么能够取得如此大的成功?这个首先是与它们拥有强大的人力和计算 资源有关。计算机上,他们使用TPU(据他们的宣传是比GPU快15倍),学术界的实 验室只有CPU或者GPU,而很多实验室都还没有GPU。他们对媒体在宣传中说 Alphafold2最后只用相当于100个GPU的资源训练了两周产生了最后的模型,学界大 多数实验室都可以做到,这是不客观的。因为产生一个新的想法,到训练成功的模 型,中间起码要反复测试重复100次甚至1000次。这就像吃了十个馒头的饿汉一 样,不能说吃了最后一个馒头吃饱了,就觉得只吃最后一个馒头就够了。另外,他 们可以高薪招聘大量专业人才,集中精力攻关一件事,不需要担心基金申请,教 学,和学生毕业论文等等。这些人力和计算资源上的差别是谷歌DeepMind这样的工 业研究机构同学术界在攻关科学或者工程问题上的最大优势。当然,学术界在蛋白 质结构预测这么多年的积累,也给AlphaFold2的成功奠定了基础。
其实,我自己很高兴他们取得了这么大突破。这个工作首先证明了蛋白质结构预测 问题是可以被解决的。这其实不是一个简单的问题,因为蛋白质结构和序列的复杂 关系,常常让人们特别是做结构预测的人怀疑,蛋白质折叠这个问题是不是可解, 或者是有唯一解。我们在15年前的一篇PNAS论文中提到用PDB库中的模板在理论上 可以解决单结构域蛋白质结构预测这个问题,但是那是一个基于模板的传统解法, 难点是如何找到最好的模板。谷歌他们这次用“暴力”的机器学习,“暴力”的解决了 这个问题。这个成功对很多相关领域都会产生深远影响。有人说这个AlphaFold2会 让很多相关行业的人失业。我认为恰恰相反,它给很多领域提供了解决问题的新途 径和新思维,因而会极大推动相关领域的发展,因此,会产生更多更大的机会。即 使对于蛋白质结构预测这个相对较小的领域来讲,我们还有很多事情要做。 AlphaFold2这次只有2/3的蛋白做到实验精度,还有1/3做不到,是否还有更快更好 的途径来产生更高精度结构的算法?基于商业或其它考虑,我相信谷歌可能不会公 开代码或Server。所以,最终可能还得学术界的同行共同努力,完善和推广这一技 术,让其真正受惠于生物医学研究以及普通公众的健康需求。
共赢大于竞争
龚新奇