蛋白质|陈根:从AlphaFold到AlphaFold2,医学革命还将到来( 二 )


2018年 , 人工智能也正式参与到了蛋白质三维结构的预测中 。 由DeepMind开发的AI程序“AlphaFold”首次大显身手 , 在98名参赛队伍中排名第一 , 其预测的43种蛋白质中有25种蛋白质的结构最准确 , 而排名第二的团队中只有3种 。 事实上 , 为了开发AlphaFold , DeepMind用数千种已知蛋白质训练神经网络 , 直到它可以独立预测氨基酸的3D结构 。
对于新蛋白质 , AlphaFold使用神经网络预测氨基酸对之间的距离以及连接它们的化学键之间的角度 。 接着 , AlphaFold调整结构以找到最节能的氨基酸布置 。 该程序花了两周时间预测它的第一个蛋白质结构 , 但现在只需几个小时就能将其预测出来 。
需要指出的是 , AlphaFold虽然拿了第一 , 但是比第二名的优势并不明显 , 也没有表现出比传统思路以及什么革命性的差异 。 并且 , AlphaFold并不能算是人工智能完全体 , 它还借鉴了不少学术研究的成果 , 特别是DavidBaker教授的Rosetta程序和芝加哥大学徐锦波教授的RaptorX-Contact程序 。
用人工智能来预测蛋白质结构的真正突破 , 还在于AlphaFold2的问世 。 和两年前的上一个版本相比 , AlphaFold2的主要变化是直接训练蛋白质结构的原子坐标 , 而不是用以往常用的、简化了的原子间距或者接触图 。 这也使得AlphaFold2在解析蛋白结构的速度上有了进一步的提高 。
传统上 , 蛋白质结构预测可以分成基于模板和从头预测 , 但是AlphaFold2只用同一种方法——机器学习 , 对几乎所有的蛋白质都预测出了正确的拓扑学的结构 , 其中有大约2/3的蛋白质预测精度达到了结构生物学实验的测量精度 。
当然 , 和所有科技进步一样 , AlphaFold2也不是十全十美的 , 比如它的表现并不是非常稳定 。 AlphaFold2这次只有2/3的蛋白预测做到实验精度 , 还有1/3并未做到 。 并且 , AlphaFold2对于超级巨型的蛋白质复合体 , 对于蛋白质和DNA/RNA/小分子结合形成的复合物 , 预测能力也还有待检验 。
生物认知还将飞跃
AlphaFold2的研究进展自然不会止步于此 。 今年7月15日 , 《自然》杂志一篇论文被接收的消息再次引发了人们的关注 。 谷歌旗下人工智能公司DeepMind宣布 , 研究人员首次发现了一种通过计算来预测蛋白质结构的方法 。
在文章中 , DeepMind表示AlphaFold可以周期性的以原子精度预测蛋白质结构 。 在技术上 , AlphaFold利用多序列对齐 , 进行深度学习算法的设计 , 还结合了关于蛋白质结构的物理和生物学知识提升效果 。
具体来看 , AlphaFold网络由两个主要部分组成 。 首先 , 网络的主干通过一个称为Evoformer的新神经网络块的重复层来处理输入 , 产生一个Nseq×Nres阵列(Nseq:序列数 , Nres:残差数) , 它表示一个处理过的MSA和一个表示剩余对的Nres×Nres阵列 。
Evoformer块包含许多新颖的基于注意力和非基于注意力的成分 , 它的关键创新是与MSA交换信息的新机制 , 并能直接推理空间和进化关系的配对表征 。
网络的主干之后是结构模块(StructureModule) , 该模块以蛋白质的每个残基的旋转和平移的形式引入了显式的3-D结构 。 这些表征在微不足道的状态下初始化 , 所有旋转设置为同一性(identity) , 所有位置设置为原点 , 但能够快速开发和完善具有精确原子细节的高度准确的蛋白质结构 。
这部分网络的关键创新包括打破链原子结构 , 允许同时局部细化结构的所有部分 , 一个新的“equivarianttransformer”允许网络隐式地推理未表示的侧链原子 , 以及损失项可对残基方向的正确性赋予重要权重 。
通过此方法 , 即使在不知道相似结构的情况下 , 人工智能也可以在原子层面上精确预测蛋白质结构 。 这也意味着 , AlphaFold2终于开源了 。
值得一提的是 , 与AlphaFold2同进步的并于同日在Science上发表的 , 还有华盛顿大学医学院蛋白质设计研究所的研究者们 , 他们联合多个实验室等机构研发出基于深度学习的蛋白质预测新工具RoseTTAFold , 其在预测蛋白质结构上取得了媲美AlphaFold2的超高准确率 , 而且速度更快、所需要的计算机处理能力也较低 。
可想而知 , 随着人工智能预测蛋白质结构的成熟 , 人类关于蛋白质分子的理解还将经历一次革命性的升级 。 这些海量的结构信息 , 能让人们把对生命现象的理解再次往前大大推进一步 。
也许有一天 , 人们只需要测定一个物种的基因组DNA序列信息 , 就能相应地预测这个物种生产的全部蛋白质分子机器的三维结构 , 然后再猜测出这些分子机器到底是执行什么生物学功能的 。