每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强( 二 )



每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强
文章图片
安芬森的这个假说得到了全世界同行的认可 。 然而科学家们很快就发现 , 好像知道了这个理论也没什么用 。 用一句网络流行语来说——然并卵 。 虽然我们能在实验室中相对容易地测出一个蛋白质的氨基酸序列 , 但拿到这个序列 , 我们依然无法根据某条物理法则准确推测出它的三维结构 。 对此 , 科学家们已经研究了将近50年 , 直到今天也没有彻底弄清楚蛋白质折叠的规律 。 这个问题在生物化学界被称为“蛋白质折叠问题” , 它是21世纪人类科学面临的几大挑战之一 。
烧钱的产业现在的科学家想要弄清楚一个蛋白质的三维结构 , 唯一的办法只能是耗费巨大的人力、物力 , 用极其笨拙的方法 , 通过大量的重复性实验来找到蛋白质的三维结构 。 需要的实验设备如冷冻电镜、X射线晶体衍射仪、核磁共振仪等都价格昂贵 。 例如一台冷冻电镜的价格就高达数百万至几千万人民币 。 解析结构的过程是否顺利有很大的运气成分 。 运气不好的时候 , 重复个上千次实验都有可能出不来结果 。 因此 , 每解析一个蛋白质结构 , 通常的成本在几万到几十万美元之间 。

每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强
文章图片
从上世纪末开始 , 以IBM为首的一些计算机技术公司就提出了一个大胆的设想:可以通过蛋白质的氨基酸序列 , 利用超级计算机来预测蛋白质的三维结构 。 这相当于把原先在试管中进行的实验 , 转移到电脑的数字空间中进行 。 这个想法在当时非常大胆和前卫 , 因为它的运算量对于当时的计算机来说是天文数字 。
你可能好奇:预测一个蛋白质的折叠 , 怎么会需要海量的计算?粗略地说 , 计算过程就好像在彩票箱中摸奖 。 一个拥有100个氨基酸的蛋白质 , 你想象成是一个拥有100节的魔尺 , 它共可以产生约10^94次方种不同的形状 。 这个数量已经远远超过了整个宇宙中基本粒子的数量 。 计算机要做的事情其实就是排除法 。 根据一定的规则 , 先是一批批排除某类绝对不可能的结构 , 然后再根据蛋白质表现出来的性状一个一个地排除 。 到了最后阶段就像是不停地在一个巨大的彩票箱中抽奖 , 每抽一次都要耗费巨大的运算量 。

每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强
文章图片
IBM用了5年的时间搞研发 , 终于在2004年宣布:世界上最大的超级电脑“蓝色基因”(BlueGene)问世 。 它的主要目标就是解决蛋白质折叠问题 。 然而 , 事情进展得并不像计算机专家们估计的那样乐观 。 10年之后 , 蓝色基因升级了三代 , 超级计算机也没能取代试管、X射线晶体衍射和核磁共振 。 IBM也遗憾地终止了蓝色基因系列的开发[1] 。

每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强
文章图片
不过 , IBM的失败并不代表计算机模拟蛋白质结构的失败 。 恰恰相反 , 在IBM的带动下 , 参与这项挑战的团队越来越多 , 成果也越来越丰富 。 各种各样奇妙的解题思路层出不穷 , 最好玩的例子是华盛顿大学的大卫·贝克(DavidedBaker)教授的发明 。
2008年 , 他的团队开发出了一款名叫“Foldit”的解谜游戏 。 而这款解谜游戏的内容就是让用户凭借自己的直觉来折叠蛋白质 , 然后根据一定的规则获得分数 。 结果非常喜人 , 一个困扰了生物学家15年之久的猴类艾滋病毒相关蛋白 , 作为谜题被上传到游戏后 , 玩家们只用了10天就成功地破解了它最可能的折叠方式 。

每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强
文章图片
猴类艾滋病毒相关蛋白
从1994年开始 , 就诞生了一个名叫CASP的国际蛋白质结构预测竞赛 。 每两年举办一次 , 参赛队伍越来越多 , 全球的科技大佬云集 。 这个竞赛中 , 裁判会给每个小组预测的结构进行打分 , 满分100分 。 在2020年12月结束的第14届竞赛中 , 传来一个令人震惊的消息:曾经开发出著名的围棋程序AlphaGo的谷歌公司人工智能团队 , 他们开发的AlphaFold程序获得冠军 , 得到了92.4分 。 而上一届同样是冠军的它 , 得分还不到60分 , 这种进步的速度太令人震惊了 。 AlphaFold预测的蛋白质结构已经非常接近于真实实验做出来的结果 , 人类离计算机攻克蛋白质折叠问题只有一步之遥 。

每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强
文章图片
中国理应入场【每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强