为探索程序员脱发之谜,腾讯AI Lab研究蛋白质,还发了篇Nature( 二 )


这是由于 SRD5A2 具有独特的七次跨膜结构 , 其与人类全部已知结构的蛋白在结构上存在较大差异 , 难以通过“模板建模”(template-based modeling)方法获得初始构型来解析晶体数据 。 同时又因为 SRD5A2 是一类多次跨膜蛋白 , 使得传统的用于获取蛋白质晶体相位信息的“重原子替代”(Heavy-atom derivatization)方法亦难以奏效 。
为了解决这一难题 , 腾讯 AI Lab 科研团队采用了难度更高的“从头折叠”(de novo folding)方法来预测 SRD5A2 蛋白的三维结构 , 并将其用于“分子置换”(molecular replacement, MR)的初始构型来解析晶体数据 。
蛋白质是20种不同的氨基酸通过共价键连接在一起成为一维氨基酸链 , 并折叠为三维结构后的产物 。 如下图所示 , 一维链状结构、局部几何结构、整体几何结构(三维结构)分别称为蛋白质的一级结构(Primary structure)、二级(Secondary structure)、三级结构(Tertiary structure) 。

为探索程序员脱发之谜,腾讯AI Lab研究蛋白质,还发了篇Nature
本文插图
蛋白质的三种表达形式
从蛋白质的氨基酸序列出发预测蛋白质的3D结构 , 称为从头折叠的蛋白质结构预测 。 这是一项复杂的任务 , 科学家们已经经历了几十年的挑战 ,该问题也被列为“21世纪的生物物理学”的重要课题 。 蛋白质结构预测在医学上(如药物设计)和在生物技术上(如新的酶的设计)都是非常重要的工具 。
所谓“从头折叠” , 是相对于“模板建模”的一种蛋白质结构预测方法 。 “模板建模”是目前最普遍的蛋白结构预测手段 , 但有一个使用前提——人类已知的蛋白结构数据库(即PDB)当中 , 必须存在和预测的蛋白相似的结构 , 否则就无法使用 。 而腾讯AI Lab采用的“从头折叠”方法则跳出了这个限制 , 可以不依赖于模板、而是按一定规律来预测蛋白结构 。
但由于“从头折叠”需要大量计算资源 , 此前通过“从头折叠”方法预测的蛋白质结构精度不高 , 难以满足晶体数据解析的精度需要 。 而在腾讯 tFold 工具加持下得到的高精度“从头折叠”的结构模型 , 为分子置换方法提供相位 , 继而解析确定2.8? 原子级别精度的SRD5A2晶体结构 。
这一结果能直接推进研究者对体内 SRD5A2 活性失调引发的各类疾病的理解 , 进而为基于 SRD5A2 结构的药物开发提供更多有价值的参考信息 。
2自研冠军级 tFold 工具突破蛋白质结构预测精度
腾讯 AI Lab 自研的 tFold 工具正是破解 SRD5A2 蛋白结构这一重要难题的关键 。 为了提升“从头折叠”方法(又称“自由建模”)的精度 , tFold 工具通过三项技术创新 , 实现了蛋白结构预测精度的大幅提升 。
首先 , 实验室研发了“多数据来源融合”(multi-source fusion)技术 , 来挖掘多组多序列联配(multiplesequence alignment, MSA)中的共进化信息 。
然后 , 借助 “深度交叉注意力残差网络” (deep cross-attention residual network , DCARN) , 能极大提高一些重要的蛋白2D结构信息(如:残基对距离矩阵)的预测精度 。
最后 , 通过一种新颖的“模板辅助自由建模“(Template-based Free Modeling, TBFM)方法 , 将自由建模(Free Modeling, FM)和模板建模(Template-based Modeling, TBM)生成的3D模型中的结构信息加以有效融合 , 从而大大提高了最终3D建模的准确性 。
在研究方面 , tFold 平台已在国际公认最权威的测试平台CAMEO上证明其创新价值及有效性 。 腾讯 AI Lab 于2020年初在CAMEO平台注册了自动化蛋白结构预测服务器 tFold server , 并自2020年6月起至今一直保持周度(图1)、月度、季度、半年度冠军 。 tFold server在一般案例上领先业内权威方法6%以上 , 在困难案例上则领先12%以上 。