百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域( 二 )
比如,预测化学键的长度、化学键组成的键角、两两原子之间的距离。
文章插图
其中,键长和键角描述化合物的局部结构,两两原子之间的距离更关注化合物的全局结构。
局部结构的,就随机挑选某个原子中心(图中的N)的子图进行遮盖,预测化学键的键长和之间的键角。
全局结构的,则是预测原子距离矩阵中的元素。
预训练过程中,团队从一个公开数据集Zinc1522中,抽取2000万个未标记的分子来训练GeoGNN。
其中90%的分子用来训练,其余分子进行测试。
最终结果显示,在当前公认化合物性质预测数据集MoleculeNet21的15个基准数据集中,与现有方法比较,得到了14个SOTA结果。
文章插图
其中,像与毒性相关的数据集tox21、toxcast,以及HIV病毒数据集,GEM的表现比其他模型要好,比如腾讯的GROVER、斯坦福的PretrainGNN以及MIT的D-MPNN等。
总体而言,百度的GEM模型,在回归任务上相对现在方法提升8.8%,在分类任务上相对提升4.7%。
可以看到,在回归数据集上的结果比分类数据集上的改进更大。团队猜测,因为回归数据集的重点是预测量子化学和物理化学特性,而这与分子几何结构高度相关。
进一步地,团队研究了GeoGNN在没有预训练的情况下,在回归数据集上的表现有何影响。
结果与现有的GNN架构比较,其中包含常用GNN架构、结合三维分子几何的架构以及分子表征架构。
文章插图
与以往最优结果相比,总体改进7.9%。
此外,在自监督学习方法上的消融实验也证明了基于空间结构的自监督学习方法的有效性。
文章插图
该项目已经在GItHub上开源。
据介绍,除了在学术期刊亮相外,研究团队透露,这项研究在药物研发领域已经实现商业化落地,在合作伙伴的早期药物筛选管线上得到应用。
未来,这项技术还有更多可预见的应用价值,比如像化合物成药性预测、小分子的药物筛选、药物联用等具体场景。
再拓展一点,没准儿在蛋白质、核酸等领域,也能构建基于大分子的表征模型,有助于更多药物研发。
文章插图
事实上,百度这次在Nature子刊上的亮相,带来计算生物领域的新进展。
情理之外,却是意料之中。
不为大多数人所知道的是,百度在计算生物上的探索,其实早已开启。
曾在GNN顶赛上超越DeepMind早在2018年,百度就正式启动了计算生物方向的研究。
著名的RNA二级结构开源算法LinearFold,将新冠预测从原来的55分钟提速至27秒(接近120倍),就是百度的研究成果之一。
2020年12月,百度正式将自己研究的一系列生物计算相关技术进行了集成,发布了螺旋桨(PaddleHelix)。
这是一个囊括了各种各样“AI+计算生物”开源工具的生物计算平台,基于百度飞桨框架开发,可以被用于药物研发、疫苗设计和精准医疗等领域。
文章插图
而这次的研究,正是来自百度螺旋桨团队。
在发表这项研究之前,螺旋桨团队就已经在包括像KDD、NeurIPS、IEEE BIBM等顶会上发表过不少“AI+生物”的研究成果。
例如,一篇用采用多任务学习训练ML模型进行药物虚拟筛选的研究,就于去年年底被生物信息与生物医学顶会IEEE BIBM 2021接收;
除此之外,包括蛋白质、mRNA也有不少研究成果,例如一篇基于蛋白质序列预测蛋白质间相互作用的多模态预训练模型就入选MLCB的Spotlight;
关于图神经网络预测分子性质的相关模型,则更是在全球性的顶会赛事上取得过数一数二的成绩。
例如,去年6月KDD CUP与OGB(Open Graph Benchmark)联合举办了首届图神经网络大赛OGB-LSC,共有包括DeepMind、微软、蚂蚁金服等来自全球的500多个著名高校&机构参与。
文章插图
其中,OGB是图神经网络的通用性能评价基准数据集,素有“图神经网络的ImageNet”之称;KDD CUP则是目前数据挖掘领域水平最高的顶尖国际赛事。
这场比赛一共分为三场,包括大规模节点分类、大规模图关系预测和化学分子图性质预测。
- 百度|英特尔计划500元销售400万块Arc显卡,性能比锐龙核显还慢
- 资本市场|“东数西算”下中国云计算仍在蓝海
- 药物|“自降身价”也要上市,乐普生物离盈利之路有多远?
- 百度|游戏手机渐入佳境,ROG这款老旗舰配置拉满,现在入手依旧能打
- 电池|电池为信息保存提供电源,如果没有电池,计算机中就没有时间概念
- neuron|38岁青年生物学者周传去世,饶毅悼念“指导过老师的学生”
- npu|影像力表现最大化,OPPO Find X5系列将实现计算摄影新突破
- 云计算|东数西算+云计算+大数据, 算力已覆盖36个城市, 为华为打造数据中心
- 智慧医疗|百度、科大讯飞抢食智慧医疗奶酪
- 我们和计算生物学从业者深度聊了聊|对撞派 · 圆桌实录