蛋白质|人类生物学的大突破,就这样被 AI 做到了( 二 )


合成生物学至今仅有二十年历史 , 目前甚至没有完全划定研究对象的范围 。 但在研究方法上 , 合成生物学有共识 , 就是将工程性技术和传统生物技术结合 。
比如 , 解析蛋白质结构一直是结构生物学家的研究课题 , DeepMind 方法中的工程学思维就是充分挖掘数据 , 结合不同的分析模块 , 流程上反复优化以取得最优解 。
令人惊叹的工程创新 人们常常说 AI 的特长在于暴力计算 , 但 AlphaFold2 是暴力计算和人类聪明才智的结晶 。
发表在Nature的论文有 19 位并列的第一作者 , 其中有分子动力学、人工智能、量子化学、自然语言处理、医疗影像等各种专业的科学家 。 更令人意外的是 , 甚至还有一位拥有十年以上管理经验的资深产品经理 。 但是转念一想 , 这样一个汇集多领域知识的复杂项目 , 有一位项目经理 , 也是情理之中 。
从公布的算法而言 , AlphaFold2 模型的独特性在于两点:引入双注意力机制、实现端到端模型 。 前者是更加有效提取和加工数据 , 后者是取消了作为过渡的编码/解码过程 , 就减少了信息的损耗 。 这两个想法本身并非 DeepMind 原创 。
注意力机制源于自然语言处理(NLP)模型 , 其中的关键结构是特征提取器 Transformer , 作用是让模型有选择地注意关键信息 。 在 2020 年 2 月份 , Facebook 最早将 Transformer 引入蛋白质序列对比 , 让神经网络更好地对蛋白质序列建模 。
在 AlphaFold2 中则使用了两个 Transformer , 因此称为双注意力机制 。
这两个 Transformer 负责提取不同的数据 , 一个在已知的蛋白质库里进行同源序列对比 , 也就是用已知的蛋白质结构做参考;另一个关注氨基酸残基对 , 也就是微观上 , 两个氨基酸之间会发生怎样的相互作用 。
关键在于 , 这两个信息路径不是彼此独立的 , 而是持续交流 , 这就实现了 1+1>2 的效果 。 经过 48 次迭代 , 算法最终建立出氨基酸相互作用的模型 。
这就反映出整个模型设计的重要思想:信息在整个神经网络中来回流动 。 换句话说 , 这部分算法是为了充分在数据库里榨出信息 。
端到端模型也是一个重要的创新之处 。 也就是说 , 输入一个蛋白质信息 , 就可以输出三维空间的预测结果 , 中间没有其他编码和解码环节 。
信息在不同的形式间转手一次 , 就会带来一次损耗 。 那么更直接处理上一环节的数据 , 计算的结果就更准确 。
此前的算法模型(包括上一版本的 AlphaFold)都会有中间环节 , 计算完氨基酸之间的距离后 , 用数据建立能量函数 , 然后再进行三维结构预测 。 整个过程 , 数据先被函数处理 , 再变成坐标轴信息 。
AlphaFold2 则是直接建立每个氨基酸局部的坐标系统 , 由此计算蛋白质的三维结构 。 也就是将第一阶段处理的数据直接映射到三维空间 。
整个模型还用了许多其它技术来提升预测的准确性 , 比如创新的 Loss Fuction(损失函数) , 三维模型计算结果的反复优化(Recycling)……所有的技术综合在一起 , 才能够实现如此好的预测效果 。
这无疑是一个大型且复杂的工程 。 前台展现出的是计算机技术 , 但是要完成这些算法设计 , 必须要有对生物现象的深刻理解 。 比如 , 在第一个处理信息的阶段 , 两个 Transformer 如何互相配合 , 将氨基酸残基对的微观信息整合进整个氨基酸序列的信息中 , 在写算法时就要对折叠过程有准确的领悟 。
合成生物学带来的想象 对于合成生物学而言 , 工程技术不仅仅是方法 , 更是一种系统性思维 。 合成生物学家希望通过「类似于工程师建造桥梁和将人送上月球的方法 , 理性地设计生物系统 。 」
「工程科学技术不只是工具 , 也不仅仅是基础研究成果的应用 , 而是在基础研究中可以发挥巨大作用的重要组成部分 。 」中国工程院院士 , 计算机专家李国杰评论 AlphaFold2 突破时说 。
科技发展中很重要的一部分是工具的不断进化 。 结构生物学家颜宁在微博说:「在 X-射线晶体学为主要手段的时代 , 获得大多数研究对象的结构本身太难了 , 于是很多研究者把『获得结构』本身作为了目标 , 让外行误以为结构生物学就是解结构 。 」
蛋白质遵循能量最低原则 , 从一维结构折叠成三维结构 , 并形成功能 。
所以预测折叠 , 只是理解蛋白质功能的起点 。
蛋白质不是一个静态的结构 , 在行使功能的过程中 , 它都会发生精细的构象变化 , 比如病毒蛋白和受体结合、靶蛋白和小分子药物结合 。 理解结构和功能之间的互动关系 , 都是对付病毒 , 研发药物的关键 。