蛋白质|人类生物学的大突破，就这样被 AI 做到了( 二 ) 生物学|氨基酸|科学家

合成生物学至今仅有二十年历史，目前甚至没有完全划定研究对象的范围。但在研究方法上，合成生物学有共识，就是将工程性技术和传统生物技术结合。
比如，解析蛋白质结构一直是结构生物学家的研究课题， DeepMind 方法中的工程学思维就是充分挖掘数据，结合不同的分析模块，流程上反复优化以取得最优解。
令人惊叹的工程创新人们常常说 AI 的特长在于暴力计算，但 AlphaFold2 是暴力计算和人类聪明才智的结晶。
发表在Nature的论文有 19 位并列的第一作者，其中有分子动力学、人工智能、量子化学、自然语言处理、医疗影像等各种专业的科学家。更令人意外的是，甚至还有一位拥有十年以上管理经验的资深产品经理。但是转念一想，这样一个汇集多领域知识的复杂项目，有一位项目经理，也是情理之中。
从公布的算法而言， AlphaFold2 模型的独特性在于两点：引入双注意力机制、实现端到端模型。前者是更加有效提取和加工数据，后者是取消了作为过渡的编码/解码过程，就减少了信息的损耗。这两个想法本身并非 DeepMind 原创。
注意力机制源于自然语言处理（NLP）模型，其中的关键结构是特征提取器 Transformer ，作用是让模型有选择地注意关键信息。在 2020 年 2 月份， Facebook 最早将 Transformer 引入蛋白质序列对比，让神经网络更好地对蛋白质序列建模。
在 AlphaFold2 中则使用了两个 Transformer ，因此称为双注意力机制。
这两个 Transformer 负责提取不同的数据，一个在已知的蛋白质库里进行同源序列对比，也就是用已知的蛋白质结构做参考；另一个关注氨基酸残基对，也就是微观上，两个氨基酸之间会发生怎样的相互作用。
关键在于，这两个信息路径不是彼此独立的，而是持续交流，这就实现了 1+1＞2 的效果。经过 48 次迭代，算法最终建立出氨基酸相互作用的模型。
这就反映出整个模型设计的重要思想：信息在整个神经网络中来回流动。换句话说，这部分算法是为了充分在数据库里榨出信息。
端到端模型也是一个重要的创新之处。也就是说，输入一个蛋白质信息，就可以输出三维空间的预测结果，中间没有其他编码和解码环节。
信息在不同的形式间转手一次，就会带来一次损耗。那么更直接处理上一环节的数据，计算的结果就更准确。
此前的算法模型（包括上一版本的 AlphaFold）都会有中间环节，计算完氨基酸之间的距离后，用数据建立能量函数，然后再进行三维结构预测。整个过程，数据先被函数处理，再变成坐标轴信息。
AlphaFold2 则是直接建立每个氨基酸局部的坐标系统，由此计算蛋白质的三维结构。也就是将第一阶段处理的数据直接映射到三维空间。
整个模型还用了许多其它技术来提升预测的准确性，比如创新的 Loss Fuction（损失函数），三维模型计算结果的反复优化（Recycling）……所有的技术综合在一起，才能够实现如此好的预测效果。
这无疑是一个大型且复杂的工程。前台展现出的是计算机技术，但是要完成这些算法设计，必须要有对生物现象的深刻理解。比如，在第一个处理信息的阶段，两个 Transformer 如何互相配合，将氨基酸残基对的微观信息整合进整个氨基酸序列的信息中，在写算法时就要对折叠过程有准确的领悟。
合成生物学带来的想象对于合成生物学而言，工程技术不仅仅是方法，更是一种系统性思维。合成生物学家希望通过「类似于工程师建造桥梁和将人送上月球的方法，理性地设计生物系统。」
「工程科学技术不只是工具，也不仅仅是基础研究成果的应用，而是在基础研究中可以发挥巨大作用的重要组成部分。」中国工程院院士，计算机专家李国杰评论 AlphaFold2 突破时说。
科技发展中很重要的一部分是工具的不断进化。结构生物学家颜宁在微博说：「在 X-射线晶体学为主要手段的时代，获得大多数研究对象的结构本身太难了，于是很多研究者把『获得结构』本身作为了目标，让外行误以为结构生物学就是解结构。」
蛋白质遵循能量最低原则，从一维结构折叠成三维结构，并形成功能。
所以预测折叠，只是理解蛋白质功能的起点。
蛋白质不是一个静态的结构，在行使功能的过程中，它都会发生精细的构象变化，比如病毒蛋白和受体结合、靶蛋白和小分子药物结合。理解结构和功能之间的互动关系，都是对付病毒，研发药物的关键。