清华姚班、MIT计算机博士：入局AI制药风口，为什么要趁早？丨附19个现场问答( 五 )

本文插图
理解了分类与回归和生成与设计问题之后，就可以完成整个AI制药研发流程迭代。
接下来简单讲一讲，人工智能结合小分子药物研发的流程。
首先是数据，我们有很多种数据，包括公开数据、商业数据，以及自己标注的数据，这些数据量级都非常大。
而且对应不用靶点特定项目，我们也有特定数据，即专项数据，处于不大不小量级，结合之后对整个模型可以起到很好微调效果。
这些数据丢到药物研发平台之后，能够看到经过训练以后，可以进一步精细调整，进入到整个AI制药主流程当中。
其中包含各种各样的项目类型，不管是First-in-class ，Fast-follow ，Best-in-class ， Me-too还是Me-better ，大家可以简单理解为药物研发一种项目，这些项目后边会走三条道路：
1、全新生成。在疾病治疗时，存在一些已有分子，结构还不错、性质也不错，但因为专利原因需要避开原本专利限制，找新可专利分子。
此时我们会直接用模型库，几百个模型去生成一个虚拟、千万量级分子库，再进行下一步筛选；
2、衍生跃迁。有些分子本身性质已经比较好，但可能需要进一步的优化；又或者有些分子已经成药，仍然希望看看他的IP空间是否还有其他道路，即衍生跃迁模型。
基于现有分子，进行部分改构，然后做一些新优化或生成，这样的生成同样是千万级别；
3、商业化合物库。我们大概有几百万级化合物库，能够直接进行筛选，这些都是人类之前已经能够合成、能够买到的，能够很快获取需要的化合物。
其中很多化合物能够成药，只是之前没有发现，现在可以尝试在建立完整库之后，进入下一步虚拟筛选。
通过我刚才提到的很多方式，例如直接预测各种性质，又或者给一个小分子或蛋白质，预测小分子与蛋白质结合方式，就可能筛出几十个甚至上百个合适分子，最终合成完之后做出新实体分子。
接下来就是湿实验验证，即在实验室里进行试验，在细胞层面甚至动物层面看到底有没有效果，这些实验结果都会反馈到整个数据库当中，进一步帮助我们迭代模型。
也就是如果湿实验我们找到非常好的分子，就能进行各种各样验证；如果结果差强人意，甚至不太好，也能够返回到数据库，再进行进一步迭代。
在这方面，我们已经做出一些成绩，例如选一个中枢神经系统靶点，生成千万级别化合物库，筛选出百万级化合物库，并最终合成出五个分子。