清华姚班、MIT计算机博士:入局AI制药风口,为什么要趁早?丨附19个现场问答( 五 )


清华姚班、MIT计算机博士:入局AI制药风口,为什么要趁早?丨附19个现场问答
本文插图
理解了分类与回归和生成与设计问题之后 , 就可以完成整个AI制药研发流程迭代 。
接下来简单讲一讲 , 人工智能结合小分子药物研发的流程 。
首先是数据 , 我们有很多种数据 , 包括公开数据、商业数据 , 以及自己标注的数据 , 这些数据量级都非常大 。
而且对应不用靶点特定项目 , 我们也有特定数据 , 即专项数据 , 处于不大不小量级 , 结合之后对整个模型可以起到很好微调效果 。
这些数据丢到药物研发平台之后 , 能够看到经过训练以后 , 可以进一步精细调整 , 进入到整个AI制药主流程当中 。
其中包含各种各样的项目类型 , 不管是First-in-class ,Fast-follow ,Best-in-class , Me-too还是Me-better , 大家可以简单理解为药物研发一种项目 , 这些项目后边会走三条道路:
1、全新生成 。 在疾病治疗时 , 存在一些已有分子 , 结构还不错、性质也不错 , 但因为专利原因需要避开原本专利限制 , 找新可专利分子 。
此时我们会直接用模型库 , 几百个模型去生成一个虚拟、千万量级分子库 , 再进行下一步筛选;
2、衍生跃迁 。 有些分子本身性质已经比较好 , 但可能需要进一步的优化;又或者有些分子已经成药 , 仍然希望看看他的IP空间是否还有其他道路 , 即衍生跃迁模型 。
基于现有分子 , 进行部分改构 , 然后做一些新优化或生成 , 这样的生成同样是千万级别;
3、商业化合物库 。 我们大概有几百万级化合物库 , 能够直接进行筛选 , 这些都是人类之前已经能够合成、能够买到的 , 能够很快获取需要的化合物 。
其中很多化合物能够成药 , 只是之前没有发现 , 现在可以尝试在建立完整库之后 , 进入下一步虚拟筛选 。
通过我刚才提到的很多方式 , 例如直接预测各种性质 , 又或者给一个小分子或蛋白质 , 预测小分子与蛋白质结合方式 , 就可能筛出几十个甚至上百个合适分子 , 最终合成完之后做出新实体分子 。
接下来就是湿实验验证 , 即在实验室里进行试验 , 在细胞层面甚至动物层面看到底有没有效果 , 这些实验结果都会反馈到整个数据库当中 , 进一步帮助我们迭代模型 。
也就是如果湿实验我们找到非常好的分子 , 就能进行各种各样验证;如果结果差强人意 , 甚至不太好 , 也能够返回到数据库 , 再进行进一步迭代 。
在这方面 , 我们已经做出一些成绩 , 例如选一个中枢神经系统靶点 , 生成千万级别化合物库 , 筛选出百万级化合物库 , 并最终合成出五个分子 。