清华姚班、MIT计算机博士:入局AI制药风口,为什么要趁早?丨附19个现场问答( 四 )


为什么是这两个数据 。 首先因为小分子药物本身就属于小分子 , 所以分子数据非常重要;
清华姚班、MIT计算机博士:入局AI制药风口,为什么要趁早?丨附19个现场问答
本文插图
对于蛋白质而言 , 因为小分子在体内发生作用机制大多会与特定蛋白质结合 , 调控蛋白质活性 , 以达到治疗疾病效果 , 所以小分子与蛋白质到底能不能结合 , 结合之后有没有生物活性 , 都是非常重要的指标 。
其中对分子有很多种表达形式 , 例如一维描述符 , 或一维SMILES string , 把它变成序列 , 又或者变成二维数学意义上的图 , 每个原子作为一个节点 , 每个化学键变成图中的边 。
还有三维方式 , 小分子在三维环境中会有各种各样torsion , 包括各种各样奇怪结构、构象变化 , 这也非常重要 。
说完小分子 , 还有蛋白质 。
蛋白质一维可以表征成一个氨基酸序列;也可以表示二维contact map , 也就是距离图 , 代表三维结构中每一个氨基酸距离;再到三维 , 通过复杂折叠情况实现各种功能 。
前一段时间大家关注到Deepmind工作 , 从整个蛋白质序列信息中直接预测三维结构信息 , 即用一维信息预测三维信息 。
事实上 , 所有分子表征都可以用不同神经网络做编码 , 例如直接做全连接神经网络 , 直接适用于描述符;或者一个定长向量 , 可以直接预测;还有卷积神经网络适用于矩阵形式 , 例如蛋白质表征;再比如循环神经网络 , 做一维的序列信息表征;还有图神经网络 , 做图结构东西;再比如三维卷积神经网络 , 编码三维空间信息 。
人工智能编码完成之后 , 就可以完成一些药物研发任务 。
首先就是分类与回归 , 知道一个新分子到底有怎样的性质 , 例如ADME/T性质 , 毒性、水溶性、代谢吸收性质 。
给AI一个分子 , 预测出一个值 , 这个值代表水溶性是多少、毒性是多少 , 毒性本质上是分类问题 , 有没有毒性是0或1问题 , 水溶性是回归问题 , 一个连续值意思 。
另外就是生成与设计 , 在探索化学空间的时候 , 人工智能设计新分子不仅仅是去做分类与回归 , 判断哪些是好的 , 哪些是不好的 。
目前 , 人类已经探索过的化合物空间大概是1010-1012 , 但成药化合物空间大概是1060 。 60与1010差了1050倍 , 所以实际我们可以看到 , 整个药物研发未被探索的化合物空间 , 又或者成药的化合物分子空间是非常巨大的 。
我们可以把它理解为一个巨大的宇宙 , 而我们探索过的仅仅是小太阳系 , 甚至是小地球 。
在这种情况下 , 如何去探索系外的东西 , 无论是星系也好、小分子也好都可以利用人工智能 , 问题就是如何让人工智能设计比传统人类方法更好的分子 。