清华姚班、MIT计算机博士:入局AI制药风口,为什么要趁早?丨附19个现场问答( 八 )


这位同学提到清洗这点是很好的 。 清洗这件事情很关键 , 因为实际上大部分数据都噪音比较大 , 而且同一个小分子和蛋白质在这个数据里可能是这个结果 , 在另一个数据里可能是另一种结果 。
这种误差的原因是不同实验室的环境导致的 , 就是不一样结果 , 又或者不同环境、不同人去操作 , 甚至不同protocol , 做出来结果就是不一样 。
这个时候怎样选取 , 甚至怎样舍弃需要一步一步尝试 , 最终我们希望结合、融合之后 , 能够让整个模型算法准确率得到比较好的提升 。
Q2: 分子表征方法是有开源的标准化方法 , 还是每家自行开发的?
李成涛:每家肯定都会自己开发 , 我们自己也是开发了不同的各种各样的表征方法 , 因为里面提过 , 提取哪些 特征这一点是非常重要的 , 直接决定了我们下游的任务 , 在有限的数据集中能不能达到非常好的效果 。
所以这块我们自己开发了很多 , 也有一些标准化方法 , 比如说我刚才讲的把一个小分子变成一个SMILES string , 就是一个序列的表征 , 这个东西其实用一些软件包就可以做到 。
Q3:跨界做药的难点在哪?
李成涛:我觉得这是一个挺好的问题 , 我经常会被问到 。 因为我自己是人工智能背景的 , 其实之前也是做纯计算机科学的 。
高中当时也是化学和生物还都没学完就被保送 , 所以其实积累一开始是需要做很多的工作 , 包括跟很多人聊 , 读一些做药物研发的书 , 我有几本书就是我一直在18年的时候一整年在读的 。
学习新领域 , 这个本质去理解新的领域在做什么 , 他们的痛点是什么 , 这需要很多工作 。
当然 , 最快的方法肯定是跟人聊了 。 但是在一开始跟人聊会遇到很大的困难 , 大家会发现很难互相理解 ,
因为我们在说不同的语言 。 我在说人工智能或者计算机方面语言 , 但对于科学家可能在生物方面或者化学方面的语言 , 相互理解对方在说什么其实还是需要花一些时间的 。 这个时间花完了之后基本就能去做了 , 我觉得从背景来讲 , 其实是一个比较大的难点 。
Q4:AI更适合用于De Novo还是改结构?
李成涛:人工智能是可以做的 , 很难讲更适合于哪些场景 , 因为这两种场景我们都有成功案例 。
刚才讲的CNS , 叫中枢神经系统靶点 , 我们既有这种 De Novo分子 , 它能达到个位数纳摩活性;
也有改结构 , 根据阳性药稍做修改 , 拿到活性更好的分子 , 这都有成功案例 , 所以很难说哪个更适用 , 都可以用人工智能辅助合成 。
Q5: 目前业务的核心壁垒在哪里?