「技术」全新AutoML工具实现基因组全自动建模“宝藏技术”解读生命天书


自1990年人类基因组计划(Human GenomeProject)的提出 , 迄今已过去30多年 。 作为生命的天书 , 基因从最底层蕴含了许多病症的秘密 。 从最轻微的传染病到严重的癌症 , 都能从拥有超过30亿个碱基对的基因中找到答案 。
随着测序技术的发展 , 如今完成一个人全基因组测序已是普通家庭都可以负担起费用的“平常”事 , 但是关于基因学组的研究却仍处于起步阶段 。 目前全世界科学家可以解读的遗传密码不超过3% , 还有97%的遗传密码犹如一座科学尚未突破的巨塔 , 而AI或许就是攀登这座巨塔的“宝藏技术” 。
慧眼解读“生命天书”
此前 , 由于基因组数据的复杂性 , 主流的基于图像和文本的AI模型不能很好地对基因组数据进行建模 。 如果基因组能够实现全自动AI建模 , 或许可以帮助科研人员解决数据处理难、解读累的难题 。 但是由于基因组数据量之大 , AI模型搭建是一项非常复杂的任务 , 开发门槛非常高 。 想要提高深度学习在基因组中应用的效果 , 开发者必须经验丰富 。
【「技术」全新AutoML工具实现基因组全自动建模“宝藏技术”解读生命天书】
「技术」全新AutoML工具实现基因组全自动建模“宝藏技术”解读生命天书
本文插图
3月27日 , 华为开发者大会2020(Cloud)期间 , 华为云发布了全新自动机器学习AutoML(Automated Machine Learning)工具AutoGenome , 实现对基因组数据的全自动AI建模 。
AutoML是2014来以来机器学习和深度学习领域最炙手可热的方向之一 。 具体来说 , AutoGenome采用了超参数自动搜索、神经网络结构自动搜索和模型自动解释器等最新的AutoML技术 。 同时 , AutoGenome还提出了全新的更加适用于基因组数据建模的残差全连接网络结构(RFCN) , 在多项不同的基因组数据建模任务中 , AutoGenome的准确性都超出传统模型5个百分点以上 。
在开发过程上 , AutoGenome对于AI的初学者非常友好 , 用户在华为云ModelArts一站式AI开发管理平台可以一键启动Notebook开发环境 , 只需要五行代码即可快速完成端到端的基因组数据建模、准确性评估和模型解释 。
「技术」全新AutoML工具实现基因组全自动建模“宝藏技术”解读生命天书
本文插图
AutoGenome Examples已经列入华为云ModelArts Notebook任务中
此外 , 华为云还联合华为2012实验室媒体院研发了Autosearch自动化搜索框架并预置在华为云一站式AI开发管理平台ModelArts中 , 可以集成更多的AutoML搜索算法 , 便于支持更多的基因建模能力 。
大会期间 , 中科院基因组所韩大力教授也在现场分享了通过利用AutoGenome对羟甲基化组学数据进行建模 , 从而实现对肝癌的早期诊断 。 数据显示 , 借助AutoGenome的自动建模比文献报道的同类工作准确率高出八个百分点 。
在这个AI技术全面渗透的时代 , 华为云推出的AutoGenome便成了一双“慧眼” ,能够有效地从数据中挖掘到有价值的信息 , 大大改变了基因组学的研究方式 。目前 , AutoGenome已经正式上线 , 用户可在华为云ModelArts一站式AI开发管理平台上免费使用 。
“AI抗疫”之战
当前正值新冠疫情在全球扩散态势 , 国内疫情防控渐见曙光 。 在这场艰难的攻坚战中 , 凭借AI这把利剑 , 华为云打出了“战疫”组合拳 。 其中 , AI辅助诊断、抗病毒药物筛选AI模型表现抢眼 。
CT作为新冠肺炎重要的诊疗决策依据手段之一 , 扮演着重要的角色 。 但是 , 由于患者肺内病灶多、变化快 , 短时间内需要多次复查、图像多等情况 , 造成影像医生工作负荷显著增加 , 加上可精准诊断、量化分析新冠肺炎影像的医生紧缺 , 诊断效率难以大幅提升 。

「技术」全新AutoML工具实现基因组全自动建模“宝藏技术”解读生命天书