『人工智能』几十秒构建端到端 AI,NeurIPS 2020 AutoDL 竞赛夺冠“黑马”原来靠的是这门技术( 二 )


本次竞赛吸引了美国、德国、瑞士、日本、韩国等全球多地队伍 , 来自包括清华大学、北京大学、南京大学、卡内基梅隆大学、首尔大学、弗莱堡大学、汉诺威大学等国内外著名前沿科研院校 , 以及 Google、微软、阿里、腾讯、浪潮等国际一流公司 , 参赛队伍总计进行了超过 2600 余次提交 , 深度赋智能在如云高手中脱颖而出 , 实属不易 。
『人工智能』几十秒构建端到端 AI,NeurIPS 2020 AutoDL 竞赛夺冠“黑马”原来靠的是这门技术
本文插图
核心技术 Full-AutoML 技术详解
深度赋智的核心技术在于其独立研发的 Fully Automatic Machine Learning(后文简称 Full-AutoML / 全自动机器学习)系统 , 这套系统量化了 AI 生产的所有环节 , 可以全自动、端到端地生产全流程AI , 摆脱了以往的 AI 设计需要诸多人类经验、难以快速落地的约束 。
以往基于人类 AI 工程师的简单AI生产过程需要 3-6 个月 , 复杂AI生产过程需要 1-2 年 , 而 Full-AutoML 接入数据之后最短几十秒就可以构建出一套近似最优的端到端 AI , 并且随着线上反馈数据 , 可以不断对 AI 持续优化 。
Full-AutoML 具体是如何实现的?我们展开来讲:
与人类 AI 工程师类似 , Full-AutoML 需要接触较多的学习任务 , 以掌握在不同任务上的共性与特异性技巧 。 其中 MetaAI 子系统模拟了人类 AI 工程师的学习过程 , 通过观察已有任务的数据流形与策略效果 , 以进行全自动的探索性优化 。 经过观察 , MetaAI 可以很好地总结不同任务知识 , 将原本耗时数年的 AI 构建过程缩短到最短数十秒 。
『人工智能』几十秒构建端到端 AI,NeurIPS 2020 AutoDL 竞赛夺冠“黑马”原来靠的是这门技术
本文插图
DeepWisdom MetaAI for AutoDL
从上图中可以看到 , 这套系统包含自动数据探索、自动数据处理、自动特征工程、自动模型搜索、自动模型设计、自动模型压缩、自动超参优化、自动集成等多项核心组件 , 内含小样本学习、弱监督学习、迁移学习、集成学习等多类特性 。
这些特性使得这个系统可以做到一般 AutoML 系统做不到的事情 , 例如 , 现实世界充满了脏(ill-posed)问题 , 比如正样本少、噪音大、数据脏、大量未标注样本、没有负样本、样本极度不平衡、样本问题复杂(需要很多模型一起解决)等 。 这些问题很常见 , 一般的 AutoML , 即 Semi-AutoML 擅长解干净问题 , 致力于干净数据集(如 ImageNet)提升 1-2 个点的效果 , 但实际上现实问题绝大部分情况下并不关心这 1-2 个点的效果 。 现实世界中 , 人们更关心整套方案中是否有短板 , 是否会导致木桶效应 , 因为缺了一块板就拼命漏水(降低 30-40 个点) 。 而 Full-AutoML 可以在大部分的现实数据中表现很好(优于人类专家) , 弥补大部分的Semi-AutoML 在现实数据中的短板 , 达到可用状态 。
『人工智能』几十秒构建端到端 AI,NeurIPS 2020 AutoDL 竞赛夺冠“黑马”原来靠的是这门技术
本文插图
Full-AutoML工作流程
吴承霖告诉 CSDN , Full-AutoML 做的实际上是上图传统流程的第 2 到 第 9 步 , 所有过程都用 AI 进行自动制作 。 具体的工作流程和模态有一定关系 , 后续将在论文中说明 , 但现在不便公开 , 但大的思路都是一样的:用 AI 模仿人做 AI , 代替人类做查找有效数据、清洗数据、转换数据、特征工程、模型选择、基于线上效果调优等工作 。
这样的优势 , 使得深度赋智的 Full-AutoML 方案与其他亚马逊、谷歌、微软等大厂以及国内企业推出的AutoML 产品相比 , 有着明显的优势 。
『人工智能』几十秒构建端到端 AI,NeurIPS 2020 AutoDL 竞赛夺冠“黑马”原来靠的是这门技术
本文插图
注:AUC(Area Under Curve)被定义为ROC曲线下的面积 , 是衡量学习器优劣的一种性能指标 。