「华为计算」HDC.Cloud|张迪煊:基于Atlas人工智能计算平台的全场景开发实践

3月28日 , 在华为开发者大会2020(Cloud)上 , 华为展示了各行业合作伙伴基于华为人工智能计算平台Atlas的云边端全场景开发实践 。 华为已与数十家伙伴合作 , 推动基于华为昇腾AI处理器的Atlas系列模块、板卡、小站、服务器在智慧交通、智慧电力、智慧金融、智慧城市、智能制造等数十个行业落地 。
华为Atlas人工智能计算平台 , 采用统一的华为达芬奇架构 , 打造云边端一致的开发体验 , 将大幅提升开发者的效率 。 同时 , TBE高效算子开发工具将进一步丰富昇腾的生态 , 释放昇腾AI处理器的算力潜能 。
「华为计算」HDC.Cloud|张迪煊:基于Atlas人工智能计算平台的全场景开发实践
文章图片
张迪煊在大会现场发表主题演讲以下为张迪煊演讲全文
线上的开发者朋友们 , 大家上午好!我是张迪煊 , 来自华为计算产品线 。 去年华为发布的全球最快的AI训练集群Atlas900就是我和我的团队开发的 , 今天我非常荣幸能代表华为分享 。
从行业到个人应用 , 人工智能已经开始改变人类的生产和生活 , 这一切的实现能否通过一个架构 , 来覆盖云边端全场景的AI呢?这是科学家一直思考的世界级难题 , 从一个耳机到数据中心AI应用 , 需要的算力相差一千万倍 , 功率相差20万倍 , 如此大的差异 , 如果采用不同的架构和硬件 , 将给开发者带来巨大的算法迁移和开发工作量 , 面对这个挑战 , 我们在2014年就启动了AI处理器统一架构的技术论证 , 历时两年时间地完成了架构设计 , 取名达芬奇 。 华为达芬奇架构的核心是Cube计算引擎 , 这个架构具有可扩展计算 , 可扩展内存 , 实现了芯片内的单Cube到多Cube , 数千颗芯片的互联 , 解决全场景算力差异带来的难题 。 让开发者拥有了云边端一致的开发体验 。
统一的语言让华夏儿女之间沟通不存在困难 , 不需要进行协议转换 , 统一的华为达芬奇架构 , 就像语言文字一样 , 减少了程序间的和代码改写工作量 , 将大幅度提升开发者的效率 。
基于华为达芬奇架构我们推出了面向训练的昇腾910和面向推理的昇腾310的AI处理器 , 并打造了Atlas人工智能计算平台 , 覆盖了云边端AI全场景的需求 。 下面我将从云边端三个场景给大家介绍Atlas在全场景的开发实践 。 首先给大家分享的是在云端AI的应用 , 在全球人口超过1000万的城市有37个 , 其中有六个在中国 , 那么以一个拥有两千万人口的城市为例 , 有300万辆汽车 , 3000个路口 , 每天会产生超过4300万张过车的图片 , 这些数据如何进行实时分析 , 是城市交通治理的关键 , 当前主流的方案是在云端部署算力和应用 , 来分析车辆识别违章识别 , 交通流量的数据 。
我们可以看到 , 如果采用通用的处理器 , 需要3000多台服务器 , 采用GPU方案需要近一百台左右的服务器 , 如果采用面向AI深度学习优化的NPU方案仅需60台 , 大大减少了服务器的部署数量和功耗的需求 。
我们可以看到 , 我们已经进入了下一个计算架构创新的黄金十年 , 需要一起面向场景持续投入 , 软硬件的创新和优化 。 这里要感谢格灵深瞳、深瞐科技 , 云从科技等合作伙伴的开发者 , 一起突破极限 , 基于Atlas800AI服务器打造了高密AI推理方案 , 大家可以看到 , 我们在调优之前 , 单台AI服务器的处理能力是320路高清视频 , 这已经是世界领先的水平 , 但这并没有发挥Atlas应有的水平 。 在经过软硬件调优之后 , 我们的单台的AI的服务器 , 可以处理到384路的视频 , 进一步提升能力 , 这并不是我们的终点 , 我们将持续释放产品算力 , 并推出跟强算力的AI产品 。
「华为计算」HDC.Cloud|张迪煊:基于Atlas人工智能计算平台的全场景开发实践
文章图片
张迪煊分享华为Atlas人工智能计算平台的云边端全场景开发实践
张迪煊
接下来我给大家介绍基于Atlas的性能优化流程 , 这个过程主要包含了瓶颈分析 , 模型算子优化 , 内存优化、硬件编解码 , 流程编排 。 其中模型算子优化和流程编排是最关注的 。