「华为计算」HDC.Cloud|张迪煊：基于Atlas人工智能计算平台的全场景开发实践 3月28日

3月28日，在华为开发者大会2020（Cloud）上，华为展示了各行业合作伙伴基于华为人工智能计算平台Atlas的云边端全场景开发实践。华为已与数十家伙伴合作，推动基于华为昇腾AI处理器的Atlas系列模块、板卡、小站、服务器在智慧交通、智慧电力、智慧金融、智慧城市、智能制造等数十个行业落地。
华为Atlas人工智能计算平台，采用统一的华为达芬奇架构，打造云边端一致的开发体验，将大幅提升开发者的效率。同时， TBE高效算子开发工具将进一步丰富昇腾的生态，释放昇腾AI处理器的算力潜能。

文章图片
张迪煊在大会现场发表主题演讲以下为张迪煊演讲全文
线上的开发者朋友们，大家上午好！我是张迪煊，来自华为计算产品线。去年华为发布的全球最快的AI训练集群Atlas900就是我和我的团队开发的，今天我非常荣幸能代表华为分享。
从行业到个人应用，人工智能已经开始改变人类的生产和生活，这一切的实现能否通过一个架构，来覆盖云边端全场景的AI呢？这是科学家一直思考的世界级难题，从一个耳机到数据中心AI应用，需要的算力相差一千万倍，功率相差20万倍，如此大的差异，如果采用不同的架构和硬件，将给开发者带来巨大的算法迁移和开发工作量，面对这个挑战，我们在2014年就启动了AI处理器统一架构的技术论证，历时两年时间地完成了架构设计，取名达芬奇。华为达芬奇架构的核心是Cube计算引擎，这个架构具有可扩展计算，可扩展内存，实现了芯片内的单Cube到多Cube ，数千颗芯片的互联，解决全场景算力差异带来的难题。让开发者拥有了云边端一致的开发体验。
统一的语言让华夏儿女之间沟通不存在困难，不需要进行协议转换，统一的华为达芬奇架构，就像语言文字一样，减少了程序间的和代码改写工作量，将大幅度提升开发者的效率。
基于华为达芬奇架构我们推出了面向训练的昇腾910和面向推理的昇腾310的AI处理器，并打造了Atlas人工智能计算平台，覆盖了云边端AI全场景的需求。下面我将从云边端三个场景给大家介绍Atlas在全场景的开发实践。首先给大家分享的是在云端AI的应用，在全球人口超过1000万的城市有37个，其中有六个在中国，那么以一个拥有两千万人口的城市为例，有300万辆汽车， 3000个路口，每天会产生超过4300万张过车的图片，这些数据如何进行实时分析，是城市交通治理的关键，当前主流的方案是在云端部署算力和应用，来分析车辆识别违章识别，交通流量的数据。
我们可以看到，如果采用通用的处理器，需要3000多台服务器，采用GPU方案需要近一百台左右的服务器，如果采用面向AI深度学习优化的NPU方案仅需60台，大大减少了服务器的部署数量和功耗的需求。
我们可以看到，我们已经进入了下一个计算架构创新的黄金十年，需要一起面向场景持续投入，软硬件的创新和优化。这里要感谢格灵深瞳、深瞐科技，云从科技等合作伙伴的开发者，一起突破极限，基于Atlas800AI服务器打造了高密AI推理方案，大家可以看到，我们在调优之前，单台AI服务器的处理能力是320路高清视频，这已经是世界领先的水平，但这并没有发挥Atlas应有的水平。在经过软硬件调优之后，我们的单台的AI的服务器，可以处理到384路的视频，进一步提升能力，这并不是我们的终点，我们将持续释放产品算力，并推出跟强算力的AI产品。

文章图片
张迪煊分享华为Atlas人工智能计算平台的云边端全场景开发实践
张迪煊
接下来我给大家介绍基于Atlas的性能优化流程，这个过程主要包含了瓶颈分析，模型算子优化，内存优化、硬件编解码，流程编排。其中模型算子优化和流程编排是最关注的。