Imagination刘国军:用“GPU+AI加速器”破局AI算力需求|GTIC2020( 二 )
Imagination的GPU IP和NNA IP应用范围很广 , 可应用在移动、汽车、物联、云游戏等各个领域 。
GTIC AI芯片创新峰会的讨论离不开算力 。 在信息与数据的社会 , 从互联网上的几十亿数据 , 到物联网上数万亿的设备互相连接 , 这其中的AI应用需要强大算力的支撑 。 应用端也是一样 , 从一个指纹的识别到最高性能的计算 , 都需要算力来支撑 。
传统的CPU远远不能满足当前从云到端的算力需求 。 从云端到边端 , 到2024年 , 数据中心市场可以达到约1000亿美元 。 在这当中 , AI推理芯片在边缘计算市场占据了很大份额 , 达到约63.6% 。
随着AI边缘推理应用向前发展 , 大家可以看到 , 移动互联、工业、安防、物联网、多媒体、自动驾驶等领域中的相关应用逐渐落地 。
算力需求怎么满足?Imagination选取的是“GPU+AI加速器”的解决方案 , 用“GPU+NNA”面向自动驾驶和数据中心应用 。
在边缘计算场景 , AI 芯片主要承担推理任务 。 由于边缘侧场景多种多样、各不相同 , 对于计算硬件平台的算力和能耗等性能需求也不同 。 因此 , 不同于云端AI芯片需具备“高端、通用”的性能特点 , 应用于边缘侧的AI芯片需要针对特殊场景进行针对性设计 , 以实现最优的解决方案 。
IMG的边缘侧推理解决方案将GPU和NNA相结合 , 灵活地将不同的工作负荷分配到最适合的硬件单元 , 最大限度地发挥不同硬件单元的性能 。
文章插图
三、全新B系列GPU IP & 4系列 NNA IP均采用多核架构今年十月份 , Imagination在北京发布B系列的GPU 。 随后在11月 , Imagination发布第四代NNA IP 。 最新一代GPU IP和NNA IP有什么特点?在AI芯片获取算力方面 , 做出哪些提升?
刘国军分享 , B系列GPU IP共包含BXE、BXM、BXT、BXS四款产品 , 从低到高提供不同的性能 。
其中 , BXS是符合ISO 26262标准的汽车GPU IP内核 , 采用虚拟化技术及分块区域保护技术 , 具备全新的功能和安全机制 。 这些功能都集成在硬件中 , 对于汽车GPU和自动驾驶应用而言 , 这种设计有利于提升安全性 。
BXT采用多核架构 , 算力可达6TFLOPS、192Gigapixel/s , 且具备可扩展性 , 可以去中心化 。 针对7nm、5nm制程 , BXT可做特定优化 , 以满足从移动终端到数据中心的使用需求 。
新的架构在多核配置的时候 , 与传统的配置有所不同 。 针对memory多核算力增加时的效率问题、memory的读取存储问题 , Imagination也有比较好的解决方案 。
对比市场上使用同样半导体制造工艺的PCIe显卡 , IMG BXT具有更高的计算密度 。 这意味在同样的硅片面积下 , BXT可以提供更高的单精度(FP32)运算能力 。
文章插图
Imagination最新的4系列NNA IP也采用多核架构 , 这是NNA IP系列的第四代产品 。
NNA IP系列第一代产品没有发布 。 第二代NNA IP产品PowerVR 2NX于2017年在深圳发布 。 PowerVR 2NX单核IP运行在保守频率800 MHz , 能提供2048 MACs/cycle(行业标准性能指标)操作 , 即可达到每秒3.2万亿次推理操作 。
紫光展锐采用这款IP开发的虎贲T710芯片 , 在去年的Benchmark跑分中拿到第一名 。
今年最新发布的第四代NNA IP计算效率和计算密度都十分杰出 。 4NX-MC4一个四核方案可提供50TOPS算力 , 由于具备可扩展性 , 基于最新NNA IP的解决方案可将算力扩展至200甚至500TOPS 。
文章插图
多核的特点是什么?是可扩展 。 在整个计算过程中 , 多核架构可以做到近memory计算 , 降低延迟 。 另外 , 多核架构的各种调度和分配方式都十分灵活且可预测 。