ZAKER科技|揭秘硬核技术,英国AI芯片独角兽勇闯中国!搭上阿里百度( 二 )


例如它能将自然语言处理(NLP)处理速度可提升20%-50% , 为图像分类带来6倍的吞吐量而且是更低的时延 , 在一些金融模型方面训练速度能够提高26倍以上 。
目前IPU已实现量产 , 通过访问微软Azure等云计算平台 , 或者购买戴尔服务器等产品 , 均可获取IPU资源 。 在国内 , Graphcore也正在与金山云合作 , 拟上线一个针对中国开发者和创新者的云业务 。
ZAKER科技|揭秘硬核技术,英国AI芯片独角兽勇闯中国!搭上阿里百度
文章图片
除了芯片产品走向落地 , 在过去6-12个月 , Graphcore在全球版图快速铺开 , 迄今有全球员工450人 , 分布在北京、上海、深圳、台北、布里斯托、伦敦、剑桥、挪威、奥斯陆、西雅图、帕拉奥图、纽约、奥斯汀、东京、首尔等地 。
二、以计算图为表征的创新AI芯片架构
Graphcore的自研芯片架构诞生的背景 , 源于过去几年AI算法模型规模呈指数级增长 , 需要更适宜的全新处理器架构 。
相较传统科学计算或高性能计算(HPC) , AI或者说机器智能有一些特性 , 包括大规模并行就散、稀疏数据结构、低精度计算 , 以及在训练推理过程中的数据参数复用、静态图结构 。
GraphcoreIPU即是针对计算图的处理设计而成 , 相比传统智能处理器 , IPU有三个核心区别:采用MIMD架构、所有模型在片内处理、可解决大规模并行计算处理器核之间的通信效率 。
具体而言 , IPU采用大规模并行MIMD的处理核 , 抛弃了外部DDR , 在片内做到300MB的大规模分布式片上SRAM , 以打破内存带宽对整体性能构成的瓶颈 。
相较CPU的DDR2子系统或是GPU的GDDR、HBM来说 , IPU这一设计可将性能提升10-320倍 。 与访问外存相比较 , 时延基本为1% , 可忽略不计 。
ZAKER科技|揭秘硬核技术,英国AI芯片独角兽勇闯中国!搭上阿里百度
文章图片
当前已量产的IPU处理器为GC2 , 拥有256亿个晶体管 , 在120瓦功耗下 , 混合精度算力可达125TFLOPS 。
GC2采用台积电16nm工艺 , 片内包含1216个独立的IPU处理器核心(Tile) , 整个GC2包含7296个线程 , 支持7296个程序并行运行 。 其内存带宽为45TB/s、片上交换是8TB/s , 片间IPU-Links为2.5Tbps 。
为了解决并行硬件的高效编程问题 , IPU通过硬件支持BSP协议 , 并通过BSP协议把整个计算逻辑分成了计算、同步、交换 。
这对软件工程师和开发者来说非常易于编程 , 因为不必处理locks这个概念 , 也不必管任务具体在哪个核上运行 。
目前IPU是世界上目前第一款BSP处理器 , BSP技术在谷歌、Facebook、百度之类的大规模数据中心均有使用 。
ZAKER科技|揭秘硬核技术,英国AI芯片独角兽勇闯中国!搭上阿里百度
文章图片
卢涛介绍说 , IPU重点面向云端训练以及对精度和延时要求高的推理场景 , 还有一些训练和推理混合的场景 。
在精度方面 , IPU当前不支持整数int8 , 主要支持FP16、FP32以及混合精度 。
当前应用较大的主流计算机视觉类模型以int8为主 , 而自然语言处理推理以FP16、FP32为主流数据格式 , IPU使用FP16精度在ResNeXt、EfficientNet等新兴视觉模型中性能功耗比同样具有优势 。
未来 , Graphcore的推进策略还是训练和推理并行 , 但会更聚焦于一些对精度和时延要求更低、对吞吐量要求更高的场景 。 另外 , 他们也看到在推荐算法等应用出现一些希望同时实现训练和推理的需求 。
三、软件支持容器化部署 , 上线开发者社区
硬件芯片架构是基础 , 而软件则是提升用户体验的关键利器 。
对于AI芯片来说 , 芯片研发出来只是第一部分 , 要能落地到产业中 , 还需展现出色的可移植性、可开发性、可部署性 , 能提供完善的工具链和丰富的软件库 , 可实现与主流机器学习框架无缝衔接 , 而整个链条全部打通需要非常大的投入 。