司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB


_本文原题:Graphcore二代IPU发布 , 7nm制程片上存储高达900MB
2020年7月15日 , Graphcore(中文名称:拟未)在布里斯托和北京同步推出了两款硬件产品 。
第二代 IPU(智能处理单元)——Colossus? MK2 GC200 和基于前者、可用于大规模集群系统的 IPU-Machine——M2000 。 同时 , 他们还宣布同金山云达成合作 , 并已推出面向开发者的 IPU 云服务 。
专门为人工智能计算设计
从名字就可以看出 , Graphcore 的 IPU 产品是专门为人工智能计算所设计 , 在这个赛道 , IPU 被其缔造者们认为具有天然的优势 。
据悉 , 本次发布的 GC200 仍然延续了第一代的“同构众核”架构 , 所不同的是 , 制造工艺从 16nm , 提升为最新的 7nm 。
得益于此 , 加之技术迭代 , GC200 的处理器片上存储从 300MB 提升到了 900MB , 晶体管数量更是达到了惊人的 594 亿(裸片823平方毫米) , 较 NVIDIA 今年5月发布最新旗舰 A100 的 540 亿还要多 。
它的处理器核心从上一代的 1217 提升到了 1472 , 能够执行 8832 个单独的并行线程 , 系统性能提升了 8 倍以上 。
司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
本文插图
图 | GC200
在数据处理方面 , GC200 也延续了之前的高带宽高容量表现 , 这对于应对一些复杂的 AI 模型及算法很有帮助 , 官方声明它足以支持具有数千亿个参数的最大模型 。
通信方面 , Graphcore 推出了自创的 AI 专属的 IPU-FABRIC 横向扩展结构 。
官方表示 , 该结构的延迟为 2.8Tbps , 最多支持 64000 个 IPU 之间的横向扩展 。
M2000 是 Graphcore 推出的基于 GC200 的刀片型服务器 , 每片能提供 1PetaFlop 的算力支持 。 M2000 可以被看作是 Graphcore IPU 系统产品部署的最小单元 , 基于它可以很方便地创建各种规模的集群 。
司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
本文插图
图 | M2000
性能PK
Graphcore 对外一直宣传 IPU 可以同时进行很好的“训练”和“推理” , 本次其官方虽然因对标的 A100 未公布结果而无法对比 , 但通过与自家上一代的对比 , 仍能间接看出明显的进步 。
司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
本文插图
图 | BERT-Base:Inference(C2 & V100)
可以看到 , 在 NLP 中 , 相同框架的情况下进行推理运算 , NVIDIA V100 表现仅为 C2 的一半 。
司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
本文插图
图 | BERT-Base:Training(C2 & V100)
C2 的训练时间较 V100 缩短 25% , 耗费 36.3小时 。
司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
本文插图
图 | 百度 DEEP VOICE3 训练(C2 & GC200 & V100)
同样的条件 , 一代 C2 较 V100 提高了6.8倍 , GC200 较 V100 提高了14.8倍 。
司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
本文插图
图 | C2 & GC200
综上 , 第一代IPU 相较于 NVIDIA 上代旗舰 V100 的表现可圈可点 , 而二代 IPU GC200 的表现与 C2 相比有了 7 倍以上的提升 。
【司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB】可凡事也总有两面 , GC200 同构众核的设计方案 , 虽然非常擅长处理大规模的并行计算 , 但也并非没有弱点 , 如在做稠密矩阵这类并行特征较弱运算时表现就要稍逊 。