简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix

机器之心报道
编辑:魔王、小舟
AMD发布InstinctMI100加速器 , 它使用最新MatrixCore技术 , 是面向HPC和AI的新型加速系统 。 AMD表示这是全球最快的HPCGPU , 也是首个超越10teraflops(FP64)性能障碍的x86服务器GPU 。
简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix
文章图片
当前 , GPU已经成为深度学习训练的标配 , 而针对深度学习中的Tensor操作 , 各大厂商在设计软硬件时都会做特别优化 , 其中知名的就是英伟达的TensorCore 。
今日 , 对标英伟达Tensorcore , 一直发展迅猛的AMD也推出了类似功能单元MatrixCore 。 同时 , 基于MatrixCore技术 , AMD发布了新型AMDInstinctMI100加速器 , 据称是全球最快的HPCGPU和首个超越10teraflops(FP64)性能障碍的x86服务器GPU 。
据AMD官方介绍 , AMDInstinctMI100GPU配备了全新AMDCDNA架构 , 使用第二代AMDEPYC处理器 , 是面向HPC和AI的新型加速系统 。
在性能上 , MI100为HPC提供了高达11.5TFLOPS的FP64峰值性能 , 为AI和机器学习提供了高达46.1TFLOPS的FP32Matrix峰值性能 。
与AMD的上一代加速器相比 , MI100凭借新的AMDMatrixCore技术 , 为AI训练提供了近7倍的FP16理论峰值浮点性能提升 。
简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix
文章图片
简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix
文章图片
AMDInstinctMI100为HPC和AI提供优秀的性能(图源:https://www.amd.com/zh-hans/products/server-accelerators/instinct-mi100)
MI100的具体规格参见下表:
简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix
文章图片
AMD数据中心GPU和加速处理公司副总裁BradMcCredie表示:「AMDInstinctMI100的推出 , 标志着AMD朝着百亿亿级计算迈出了重要的一步 。 这款新型加速器专为科学计算中重要的工作负载打造 , 结合AMDROCm开放软件平台后 , 能够为科学家和研究人员在HPC中的工作提供坚实的基础 。 」
此外 , AMD还推出了ROCm4.0 。 ROCm开发者软件平台旨在为百亿亿级计算提供基础 , 包括编译器、编程API和库 。 此次推出的ROCm4.0针对基于MI100的系统进行了优化 , 将编译器升级为开源版本 , 并支持OpenMP5.0和HIP 。 经过ROCm4.0优化 , PyTorch和Tensorflow框架可以基于MI100实现更高的性能 。
AMDInstinctMI100加速器的特性
以下是AMDInstinctMI100加速器的关键能力和特性:
简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix
文章图片
AMDInstinctMI100的关键特性一览表(图源:https://www.amd.com/system/files/documents/instinct-mi100-brochure.pdf)
全新的AMDCDNA架构:该架构专为AMDGPU适应百亿亿级计算时代而打造 , 是MI100加速器的核心 , 能够提供卓越的性能和能效 。
适应HPC工作负载的FP64和FP32顶尖性能:峰值FP64和峰值FP32的性能分别达到11.5TFLOPS和23.1TFLOPS , 行业领先 。
【简简科技|Core,深度学习搞起来!对标英伟达,AMD推出Matrix】全新的MatrixCore技术:适合多种单精度和混合精度矩阵运算(如FP32、FP16、bFloat16、Int8和Int4)的超强性能 , 从而提升HPC和AI的收敛性能 。
第二代AMDInfinityFabric技术:InstinctMI100提供大约二倍的PCIe4.0接口P2P峰值I/O带宽 , 每块GPU配置三条AMDInfinityFabric总线 , 总带宽高达340GB/s 。 在服务器上 , MI100GPU可以配置两个全连接quadGPUhive , 每个提供高达552GB/s的P2PI/O带宽 , 从而实现快速数据共享 。
超快HBM2内存:32GB高带宽HBM2内存 , 时钟速率为1.2GHz , 可以提供超高的1.23TB/s内存带宽 , 以支持大型数据集 , 并消除数据进出内存的瓶颈 。