简简科技|Core，深度学习搞起来！对标英伟达，AMD推出Matrix 机器之心报道编辑：魔王、小舟AMD发布I

机器之心报道
编辑：魔王、小舟
AMD发布InstinctMI100加速器，它使用最新MatrixCore技术，是面向HPC和AI的新型加速系统。 AMD表示这是全球最快的HPCGPU ，也是首个超越10teraflops(FP64)性能障碍的x86服务器GPU 。

文章图片
当前， GPU已经成为深度学习训练的标配，而针对深度学习中的Tensor操作，各大厂商在设计软硬件时都会做特别优化，其中知名的就是英伟达的TensorCore 。
今日，对标英伟达Tensorcore ，一直发展迅猛的AMD也推出了类似功能单元MatrixCore 。同时，基于MatrixCore技术， AMD发布了新型AMDInstinctMI100加速器，据称是全球最快的HPCGPU和首个超越10teraflops(FP64)性能障碍的x86服务器GPU 。
据AMD官方介绍， AMDInstinctMI100GPU配备了全新AMDCDNA架构，使用第二代AMDEPYC处理器，是面向HPC和AI的新型加速系统。
在性能上， MI100为HPC提供了高达11.5TFLOPS的FP64峰值性能，为AI和机器学习提供了高达46.1TFLOPS的FP32Matrix峰值性能。
与AMD的上一代加速器相比， MI100凭借新的AMDMatrixCore技术，为AI训练提供了近7倍的FP16理论峰值浮点性能提升。

文章图片

文章图片
AMDInstinctMI100为HPC和AI提供优秀的性能（图源：https://www.amd.com/zh-hans/products/server-accelerators/instinct-mi100）
MI100的具体规格参见下表：

文章图片
AMD数据中心GPU和加速处理公司副总裁BradMcCredie表示：「AMDInstinctMI100的推出，标志着AMD朝着百亿亿级计算迈出了重要的一步。这款新型加速器专为科学计算中重要的工作负载打造，结合AMDROCm开放软件平台后，能够为科学家和研究人员在HPC中的工作提供坚实的基础。」
此外， AMD还推出了ROCm4.0 。 ROCm开发者软件平台旨在为百亿亿级计算提供基础，包括编译器、编程API和库。此次推出的ROCm4.0针对基于MI100的系统进行了优化，将编译器升级为开源版本，并支持OpenMP5.0和HIP 。经过ROCm4.0优化， PyTorch和Tensorflow框架可以基于MI100实现更高的性能。
AMDInstinctMI100加速器的特性
以下是AMDInstinctMI100加速器的关键能力和特性：

文章图片
AMDInstinctMI100的关键特性一览表（图源：https://www.amd.com/system/files/documents/instinct-mi100-brochure.pdf）
全新的AMDCDNA架构：该架构专为AMDGPU适应百亿亿级计算时代而打造，是MI100加速器的核心，能够提供卓越的性能和能效。
适应HPC工作负载的FP64和FP32顶尖性能：峰值FP64和峰值FP32的性能分别达到11.5TFLOPS和23.1TFLOPS ，行业领先。
【简简科技|Core，深度学习搞起来！对标英伟达，AMD推出Matrix】全新的MatrixCore技术：适合多种单精度和混合精度矩阵运算（如FP32、FP16、bFloat16、Int8和Int4）的超强性能，从而提升HPC和AI的收敛性能。
第二代AMDInfinityFabric技术：InstinctMI100提供大约二倍的PCIe4.0接口P2P峰值I/O带宽，每块GPU配置三条AMDInfinityFabric总线，总带宽高达340GB/s 。在服务器上， MI100GPU可以配置两个全连接quadGPUhive ，每个提供高达552GB/s的P2PI/O带宽，从而实现快速数据共享。
超快HBM2内存：32GB高带宽HBM2内存，时钟速率为1.2GHz ，可以提供超高的1.23TB/s内存带宽，以支持大型数据集，并消除数据进出内存的瓶颈。