亚马逊云服务推出机器学习定制训练芯片Trainium

在 2020 年度的 re:Invent 大会上 , 亚马逊云服务(AWS)推出了全新的机器学习定制训练芯片 Trainium。 通过对 TensorFlow、PyTorch 和 MXNet 提供支持 , 该公司希望带来比任何竞争对手都更高的性能表现 。 此外 Trainium 还可作为一个 EC2 实例 , 在 AWS 的 SageMaker 机器学习平台上使用 , 基于这些定制芯片的新实例将于 2021 上半年推出 。
亚马逊云服务推出机器学习定制训练芯片Trainium文章插图
【亚马逊云服务推出机器学习定制训练芯片Trainium】(来自:AWS)
Trainium 具有相当显著的速度和成本优势 , 与标准的 AWS GPU 实例相比 , AWS 承诺可带来 30% 的吞吐量提升、以及降低 45% 的单次引用成本 。
此外 AWS 正与英特尔合作启动基于 Habana Gaudi 的 EC2 机器学习训练实例 。 与定于 2021 年推出的版本相比 , 未来版本有望带来高达 40% 的性价比提升 。
亚马逊云服务推出机器学习定制训练芯片Trainium文章插图
需要指出的是 , 两款新产品都是去年 re:Invent 大会上推出的 AWS Inferentia 定制芯片方案的补充 , 且 Trainium 使用了与 Inferentia 相同的软件开发套件(SDK) 。
据悉 , 在机器学习基础架构中 , 90% 的开销都用于解决推理成本 。 尽管 Inferentia 有着成本方面的优势 , 但开发团队也受到了固定 ML 训练的预算限制 。
为了突破训练范围和频度的限制 , AWS Trainium 通过以云为中心的 ML 训练 , 带来了最高性能和最低成本 。 结合两者 , 客户能够切实扩展 ML 训练的工作量、同时加速端到端的部署 。