按关键词阅读:
芯片自研的趋势正愈演愈烈 。
云服务巨头亚马逊最近发表声明称 , 计划将 Alexa 语音助手的部分计算任务转移到自主设计的定制设计芯片 Inferentia 上 , 以便加速任务的执行速度 , 同时降低成本 。
这意味着亚马逊将减少对英伟达芯片的依赖 。
当用户使用亚马逊 Echo 智能音箱呼叫 Alexa 语音助手时 , 语音数据将发送到数据中心的服务器上 , 然后再由 AI 系统分析和处理 , 以文本的形式生成反馈信息 , 最后再转换成 Alex 的语音 , 转达给用户 。
在此之前 , 整套流程都是由英伟达芯片驱动的 , 但从今往后 , 亚马逊将逐步起用自家的 Inferentia 计算芯片 。 该芯片发布于 2018 年 , 专门为执行机器学习任务而定制设计 , 可以加速文本转语音、识别图像等任务的执行速度 。
文章插图
亚马逊官方介绍 , AWS 云服务是使深度学习普及到普通开发者 , 并以低成本提供按需付费服务的顶尖基础架构 。 作为加速机器学习任务的定制芯片 , Inferentia 是实现这一愿景的长期战略的一部分 。
Inferentia 旨在在云端提供高性能推理 , 降低推理的总成本 , 配套的软件开发套件(SDK)可以方便开发人员将机器学习集成到其业务中 。 它的特点主要是高性能 , 低延迟和高灵活性 。
每个 Inferentia 芯片的运算性能最高可达 128 TOPS , 而现有的每个 EC2 Inf1 服务最多支持 16 个 Inferentia 芯片 。 芯片经过了特殊优化 , 以最大程度地提高小样本尺寸的吞吐量 , 这对于语音生成和搜索等对延迟要求很高的任务特别有用 。
另一方面 , Inferentia 拥有大量的片上内存 , 可用于缓存大型模型 , 而不是存储在芯片外 。 由于它的处理核心(又被称作神经核心)可以高速访问存储片上内存中的模型且不受片外存储器带宽限制 , 因此可以有效减少延迟对推理的重大影响 。
亚马逊表示 , 将 Alexa 相关任务转移到 Inferentia 芯片 , 可以将延迟降低 25% , 成本降低 30% 。
亚马逊还强调 , 开发人员可以使用 TensorFlow , PyTorch 和 MXNet 等流行框架来训练模型 , 并使用 AWS Neuron SDK 轻松地将它们部署到云服务器上 。 Inferentia 支持 FP16 , BF16 和 INT8 数据类型 , 还可以采用 32 位训练模型并使用 BFloat16 以 16 位模型的速度自动运行 。
近年来 , 亚马逊 , 微软和谷歌等公司正在大力发展云计算服务 , 因此需要大量的数据中心和服务器西元 , 由此成为了最大的计算芯片客户 。 这种趋势推动了英伟达 , AMD 和英特尔等公司加大了对计算芯片的研发力度 , 而且相关营收也不断增长 。
但最近的趋势显示 , 越来越多的技术公司正在尝试摆脱对传统芯片供应商的依赖 , 转向自主设计芯片的道路 。 比如苹果最近推出了搭载自研中央处理器 M1 芯片的 Mac 电脑 。
【告别英伟达,亚马逊计划将Alexa语音处理任务转移至自研芯片】目前 , 亚马逊的云端面部识别服务 Rekognition 也已经已开始使用 Inferentia 芯片 , 但仍有大部分服务依赖于英伟达芯片 。
稿源:(未知)
【傻大方】网址:http://www.shadafang.com/c/111J2AX2020.html
标题:告别英伟达,亚马逊计划将Alexa语音处理任务转移至自研芯片