企业|又一家AI芯片初创企业要挑战英伟达

企业|又一家AI芯片初创企业要挑战英伟达】来源:内容由半导体行业观察(ID:icbank)编译自「enterpriseai」,谢谢。

据enterpriseai报道,目前市场上有80多家AI芯片供应商和初创公司,每家公司都表示,在为广泛的行业和用途构建AI芯片时,他们都有一个更好的主意。
这样的情况同样出现在拥有3年历史的无晶圆厂AI芯片公司SimpleMachines身上。据报道,他们正在凭借自己独特的设计去挑战Nvidia和Marvell这样的芯片巨头。当然,像他们这样的初创公司也是其挑战对象。其说凭借的就是他们所说的不同方法去解决AI计算的难题。

企业|又一家AI芯片初创企业要挑战英伟达
文章插图
SimpleMachines的创始人兼首席执行官Karu Sankaralingam说,这始于公司所谓的算法自适应AI芯片,程序员可以对其进行定制,以快速,无缝地满足其工作流程的需求。
这个想法催生了Mozart:该公司的首个AI芯片,该芯片针对推理进行了优化,在设计中使用了16纳米工艺,HBM2高带宽内存和PCIe Gen3x16尺寸。Sankaralingam告诉EnterpriseAI,公司的Mozart芯片现在正在送样,正在接受客户评估。他说,Mozart芯片是由芯片制造商台积电生产的,具有完整的软件和硬件堆栈,可让数据科学家运行程序而无需担心背后的问题。
Sankaralingam说,Mozart之所以能够在AI芯片领域脱颖而出,是因为它可以在一个芯片上同时运行多个AI模型。
他说:“之所以发生这种情况,是因为我们的芯片在内部分为64个不同的模块,如果有必要,程序员可以对其进行寻址并同时运行64个不同的应用程序或模型。” “然后,开发人员可以编写64个不同的模型,并且可以在一芯片硅片上同时运行64个模块(如果需要)。
Mozart的软件堆栈包括直接的TensorFlow支持以及C / C ++和Python的API,使程序员和数据科学家可以使用它。
Mozart可以以称为Accelerando的PCIe卡形式购买,也可以通过SimpleMachines的Symphony Cloud Service进行使用,该服务可以访问Azure,Google Cloud Platform和AWS等公有云,本质上是一种AI-as-a -服务交付模式。初始测试显示了可以同时运行的推荐引擎,语音和语言处理以及图像检测的用例。将来,带有Mozart芯片的Accelerando卡将在标准OEM厂商的系统中出售,例如Dell和Supermicro。

企业|又一家AI芯片初创企业要挑战英伟达
文章插图
不同的方法
Moor Insights&Strategy的HPC和机器学习高级研究分析师Karl Freund表示,近年来他在AI芯片和软件的“寒武纪大爆发”中看到了十几种独特的AI芯片设计,但是SimpleMachines的Mozart设计不同于大多数设计。
“像所有的AI初创公司一样,他们声称性能出色,但是现在还不能断言他们的说法” Freund说。“他们的内存架构给人留下了深刻的印象,这种架构看上去优雅而简单,这将使繁重的软件工作变得更容易解决。在软件方面,他们还有很多工作要做,例如对PyTorch的支持。但是随着平台的成熟,他们似乎正在朝着正确的方向前进,这值得进一步跟踪。”
AI芯片要求不断变化
他说,新型Mozart AI芯片的灵感之一是Sankaralingam正在进行的研究,该研究指出需要一种新型的架构,以适应当今的大数据时代。Sankaralingam还是威斯康星大学麦迪逊分校的计算机科学教授,他在那里任教14年。
Sankaralingam说,当前的芯片平台,甚至包括为特定要求而构建的定制芯片,都无法满足这些需求。“应用呈爆炸式增长,因此,它不再只是处理图像了。它是文本到语音乘以重要数据的时间,并且变化迅速且不断增长,然后每六个月突破一次。公司的机会是市场需要大量的计算效率,而GPU却无法满足他们的需求。这些趋势使我们意识到,针对一个AI问题的专用定制芯片已经面世。”
他说,借助Mozart,这些挑战得以解决,因为可以通过使用芯片的深度软件堆栈即时重新编程来更改芯片上的项目需求。
他说:“我们正在与客户的讨论中,他们都说过不同的公司如何使用不同的模型,许多公司正在使用许多模型。” “这使我们再次审视了关于AI计算必要条件的假设。能力和效率并不是唯一的指标,另一个重要的指标是算法适应性。GPU之所以会出现,是因为它们具有很高的适应性。”
Sankaralingam说,使用另一种方法,SimpleMachines的策略是忽略应用正在尝试执行的操作,而转向算法。“我们观察到,许多或所有这些算法从根本上分解为四种行为:数据收集,计算,控制和同步。我们可以使用这些行为对算法进行分类。然后,我们构建一个个可以将应用分解为这些行为的编译器,并将该信息提供给我们的硬件。”