「ARM」历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀


上月 , 全志科技发布了新款智能语音专用处理器 , 这是Arm中国耗时两年研发的周易AIPU的落地首秀 。 近日 , 雷锋网与Arm中国产品研发副总裁刘澍和全志科技副总裁陈风进行了深度交流 , 了解到了Arm中国的产品进展以及Arm中国与全志科技定制周易AIPU的更多细节 。
【「ARM」历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀】
「ARM」历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀
本文插图
Arm和Arm中国的AI产品冲突了吗?
Arm中国在2018年注册成立 , 中方投资团队占股51% , Arm公司占股49% , 接管Arm在国内的所有业务 。 同时 , Arm中国也会研发更符合中国市场需求的产品 。 据悉 , Arm中国从2018年开始就在推进3个产品线 , 分别是:周易AIPU、山海平台安全解决方案、星辰处理器 。
刘澍透露:“这三个产品线从团队建立、到产品开发到发布客户、到客户芯片流片回来测试的工作 , 目前一切进展顺利 。 今年第一季度恰好都有客户的芯片返回而且工作正常 。 ”
周易AIPU属于当下最受关注的AI产品品类 , 也是Arm中国最先看到落地应用的产品 。 “与Arm不久前推出的配合Arm Cortex-M处理Ethos-U55和配合Cortex-A处理器的Ethos N系列NPU相比 , Arm中国周易AIPU更加通用 , 既可以跟Cortex-M或Cortex-A一起工作 , 也可以作为处理器进行独立工作 。 ”刘澍对雷锋网表示 。
「ARM」历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀
本文插图
也就是说 , 周易AIPU既不是CPU处理器 , 也不是神经网络加速器 。 这是因为 , 周易AIPU定义了一套新的适用于AI算法的指令集 , 通过指令来驱动里面的向量处理单元和固定的AI算法处理单元 , 从而完成各种复杂网络的组合的操作 。
「ARM」历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀
本文插图
但作为一款AI处理器 , 周易AIPU也必须寻找通用性和效率的平衡点 , 以提升产品的竞争力 。 周易AIPU的做法是 , 用向量处理单元Vector/Tensor Process的并行的8-bit向量阵列进行向量计算 , Arm中国为Vector/Tensor Process定义了一整套向量处理指令集 , 有点类似于Arm此前的NEON指令集 。
另外 , 周易AIPU中的AI Fix Function把常见的AI网络里所通用的部件和单元固化为硬件 , 通过指令就可以驱动硬件工作 , 提升效率 。
标量部分 , 周易AIPU也有标量单元 , 这个单元并非完成的CPU , 但有类似标量处理器的功能 。
因此 , 周易AIPU用标量处理单元Scalar Unit、向量处理单元TensoCre Ellxe.Cell , 还有能提升AI效率的AI Fix Function , 最终实现通用性和效率的兼顾 。
除此之外 , 周易AIPU的架构中还有可扩展的安全架构和可扩展的用户定义架构 。 “可扩展的用户定义架构其实就是给像全志科技这样的战略合作伙伴准备的 , 因为有的客户可能很简单地把AIPU集成下来就可以了 , 但也有一些比较有深入研究的芯片公司 , 会对里面的算子有自己定制的理解和需要 。 ”刘澍进一步指出 ,
“我们开放了这样的接口 , 可以用特殊的指令来驱动用户定义的算子 。 因此 , 不同周易AIPU平台的产品最终的效能可能不同 。 ”
当然 , 周易AIPU也是一些列高度可配置的处理单元 , 开发者既可以配置通用的Tensor算力 , 也也已配置AI Fix Function专用算力 。 周易AIPU单核性能为0.2TOPS-4TOPS , 用多核配置组成系统最高可实现64TOPS的算力 。
「ARM」历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀
本文插图
全志科技最新发布的R329语音专用SoC中集成的正是定制的周易AIPU 。