「量子位」地平线大牛讲堂,一文看懂地平线如何再造摩尔定律|

3月25日 , 地平线BPU算法负责人罗恒以《地平线如何追求极致效能?》为题展开了一场别开生面的线上分享 。
作为「地平线核心技术系列公开课」的“奠基之课” , 罗恒从当前AI芯片的最大挑战 , 到MLperf的理想性与局限性 , 再到地平线BPU(BrainProcessingUnit , 地平线自研人工智能专用处理器架构)的演进之路娓娓而谈 , 结合人工智能的发展趋势深度剖析了地平线通过软硬结合挑战极致效能 , 再造“摩尔定律”的技术历程 。
以下为经整理后的分享:
AI芯片最大的挑战
自2015年起 , AI芯片逐渐成为人们所关注的趋势 。 产业参与者们都希望能够做出极具竞争力的芯片 , 种种挑战中最大的莫过于算法发展快和芯片迭代慢之间的矛盾 。
以2016年DeepMind提出的人工神经网络WaveNet为例 , 它能够模仿出让真假难辨的人类声音 , 但其计算量之大甚至无法在当时最强大的GPU上实时处理 , 接近一分钟的延迟让这项革命性突破始终无法真正的得到应用 。
2017年 , 算法优化后的ParalleWaveNet让计算效率提升了1000倍 , 谷歌将其成功应用到谷歌助手 。 假如某公司在此时(2017年)准备推出一款用于嵌入式系统的芯片 , 使得手机等移动场景也可以应用这项AI成果 , 是非常合理的选择 。 但到了2018年 , 算法又发生了优化 , 核心计算方式历经RNN、DalitedCNN已升级到了SparesRNN , 让手机CPU也可以运行 。 而2017年研发的芯片 , 在2019年才能面世 , 这是一个悲伤的故事 , 反映了算法快速发展与芯片迭代较慢之间的矛盾 。
「量子位」地平线大牛讲堂,一文看懂地平线如何再造摩尔定律|
文章图片
△呈现快速演进的AI算法趋势
回到地平线的主航道视觉感知上 。 2012年的AlexNet在ImageNet上的突破 , 拉开了这一波的AI浪潮的序幕 , 2012年到2016年 , 各种网络出现 , 起初致力于提升ImageNet , VGG模型扩充过快受限于GPU , 接下来的模型开始适度的考虑精度和算力的折中 , ResNet开始给出扩充网络算力获得不同精度的方案 。
2016年之后 , ImageNet精度逐渐饱和 , 计算效率优化得到重视 , 算法实现开始追求用更少的计算得到更高的精度 , SpueezeNet、MobileNet、ShuffleNet就是这一时期的“新”卷积神经网络代表 。 同时也开始了使用机器学习方法自动化搜索网络 , 以NASNet为代表 , 但主要还是在搜索网络子结构 。
到了2019年 , 卷积神经网络架构演进逐步收敛 , 子结构收敛于MobileNetv2的子结构 , 模型扩充方法则来自于EfficientNet的Compoundscalingmethod 。
以上AI算法的演进趋势对AI芯片厂商之间的竞争产生了极为重要的影响:固然芯片架构设计能力 , 芯片SOC的能力非常重要 , 但是由于算法在不断的变化 , 如何能够使得设计出来的芯片在面世的时候还能够符合算法的最新的进展 , 在现在乃至可预见的未来都将是AI芯片竞争的关键点 。
什么是更好的AI芯片?
算法演进与芯片迭代的脱节是摆在面前的挑战 , 那么 , 如何为AI芯片赛道上的玩家设立清晰的目标?如何拉通研究与市场 , 拉通工程与开发 , 并通过最优代表性的任务在实际场景中的测试反映机器学习算法的演进呢?目前通用的基准测试是MLPerf 。
但事实上 , 2019年MLPerfInferenceV0.5使用的分类模型仍是ResNet50和MobileNetV1 , 检测模型则是MobileNetV1和RerNet34 。 从这一点来看 , MLPerfInference尽管是刚刚出现的 , 但由于采用相对较老的模型其已经落后于算法进展两年了 。 此外 , 由于量化模型的普及型 , MLPerf希望设计统一的标准 , 但却因为精度问题最终选择降低标准(MobileNet) 。
提交者和标准设计方之间的博弈 , 使得任务往往没有办法像预期那样更新模型 。 但地平线始终认为 , 评估AI芯片的真实效能需要与时俱进的标准 。