那年初夏|华人学者提出软件算法架构加速AI实时化,性能超越GPU、FPGA( 四 )


3.参数自动调整(parameterauto-tuning)
参数自动调整专门测试关键性能参数的不同配置 , 包括将数据放置在各种GPU/CPU存储器上 , 不同的数据平铺大小以及每个处理单元上每个DNN层的循环置换的策略 , 从而为生成最优的模型执行代码扫清了障碍 。
总而言之 , 压缩-编译协同设计方法允许编译器将剪枝后的内核视为特殊模式 , 不仅可以实现模型的高精度与高压缩率 , 还可以有效地将卷积核模式转换为性能上的提升 。
结语
由此看来 , 工业界所争相追逐的硬件加速器是否真是AI发展的决定性因素依然有待商榷 。 CoCoPIE作为一个很好的例子 , 向我们证明了 , 我们还是可以在现有的商业计算设备上实现AI , 并且提供甚至比专业的AI硬件加速器更高的加速效果以及能量效率 。 这能够扩展AI在边缘计算设备上的能力 , 并且改变人们对终端设备上实现实时AI就必须采用专业的特殊AI硬件的认知 。 AI应用的软件优化潜力仍未得到充分开发 , 软件依然可能成为AI时代的业界主导 。
无需专业硬件加速器 , CoCoPIE压缩编译协同设计软件算法方案可以在数十亿的现有的移动设备以及数万亿的大有可为的物联网设备上 , 快速实现多种AI应用的实时化以及部署 , 产生巨大的商业价值 。
本文的技术详情请见:
1)该文涵盖了完整的CoCoPIE的概览:
2)以下网站展示了CoCoPIE在现有的移动设备上实现各种实时功能的视频分辨率提升:
B站:
Youtube:
作者简介:
【那年初夏|华人学者提出软件算法架构加速AI实时化,性能超越GPU、FPGA】王言治是美国东北大学电子与计算机工程系助理教授 。 他在清华电子系和南加州大学拿到本科和博士学位 。 他的主要研究方向是深度神经网络的加速与安全性 。 他们的CoCoPIE压缩编译协同优化框架可以实现大多数神经网络在移动端的实时推理 。 他的文章广泛发表于各个顶会顶刊 , 包括机器学习方向AAAI , CVPR , ICML , ICCV , ICLR , IJCAI , ECCV等 , 电路与设计自动化方向DAC , ICCAD , ISSCC , FPGA等 , 计算机系统方面ASPLOS , ISCA , MICRO , HPCA , CCS , VLDB , PLDI , ICS , PACT等 。 他的文章引用超过7200次 , 得过Google , Mathworks,Intel等研究奖项 , 得过4项最佳论文奖 , 另外10次提名 , 多次设计竞赛奖项 。 他的研究工作被媒体广泛报道和引用超过400次 。 他的多位学生已经在各个学校担任教职 , 包括康涅狄格大学 , 克莱姆森大学等 , 工作单位包括谷歌、脸书、腾讯、滴滴(超新星员工) 。