江湖车侠|YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架( 四 )


江湖车侠|YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架图 5. 模式化稀疏度感知训练框架的模式集提取结果 。
其次 , 研究人员展示了模式化剪枝对深度神经网络精度的提升 。 通过剪枝 , 深度神经网络将图像的细节「看得」更清了 。 如图 6 所示 , 通过不同的可视化方法 , 经过模式化剪枝的深度神经网络模型对于图像有明显的增强作用 , 模式化剪枝后的模型能够提取图像中更多的关键特征 , 并降低图像中的噪声 。
江湖车侠|YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架图 6. 基于 VGG-16 在 ImageNet 上剪枝后的模型可视化效果图 。 此处采用了三种不同的可视化方法:(a)guided-backpropagation (BP), (b) integrated gradients , (c)inverted representation 。
再次 , 研究人员展示了在不同种类的模式集(Phase 1、2、3)下 , 多种深度神经网络在 CIFAR-10 与 ImageNet 训练集上不同程度的精度提升效果 , 如图 7(a)所示 。 我们发现 , 在绝大多数情况下 , 当模型加载 Phase 2(同时也是理论推导得出的模式集)时 , 深度神经网络的精度提升幅度更大 。 这一现象使研究人员更加确信 , 基于理论得出的卷积核模式同时也是算法实现层面上对于深度神经网络最佳的卷积核模式 。
图 7(b)从另一个角度佐证了这一观点:当拥有不同种类模式集的深度神经网络模型叠加相同剪枝率的连通性剪枝时 , 拥有 Phase 2 的模型能够保持更高水平的模型精度 。 研究人员在不同的网络结构模型中观察到了同样的现象 。 因此可以证明 , Phase 2 模式集拥有更加稳定的精度表现 。
江湖车侠|YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架图 7. (a)基于 CIFAR-10 与 ImageNet 的不同深度神经网络在模式化剪枝下的精度升高实验结果 , (b)卷积核模式化剪枝叠加连通性剪枝后的 ResNet-18 训练曲线图 。
表 1 进一步展示了模式化剪枝的总体结果 , 研究人员将最好的剪枝精度与其模式集类型记录在表格中 , 并与其他研究工作进行系统性对比 , 结果表明大部分拥有最高精度的剪枝模型是基于 Phase 2 模式集的 , 这一现象同时体现在不同的数据集与深度神经网络中 。
江湖车侠|YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架表 1. 基于模式化的剪枝在 CIFAR-10 与 ImageNet 数据集上的剪枝结果对比 。
最后 , 该研究测试了基于编译器的移动端推理框架对模式化剪枝模型的加速效果 。 实验结果表明 , 模式化剪枝与编译器的协同优化极大地提高了移动端的推理速度 。 在移动端 , 研究人员使用了 Samsung Galaxy S10 智能手机来测试推理速度 。
如图 8 所示 , 研究者测试了基于 Phase 2 模式集的稀疏化深度神经网络模型在 ImageNet 图像上的推理速度与在现有的深度神经网络加速器(TVM、MNN、TensorFlow-Lite)上的速度对比 。
江湖车侠|YOLO-v4目标检测实时手机实现,全自动实时移动端AI框架图8.基于Phase 2模式集的稀疏化深度神经网络模型在移动端的加速效果展示图 。
结果表明 , 该研究提出的模式化剪枝与通用型移动端推理框架在推理速度上远远超过现有的加速器 。 事实上 , 在每一种网络结构下 , 该研究提出的方法在移动端都能在没有精度损失的情况下实现实时计算的要求(30 frames/second , 即 33ms/second) 。 例如 , 在大型神经网络 VGG-16 上 , 该方法的推理时间仅为 15ms 。 这一对于最优的模式化剪枝方法与通用型的移动推理框架的研究使得在移动端对任意神经网络进行实时运算变为可能 。