『算法』北航、商汤提出的网络二值化新算法 IR-Net,到底好使不?
【CSDN编者按】在CVPR 2020上 , 商汤研究院链接与编译组和北京航空航天大学刘祥龙老师团队提出了一种旨在优化前后向传播中信息流的实用、高效的网络二值化新算法IR-Net 。 不同于以往二值神经网络大多关注量化误差方面 , 本文首次从统一信息的角度研究了二值网络的前向和后向传播过程 , 为网络二值化机制的研究提供了全新视角 。 同时 , 该工作首次在ARM设备上进行了先进二值化算法效率验证 , 显示了IR-Net部署时的优异性能和极高的实用性 , 有助于解决工业界关注的神经网络二值化落地的核心问题 。
本文插图
出品 | AI科技大本营(ID:rgznai100)
本文插图
动机
二值神经网络因其存储量小、推理效率高而受到社会的广泛关注 [1] 。 然而与全精度的对应方法相比 , 现有的量化方法的精度仍然存在显著的下降 。
对神经网络的研究表明 , 网络的多样性是模型达到高性能的关键[2] , 保持这种多样性的关键是:(1) 网络在前向传播过程中能够携带足够的信息;(2) 反向传播过程中 , 精确的梯度为网络优化提供了正确的信息 。 二值神经网络的性能下降主要是由二值化的有限表示能力和离散性造成的 , 这导致了前向和反向传播的严重信息损失 , 模型的多样性急剧下降 。 同时 , 在二值神经网络的训练过程中 , 离散二值化往往导致梯度不准确和优化方向错误 。 如何解决以上问题 , 得到更高精度的二值神经网络?这一问题被研究者们广泛关注 , 本文的动机在于:通过信息保留的思路 , 设计更高性能的二值神经网络 。
基于以上动机 , 本文首次从信息流的角度研究了网络二值化 , 提出了一种新的信息保持网络(IR-Net):(1)在前向传播中引入了一种称为Libra参数二值化(Libra-PB)的平衡标准化量化方法 , 最大化量化参数的信息熵和最小化量化误差;(2) 在反向传播中采用误差衰减估计器(EDE)来计算梯度 , 保证训练开始时的充分更新和训练结束时的精确梯度 。
IR-Net提供了一个全新的角度来理解二值神经网络是如何运行的 , 并且具有很好的通用性 , 可以在标准的网络训练流程中进行优化 。 作者使用CIFAR-10和ImageNet数据集上的图像分类任务来评估提出的IR-Net , 同时借助开源二值化推理库daBNN进行了部署效率验证 。
本文插图
方法设计
高精度二值神经网络训练的瓶颈主要在于训练过程中严重的信息损失 。 前向sign函数和后向梯度逼近所造成的信息损失严重影响了二值神经网络的精度 。 为了解决以上问题 , 本文提出了一种新的信息保持网络(IR-Net)模型 , 它保留了训练过程中的信息 , 实现了二值化模型的高精度 。
本文插图
前向传播中的Libra Parameter Binarization(Libra-PB)
在此之前 , 绝大多数网络二值化方法试图减小二值化操作的量化误差 。 然而 , 仅通过最小化量化误差来获得一个良好的二值网络是不够的 。 因此 , Libra-PB设计的关键在于:使用信息熵指标 , 最大化二值网络前向传播过程中的信息流 。
根据信息熵的定义 , 在二值网络中 , 二值参数Qx(x)的熵可以通过以下公式计算:
本文插图
【『算法』北航、商汤提出的网络二值化新算法 IR-Net,到底好使不?】
如果单纯地追求量化误差最小化 , 在极端情况下 , 量化参数的信息熵甚至可以接近于零 。 因此 , Libra-PB将量化值的量化误差和二值参数的信息熵同时作为优化目标 , 定义为:
- 「TalkingData」打造智能化的小微企业信用评估体系?,如何用数据+算法
- LG集团@商汤科技牵手LG CNS,推动AI技术在韩国应用与落地
- 「电气技术」提升磁悬浮系统的控制性能,新算法
- [澎湃新闻网]商汤与LG子公司合作,共推AI视觉等技术在海外的应用落地
- 「北京日报客户端」进出港旅客2.6万人次,民航保障湖北航班377班
- 『恢复湖北』湖北航线陆续恢复中,多家航司开售武汉、宜昌等到多地机票
- 人脸识别:中科视拓开放商业版本人脸识别算法SeetaFace 6
- #砍柴网#商汤牵手韩国名企LG子公司,国际化战略进一步落地
- SeetaFace 6:中科视拓开放商业版本人脸识别算法
- 『易青文史』破译美国两大密码算法,获国家711万的奖励,中国天才美女教授