[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化


[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
作者|哈尔滨工业大学(威海)讲师赵明航
【[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化】本文解读了一种新的深度注意力算法 , 即深度残差收缩网络(DeepResidualShrinkageNetwork) 。
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
从功能上讲 , 深度残差收缩网络是一种面向强噪声或者高度冗余数据的特征学习方法 。 本文首先回顾了相关基础知识 , 然后介绍了深度残差收缩网络的动机和具体实现 , 希望对大家有所帮助
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
相关基础
深度残差收缩网络主要建立在三个部分的基础之上:深度残差网络、软阈值函数和注意力机制 。
1.1深度残差网络
深度残差网络无疑是近年来最成功的深度学习算法之一 , 在谷歌学术上的引用已经突破四万次 。 相较于普通的卷积神经网络 , 深度残差网络采用跨层恒等路径的方式 , 缓解了深层网络的训练难度 。
深度残差网络的主干部分是由很多残差模块堆叠而成的 , 其中一种常见的残差模块如下图所示 。
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
1.2软阈值函数
软阈值函数是大部分降噪方法的核心步骤 。 首先 , 我们需要设置一个正数阈值 。 该阈值不能太大 , 即不能大于输入数据绝对值的最大值 , 否则输出会全部为零 。
然后 , 软阈值函数会将绝对值低于这个阈值的输入数据设置为零 , 并且将绝对值大于这个阈值的输入数据也朝着零收缩 , 其输入与输出的关系如下图(a)所示 。
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
软阈值函数的输出y对输入x的导数如上图(b)所示 。 我们可以发现 , 其导数要么取值为0 , 要么取值为1 。 从这个角度看的话 , 软阈值函数和ReLU激活函数有一定的相似之处 , 也有利于深度学习算法训练时梯度的反向传播 。
值得注意的是 , 阈值的选取对软阈值函数的结果有着直接的影响 , 至今仍是一个难题 。
1.3注意力机制
注意力机制是近年来深度学习领域的超级研究热点 , 而Squeeze-and-ExcitationNetwork(SENet)则是最为经典的注意力算法之一 。
如下图所示 , SENet通过一个小型网络学习得到一组权值系数 , 用于各个特征通道的加权 。 这其实是一种注意力机制:首先评估各个特征通道的重要程度 , 然后根据其重要程度赋予各个特征通道合适的权重 。
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
如下图所示 , SENet可以与残差模块集成在一起 。 在这种模式下 , 由于跨层恒等路径的存在 , SENet可以更容易得到训练 。 另外 , 值得指出的是 , 每个样本的权值系数都是根据其自身设置的;也就是说 , 每个样本都可以有自己独特的一组权值系数 。
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
[AI科技大本营]深度残差收缩网络:借助注意力机制实现特征的软阈值化
文章图片
深度残差收缩网络
接下来 , 本部分针对深度残差收缩网络的动机、实现、优势和验证 , 分别展开了介绍 。
2.1动机
首先 , 大部分现实世界中的数据 , 包括图片、语音或者振动 , 都或多或少地含有噪声或者冗余信息 。
从广义上讲 , 在一个样本里面 , 任何与当前模式识别任务无关的信息 , 都可以被认为是噪声或者冗余信息 。 这些噪声或者冗余信息很可能会对当前的模式识别任务造成不利的影响 。