数码小王 深度学习中的注意力机制(一)


数码小王 深度学习中的注意力机制(一)
文章图片
数码小王 深度学习中的注意力机制(一)
文章图片
作者|蘑菇先生
来源|NewBeeNLP
头图|CSDN下载自视觉中国
目前深度学习中热点之一就是注意力机制(AttentionMechanisms) 。 Attention源于人类视觉系统 , 当人类观察外界事物的时候 , 一般不会把事物当成一个整体去看 , 往往倾向于根据需要选择性的去获取被观察事物的某些重要部分 , 比如我们看到一个人时 , 往往先Attend到这个人的脸 , 然后再把不同区域的信息组合起来 , 形成一个对被观察事物的整体印象 。
「同理 , AttentionMechanisms可以帮助模型对输入的每个部分赋予不同的权重 , 抽取出更加关键及重要的信息 , 使模型做出更加准确的判断 , 同时不会对模型的计算和存储带来更大的开销 , 这也是AttentionMechanism应用如此广泛的原因」 , 尤其在Seq2Seq模型中应用广泛 , 如机器翻译、语音识别、图像释义(ImageCaption)等领域 。 Attention既简单 , 又可以赋予模型更强的辨别能力 , 还可以用于解释神经网络模型(例如机器翻译中输入和输出文字对齐、图像释义中文字和图像不同区域的关联程度)等 。
本文主要围绕核心的Attention机制以及Attention的变体展开 。
数码小王 深度学习中的注意力机制(一)
文章图片
Seq2SeqModel
Attention主要应用于Seq2Seq模型 , 故首先简介一下Seq2Seq模型 。 Seq2Seq模型目标是学习一个输入序列到输出序列的映射函数 。 应用场景包括:机器翻译(Machinetranslation)、自动语音识别(Automaticspeechrecognition)、语音合成(Speechsynthesis)和手写体生成(Handwritinggeneration) 。
Seq2Seq模型奠基性的两个工作如下:
NIPS2014:SequencetoSequenceLearningwithNeuralNetworks[1]
该论文介绍了一种基于RNN(LSTM)的Seq2Seq模型 , 基于一个Encoder和一个Decoder来构建基于神经网络的End-to-End的机器翻译模型 , 其中 , Encoder把输入编码成一个固定长度的上下文向量 , Decoder基于「上下文向量」和「目前已解码的输出」 , 逐步得到完整的目标输出 。 这是一个经典的Seq2Seq的模型 , 但是却存在「两个明显的问题」:
把输入的所有信息有压缩到一个固定长度的隐向量 , 忽略了输入的长度 , 当输入句子长度很长 , 特别是比训练集中所有的句子长度还长时 , 模型的性能急剧下降(Decoder必须捕捉很多时间步之前的信息 , 虽然本文使用LSTM在一定程度上能够缓解这个问题) 。
【数码小王 深度学习中的注意力机制(一)】把输入编码成一个固定的长度过程中 , 对于句子中每个词都赋予相同的权重 , 这样做是不合理的 。 比如 , 在机器翻译里 , 输入的句子与输出句子之间 , 往往是输入一个或几个词对应于输出的一个或几个词 。 因此 , 对输入的每个词赋予相同权重 , 这样做没有区分度 , 往往使模型性能下降 。
数码小王 深度学习中的注意力机制(一)
文章图片
注意上图中Encoder得到的上下文向量「仅用于作为Decoder的第一个时间步的输入」 。
Decoder的另一个输入是前一时刻的单词 , 需要注意的是 , 在训练阶段是「真实label」(需要embedding一下) , 而不是上一时刻的预测值 。 而在测试阶段 , 则是上一时刻的预测值(具体使用时需要借助beam-search来得到最优翻译序列) 。
但是实际训练过程中 , 「label是否使用真实数据2种方式 , 可以交替进行」 , 即一种是把标准答案作为Decoder的输入 , 还有一种是把Decoder上一次的输出的结果作为输入 , 因为如果完全使用标准答案 , 会导致收敛的过快 , 导致测试的时候不稳定 。
另外 , 上述输入输出中的每个单词 , 都要借助「embedding」技术 。