数码小王 深度学习中的注意力机制(一)( 二 )
EMNLP2014:LearningPhraseRepresentationsusingRNNEncoder–DecoderforStatisticalMachineTranslation[2]
和NIPS2014几乎同时发表 , 思想也是一样的 。 只不过在这篇文章中 , 作者提出了一种新的RNNCell , 即GRU代替LSTM来构建Seq2Seq模型 。
文章图片
还有一点不同的是 , Encoder得到的上下文向量会作用于Decoder「每一个时间步」的预测 。
总结起来:RNN-basedEncoder-DecoderFramework , 目标是预测 , 其中都是one-hot向量 。
「Encoder」
给定输入 ,, 将其编码为上下文向量.
是LSTM或GRU , 是时间步的单词的one-hot表示 , 先经过embedding矩阵嵌入后作为RNN在时刻的输入 , 是时间步的encode;是时间步的encode 。
是上下文向量 , 是关于的函数 。 是输入的最大长度 。 最简单的 ,, 即最后一个时间步得到的encode作为上下文向量 。
「Decoder」
Decoder在给定上下文向量以及已经预测的输出条件下 , 预测下一个输出 。 换句话说 , Decoder将输出上的联合分布分解为有序条件分布(orderedconditionals):
文章图片
其中 ,, 是输出的最大长度 。
使用RNN , 每个条件分布可以写成下式:
文章图片
是输出词的one-hot向量(全连接+softmax激活后得到) , 是前一时刻已经预测的输出词的one-hot向量 , 先经过embedding后再作为的输入 。 是一个非线性函数(e.g.,全连接+softmax) , 输出关于的概率分布 。 ( , 是LSTM/GRU)是RNN的隐藏层状态 。 (注意 , 不是RNN提取隐藏层状态的LSTM或GRU , 而是隐藏层后面接的全连接层或其他非线性函数 , LSTM或GRU提取的Decoder隐状态和上下文向量以及已经预测的输出都将作为的输入 , 用于预测概率分布) 。
文章图片
Attention
如上文所述 , 传统的Seq2Seq模型对输入序列缺乏区分度 , 存在明显的两大问题 。 因此 , 有大牛提出使用Attention机制来解决问题 。 下面将按照Attention的不同类型重点介绍一些Attention上的研究工作 。
BasicAttention
本小节介绍最传统和基础的Attention模型的应用 。 首先直观感受下Attention机制的一个示意动图 。
文章图片
MachineTranslation
ICLR2015:NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[3]
这是ICLR2015提出的文章 , 机器翻译的典型方法 。 作者在RNNEncoder-Decoder框架上 , 引入了Attention机制来同时进行翻译和对齐 。 使用bidirectionalRNN作为Encoder , Decoder会在翻译的过程中通过模拟搜索源句子focus到不同部位上来进行更准确的解码 。 模型示意图如下:
文章图片
首先将Decoder中的条件概率写成下式:
文章图片
其中 , 一般使用softmax全连接层(或多加几层 , 输入的3个向量concat到一起后进行FeedForward) , 是Decoder中RNN在时间步的隐状态 , 根据如下LSTM或GRU函数计算得到:
是关于前一时刻Decoder端隐状态 , 前一时刻已经预测的输出的embedding表示以及该时刻的上下文向量的函数 。 是LSTM或GRU 。
注意 , 和已有的encoder-decoder不同 , 这里的条件概率对「每一个目标单词」都需要有一个「不同的」上下文向量 。
而上下文向量取决于Encoder端输入序列encode后的RNN隐状态(bidirectionalRNN , 因此包含了输入句子位置周围的信息 , )
- 零本数码德国工业领域的巨无霸,在中国“扎根”147亿,一年净赚327亿
- 科技数码迷 6S系列被放弃,苹果正在准备iOS15,一代神机iPhone
- 数码小妖精 性价比再高也徒劳,iQOO、小米销量冰火两重天:缺少品牌知名度
- 数码实验室 未来可能消失在这个世界上的5种日常事物
- 数码菌 Mate40标准版终于登场,颜值更高还便宜,华为12月还有大招
- 安卓小王子 128GB+液冷散热,8GB运存5G新机处境尴尬,发布三个月跌至1899元
- 科技数码迷 三星靠的不是销量,影响国内手机格局
- 宽哥玩数码 募资加码能否缩小与龙头厂商的差,蓝箭电子封测工艺被问询质疑
- 数码菌 性价比最高的苹果手机诞生,从6288到2099
- 叽歪数码 Pro渲染图曝光,我却有一个大胆的设想!,一加9