自然语言处理的演变( 三 )


我们有加法和归一化层 , 我们在其中简单地将两个矩阵相加 , 然后对其进行归一化 。还有香草前馈神经网络 。
最后 , 我们将张量输出到线性层中 。这是一个完全连接的神经网络 , 它映射到logits向量上-一个大向量 , 其中每个索引都映射到特定单词 , 并且其中包含的值是每个单词的概率 。
然后softmax函数输出最高概率索引 , 该索引映射到我们的最高概率词 。
这就是全部内容(我承认 , 很多) 。
NLP当前的最新技术仍然使用变压器 , 尽管进行了一些怪异而奇妙的修改和添加 。但是 , 即使对于GPT-3和BERT等型号 , 其核心概念仍然相同 。
我相信NLP的未来将与过去一样千差万别 , 并且在未来几年中 , 我们将看到一些真正令人着迷且坦率地改变世界的进步-这是一个非常令人兴奋的空间 。
希望本文能帮助您更好地了解变压器模型的基础知识以及它们为何如此强大 。如果您有任何疑问 , 想法或建议 , 请通过Twitter或以下评论与我们联系 。
谢谢阅读!
参考文献[2] D. Rumelhart等人 , "通过错误传播学习内部表示"(1985年) , ICS 8504
[3] M. Jordan , 《串行订单:一种并行分布式处理方法》(1986) , ICS 8604
[4] D. Bahdanau等人 , 《通过共同学习对齐和翻译的神经机器翻译》(2015年) , ICLR
[5] A. Vaswani等人 , 《注意就是你所需要的》(2017年) , NeurIPS
*除非另有说明 , 否则所有图片均由作者提供
(本文翻译自Tivadar Danka的文章《Evolution of Natural Language Processing》 , 参考:)