黑科技篮子|参数量仅为1/300，谷歌最新的NLP模型，性能媲美BERT( 二 ) 机器之心编辑部在最新的博客文章中

研究者将其与一个密集bottleneck层结合在一起，以使网络可以学习到一个与手头任务相关的逐词表示。 bottleneck层产生的表示仍然没有考虑到词的上下文。因此，研究者利用若干双向QRNN编码器学习了一个上下文表示。这样可以得到一个仅从文本输入就能学到上下文表示的网络，并且无需任何预处理。

文章图片
pQRNN的性能
研究者在civil_comments数据集上评估了pQRNN ，并将其与BERT模型在相同的任务中进行了比较。模型的大小与其参数量成正比，因此pQRNN比BERT小得多。
此外， pQRNN还进行了量化处理（quantized），因此模型体积进一步缩小到原来的1/4 。公开训练的BERT在本文的任务中表现不好，因此拿来对比的BERT其实是在几个不同的相关多语言数据源上进行预训练得到的，以使其达到最好的表现。

文章图片
在实验中，研究者得到了两个模型的AUC信息。在没有任何预训练、只在监督数据训练的情况下， pQRNN的AUC是0.963 ，用到了130万个量化（8-bit）参数。在几个不同数据源进行预训练并在监督数据上进行微调之后， BERT模型得到的AUC是0.976 ，用到了1.1亿个浮点参数。
为了鼓励社区在谷歌研究成果的基础上做出进一步改进，谷歌还开源了PRADO模型。
项目地址：https://github.com/tensorflow/models/tree/master/research/sequence_projection
【黑科技篮子|参数量仅为1/300，谷歌最新的NLP模型，性能媲美BERT】博客链接：https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html