辛先森科技说|百种语言互译，FB开源首个单一多语言MT模型，不以英语为中心( 二 ) 机器之心报道机器之心编辑部FacebookAI

为了连通不同语系的语言，研究者确定了少量的桥梁语言（bridgelanguage），它们通常由每个语系中的1至3种主要语言构成。如上述印度境内所使用的语言中，印地语、孟加拉语和泰米尔语是雅利安语的桥梁语言。然后，研究者挖掘这些桥梁语言所有可能组合的并行训练数据。通过这种方法，训练数据集最终生成了75亿个并行句子，对应2200个语言方向（direction）。
由于挖掘的数据可以用来训练给定语言对的两个不同方向，如en→fr和fr→en ，因此挖掘策略有助于实现高效、稀疏地挖掘，从而以最佳的状态覆盖一个模型中的所有100×100（共计9900）个方向。

文章图片
训练语料库中桥梁语言的数据量。
反向翻译策略
为了对低翻译质量的语料匮乏语言补充并行数据，研究者使用了反向翻译（back-translation）策略。举例而言，如果想要训练一个汉语-法语翻译模型，则应该首先训练一个法语到汉语的模型，并翻译所有的单一法语数据以创建合成的反向翻译汉语。研究者发现，反向翻译策略在大规模语言转换中特别有效，比如将亿万个单语句子转换为并行数据集。
具体而言，研究者使用反向翻译策略作为已经挖掘语言对方向训练的补充，将合成反向翻译数据添加到挖掘的并行数据中。此外，研究者还使用反向翻译策略为以往无人监督的语言对方向创建数据。

文章图片
仅挖掘数据VS反向翻译策略加持形成的语言对比较。
总的来说，与单靠挖掘数据上的训练相比，桥梁策略和反向翻译数据的结合将100个反向翻译方向上的性能提升了1.7BLEU 。有了鲁棒性更强、高效和高质量的数据集，这就为构建和扩展多对多（many-to-many）语言模型打下了坚实基础。
在语言对无可用训练数据的零样本设置下，研究者也发现了令人印象深刻的结果。举例而言，如果一个模型在法语-英语和德语-瑞典语语料库中进行训练，则可以实现法语和瑞典语的零样本转译。在多对多模型必须实现非英语方向之间零样本转译的设置下，则该模型要比以英语为中心的多语言模型好得多。

文章图片
多对多和以英语为中心语言模型的比较。在包含英语的评估方向上，多对多模型与以英语为中心模型的性能相当，但在非英语方向上的性能要好得多。
高速度高质量地将MMT模型扩展到150亿个参数
多语言翻译中的一个挑战是：单一模型必须从多种不同语言和多种脚本中捕获信息。为了解决这个问题，研究者发现扩展模型容量并添加特定于语言的参数的显著优势。扩展模型大小对于高资源语言对尤其有用，因为它们具有训练额外模型容量的大部分数据。
最终，当将模型规模密集扩展到120亿个参数时，研究者在所有语言方向上平均获得了1.2BLEU的平均提升。此后，进一步密集扩展所带来的回报逐渐减少。密集扩展和特定于语言的稀疏参数（32亿个）的组合使得能够创建一个具有150亿个参数的更优模型。

文章图片
研究者将其模型与双语基准和以英语为中心的多语言模型进行比较。研究者从具有24个编码器层和24个解码器层的12亿个参数基线开始，然后将以英语为中心的模型与M2M-100模型进行比较。接下来，如果将12B参数与12亿个参数进行比较，将获得1.2BLEU的提高。
为了扩展模型的大小，研究者增加了Transformer网络中的层数以及每层的宽度。研究者发现大型模型收敛迅速并且训练高效。值得注意的是，这是第一个利用Fairscale（一个新的专门设计用于支持管道和张量并行性的PyTorch库）的多对多系统。