辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心( 二 )


为了连通不同语系的语言 , 研究者确定了少量的桥梁语言(bridgelanguage) , 它们通常由每个语系中的1至3种主要语言构成 。 如上述印度境内所使用的语言中 , 印地语、孟加拉语和泰米尔语是雅利安语的桥梁语言 。 然后 , 研究者挖掘这些桥梁语言所有可能组合的并行训练数据 。 通过这种方法 , 训练数据集最终生成了75亿个并行句子 , 对应2200个语言方向(direction) 。
由于挖掘的数据可以用来训练给定语言对的两个不同方向 , 如en→fr和fr→en , 因此挖掘策略有助于实现高效、稀疏地挖掘 , 从而以最佳的状态覆盖一个模型中的所有100×100(共计9900)个方向 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
训练语料库中桥梁语言的数据量 。
反向翻译策略
为了对低翻译质量的语料匮乏语言补充并行数据 , 研究者使用了反向翻译(back-translation)策略 。 举例而言 , 如果想要训练一个汉语-法语翻译模型 , 则应该首先训练一个法语到汉语的模型 , 并翻译所有的单一法语数据以创建合成的反向翻译汉语 。 研究者发现 , 反向翻译策略在大规模语言转换中特别有效 , 比如将亿万个单语句子转换为并行数据集 。
具体而言 , 研究者使用反向翻译策略作为已经挖掘语言对方向训练的补充 , 将合成反向翻译数据添加到挖掘的并行数据中 。 此外 , 研究者还使用反向翻译策略为以往无人监督的语言对方向创建数据 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
仅挖掘数据VS反向翻译策略加持形成的语言对比较 。
总的来说 , 与单靠挖掘数据上的训练相比 , 桥梁策略和反向翻译数据的结合将100个反向翻译方向上的性能提升了1.7BLEU 。 有了鲁棒性更强、高效和高质量的数据集 , 这就为构建和扩展多对多(many-to-many)语言模型打下了坚实基础 。
在语言对无可用训练数据的零样本设置下 , 研究者也发现了令人印象深刻的结果 。 举例而言 , 如果一个模型在法语-英语和德语-瑞典语语料库中进行训练 , 则可以实现法语和瑞典语的零样本转译 。 在多对多模型必须实现非英语方向之间零样本转译的设置下 , 则该模型要比以英语为中心的多语言模型好得多 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
多对多和以英语为中心语言模型的比较 。 在包含英语的评估方向上 , 多对多模型与以英语为中心模型的性能相当 , 但在非英语方向上的性能要好得多 。
高速度高质量地将MMT模型扩展到150亿个参数
多语言翻译中的一个挑战是:单一模型必须从多种不同语言和多种脚本中捕获信息 。 为了解决这个问题 , 研究者发现扩展模型容量并添加特定于语言的参数的显著优势 。 扩展模型大小对于高资源语言对尤其有用 , 因为它们具有训练额外模型容量的大部分数据 。
最终 , 当将模型规模密集扩展到120亿个参数时 , 研究者在所有语言方向上平均获得了1.2BLEU的平均提升 。 此后 , 进一步密集扩展所带来的回报逐渐减少 。 密集扩展和特定于语言的稀疏参数(32亿个)的组合使得能够创建一个具有150亿个参数的更优模型 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
研究者将其模型与双语基准和以英语为中心的多语言模型进行比较 。 研究者从具有24个编码器层和24个解码器层的12亿个参数基线开始 , 然后将以英语为中心的模型与M2M-100模型进行比较 。 接下来 , 如果将12B参数与12亿个参数进行比较 , 将获得1.2BLEU的提高 。
为了扩展模型的大小 , 研究者增加了Transformer网络中的层数以及每层的宽度 。 研究者发现大型模型收敛迅速并且训练高效 。 值得注意的是 , 这是第一个利用Fairscale(一个新的专门设计用于支持管道和张量并行性的PyTorch库)的多对多系统 。