不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型( 二 )


不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型文章插图
训练语料库中桥梁语言的数据量 。
反向翻译策略
为了对低翻译质量的语料匮乏语言补充并行数据 , 研究者使用了反向翻译(back-translation)策略 。 举例而言 , 如果想要训练一个汉语 - 法语翻译模型 , 则应该首先训练一个法语到汉语的模型 , 并翻译所有的单一法语数据以创建合成的反向翻译汉语 。 研究者发现 , 反向翻译策略在大规模语言转换中特别有效 , 比如将亿万个单语句子转换为并行数据集 。
具体而言 , 研究者使用反向翻译策略作为已经挖掘语言对方向训练的补充 , 将合成反向翻译数据添加到挖掘的并行数据中 。 此外 , 研究者还使用反向翻译策略为以往无人监督的语言对方向创建数据 。
不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型文章插图
仅挖掘数据 VS 反向翻译策略加持形成的语言对比较 。
总的来说 , 与单靠挖掘数据上的训练相比 , 桥梁策略和反向翻译数据的结合将 100 个反向翻译方向上的性能提升了 1.7BLEU 。 有了鲁棒性更强、高效和高质量的数据集 , 这就为构建和扩展多对多(many-to-many)语言模型打下了坚实基础 。
在语言对无可用训练数据的零样本设置下 , 研究者也发现了令人印象深刻的结果 。 举例而言 , 如果一个模型在法语 - 英语和德语 - 瑞典语语料库中进行训练 , 则可以实现法语和瑞典语的零样本转译 。 在多对多模型必须实现非英语方向之间零样本转译的设置下 , 则该模型要比以英语为中心的多语言模型好得多 。
不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型文章插图
多对多和以英语为中心语言模型的比较 。 在包含英语的评估方向上 , 多对多模型与以英语为中心模型的性能相当 , 但在非英语方向上的性能要好得多 。
高速度高质量地将 MMT 模型扩展到 150 亿个参数
多语言翻译中的一个挑战是:单一模型必须从多种不同语言和多种脚本中捕获信息 。 为了解决这个问题 , 研究者发现扩展模型容量并添加特定于语言的参数的显著优势 。 扩展模型大小对于高资源语言对尤其有用 , 因为它们具有训练额外模型容量的大部分数据 。
最终 , 当将模型规模密集扩展到 120 亿个参数时 , 研究者在所有语言方向上平均获得了 1.2BLEU 的平均提升 。 此后 , 进一步密集扩展所带来的回报逐渐减少 。 密集扩展和特定于语言的稀疏参数(32 亿个)的组合使得能够创建一个具有 150 亿个参数的更优模型 。
不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型文章插图
研究者将其模型与双语基准和以英语为中心的多语言模型进行比较 。 研究者从具有 24 个编码器层和 24 个解码器层的 12 亿个参数基线开始 , 然后将以英语为中心的模型与 M2M-100 模型进行比较 。 接下来 , 如果将 12B 参数与 12 亿个参数进行比较 , 将获得 1.2BLEU 的提高 。
为了扩展模型的大小 , 研究者增加了 Transformer 网络中的层数以及每层的宽度 。 研究者发现大型模型收敛迅速并且训练高效 。 值得注意的是 , 这是第一个利用 Fairscale(一个新的专门设计用于支持管道和张量并行性的 PyTorch 库)的多对多系统 。
研究者建立了通用的基础架构 , 以通过将模型并行到 Fairscale 中来容纳无法在单个 GPU 上安装的大型模型 , 并且是基于 ZeRO 优化器、层内模型并行性和管道模型并行性构建的 , 以训练大型模型 。
但是仅将模型扩展到数十亿个参数还不够 。 为了能够将此模型应用于生产 , 需要以高速训练尽可能高效地扩展模型 。 例如 , 许多现有研究使用多模型集成 , 其中训练了多个模型并将其用于同一个源句以生成翻译 。 为了降低训练多个模型所需的复杂度和计算量 , 研究者探索了多源自集成技术 , 该技术可将源句子翻译成多种语言以提升翻译质量 。 此外 , 研究者还在该研究中引入了 LayerDrop 和 Depth-Adaptive , 以用常规主干和一些语言特定参数集来共同训练模型 。
这种方法对于多对多模型非常有效 , 因为它提供了一种按照语言对或语言族来拆分模型的自然方法 。 通过将模型容量的密集扩展与特定于语言的参数结合 , 该研究提供了大型模型的优势以及学习不同语言的特定层的能力 。
研究者表示 , 他们将继续通过整合此类前沿研究来提升模型 , 探索方法以负责任地部署 MT 系统 , 并创建更专业的计算架构将模型投入实际使用 。