辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心( 三 )


研究者建立了通用的基础架构 , 以通过将模型并行到Fairscale中来容纳无法在单个GPU上安装的大型模型 , 并且是基于ZeRO优化器、层内模型并行性和管道模型并行性构建的 , 以训练大型模型 。
但是仅将模型扩展到数十亿个参数还不够 。 为了能够将此模型应用于生产 , 需要以高速训练尽可能高效地扩展模型 。 例如 , 许多现有研究使用多模型集成 , 其中训练了多个模型并将其用于同一个源句以生成翻译 。 为了降低训练多个模型所需的复杂度和计算量 , 研究者探索了多源自集成技术 , 该技术可将源句子翻译成多种语言以提升翻译质量 。 此外 , 研究者还在该研究中引入了LayerDrop和Depth-Adaptive , 以用常规主干和一些语言特定参数集来共同训练模型 。
这种方法对于多对多模型非常有效 , 因为它提供了一种按照语言对或语言族来拆分模型的自然方法 。 通过将模型容量的密集扩展与特定于语言的参数结合 , 该研究提供了大型模型的优势以及学习不同语言的特定层的能力 。
研究者表示 , 他们将继续通过整合此类前沿研究来提升模型 , 探索方法以负责任地部署MT系统 , 并创建更专业的计算架构将模型投入实际使用 。
【辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心】原文链接:https://ai.facebook.com/blog/introducing-many-to-many-multilingual-machine-translation/