辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心( 三 )
研究者建立了通用的基础架构 , 以通过将模型并行到Fairscale中来容纳无法在单个GPU上安装的大型模型 , 并且是基于ZeRO优化器、层内模型并行性和管道模型并行性构建的 , 以训练大型模型 。
但是仅将模型扩展到数十亿个参数还不够 。 为了能够将此模型应用于生产 , 需要以高速训练尽可能高效地扩展模型 。 例如 , 许多现有研究使用多模型集成 , 其中训练了多个模型并将其用于同一个源句以生成翻译 。 为了降低训练多个模型所需的复杂度和计算量 , 研究者探索了多源自集成技术 , 该技术可将源句子翻译成多种语言以提升翻译质量 。 此外 , 研究者还在该研究中引入了LayerDrop和Depth-Adaptive , 以用常规主干和一些语言特定参数集来共同训练模型 。
这种方法对于多对多模型非常有效 , 因为它提供了一种按照语言对或语言族来拆分模型的自然方法 。 通过将模型容量的密集扩展与特定于语言的参数结合 , 该研究提供了大型模型的优势以及学习不同语言的特定层的能力 。
研究者表示 , 他们将继续通过整合此类前沿研究来提升模型 , 探索方法以负责任地部署MT系统 , 并创建更专业的计算架构将模型投入实际使用 。
【辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心】原文链接:https://ai.facebook.com/blog/introducing-many-to-many-multilingual-machine-translation/
- 广州“人才+科技创新”亿元补贴获得者揭晓
- 中国最低调科技企业,连续10年全球第一,却被误认为是国外品牌
- 科技改变未来,未来快递员也会失业,只有驿站没有快递员
- 睿沃科技王琦:三年打造出行业独角兽,智慧酒店领域再添新样板
- 传统与科技的融合,哈苏907X 50C开箱
- 宁夏举办第35届青少年科技创新大赛机器人竞赛项目
- 河北2020科技成果直通车“开进”邯郸
- 出门问问荣获“吴文俊人工智能科技进步奖”
- 每日科技名词|数据权利
- 信也科技再攀科研高峰:复杂网络研究成果登上国际顶级期刊IEEE TKDE