【模型|EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译( 二 )】索尼公司|台积电|芯片|工厂|日_傻大方

性能一览

作者在三个测试集进行了实验，包括一个基于电视剧的中英对话测试集，一个内部的中英语音翻译测试集，以及加入人工噪声的英德WMT14测试集。

模型|EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

文章插图

表1测试集统计
如表1所示，对话测试集包含主语省略，标点省略，错别字等问题；语音测试集包含口语词，错别字等 ASR 引起的问题；WMT14 则包含由规则构造的随机插入，随机删除，重复等问题。
实验结果如表2所示。除了 Secoco 之外，作者还和3种方法进行了对比，分别是将合成的噪声数据加入原始数据中一起训练 (BASE+synthetic)；使用修复模型加上翻译模型的 pipeline 级联结构 (REPAIR)；以及多编码器-单解码器的结构 [1] (RECONSTRUCTION)。可以看出，所有的方法相较于基线模型都有所提升。Secoco 在三个测试集上都获得了最好的效果。

文章插图

表2 实验结果
此外，在这三个测试集中，对话测试集明显包含更多的噪声，Secoco 最多可以带来3个 BLEU 的提升。语音测试集由于是由 ASR 导出的，因此最好的结果也仅有12.4。

文章插图

表3 迭代编辑样例
表格3中给出了一些迭代编辑的具体例子。针对每一句输入，模型对其进行迭代删除和插入操作，直到文本不再发生变化。从例子中可以看到，一次编辑操作可以同时删除或者插入多个词。此外，对于上述的测试集，平均每个句子需要2-3次编辑操作。

总结

针对互联网中非规范输入带来的鲁棒性问题，本文主要介绍了一个具有自我修正能力的神经机器翻译框架 Secoco，该框架通过两个独立的编辑操作预测器建模修正带噪输入的过程。实验表明，Secoco 在多个测试集上都优于基线模型，增强了翻译模型的鲁棒性，并提供了一定的可解释性。

[1] Shuyan Zhou, Xiangkai Zeng, Yingqi Zhou, Antonios Anastasopoulos, and Graham Neubig. 2019. Improving robustness of neural machine translation with multi-task learning. In Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), pages 565–571.

文章插图

雷峰网

稿源：(雷峰网)

【傻大方】网址：/c/1125a51C2021.html

标题：模型|EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译( 二 )

傻大方

模型|EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译( 二 )

机器|洗地机真是智商税？七大方面带你了解到底值不值得买

海贼王|海贼王最新剧场版《RED》公布，红发是关键，主角是“女性”

宣讲|颍东区妇联开展口腔健康知识宣讲进校园活动

爸爸|亲子游戏《躲避大摆锤》《接纸巾》……珑玺园上演爸爸带娃记

模型|EMNLP2021 Findings｜字节火山翻译提出：基于自修正编码器的神经机器翻译

iot|中国移动联合芯片厂商，发布 11 款视频物联网芯片

人民交通网|白酒专家密集调研重庆酒城，江小白第三代酒体获肯定

红米手机|iQOO爆发，骁龙870+12GB运存仅2399元，还有光学防抖和66W快充

联想|司马南：恳请联想辟谣，送我这个所谓的投机客去监狱

跑分|要性能也要性价比，12+256GB+70万跑分，如今降至2000档