【基于相似样本检索的在线更新机器翻译系统|EMNLP 2021

按关键词阅读：

基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译
文章插图

机器翻译指的是使用机器将一种语言的文本翻译成另一种语言的文本。机器翻译技术对于促进不同国家的跨语言沟通有着重要的意义。

近期，字节跳动人工智能实验室在 EMNLP 2021 上发表了一篇关于在线更新机器翻译系统的论文。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译

文章插图

论文地址：https://arxiv.org/abs/2109.09991

代码地址：https://github.com/jiangqn/KSTER

研究背景和动机

机器翻译系统在线更新指的是使用单个翻译样本更新机器翻译系统。工业应用中对机器翻译系统在线更新的需求主要来自于两类场景：

在线修复 bad case。机器翻译系统不是完美无缺的，有时系统对某些输入会生成错误的译文，这样的输入我们称之为 bad case。快速修复 bad case 是机器翻译系统实际应用中的硬需求。而使用 bad case 及其对应的正确译文更新机器翻译系统为快速修复 bad case 提供了一种巧妙的思路。
使用流式生成的翻译数据增量更新机器翻译系统。机器翻译的训练数据不总是固定的，在一些场景中语言专家每天都会标注出新的机器翻译数据。使用这种流式生成的数据对机器翻译系统做全量的更新是成本很高的，而借助在线更新机器翻译系统的方法，对翻译系统做增量的更新不仅可以提升翻译性能，更新成本也大大降低。

当前主流的机器翻译系统都是基于神经网络搭建的，而参数众多结构复杂的神经网络模型难以做到在线更新。基于样本的机器翻译系统却很容易做到在线更新。在基于样本的机器翻译系统中，通常存在一个大规模的翻译语料库。给定一条源语言句子，生成对应翻译结果的过程中，需要从翻译语料库中检索出若干相似的翻译样本，并利用检索到的样本生成最终的译文。更新基于样本的机器翻译系统只需要更新翻译语料库就可以了，无需更新机器翻译模型的参数。
但是基于样本的机器翻译系统泛化性较差，在检索不到相似样本的情况下，很难生成高质量的译文。因此，最近一些工作将样本检索与神经机器翻译结合，在神经机器翻译模型解码的过程中检索相似的翻译样本辅助译文生成。这种样本检索机制赋予了机器翻译系统在线更新的能力。
在这个方向上，一个经典的工作是发表在 ICLR 2021 上的 kNN-MT[2]。kNN-MT 为神经机器翻译引入了词级别的样本检索机制，使得翻译系统在无需额外训练的情况下，显著提升多领域机器翻译和领域适应机器翻译的能力，同时具有了在线更新的能力。
但是 kNN-MT 仍然存在一些问题，使用固定的将神经机器翻译输出和样本检索进行组合的策略使得它难以适应多变的输入样本。如图1所示，带有领域内翻译语料库的 kNN-MT 领域内的翻译质量取得了明显提升，而通用领域翻译质量却剧烈下滑。造成这种现象的原因是，kNN-MT 过度依赖了检索到的样本，在检索到的样本与测试样本不相似时，检索到的样本对于机器翻译而言反而是噪声，从而降低了翻译质量。
【 基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译】这篇工作主要针对该问题[3]，提出了一种动态结合样本检索和神经机器翻译的方法 KSTER (Kernel-Smoothed Translation with Example Retrieval)，使得翻译系统在检索到相似样本的情况下能够提升翻译效果，在检索不到相似样本时，也能保持原有的翻译质量，同时保持在线更新的能力。
基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译

文章插图

图1 带有领域内数据库的kNN-MT，在领域内数据和通用领域数据上的翻译效果。

模型结构

在这篇工作的模型结构中，翻译系统由两个部分组成，分别是一个通用领域的神经机器翻译模型——采用经典的 Transformer 结构[1]，和一个样本检索模块——用于执行相似样本检索、相似度计算和概率估计。自回归的机器翻译模型生成译文是按相似的方式逐词生成，因此只需考虑单步的解码过程。在解码生成译文的每一步中，翻译系统的两个部分都会产生一个下一个词对应的概率分布。这两个分布会根据一个混合系数进行线性插值，估计出一个混合的概率分布。下一个词将由这个混合的分布预测出。

稿源：(雷锋网)

【傻大方】网址：http://www.shadafang.com/c/110Y512392021.html

标题：基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译

傻大方

基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译

电商|奢侈品电商“冰火两重天”:“寺库们”遇冷，“红布林们”虚火？

基于相似样本检索的在线更新机器翻译系统|EMNLP 2021 | 机器翻译

win+i|优麒麟 Linux 隐藏快捷键官方玩法大全

客户|RPA，从人的视角定义软件

节能|液冷商业化领跑者——曙光数创受邀出席2021数据中心液冷产业大会

架构|无奈之举亦或主动转型？华为出售X86服务器：未来属于ARM

潮男|《火影忍者》全员变现代风，卡卡西变成潮男，雏田背带裤太可爱

希卡利|特利迦奥特曼：男二号竟然开发变身器，希卡利哭了，圆谷让我下岗

评价|外国友人也炸了，网友看完外网对《巨人》最终季评价后表示放心了

艾伦|进击的巨人：大地恶魔的真身？埋藏了2K年的真相，巨人最深的秘密