「十轮网」Google改善翻译服务减少性别偏差

Google改进翻译服务 , 使用新的方法来解决翻译上的性别偏差 , Google提到 , 比起过去旧的方法 , 新方法更具可扩展性 , 尤其在将性别中立的语言翻译成英文的时候 。 Google目前在英文到西班牙文的翻译中应用新方法 , 并且还计划扩展芬兰文、匈牙利文和波斯文和土耳其文到英文的性别翻译功能 。
「十轮网」Google改善翻译服务减少性别偏差
文章图片
语言翻译的机器学习模型 , 可能会因为训练资料中存在的社会偏见而出现偏差 , 性别偏差就是其中一个例子 , 像是Google翻译在翻译土耳其文时 , 会将包含医生的句子翻译成阳性格式 , 而将护士翻译成阴性格式 。 Google为了避免产生或是强化性别不平等偏差 , 因此会侦测性别中立的查询 , 并且根据用户的喜好 , 产生明确性别翻译 , 在Google翻译向不分性别的语言提供明确性别翻译 , 用户可以选择获得阳性或是阴性翻译结果 。
Google过去分别在土耳其文到英文 , 以及英文到西班牙文提供性别翻译功能 , 但随着对更多语言应用提供性别翻译服务 , 旧方法在扩展上出现问题 , 当神经机器翻译系统独立生成阳性和阴性翻译时 , 会导致低召回率(Recall) , 超过40%的查询无法显示明确性别翻译 , 此外 , 创建分类器侦测每种来源语言的性别中
为了解决这些问题 , Google改进明确性别翻译的方法 , 使用与旧方法完全不同的方式来解决性别偏差 , 新方法利用重写方法 , 来改善性别翻译的品质 。 基于重写方法的明确性别翻译 , 第一步是产生初始翻译 , 接着对翻译进行审查 , 当翻译具有性别用语 , 则重写成目标性别翻译 , 最后评估精确度 。
「十轮网」Google改善翻译服务减少性别偏差
文章图片
而要构建重写器 , 需要产生数百万个训练用范例短语 , 每个短语都包含男性和女性翻译 , 由于这类资料集获取不易 , 因此Google重新产生了一个人信息料集 , 可以对照阳性以及阴性用语 , 用来训练模型 , 输入男性用语时则可以转换成女性用语 , 反之也然 , Google提到 , 最终模型能以99%精确度重写成用户要求的性别用语 。
【「十轮网」Google改善翻译服务减少性别偏差】另外 , Google还设计了一个评估方法 , 来检验新翻译系统和旧翻译系统间的偏差改善程度 , 应用新系统则芬兰文和波斯文到英文的翻译偏差 , 可减少超过90% , 土耳其文到英文翻译则改善了95%的性别偏差 , 而且新系统还能以97%的精确度启动性别翻译功能 。 Google提到 , 他们会进一步将这项研究成果 , 应用在文件翻译上 。