利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见( 二 )


利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
本文的方法:本文的目标是将句子
(1)转换为句子(2) , 反之亦然 。 据本文所知 , 这个转换以前没有人研究过 。 事实上 , 目前也没有一个标注成对句子用来训练监督模型的语料库 。 基于此 , 本文运用一种无监督的方法 , 利用依存树、词目、词性(POS)标注与来源于 Universal Dependencies(UD)语料库的词性句法标注 。 简而言之 , 本文提出了以下四个步骤 。

  1. 分析句子(包括语法分析、词形分析与词形还原)
  2. 干预一个表示性别的词
  3. 推理出新的形态句法标签
  4. 替换成新词干
这个过程如图 1 所示 , 过程中主要的技术贡献是在第 3 步使用了一种新式的马尔可夫随机场 , 将在下一节说明 。
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
3 一种用于形态与句法的马尔可夫随机场【利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见】在这一节 , 本文采用一个用于形态与句法的马尔可夫随机场(MRF) , 该模型定义了一个对形态句法标记序列的联合分布 , 且被训练于一个被标注词性标签的依存树 。 如果更换了一个表示性别的词 , 本文可以使用这个模型对哪些单词需要更新进行推断 , 以保持形态与句法的一致 。
一个句子的依存树(例子如图 2)是一组有序三元组(i ,j ,l) , i 和 j 是
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
3.1 参数化
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
3.2 推理
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
3.3 参数估计
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
4 干预手段
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
5 实验
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
5.1 内部评估就目前所知 , 这个任务以前没有被研究过 。 因此 , 不存在一个被标注的成对句子语料库作为准确的基准 。 因此本文自己标注西班牙语和希伯来语句子 , 同时每种语言的母语者对句子进行注释 。 具体来说 , 对于每种语言 , 本文从 UD treebank 中提取包含有灵名词的句子 。 被提取的句子的平均长度是 37 个单词 。 本文手动检查每个句子 , 对有灵名词的性别进行干预 , 然后句子进行重新屈折 。 本文选择了西班牙语与希伯来语 , 因为不同语言的性别变换语法不同 。 本文在表 2 的前两行中提供了这两种语言的语料库统计数据 。
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图
利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见文章插图