『人工智能』当谈论机器学习中的公平公正时，我们该谈论些什么？( 九 ) |算法|软件|Google|

分析性别偏见对基于递归神经网络 (RNNs) 的单词级语言模型的影响
使用能够表征性别的单词来表示一个单词在上下文中出现的概率：

本文插图
其中 c(w,g) 是上下文窗口， g 是一组性别词汇，例如，当 g=f ，这样的词包括 he,her,woman 等， w 是语料库中的任何单词，不包括停止词汇和性别相关词汇。关于 c(w,g) 的选择，本文采用了固定长度和权重以指数方式递减（0.95）的有限长度窗口大小两种方式进行实验。
定义特定词的偏见分数为：

本文插图
要对从训练语料库和语言模型生成的文本语料库中采样得到的文本中的每个单词测量这个偏见分数，其中，正偏分数意味着该词与女性词汇的搭配频率高于与男性词汇的搭配频率。在假设无限的语境中，偏见分数应当接近于 0 ，例如，「doctor」和「nurse」在对话过程中与男性和女性单词搭配出现的频率应当一样多。
为了评估每个模型的去偏性，测量生成的语料库的偏见分数计算如下：

本文插图
此外，为了估计偏见放大或缩小的改变程度，本文拟合了一个单变量线性回归模型，该模型对上下文单词的偏见评分如下:

本文插图
其中， β为与训练数据集相关的比例放大测量值，减小β意味着对模型去偏， c 为上文定义的 context 。本文利用评估语料库中每个上下文单词的绝对平均值μ和标准偏差σ来量化偏见的分布：

本文插图
最终，取绝对偏见分数的平均值作为评估依据。
减少在这些模型中获得的偏见的方法
前期的研究表明，机器学习技术通过捕捉数据模式来做出连贯的预测，可能能够捕获甚至放大数据中的偏见 [4] 。本文分别对输入嵌入、输出嵌入和同时两种嵌入这三种情况进行了去偏处理。本文使用的方法为：使用 [5] 中的方法从学习到的输出嵌入中提取一个性别子空间。然后，根据 [6] 中的方法在单词级别（word level）的语言模型上训练这些嵌入，而不是使用无偏预训练的嵌入 [6] 。
使用 w∈Sw 表示单词嵌入， Di,...,Dn?Sw 表示定义集，包括性别词汇对，例如男人和女人。定义集是为每个语料库单独设计的，因为某些词并不会出现在所有语料库中。对于一个训练语料库，同时出现的与性别相关的相反的词汇，则将它们认定为一个定义集， {ui,vi}=Di 。矩阵 C 是定义集中词汇对之间的差异向量的集合，词汇对的差异情况表征了性别信息。对 C 进行奇异值分解处理：

本文插图
将 V 的前 k 列定义为性别子空间 B=V_1:k 。矩阵 N 由无偏嵌入组成。如果想让嵌入的偏见最小，那么将其映射到 B 中时，令其 Frobenius 范数的平方值也是最小。为了减少模型中嵌入层学习到的偏见，在训练损失中加入以下正则化项:

本文插图
其中， λ控制最小化嵌入矩阵 W（N 和 B 推导得到的矩阵）的权重， N 和 C 在模型训练期间迭代更新。
在语言模型中随机输入 2000 个种子作为开始生成单词的起点。使用前面的单词作为语言模型的输入，并执行多项选择以生成下一个单词，重复该步骤 500 次，最终得到三个数据集对应每个λ的 10^6 个 token 。