『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?( 八 )
图 4 给出了 SP 约束下的相对测试损失与最坏约束冲突对比实验结果 , 该实验通过从实际损失中减去最小基线损失来计算相对损失 。 图 4 给出了 95% 的置信区间来表示本文方法和公平分类(FC)的相对损失 , 也给出了 95% 的置信区间来表示约束违反(对所有方法都一样) 。 除了 Adult 库中公平分类(FC)效果更好 , 在其他数据库中本文提出的方法效果都为最优 。 此外 , 本文所提出的方法在减小差距(不公平)的同时 , 并不会对总体损失造成严重影响 。 本文所提出的方法在全部最小二乘任务中效果都为最优 , 但在 logistic 回归任务中 , 效果低于公平分类(FC) 。
本文插图
图 4. SP 约束下的相对测试损失与最坏约束冲突对比
小结
本文所提的算法能够有效处理一系列损失和回归问题 , 同时在保持总体准确度的同时减小了偏见(差异) 。 在本文给出的实验中 , 公平分类 (FC) 作为 logistic 回归的一个强大基线算法展现出了良好的性能 , 在一些实验条件下效果甚至优于本文提出的算法 。 这表明本文所提出的基于回归的归约启发式方法还存在一些缺陷 , 这也为以后的研究留下了改进空间 。
3、Identifying and Reducing Gender Bias in Word-Level Language Models
本文插图
https://arxiv.org/pdf/1904.03035.pdf
语言建模(Language Model)是一项非常容易受到性别偏见(Gender Bias)影响的自然语言处理任务 , 同时也非常具有实际应用价值 , 例如屏幕键盘中的单词预测 。 本文的研究目的是识别用于语言建模的训练数据集中的性别偏见 , 以及减少其对模型行为的影响 。 具体来讲 , 本文的工作是评估性别偏见对于在文本语料库中训练的单词级别的语言模型的性能影响 。
本文首先通过对训练得到的嵌入特征和共现模式进行定性和定量分析 , 从而检查数据集中存在的偏见 。 然后 , 在数据集上训练 LSTM 单词级别的语言模型 , 并测量生成输出的偏见(如图 5 所示) 。 第三 , 应用一个正则化过程 , 目的是使得模型学习到的嵌入特征最小程度依赖于性别 , 同时进行独立的对输入和输出嵌入特征的去偏处理 。
本文插图
图 5. 三层 LSTM 模型
分析用于建立最新语言模型的公开数据集所显示的性别偏见
本文选择了三个公开数据集进行验证 , 包括:Penn Treebank (PTB)、WikiText-2 和 CNN/Daily Mail 。 PTB 由科学摘要、计算机手册、新闻文章等不同类型的文章组成 , 其中男性单词的计数高于女性单词 。 WikiText-2 由维基百科的文章组成 , 它比 PTB 更加多样化 , 因此男女性别词的比例更加平衡 。 CNN/Daily Mail 是从体育、健康、商业、生活方式、旅游等主题的各种新闻文章中整理出来的 。 这个数据集的男女性别比例更加平衡 , 相较于前两个数据集来说 , 存在的性别偏见最小 。
本文使用包含 1150 个隐藏单元的三层 LSTM 单词级语言模型 (AWD-LSTM) 测量生成输出的偏见程度[3] , 使用复杂度(Perplexity)作为衡量标准 。 在对三个公开数据集的验证过程中都得到了合理的复杂度 , 分别为 PTB 62.56、Wikitext-2 67.67、CNN/Daily Mail 118.01 。
复杂度(Perplexity)是一种常用的语言模型评价标准 , 可以理解为 , 如果每个时间步长内都根据语言模型计算的概率分布随机挑词 , 那么平均情况下 , 挑多少个词才能挑到正确的那个 。 即复杂度(Perplexity)刻画的是语言模型预测一个语言样本的能力 , 通过语言模型得到一条语言样本的概率越高 , 语言模型对数据集的拟合程度越好 , 建模效果越好 。
- 军人驿站国际观察俄土科技差距显露无疑,美称此战可载入史册,叙利亚爆发机器人大战
- 埃尔法哥哥还可以做扫地机器人啊,自动驾驶不做了
- 湖南省人工智能产业联盟每日AI报0510
- 掘金界参与主,5月8日,由全球领先的人工智能平台公司商汤科技SenseTime
- 埃尔法哥哥人工智能与人类的未来
- 界面新闻MIT:美国制造业每多1个机器人,平均取代3.3名工人
- 读懂新金融营销、城市、机器人、养牛养鱼……新型科技公司的十八般武艺
- 极客公园机器人大爆发的时代来了?风口上的优必选说要「保持冷静」
- 15个最流行的GitHub机器学习项目
- 科技智能制造TB细数机器人十大工控产品,没有这些机器人自动化就不能实现