『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
机器之心分析师网络
分析师:仵冀颍
编辑: Joni Zhong
本文讨论的是机器学习中的公平公正问题(Bias and Fairness in Machine Learning) , 那么 , 究竟什么是机器学习中的公平公正呢?
随着人工智能系统和应用程序在我们日常生活中的广泛应用 , 人工智能已经成为了辅助人们决策的重要工具 , 例如 , 使用推荐系统算法做出电影推荐、购买产品推荐等 , 使用预测和分析系统用于贷款申请、约会和雇佣等高风险决策 。 美国法院使用了一款人工智能软件—「选择性制裁罪犯管理档案」(Correctional Offender Management Profiling for Alternative Sanctions , COMPAS) , 用于预测一个人再次犯罪的风险 , 辅助法官决定是释放罪犯 , 还是把罪犯关进监狱 。 对该软件的一项调查发现了对非洲裔美国人的一种偏见:相较于白人罪犯 , COMPAS 更有可能给非洲裔美国人罪犯打出较高的潜在风险分数 , 从而不予以释放 [1] 。
有偏的训练数据集一般被认为是影响机器学习公平公正的重要因素之一 。 大多数机器学习模型都是通过在大型有标记数据集上训练得到的 。 例如 , 在自然语言处理中 , 标准的算法是在包含数十亿单词的语料库上训练的 。 研究人员通常通过抓取网站 (如谷歌图像和谷歌新闻)、使用特定的查询术语 , 或通过聚合来自维基百科 (Wikipedia) 等来源的易于访问的信息来构建此类数据集 。 然后 , 由研究生或通过 Amazon Mechanical Turk 等众包平台对这些数据集进行注释和标记 。
在医学领域 , 由于医疗数据的生成和标记成本非常高 , 机器学习特别容易受到有偏见训练数据集的影响 。 去年 , 研究人员利用深度学习从照片中识别皮肤癌 。 他们对 129,450 张图像的数据集进行训练 , 其中 60% 是从谷歌图像中提取的 。 在这个数据集中只有不到 5% 的图像是深肤色的个体 , 而且该算法没有在深肤色的人身上进行测试 。 因此 , 将该深度学习分类器应用在不同的种群中可能会存在巨大的差异 。
用于图像分类的深度神经网络通常是在 ImageNet 上训练的 , ImageNet 是一套包含 1400 多万张标记图像的集合 。 ImageNet 中 45% 以上的数据来自美国 , 而美国人口仅占世界人口的 4% 。 与此形成对比的是 , 尽管中国和印度的人口占世界人口的 36% , 但两国在 ImageNet 的数据中只占 3% 。 在这样的数据集中训练得到的计算机视觉模型 , 把传统的美国新娘穿着白色衣服的照片标记为「新娘」、「服装」、「女人」、「婚礼」 , 而把印度北部新娘的照片标记为「行为艺术」和「服装」 。 图 1 是 Nature 上一篇报道中给出的一幅图片 , 在有偏数据集上训练的算法通常只将左侧的图片识别为新娘 [2] 。
本文插图
图 1. 在有偏数据集上训练的算法通常只将左手图像识别为新娘 [2]
影响机器学习公平公正的另外一个重要因素是机器学习算法本身 。 一个经典机器学习的算法总是试图最大限度地提高在训练数据集中的总体预测精度 。 如果一组特定的个体在训练数据集中出现的频率高于其他个体 , 那么算法将会针对这些个体进行优化 , 从而提高算法整体准确度 。 在实验环境下 , 研究人员使用测试数据集进行评估以验证算法的有效性 , 但是测试集通常是原始训练数据集的随机子样本 , 因此可能包含相同的偏见 。
为了确保机器学习的公平公正 , 研究人员认为主要有三种途径:一是提高用于训练机器学习算法的数据质量 , 公平、广泛的收集不同来源的数据 , 使用标准化的元数据系统地标注训练数据集的内容 。 二是改进机器学习算法本身 。 整合约束条件 , 从本质上使得机器学习算法在不同的子群体和相似的个体之间实现公平的性能;改变学习算法 , 减少对敏感属性的依赖 , 比如种族、性别、收入——以及任何与这些属性相关的信息 。 三是使用机器学习本身来识别和量化算法和数据中的偏见 , 即开展人工智能审计 , 其中审计人员是一个系统地探测原始机器学习模型的算法 , 以识别模型和训练数据中的偏见 。
- 军人驿站国际观察俄土科技差距显露无疑,美称此战可载入史册,叙利亚爆发机器人大战
- 埃尔法哥哥还可以做扫地机器人啊,自动驾驶不做了
- 湖南省人工智能产业联盟每日AI报0510
- 掘金界参与主,5月8日,由全球领先的人工智能平台公司商汤科技SenseTime
- 埃尔法哥哥人工智能与人类的未来
- 界面新闻MIT:美国制造业每多1个机器人,平均取代3.3名工人
- 读懂新金融营销、城市、机器人、养牛养鱼……新型科技公司的十八般武艺
- 极客公园机器人大爆发的时代来了?风口上的优必选说要「保持冷静」
- 15个最流行的GitHub机器学习项目
- 科技智能制造TB细数机器人十大工控产品,没有这些机器人自动化就不能实现