机器学习中的7种数据偏见( 二 )
关联偏差:当机器学习模型的数据加强和/或乘以文化偏差时 , 就会发生这种偏差 。 你的数据集可能包含一组工作 , 其中所有男性都是医生 , 所有女性都是护士 。 这并不意味着女人不能当医生 , 男人不能当护士 。 但是 , 就你的机器学习模型而言 , 不存在女医生和男护士 。 社交偏见最出名的是造成性别偏见 , 这在“挖掘人工智能”研究中可见 。
本文插图
如何避免机器学习项目中的数据偏差?
防止机器学习项目中的数据偏差是一个持续的过程 。 尽管有时很难知道数据或模型何时出现偏差 , 但是你可以采取许多步骤来帮助防止偏差或及早发现偏差 。 尽管远非详尽的清单 , 但以下要点为思考机器学习项目的数据偏差提供了入门级指南 。
- 尽你所能 , 事先研究用户 。 请注意你的一般用例和潜在异常值 。
- 确保你的数据科学家和数据标签团队是多元化的 。
- 尽可能合并来自多个来源的输入以确保数据多样性 。
- 为数据标签创建黄金标准 。 黄金标准是一组数据 , 可以反映任务的理想标记数据 。 它使你能够测量团队的注释的准确性 。
- 为数据标签期望制定明确的准则 , 以便数据标签保持一致 。
- 对于可能会出现数据准确性偏差的任何项目 , 请使用多次通过注释 。 例如 , 情感分析 , 内容审核和意图识别 。
- 寻求具有领域专业知识的人员的帮助 , 以查看你收集和/或注释的数据 。 团队外部的人可能会看到团队忽略的偏见 。
- 定期分析你的数据 。 跟踪错误和问题区域 , 以便您快速响应并解决它们 。 在决定删除或保留它们之前 , 请仔细分析数据点 。
- 使偏差测试成为开发周期的一部分 。 Google , IBM和Microsoft都发布了工具和指南 , 以帮助分析许多不同数据类型的偏差 。
https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com) 。
本文插图
总结
【机器学习中的7种数据偏见】请务必注意任何数据项目在机器学习中的潜在偏见 。 通过尽早安装正确的系统并保持数据收集 , 标记和实施的最顶层 , 你可以在出现问题之前就注意到它 , 或者在出现问题时对其进行响应 。
原文链接:https://hackernoon.com/7-types-of-data-bias-in-machine-learning-ubl3t3w
本文由AI科技大本营翻译 , 转载请注明出处
本文插图
本文插图
- 包学习|我是理科生,我来说说理科逆袭的经验不管以前怎样,此刻起,耐得住性子,遇题遇知识先思考再动用记忆,会很累但效果惊人。
- 教育部|教育部取消4类学生高考资格,学习再好也没用,复读生成争议焦点
- 滚筒科技说 人们会像依赖手机一样依赖机器人吗?机器人进入生活是祸还是福?
- 文刀贰|李亚鹏是恋爱高手,五步追王菲,还让瞿颖、周迅难忘一、挖空心思追王菲——五步技巧二、瞿颖、周迅心中的魅力男人
- 滚筒科技说人们会像依赖手机一样依赖机器人吗?机器人进入生活是祸还是福?
- 刘一达|京味儿作家刘一达眼中的“典故北京”
- 中年“机器换人”成趋势 全国机器人焊接竞赛广西开幕
- 阿瓜科技 变局中的共享充电宝:美团将何去何从?
- 信息港变局中的共享充电宝 聚美优品、美团将何去何从?
- 光明网插上互联网翅膀,使用机器人如同手机一样寻常