机器学习中的 7 种数据偏差( 二 )
文章插图
如何避免机器学习项目中的数据偏差?预防机器学习项目中的数据偏差是一个持续的过程 。 虽然有时很难知道你的数据或模型何时出现偏差 , 但你可以采取一些措施来帮助预防偏差或及早发现偏差 。 虽然远远不是一个全面的清单 , 但下面的要点为思考机器学习项目的数据偏差提供了一个入门级指南 。
- 尽你所能 , 提前研究你的用户 。 了解你的一般用例和潜在的异常值 。
- 确保你的数据科学家和数据标注者团队是多样化的 。
- 在可能的情况下 , 结合来自多个来源的输入 , 以确保数据的多样性 。
- 为您的数据标签创建一个黄金标准 。 黄金标准是一组数据 , 它反映了您任务的理想标注数据 。 它使您能够衡量您团队的注释是否准确 。
- 为数据标注的期望值制定明确的准则 , 以便数据标注者保持一致 。
- 对于数据准确性可能容易出现偏差的任何项目 , 都要使用多通道注释 。 这方面的例子包括情感分析、内容节制和意图识别 。
- 寻求具有领域专业知识的人的帮助 , 以审查您收集和/或注释的数据 。 来自你的团队之外的人可能会看到你的团队所忽略的偏见 。
- 定期分析您的数据 。 跟踪错误和问题区域 , 以便您可以快速响应和解决它们 。 在做出删除或保留数据点的决定之前 , 要仔细分析数据点 。
- 让偏见测试成为你开发周期的一部分 。 谷歌、IBM和微软都发布了工具和指南 , 帮助分析一些不同数据类型的偏差 。
最后对于任何数据项目来说 , 意识到机器学习中潜在的偏差是很重要的 。 通过尽早建立正确的系统 , 并保持对数据收集、标签和实施的关注 , 您可以在它成为问题之前注意到它 , 或者在它弹出时应对它 。
【机器学习中的 7 种数据偏差】另外 , 如果您正在考虑组建一支由不同的数据科学家和数据标签人员组成的团队 , 以确保高质量的数据 , 请与我们联系 。 通过访问不同领域的领先数据科学家和全球100万+贡献者社区 , Lionbridge可以帮助您定义、收集和准备您的机器学习项目所需的数据 。
原文标题:7 Types of Data Bias in Machine Learning | Lionbridge AI
原文链接:
作者:Hengtee Lim
编译:张亚飞
- 机器人|网络里面的假消息忽悠了非常多的小喷子和小机器人
- 跑腿|机器人“小北”上岗 让办事群众少跑腿
- 计算机学科|机器视觉系统是什么
- 机器人|外骨骼康复训练机器人助力下肢运动功能障碍患者康复训练
- 脸上|那个被1亿锦鲤砸中的“信小呆”:失去工作后,脸上已无纯真笑容
- 教学|机器人教学的目标方案
- 体验|VR\/AR体验、3D打印、机器人“对决”……松江这所中学人工智能创新实验室真的赞
- 输送|新时达:“用于机器人码垛的输送系统”获发明专利
- 操作|[LIVE On]黄敏贤和郑多彬充满心碎的下午:机器操作每次都不能通过测试
- 夹缝|“互联网卖菜”背后:夹缝中的菜贩与巨头们的垄断