机器学习中的 7 种数据偏差( 二 )


机器学习中的 7 种数据偏差文章插图
如何避免机器学习项目中的数据偏差?预防机器学习项目中的数据偏差是一个持续的过程 。 虽然有时很难知道你的数据或模型何时出现偏差 , 但你可以采取一些措施来帮助预防偏差或及早发现偏差 。 虽然远远不是一个全面的清单 , 但下面的要点为思考机器学习项目的数据偏差提供了一个入门级指南 。

  • 尽你所能 , 提前研究你的用户 。 了解你的一般用例和潜在的异常值 。
  • 确保你的数据科学家和数据标注者团队是多样化的 。
  • 在可能的情况下 , 结合来自多个来源的输入 , 以确保数据的多样性 。
  • 为您的数据标签创建一个黄金标准 。 黄金标准是一组数据 , 它反映了您任务的理想标注数据 。 它使您能够衡量您团队的注释是否准确 。
  • 为数据标注的期望值制定明确的准则 , 以便数据标注者保持一致 。
  • 对于数据准确性可能容易出现偏差的任何项目 , 都要使用多通道注释 。 这方面的例子包括情感分析、内容节制和意图识别 。
  • 寻求具有领域专业知识的人的帮助 , 以审查您收集和/或注释的数据 。 来自你的团队之外的人可能会看到你的团队所忽略的偏见 。
  • 定期分析您的数据 。 跟踪错误和问题区域 , 以便您可以快速响应和解决它们 。 在做出删除或保留数据点的决定之前 , 要仔细分析数据点 。
  • 让偏见测试成为你开发周期的一部分 。 谷歌、IBM和微软都发布了工具和指南 , 帮助分析一些不同数据类型的偏差 。
如果你想更深入地了解偏见是如何发生的 , 它对机器学习模型的影响 , 以及过去在自动化技术中的例子 , 我们推荐你看看Margaret Mitchell的 "人工智能视觉和语言中的偏见 "演讲 。 你可以在油管或者 B 站看看是否有次视频 。
最后对于任何数据项目来说 , 意识到机器学习中潜在的偏差是很重要的 。 通过尽早建立正确的系统 , 并保持对数据收集、标签和实施的关注 , 您可以在它成为问题之前注意到它 , 或者在它弹出时应对它 。
【机器学习中的 7 种数据偏差】另外 , 如果您正在考虑组建一支由不同的数据科学家和数据标签人员组成的团队 , 以确保高质量的数据 , 请与我们联系 。 通过访问不同领域的领先数据科学家和全球100万+贡献者社区 , Lionbridge可以帮助您定义、收集和准备您的机器学习项目所需的数据 。
原文标题:7 Types of Data Bias in Machine Learning | Lionbridge AI
原文链接:
作者:Hengtee Lim
编译:张亚飞