机器学习中的 7 种数据偏差

ITDaily & AI 中国
每日最新 IT 圈 AI 圈新鲜事吐槽 给你想看的
机器学习中的 7 种数据偏差文章插图
机器学习中的数据偏差是一种类型的错误 , 其中数据集的某些元素比其他元素的权重更高和/或代表性更强 。 一个有偏见的数据集不能准确地代表模型的用例 , 导致结果偏斜 , 低精度水平和分析错误 。
一般来说 , 机器学习项目的训练数据必须代表真实世界 。 这很重要 , 因为这些数据是机器学习工作的方式 。 数据偏差可能发生在一系列领域 , 从人类报告和选择偏差到算法和解释偏差 。 下图是一个很好的例子 , 说明仅在数据收集和注释阶段就会出现各种偏差 。
机器学习中的 7 种数据偏差文章插图
数据中的人类偏见(摘自Bias in the Vision and Language of AI 。 更多信息和链接在下面) 。 )
解决机器学习项目中的数据偏差意味着首先要确定它在哪里 。 只有在你知道偏见存在于哪里之后 , 你才能采取必要的措施来补救它 , 无论是解决缺乏数据还是改进你的注释流程 。 考虑到这一点 , 对数据的范围、质量和处理保持警惕以尽可能避免偏差是极其重要的 。 这不仅会影响到你的模型的准确性 , 还可以延伸到伦理、公平和包容的问题 。
下面 , 我们列出了机器学习中最常见的七种数据偏差类型 , 以帮助您分析和了解它的发生地点 , 以及您可以做些什么 。
如果你正在寻找机器学习项目的数据采集数据标注的深入信息 , 请务必查看我们的机器学习训练数据深度指南 。
数据偏差的类型虽然不是详尽无遗 , 但这个列表包含了该领域常见的数据偏差的例子 , 以及它发生在哪里的例子 。