AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet
近日 , 麻省理工学院研究团队发表了一篇论文指控知名数据集ImageNet存在系统性Bug , 该论文被国际机器学习大会ICML2020接收 。
同时 , 这篇论文名为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》 , 也发表在了在预印论库arXiv上 。
文章图片
文章图片
麻省理工研究团队之所以在ICML大会上介绍这项研究 , 是因为近期陷入的“Tiny Images”争议事件 。
就在本月初 , 麻省理工学院(MIT)宣布永久删除了包含8000万张图像的Tiny Images数据集 , 并公开表示歉意 。其原因是 , 有关研究人员发表了一篇论文指控Tiny ImageNet数据集存在多项危险标签 , 包括种族歧视、性别歧视、色情内容等 , 而且指控有理有据 。
论文中表明 , ImageNet在语义结构分析上 , 使用的WordNet名词 , 它包含了种族歧视等危险内容 , 同时 , 由于图像过小 , 数据量过大 , 并未手动对图像标签进行逐一核对 , 由此导致了问题的出现 。
众所周知 , 知名数据集ImageNet也使用了WordNet用于语义结构分析 , 那么 , ImageNet数据集是否也存在同样的问题?对此 , 麻省理工研究团队给出了答案 。
ImageNet基准测试与实际不符
大规模ImageNet数据集的出现 , 可以说意味着机器学习深度变革的一个新起点 。2009年 , 李飞飞领衔的研究团队在计算机视觉与识别模式大会(CVPR)上首次推出ImageNet , ImageNet数据集包含10000个分类 , 超过一百万个图像 , 数据量之大是此从未有过的 。
正是因数据量大、质量高 , ImageNet数据集被广泛用于预训练和基准测试 。但是 , 麻省理工研究团队在最近的研究中却指出:
ImageNet存在明显的“系统标注问题” , 导致其用作基准数据集时与实际情况并不一致 。
他们发现 , ImageNet数据集中大约有20%的图像包含两个或更多的对象目标 。
文章图片
文章图片
在通过对多个目标识别模型进行分析后 , 数据表明包含多个对象目标的照片会导致总体基准的准确性下降10% 。
文章图片
文章图片
简单举个栗子:假如此图是ImageNet数据集中的一张高清图像 , 我们可以看到图片中不止包含了一个对象目标 , 包含女孩、吉他和唱麦 , 而且图片的主目标应该是女孩 。
文章图片
文章图片
但ImageNet的数据标签可能不是女孩 , 也可能是唱麦或者吉他 , 重要的是ImageNet只会标注一个标签 , 这样可能就会导致ImageNet在目标识别中出现失误 。
研究人员在论文中表明 ,
“总体而言 , 单个ImageNet标签可能不能总是捕获到ImageNet图像的主要表物体目标 。但是 , 当我们进行培训和评估时 , 却将标签视为图像的根本事实 , 因此 , 这可能会导致ImageNet基准测试与现实世界中的对象识别任务之间出现不一致 , 而且这在模型执行和评估性能方面都是如此 。”
看到这里你可能会疑惑 , 为什么不能准确对图像进行标记?其实问题的关键在于ImageNet所使用的标记工具WorldNet 。
WordNet名词标记是关键
WordNet在1980年代由George Armitage Miller创立 , 被广泛用于数据集的收集和标记过程 。简单的理解 , ImageNet会根据WorldNet提供的名词和它的语义层次结构 , 在搜索引擎或者Flickr之类的网站进行图像搜索 , 作为数据集的初始来源 。分页标题
【AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet】当WordNet提供一个名词后 , 根据它设定的语音层次结构 , ImageNet需要对该名词的父类节点同义词进行扩充 , 并以此作为搜索的关键词 。比如“ whippet”分类名词(父类节点为:“dog”)的搜索还会包括“ whippet dog”。
这类似于我们经常看到的“相关搜索” 。为了进一步扩展图像池 , 数据集创建者还会使用多种语言进行了搜索 。
但这里的重点是 , 对于每个检索到的图像已经确定了标签 , 如果该标签包含在数据集中 , 则将分配给该图像 。也就是说 , 标签仅由用于相应搜索查询的WordNet节点给出 。
而在这一过程中 , WordNet的语义结构会将非主要目标的图像纳入数据集中 , 出现上文提到标记偏差 。如论文中的数据显示 , 同一分类却出现了不同的物体目标 。(如图)
文章图片
文章图片
既然如此 , 那为什么WordNet名词还能够广泛应用于数据集创建过程中呢?
一方面是因为WorldNet可以完成大量数据的自动标记工作 。我们知道 , 所有数据集在使用前都要先完成标记任务 , 而一个优秀的数据集规模又是很大的 , 如果全部手动标记 , 难度非常高 , 而WorldNet却可以很好的解决这一问题 。
另一方面对于ImageNet而言 , WordNet获取的只是初始数据标签 , 其准确性还需要通过相关模型进行再次验证 。总体来讲 , ImageNet数据集的创建过程 , 分为自动图像收集(automated data collection)和众包过滤(crowd-sourced filtering)两个阶段 , 而众包过滤就是所谓的审核阶段 , 它分为以下5个步骤:
文章图片
文章图片
潜在标签(Candidate Labels):通过现有ImageNet图像标签与模型预测的前5个标签进行组合 , 获得每张图像的潜在标签 。
选择高频率标签(Selection Frequency):通过Mechanical Turk(MTurk)平台 , 将潜在标签与注释内容对比 , 经过反复过滤循环后 , 出现频率最高的为最佳标签(一般少于5个) 。
CLASSIFY任务:给获得的少量多标签(Multiple labels)重新定义一组新的注释内容 , 根据注释信息为不同对象赋予标签 , 并确定一个主要对象的标签 , 这个过程称为CLASSIFY 。
对象注释(Object Annotation):汇总以上训练后 , 获得更为细粒度的图像注释;
与原始ImageNet标签相比 , 经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容 , 但研究者发现 , 这些注释内容可能并没有达到期待的效果 , 如下图 , CONTAINS任务会选择多个标签对图像有效 , 而对于70%的图像而言 , 注释选择的标签频率至少是ImageNet的原始标签的一半 。
文章图片
文章图片
而且下图表明 , 尽管只感知到单个对象 , 它们也经常会选择多达10个类别标签 。因此 ,
对于单一目标的图像 , ImageNet验证过程也无法得到准确的标签 。
文章图片
文章图片
因此 , 可以说图像标签在很大程度上依然取决于自动检索(WorldNet)过程 , 同时众包过滤的审查过程还有很大的提升空间 。
对于未来如何优化数据集的创建任务 , 研究人员在论文中表明 , 我们认为开发注释流程 , 尤其是审查阶段以更好地捕获基本事实 , 同时保持可扩展性是未来研究的重要途径 。”分页标题
涉嫌种族歧视 , 大规模数据集争议不断
作为人工智能技术的基础 , 数据集在诸多研究领域都有着广泛的使用场景 , 尤其是在计算机视觉领域 。近些年 , 因数据集的使用引发的隐私泄露、种族歧视等问题接连不断 , 导致人工智能技术的发展备受争议 。
除了近期麻省理工学院因涉嫌种族歧视而删除了包含8000张图像的Tiny Image数据外 , 此前 , 一款图像修复算法PULSE , 在学术圈同样引起轩然大波 。有网友发现 , PULSE在修复马赛克图像时 , 将奥巴马变成了高分辨率的白人 , 这一事件引起了黑人网友的不满 。
对此 , 图灵奖之父Lecun发表twitter称 , 训练结果存在种族偏见 , 是因为数据集本身带有偏见 , 工程师在使用过程中应该加注意这一点 。
今年因数据集而引发种族歧视事件颇多 , 而解决这些数据集争议 , 无非是从数据收集和标记阶段进行改进 。研究人员称 , 对于大型数据集 , 理想的方法是按指定目标在全世界范围内收集图像 , 并让专家按确切类别进行手动筛选和标记 。这里需要注意的是 , 非专家的人工标记也可能出现错误 。
但从当前来看 , 这种方法非常不切实际 。事实上 , 诸如ImageNet此类数据集均是从互联网搜索引擎抓取的图像 , 质量参差不齐 , 而图像审查不够严谨 。同时大量数据的专家手动标记也很难实现 。不过 , 如本次研究所称 , 可以通过技术进一步改善图像自动审查的过程来提高数据集的质量 。
此外 , 目前学术界已经越来越关注数据集相关缺陷问题 , 在本月初计算机语言协会(ACL)还重点讨论了这一问题 。
- 青年|汕头华侨试验区探索以人工智能、5G赋能产业转型升级
- |美3岁男童惨遭吸毒亲妈虐待致死,浑身伤痕累累,伤势细节整3页
- 行业互联网,AI人工智能|城市教育大脑以“ AI+ 大数据”为核心 , 引领教育变革
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 人工智能|哈工智能布局“AI+ROBOT”生态圈
- 人工智能|马斯克宣布,脑机接口公司将在下月重磅更新,赛博格将成为现实?
- 人工智能|敏捷开发框架的开发运用之智能办公管理系统的开发
- 人工智能|人工智能上车就是聊天唱歌?TA还能给你有温度有情感的陪伴
- 行业互联网,云计算|赛伯乐携手华为(重庆)人工智能创新中心聚焦AI前沿,助力企业数字化转型
- 检测|百度人工智能技术再突破 多模态活体检测算法获银行卡检测中心增强级认证