DeepTech深科技|图像注释AI比人类更精确?微软新算法刷新图像注释基准测试纪录

今年9月 , 微软在一篇论文中描述了一种新的图片注释算法 。 微软表示 , 其开发的新算法在某些特定的测试中 , 精确度超过了人类 。
目前 , 该AI系统已被用于更新微软为视障人士设计的助手应用程序“SeeingAI” , 并将很快被整合到Word、Outlook和PowerPoint等微软其他产品中 。 届时 , 它将用于为图像创建替代文本(alt-text)之类的任务 。 这个功能对于提高可访问性特别重要 。
DeepTech深科技|图像注释AI比人类更精确?微软新算法刷新图像注释基准测试纪录
文章图片
图|开发人员Florianbeijingers正在使用“SeeingAI” , 微软图片注释算法将被用于改进该类应用 。 (来源:微软/MauriceJager)
微软人工智能团队的软件工程经理SaqibShaikh在一份新闻声明中说:“理想情况下 , 所有人都应该为文件、网络和社交媒体中的图片添加替代文本 , 只有这样 , 才能使盲人能够理解具体内容并参与对话 。 但是 , 现在人们并没有做到这一点 。 所以 , 我们迫切需要一些应用程序来为图片添加替代文本 。 ”
新算法性能是之前的两倍
这些应用程序包括微软在2017年首次发布的SeeingAI 。 它使用计算机视觉技术 , 通过智能手机摄像头为视障人士描述世界 。 它不仅能识别家用物品、描述场景 , 还能扫描文本或帮助阅读 , 甚至能识别朋友 。 它还可以用于描述其他应用程序中的图片 , 例如电子邮件、社交媒体等 。
微软没有透露使用SeeingAI的用户数量 , 但AzureAI公司副总裁埃里克·博伊德(EricBoyd)在采访中表示 , 这款软件是“为盲人或弱视人士提供的先进应用之一” 。 SeeingAI已经连续三年被盲人和弱视人士iOS用户社区AppleVis评为最佳辅助应用 。
微软的新图像注释算法将显著提高SeeingAI的性能 , 因为它不仅能够识别物体 , 还能更精确地描述它们之间的关系 。 因此 , 算法可以在处理图片时 , 不仅知道其中包含哪些物品和对象(例如 , 一个人 , 一把椅子 , 一个手风琴”) , 还能知道它们是如何交互的(例如 , “一个人坐在椅子上弹奏手风琴”) 。 微软表示 , 该算法性能比2015年开始使用的上一代算法好两倍 。
微软团队在在9月份发表的一篇预印本论文中对该算法进行了描述 , 它在一项名为“nocaps”的图像注释基准测试中获得了有史以来的最高分数 。 “nocaps”是业内领先的图片注释测试 , 当然 , 它有自己的限制条件 。
nocaps基准测试由超过16600条人工生成的图片注释组成 , 这些注释描述了来自开放图像数据库的大约15100张图片 。 这些图片涵盖了一系列场景 , 从运动到度假 , 再到美食摄影等等 。
【DeepTech深科技|图像注释AI比人类更精确?微软新算法刷新图像注释基准测试纪录】研究人员测试了该算法为这些图片创建注释的能力 , 并与人工生成的图片注释做了对比 。
DeepTech深科技|图像注释AI比人类更精确?微软新算法刷新图像注释基准测试纪录
文章图片
图|新算法创建的替代文本示例 。 (来源:微软)
但是 , 需要注意的是 , 此次nocaps基准测试只涉及了复杂图像注释一般任务中的一小部分图片 。 微软在一份新闻稿中声称 , 它的新算法“能像人一样描述图片” , 事实上 , 只有在处理nocaps中一小部分图片时 , 它才达到了这些效果 。
“性能在nocaps上超越人类 , 并不意味着图像注释难题已经解决了”
正如nocaps基准测试的创建者之一HarshAgrawal说的那样:“该算法性能在nocaps上超越人类 , 并不意味着图片注释难题已经解决 。 ”Argawal指出 , 在nocaps上测试性能的指标“仅与人类大致相关” , 而基准测试本身“仅涵盖所有可视化概念的一小部分” 。
Argawal认为 , 与大多数基准测试一样 , nocaps基准只能表示算法在任务中的性能的一个粗略指标 , 在nocaps上有超越人类的表现 , 并不意味着AI系统在图像理解上超越人类 。