DeepTech深科技|图像注释AI比人类更精确？微软新算法刷新图像注释基准测试纪录今年9月

今年9月，微软在一篇论文中描述了一种新的图片注释算法。微软表示，其开发的新算法在某些特定的测试中，精确度超过了人类。
目前，该AI系统已被用于更新微软为视障人士设计的助手应用程序“SeeingAI” ，并将很快被整合到Word、Outlook和PowerPoint等微软其他产品中。届时，它将用于为图像创建替代文本（alt-text）之类的任务。这个功能对于提高可访问性特别重要。

文章图片
图｜开发人员Florianbeijingers正在使用“SeeingAI” ，微软图片注释算法将被用于改进该类应用。（来源:微软/MauriceJager）
微软人工智能团队的软件工程经理SaqibShaikh在一份新闻声明中说：“理想情况下，所有人都应该为文件、网络和社交媒体中的图片添加替代文本，只有这样，才能使盲人能够理解具体内容并参与对话。但是，现在人们并没有做到这一点。所以，我们迫切需要一些应用程序来为图片添加替代文本。 ”
新算法性能是之前的两倍
这些应用程序包括微软在2017年首次发布的SeeingAI 。它使用计算机视觉技术，通过智能手机摄像头为视障人士描述世界。它不仅能识别家用物品、描述场景，还能扫描文本或帮助阅读，甚至能识别朋友。它还可以用于描述其他应用程序中的图片，例如电子邮件、社交媒体等。
微软没有透露使用SeeingAI的用户数量，但AzureAI公司副总裁埃里克·博伊德（EricBoyd）在采访中表示，这款软件是“为盲人或弱视人士提供的先进应用之一” 。 SeeingAI已经连续三年被盲人和弱视人士iOS用户社区AppleVis评为最佳辅助应用。
微软的新图像注释算法将显著提高SeeingAI的性能，因为它不仅能够识别物体，还能更精确地描述它们之间的关系。因此，算法可以在处理图片时，不仅知道其中包含哪些物品和对象（例如，一个人，一把椅子，一个手风琴”），还能知道它们是如何交互的（例如， “一个人坐在椅子上弹奏手风琴”）。微软表示，该算法性能比2015年开始使用的上一代算法好两倍。
微软团队在在9月份发表的一篇预印本论文中对该算法进行了描述，它在一项名为“nocaps”的图像注释基准测试中获得了有史以来的最高分数。 “nocaps”是业内领先的图片注释测试，当然，它有自己的限制条件。
nocaps基准测试由超过16600条人工生成的图片注释组成，这些注释描述了来自开放图像数据库的大约15100张图片。这些图片涵盖了一系列场景，从运动到度假，再到美食摄影等等。
【DeepTech深科技|图像注释AI比人类更精确？微软新算法刷新图像注释基准测试纪录】研究人员测试了该算法为这些图片创建注释的能力，并与人工生成的图片注释做了对比。

文章图片
图|新算法创建的替代文本示例。（来源：微软）
但是，需要注意的是，此次nocaps基准测试只涉及了复杂图像注释一般任务中的一小部分图片。微软在一份新闻稿中声称，它的新算法“能像人一样描述图片” ，事实上，只有在处理nocaps中一小部分图片时，它才达到了这些效果。
“性能在nocaps上超越人类，并不意味着图像注释难题已经解决了”
正如nocaps基准测试的创建者之一HarshAgrawal说的那样：“该算法性能在nocaps上超越人类，并不意味着图片注释难题已经解决。 ”Argawal指出，在nocaps上测试性能的指标“仅与人类大致相关” ，而基准测试本身“仅涵盖所有可视化概念的一小部分” 。
Argawal认为，与大多数基准测试一样， nocaps基准只能表示算法在任务中的性能的一个粗略指标，在nocaps上有超越人类的表现，并不意味着AI系统在图像理解上超越人类。