人机对战又添新领域:这篇论文让机器在「你画我猜」中击败你


机器之心报道
SketchX 实验室
「你画我猜」是一种广泛流传在不同文化中的人类通识游戏 , 其形式简单但高度体现人类的认知智慧 。 近日一篇被计算机图形学顶会 SIGGRAPH ASIA 2020 接收的论文提出了一种基于草图的生成优化方法 。 在给定一个视觉概念的前提下 , 相较于人类竞争者 , 该模型能够以相似或更快的速度实现可识别的草图渲染 。
人机对战又添新领域:这篇论文让机器在「你画我猜」中击败你
本文插图
近几十年来 , AI 在越来越多的游戏中逐渐达到了能够与人类同台竞技的水平 。 从 1997 年在国际象棋比赛中胜出的 Deep Blue 到 2011 年在电视智力竞赛项目 Jeopardy 中大放异彩的 IBM Watson , 从 2013 年 DeepMind 开发的能够胜任各种 Atari 小游戏的程序到 2016 年所向披靡战胜职业围棋选手的 AlphaGo 。 至少对于公众来说 , 每一个实例都把技术的突破和抽象计算的进步变成了一场具有观赏性的运动 。
在这样的背景下 , AI 能在你画我猜(Pictionary)游戏中表现优异的消息也就没有那么令人难以置信了 。 Pictionary 是一个受猜字游戏启发的游戏 , 需要一个人粗略地勾勒出视觉画像 , 其他人则试图以最快的速度猜出他/她画的是什么 。 这正是英国萨里大学 SketchX 实验室的研究人员近期的研究成果:一种对速度敏感并以竞争驱动的草图生成 AI——Pixelor 。 即给定一个视觉概念 , Pixelor 能够像人类竞争者一样快速甚至更快地画出一幅人类和机器均能识别的目标对象草图 。

人机对战又添新领域:这篇论文让机器在「你画我猜」中击败你
本文插图
将现实世界复杂的图像还原成草图 , 是令人印象深刻的 。 这需要很强的抽象能力:把人脸看作一个椭圆形 , 并由两个更小的椭圆形组成眼睛 , 一条弯曲的线段作为鼻子以及一个半圆形去模拟嘴巴 。 这种感知图像的方式通常是孩子们快速发展认知理解能力的重要特征之一 。 然而就像莫拉维克悖论 (Moravec's Paradox) 所总结的那样 , 「对人类十分棘手的问题对计算机来说通常较为简单 , 而对人类来说非常容易的事计算机则极难处理」 。 抽象感知 , 这种看似大多数两岁孩童与生俱来的基本技能 , 对于机器智能来说则是一项巨大的挑战 。
与人类草图相关的计算机视觉工作主要集中于判别性任务的分析 , 包括基于草图的识别 [1]、语义分割 [2]、美化 [3]、3D推理 [4] , 以及在检索框架下与现实图片的联系 [5,6] 。 直至近期在开创性的工作 SketchRNN 中 [7] , AI 首次展示出可以适应不同的风格和抽象水平、并且像人类一样逐笔渲染出可识别草图的能力 。
但这对于 Pixelor 来说仍然是不够的 。 你画我猜是一个竞速类游戏 。 你可能是一个伟大的艺术家 , 但是如果花费 12 个小时去画一只完美的猫 , 那么你将是一个糟糕的你画我猜玩家 。
正如Pixelor工作的通讯作者、来自萨里大学视觉语音和信号处理中心 (CVSSP) 的教授、SketchX实验室主任宋一晢 (Yi-Zhe Song) 所言:「对于Pixelor来说 , 最重要的是推理出哪些是对视觉识别最重要的笔画 , 并保证这些笔画能够被优先尽早地渲染出来 。 我们已经发布了面向公众的Pixelor版本 。 我们希望人类玩家能够击败我们的AI模型 , 甚至通过与AI的博弈来逐渐提高他们的游戏策略并成为更好的你画我猜玩家 。 」
Pixelor 模型做了什么
Pixelor 是通过两阶段的框架来训练的 。
在第一阶段 , 研究人员输入一个给定的训练草图集 , 并将每个个体草图以随机的笔画顺序打乱 , 其目的是希望学习推断出能够最大化该训练集早期识别度的笔画级排序 。 这样做是因为人类数据中的原始排序并不是最优的 , 这也是人类在你画我猜的游戏中会被精心设计训练的 Pixelor 打败的深层原因 。