Alexa首席科学家:图灵测试对AI没啥意义了

近日 , 亚马逊副总裁兼 Alexa 首席科学家 Rohit Prasad 在《快公司》上发表了文章(原文链接在最后) , 做出了一项大胆的表态:图灵测试已经失去了意义 , 是时候建立一个新的 AI 衡量标准了 。
【Alexa首席科学家:图灵测试对AI没啥意义了】“机器能否思考?”这是加密学和人工智能先驱阿兰·图灵在70年前论文 Computing Machinery and Intelligence 的核心问题 。 他在论文中提出了一个思想实验 , 叫做“模仿游戏”(imitation game) , 用于检测计算机是否能表现出与人等价或无法区分的智能 。
测试的内容 , 简单来说是这样的:如果一个测试者对无法确认身份的两个对象(一人、一机器)提出相同的一系列问题 , 得到的答案让他无法区分究竟谁是机器 , 谁是人 , 那么则认定机器通过图灵测试 。 当然在实际中测试规则更加复杂 , 比如需要引入更多的测试者等等 。
这个思想实验被后人归纳为图灵测试 , 也成为了衡量人工智能的“智能性”的最常用标准 。 “机器能否思考”这个问题 , 也横跨了一整个世纪 , 指导了后世的计算机和人工智能技术革新 。
Alexa首席科学家:图灵测试对AI没啥意义了文章插图
但为什么在今天 , 有人要站出来说图灵测试已经失去意义?
首先 , Prasad 指出 , 图灵在他的论文中就曾经预测 , 到2000年 , 一个普通人能够在图灵测试中正确区分出人和机器的可能性将降到70%甚至更低 。 然而现在2021年都快要来了 , 虽然我们经常看到“某 AI 通过了图灵测试 , 分数取得新高”之类的报道 , 图灵当年的预测并没有应验 。
(所以也可以说 , AI 研究者们让图灵老爷子失望了……)
AI 研究者们也有话要说:你们能不能别光看图灵测试了?那完全没有意义啊!
图灵测试无法体现AI进步Prasad 表示 , 自己相信图灵当年提出的这个目标对于像他这样的 AI 科学家来说 , 并不是很有意义 。 AI 派上更大用场的地方是植入到手机、汽车和家里 , 人们更关心的是 AI 能够带来哪些更新的交互体验和技术进步 , 而不是通过测试的分数有多高 。
从根本上 , 强行追求机器和人类无差别的概念 , 已经过时了 。
机器和人有着天生的差别 。 人能够随机应变 , 举一反三 , 都是机器普遍缺乏的能力 。 但机器也有它的长处 , 也就是快速计算和信息查询的能力远强于人类 , 而 Prasad 指出正是这些能力构成了现代 AI 的核心 。
计算机不如人类的地方 , 它用自己的长处去弥补 , 也能够取得不错的结果 。 我们已经看到 , 在诸如视觉、自然语言处理等领域 , 最强的算法已经取得远超人类的结果 。
很多 AI 科学家都发现 , 其实让 AI 在图灵测试里取得更好成绩 , 要做的很简单 , 只是让计算机给出的答案尽量像人的答案就行了 。 比如在回答时插入停顿 , 优化语法等等 。
正如刚才提到的 , 计算机的长处就是快速计算和信息查询 。 这些毫无难度的问题 , 计算机不到一秒钟就已计算出或者查到答案 。 只是回答的如果慢一点 , 甚至故意答错 , 也许就通过测试了……Prasad 认为 , 图灵测试所追求的 , 并非对 AI 长处的最佳利用 。 AI 明明可以被用来做更多的事情去帮助人类 , 为何还要限制自己 , 去强行追求和人无差别呢?
以及 , 图灵测试在这么多年里都是基于文本的 , 而机器学习各领域的技术进步已经让 AI 在视觉、听觉、多传感器融合、决策规划等诸多方面取得了长足发展 。 一个最经典的例子就是以 AlphaGo 为代表的 , 足以在各种高难度博弈项目上击败最顶级人类选手的AI 。 这些重大进展 , 很难在一成不变的图灵测试当中得到体现 。
新的衡量标准应该如何设计?有了前面这些铺垫 , Prasad 进一步指出 , 新的衡量标准应该体现机器在效率上的优势 , 比如计算、搜索、代人完成任务等等 , 综合评价 AI 对人类智能带来的帮助 , 而不是执迷于抹平 AI 和人的区别 。