Alexa首席科学家：图灵测试对AI没啥意义了近日

近日，亚马逊副总裁兼 Alexa 首席科学家 Rohit Prasad 在《快公司》上发表了文章（原文链接在最后），做出了一项大胆的表态：图灵测试已经失去了意义，是时候建立一个新的 AI 衡量标准了。
【Alexa首席科学家：图灵测试对AI没啥意义了】“机器能否思考？”这是加密学和人工智能先驱阿兰·图灵在70年前论文 Computing Machinery and Intelligence 的核心问题。他在论文中提出了一个思想实验，叫做“模仿游戏”(imitation game) ，用于检测计算机是否能表现出与人等价或无法区分的智能。
测试的内容，简单来说是这样的：如果一个测试者对无法确认身份的两个对象（一人、一机器）提出相同的一系列问题，得到的答案让他无法区分究竟谁是机器，谁是人，那么则认定机器通过图灵测试。当然在实际中测试规则更加复杂，比如需要引入更多的测试者等等。
这个思想实验被后人归纳为图灵测试，也成为了衡量人工智能的“智能性”的最常用标准。 “机器能否思考”这个问题，也横跨了一整个世纪，指导了后世的计算机和人工智能技术革新。
文章插图
但为什么在今天，有人要站出来说图灵测试已经失去意义？
首先， Prasad 指出，图灵在他的论文中就曾经预测，到2000年，一个普通人能够在图灵测试中正确区分出人和机器的可能性将降到70%甚至更低。然而现在2021年都快要来了，虽然我们经常看到“某 AI 通过了图灵测试，分数取得新高”之类的报道，图灵当年的预测并没有应验。
（所以也可以说， AI 研究者们让图灵老爷子失望了……）
AI 研究者们也有话要说：你们能不能别光看图灵测试了？那完全没有意义啊！
图灵测试无法体现AI进步Prasad 表示，自己相信图灵当年提出的这个目标对于像他这样的 AI 科学家来说，并不是很有意义。 AI 派上更大用场的地方是植入到手机、汽车和家里，人们更关心的是 AI 能够带来哪些更新的交互体验和技术进步，而不是通过测试的分数有多高。
从根本上，强行追求机器和人类无差别的概念，已经过时了。
机器和人有着天生的差别。人能够随机应变，举一反三，都是机器普遍缺乏的能力。但机器也有它的长处，也就是快速计算和信息查询的能力远强于人类，而 Prasad 指出正是这些能力构成了现代 AI 的核心。
计算机不如人类的地方，它用自己的长处去弥补，也能够取得不错的结果。我们已经看到，在诸如视觉、自然语言处理等领域，最强的算法已经取得远超人类的结果。
很多 AI 科学家都发现，其实让 AI 在图灵测试里取得更好成绩，要做的很简单，只是让计算机给出的答案尽量像人的答案就行了。比如在回答时插入停顿，优化语法等等。
正如刚才提到的，计算机的长处就是快速计算和信息查询。这些毫无难度的问题，计算机不到一秒钟就已计算出或者查到答案。只是回答的如果慢一点，甚至故意答错，也许就通过测试了……Prasad 认为，图灵测试所追求的，并非对 AI 长处的最佳利用。 AI 明明可以被用来做更多的事情去帮助人类，为何还要限制自己，去强行追求和人无差别呢？
以及，图灵测试在这么多年里都是基于文本的，而机器学习各领域的技术进步已经让 AI 在视觉、听觉、多传感器融合、决策规划等诸多方面取得了长足发展。一个最经典的例子就是以 AlphaGo 为代表的，足以在各种高难度博弈项目上击败最顶级人类选手的AI 。这些重大进展，很难在一成不变的图灵测试当中得到体现。
新的衡量标准应该如何设计？有了前面这些铺垫， Prasad 进一步指出，新的衡量标准应该体现机器在效率上的优势，比如计算、搜索、代人完成任务等等，综合评价 AI 对人类智能带来的帮助，而不是执迷于抹平 AI 和人的区别。