你知道神经符号人工智能吗？( 三 ) 几年前

该团队通过使用一系列大量卷积神经网络解决了第一个问题。卷积神经网络是一种为图像识别优化的深度神经网络。在这种情况下，每个网络都被训练来检查图像并识别物体及其属性，如颜色、形状和类型（金属或橡胶）。
文章插图
循环神经网络
对于第二个问题，研究人员使用了一种被称为循环神经网络的东西。这是另一种深层神经网络，被设计用来揭示顺序输入的模式。例如，语音就是一种顺序信息，像苹果的Siri这样的语音识别程序使用的就是循环神经网络。在这种情况下，网络接受一个问题并将其转换为符号程序形式的查询。循环网络的输出也被用来决定哪个卷积网络的任务是查看图像和以什么顺序执行。整个过程类似于根据需要生成知识库，然后让推理引擎在知识库上运行查询来推理和回答问题。
研究人员使用来自CLEVR数据集的问题-答案训练这个神经符号人工智能，让它学会如何从图像中识别物体和它们的属性，以及如何正确处理问题。然后，他们使用一些新问题来测试训练结果。总的来说，其准确率为98.9% ，这甚至超过了人类。人类对同样问题的准确率只有92.6% 。
文章插图
值得注意的是，这种训练只需要普通纯深度神经网络所需训练数据的10% 。事实上，当一般的深度神经网络在解决一个问题时，它需要在一大片潜在的方案中寻找正确的解决方案。这需要大量有标签的训练数据。但如果有符号人工智能的帮助，它会缩小搜索解决方案的搜索范围，从而加快了学习速度。
更复杂的挑战这个系统的另一个优势是如果发生了错误，人们很容易看到哪里出了问题。来自伦敦谷歌DeepMind的团队成员普希米·科利说：“你可以检查哪个模块工作不正常，需要纠正。 ”例如，调试器可以随时检查知识库或处理过的问题，看看人工智能在干什么。
现在，这种混合人工智能正在解决一些棘手的问题。 2019年，科利和麻省理工学院、哈佛大学和IBM的研究人员设计了一个更复杂的挑战：人工智能必须基于视频而不是图像回答问题。这些视频以CLEVR数据集中出现的物体类型为特色，但不同的是，这些物体都在移动，甚至发生碰撞。
文章插图
而且，人工智能需要回答的问题更难。这些问题有些是描述性的，比如“视频结束时有多少金属物体在移动?”；有些需要预测，比如“接下来会发生什么事件?是绿色的圆柱体和球体发生碰撞还是绿色的圆柱体与立方体碰撞” 。
科利说，对于擅长于发现数据中静态模式的深度神经网络来说，对随时间变化的事物进行这种因果关系和反事实推理即使不是完全不可能，也是极其困难的。
为了解决这个问题，团队要求人工智能对CLEVR数据库进行预处理。首先，深度神经网络要学会将视频剪辑成一帧一帧的对象。这些信息随后被传送到另一个神经网络，这个神经网络将学习分析这些物体的运动以及它们之间是如何相互作用的，并且预测物体的运动和碰撞。之后这两个模块一起生成一个新的知识库。
文章插图
根据一项测试，这个系统在回答描述性问题时的准确率约为88% ，预测性问题约为83% ，反事实性问题约为74% 。对于其他人来说，改进这些结果的挑战是存在的。
《战舰》游戏，提出好问题问出好问题是人工智能需要具备的另一项技能。人类，甚至是儿童，都很擅长提出好问题。 “这是一种持续了解世界的方法，而不必在那里等待无数的例子自己出现。 ”纽约大学的莱克说。 “在提出问题方面，任何机器都比不上人类。 ”而神经符号人工智能正逐渐显示出这方面专长。