当人工智能和儿童狭路相逢,谁探索新环境能力更强?


【当人工智能和儿童狭路相逢,谁探索新环境能力更强?】
当人工智能和儿童狭路相逢,谁探索新环境能力更强?
本文插图
投稿来源:陈根
?我们已知探索未知环境是人类行为的关键特征 , 而与成年人相比 , 儿童进行探索的频率更高 。 这样的探索可以帮助儿童学习周围环境 , 获得更多的知识 。 而这种能从抽象环境中综合学习的能力 , 未来或许能让人工智能受益 。
日前 , 全球最受瞩目的人工智能公司DeepMind就联合美国加州大学伯克利分校做了一项研究 , 研究人员比较了儿童和人工智能了解世界的方式 , 并将研究结果发布在网络上 。
论文称 , 这项研究的目的是希望了解儿童探索学习的行为 , 从而缩小人工智能和人类在获得新能力方面的鸿沟 。 比如 , 这有可能可以帮助机器人在拾取和包装数百种不同类型的产品时 , 还能避免各种障碍 。
从过往的儿童行为研究中 , 我们已经了解到学龄前儿童完全可以自主在玩耍的过程中习得玩具是如何工作的 , 例如根据颜色确定积木的作用 , 然后儿童可以总结理论推断出新玩具或新积木的玩法 。 对于人工智能来说 , 它拥有近似的能力和适应性 , 但需要人为监督和干预 。
论文采用的方法结合了在DeepMind实验室里的实验设置 , 其中包括针对人工智能的导航和难题解决任务 。 这些任务需要人工智能具备物理或空间导航技能 。 在实验设置中 , 允许孩子通过自定义控制与DeepMind实验室进行交互 。 这个控制器包括前进、后退、左移和右转四个动作 。
另一边 , 在加州大学伯克利分校的实验室中 , 研究人员则试图确定两件事:在未知环境 , 儿童的探索行为是否存在差异;以及与人工智能相比 , 儿童是否更容易适应一组特定的场景 。
在一项测试中 , 孩子需要完成两个迷宫 , 一个接一个 , 两个迷宫布局相同 。 孩子们在第一个迷宫中自由探索 , 但需要在第二个迷宫中找到橡皮糖 。
研究人员表示 , 在“无目标状态”的第一个迷宫中 , 孩子们的策略与人工智能领域里的深度优先搜索策略(DFS)相似 , 会沿着未走过的路径一直前进 , 直到达到死胡同 , 然后转向来探索他们看到的最后一条路径 。
而在第二个目标条件的迷宫中 , 儿童做出的选择与DFS一致的时间为89.61% 。 相比同龄孩子 , 对环境探索更少的孩子花费的时间更长 , 平均需要95步 , 而探索更多的孩子则只需要66步就找到了橡皮糖 。
团队指出 , 这些行为与用于训练的人工智能则相反 , 人工智能的选择通常都非常偶然 , 它们通常会偶然发现一个区域很有趣 , 然后鼓励自己一直重新访问该区域 , 直到自己认为这个区域变得不再有趣为止 。 研究发现 , 与小孩掉未来探索更感兴趣相比 , 人工智能更喜欢追溯过去的行为 。
研究中的另一项测试是告诉4-6岁的孩子分三个阶段完成两个迷宫 。 第一阶段里 , 孩子们可探索迷宫 , 其中包括有无目标探索 , 有目标且没有立即奖励探索以及有目标并有奖励的密集探索 。
在第二阶段 , 孩子们的任务是再次寻找目标项目 , 该目标项目与探索期间的位置相同 。 在最后阶段 , 要求他们找到目标项目 , 但完成目标的最佳途径受阻 。
研究人员称 , 初步数据表明 , 在奖励密集的情况下 , 儿童探索区域的可能性较小 。 但是 , 缺乏探索性并不会伤害儿童在最后阶段的表现 。 对于人工智能而言 , 情况并非如此 , 通常 , 丰厚的奖励会使人工智能缺乏去探索的积极性并导致概括能力不佳 。
人工智能与儿童的比较为现阶段的人工智能研究提供了新思路 , 即可以帮助研究人员识别在哪些领域里 , 人工智能和孩子采取了相似的行动 , 以及在哪些领域里 , 他们没有采取相似行动 。
当然 , 这项研究仅是儿童和人工智能在探索方面的初始研究 , 比较人工智能与儿童探索新环境的研究 , 直观地展现了当下人工智能的技术水平并能量化与所期目标的差距 , 扬人工智能之所长 , 避之其所短 。