DARPA利用“我的世界”游戏训练AI

据美媒2020年8月报道 , 美国国防高级研究计划局(DARPA)启动了自适应分布式概率任务分配(ADAPT)项目 , 通过高速处理快速变化的战场空间中的数据和改善人类和人工智能代理之间的合作 , 协助指挥官进行决策 。 该项目的承包商Aptima公司正利用世界上最受欢迎的游戏“我的世界”(Minecraft)来训练人工智能与人类的互动能力 。 ADAPT是DARPA在指挥控制领域建立下一代人工智能能力的一次新的尝试 。
自适应分布式概率任务分配(ADAPT)项目
据美媒8月17日新闻报道 , DARPA与Aptima公司及其合作伙伴亚利桑那州立大学签署了名为自适应分布式概率任务分配(Adaptive Distributed Allocation of Probabilistic Tasks , ADAPT)项目的合同 , 以开发与人类合作、学习和互动的新一代人工智能(AI) 。
人类擅长相互学习 , 但能够处理的信息很有限;而人工智能拥有令人难以置信的计算能力 , 如果能够向人类学习并与人类交流 , 就能够在动态的团队场景中发挥更大的作用 。 ADAPT项目致力于将人类与人工智能的优势结合起来 , 通过高速处理快速变化的战场空间中的数据 , 利用人工智能提升指挥官在快速变化、信息密集环境中的专业技能和决策能力 , 使指挥官在考虑未来可能性的同时能够快速反应并适应环境变化 。
ADAPT开发的高级人工智能代理能够向其人类同行学习 , 考虑人类的目标、偏好和限制 , 为人类收集和分析大量数据 , 根据任务的发展来动态预测、创建和调整行动计划或重新配置资产 。 例如 , 在搜索和救援场景中 , ADAPT高级人工智能模型和代理会考虑数百万种可能的场景 , 以便指挥官选择最佳方案 , 最大限度地减少伤亡和风险 。
和大多数DARPA项目一样 , ADAPT是试图孕育新工具的一种尝试 。 ADAPT工具可能是一个运行在班长平板电脑上的程序 , 也可能在更高指挥级别的作战人员中应用 。 有了这种人工智能工具 , 指挥官可以了解自己部队的倾向和优势 , 根据记录在案的证据 , 在战斗中充分利用并发挥人的潜力 。
Aptima公司的ADAPT项目经理Adam Fouse博士说:“ADAPT将在人类与人工智能协作方面迈出重要的一步 , 使作战人员和智能技术能够协同推理和工作 , 所做出的决策无论在质量和速度上都将优于人类和人工智能任何一方单独所做出的决策 。 ”
利用“我的世界”训练人工智能向人类学习
为了探索ADAPT所需要的人机协作能力 , Aptima公司选择“我的世界”(Minecraft)游戏来训练人工智能与人类沟通 , 使人工智能在一个没有伤亡风险的环境中练习如何与人类一起协同工作 。
DARPA利用“我的世界”游戏训练AI文章插图
图1 “我的世界”游戏界面(一)
DARPA利用“我的世界”游戏训练AI文章插图
图2 “我的世界”游戏界面(二)
“我的世界”游戏并不预先设定目标 , 仅有的两个模式是“生存”和“创造” 。 在“生存模式”中 , 玩家要造好房子并收集东西 , 保证活下来 , 即使是用来击退僵尸和蜘蛛的剑也需要玩家用木材和铁矿来锻造 。 “创造”模式更加自由 , 玩家使用各种功能的立方体 , 自由构建建筑物和物体 , 玩家可以及时获得游戏中出现的所有种类的方块 , 而且游戏永远不会结束 。
“我的世界”面世10年 , 已经成为世界上最受欢迎的一款游戏 , 被许多玩家形容为电子版的乐高 。 2019年5月 , 微软宣布“我的世界”销量达到1.76亿份 , 超过《俄罗斯方块》成为销量最高的游戏 。 (关于“我的世界”介绍内容源自“界面新闻”公众号《<我的世界>十岁了:它如何改变了游戏和现实?》)
Aptima公司选择“我的世界”游戏作为训练环境的原因有2个:一是许多用于构建“我的世界”的代码库都是开源的 , 所以人们可以很容易修改 。 因此 , Aptima公司通过在“我的世界”中插入一个自定义的人工智能游戏角色来进行训练;二是该游戏允许研究人员记录和学习人们是如何一起完成任务的 , 然后观察他们将如何与人工智能代理一起工作 。 通过这款游戏 , 人工智能能够看到与它共事的人是如何作战并进行调整的 。 基于这些观察到的知识 , 再加上不断接触执行这些任务的人类 , 人工智能将能够指派人类和人工智能代理执行他们最适合的任务 。
如果人工智能能够在虚拟环境中预测人类的行动 , 并据此制定计划 , 那么它将在战场上成为人类指挥官的一个非常有价值的助手 。 它将使指挥官更好地理解人类团队甚至机器团队如何为一项任务做好最佳准备 , 并据此制定计划 。