机器人|视觉语言导航:造就高智商机器人


_本文原题:视觉语言导航:造就高智商机器人

机器人|视觉语言导航:造就高智商机器人
本文插图
视觉语言导航技术的发展 , 让人工智能离“像人类一样”更近了一步 。
有专家这样说 , 人类开发人工智能的未来目标 , 如同现在科幻电影所呈现的场景一样 , 智能机器可以独立“看、听、思、行” , 具备像人类一样的语言理解系统、视觉感知系统、自我理解与行动的能力 , 最终成为人类的完美“替身” 。
如今 , 世界科技飞速发展 , 视觉语言导航技术日臻成熟 , 高智商的机器人正向我们走来 。
视觉语言导航 , 指的是让智能体跟着自然语言指令进行导航 , 同时理解指令与视角中可以看见的图像信息 , 然后在环境中对自身所处状态加以调整、修复 , 做出对应的动作 , 最终到达目标位置 。 比如 , 我们把机器人放置在一间卧室里 , 让它去取放在另一间卧室里的足球 。 因为房间无法通视 , 机器人需要走出房间 , 经过走廊、客厅等场所 , 并通过推算看到的每一处环境信息 , 来判定下一步行进方向 , 最终定位找到足球 。
由此可见 , 视觉语言导航涉及计算机视觉、自然语言处理和自主学习三大核心技术 。
先进的科技成果往往备受军事领域的青睐 。 世界许多国家已开始致力于视觉语言导航在人工智能上的拓展运用 , 打造智能战争机器 , 抢占打赢明天战争的前沿高地 。
计算机视觉 , 让智能机器“看清”世界
计算机视觉是一个跨领域的交叉学科 , 包括计算机科学、数学、工程学、物理学、生物学和心理学等 。
在人工智能里 , 计算机视觉可以类比人类的眼睛 , 是在感知层上最为重要的核心技术之一 。 它能让智能机器人灵敏地辨识“眼”前的一切 , 并对捕捉到的图像数据信息进行分析识别、检测、跟踪等 。 嵌入计算机视觉技术的智能武器 , 可以通过视觉系统 , 精准辨识和区分目标的主次、真伪 , 大大提升作战效率 。
据悉 , 现在技术人员读取由无人机传回的战场态势数据 , 每天的工作时间要超过10个小时 。 这与瞬息万变的未来战场不相适应 。 然而 , 当计算机视觉技术应用于战场智能侦察装备前端时 , 可从海量信息中有效过滤无关信息 , 向作战人员提供甄别处理后的视觉态势图 , 指挥决策效率随之提升 。
当前 , 世界发达国家的部分装备已经开始应用该项技术 。 如美军搭载计算机视觉技术的iRobot侦察机器人 , 就是其中之一 。 它可以警告作战人员有伏击或其他危险 , 经过处理的态势感知 , 能够明确指出目标坐标 , 或提示危险等级 。 该侦察机器人还可准确传回有价值的态势视频与相关建议指令 , 缩短己方在战场上的决策周期 , 从而把握行动优势 。
近年来 , 俄军也在大力开发人工智能系统 。 其自主研制的陆战机器人 , 可在遥控下完成巡逻、侦察、追踪、阻截、攻击等任务;形似军犬、快速奔跑的机器人 , 可供火线运输弹药给养;铲车式机器人 , 可将战场上的伤员用铲斗送回后方等 。 俄军部分导弹也已装有人工智能设备 , 在导弹飞向预定目标时 , 若人工智能设备在途中甄别出价值更大的目标 , 导弹可自动转向进行攻击 。 在这些先进的武器中 , 都能看到计算机视觉的影子 。
在民用领域 , 计算机视觉技术已陆续应用到安防、自动驾驶、医疗、消费等活动中 。 这也是当前人工智能细分领域中发展最快、应用最广、炙手可热的技术之一 。
随着算法的更迭、硬件算力的升级、数据的大爆发 , 以及5G带来的高速网络 , 无论在民用领域还是军用领域 , 计算机视觉技术的应用将会有更大的空间 。
自然语言处理 , 让智能机器“听懂”指令
简单地说 , 自然语言处理就是用计算机来处理、理解以及运用人类语言(如中文、英文等) , 它属于人工智能的一个分支 , 是计算机科学与语言学的交叉学科 , 又常被称为计算语言学 。分页标题
自然语言处理的历史发展大致经历了3个阶段:20世纪40年代到20世纪50年代属于萌芽期 , 英国科学家艾伦·麦席森·图灵的计算机算法模型为现代计算机科学奠定了基础;20世纪60年代到20世纪80年代属于发展期 , 机器翻译技术日渐成熟 , 并被应用于实际生活;20世纪90年代后属于繁盛期 , 随着计算机计算量、计算速度以及万维网的爆炸式发展 , 自然语言处理技术也随之在更多方面得到长足进步 。
众所周知 , 语言是人类区别于其他动物的根本标志之一 , 没有语言 , 人类的思维也就无从谈起 。 所以 , 自然语言处理技术体现了人工智能的最高任务与境界 。 也就是说 , 只有当智能机器具备了处理自然语言的能力 , 才算实现了真正的智能 。 这样 , 人类才能与机器人进行无障碍语言沟通 。
如今 , 自然语言处理在军事上的应用越来越多 。 比如 , 在指挥控制上 , 通过高辨识度的语音系统 , 指挥员可以在作战中直接用语音实时控制雷达、无线电、火力等作战单元 , 省去繁琐的指挥流程 , 集中精力专注于作战谋划;在通信保障上 , 语音增强技术能够减弱噪声对智能机器语音信号的干扰 , 减少听话人的疲劳和沟通失误;在人机交互上 , 典型代表是人机口语对话系统 , 人类通过自然口语与复杂的智能机器系统进行交互 , 包括语音识别、语言理解、语言生成、语音合成、对话管理和知识库等 。
提起“台风”战斗机 , 相信军迷们都不会陌生 。 它是由英国、德国、西班牙、意大利联合研发的 , 最大的技术亮点是搭载了直接语音输入系统 , 飞行员可以通过语音下达命令 , 控制战机的传感器、武器以及自卫系统 。
除此之外 , 自然语言处理在不少国家的医学、互联网监控、执法部门的犯罪预防以及大数据反恐应用等领域也很受欢迎 , 极大地提升了任务执行效率 。
自主学习 , 让智能机器“蜕变”成长
婴儿刚出生时 , 只会用眼神、哭泣、欢笑与周围的人交流 。 随着一天天长大 , 他们不断扩大接触观察范围 , 学会了走路、说话、做游戏等 , 慢慢建立起自己的思维体系 。 这就是人类的一个自我学习成长过程 。 人类大脑拥有860亿个神经元、数万亿个传递信息的结构——神经突触 。 神经突触的重要特征是具有可塑性 , 即允许神经元对记忆进行编码、学习和自我修复 。
人工智能的自主学习技术 , 就是让机器人像拥有人类大脑、甚至超越人类大脑一样 , 可以通过思考学习实现自我完善 。 在很多人眼里 , 自主学习能力是人工智能与人类智能的天然鸿沟 。 当前 , 伴随该项技术的发展 , 这一鸿沟正在被逐渐填平 。
2019年11月 , 在捷克布拉格召开的第二届计算机视觉与模式识别国际会议上 , 评分第一的论文主要贡献就是为智能机器提供了自主学习反馈机制 , 让其自主导航时能够实时询问自己的知识储备 。
“这条路对吗?”“到目的地了吗?”……拥有学习反馈机制的智能机器 , 根据预设环境信息与实际对比 , 在行动过程中形成“是非”观念 , 让智能机器真正变成有思想的“机器人” 。
究其根本 , 智能机器“是非观”的形成 , 离不开强化学习 , 这种学习方式是当今人工智能最热门的研究领域之一 。
说到这里 , 我们不能不提无师自通的“围棋高手”阿尔法元(AlphaGoZero) , 它的一鸣惊人也正是利用了新的强化学习方式 。 从一个对围棋“零”储备的神经网络开始 , 接着与强大的搜索算法相结合 , 神经网络在博弈中不断被调整更新后 , 与搜索算法再次重新组合 , 循环往复 , 系统性能经过每一次迭代持续提高 , 使得神经网络预测越来越精准 , 阿尔法元也拥有了“战无不胜”的本领 。 可以说 , 它也让人工智能离“像人类一样”更近了一步 。
如果把自主学习技术应用于军事无人装备上 , 并按照战斗力水平划分等级 , 那么自主学习级和智能对抗级应该属于“王者”级别 。 自主学习级 , 就是不再局限于人为提供的学习样本 , 可以边执行任务边组织学习 , 并且遇强更强 , 灵活应对任务过程中出现的未知事件;智能对抗级 , 是指无人装备在具备自主学习智能水平的基础上 , 形成自身的核心价值 , 能够短时间内适应未知的任务环境 , 迅速理解周围局势并做出判断 , 完成作战任务 。分页标题
【机器人|视觉语言导航:造就高智商机器人】从近几年的技术突破来看 , 智能机器感知环境、识别语言、自主学习的能力越来越强大 。 这些能力的提升 , 不仅使智能机器成为人类分担任务的得力帮手 , 也或将让它成为未来战场的主角 。