门罗专访|智能交互未来一定是多模态融合——盛开互动CEO曾祥永博相比传统单一的交互模式

日前，苹果发布的iPhone X手机让人脸识别技术大火，你的微信与微博肯定也被各种段子刷屏了。那么，人脸识别在国内的应用情况怎样？在门罗公园重点关注的科技企业中，北京盛开互动是一家在业内颇具实力的企业。他们自主研发了一个可以识别人脸、物体等2000类常见物品与100种常见场景的人工智能平台——SKEye。

那该平台在智能硬件与智能机器人上的应用情况怎么样？国内的计算机视觉类创业公司需要注意些什么？门罗公园记者带着不少疑惑拜访了盛开互动的CEO曾祥永博士，请他为大家做了一些分享。

北京盛开互动科技有限公司CEO曾祥永博士

曾祥永博士从事计算机视觉与智能交互技术研发应用十余年，主要研究关于面向智能产品和智能应用的视觉识别开放平台。

门罗公园：曾博士，您好！可以向读者朋友们介绍一下，贵公司的视觉识别技术在机器人上的应用情况吗？

曾祥永：您好，门罗公园的读者朋友们好！盛开团队在视觉识别与智能交互领域深耕超过15年，在传统机器学习和深度学习技术方面都有较为丰富的积淀。我们也是国内率先把人脸识别、表情分析、手势跟踪、运动分析及图像识别等视觉交互技术应用到体感游戏和娱乐体验的团队。

阿U幻镜

2015年，我们开始将视觉技术应用于儿童智能硬件与智能机器人。例如我们为儿童智能硬件产品“阿U幻镜”提供了涂鸦画、任意画、字母识别、数字识别、七巧板识别、卡片识别、绘本识别及实物识别等全套图像识别算法。此外，我们还针对其硬件性能与应用场景做了特别的算法优化，能在限定条件下流畅与稳定地运行，产品的用户体验也取得了非常好的反馈。

阿U兔机器人

在儿童智能机器人方面，我们深度参与了机器人阿U兔（原名阿U兔智）的研发，为其提供了包括离线人脸识别、常见物体识别及整套交互系统，让这款产品成为具备“认人识物”视觉能力的家庭机器人。

2016年下半年，我们开始把盛开视觉识别SDK与API提供给数十个家服务机器人行业的企业进行测试与评估。目前已有三十余款智能产品在接入试用与正式应用，其中包括康力优蓝的小优、智能管家的布丁豆豆、雷动云合的雷大白、上海元趣的好儿优、深圳锐曼的小曼、深圳大愚的大力、南京阿凡达的i宝等家庭陪伴与教育机器人，还包括康力优蓝的优友、进化者的小胖、木爷的酷奇、众德迪克的阿兰以及卡雷尔、欢乐飞等商用服务机器人。此外，还有多款移动应用和微信公众号也接入了盛开人脸和物体识别技术。

应用案例

门罗公园：我们知道盛开互动自主研发了人工智能开放平台——SKEye，它有哪些优势？在机器人上的表现如何？接下来会有怎样的升级迭代？

曾祥永：2016年5月，我们正式向外推出SKEye人工智能开放平台，聚焦生活场景与终端应用，针对智能交互实现了包括人脸检测、人脸识别、人脸分析及物体（2000类生活常见物品）与场景（100种常见场景）等目标的实时识别，赋予了各种智能交互产品与应用终端的视觉能力。

SKEye聚焦“人机交互”，核心优势在于可用、易用、精准快速。通过多平台SDK与API，支持多种硬件（ARM /X86）和系统（Andriod/Linux/ Windows），能够提供友好的接入服务。

大家知道，视觉技术正在越来越多地应用到各个不同的领域，例如工业、安防、监控、金融、医疗、自动驾驶、无人商超及泛娱乐等。视觉的基础是图像，视觉技术与应用场景及应用目的是强关联的。家用机器人与商用机器人分别服务于家庭和公共场合，在这些小场景或特定场景下，“人机交互”是机器人的首要任务，“身份认证”是次要任务。也就是说“为交互而识别”，而交互的流畅性至关重要。

在人脸识别方面，为了达到“尽量快、足够准、低功耗”的目标，SKEye特别针对基于深度学习的模型大小、计算复杂度、识别率及响应时间进行了优化，推出了可在中低配置的硬件本地实时运行的人脸识别离线SDK。其人脸检测、关键点定位、人脸比对及属性分析全套模型的容量大小在18MB以内。在机器人布丁豆豆（RK3128）、小优（RK3188）等ARM平台上均能实现流畅的多人人脸识别与人脸分析，在雷大白和大力（RK3288）及以上配置上的表现更佳。

布丁豆豆机器人进行多人人脸识别

在物体识别方面，SKEye特别针对生活常见物品进行了深度学习建模。我们通过机器人APP与手机APP不断收集和整理数据，从后台分析用户喜欢拍什么物品或希望机器人能识别什么物品，不断迭代训练识别模型。我们之所以做“常见物品”识别，是为了让机器人具备一定的“视觉常识”，并希望未来所有的机器人都具备这种“常识”。

接下来，我们将持续迭代优化离线人脸识别、常见物品识别以及特殊物品识别的能力，以友好的服务和优惠的价格，服务更多的智能产品和智能应用公司，让小伙伴们的产品都具备更强的视觉智能和视觉常识。

常见物体识别

门罗公园：视觉识别现已广泛应用，那你认为未来智能交互的发展趋势是怎样？

曾祥永：相比传统单一的交互模式，我们更重视多模态融合技术。它融合了视觉、听觉、触觉、嗅觉等多种交互方式，表达效率和表达的信息完整度更高，是智能交互的发展趋势，而且智能交互也是服务机器人场景化不可或缺的环节。在开放式人机交互中，尤其是多轮人机对话，涉及到语音识别、图像识别、语义分析、情感分析、动作捕捉等多个维度时，研发难度就非常大了，目前尚未有很好的成果与应用。而在限定场景的条件下，针对性的研发和应用多模态融合技术，以达到人机交互智能性和体验性显著提升的效果，还是值得期待的！

多模态融合技术

门罗公园：视觉识别是人工智能时代的核心技术之一，国内创业公司的机会如何？你们在市场中是如何保持竞争力？接下来有怎样的战略规划与布局？

曾祥永：近年来，人工智能获得了社会大众的广泛关注，政府也将其提升至国家战略层面。人工智能的快速发展，使得视觉识别技术被广泛应用。除了安防、金融及医疗等“严肃性”应用，还有服务机器人、手机应用及新零售等众多“泛智能”应用。由于中国人口多、市场大，任何一个细分或垂直场景，都有可能做大。所以，国内CV（计算机视觉）类创业公司，只要能够将自身技术与客户数据及应用场景结合好，发展机会还是很大的。

虽然人工智能的发展非常快速，但目前仍处于探索阶段，各个领域的角逐主要还是集中在技术上。而盛开互动的基因是从事“泛智能”领域的技术创新，我们也会不忘初心，坚持视觉识别与智能交互技术的研发，不断努力保持自身在“人机交互”场景中的优势，致力于成为一家领先的和接地气的CV企业。

门罗观点：

视觉识别发展至今，已成为智能交互技术至关重要的部分。盛开互动经过多年的研发沉淀，其核心产品已应用在数十款智能产品上，且已经受住市场和用户的考验。目前，他们还在积极探索研发新的智能交互方式。我们也有理由相信，盛开互动会在接下来的时间里，在努力拓宽各种智能产品的研究范围与应用领域的同时，还将与社会各界共同推动人工智能的发展。

延伸阅读：

盛开互动成立于2005 年，核心团队来自中科院，是国内最早从事智能交互技术研发的企业之一。盛开互动致力于视觉识别和人工智能技术研发，面向智能产品提供视觉感知与系统软件技术服务。它与中科院共建了“智能交互技术实验室”，在人工智能技术与人机交互应用领域具有核心竞争力，拥有数十项专利知识产权。