『蛋蛋懂车』座舱还能怎么玩？多模态交互的现在与未来( 二 ) 【编者按】国内外汽车人机交互已进入语

总体上讲，国内业界常见的落地项目多数还只是打通了语音和触摸，其他模态并没有大规模普及。而语音交互也仍处于普及初级阶段。
按照高工智能汽车研究院发布的《2020年一季度数字座舱及车联功能前装搭载报告》显示，今年一季度，国内自主及合资品牌搭载语音车型上险量占比为55.48% ，其中具备自然语言理解交互的不到五成。
此外，从功能看，车内语音交互正在从信息娱乐向车身控制与车外场景联动的方向延伸，语音技术和车机协议、车内生态正在逐渐打通。
然而，语音作为多模态交互最主要的组成部分，依然存在种种缺陷。上到主动交互，多轮对话，下到基础识别与抗噪等各种功能的提升上，还处于难题破解的阶段。
张人杰认为，目前最具可行性现实的方案就是把触摸和语音的多轮对话相结合，这也是在目前唯一做到可实际大规模量产的项目。
总而言之，虽然结合语音、触摸、视觉、手势等感知的多模态技术已初步具备量产条件，但要达到理想的用户体验，依然有很长的路要走。二、理想的人机交互是什么样人机交互分为两个境界：一是机器识别人类已发出的指令并完成工作；二是机器能够在人类发出指令之前，读懂人的心思并预测指令内容，主动完成工作。两种境界中，多模态深度语义理解是关键。
未动科技CEO孙铮认为，多模态交互的最终形态是车载智能助理：人机共驾感知成为新的HMI输入，车辆可在上车-行驶-下车的整个用车周期中，为驾乘人主动提供场景化的服务，实现机器自主/半自主决策。
从驾乘体验来看，消费者不再希望车只是一个代步工具，而是一个作为人机交互、满足娱乐需求、办公需求的个性化移动空间，同时车辆需要具备“感知”人、“理解”人的能力，从而为行车过程提供舒适智能的体验。
而提升用户体验的核心是做到更精准的感知。机器需要非常精确地理解人的意图，才能够实现更精准的交互。作为生活在移动互联网时代的广大用户，也会因为车辆交互体验逐步向IT领域对齐，而产生亲切感，进而产生购买欲望。
数据表明，中国消费者对数字座舱类体验的支付意愿较高。根据《中国消费者共享汽车使用情况调查》，近50%的消费者对具备智能化感知交互的汽车表示具有强烈兴趣和支付意愿。
不过，交互的设计离不开场景。在不同场景下，用户需求也大相径庭，因此基于场景的用户交互逻辑设计至关重要。
而当前被业界津津乐道的手势控制是否真的可以被消费者接受？张人杰提出了质疑， “这有待于做进一步的用户调研。 ”
例如最早搭载于宝马7系的手势交互看起来非常高大上，但实际遭到了不少吐槽。在业内人士看来，这种功能只是展现了一种技术实现的可能性，但真正给用户带来的体验方面的升级并不大。
张人杰认为，交互的逻辑层面实际上囊括了心理学的话题。 “车厂需要弄明白，把如此多的技术集合在一起是否真的是用户想要的。 ”然而，很多车机的设计并没有真正站在车主的角度考虑，而是一味地闭门造车。
“比如车载导航为什么没人用？当车机在导航的同时播放了音乐，导航声音一出现，音乐声就会减弱，用户体验就很差。 ”张人杰强调，以用户需求为引导来开发交互逻辑才是最重要的。
除了多做用户调研，深刻了解用户需求，厂商也要分析技术的可行性：多模态交互将多轮交流分摊给了不同模态的方案去承担，而不仅仅是语音。但轮次越多，缓存的东西就越多，对于系统存储的开销、算力来讲都是很大的挑战。
由此来看，交互逻辑和技术亟需达成平衡。产品经理在设计交互的同时也要考虑到实际的系统开销是否可以承受这种多轮交互对于存储、算力的需求。
孙铮认为，触屏、语音、手势、视觉等交互设计需要扬长避短。例如触屏交互要避免行车中的分心。视觉、手势等需要克服误触发。