实现高流畅的跨语言交互体验,36氪首发 | 时空壶

36氪近日获悉,AI智能翻译硬件研发商「时空壶」获得东方富海管理的国家中小企业发展基金数千万A轮独家融资。
使用不同语言的谈话人各自佩戴好一枚翻译耳机,随着自然流畅的谈话互动不断开展,耳机同步生成同声传译。这已非科幻元素,而是时空壶最新产品W3人工智能翻译耳机的真实使用情景。
时空壶于2016年设立,主要结合智能硬件及AI人工智能技术,开发AI翻译智能硬件产品。
市场上AI翻译智能设备品类众多,比如智能手机搭载的各项AI智能翻译App、AI语音巨头科大讯飞不断迭代优化的翻译机等。其中,AI翻译耳机是各厂家试图提供更好体验的普遍尝试。
科大讯飞2017年便发布了AI翻译TWS耳机莫比斯,随后投资了同声翻译耳机制造商Sweetalk。百度的小度智能翻译TWS耳机、谷歌的Pixel Buds和Waverlylabs Ambassador也是市场上知名度较高的产品。
“但是完全自然流畅的跨语言对话体验,目前时空壶的W3耳机是走在前沿的。”时空壶创始人田力向36氪介绍道。
目前,市场上AI同声翻译耳机或可对谈话某方单向进行声音翻译播报、并通过智能设备向另一方进行翻译回复的文字显示;或可做到谈话双方同时佩戴耳机听取对方的翻译播报,但是只支持对话回合制,发言、翻译、再发言之间必须遵循严格的时间先后次序。
时空壶W3耳机在双人同声互译方面,突破了对话回合制的限制,这使得边说边听、打断争论、适时插入补充等自然对话中常见的人类互动都得以发生,对话体验高度流畅。
AI智能翻译耳机,需要同时具备硬件工业设计、语音降噪处理解决方案、通信传输方案及后端AI语音识别、翻译能力等复杂生产要素,是复杂性较高的消费电子产品。
时空壶主要切入由硬件+降噪+通信+引擎对接构成的前端交互体验解决方案;其后端AI语音识别及翻译等处理能力主要与外部来自于各个国家和地区第三方AI引擎合作,通过良好的引擎匹配对接,保证产品的翻译准确性由领域最前沿的AI基础设施所支撑。
时空壶W3耳机的流畅对话体验,主要基于语音降噪处理解决方案及通信传输方案上的技术能力。
W3耳机的矢量降噪技术,是双麦克风阵列降噪技术的较前沿方案。耳机双麦克风一般最基础的线性降噪方式,主要是基于耳机顶端及底部麦克风分别接受到的环境噪音相似、而接收到说话人声波信号强度差异大,进而取得环境噪音样本使得抵消环境噪音成为可能。
时空壶自研矢量降噪算法,通过声波到达麦克风阵列的阵元时间差可以估算音源角度,根据麦克风阵列收到声波信号的幅度差可估算声源距离,更精准锁定音源位置,并摒除范围以外的环境噪音。当中存在的复杂互相关性与空间混叠计算,使得相关算法的准确性存在不低的技术壁垒。精准消除对方声音,为多人语音识别提供了基础。
一人佩戴一枚耳机边说边听,意味着需要实现声音采录和声音播报独立工作。研发商需要在嵌入式端做深入的软件协议修改,从而使得耳机固件可实现多通路通信协议、让不同信号在多条独立通路上各自跑。此外,耳机麦克风采集说话者音源信号后,如何实现编码压缩后的高传输速度、解压解码后的低损耗,均需要研发商不断地进行技术改良。
仅仅依靠良好的降噪及通信传输方案,无法形成较好的AI引擎语音识别的初始素材。因此,时空壶同时在手机端部署神经网络算法,在智能摘录及断句方面对语音素材进行初步整合,提高AI引擎的识别率。
后端的AI引擎对接匹配也存在较大量的研发工作。由于不同AI引擎的逻辑均存在差别,引擎对接需要研发商理解不同引擎的组件,分别对不同引擎进行开发调试,匹配完成后再接入软件端的流式翻译和双向翻译。此外,研发商还需根据用户的地理位置调配最佳的服务器,这个过程涉及位置判定和服务器的大量指令交互。
目前,时空壶W3耳机支持支持40语言、93种口音两两互译。
除了双人同传模式,时空壶W3耳机支撑最多6人的双语互译,但由于多人会议需要有主麦角色保证会议秩序及体验,且多人混合发言对多人语音降噪提出更高技术要求,因此目前暂仅支持对话回合制。后续随着边缘计算逐步解放本地算力,会议在线人数可大幅增多。
时空壶目前大约9成销售于海外实现,其中在美国亚马逊翻译耳机品类排名第一。除了常规的旅游及商务跨语言交流场景,随着销售规模不断扩大,时空壶开始得到更多用户反馈,并逐渐洞察出翻译耳机的多种细分场景。比如境内外籍人士聚居区域的政府基层单位在日常行政中的跨语言交流场景,以及境外专业人士为当地非英语移民的跨语言服务场景。