会议室|科技向善:“打击”超200种噪音,腾讯天籁在行动


会议室|科技向善:“打击”超200种噪音,腾讯天籁在行动
文章插图
作者 | 杨丽
你真得了解视频会议吗?
过去,很多医疗单位、科研院所在苦恼一件事:尽管院方接入或自主开发了一套远程会诊系统,以满足对外远程病患会诊,对内实现医护人员的日常学术交流、专家培训等方面的需要。但他们越来越发现,传统的远程会诊系统往往缺乏多屏互动的协作性,且成本高、不便捷。相比之下,云视频会议软硬一体化解决方案的出现,正悄悄改变着这些曾经让他们所苦恼的事情。
不久前,腾讯会议Rooms产品参与了一个医疗行业展的方案展示。方案中,通过视频会议,我们看到医生与医生之间,患者与医生之间,有了一段非常高质量的线上沟通。
普遍来讲,想要完成一场高质量的云视频会议,多数产品会在网络丢包率上下足功夫,因为丢包往往会直接影响接收端解码出卡顿、不连续的声音或图像。常见的手段,除了优化编解码算法的比拼,还可以利用AI算法还原出图像、声音的本来面貌。目前大量的科研工作投放在这个模块上,并取得了很多阶段性成效。
这一次,腾讯会议旗下腾讯天籁实验室推出的天籁语音模组,则尝试从另一个维度解决问题。
在声音传输之前的一步重要环节,即信源的编码阶段,往往会遇到各种噪音、混响、鸡尾酒环境等声音传播的影响,是否能对信源音频进行更好地“预处理”?
经雷锋网一番探究得知,天籁团队通过技术创新,将多个MEMS麦克风板嵌入到会议大屏等硬件设备上,可实现180度广角、12米超长距离拾音,在双讲、噪声回声消除等方面均有显而易见的突破。
只不过,这款语音模组目前主要应用于腾讯会议Rooms专款机型上,并通过技术授权的方式开放给Rooms专款硬件合作伙伴,已经实现初步量产。
是不是挺香?
量产前的努力
媒体沟通中,腾讯天籁实验室总经理商世东指出,“天籁语音模组希望解决的是,能够在比较复杂、恶劣的声学场景下也能提供一个清晰、流畅、安静的音频体验。”
我们知道,在一般的工程环境中,在相似的问题、场景下使用相似的处理方法,尽管有可能也是来自学界给出的一些非常有效的模型或技术手段,但如果没有能力非常强的开发人员,针对特定问题或场景设计新的模块和环节,很难会得到非常好的效果。
有时候,现实生活中的声学场景远比实验室里的复杂的多。以此次天籁语音模组重点优化的一个声学问题——远程拾音为例。
腾讯会议天籁实验室技术研发专家余涛告诉雷锋网:
“仅靠一个纯粹的语音或音频算法,即便是具备了训练得很强的深度学习模型,想要比较好地解决远场语音的问题还是比较难的。”
在他看来,物理世界中的声音信号受到干扰、衰减的因素是非常多的,因而带来的技术挑战也是成百倍增加的。
“比如噪声问题。通常声音的传播距离增加一倍,能量会衰减6个dB,也就是幅度衰减一半,这导致信噪比的恶劣程度会达到-10、-20的程度,噪声的特性也会发生变化。比如说话人通常所处的会议室空间里,有空调噪声、键盘噪声,是充满整个拾音频带的。不同于具有稀疏性的非平稳噪声,这对远场噪音处理会有非常多的挑战。
同样,很多情况下很多近场语音很多,这就造成了房间的传输函数带来了混响效应;而语音传输到麦克风,直达波也会有变化,比如说话人是侧着说话,或者面对地板说话,没有直达波的触达等等这种情况。”
会议室|科技向善:“打击”超200种噪音,腾讯天籁在行动
文章插图
图:腾讯天籁实验室资深研究员刘成 现场演示
不难发现,天籁团队采用的策略,是从声学层面、硬件设计层面,跟强大的算法能力相结合,综合性提升远场拾音能力。
在面向量产和推进商业化之前,天籁团队已经进行了内外部各种实际场景的测试。
余涛表示,“确实,从实验室里搬出来的黑科技产品,第一次做灰度测试确实面临着很多挑战,随着挑战被持续攻克,最终我们发现至少90%的场景可以做到一个非常好的体验。”
当然,这剩下的10%的场景可能会非常极端。比如有些场景中,尤其是教室、培训室等某些更加开放空间里,一个房间里坐了四、五十个人,技术挑战的量级会呈指数增加。
不做硬件,但重视硬件生态
据余涛向雷锋网透露,“现在与腾讯会议合作的硬件伙伴,已经量产的大屏包括86寸、65寸。其中,65寸是面向中小型会议室,86寸大屏是面向中大型会议室。可以说天籁语音模组已经达到了量产机型的这样一个技术指标。”