会议室|科技向善：“打击”超200种噪音，腾讯天籁在行动四方|supplyfrsdsi|供应链|四方维

文章插图
作者 | 杨丽
你真得了解视频会议吗？
过去，很多医疗单位、科研院所在苦恼一件事：尽管院方接入或自主开发了一套远程会诊系统，以满足对外远程病患会诊，对内实现医护人员的日常学术交流、专家培训等方面的需要。但他们越来越发现，传统的远程会诊系统往往缺乏多屏互动的协作性，且成本高、不便捷。相比之下，云视频会议软硬一体化解决方案的出现，正悄悄改变着这些曾经让他们所苦恼的事情。
不久前，腾讯会议Rooms产品参与了一个医疗行业展的方案展示。方案中，通过视频会议，我们看到医生与医生之间，患者与医生之间，有了一段非常高质量的线上沟通。
普遍来讲，想要完成一场高质量的云视频会议，多数产品会在网络丢包率上下足功夫，因为丢包往往会直接影响接收端解码出卡顿、不连续的声音或图像。常见的手段，除了优化编解码算法的比拼，还可以利用AI算法还原出图像、声音的本来面貌。目前大量的科研工作投放在这个模块上，并取得了很多阶段性成效。
这一次，腾讯会议旗下腾讯天籁实验室推出的天籁语音模组，则尝试从另一个维度解决问题。
在声音传输之前的一步重要环节，即信源的编码阶段，往往会遇到各种噪音、混响、鸡尾酒环境等声音传播的影响，是否能对信源音频进行更好地“预处理”？
经雷锋网一番探究得知，天籁团队通过技术创新，将多个MEMS麦克风板嵌入到会议大屏等硬件设备上，可实现180度广角、12米超长距离拾音，在双讲、噪声回声消除等方面均有显而易见的突破。
只不过，这款语音模组目前主要应用于腾讯会议Rooms专款机型上，并通过技术授权的方式开放给Rooms专款硬件合作伙伴，已经实现初步量产。
是不是挺香？
量产前的努力
媒体沟通中，腾讯天籁实验室总经理商世东指出，“天籁语音模组希望解决的是，能够在比较复杂、恶劣的声学场景下也能提供一个清晰、流畅、安静的音频体验。”
我们知道，在一般的工程环境中，在相似的问题、场景下使用相似的处理方法，尽管有可能也是来自学界给出的一些非常有效的模型或技术手段，但如果没有能力非常强的开发人员，针对特定问题或场景设计新的模块和环节，很难会得到非常好的效果。
有时候，现实生活中的声学场景远比实验室里的复杂的多。以此次天籁语音模组重点优化的一个声学问题——远程拾音为例。
腾讯会议天籁实验室技术研发专家余涛告诉雷锋网：
“仅靠一个纯粹的语音或音频算法，即便是具备了训练得很强的深度学习模型，想要比较好地解决远场语音的问题还是比较难的。”
在他看来，物理世界中的声音信号受到干扰、衰减的因素是非常多的，因而带来的技术挑战也是成百倍增加的。
“比如噪声问题。通常声音的传播距离增加一倍，能量会衰减6个dB，也就是幅度衰减一半，这导致信噪比的恶劣程度会达到-10、-20的程度，噪声的特性也会发生变化。比如说话人通常所处的会议室空间里，有空调噪声、键盘噪声，是充满整个拾音频带的。不同于具有稀疏性的非平稳噪声，这对远场噪音处理会有非常多的挑战。
同样，很多情况下很多近场语音很多，这就造成了房间的传输函数带来了混响效应；而语音传输到麦克风，直达波也会有变化，比如说话人是侧着说话，或者面对地板说话，没有直达波的触达等等这种情况。”

文章插图
图：腾讯天籁实验室资深研究员刘成现场演示
不难发现，天籁团队采用的策略，是从声学层面、硬件设计层面，跟强大的算法能力相结合，综合性提升远场拾音能力。
在面向量产和推进商业化之前，天籁团队已经进行了内外部各种实际场景的测试。
余涛表示，“确实，从实验室里搬出来的黑科技产品，第一次做灰度测试确实面临着很多挑战，随着挑战被持续攻克，最终我们发现至少90%的场景可以做到一个非常好的体验。”
当然，这剩下的10%的场景可能会非常极端。比如有些场景中，尤其是教室、培训室等某些更加开放空间里，一个房间里坐了四、五十个人，技术挑战的量级会呈指数增加。
不做硬件，但重视硬件生态
据余涛向雷锋网透露，“现在与腾讯会议合作的硬件伙伴，已经量产的大屏包括86寸、65寸。其中，65寸是面向中小型会议室，86寸大屏是面向中大型会议室。可以说天籁语音模组已经达到了量产机型的这样一个技术指标。”