DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一( 二 )


DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

----DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一//----


DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

----DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一//----

本次声学场景识别任务 , 涵盖机场、室内购物、地铁站台、街道行人、公共广场等10个通用声学场景 。 在现实生活中 , 这些通用声学场景 , 通常同时存在多个声音 , 并且会被环境噪声干扰 。 此次任务 , 通过研究来识别真实场景的声音场景和声音事件 , 对于让声音场景识别应用落地具有重要意义 。

声学场景识别就是利用机器学习模仿人脑 , 对周边的环境进行有效及时的判断 。 随着深度学习的高度演化 , 声学场景识别的正确率有了飞跃提升 。 高识别率的场景识别系统则更进一步扩大其在生活中的应用场景 。 如智能“婴儿哭声”监控 , 可以有效帮助父母及时照看突然惊醒孩子 , “枪声场景检测”可以应用在各类安防设备上 , “鸟类啼叫场景”检测可以有效监测自然界生态的变化 , “马路上警笛场景”检测可提醒路行人及车辆让出交通空间 , “地铁”场景检测和“睡眠质量监测”等 。


DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

----DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一//----

现实生活中的声学场景识别应用

实际上 , DCASE2020的声学场景识别任务 , 与多媒体实验室自研的音视频实时通信产品——“腾讯会议”中的声学场景识别落地应用最为贴近 。 基于领先的腾讯天籁音频解决方案 , 腾讯会议可以让不同地点、场景、设备终端同时远程接入 , 让远程在线沟通可行高效 。 但由于不同入会者处的场景环境千变万化 , 或在安静办公室 , 或在嘈杂的公共场所 , 不同场景需要对音频流进行不同处理 。 如会议入会方检测到街道环境 , 需要对风声和交通噪音进行处理;如在开重要会议 , 如果某参会方所处嘈杂声学场景并忘记关闭麦克风 , 系统可提醒主持人或自动禁止嘈杂端麦克风;如检测到音乐场景 , 则不启动降噪算法 , 保证音乐可以高质量的传输到对端;如检测到漏回声场景 , 特别是一些移动端设备大音量外放声音时 , 可以开启残留回声消除算法 。


DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

----DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一//----

实时音视频通信中的声学场景识别应用

DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一。作为腾讯顶级的科技实验室之一 , 腾讯多媒体实验室将继续致力于端到端实时语音通信、音频引擎、音频处理、音频场景事件检测识别等业界领先的人人通信基础理论 , 加大在关键技术和应用系统的研究和开发的投入 , 提供基于云和客户端的多种行业解决方案 , 让声学场景识别更广泛落地应用 。