中年科大讯飞DCASE挑战赛夺冠,“A.I.+工业”前景广阔
【中年科大讯飞DCASE挑战赛夺冠,“A.I.+工业”前景广阔】
***讯 (采访人员/陈伟峰)近日 , 科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在声音事件定位与检测(Sound Event Localization and Detection , Task 3)任务中摘得桂冠 。
在DCASE 2020挑战赛的Task3任务中 , 科大讯飞-中科大联合团队脱颖而出 , 在声音事件检测F-score、检测错误率、定位错误率三项指标中均取得较大优势并最终夺冠 。
本文插图
科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在Task3任务中夺冠(截图来源:DCASE挑战赛官方网站)
这意味着 , 科大讯飞在人工智能领域尤其是声音定位与检测技术上又有了长足进展 , 这也为实现“声学照相机”和“工业听诊器”等“A.I.+工业”的应用场景落地提供了强而有力的技术支撑 。
攻克两大难关夺得冠军
DCASE挑战赛是由IEEE(Institute of Electrical and Electronics Engineers)举办的声音场景识别和事件检测竞赛 , 自2013年组织发起以来 , 至今已举办了六届 , 是目前声音事件领域最权威的竞赛 。
本届DCASE 2020挑战赛 , 共设置了六个任务 , 吸引了包括亚马逊、英特尔、三星、索尼等国际公司和清华大学、新加坡南洋理工大学、香港中文大学、英国萨里大学等顶级高校在内的共138支队伍、473个有效系统参赛 。
本次科大讯飞-中科大联合团队参加的声音事件定位与检测任务(Task 3)要求对一段音频内发生的声音事件进行准确的时间点检测、事件类型分类与方位角定位 。
这就要求系统不仅要检测出每一帧的声音 , 还需要给出对应声音的空间位置 。 如下图 , 在1秒到3秒检测到钢琴声 , 位于水平角15°、高度角20°处 。
这个任务的最大难点在于声源的位置是快速变化的 , 并且存在很多相似声音 , 比如敲门声与脚步声、警报声与手机铃声等 , 还伴有一定的混响与噪声 。
本文插图
(Task 3任务中科大讯飞-中科大联合团队对声音事件的检测结果)
面对这一难题 , 科大讯飞和中科大联合团队拿出了两个“杀手锏”:一个是“声音事件空间位置仿真算法” , 通过模拟不同空间位置的声音 , 训练模型 , 提升深度学习模型对声音空间位置的适应能力 , 从而让模型具备举一反三的能力;另一个是“序列区分性训练法” , 通过对相似声音事件进行更精细化的建模 , 有效提升了易混淆声音事件的检测准确率 。
比赛结果显示 , 联合团队在检测“有没有声音”(声音事件检测F-score)、“有什么样的声音”(检测错误率)、“声音在哪个方位”(定位错误率)这三项指标上获得优秀成绩 , 并最终夺冠 。
“工业听诊”应用前景广阔
有了A.I. , 工业界的“医生”也能随时随地为机器“望闻问切” , 通过机器发出的声音辨别机器是否质量合格、是否可以正常工作 。 声音定位与检测技术日趋成熟 , 也为行业带来广阔的应用前景 。
基于领先的声音事件定位和检测技术 , 科大讯飞已经研发出“声学照相机”和“工业听诊器”等产品 , 并陆续在电力、水利、轨道交通、汽车制造等行业领域发挥效用 。
其中 , 讯飞声学照相机可以利用高精度麦克风阵列技术定位声源位置 , 再配合摄像头 , 实现可以直接在设备上看到声源位置 , 方便工作人员的日常设备检修 。 目前 , 讯飞声学照相机已陆续在国内多个地区、项目中进行试点和应用 。
- 中年美国寸土寸金,为何要在纽约建立林则徐广场?原因很简单
- 中年北斗系统发言人答封面新闻:北斗定位精度最好可达1点几米
- 中年检测设备行业政策及环境
- 中年元春回府省亲为何会在夜晚进行?原来其中大有文章
- 中年北斗三号全球服务可用性达99%以上,全球范围定位精度优于10米
- 锁定|起底电信诈骗“杀猪盘”:锁定中年女性,先培养感情再骗钱
- 中年做了几道硬菜,孩子们的胃口很大,可以无限量地吃
- 中年你吃火锅,我吃火锅底料——做的川味慢烤牛肋排
- 教育|每一位中年女性,都是“乘风破浪的姐姐”
- 时尚@人到中年,一味扮嫩早就行不通了,这几个颜色才时尚高级