30分贝精准拾音，90分贝超强降噪，谛听表现不输国际语音巨头( 二 ) 【新智元导读】你能想象的到

在模拟30分贝悄悄话的场景下，森海塞尔拾音稳定，内容清晰，舒尔拾取的声音非常小且难以分辨说话内容，讯飞的谛听系列产品拾取的内容清晰，且音质听感较好。

文章插图
接着，评测者又分别模拟了环境噪音为70分贝和90分贝的情况，结果显示即使是90分贝的极端噪音环境，谛听都能有效抑制，对话内容依旧清晰。

文章插图
谛听系列产品的出色表现，离不开科大讯飞21年来始终如一地对源头核心技术的自主创新。
2018年至今，科大讯飞已获得30项人工智能国际竞赛的冠军，涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等诸多领域。
今年7月，在DCASE 2020挑战赛的声音事件定位与检测任务中，科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室摘得桂冠。

文章插图
长期以来，拾音器这类专业语音设备一直被海外品牌所占据，实现源头可控意义重大。
科大讯飞作为智能语音行业的佼佼者，一直坚信「中文语音技术应由中国人做到最好」，讯飞谛听或许正是其20多年专注于源头核心技术的最佳体现。
除了语音的精准拾取和噪声抑制，讯飞拾音硬件还可以与其相关谈话系统结合，赋能于政法、交通、安防等特殊场景和关键部位，实现说话人分离。
该技术可以将自然交谈或者会议场景中的多个说话人自动区分开并转写记录，使得音频、文字的利用更便捷高效。

文章插图
融合了精准拾音、深度降噪和说话人分离等先进技术的谛听，将为更多使用场景带来全新的畅想空间。
配备谛听的安防设备不光有了摄像头这个鹰眼，还长了「顺风耳」，视频无法捕捉的情景，谛听可以听到，语音和视频被有机的结合起来，再也不用对着「默片」猜唇语、对口语了。对于安防领域来说，将会是一个巨大的革新。

文章插图
谛听听到的是声音，而声音最能体现人的情绪，结合视频中的图像行为判断，音视频多模态智能对群体性和违规事件可以有很好的预警，单视频采集的视野盲点也可以得到有效补位。
未来，谛听不仅仅停留于前端，还将成为链接各种智能图像、视频应用的纽带。
据了解，科大讯飞拾音产品已经广泛应用于公安、检察院、法院等政法系统以及智慧园区、智慧交通的建设中，让城市能更好的「倾听」每一个角落的声音。
根据艾瑞咨询的数据， 2018年中国智能语音市场解决方案形式业务规模达到了33亿，预计2022年将超过100亿。

文章插图
【30分贝精准拾音，90分贝超强降噪，谛听表现不输国际语音巨头】以谛听为代表的智能语音技术突破性的进展，为AI应用带来了新的机遇，音频、视频与文本的结合，也让智能语音成功出圈，跟图像和文本一起，走向更通用的智能。