30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头


30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头文章插图
【新智元导读】你能想象的到 , 连蚊子飞过的声音也可以被录到吗?近期 , 某科技博主的一支关于拾音器的评测中 , 30分贝悄悄话的场景下 , 讯飞的谛听系列产品拾取的内容清晰 , 且音质听感较好 , 表现完全不输国际语音巨头森海塞尔、舒尔等 。 未来 , 谛听不仅仅停留于前端 , 还将成为链接各种智能图像、视频应用的纽带 。
在法力即将耗尽之前 , 身受重伤的海姆达尔使用黑暗魔法将浩克传送回了地球 。
《复仇者联盟3:无限战争》中 , 很多人都对这位彩虹桥的守护神印象深刻 。 作为雷神的好友 , 海姆达尔也在帮助「复联」的过程中被灭霸残忍杀害 。

30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头文章插图
身为守护者 , 海姆达尔拥有极其敏锐的感官 , 他的眼睛可以看清数十亿光年外一只蝴蝶翅膀的振动 。
实际上 , 除了拥有「千里眼」的能力外 , 海姆达尔的听力也非常灵敏 , 据说他的耳朵连草木、羊毛生长的声音也可听到 , 而且日夜不休息也不会疲惫 。

30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头文章插图
海姆达尔这样「神级」的听力固然只存在于神话和科幻故事中 。 但在现实生活中 , 对于声音的高质量拾取需求却是真实存在的 。
例如 , 作为万物互联的入口 , 已经走进千家万户的智能音箱、智能家电等智能语音产品 , 在使用的时候却常常因为距离远或者噪音大等因素 , 效果差强人意 。 唤醒智能语音设备的前端——拾音引擎如果能足够精细 , 也许会绽放更多精彩 。
深耕于人工智能与智能领域多年的科大讯飞近期推出了全新的拾音品牌——谛听 , 据官方介绍 , 结合自主可控的智能语音与人工智能降噪算法 , 可以精准识别低至30分贝的微小声音 , 并且也可以做到7×24小时日夜不休 。
30分贝是什么概念呢?普通人正常说话的音量是50分贝左右 , 一只蚊子飞过的声音大约40分贝 , 也就是说讯飞谛听甚至可以捕捉蚊子飞过的声音 。
运动式瞄准「声源」 , 再小的声音也值得被倾听
谛听是如何长了顺风耳 , 实现「蚊过留声」的?

30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头文章插图
虽然语音识别相关的深度学习已经逐渐成熟 , 在实验室中也取得了不错的效果 , 但是现实中仍然有很多场景 , 语音识别、语音转写的效果差强人意 。
识别的不准 , 转写效果自然不好 , 而识别准确的前提 , 是获得一个高质量的音频 。
通常情况下 , 我们要么改善拾音的环境 , 要么改善拾音设备的性能 。 而拾音的环境是很难控制的 , 因此改善拾音设备的性能就尤为重要 。
往往很多IoT产品只注重更多样化的功能 , 却忽视了最初的原点 。 讯飞谛听能着眼此处 , 未免让人欣慰 。
针对目前拾音市场的痛点 , 讯飞谛听系列配备了32路麦克风 , 可实现7×24小时全天候、全方位、无死角拾音 , 精准拾取低至30分贝的超小音量 。

30分贝精准拾音,90分贝超强降噪,谛听表现不输国际语音巨头文章插图
当然 , 如此精准的拾音除了硬件的支持外 , 还得益于谛听的自动声源定位和自主研发的降噪算法 。
我们知道 , 声音在传播过程中会发生衰减 , 不同方位的声源会导致所拾取语音音量和效果差异较大 , 而谛听采用了全自动声源定位和自适应波束形成技术 , 使得谛听可以轻松拾取运动的声源 。
波束形成技术 , 如同一个枪手 , 可自动「瞄准」运动的声源方位 , 相对于那些需要预设和限制区域才能拾音的设备来说 , 讯飞谛听的优势十分明显 。
拾音准确只是获取纯净语音的第一步 。 现实环境往往更复杂 , 各种干扰噪声不断 , 再加上回波和混响 , 使得语音信号的处理更加困难 , 所以后期降噪也是重要一环 。
面对噪音的挑战 , 讯飞谛听首先通过声音定位技术精准拾取音源 , 进行语音增强实现初步降噪 , 然后通过波束形成和基于深度学习的语音增强算法 , 对非方向性和方向性的噪声进行抑制 , 最后对音量大小自动增益并根据人耳的听觉特点进行优化 , 使输出的声音更加饱满 。
在拾音领域 , 德国的森海塞尔、美国的舒尔都是行业巨头 , 那么 , 讯飞谛听跟它们相比会有什么样的表现呢?
前段时间 , 某科技博主的一支关于拾音器的评测视频引发了大家的关注 , 在和德国森海塞尔、美国舒尔的较量中 , 谛听表现出彩 , 毫不逊色 ,评测频显示: