人工智能|清晰度提升40%,腾讯天籁AI降噪技术为听障者带来福音


9月27日 , 正值国际聋人日之际 , 腾讯多媒体实验室联合腾讯公益慈善基金会、深圳市信息无障碍研究会等机构召开发布会 , 宣布发起“天籁行动” , 面向公益开发者、设备厂商、NGO及行业 , 以API开放的形式 , 免费授权腾讯天籁AI音频技术 。
腾讯高级执行副总裁汤道生表示 , 这项行动旨在帮助听障人群解决“听不清”难题 。 中度听障人士可以借助人工耳蜗获得听力 , 但是受到噪音的影响很难听得清 。 加持天籁技术的人工耳蜗能够将语音的清晰度提升40% , 极大改善听障人士的听觉体验 。

人工智能|清晰度提升40%,腾讯天籁AI降噪技术为听障者带来福音
本文插图
腾讯开放天籁AI降噪技术
一、2780万听障者
根据世界卫生组织数据显示 , 全球约有11亿的12-35岁的年轻人面临听力损失的风险 , 约有3.6亿人患有听力损失的障碍 , 约占世界人口的5% , 他们有不同程度的听力损失 , 过着近乎寂静的生活 。
据第二次全国残疾人抽样调查结果显示 , 我国2780万听力障碍患者 , 居目前我们国家五大类的残疾人群中之首 , 并且每年以两到三万新增儿童在继续增长 。
在这2780万的听障人士里 , 有300多万属于重度耳聋 , 这些聋人只能通过人工耳蜗听到声音 , 将近90%的人群可以通过助听器听到声音 。
【人工智能|清晰度提升40%,腾讯天籁AI降噪技术为听障者带来福音】
人工耳蜗和助听器目前属于相对成熟的技术 , 但是由于费用和服务力弱的原因 , 发达国家只有10%的聋人植入耳蜗 , 发展中国家更少 。 即便是植入耳蜗者 , 由于噪音和频道及音量技术等复杂性 , 实际受益的人数更少 。 不管是人工耳蜗还是助听器 , 降噪对于两款产品极为重要 。
人是信息语言和文化交流的产物 , 听不到外界他人的声音或声音质量不高 , 就会使他们减少接收许多资讯 。 深圳市残联党组书记、理事长侯伊莎在发布会现场说道 , 对听障人士来说 , 他们的社会关系容易出现问题 , 比如受教育的机会和工作的机会相对较少 , 社交及休闲活动也因此会受限 , 这些情况会导致他们的心理问题和其他的社会问题 , 他们可能变得内向 , 不合群 , 缺乏自信 , 焦虑、暴躁等等 。
二、手机伴侣+人工耳蜗
腾讯多媒体实验室是腾讯旗下的音视频通信和处理研发团队 , 专注实时音视频通信、音视频编解码前沿算法研究、音视频国际标准、计算机视觉图像处理、端到端音视频质量评测 。
在发布会现场 , 腾讯多媒体实验室高级总监商世东分享了当初将天籁音频技术与人工耳蜗产品结合的契机 。
现有市场上大部分的人工耳蜗产品 , 听障者在佩戴之后 , 能获得基础的听力 , 但是在某些场景下效果并不理想 。 最突出的是复杂的声学场景下 , 比如商场和机场 , 噪声会导致听力下降 , 这对于人工耳蜗佩戴者的听觉体验和辨识度产生极大的负面影响 。
人工耳蜗虽然小 , 但是面临的挑战巨大 , 因为它能利用的资源非常的有限 。 电脑和手机实现了GHz主频多核架构 , 人工耳蜗由于尺寸限制 , 往往只能有几十MHz的处理能力 。 在这样的处理能力条件下 , 高复杂度的噪声处理成为了业界的难点 。

人工智能|清晰度提升40%,腾讯天籁AI降噪技术为听障者带来福音
本文插图
腾讯多媒体实验室高级总监商世东
基于此 , 商世东和团队萌生了通过AI算法改善听障人群听觉体验的想法 , 并找到了国内最大的人工耳蜗厂商之一——诺尔康(Nurotron) , 双方一起讨论在当前人工耳蜗软硬件局限条件下的解决方案 , 经过长达半年的技术验证 , 从架构上最终确定了“手机伴侣+人工耳蜗”的联合解决方案 。
在手机上 , 通过手机强大的语音处理和采集能力 , 可以对采集到的语音进行场景识别和场景有针对性的降噪和增量处理 。 针对处理过的语音 , 通过有线或者无线的方式发送到人工耳蜗 , 人工耳蜗可以进一步刺激相应的听觉神经 , 有效的改善听觉体验的效果 。分页标题
针对噪声消除 , 腾讯多媒体实验室融合了经典的数字信号处理按和深度学习的技术 。 经典的数字信号处理在处理平稳噪声上有独特的优势 , 同时计算复杂度比较低 。 但是对于日常生活中的非平稳噪声往往力不从心 。
而深度学习技术有非常优秀的特征建模能力 , 可以针对日常生活当中的各种噪声进行准确的建模 , 从而非常有效的移除生活中突发的噪声 。
但是深度学习的缺点往往在于运算量复杂 , 所以为了进一步降低运算复杂度 , 腾讯多媒体实验室采用了多种辅助训练方法 , 并把训练后的模型进一步量化处理 , 把运算复杂度有效降低 , 解决了低功耗的手机终端上运行降噪处理的难题 。
商世东表示 , 整个处理过程中 , 他们针对人工耳蜗用户常见的4类声学场景 , 在业界首次采用了基于深度学习的残差网络结构 , 在多尺度和多级别的网络架构环境之下 , 对收集到的带噪语音进一步处理 。
多尺度的架构可以帮助有效区分4类声学场景 , 而多级别的网络架构可以进一步帮助区分易于混淆的带噪语言的场景 。 经过这样的处理 , 并进行4千多小时各种场景的噪声的数据训练 , 该网络总体上取得了96.2%的场景识别准确率 , 为进一步的增强和语音处理奠定了基础 。
考虑到手机上多麦克风的节奏 , 腾讯多媒体实验室采用了以前在雷达以及智能天线领域使用的技术 , 以辅助降噪和语音的正常处理 , 有效对特定方向的语音进行针对性的加强 , 同时滤除非特定方向的干扰人声以及环境噪声 。 雷锋网
商世东表示 , 经过多种技术的整合和处理 , 他们有效提升了听障人士在各种沟通场景之下的效率 , 很好的帮助消除听障人士不想听到的声音 , 将语音的清晰度提升40% 。 雷锋网
据诺尔康实验检测数据显示 , 天籁技术与人工耳蜗结合后 , 语音识别性能大幅提升 , 平均识别率达到96.28% , 其中带噪语音识别率为93.38% , 环境噪音中声音识别率达到94.24%;在手机App中植入天籁技术 , 手机双麦阵列降噪的信噪比提升 20dB , MOS分提升了0.3-0.5 , 对于改善听障人群听觉体验有着积极效果 。 雷锋网