多人说话时自动分离语音谷歌发布逆天深度学习模型在一段音频中消除背景噪音

　　在一段音频中消除背景噪音，让人的语音更清晰已经是十分成熟的技术。然后谷歌这次把人声处理提升到了一个新高度：在多人同时说话的视频中屏蔽其他人语音，只播放一个人的语音。（文中图片于Google Research Blog）

　　Google Research Blog在4月11日发布了一篇图/文/视频并茂的文章概述了这项叫“Audio-Visual Speech Separation(音频视觉分离)”的深度学习技术。

在一段音频中消除背景噪音，让人的语音更清晰已经是十分成熟的技术。然后谷歌这次把人声处理提升到了一个新高度：在多人同时说话的视频中屏蔽...

　　为了达到预想的效果，研究人员先人工分离了10万个不同视频中人的语音。研究人员把这些语音和相对应的人说话时面部动作，以及背景噪音交给了一个基于多串流卷积神经网络的深度学习模型。该模型通过这些数据自主学习，最终获得了音频视觉分离的能力。

　　谷歌给出了几个视频例子，可以听出该模型的音频分离非常准确清晰。如果这项技术继续发展，我们很可能会能在公共场合监控视频里分离并加强人群中一个人的语音。这可以被利用于犯罪侦查与反恐，但也有潜力变成窥探个人隐私的隐患。或者该技术也能帮手机智能助手更好地分辨出主人的声音。

本文编辑：张哲

关注泡泡网，畅享科技生活。

多人说话时自动分离语音 谷歌发布逆天深度学习模型