多人说话时自动分离语音 谷歌发布逆天深度学习模型
在一段音频中消除背景噪音,让人的语音更清晰已经是十分成熟的技术。然后谷歌这次把人声处理提升到了一个新高度:在多人同时说话的视频中屏蔽其他人语音,只播放一个人的语音。(文中图片于Google Research Blog)
Google Research Blog在4月11日发布了一篇图/文/视频并茂的文章概述了这项叫“Audio-Visual Speech Separation(音频视觉分离)”的深度学习技术。
在一段音频中消除背景噪音,让人的语音更清晰已经是十分成熟的技术。然后谷歌这次把人声处理提升到了一个新高度:在多人同时说话的视频中屏蔽...
为了达到预想的效果,研究人员先人工分离了10万个不同视频中人的语音。研究人员把这些语音和相对应的人说话时面部动作,以及背景噪音交给了一个基于多串流卷积神经网络的深度学习模型。该模型通过这些数据自主学习,最终获得了音频视觉分离的能力。
在一段音频中消除背景噪音,让人的语音更清晰已经是十分成熟的技术。然后谷歌这次把人声处理提升到了一个新高度:在多人同时说话的视频中屏蔽...
谷歌给出了几个视频例子,可以听出该模型的音频分离非常准确清晰。如果这项技术继续发展,我们很可能会能在公共场合监控视频里分离并加强人群中一个人的语音。这可以被利用于犯罪侦查与反恐,但也有潜力变成窥探个人隐私的隐患。或者该技术也能帮手机智能助手更好地分辨出主人的声音。
本文编辑:张哲
关注泡泡网,畅享科技生活。
- 买房像买白菜一样!专家提醒泡沫正走向破灭,许多人却意识不到
- 购房者迎来福音,买房时代来了,许多人相信,房价要回归理性!
- 房地产行业没有输家,越来越多人买房到底赚了谁的钱?
- 黄毅清微博没有爆料娱乐圈反而谈创业,网友称他这回说话有道理!
- 我们玩了2小时《战地5》多人模式 伞兵的一万种死法
- 它不仅是治疗失眠的良药,还有很多人不知道的神奇功效!
- 很多人都想把庭院变成花园,却无从下手,那么不妨试试爬藤植物
- 谁来“拯救”国内自主汽车自动变速器产业?| 中国汽车报
- 在此次调控下,炒房已成最危险的行业,然而很多人却没意识到
- 女子结完帐回包厢,看到一群服务员在吃剩饭,女子没说话默默走了