算法|如何将RTC中基于AI的音频算法有效的产品化( 三 )
【 算法|如何将RTC中基于AI的音频算法有效的产品化】
文章插图
再来看一个例子,这个是一个声音的场景检测分类。刚才现场也有朋友提到过,如果回声消除里是音乐声怎么办?如果是场景检测的话,我们会有一个Music Detection,如果检测出是音乐类的场景,我们会有另外的一套机制来处理。例如我们NS中有一套对于音乐声的标准,最直观的就是弱处理,还可以通过NLP里面的一些相应的处理方式;第二个就是我们简单对Noise 进行分类,然后对应刚才提到的Noise Model的Training。比如说我们可以分类检测出现在平稳噪声是什么类型的平稳噪声,或者是检测出现一些非平稳的噪声的类型,我们会有针对不同噪声的预训练的Model,可以结合不同场景优化NS;第三个场景是针对底噪的估计,底噪是一个比较严重的问题,特别是在会议场景,开放的办公环境下。那么应该如何来估计底噪?因为底噪较常见的是平稳的噪声,如果我们有一个Noise Detection来辅助,底噪估计的准确性会大幅提高,对系统来说是一个整体的优化。在这里我列出了场景检测的三种不同形式,虽然场景检测是一个很小的模块,是原本不属于例如RTC的3A算法、长链路中的模板,是额外附加的子模块。但当我们有了这个模块后,可能会有更多的东西和更多的应用场景可以来优化我们的3A算法中的各个模块。
示例三:波到达方向估计
文章插图
Direction of Arrival-DOA,
在现在的RTC中,DOA一般会搭载着Beamforming和Microphone Array
如图中Demo所示,使用的是圆阵,有八个麦克风,一般对应的是会议室的场景,大家可能会比较容易联想到类似形状的麦克风,或者是八爪鱼的形状的麦克风。除了这种形式之外,还有一些平板的电视一般是线阵的,也同样是阵列的麦克风。它是通过阵列麦克风形成不同的Beam,然后通过DOA来选择Active Speaker 是在哪个Beam上,并且增强它的SNR,而其它噪声的因为在旁瓣上,就会被自然地抑制掉。而且Beamforming是一个线性的,不存在非线性的失帧。
关于DOA, 其实传统算法有GCC-PHAT和SRP等,是高精度的,能够从数学上精确判断具体的多少度。
但在实际的场景中beamforming自己有宽度,一般我们会做二十多度,或者是十五度,相邻的beam会有一些重叠,其实我们不需要那么高的精度。现在有一个方法就是通过Beam Selection直接去判断应该选择哪个Beam。DOA会多出来这样的一个分支,在这个分支上有很多传统的算法。我自己在这方面也进行了很多的研究,比如在Beam的能量上,哪个能量大我就用哪个。我自己也提出过两个方法,都是关于频域信息提取的,但是后面通过对于传统算法和DNN算法的比较和研究,尝试了通过CNN、RNN或者CNN结合一些之前帧的信息的方式,也用不同的feature,lost function,基本上大部分的效果都会比传统的方法要好很多,包括一些轻量级的一些网络。
未来展望
TITTLES
文章插图
刚才我们讲了几个例子,其实在整个的模块化当中还会有很多的一些其它小的子模块,可以拿出来,不仅限于之前提到的那些。比如说我们最近研究的AEC中的NLP(非线性处理)模块中,尝试的结合BSS的方法,比如ICA。ICA中有一些子模块可以提取出来,做一些AI 的Training,这个也是我们目前认为比较可行的路,从结果上来看效果都会比之前的好很多。
对于未来,分享开始的时候我们就提到了Tsahi的预测,未来可能会有更多的AI算法融合进来,未来的爆发点可能是更先进的神经网络模型,更高效的GPU,但是有一项关键点不会变,会一直被需要,那就是数据。
文章插图
数据目前我们可以大致分为几个部分,比如Open Source,在学术界大家会分享,会推动整体的进程,可能会有第三方公司提供一些数据,同时我们自己可能也会收集一些数据。现在网易云信在做的就是针对很不同的NS场景进行AI的降噪,这一部分噪声对于我们而言其实是比较难寻找到的,尤其是前两个途径中。一是因为这些噪声本来就会很特别,Open Source很有限。如果和第三方合作,我们是考虑到验证和收集的过程中会有很多沟通成本。所以我们大部分都是自己收集的。自己收集就需要有自己的一些基础设备,可能会要求有自己的消声室,自己的录音棚环境,还有一些工具:人工头、人工嘴来播放,还需要一些收集的设备,比如标准麦克风等。还需要很多其他配套的自动化工具,比如Labeling的工具。目前我们网易云信已经配备了全套工具和环境,我们现在已经自己采集了很多数据集,并且应用到了我们AI算法中。
- 空调|让格力、海尔都担忧,中国取暖“新潮物”强势来袭,空调将成闲置品?
- 采用|消息称一加9系列将推出三款新机,新增一加9E
- 美国|英国媒体惊叹:165个国家采用北斗将GPS替代,连美国也不例外?
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 页面|如何简单、快速制作流程图?上班族的画图技巧get
- 逛逛|淘宝内容化再升级:“买家秀”变身“逛逛”试图冲破算法局限
- 培育|跨境电商人才如何培育,长沙有“谱”了
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 荣耀V30|麒麟990+40W快充,昔日猛将彻底沦为清仓价?网友:太遗憾
- 抖音小店|抖音进军电商,短视频的商业模式与变现,创业者该如何抓住机遇?