米粒创意|科大讯飞终于「独木成林」，十年之后( 二 ) 机器之

报告指出， 2019年中国人工智能开放平台市场规模104亿，预计2020年市场规模可达222亿。 AI开放平台目前处于快速发展阶段，未来将继续保持高速增长。这份报告主要包括以下观点：
1）疫情加速了企业数字化、智能化转型，对AI开放平台形成利好；
2）AI开放平台目前处于快速发展阶段，未来仍将保持高速增长；
3）AI开放平台作为连接市场参与者共创价值的桥梁将成为各技术厂商的必争之地；
4）在AI技术浪潮中需要不断的跨界融合创新与各行业、场景融合，共同赋能传统产业是必由之路。
此外，在昨天的大会上，胡国平宣布「1024计划」迈入4.0时代。

文章图片
2017年，在首届科大讯飞全球1024开发者节，「1024计划」正式推出，聚焦AI教引、AI生态、AI公益三个方面，旨在辅导、赋能开发者，关注公益事业。本次升级将在往年基础上，推出聚焦行业的「先导计划」、赋能线下的「城市计划」和始终坚守初心的「公益计划」。
「先导计划」面向行业需求更新服务体系，以AI生态引领，从产品赋能走向行业赋能，为生态和应用发展提供更契合的动力；「城市计划」将真正走到线下、赋能线下，基于各地产业情况打造专属服务、定制方案；在高校赋能方面，科大讯飞将全新打造AI开发者社区、AI实训营等。
浇灌十年，「AI科技树」终于独木成林
借此机会，我们也看到了这家深耕语音行业多年的中国企业，所取得的最新成绩。
目前讯飞开放平台上已经拥有334项AI产品及方案，链接了230万合作伙伴共建人工智能生态。在未来，如何持续保持语音合成语音识别技术的领先？如何用核心技术更好地助力价值兑现？

文章图片
科大讯飞AI研究院常务副院长刘聪。
在科大讯飞AI研究院常务副院长刘聪看来， AI核心技术的发展和演进，与基础算法、技术体系、场景理解三大关键要素息息相关。
从语音到声音的全场景音频解析
下一个阶段，语音识别技术要达到什么境界？刘聪认为需要持续挑战更加复杂的场景，需要实现从语音到声音，从单纯文字内容识别到音频的全场景解析。
在现实的语音环境中，背景往往是复杂多样的，可能会出现游戏声、笑声、掌声、混叠对话等一系列音效影响到语音识别的精度，当前的框架一般很难解决此类问题。

文章图片
全场景音频解析方案。
在全场景音频解析方案中，科大讯飞首先通过多分辨率特征提取的声音检测事件的方案，再结合序列训练，对一些相似声音进行精细建模，实现笑声、音效等非语音的声音及语音内容的分离。
针对包含语音的有效内容，科大讯飞使用基于富信息的语音降噪和分离方案，综合利用声音、文本、说话、人等信息；并在有条件的情况之下，使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。从效果来看，在直播场景等复杂任务，识别准确率从60%提到了85% 。
这样的成就也是基于科大讯飞多年来在语音技术上的沉淀。今年5月的国际多通道语音分离和识别大赛中，科大讯飞联合中科大语音及语言信息处理国家工程实验室在给定说话人边界的多通道语音识别两个参赛任务上夺冠，获得三连冠的成绩；在8月的DCASE2020挑战赛中，科大讯飞-中科大联合团队在声音事件定位与检测任务中又一次夺冠。

文章图片