米粒创意|科大讯飞终于「独木成林」，十年之后( 三 ) 机器之

多维度自学习平台
刘聪提到，当前语音识别呈现的另外一个趋势，是通过自学习更新的方式实现各种层次的个性化能力。「个性化能力」既指针对特定用户的常用词汇、口音、方言，也指像声学场景领域文本唤醒词等其他的内容。针对这样一个问题，科大讯飞推出了多维度自学习平台。

文章图片
针对某些产品，该平台可以在端侧直接实现用户无感知的个性化训练；面向开发者的定制需求，平台提供了分层次的定制能力。不久之后，这一平台的功能也将在讯飞开放平台上线，开放给所有开发者。
语音合成的未来是什么？
对应「语音识别」的全场景音频解析，刘聪提到，在「语音合成」方面，也需要实现「从语音到声音的全场景音频合成」。

文章图片
情感的表达和合成和预测也是当前语音合成领域的重要方向，也是业界的研究热点。由此，科大讯飞对自身的语音合成能力进行了新的拓展，基于自然语言理解技术，从文本中分析出情感焦点以及角色信息，并通过语音呈现，进一步结合针对特殊情况打造的背景音乐，最终呈现一场全场景的音频合成。除了交互场景之外，这一方案在小说合成、配音合成等领域也将大有可为。
第四代OCR识别框架
科大讯飞在图文识别领域，总共有4代OCR框架，同时也代表着业界算法演进的趋势。

文章图片
上图中的第四代框架是在今年大会上提出的，它可以实现从版面分析到文字识别的端到端模型，较好地解决第三代算法中一些文本行检错误问题，并且可以解决数理化解答题等复杂问题。
但OCR的价值不限于此，各种场景的文档类材料，例如教育试卷、金融票据、卷宗等内容，仍然需要一套通用的方法来实现高精度的文档恢复。第四代框架结合图卷积神经网络（GCN）等结构化分析技术和基于生成对抗网络（GAN）的图文数据生成技术，解决了「通用问题」。

文章图片
多语种端到端统一建模技术
无论是识别还是合成技术，都会面临多语种推广的问题。针对多语种相关语言知识积累不足的问题，科大讯飞设计了基于相似性的端到端统一建模方案。一方面，通过多语种统一的表征和混合建模，实现跨语种的信息共享，充分发挥语种之间的共性及互补性；另一方面，通过统一的端到端建模，降低对专家知识和数据的依赖。

文章图片
此外，针对领域数据不足的问题，科大讯飞利用数据增强训练技术，在识别和合成的训练当中打通各种无监督、有监督语音文本数据的闭环。这些多语种的能力，也将在讯飞开放平台上正式开放给所有开发者。

文章图片
针对多语种技术，科大讯飞将会陆续开放60个语种的语音合成能力， 69个语种的语音识别能力， 56个语种的图文识别能力和168个语种间的机器翻译能力。

文章图片
每年的1024这一天，我们都能发现科大讯飞在「开放」这件事上更进一步，用自己所有的能力浇灌一棵「AI科技树」，去服务百万开发者。从原始种子到参天大树，每一片枝叶背后都蕴含了大量的付出和努力。