米粒创意|科大讯飞终于「独木成林」,十年之后( 三 )


多维度自学习平台
刘聪提到 , 当前语音识别呈现的另外一个趋势 , 是通过自学习更新的方式实现各种层次的个性化能力 。 「个性化能力」既指针对特定用户的常用词汇、口音、方言 , 也指像声学场景领域文本唤醒词等其他的内容 。 针对这样一个问题 , 科大讯飞推出了多维度自学习平台 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
针对某些产品 , 该平台可以在端侧直接实现用户无感知的个性化训练;面向开发者的定制需求 , 平台提供了分层次的定制能力 。 不久之后 , 这一平台的功能也将在讯飞开放平台上线 , 开放给所有开发者 。
语音合成的未来是什么?
对应「语音识别」的全场景音频解析 , 刘聪提到 , 在「语音合成」方面 , 也需要实现「从语音到声音的全场景音频合成」 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
情感的表达和合成和预测也是当前语音合成领域的重要方向 , 也是业界的研究热点 。 由此 , 科大讯飞对自身的语音合成能力进行了新的拓展 , 基于自然语言理解技术 , 从文本中分析出情感焦点以及角色信息 , 并通过语音呈现 , 进一步结合针对特殊情况打造的背景音乐 , 最终呈现一场全场景的音频合成 。 除了交互场景之外 , 这一方案在小说合成、配音合成等领域也将大有可为 。
第四代OCR识别框架
科大讯飞在图文识别领域 , 总共有4代OCR框架 , 同时也代表着业界算法演进的趋势 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
上图中的第四代框架是在今年大会上提出的 , 它可以实现从版面分析到文字识别的端到端模型 , 较好地解决第三代算法中一些文本行检错误问题 , 并且可以解决数理化解答题等复杂问题 。
但OCR的价值不限于此 , 各种场景的文档类材料 , 例如教育试卷、金融票据、卷宗等内容 , 仍然需要一套通用的方法来实现高精度的文档恢复 。 第四代框架结合图卷积神经网络(GCN)等结构化分析技术和基于生成对抗网络(GAN)的图文数据生成技术 , 解决了「通用问题」 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
多语种端到端统一建模技术
无论是识别还是合成技术 , 都会面临多语种推广的问题 。 针对多语种相关语言知识积累不足的问题 , 科大讯飞设计了基于相似性的端到端统一建模方案 。 一方面 , 通过多语种统一的表征和混合建模 , 实现跨语种的信息共享 , 充分发挥语种之间的共性及互补性;另一方面 , 通过统一的端到端建模 , 降低对专家知识和数据的依赖 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
此外 , 针对领域数据不足的问题 , 科大讯飞利用数据增强训练技术 , 在识别和合成的训练当中打通各种无监督、有监督语音文本数据的闭环 。 这些多语种的能力 , 也将在讯飞开放平台上正式开放给所有开发者 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
针对多语种技术 , 科大讯飞将会陆续开放60个语种的语音合成能力 , 69个语种的语音识别能力 , 56个语种的图文识别能力和168个语种间的机器翻译能力 。
米粒创意|科大讯飞终于「独木成林」,十年之后
文章图片
每年的1024这一天 , 我们都能发现科大讯飞在「开放」这件事上更进一步 , 用自己所有的能力浇灌一棵「AI科技树」 , 去服务百万开发者 。 从原始种子到参天大树 , 每一片枝叶背后都蕴含了大量的付出和努力 。