「阿里巴巴」3万字详细版 纵览阿里巴巴达摩院15个实验室研究领域和科研成果( 四 )

  • 声纹识别与音频事件检测
  • 研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等 。
    • 口语理解及对话系统
    基于自然语言理解技术 , 构建语音交互场景下的口语理解和对话系统 , 提供给开发者自纠错能力及对话定制能力 。
    • 端云一体语音交互平台
    综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力 , 构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台 , 帮助第三方具备可扩展定制化的场景能力 。
    • 多模态人机交互
    业内首创在公众场所强噪音的环境下实现免唤醒远场语音交互 , 并结合流式多轮多意图口语理解 , 业务知识图谱自适应等技术 , 面向公共空间真实复杂的场景提供自然语音交互体验 。
    产品及应用
    • 多模态人机交互致力于用最自然的人机语音交流方式 , 打造公共空间真实场景下的智能服务机器 。 主打业内首创的强噪声环境下的免唤醒语音交互、语音识别、流式多轮多意图口语识别等技术 , 已应用于交通行业和新零售行业 。
    • 智能语音客服应用于智能语音导航(电话客服机器人、快递咨询等)、智能外呼(催收、回访、发货前确认等)、金牌话术、智能质检、App服务直达等多种场景 。 目前已落地于支付宝95188热线、菜鸟电话机器人、中国平安培训助手、中国移动智能客服等 。
    • 端云一体语音交互提供全链路语音交互的能力 , 跨平台接入各类设备 , 具备有交互系统的场景化、定制化能力和主动交互能力 。 1)车载语音智能助手:已与上汽荣威、福特等汽车品牌合作 。 2)远场语音电视:阿里-海尔五代人工智能电视 , 用户与电视机进行远场语音交互 。
    • 司法政务语音助手将语音识别技术、防串音处理技术、自然语言理解、大数据分析等技术综合运用 , 用于庭审语音识别与记录、案件分析等场景 。 目前已应用于浙江高院、福建高院等客户 , 覆盖全国28个省市 , 超过1万个法庭 。
    • 开源DFSMN声学模型开源新一代语音识别声学模型DFSMN , 将公开英文数据库上的语音识别准确率提高至96.04% , 是近年来语音识别领域极具代表性的成果之一 。
    研究团队
    鄢志杰
    鄢志杰 达摩院语音实验室负责人
    中国科学技术大学博士 , IEEE高级会员 。 长期担任语音领域顶级学术会议及期刊专家评审 。 研究领域包括语音识别、语音合成、声纹、语音交互等 。 曾任微软亚洲研究院语音团队主管研究员 。
    付强
    付强 达摩院语音实验室研究员
    西安电子科技大学博士 , 曾在美国OGI从事博士后研究 。 在IEEE Trans等学术刊物及会议上发表论文近百篇 。 曾获中国科学院杰出科技成就奖(2014年)、中国语音产业联盟先进个人(2016年) 。
    马斌
    马斌 达摩院语音实验室研究员
    香港大学博士 。 加入阿里前 , 他是新加坡资讯通信研究院 (I2R)的语言技术部门负责人和资深研究员 。 曾任 IEEE/ACM 音频、语音及语言处理期刊和Elsevier语音通信期刊的编委 。 是INTERSPEECH 2014年技术委员会联合主席 , 曾获新加坡总统科技奖 。
    冯津伟
    冯津伟 达摩院语音实验室研究员
    弗吉尼亚理工大学博士 。 师从音频声学泰斗沙家正先生 , 并与导师一起研制出了全球第一台扬声器纸盆共振频率的自动测试系统 。 曾主持开发基于麦克风阵列的视频跟踪系统 。
    机器智能 视觉实验室致力于研发与运用图像和视频的分析和理解、三维视觉等技术 , 构建以图像视频为媒介的产品和应用 , 提升商业效率或创造商业新机会 , 广泛应用于新零售、新媒体、新制造等领域 。