阿里巴巴集团：3万字详细版介绍阿里巴巴达摩院15个实验室研究领域和科研成果( 二 ) |麻省理工学院|技术|梅宏|

哈佛大学&麻省理工学院教授，美国工程院院士, 美国科学院院士， “人类基因组计划”领军人物
Avi Wigderson

本文插图
Avi Wigderson
普林斯顿大学高等研究院教授, 美国科学院院士, 美国人文与科学院士
达摩院15个实验室介绍达摩院下设5大技术领域，共15个实验室， 5大技术领域分别是：机器智能、数据计算、机器人、金融科技、X实验室。
15个实验室分别归属5大研究领域，其中机器智能领域实验室最多。
机器智能研究领域实验室：语音实验室、视觉实验室、语言技术实验室、决策智能实验室、城市大脑实验室。
机器智能领域介绍阿里巴巴达摩院机器智能研究领域主要围绕机器学习等前沿技术开展理论与应用研究，帮助零售、医疗、司法、交通等行业提升效率，推动经济、空间技术、自动控制、计算机设计和制造等领域的变革。
机器智能研究领域下设语音、视觉智能、语言技术、决策智能、城市大脑五个实验室。

本文插图
金榕达摩院机器智能研究领域负责人

本文插图
金榕
卡耐基梅隆大学计算机博士。曾任密歇根州立大学终身教授， NIPS、SIGIR会议主席及KDD等委员会委员，美国国家科学基金会Career Award 。长期致力于统计机器学习，重点关注大数据分析及其在信息检索、电子商务等领域中的应用。
机器智能语音实验室致力于语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等下一代人机语音交互基础理论、关键技术和应用系统的研究工作。形成了覆盖电商、新零售、司法、交通、制造等多个行业的产品和解决方案，为消费者、企业和政府提供高质量的语音交互服务。
研究方向

语音识别及语音唤醒

面向家居、车载、??办公室、公共空间、强噪声、近远场等复杂场景，研究多语言、多模态、端云一体的语音识别及唤醒技术，通过平台方式提供丰富的开发者定制模型自学习能力，让业务具备语音模型的自定制能力。

语音合成

研究高音质、高表现力的语音合成技术及个性化语音合成，说话人转换技术，主要应用于语音交互、信息播报和篇章朗读等场景。

声学及信号处理

研究声学器件、结构和硬件方案设计，基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。

声纹识别与音频事件检测

研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。

口语理解及对话系统

基于自然语言理解技术，构建语音交互场景下的口语理解和对话系统，提供给开发者自纠错能力及对话定制能力。

端云一体语音交互平台

综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力，构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台，帮助第三方具备可扩展定制化的场景能力。

多模态人机交互

业内首创在公众场所强噪音的环境下实现免唤醒远场语音交互，并结合流式多轮多意图口语理解，业务知识图谱自适应等技术，面向公共空间真实复杂的场景提供自然语音交互体验。
产品及应用

多模态人机交互致力于用最自然的人机语音交流方式，打造公共空间真实场景下的智能服务机器。主打业内首创的强噪声环境下的免唤醒语音交互、语音识别、流式多轮多意图口语识别等技术，已应用于交通行业和新零售行业。 1）地铁语音售票机：全球首台地铁语音售票机，用户能够用该机器进行语音站点查询、语音模糊地点查询并完成路径规划；用户购票时间由30秒下降至10秒。 2）快餐店语音点餐机：用户可以用人机交流式的语音交互方式，完成客制化点餐需求的快速下单。
- 上一页
- 1
- 2
- 3
- 4
- 5
- 6
- 下一页

阿里巴巴集团：3万字详细版 介绍阿里巴巴达摩院15个实验室研究领域和科研成果( 二 )

阿里巴巴集团：3万字详细版介绍阿里巴巴达摩院15个实验室研究领域和科研成果( 二 )