按关键词阅读:
在场景和行业上,爱数智慧构建了五大行业垂类AI数据集,包括智慧出行、智能社交、智慧金融、智能家居以及智能终端。以智能座舱为例,整个行业在语音识别、语音合成、自然语言理解方面,普遍还面临识别率低、机器听不懂、合成声音比较假等难题。
文章插图
爱数智慧合伙人兼销售副总裁 张涛
据爱数智慧合伙人兼销售副总裁张涛介绍,国内车企在拓展海外市场时,会涉及到要能够识别不同地区用户的英语口音问题。通过大量的对话数据集或者语料库,爱数智慧已经将这些共性抽取出来,从而形成了一个标准AI训练数据集。
客户通过这些数据集来训练它的模型,就能够让整个人机交互提升到更高的水平。除此之外,爱数智慧还能够提供智能化标注平台Annotator ? 5.0,为企业提供私有化部署,在保证数据安全的情况下帮助客户降本增效。
目前,有不少传统车企和造车新势力都已经成为爱数智慧的客户。
在大多数人的印象中,会把数据标注认为是一项没有技术含量的活儿,甚至认为只需要中专生、大专生审核对错、是否敏感即可。但其实,数据标注是要将现有的专家知识体系和知识图谱融入到系统中去,也就是“教机器做事”。
随着AI数据处理的复杂度越来越高,就需要更多垂直行业和场景的背景知识。因此,AI数据标注这个动作未来会越来越会由懂行业knowhow的专家来完成。
但是每个企业不可能都请到专家天天做数据标注这样最基本的动作。要能够做到真正地降本增效就需要一款能够高效且自动化、智能化的数据处理工具,爱数智慧将其称之为office for AI——Annotator ? 5.0智能化标注平台。
经过5年的迭代,这套系统不断给各大企业处理音频、视频、文字等多模态数据,如今Annotator ? 5.0不仅仅是一个数据标注平台,更是在此之上同步完成了企业的数字化、信息化以及智能化这三个步骤。
众所周知,企业的系统中都存在大量的音视频等非结构化数据,并没有被智能化的挖掘出来释放出其价值。而这套系统就可以帮助企业把这些杂乱无章的数据进行相应的标签化,并存储到企业的数据库中,从而便于企业基于这些数据再进行挖掘,为决策分析提供参考。
张涛谈到,在这个标注系统中,已经有大量专业术语的知识沉淀。在标注的过程中,机器可以像帮助人工解决一部分标签化的工作,而人只需要在此基础上做一些校正即可。整体操作效率预计能够提高100%以上,综合成本反而可以降低50%。
同时,为了满足更多行业和AI从业者对于训练数据的需求、降低数据使用门槛,解决找数据难的问题,今年4月上线的MagicHub.com开源社区也体现出了爱数智慧在整个行业中的前瞻式布局。
迄今为止,开源社区已拥有超过60个包含语音识别、语音合成、发音词典、自然语言理解等不同类型的开源数据集,覆盖全球超过3000名开发者,数据集累计下载量超过7万小时。MagicHub.com开源社区除了开源大量数据集外,还与各大高校和相关机构合作,通过组建开发者社群、开展培训和赛事,致力于打造全球AI开发者生态。
科学家创业重在思维转换
要以客户为中心
回顾爱数智慧5年来的发展,也是一部科学家的创业史。有投资人就曾说过,科学家创业者掌握着核心技术以及商业转化的能力,这是投资者最为关注的。但对于这些科学家创业者,最大的挑战可能在于缺乏倾听市场和客户需求的意识。
刚刚创业时,张晴晴感觉到的是既有未知的兴奋,也同时有创业0到1所带来的不确定感。“最开始,甚至财务的小姑娘都在帮我们标数据,大家没有什么区别,只要能够一起解决,大家都会伸把手”。从研究学术的科学家到成立公司面临商业化的难题,给张晴晴带来的最大挑战来自于思维上的转换。
“最开始和市场销售的同事、客户交流的时候,可能大家都不是在一个频段上。”但对于张晴晴来说,其实并没有什么退路,只能迎难而上去解决这些问题。
科研人员普遍追求的是类似于1+1=2这样一个客观真理,然后不断地思考、迭代,并且很多时候都是独立完成,但作为一家商业化定位的企业服务公司,更多时候要去看客户遇到了什么问题,并且在考虑投入产出比的情况下,如何帮助客户解决现有的问题。
张晴晴谈到,我们很多时候追求的理论上极致,不见得是一件好事,加之AI本身的发展速度非常快,如果按照现有规则解决,有可能半年后会发生一些调整,这么看来,当期的投入其实可能是不合适的。所以,科研出身的创始人在思维上很重要的转变就是要从理想化、追求极致的状态转变为以客户为中心。
稿源:(创业邦)
【傻大方】网址:http://www.shadafang.com/c/1103942F12021.html
标题:女科学家创业:花300天整数据,如今为超100家AI企业输送“原油”( 三 )