第三部分是自然语言理解,机器理解人说话的目的和意图,并拆解出来做相关的动作。这里面最大的点是我们人类说话表达的方式真的差异化很大,中国有13亿人口,我们会认为每一个人的表达方式都是特殊的,所以中文不是一个语言,从某个意义上来讲是13亿的语言,对于13亿语言我们怎么去理解它?这部分也是非常大的挑战。
对于这三类来看,我们刚刚提到是需要大量的数据来去不停优化我们的三个核心算法,这里也有做过统计,发现现在对于人工智能的性能提高来讲,95%的收益是来自于数据,也就是说使用什么样的数据,比如刚刚说口音不好识别,那使用针对性的口音优化,你的识别率就会明显提升。
而对于数据来说,其实就是AI的原油,就像人类开车的汽油也是从原油加工之后最后可以使用的汽油。对于数据也是同样,我们获取原始的数据就是将日常交流当中的原始声音送到模型里迭代优化,这个过程还是要经过一步一步标准的处理和清洗,这个过程叫做数据结构化,根据不同行业场景的需求,行业性的解决方案也会不同。
结构化的质量其实也决定了智能系统的性能,比如刚刚说到的什么样的数据清洗用于这一次模型迭代的优化?这会影响模型最后输出的效果。除此以外还有最重要的一点就是数量,对于数据在AI领域也有一句话叫做“No data is not more data”。
我们看到随着横坐标的数据数量增加,纵坐标上识别的性能也会有明显的增加,而这张图里两个黑点,对比的是上面的黑点,对于一些科技互联网公司来说所增加的数据量级。我们会看到对于行业在和科技互联网公司比较过程中,数据增量上还是有差距,更多行业的数据还在等待被挖掘。数据量也是决定智能系统的上限。
这里刚刚提到更多的数据带来性能的优化,大家可能会想问,投入是无止境的吗?其实投入也是有技巧的,新开的一个功能从零开始搭建底层基础数据集,这投入成本是蛮大的事情。考虑到整个的发展,包括我们要兼具模型的通用性,我们会使用数据二八原则,即所有数据80%是共性的,20%会根据不同客户企业需求定制开发,以下我们通过一个类别来解释。
左侧这张图是假设了一个场景和一个企业,设备商会优化四个功能点,每一个功能点如果全部进行定制的数据采集和标注,我们会看到其实在ABCD这四个点上,每一个功能点都需要一千小时的数据,也就是四千小时数据量作为总投入,每个功能点上享有的只是一千小时。右侧这四个功能点我们会认为底层很多的能力是可以复用的。
比如说我们想要解决四川话或上海话的方言问题,这里底层80%的数据是复用的,每个功能拿出20%数据做定制,根据功能点进行数据采集和标注,我们会看到其实总的投入量有1600小时,分到每一个功能点上可以享有2000小时的训练量,你的投入更小,获取的收益就会更大。除了ROI的对比以外,在数据基础的投入情况下,我们也会看到有更多其他的优势,其中非常重要就是考虑数据合规性的问题。
针对对话式AI,前面提到的这些现在也跟大家分享一下我们爱数智慧针对对话式AI的数据解决方案。首先我们目前享有全球最大的对话式AI库,这都是经过多维度标签化的,所有数据获取都是完全合规的,从C端获取到了相应授权,我们所有对话数据可以分成国内覆盖有各大方言地区,方言地区以外我们会涉及到双语,比如说中英文混合的语音现象。第二部分就是外语数据,主要考虑的就是英语,比如“一带一路”,外语也会帮助智能化转型的企业出海,帮助大家更快进行底层模型迭代。
除了前面的数据,我们也分别针对不同的场景客户需求,去形成相应标准数据解决方案。这里用一个出行里的智能座舱举例,这也是目前比较火的方向。另外像智能客服和智能营销,这里所有解决方案都是数据维度的,什么样的数据能够在相应的模型优化过程中,很快迭代出一个基础的模型性能。然后是智能家居,这个不赘述了,包括现在也有很多行业客户都在开始考虑智能会议,也是一种类智能社交的应用。
今年4月份的时候,我们开源了数据集,前面提到的这么多数据集分别会拿出一部分的数据放到我们的开源社区MagicHub.io上。最后讲一讲Annotator 5.0智能化标注平台。我们看到在整个数据需求侧,其实市场规模增速也是非常快的,这里核心数据标注的模式主要就是围绕像图像、语音以及文本这三类数据,当然这三类数据在标注过程中也看到一些痛点。
- 主板|华为智慧屏视频通话功能怎么使用,操作难不难?
- 智能网联汽车|我国智慧城市基础设施与智能网联汽车协同发展第二批试点城市公布
- 华为智慧屏|手机有必要上一亿像素吗?这组样张对比图给出了答案
- 华为Nova|大众集团CEO如果失业了,做特斯拉欧洲负责人是他最好的选择
- 苹果|AMD CEO苏姿丰:显卡首先为游戏玩家服务 其次才是矿工
- 翻新|上海电话亭翻新 增加一键叫车智慧屏
- 华为智慧屏|电视音质也可以发烧级!华为智慧屏V 98分布式影院带来5.1声道体验
- 硅谷|推特CEO也成印裔,印度人彻底接管硅谷,手下10万华人打工仔
- ceo|打不过微信?Facebook转型,Twitter内斗CEO被迫出走
- 客户|专访昆仑芯科技CEO欧阳剑:已有数十家客户,三年要跨越鸿沟