标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型


标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型
文章插图

2021年12月11日,由雷峰网 & AI 掘金志主办的第四届中国人工智能安防峰会,在深圳正式召开。
本届峰会以「数字城市的时代突围」为主题,会上代表城市AIoT的14家标杆企业,为现场和线上观众,分享迎接数字城市的经营理念与技术应用方法论。
在下午场的演讲环节中,云天励飞首席科学家王孝宇发表了精彩演讲。
王孝宇认为,AI的研发模式有两大关键点:

  • 用什么样的数据训练模型;
  • 模型如何基于数据得到更好的结果。
过去的研发模式大都以模型为中心,依赖专家,找数据、标注数据,然后让AI博士调参,如同工业化时代的“拧螺丝钉”,导致AI无法大规模产业化。
同时,过去的研发范式,大都集中于用更好的技术建立更好的模型。但几年之后,业界发现所用的技术越来越趋同,标准化的条件成熟了
事实上,对比不同研发模型,可以发现对AI研发和应用来说,高效地获取最好的数据,比模型本身要重要得多。
究其原因是技术迭代快,容易被赶上,但数据迭代慢,因此如何在最短时间内得到可以使模型达到最优效果的数据集,这才是最重要的。
因此鉴于人力成本和模型标准化条件的成熟,云天励飞在内部打造了一套标准化、流程化、平台化的模型研发方式。
云天励飞大规模算法研发的流程是:
第一步,获取初始模型。通过分布式标注平台定义任务,再利用被千亿、百亿级的数据训练出来的大模型和无监督学习,配合少量数据的标注,得到不错的初始模型。
第二步,数据迭代。在海量还没有标注好的数据中,用技术、算法找到真正有用的数据,用主动学习算法做数据择优。
第三步,模型训练。在云天励飞的平台上用一键化方式,完成调整参数、数据挖掘等工作,降低对训练模型人员的从业要求。同时让数据、研发轨迹、开发技巧都沉淀在平台上,动作可复用,流程可追溯,降低AI人员高流动性带来的负面影响。
他认为视觉AI目前还处在拓荒阶段,是一片沙漠,没有变成绿洲,只有等到其变成绿洲时,才能“长”出很多AI企业,而云天励飞建立的这套平台,就是加速沙漠变绿洲的驱动底座。
以下是王孝宇演讲全文,雷峰网AI掘金志作了不改变原意的整理与编辑:
很高兴与大家一起分享云天励飞从事AI研发十几年来总结的一套模型研发范式,我这次的演讲题目是——AI大规模产业化实践。
首先做下自我介绍。我毕业之后去了硅谷,在NEC Labs做无人车、人脸方面的研究。2015年,我和另外几人一起去洛杉矶,帮Snap公司创建了AI研究院。2017年,回国之后,我来到了云天励飞。
2017年的时候,人工智能开始火爆起来,有非常多的应用,像聊天机器人、无人车、人脸识别,健康领域,智慧家居、AR等。但是只有人脸识别有人相信,其他的,不管是业界还是投资人,都认为是骗子,觉得做不出来什么东西。
时隔五年,再回头来看行业,我觉得很有意思。聊天机器人在每个社交网络平台,像阿里、京东,现在在电商平台上都有应用。无人车,慢慢也有Robotaxi的落地,现在也有很多企业在这方面兴起。在健康领域,五年前我们还在讨论IBM沃森的失败,当时折腾了很大的动静,但现在有很多这方面的优秀企业兴起。
当时美国一些知名的AR公司也倒闭了,但现在很多公司把自己的名字改成元宇宙,又火了起来,AR又让大家看到了希望。
这些变化其实印证了我的一个观点:不要高估AI带来的改变,也不要低估AI带来的影响,我们是在这片沙漠里垦荒的一批人。
在垦荒的过程中,我们回过头来看AI,落地应用的最大瓶颈是什么?
人才太贵了。
六年前,我们招聘AI博士的时候,给到40万美金一年,光是养一群技术人员,每年的人力成本就是一个巨额数字。但是现在,这项成本正在降低,究其原因,是AI的研发模式发生了变化。
AI的研发模式,有两个关键点。首先,有什么样的数据训练模型;其次,如何用各种技术基于数据来让模型取得更好的效果。
过去,大家把重心放在模型上,需要数据就要找,不停标注,标注完以后,就是专家干的事了,天天调模型参数、损失函数、优化器,很多AI博士毕业之后就干这个事。
这个事其实跟工业化时代拧螺丝钉的工作没太大区别,但没有博士相关的学习经历,还干不了这个事,所以很难规模化、产业化。