标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型( 三 )


标注之后怎么办?这是学术界和工业界很火的大模型和无监督学习。
为什么我们在这里面放了大模型和无监督学习?刚才我们讲到,一开始我们想做井盖被人拿走的事实检测,我们一开始可能没有这么多标注好的数据,可能只有100个,但数据标注的效率可能是万分之一。
如果你想标1万个这样的数据,需要标1亿个data,这个量非常大。怎么办?
先标100个,为什么要用大模型和无监督学习配合这个数据去跑模型?就是为了让你初始模型的精度达到最高。
无监督和大模型最好的方式,本来100个数据训练出来的精度只有30%,用大模型和无监督学习的方法训练之后,精度可以达到80%,那挖掘数据的效率可以提高10倍,也就是说我少标了10倍的数据,一切都是为了后面数据迭代的效率来做的。
为什么大模型和无监督学习可以提高这个性能?虽然它自己没有标注数据,但它是被千亿、百亿级的数据训练出来的,知道井盖是什么样的,这种特征的编辑其实已经实现了,再配合少量数据的标注,就可以得到一个还不错的初始模型。
为什么要得到还不错的初始模型?因为数据迭代的效率会更高,首先是为了第一步方便。
第二步,我们不说模型迭代,而是数据迭代,因为我们认为模型的训练已经被标准化了,在平台上,点个按钮它就训练好了,不需要有模型训练的知识,我们专家的系统已经把它做好了。
所谓的数据迭代,就是在海量还没有标注好的数据中,找到能够提高模型性能的数据,进行主动学习。
传统模型研发的范式是缺数据再去标,但发现标过来的数据跟以前的分布是一样的,对模型的分布没有太大用处。所以需要用技术、算法找到对自己真正有用的数据,右边我们从海量数据中找出了9张有用的数据。
模型挖掘怎么做?在左边平台界面,点一个按钮,选一个数据集,可以自动在这里面挖掘,从几亿的数据里找到几张跟井盖相关的数据做训练,我们是用主动学习算法做数据择优的。

标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型
文章插图

数据迭代之后,要做模型训练,在这个平台上用一键化的方式去做,这就是我们花几百万招过来的博士应该干的事情,他们不应该天天调参数、挖数据,这些事情应该让平台去干。
这一步,只要你点训练,它可以自动训练,背后怎么训练?是由开发者去开发的。但是在整个平台上去进行操作的人,不需要知道大规模模型训练,这降低了训练模型人员的从业要求,只要他知道这是怎么回事,把数据拿进去就可以训练,无代码一键完成模型开发。
做这种平台研发环境的好处是什么?数据沉淀在平台上,动作可复用,流程可追溯。这里面有几个界面:数据集管理、模型管理、任务管理。
数据集管理,就是一些标注好的数据集,以及挖掘、生成的数据集;模型管理,就是训练好的模型;任务管理,可以是标注任务,也可以是挖掘任务,也可以是训练任务,所有研发的轨迹全部停留在这里面。
为什么要做这个事?很简单,因为人力成本太高,企业无法招聘太多人从事每一个算法的研发。有了这套平台之后,我们可以实现非算法人员开发模型的方式,让算法工程师做更高级别的技术,这些平台话、流程化的事情,可交给一般的技术人员或者学生来做。
整个过程中,我们认为沉淀更多的是数据价值,这比模型的价值更大。
为什么数据的价值比模型的价值更大?
数据没有了,模型是训练不出来的,你不会再得到提高,即使得不到模型,数据在这儿,所以很容易再训练一个模型出来。
数据的重要性远远高于模型的重要性,所谓持续性的研发,沉淀出来的是有价值的数据,而不是其他。
因为模型很容易重新训练,或者用不同的数据迭代。但数据日积月累需要很长的时间。在整个平台上,通过数据不停的挖掘、训练、标注、迭代,会一轮一轮增加新的数据,为每个任务沉淀出非常优质的数据集。
也就是说,在这个平台上,数据变成了最重要的资产。
另外,所有的开发技巧也沉淀到平台上了。
如果大家搞研发管理,就会发现一个现象:部分人能做得特别好,部分人怎么都做不好。这是因为,任务、指令都是一样的,但不同的人研发经验是不一样的。
人才的素质属于不可控因素,如果把这套技术能力进行沉淀,每个模型研发过程都能实现可追踪,这样就能让做不好的人,通过学习,把事做好。