标准化|云天励飞王孝宇：AI 研发和应用，数据的重要性远高于模型

文章插图

2021年12月11日，由雷峰网 & AI 掘金志主办的第四届中国人工智能安防峰会，在深圳正式召开。
本届峰会以「数字城市的时代突围」为主题，会上代表城市AIoT的14家标杆企业，为现场和线上观众，分享迎接数字城市的经营理念与技术应用方法论。
在下午场的演讲环节中，云天励飞首席科学家王孝宇发表了精彩演讲。
王孝宇认为，AI的研发模式有两大关键点：

用什么样的数据训练模型；
模型如何基于数据得到更好的结果。

过去的研发模式大都以模型为中心，依赖专家，找数据、标注数据，然后让AI博士调参，如同工业化时代的“拧螺丝钉”，导致AI无法大规模产业化。
同时，过去的研发范式，大都集中于用更好的技术建立更好的模型。但几年之后，业界发现所用的技术越来越趋同，标准化的条件成熟了
事实上，对比不同研发模型，可以发现对AI研发和应用来说，高效地获取最好的数据，比模型本身要重要得多。
究其原因是技术迭代快，容易被赶上，但数据迭代慢，因此如何在最短时间内得到可以使模型达到最优效果的数据集，这才是最重要的。
因此鉴于人力成本和模型标准化条件的成熟，云天励飞在内部打造了一套标准化、流程化、平台化的模型研发方式。
云天励飞大规模算法研发的流程是：
第一步，获取初始模型。通过分布式标注平台定义任务，再利用被千亿、百亿级的数据训练出来的大模型和无监督学习，配合少量数据的标注，得到不错的初始模型。
第二步，数据迭代。在海量还没有标注好的数据中，用技术、算法找到真正有用的数据，用主动学习算法做数据择优。
第三步，模型训练。在云天励飞的平台上用一键化方式，完成调整参数、数据挖掘等工作，降低对训练模型人员的从业要求。同时让数据、研发轨迹、开发技巧都沉淀在平台上，动作可复用，流程可追溯，降低AI人员高流动性带来的负面影响。
他认为视觉AI目前还处在拓荒阶段，是一片沙漠，没有变成绿洲，只有等到其变成绿洲时，才能“长”出很多AI企业，而云天励飞建立的这套平台，就是加速沙漠变绿洲的驱动底座。
以下是王孝宇演讲全文，雷峰网AI掘金志作了不改变原意的整理与编辑：
很高兴与大家一起分享云天励飞从事AI研发十几年来总结的一套模型研发范式，我这次的演讲题目是——AI大规模产业化实践。
首先做下自我介绍。我毕业之后去了硅谷，在NEC Labs做无人车、人脸方面的研究。2015年，我和另外几人一起去洛杉矶，帮Snap公司创建了AI研究院。2017年，回国之后，我来到了云天励飞。
2017年的时候，人工智能开始火爆起来，有非常多的应用，像聊天机器人、无人车、人脸识别，健康领域，智慧家居、AR等。但是只有人脸识别有人相信，其他的，不管是业界还是投资人，都认为是骗子，觉得做不出来什么东西。
时隔五年，再回头来看行业，我觉得很有意思。聊天机器人在每个社交网络平台，像阿里、京东，现在在电商平台上都有应用。无人车，慢慢也有Robotaxi的落地，现在也有很多企业在这方面兴起。在健康领域，五年前我们还在讨论IBM沃森的失败，当时折腾了很大的动静，但现在有很多这方面的优秀企业兴起。
当时美国一些知名的AR公司也倒闭了，但现在很多公司把自己的名字改成元宇宙，又火了起来，AR又让大家看到了希望。
这些变化其实印证了我的一个观点：不要高估AI带来的改变，也不要低估AI带来的影响，我们是在这片沙漠里垦荒的一批人。
在垦荒的过程中，我们回过头来看AI，落地应用的最大瓶颈是什么？
人才太贵了。
六年前，我们招聘AI博士的时候，给到40万美金一年，光是养一群技术人员，每年的人力成本就是一个巨额数字。但是现在，这项成本正在降低，究其原因，是AI的研发模式发生了变化。
AI的研发模式，有两个关键点。首先，有什么样的数据训练模型；其次，如何用各种技术基于数据来让模型取得更好的效果。
过去，大家把重心放在模型上，需要数据就要找，不停标注，标注完以后，就是专家干的事了，天天调模型参数、损失函数、优化器，很多AI博士毕业之后就干这个事。
这个事其实跟工业化时代拧螺丝钉的工作没太大区别，但没有博士相关的学习经历，还干不了这个事，所以很难规模化、产业化。