|向产业链精细化进军:AI该如何深挖训练数据价值?


|向产业链精细化进军:AI该如何深挖训练数据价值?
文章图片

文|智能相对论
【|向产业链精细化进军:AI该如何深挖训练数据价值?】作者|叶远风
AI算法工程师像普通用户在搜索引擎上搜索信息一样 , 将数据标注结果的标签(例如 , 车辆、树木)输入到互动窗口 , 所有与之有关的AI数据“元信息”就被筛选出来 , 随后 , 工程师用新的方式将这些数据重新“打包”构建起一个新的场景库 , 导入到AI模型的训练过程当中 , 一次针对特定场景的迭代训练就这样开始了 。
如果工程师需要 , 还可以根据最初采集数据的传感器 , 或诸多其他区分数据的属性来精确定位数据 。
这是某自动驾驶AI开发企业里的一次专注于特定场景AI模型训练的工作日常 , 看起来再正常不过 , 而在这之前 , 这家企业长期面临在庞大冗杂的训练数据库里难以筛选有价值数据进行特定场景模型训练的尴尬问题 , “守着金山挖不动” 。
问题的解决 , 是从采用了专门针对“AI数据集”的管理系统开始的——这个AI企业工作切面的背后 , 反映的是AI“产业链条”上值得关注的变化 。
AI场景化落地正随着数字经济的全面渗透而进入提速阶段 , 算法、算力和数据共同构成技术发展的三大核心要素 , 打通这三大环节才能让一个个AI应用真正落地到具体场景里产生价值 。 由此 , 在走向最终的产业应用之前 , “生产”AI应用的“产业链条”上也蕴含了无数的商业机会 。
但是 , 在数据层面 , 过去多数人最关心的只有喂养AI模型的“量”够不够用、数据的“质”够不够精准 , 而现在 , 数据这个AI“产业链条”的重要环节还在进一步细化 , 专业的AI数据集管理——Al数据集的上传、管理、存储、分享 , 正展示出推动高质量AI应用落地的价值 , 例如不久前的2021服贸会上 , 原本以高质量AI训练数据服务见长于业内的云测数据 , 就在其云测数据标注平台基础上发布了AI数据集管理系统 , 要为企业提供专业的AI数据集管理服务 。
而这个赛道上不只有云测数据 , 多种主体参与的产业现象正在这里形成 , 也带来当下人工智能领域重要的创新机遇 。
按下葫芦浮起瓢 , AI数据集管理挑战显现
诚然 , 随着算法模型、技术理论和应用场景的不断突破 , 加之“新基建”浪潮下算力基础设施的快速建设 , AI产业对数据“量”的需求在不断增长 , 数据量“短缺”一度成为AI产业链条上的瓶颈问题 。
但是 , 这可能并不会持续很长时间 , 嗅到机会的科技巨头、创新企业前些年在数据采集与标注上广泛布局 , 推动合格数据的“量”快速增长 , 这也使得数据标注行业作为AI上游基础产业在短短数年间实现了爆发式发展 。
有数据显示 , 2019年、2020年 , 数据标注行业市场规模为30.9亿元、36亿元左右 , 年均复合增长率20%左右 , 预计到2025年 , 国内数据标注市场规模将突破100亿元大关 。
这背后 , 根据AI数据标注猿统计数据 , 2020年4月 , 国内数据标注业务相关公司数量为565家 , 2020年12月 , 数量增长至705家 , 2020年4月份到12月份的相关数据标注需求公司增量为24.78% , 约20万全职从业者与约100万兼职从业者 , 正在让AI产业走出数据荒 。
当然 , AI数据也不仅仅来源于数据标注 , 互联网科技的快速发展也在助推中国数据“供给量”的总体提升 , 在IDC的报告中 , 中国的数据量增速比全球快3% , 预计到2025年将增至48.6ZB , 占全球总量的27.8% , 年复合增长率达30.35% 。
但是 , 量的问题一定程度上解决后 , 新的问题又冒了出来——如何更高效地利用数据 , 发挥数据的价值 。 其重要背景 , 是AI应用的开发方式发生了从项目制到敏捷开发的重要转变:
过去AI模型训练以一个个项目为主 , 做完项目、得出一个预期质量的AI模型后 , 使用过的数据便被“丢弃”;而现在 , 企业倾向于持续把过去已有的数据利用起来 , 逐步形成属于企业的数据池子 , 将数据在多个相关模型开发中进行重复利用 。
这就导致单个企业所积累的数据量越来越多 , 而众所周知数据量的增长又以非结构化数据为主 , 企业所面临的AI数据集管理的挑战越来越明显 , 例如 , 数据量太大 , 针对特殊的场景缺乏精准的方式去找到有价值的数据;原本数据管理凌乱 , 本地服务器存一点、云端有一点 , 版本更新不同步 , 甚至出现一个Excel表格管理数据的现象;数据随意拷贝、传输 , 存在重大的资产损失风险等等 。