|向产业链精细化进军:AI该如何深挖训练数据价值?( 二 )


显而易见 , 这时候 , 能够帮助企业管理好AI数据 , 就成了重要的创新机遇 。
到目前为止 , 有三类不同背景的玩家在加入赛道:
一是原本就向企业提供数据采集与标注服务的厂商 , 例如开篇提到的云测数据 , 这类企业入局 , 是AI“产业链条”自然延伸的结果 。
从行业地位看 , 在《互联网周刊》&eNet研究院、德本咨询联合发布的《2021数据标注公司排行》中 , 云测数据凭借最高99.99%精准度数据标注能力和场景化训练数据方案等 , 再次排在“数据标注公司排行”榜首位置 , 其云测数据标注平台4.0能够实现AI数据训练综合效率提升200% 。
但是 , 越是如此 , 云测数据这样的平台就越绕不过企业AI数据管理的问题——如果只是提供数据、帮助训练效率提升 , 而不推动企业“搞定”数据管理 , 随着企业面临数据管理的挑战 , 其商业模式越往下走就越会越到障碍 , 这时候 , 就只能在已有的技术和服务经验积累的基础之上拓展AI产业链条细化环节 , 推出专门的针对AI数据集管理的技术系统——也顺势成为国内首个该领域的系统 。
可以说 , 云测数据推出AI数据集管理系统 , 既是基于人工智能行业前瞻性发展的具象化技术产品体现 , 为企业寻找新的发展空间 , 也是AI产业链条闭环的一种倒逼 。
其优势在于 , 作为原来的AI训练数据服务商 , 借助AI数据集管理系统 , 可以以“全生命周期关注”的姿态走进需求企业 , 推动企业从最开始的数据获取到最终的产业落地全周期效率提升 , 帮助客户企业整体化思考 , 也契合AI发展告别项目制走向敏捷开发的趋势 。 而作为原本AI训练数据服务领域的领导者 , 云测数据的智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多垂直领域的数据服务技术与经验可以很好地横移到AI数据集管理当中 , 在数据检索、数据呈现、数据安全保障等方面有垂直化的经验壁垒 。
二是互联网、科技领域的大厂 , 它们都具备云计算方面的数据管理基础禀赋 , 其入局 , 是从数据管理大赛道延展到AI数据集管理小赛道的客观结果 。
较为典型的是IBM , 面向中国市场提供混合数据管理系统 , “利用数据管理驱动AI”是官方宣称的重要价值之一 , 例如其IBM Cloud Pak for Data , 产品功能是帮助企业收集、组织和分析数据 , “以实现有影响力的AI” , 而其实现主要包括在容器化的环境中运行IBM Db2 Warehouse等——不需要知道这是什么 , 只要知道这些原本就用于云计算数据管理即可 。
其他如从事数据标注的百度、阿里等 , 其云计算中都或多或少包含AI数据集管理的能力 , 只不过并非专门的系统 , 这类企业的优势在于 , 原本的数据管理往往会积累一定的基础客户量 , 在品牌上也有大厂背书 。
三是“白手起家” , 直接切入赛道的创新企业 , 这类企业以寻找商业机会为直接目标 。
例如来自上海的格物钛 , 主要提供面向机器学习的数据管理SaaS产品 , 支持企业进行海量数据托管 , 宣称要提供“人工智能基础设施” , 该企业目前得到了红杉、云启、真格以及风和资本的千万美金Pre-A轮融资 , 这从侧面反映了AI数据集管理的价值潜力 。
这类企业的优势在于轻装上阵 , 在资本的青睐和支撑下似乎可以把产品做得更精细化 , 当然 , 它们的出现 , 也意味着后续将有更多过去与AI数据集没有“渊源”的创新企业加入 , 这个赛道会越来越热闹 。
标准化的四个维度 , AI数据集管理挖掘AI产业链细化环节的创新价值
从具体做法来看 , 不管什么来路 , 做AI数据集管理 , 无非都包括标准化的四个维度 , 只不过实现方式各不相同 。
首先 , 是便捷的数据检索和利用 。
量大且非标准化 , 池子还在不断扩大 , 于是方便的检索和利用就成为AI数据集管理的核心任务 。
这方面 , IBM使用了开放式平台上的自动容器化功能 , 通过架构优势来让数据收集和管理变得更加简单智能 , 易于访问;而云测数据等企业都采用的是清晰化的标签与属性体系让工程师可以快速找到想要的数据 。
值得一提的是 , 云测数据的AI数据集管理系统还适配了多数的公开、开源数据集格式 , 这使得企业无论是从外部获得数据(这种情况十分普遍)还是自己花钱采集与标注得到的数据 , 都能得到统一的管理 。
此外 , 数据的“可读性”也是衡量AI数据集管理系统能力的关键指标 , 在数据筛选出来后还能将数据还原 , 能有效帮助AI开发过程实现精细化(图:云测数据-AI数据集管理系统数据可视化界面):