|向产业链精细化进军:AI该如何深挖训练数据价值?( 三 )


一方面 , 这类可视化功能可以帮助AI开发工程师直接查看数据最开始的状况 , 更容易理解数据;另一方面 , 如果工程师有新的数据需求 , 也可以通过可视化的方式进行精确化的数据调校 。
然后 , 是日常管理和使用的便捷性、安全性 。
本质上 , AI数据集管理是企业AI开发工作流程在信息化方面的一种体现 , 作为重要的工作对象和企业资产 , 企业层面的流程规范必须在AI数据集管理系统中得到遵守 。
所以 , 可以看到 , 格物钛在系统中做到了数据的查看、编辑、使用和管理权限分离 , 来保障数据的访问安全;而云测数据则强调多团队协作与数据资产化管理同步进行 , 提供多团队数据使用权限分配、存储空间限定、使用日志记录等功能 , 企业可以根据实际需要灵活配置权限 , 这种做法能保证数据版本、工作协同的效率 , 且“数据失窃”、“删库跑路”等资产损失事件将最大程度规避 。
再有 , 是对企业自主扩展的支持 。
一般而言 , AI数据集管理都是与企业AI开发全流程紧密融合的 , 企业往往要将这套系统进行扩展以更好地满足上下游业务需求 , 而由于不同行业、企业的情况各不相同 , 服务厂商不太可能提供一个能够支持所有企业都将AI数据集管理系统与企业上下游业务实际相融合的标品方案 。
这时候 , 将系统做得很有扩展性 , 尽可能基础化、通用化 , 并支持企业自主开发扩展就变得很重要 , 可以看到 , 云测数据提供了有Python SDK、CLI和API等开发工具 , 让企业可以根据业务需要 , 持续集成数据输入、输出训练、数据迭代等业务场景 。
最后 , 是部署成本的节约 。
这是很多企业选择AI数据集管理系统的重要决策依据 。
由于公有云、私有云的发展 , 这方面的逻辑已经变得比较简单 , 越是弹性化、包容性强的方案 , 越可能实现恰当的成本支出 , 典型如云测数据就十分强调其“灵活易扩展的混合存储支持”的特性 , 支持根据数据安全级别、使用频率、使用方式等对数据集分级管理 , 让企业可以“在安全和经济上灵活选择” 。
总体而言 , AI数据集管理系统需要照顾的企业需求已经固定 , 剩下的是入局的玩家如何根据自身优势各显神通、挖掘更深度的商业价值了 。
结语
服贸会上 , 云测数据在推出其AI数据集管理系统时 , 特地强调了“采、标、管、存一站式服务” , 回过头来看 , 这固然是个体厂商在强调自身的独特优势 , 但从行业角度而言 , 也某种程度上说明了AI数据集管理的最根本意义是让AI在最终落地前形成标准化的产业链条 , 所谓AI应用的“工业化大生产”能够从最初的“原料”到最后的“成品”实现全链条打通 , 而这 , 通常是一个行业走向成熟的重要标志 。
一旦“产业链条”走向完善 , AI训练数据将不只有在采集标注时精确度提升 , 其价值也将得到充分挖掘 。 总体来看 , AI应用开发的质量、效率都将得到提升 , 而最终成本将会下降 , 所谓的“提质、增效、降本”三位一体的企业理想或也将最终得以实现 。
*本文图片均来源于网络