:AI公司的练级之道:如何更具扩展性?
全文共1370字 , 预计学习时长5分钟
机器学习似乎已成为每个人都追求的一个宏大目标 , 超过80%的公司都正在研究至少一个AI项目 。
本文插图
图源:unsplash
在开始之前 , 最好先询问自己以下三个问题:
· “此机器学习模型的准确性如何?”
· “培训时间多长?”
· “需要多少培训数据?”
用户通常想知道新模型的装载需要多长时间 , 以及它的性能或推广效果如何 , 他们想要一种根据性能衡量总体成本的方法 。 但遗憾的是 , 以上问题的答案并不能解决这个问题 。
它们甚至具有误导性 。
模型训练只是冰山一角 。 获取合适的数据集以及清理、存储、聚合、标记、建立可靠的数据流和基础架构管道需要巨大成本 , 但大多数用户和AI / ML公司都忽略了这一点 。
根据最近的研究 , 公司在AI / ML项目中将80%以上的时间用于数据准备和工程业务 。 换句话说 , 如果将大部分精力放在构建和训练模型上 , 则总的工程工作量和成本可能是预计的五倍 。
此外 , 机器学习模糊了用户和软件开发商之间的界线 。
AIaaS或MLaaS已经开始出现 。 随着数据的增长 , 云端模型不断改进 。 也正因如此 , MLaaS的业务比SaaS更具挑战性 。
本文插图
资料来源:黄Bastiane
机器模型从训练数据中学习 , 因此缺乏高质量的数据 , 模型将无法良好运行 。 在大多数情况下 , 用户并不了解生成或注释适当数据集的最佳做法 。
当系统性能不佳时 , 用户往往会归咎于模型 。 因此 , AI / ML公司通常花费大量时间和资源进行培训并与用户合作 , 以确保数据质量 , 这成为AI公司与其客户之间的共同责任 。
本文插图
图源:unsplash
例如 , 要训练生产线上的缺陷检查模型 , 计算机视觉公司需要与客户合作 , 以正确的角度和位置安装摄像头 , 检查分辨率和帧频 , 确保每个场景都有足够的正负面训练样本 。
某些时候机器人或车辆需要人为操作 , 因此使用机器人技术或自动驾驶汽车应用程序进行数据收集更加耗时且成本更高 。
即使进行了培训课程 , 且看完了所有用户手册和指南 , 你仍然不能完全控制用户生成的数据 。 一家机器视觉相机公司告诉我 , 他们的工程师会手动验证所有数据以确保其完整输入 。
本文插图
图源:unsplash
所有这些经常被忽视的额外培训、手动检查、数据清理和标记任务会给AI公司带来巨大的间接费用 。 这就是为什么要建立更具可扩展性的AI/ML项目的原因 。 那么该如何解决这个问题呢?
1、可扩展性是关键 。
确定大量客户愿意购买的正确用例 , 并使用相同的模型体系结构解决 。 最后 , 你需要在没有标准产品的情况下为不同的公司构建和训练不同的模型 。
2、尽量提供自助服务 。
尽可能使培训和数据管道自动化 , 以提高运营效率并减少对体力劳动的依赖 。 相比较内部工具或自动化 , 公司更看重开放客户可见的功能 , 但是前者很快就会收到回报 , 你需要确保为内部流程自动化分配足够的资源 。
3、最后 , 确定并跟踪成本 , 尤其是隐性成本 。
工程师花费了多少时间清理、过滤或聚合数据?他们花费多少时间来确保第三方正确完成注释?他们需要多久帮助客户设置环境并正确收集数据?其中有多少可以自动化或外包? 分页标题
本文插图
【:AI公司的练级之道:如何更具扩展性?】
图源:unsplash
练级之路可能艰难而漫长 , 但有些问题是迟早都需要面对的 。
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
如转载 , 请后台留言 , 遵守转载规范
- 『上海证券报』这家公司什么来头?,机构扎堆前十大股东榜单
- 『汽车之家』戴姆勒宝马出行公司遇难题,业务缩水
- [追剧小能手]完成文华财经升级改造,多家期货公司发布称
- 【天猫】淘宝天猫总裁蒋凡因传言致歉,恳请公司对自己展开相关调查
- 「商务联盟网」在疫情时期不间断向中国出口新鲜牛奶,新西兰牛奶乳业有限公司
- 「链得得APP」纳斯达克上市公司发行数字证券案例解读
- 【链得得APP】纳斯达克上市公司发行数字证券案例解读
- 交通运输部:全面提升国际货运能力 鼓励航空公司用客运飞机直飞货运运输
- 「国民乐见」有种“整容院”叫经纪公司,张艺兴没啥,看到泫雅:公司还招人吗?
- 「佩洛西」这家美国公司因“中国血统”遭佩洛西发难?“妄想症”得治!