人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发( 二 )


杜珉旭称 , 这部分人在做数据标注中 , 往往对行业了解比较浅显 , 有些仅是为了挣钱 , 对行业动态则较少关注 。
黄明后来跳槽到了一家做激光雷达的创业公司做销售 。 在他看来 , 数据标注行业好处之一 , 是能对接到许多高端企业 , 以最低门槛接触到人工智能领域 。
他们的共识是 , 对于带孩子的宝妈、农村待业人士 , 甚至一些残障人士 , 数据标注员不失为一份可以接受的工作 。
人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发文章插图
众包模式下质量与权益问题俱增
中国的数据标注行业最早可追溯到2005年 , 著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州 , 创办了莲花山研究院 , 筹建据称是当时世界上最早的大数据标注团队 。
2015年 , 随着人工智能巨头的崛起 , 数据标注和采集需求激增 , 市场真正意义上开始形成 。 许多数据服务公司作为乙方进入到日益扩大的市场 , 为百度、阿里等大型互联网公司 , 以及AI独角兽企业等服务 。
截至目前 , 数据标注产业已经遍布全国 , 以第三方数据服务商、巨头布置基地和众包模式呈现 , 例如百度山西的AI数据标注基地、贵州百鸟河的梦动科技、河北和安徽的数据堂基地 , 以及河南的千机数据、睿金科技 , 河北涞源县东团堡村等 。
梦动科技数据服务事业部总监曾芸对第一财经采访人员介绍 , 梦动属于独立的数据服务商 , 联动贵州盛华职业学院 , 对学生以产教融合的方式进行数据标注的教学和培养 , 从大量的实习生开始 , 逐渐选拔出能够适应数据标注员工作的正式员工与管理人员 。
而如同西梅的“兼职工作” , 数据标注最开始的蛮荒发展 , 由“众包”模式而兴起 。 这些众包平台上一端对接项目需求公司 , 另一端对接大量有空余时间的志愿者(兼职人员) 。 这种众包结构的优点是可以组织社会上的大量兼职人员进行标注 , 节省公司的运营成本 。
众包存在的弊端也较为明显 , 分散的兼职人员 , 专业背景和工作能力参差不齐 , 沟通成本高昂 , 数据保密也相对困难 。 一旦需求公司要调整原有标注需求 , 兼职人员流动性大 , 无法灵活服务需求公司 。
西梅告诉第一财经 , 今年3月份疫情高峰时 , 她曾约到一家外包公司 , 据称当时一天大约数据产值能达200元 , 算下来一个月五六千左右工资 。 但真正开始测试时对方就在不停地催产量 , 后来由于数据验收不及格打回来返工 , 一个半月的时间返工了两次 , 最后西梅仅拿到了400多元 。
据了解 , 众包模式的资源对接往往通过一些微信群或QQ群 。 采访人员在QQ上搜索“数据标注” , 发现了兼职群、项目资源对接群 , 经验交流分享群等大大小小的数据标注群 。 顺手加入了几个群后采访人员发现 , 群内都比较活跃:群友们经常发布项目 , 寻找兼职 , 并且每隔一段时间都会有新成员加入 。 同时 , 采访人员时不时地在群里看到一些标注员被项目甲方拖欠标注工资的投诉 。
众包模式也是大量数据标注员工资普遍较低的原因之一 。 黄明对第一财经表示 , 经过多层中介后 , 每个中介都在赚差价 , 因而导致的甲方成本较高 , 实际上真正标注的人挣的钱就比较少 。
一些做得好的数据标注员则更倾向于筹划组建团队 , 寻找资源单干 。 而这些情况越多 , 一方面使得数据标注行业发展快速 , 另一方面则造成了行业众包中介层叠越来越严重 。
对于数据标注员而言 , 行业的转型升级也意味着自身能力的转型升级 。 中国信通院报告指出 , 现阶段AI应用研发 , 数据标注是根本 , 10年之内都要依赖于标注数据 。
【人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发】至于机器什么时候能够取代人工数据标注 , 至今仍没有人能说出明确答案 。 但第一财经采访人员看到 , 在数据标注各式各样的QQ群里 , 依然每天不断出现新的项目需求和个人兼职的信息 , 依然不断有关注数据标注行业的大量讨论 。