视觉|通用视觉开源平台OpenGVLab发布，大幅降低通用视觉模型开发门槛二手车市场|车商|二手车商|美

2月25日，上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型，和千万级精标注、十万级标签量的公开数据集，为全球开发者提升各类下游视觉任务模型训练提供重要支持。同时，OpenGVLab还同步开放了业内首个针对通用视觉模型的评测基准，便于开发者对不同通用视觉模型的性能进行横向评估和持续调优。目前OpenGVLab开源平台（https://opengvlab.shlab.org.cn）已正式上线，供各界研究人员访问和使用，后续项目还将开通在线推理功能，供所有对人工智能视觉技术感兴趣的社会人士自由体验。

文章插图

“开源是一项意义非凡的工作，人工智能技术的迅速发展离不开全球研究人员十余年来的开源共建”，上海人工智能实验室负责人表示，“希望通过发布OpenGVLab开源平台，帮助业界更好地探索和应用通用视觉AI技术，促进体系化解决AI发展中数据、泛化、认知和安全等诸多瓶颈问题，为推动人工智能学术、产业发展做出贡献。”
如今虽然人工智能技术快速发展，但很多AI模型还只能完成单一任务，比如识别单一物体，或识别风格较为统一的照片。如果要对多种类型、风格进行识别，则需要具备足够的通用性和泛化能力。去年11月，上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布的通用视觉技术体系“书生”，很好地解决了这一问题。如下图所示，对于不同类型的图片，它都能较为准确地识别出图中的内容，包括图画。

文章插图
通用视觉开源平台OpenGVLab正是基于通用视觉技术体系“书生”（INTERN）打造的。依托“书生”在通用视觉技术上的强劲支撑，OpenGVLab将帮助开发者显著降低通用视觉模型的开发门槛，用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型，高效实现对长尾场景的覆盖，推动AI技术的规模化应用。
开放超高性能模型和千万级精标注数据集，降低学界投入成本 OpenGVLab充分继承了通用视觉技术体系“书生”的技术优势，其开源的预训练模型具备极高性能。相较于此前公认的最强开源模型（OpenAI 于2021年发布的CLIP），OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务，在准确率和数据使用效率上均取得大幅提升。
基于同样的下游场景数据，开源模型在分类、目标检测、语义分割及深度估计四大任务26个数据集上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%；同时，在分类、检测、分割和深度估计中，仅用10%的下游训练数据就超过了现有其他开源模型。使用此模型，研究人员可以大幅降低下游数据采集成本，用极低的数据量，即可快速满足多场景、多任务的AI模型训练。
同时，OpenGVLab还提供多种不同参数量、不同计算量的预训练模型，以满足不同场景的应用需求。模型库中列出的多个模型，在ImageNet的微调结果和推理资源、速度等方面，相比之前的公开模型均有不同程度的性能提升。
除了预训练模型，以百亿数据总量为基础，上海人工智能实验室构建了超大量级的精标注数据集，近期将进行数据开源工作。超大量级的精标注数据集不仅整合了现有的开源数据集，还通过大规模数据图像标注任务，实现了对图像分类、目标检测以及图像分割等任务的覆盖，数据总量级近七千万。开源范围涵盖千万级精标注数据集和十万级标签体系。目前，图像分类任务数据集已率先开源，后续还将开源目标检测任务等更多数据集。
此外，此次开源的超大标签体系不仅几乎覆盖了所有现有开源数据集，还在此基础上扩充了大量细粒度标签，涵盖各类图像中的属性、状态等，极大丰富了图像任务的应用场景，显著降低下游数据的采集成本。研究人员还可以通过自动化工具添加更多标签，对数据标签体系进行持续扩展和延伸，不断提高标签体系的细粒度，共同促进开源生态繁荣发展。
发布首个通用视觉评测基准，推动通用视觉模型评测标准统一伴随OpenGVLab的发布，上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准，弥补通用视觉模型评测领域的空白。当前，行业中已有的评测基准主要针对单一任务、单一视觉维度设计，无法反映通用视觉模型的整体性能，难以用于横向比较。全新的通用视觉评测基准凭借在任务、数据等层面的创新设计，可以提供权威的评测结果，推动统一标准上的公平和准确评测，加快通用视觉模型的产业化应用步伐。