行早 发自 凹非寺
量子位 | 公众号 QbitAI
华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空。
这个新发布的数据集不仅规模大——包含1亿组图文对,而且质量也很高。
所有图像都是筛选过的,长宽都在200个像素以上,比例从1/3-3不等。
而和图像对应的文本也根据其语言、长度和频率进行了过滤,隐私和敏感词也都考虑在内。
例如这一组数据集中的例子,内容还相当新,像进门扫码登记,社区疫苗接种的防疫内容都有。
文章插图
这一波可以说是填上了大规模中文多模态数据集的缺口。
悟空数据集自一年前OpenAI的CLIP+Dall·E组合开启新一轮多模态学习浪潮以来,算上后续的ALIGN和FILIP,都在视觉语言预训练(VLP)领域表现优异。
世界范围内的成功离不开大规模数据集的支持,但中文开源数据方面,有是有,规模大的不多。
文章插图
有了“悟空”数据集之后,就可以支持更多预训练模型用于下游任务。
数据集之外,团队还附赠了一款基本模型,参考了流行的文本图像双编码器架构:
文章插图
其中视觉标记和文本标记作为输入。然后,将两种模式的输入标记连接起来,并用位置嵌入来显示标记位置。
有意思的一点是,这里的图像编码器是从英文数据集上训练的,上面预加载并锁定了从外部模型中训练的英文数据集中的权重。
但是仍然可以中文文本进行跨模态预训练,在下游任务中也表现得很好。
除此之外,华为诺亚还提供了不同下游任务的基准测试。
【华为诺亚方舟实验室|1亿组图文对,填补中文开源多模态数据集空白| 文本】例如零样本图像分类,下图中除了WukongViT-500M,其他的悟空模型变体都是在这个一亿的数据库上训练的:
文章插图
再比如在图像检索文本和文本检索图像这两个任务上,在五个不同的数据集上的测试结果如下:
文章插图
而这也证明了将在英语数据集上预训练的图像编码器应用于中文多模态预训练的良好效果。未来也可能会探索更多的解决方案,利用悟空数据集训练多语言跨模态模型。
目前悟空数据集在官网即可下载(链接在文末),赶快用起来吧~
数据集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html
论文地址:
https://arxiv.org/abs/2202.06767
- 银行|效率大增 华为携河北移动实现5G新通话行业应用首呼
- 华为mate|华为Mate50Pro风格大变,麒麟芯片很亮眼,鸿蒙系统更优秀
- 小米科技|各品牌目前最值得买的手机推荐,iPhone华为无悬念,小米选不出来
- 华为|华为“五大军团”立功,获重要项目承建,任正非:和平是打出来的
- 华为鸿蒙系统|mate9已经升级鸿蒙,表示没压力,体验我觉得还可以在用几年
- 华为|比尔盖茨的话正在应验,美国没料到,打压华为的反效果出现了
- 华为鸿蒙系统|华为拍照旗舰创新低,麒麟芯+鸿蒙OS+3200万前摄,只要1400元
- 华为|2022年屏幕素质“最强”的4款手机,色彩与护眼兼顾,护眼极佳
- 三星|华为Mate旗舰机皇停更鸿蒙OS! 一大难题待解决:为鸿蒙系统3做准备
- 华为鸿蒙系统|双模5G+鸿蒙OS,从3799跌到1899,华为经典旗舰手机降价1900元!